Bisfico applique des décennies de savoir-faire en marchés financiers,
investissements, gouvernance et technologie à la résolution de vos problèmes. 

Methodologie

DONNÉES DE BASE, NETTOYAGE ET MISE EN VALEUR
Graphique de connaissance Yewno
  • Les données sources sont construites à partir de la lecture universelle de brevets et de documents d'actualité, en utilisant les capacités d'IA et d'apprentissage automatique de Yewno. La méthodologie crée un Knowledge Graph, dont les nœuds, ou concepts, sont créés par la machine à partir de la lecture de tous les types de documents.
  • "Le KnowledgeGraph de Yewno est une représentation puissante et dynamique des connaissances à travers un vaste corpus de documents et évolue en temps réel.
  • Le moteur d'inférence de Yewno détecte et explique les relations et les changements de connexions dans le temps. Les connexions peuvent être retracées jusqu'au document source, voire jusqu'à la phrase."
  • Un ensemble de scores lie les documents et le concept. La répétition du document dans le Concept et sa diffusion dans le Graphique de la connaissance fixent le score.
  • "Un total de cinq facteurs est calculé pour mesurer l'exposition des entités à la liste augmentée des concepts cibles, ce qui permet une représentation matricielle des données :
  • Les scores d'importance sont basés sur le nombre de cooccurrences entre l'entité et les concepts cibles ou la publication de documents par les entités avec des mentions des concepts cibles ; deux scores sont fournis :
    • Le score de contribution est une mesure de l'importance de la mention de chaque entreprise ou de la publication de documents liés au concept cible connecté par rapport à toutes les entreprises de l'univers des actifs.
    • PurePlayScore est une mesure du pourcentage de mention ou de publication de documents de chaque entreprise au concept cible par rapport à ses mentions ou publications sur d'autres concepts
    • Centrality Score est basé sur la diffusion de la centralité (PageRank local) du réseau construit à partir des mentions/publications entre concepts. Il incorpore des connexions de second ordre qui favorisent les nœuds centraux connectés à d'autres nœuds centraux.
    • Le score de similarité est basé sur la proximité des entreprises et des projections de concepts dans l'espace sémantique.
    • Le score agrégé est une combinaison linéaire pondérée des scores précédents, normalisée par le maximum.
  • Description des données et organisation des données :
    • Inférences Description des données : Outre les scores numériques d'exposition, des extraits de texte provenant des sources de contenu sont fournis. Ces inférences mettent en évidence la connexion entre les différents concepts et les entités correspondantes.
    • Incorporation de la structure de l'entreprise : Les scores d'exposition des entités correspondantes sont mis en correspondance avec les entités mères, reflétant la structure d'entreprise appropriée à une date donnée. "
    • Les concepts peuvent être n'importe quelle chaîne : un mot-clé, une politique, une technologie, une entreprise. Il existe des millions de concepts ; il est donc essentiel qu'à mesure que des concepts sont demandés, la liste soit réduite à ce qui est utile.
Sélection des concepts, Concepts demandés dans le cadre de la décarbonisation

Puisque l'objectif est d'identifier les entreprises qui innovent dans le cadre du thème général de la course à l'émission zéro, la liste des concepts demandés (CR) sera initialement axée sur les brevets comme source de documents. Dans cet univers, les technologies sont liées aux entreprises par le biais des brevets eux-mêmes. Les scores Contribution et Pureplay permettront ensuite de classer les entreprises, pour chaque CR, en fonction de leur degré de spécialisation dans la technologie en question (Pureplay) et de la part de la charge du CR qu'elles représentent (Contribution). Les scores sont agrégés à partir de la lecture de documents sur une période de 365 jours.

La liste des CR doit être suffisamment complète pour capturer tous les aspects du thème de la décarbonisation en question, mais suffisamment orthogonale pour éviter les répétitions. En effet, un seul brevet peut capturer plusieurs mots-clés.

Thèmes et sous-portefeuilles de décarbonisation

Pour faciliter la sélection des concepts demandés, ceux-ci sont organisés à travers un arbre de classification comme suit. Chaque branche de l'arbre comprend une Classe, une Sous-Classe, un Sous-Portefeuille et un CR.

 La liste des RC propriétaires a utilisé les entrées suivantes : 

  • Technologies connues pour chaque sujet recueillies par la recherche
  • Concepts incrémentaux provenant d'experts
  • Nœuds proches dans le Knowledge Graph avec l'aide des scientifiques de Yewno.

L'arbre est mis à jour à des fins de requête deux fois par an, pour les données de fin décembre et de fin juin, les dates pivots. En mars et septembre, les dates de rééquilibrage, l'ensemble des RC de la date pivot précédente est utilisé.

Le niveau Sous-portefeuille est un niveau d'agrégation des scores utilisé dans le processus de construction du portefeuille, d'où son nom. Un Sous-Portefeuille est un Thème puisqu'il regroupe les CR au sein d'un sujet spécifique, comme l'énergie solaire ou la voiture autonome.

Nettoyage des entités et amélioration des données

La liste des entités générée par les fichiers comprend différents identifiants au sein d'une même entreprise, tels que les tickers d'obligations. Il s'agit de tickers non standard qui doivent être convertis dans un format utilisable. Comme nous nous concentrons sur les investissements en actions, chaque "ticker" est comparé à une base de données de prix, en laissant de côté les identifiants autres que ceux des actions, pour les bourses que nous pouvons négocier. Au début de l'année 2021, 962 tickers simples ont été identifiés. Un nettoyage plus poussé permet d'éliminer la double cotation (par exemple, les ADR) et les tickers ambigus (actions au porteur), ce qui réduit l'échantillon d'une centaine de personnes supplémentaires.

Une fois que nous disposons de cette liste plus ou moins courte, une base de données fondamentale des entreprises est mise à jour, incluant des identifiants complémentaires tels que les tickers Bloomberg et les codes ISIN, ainsi que les classifications par pays/région et par secteur. Les données relatives aux prix, à la capitalisation boursière et aux volumes sont demandées et traduites quotidiennement en USD et en EUR. Plus loin dans le processus, un filtre de volume est appliqué en fonction de l'objectif lors de la demande de la liste des scores. À partir d'un volume de 10 millions de dollars (sur 50 jours), environ 20 % des actions sont exclues. Notez qu'il y a 14 devises représentées à la fin de 2020.

NORMALISATION ET AGRÉGATION DES DONNÉES
Brevets

Chaque ligne de l'ensemble de données comprend cinq éléments critiques complétés par des identifiants uniques :

  • Date de référence (31.12.20)
  • Type de source du document (Brevets)
  • Concept demandé (Batterie au lithium)
  • Société (3M)
  • Notes

Quelques jours après chaque date de pivotement et de rééquilibrage (Date), Bisfico récupère les fichiers dans le seau AWS S3 de Yewno et met à jour sa base de données AWS SQL. Chaque RC a son fichier pour trois ans de données, ce qui représente plus de 250 fichiers de zéro à 20000 lignes chacun. Une fois agrégé, le tableau complet des scores compte plus d'un million de lignes. 

  1. Agrégation par période
    Pour chaque date, trois années de données sont agrégées.
     

  2. Normalisation
    Les scores de Contribution et Pureplay, qui sont utilisés dans les sources de brevets, ne sont pas statistiquement distribués. 
    La distribution est également incohérente entre les CR. L'objectif est d'identifier les entreprises dominantes dans chaque CR et sous-portefeuille, et non pas celles qui ont le score le plus élevé, car elles ne sont pas normalisées. Pour normaliser, nous utilisons des tranches de percentile comme rangs. Les 5 % les plus élevés, par exemple, seraient classés comme les meilleurs et les 5 % les moins élevés comme les pires. En tant que nombres entiers, les classes sont ensuite utilisées comme scores au niveau du CR, puis agrégées au niveau du sous-portefeuille, le niveau supérieur suivant.
     

  3. Agrégation des CR et des sous-portefeuilles

    Avant de créer les scores de classement, les scores des CR par entreprise sont agrégés comme la somme des scores Pureplay et Contribution de ce CR pour les trois années. Pour le Pureplay et la Contribution spécifiquement, cela signifie qu'une entreprise qui a un score Pureplay/Contribution supérieur pendant plusieurs années sera favorisée. 

    Des scores de classement sont créés, en regroupant chaque RCD et en créant des bacs de taille égale de 1 (meilleure somme (score)) à 15 (pire) combinant Contribution et Pureplay avec une clé de répartition.

    Pour les sous-portefeuilles, l'agrégation est effectuée par la médiane des scores Pureplay et Contribution sur trois ans. L'utilisation de la médiane (par opposition à la somme) minimise l'effet des grandes entreprises ayant une présence multiple de RCID ou des thèmes avec un grand nombre de RCID. L'objectif est de trouver l'acteur de qualité dominant dans la technologie ou le thème, et non le plus grand.

Les scores de classement sont créés, en regroupant chaque sous-portefeuille et en créant des bacs de taille égale allant de 1 (meilleure somme(score)) à 15 (pire) combinant Contribution et Pureplay avec la même clé de répartition que les RC.

Figure 1 : Distribution de RankScore, nombre d'entités par jonction de score, juin 2020

Comme le montre cette figure, s'il existe une corrélation sans surprise entre les deux types de groupements (RCs et SP), il existe des différenciations claires dans la distribution. Une entreprise ayant un bon score RC peut ou non avoir un bon score SP également.

Figure 2 : Densité régionale et sectorielle, Brevets, juin 2020


Comme on peut le voir dans la distribution régionale, il y a une sous-représentation apparente des entités européennes dans le fichier de notation. Le manque de valeurs technologiques, par rapport aux États-Unis et à l'Asie, et de sociétés industrielles est une caractéristique marquante. Bien que le thème soit prédominant en Europe, il est représenté par de grandes entreprises industrielles qui voient leur score dilué parce qu'elles réalisent beaucoup d'autres développements sans rapport. 

Actualités

Les sources d'actualités utiliseront un sous-ensemble des CR, qui seront plus génériques que les technologies spécifiques concernées. Le filtre d'actualités est utilisé à la fin du processus pour distinguer les actions de grande capitalisation en fonction du caractère positif du flux d'actualités.

  1. SCORING

    Les scores de similarité et de centralité sont ceux qui rendent le mieux compte de l'impact des nouvelles. Pureplay et Contribution sont inutiles pour un tel éventail de documents, tandis que Similarity capturera naturellement la charge d'actualités d'une société particulière dans l'espace. En outre, ces scores peuvent être négatifs, ce qui permet une différenciation supplémentaire.

    Figure 3 : Fonction de densité ajustée de Similarity, juin 2020

    Les distributions sont plus normales que celles de Pureplay et de Contribution, mais elles doivent être transformées en catégories de rang, car nous pouvons observer une certaine asymétrie à droite. Dans tous les cas, la taille de l'échantillon d'entités ayant des actualités liées aux sujets est inférieure à celle des brevets et biaisée par rapport aux grandes capitalisations. Un travail supplémentaire doit être effectué dans les CR pour réduire le nombre de concepts assez génériques qui résonnent davantage que la liste étroite, axée sur la technologie, utilisée actuellement (c'est-à-dire principalement celle des brevets). Le noyau de nouvelles a de la valeur car il montre les tendances pour les entreprises dans le sujet, et il peut être négatif, indiquant la nature du lien.

  2. Agrégation
  • L'agrégation se fait uniquement au niveau du sous-portefeuille et utilise la médiane comme score, soulignant la force de l'entreprise, en moyenne, dans le thème particulier. La somme conduit à ce que les grandes entreprises soient représentées de manière écrasante puisque leur nom résonne dans de nombreux thèmes. L'agrégation conduit à un score SP unique pour les actualités, pour la date pivot. Un score de 7 (moyenne) est attribué aux entreprises qui n'ont pas de score. Dans la sélection ultérieure, les scores ci-dessus sont utilisés comme un écran.
  • Chaque carré montre la densité d'entités uniques pour chaque croisement des scores de classement SP pour les nouvelles (lignes) et les brevets (col.) (en ignorant les scores de 7). Comme on peut le voir, il n'y a pas de relation entre les scores de News et de Brevets. Cela montre explicitement que l'innovation, telle que capturée par les brevets, ne se reflète pas dans les nouvelles. Les raisons peuvent être nombreuses, mais le contrôle de la communication des entreprises peut modifier la perception d'une entreprise par rapport à sa réalité sous-jacente. Il se peut également qu'un événement ou le secteur d'activité d'une entreprise (pensez aux entreprises pétrolières, gazières et minières) entraîne un flux de nouvelles négatives qui écrase les discussions sur l'innovation et les efforts de transition. Dans tous les cas, le brevet en tant que source est intrinsèquement différent de l'actualité. Nous pensons qu'il se différencie également des notes E dans les cadres de notation ESG. Nous y reviendrons plus tard.

Figure 4 : Distribution régionale des notes de classement des actualités, juin 2020

Comme on peut le voir, la plupart des entreprises européennes obtiennent de bons résultats dans les actualités, tandis que les entreprises américaines et canadiennes sont réparties de manière plus équilibrée, les entreprises technologiques ayant tendance à avoir des classements uniformément répartis.

SÉLECTION

A ce stade, nous avons généré un score de classement normalisé pour les brevets (RCs et SP) et les actualités (SP). Nous disposons également du prix et des données fondamentales pour chaque société. Plus de 650 sociétés sont disponibles pour le screening, après sélection pour les scores ADTV et null Pureplay.

Objectif

L'objectif de la construction de portefeuille étant de minimiser les expositions aux facteurs et le risque idiosyncratique, nous traduisons ces objectifs dans le contexte de notre ensemble de données. Les facteurs sont considérés comme des thèmes ou des sous-portefeuilles. Le processus va donc forcer la diversification en construisant des "sous-portefeuilles" au niveau des sous-portefeuilles et gérer le flou ou les répétitions des entités afin de respecter l'objectif idiosyncratique.

Construction des sous-portefeuilles

Sur la base du score de classement normalisé par RC et SP, un processus de filtrage en plusieurs étapes est appliqué :

  1. Sélectionner un sous-échantillon par région, en visant à équilibrer l'exposition régionale. Par exemple, 100% des entités basées en Europe seront prises en compte, 90% en Asie et 80% aux Etats-Unis. Le niveau réel est déterminé par la taille de l'échantillon par région nécessaire à la construction du portefeuille.
  2. Un filtre quantile pour chaque score de niveau RC, c'est-à-dire le niveau technologique, et SP, c'est-à-dire le thème. Étant donné que l'objectif est de trouver des leaders technologiques par rapport à de larges participants, le filtre SP est plus agressif que le filtre RC. Après avoir testé l'efficacité d'un tel équilibre, l'utilisation du seul RC comme filtre surpasse l'utilisation du seul SP, car il capture les petites entreprises à forte capitalisation. 
  3. A titre d'exemple, en décembre 2020, les niveaux de SP sont à 4% (4% des entités sont conservées) alors que les niveaux de RC sont plus proches de 8%. En effet, cela signifie que 92% des entreprises, à chaque niveau de CR, sont exclues. Cela signifie également que l'échantillon d'entreprises qui passe au travers est très sensible à un changement du niveau de filtre. Ces niveaux sont déterminés par un processus itératif, de sorte que le portefeuille final compte environ 100 titres. Environ 350 titres sont dans l'échantillon après le filtre RC et SP.
  4. Afin de minimiser le turnover, les entités qui sont déjà dans le portefeuille bénéficient d'un filtre moins agressif. La condition préalable est qu'elles soient toujours dans le filtre d'environ 350 entités mentionné ci-dessus.
  5. Toutes les entités restantes sont regroupées au niveau du sous-portefeuille, c'est-à-dire que toutes les entités filtrées par le filtre RC et le filtre SP sont empilées au niveau du SP, avec leurs scores. Chaque SP a donc un nombre différent d'entités. Sur un échantillon total d'environ 300 actions, chaque SP a entre 135 et moins de 10 entités. Il n'est donc pas possible d'appliquer un filtre proportionnel, sinon certains PS seront largement surreprésentés.
  6. Afin d'atténuer ce phénomène, deux méthodes sont appliquées : le niveau de filtrage est plus agressif pour les tailles d'échantillon supérieures à 50 qu'inférieures.

À ce niveau également, et uniquement pour les titres qui ont un score de la source News, un filtre de notation est appliqué. Ce filtre sépare ainsi les grandes entreprises en fonction de la dynamique de leur flux de nouvelles dans chaque thème.

Construction du portefeuille et dimensionnement des positions

À ce stade du processus, chaque SP est composé de 2 à 12 titres, mais le nombre total de titres est d'environ 100.

Chaque entité de chaque SP se voit attribuer un poids égal, c'est-à-dire 1% si le portefeuille compte 100 titres. Bien sûr, cela signifie que la somme totale des pondérations est supérieure à 100 puisque de nombreux titres sont répétés dans toutes les PS (environ 65%). Pour satisfaire l'objectif de 100%, les étapes suivantes sont appliquées :

  1. Regrouper les titres et additionner leur poids dans les PS. A ce stade, la notion de sous-portefeuille est fondue dans le portefeuille. Si le titre A est présent dans 7 PS, son poids est de 7%.
  2. Réduire les poids au-dessus de 2.5% à ce niveau. Le titre A a maintenant 2,5%.
  3. Rééquilibrer pour que le poids total soit de 100% ET que l'exposition aux marchés émergents soit de 0,5% inférieure à sa limite (limite de 10% dans le certificat GBI-Decarb, donc 9,5% est le poids agrégé).
BackTesting

La méthodologie décrite est appliquée pari passu pour chaque date de référence. Comme la taille de l'échantillon augmente avec le temps, les nombres réels de filtres sont différents. La première date de référence est le 30/06/2020, avec des données à partir du 30/06/2014.

Avec la méthodologie de minimisation du chiffre d'affaires, qui favorise les actions existantes, les portefeuilles sont dans une certaine mesure auto-corrélés au premier. Cet effet se dissipe avec le temps, car environ 20 % des entités changent à chaque date de rééquilibrage (6 mois).

Nous sommes à votre disposition pour tout renseignement. 

Contactez-nous

 

 

Découvrez également