Le clustering, ou comment ne pas se laisser déborder par les données

Giulia Caputo
Date02 novembre 2017

La recherche d’optimisation énergétique est un enjeu majeur pour les gestionnaires de parcs de bâtiments. Mais il n’est pas toujours évident de dégager des informations pertinentes du très grand nombre de variables à leur disposition. Comment traiter cette masse de données pour identifier les sites mauvais élèves en matière d’efficacité énergétique et faciliter la prise de décision ?

À données simples, interprétation simple

Croiser et interpréter des données n’a rien de sorcier lorsqu’elles sont peu nombreuses. Si les deux seules variables à prendre en compte dans l’évaluation de la performance énergétique étaient la consommation d’énergie et la surface, il devient alors possible d’identifier sur un graphique en deux dimensions, les sites à cibler en priorité dans le cadre d’une recherche d’économies d’énergie, voir Figure 1.

consommation d'électricité en fonction de la surface Figure 1 : Représentation de la consommation d’énergie en fonction de la surface.

Le cercle vert repère les sites les plus consommateurs. Ce ne sont pas forcément les plus problématiques puisque ce sont aussi les plus grands. En revanche, les sites identifiés dans le cercle rouge consomment trois fois plus d’électricité que certains sites de même surface. Ce sont donc ces sites que l’on va prioriser.

Mais comment dégager des tendances pertinentes lorsque le nombre de données à considérer (nombre d’employés, localisation, données météorologiques, type de chauffage, typologie de bâtiment, horaires d’ouverture, etc.) est beaucoup plus élevé (voir Figure 2) ? Sans synthèse de ces informations, il est presque impossible d’identifier facilement ce qui impacte la consommation et donc comment cibler la bonne action d’économie à mettre en œuvre.

extrait d'une base de données

Figure 2 : Extrait d’une base de données patrimoniales contenant 193 variables et 589 individus

Le clustering de données ou l’art de segmenter son parc pour y voir plus clair

C’est là qu’intervient le clustering de données, méthode permettant d’analyser l’ensemble des données propres à chaque patrimoine afin d’aboutir à une segmentation pertinente des bâtiments. Les typologies qui en résultent permettent de classer les bâtiments entre eux pour identifier les bons et les mauvais élèves.

Exemple avec l’analyse d’un réseau de boulangeries :

Le réseau contenait 158 sites avec pour chacun 118 variables de natures diverses (la description des équipements, nombre d’employés…). Le clustering a permis de comprendre quelles variables étaient les plus discriminantes et a permis de distinguer 3 typologies de site.

Graphiques obtenus suite au clustering des données :

graphiques clustering de données

Une des typologies a particulièrement attirée notre attention. Elle se caractérisait par la présence systématique d’un pétrin (voir Figure 3), une propension plus grande à consommer en heures creuses (voir Figure 4), des dépassements plus fréquents (voir Figure 5), et une consommation surfacique d’énergie légèrement supérieure à celle des autres classes (voir Figure 6).

En présentant ces résultats aux équipes techniques de l’enseigne, ils ont tout de suite reconnu dans le groupe 3 les sites qu’ils avaient équipé de nouveaux fours à pétrin. Ces fours, censés être plus performants, étaient en réalité mal régulés et fonctionnaient toute la journée ce qui menait finalement à des dépassements et une surconsommation d’énergie. Ce résultat contre-intuitif (des équipements plus performants entrainant une plus grande consommation), a été mis en évidence par une approche de classification, sans a priori sur les données. Finalement, un simple rappel du bon fonctionnement de ce nouveau type de four a suffi à faire baisser la facture d’énergie de ce client.

A travers cet exemple, on comprend bien comment la data analytics peut être mise au service de l’efficacité énergétique. Ici, le clustring a permis de dégager facilement les tendances d’une base de données en simplifiant les termes d’un problème initialement complexe. On peut alors obtenir une vision plus claire et déterminer où se cachent les économies d’énergie et comment les mettre en œuvre.