L’extraction de connaissances à partir de grands ensembles de données représente un domaine très actif dans la communauté informatique. Les algorithmes sous-jacents sont caractérisés essentiellement par le niveau de complexité des ensembles de données manipulées, la source de ces données et les types de connaissances générées. Dans le cadre précis des entrepôts de données, ces derniers comportent des données de types simple monovalué : numérique, qualitatif, binaire, etc. provenant de différents milieux (industriel, économique, social, médical, etc.) ou de mesures réelles, et renferment une quantité importante de connaissances cachées extraites par des algorithmes d’extraction de connaissances.
Ces algorithmes avérés performants sur ces données de type simple, présentent cependant des limites lorsqu’ils sont déployés sur des ensembles de données complexes, de sources très hétérogènes et visant des connaissances de différents niveaux de granularité.
L’objectif de ce projet est de dresser des pistes d’investigation permettant de lever cette limite et ce, selon deux axes principaux et complémentaires.
Le premier axe vise à mener une réflexion globale centrée sur deux fronts:
-
la structuration et la représentation formelle des objets complexes,
-
la définition d’algorithmes d’extraction des connaissances qui y sont enfouies pour atteindre diverses spécifications de connaissances.