Badrou Zeggar blog: LE DATA MINING (FR)

“Les données ne naissent pas pertinentes, elles le deviennent... »

Définition

Le data Mining, ou fouille de données, est l'ensemble des méthodes et techniques destinées à l'exploration et l'analyse de bases de données informatiques, de façon automatique ou semi-automatique, en vue de détecter dans ces données des règles, des associations, des tendances inconnues ou cachées, des structures particulières restituant l'essentiel de l'information utile tout en réduisant la quantité de données.

Il s'agit de "fouilles" pour extraire "de l'information cachée" que les données renferment et que l'on découvre à la recherche d'associations, de tendances…etc.

Les tâches et les techniques du Data Mining

1. La classification :

Elle consiste à examiner des caractéristiques d’un élément nouvellement introduit afin de l’affecter à une classe d’un ensemble prédéfini.

Parmi les techniques appropriées on trouve:

Les arbres de décision,

L’analyse des liens.

2. L’estimation :

Le résultat d’une estimation permet d’obtenir une variable continue. On combinant les données en entrée. Le résultat d’une estimation permet de procéder aux classifications.

Un des intérêts de l’estimation est de pouvoir ordonner les résultats pour ne retenir que les n meilleures valeurs.

La technique la plus appropriée à l’estimation est : les réseaux de neurones.

3. La prédiction :

Tout comme les tâches précédentes, elle s’appuie sur le passé et le présent mais le résultat se situe dans le futur généralement précisé. Parmi les techniques de prédiction :

Le raisonnement basé sur la mémoire.

Les arbres de décision.

les réseaux de neurones.

4. Le regroupement par similitudes :

Cette technique consiste à grouper les éléments qui vont naturellement ensembles. La technique la plus appropriée au regroupement par similitudes est l’analyse du panier de la ménagère.

5. L’analyse des clusters :

Cette analyse consiste à segmenter une population hétérogène en sous populations homogènes. Sachant que les sous populations ne sont pas préétablis. La technique la plus appropriée à la clustérisassions est l’analyse des clusters.

6. La description:

L’une des taches souvent demandée à un outil du Data Mining c’est la prédiction. On lui demande de décrire les données d’une base complexe. La technique appropriée est l’analyse du panier de la ménagère.

Les objectifs du datamining

1. Confirmer

Le datamining est utilisée pour confirmer un comportement ou une hypothèse. Dans le cas où le décisionnaire a un doute sur un hypothèse ,en appliquant des méthodes statistiques ou d’intelligence artificielle le datamining pourra tenter de confirmer cette hypothèse .

2. Expliquer

On utilisant le Data Mining on peut expliquer un événement ou un incident indiscernable. Par la consultation des informations contenues dans l’entrepôt de données de l’organisation.

3. Explorer

Enfin, on peut extraire les liens « inconnus» avec le Data Mining. Quand le décisionnaire n’as pas d’hypothèse ou d’idée sur un fait précis, il peut demander au système de proposer des associations ou des corrélations qui pourront aboutir à une explication.

La démarche et les prérequis d'une étude Data Mining

Généralement une étude du Data Mining suit 6 étapes :

1 - La définition du besoin métier

La première étape est de définir le besoin métier, c'est à dire les questions auxquelles le Data Mining doit répondre.

2 - La préparation des données

Souvent c’est l'obtention de données de qualité qui prend le plus de temps. Notons que la qualité des données a un impact sur les données qui seront conservées et donc au final il est possible qu'il soit nécessaire de redéfinir le besoin métier.

3 - L'étude statistique

4 - La validation du modèle

Avant la mise en production le modèle doit être validé.

5 - La mise en production

Une fois que l'analyse a trouvé le bon modèle de segmentation, il est important que le modèle puisse être mis en production.

6 - L'évaluation de la qualité du modèle

Il est important, dès la première étape, d'identifier les indicateurs qui seront utilisés pour mesurer la qualité du modèle.

Principales difficultés du datamining

1. Qualité des données

Si l'entreprise dispose d'un Data Warehouse, les questions de qualité sont déjà traitées et la préparation des données peut ne représenter que 30 % du travail.

Et si ce n’est pas le cas, 60 à 70 % du travail sera consacré à la préparation des données (sélection, correction, chargement…).

2. Choix des méthodes et de l'itinéraire des travaux

Pour pouvoir répondre aux questions posées par le client, les méthodes doivent être choisies en dialoguant avec lui. Pour cela l'expert en datamining doit être aussi un animateur et posséder des qualités comme : rigueur dans la méthode, ouverture et chaleur humaine dans la communication.

3. Evaluation des résultats

L’évaluation des résultats du Data Mining reste l’une des principales difficultés du Data Mining.

Exemples d’applications du Data Mining

Les applications du data Mining sont multiple on cite comme exemple :

1. Marketing direct

Afin de diminuer les coûts d’acquisition des clients Le Data Mining répond aux besoins de comprendre la relation client et de connaître les comportements des clients. Les solutions de Data Mining vont faire des prédictions de comportement et indiquer quels types de prospects devront être contactés en priorité par des opérations de marketing direct.

Source

DAMACOSY. 2010. [En ligne] 2010. [Citation : 21 11 2010.] http://www.damacosy.fr/?q=content/data-mining.
FRODEAU, Christine. 2003. academy Versaille. [En ligne] 2003. [Citation : 21 11 2010.] http://www.creg.ac-versailles.fr/spip.php?article55.
MAISONS, David. 2006. DATAWAREHOUSE et DATAMINING, Architecture et technique de ces composants de l'informatique. 2006. Présenté en vue d’obtenir L’EXAMEN PROBATOIRE EN SYSTEME D’INFORMATION. Disponible sur: http://ledad.ovh.org/public/datawarehouse.pdf.
Tuffery, Stephane. 2007. Data Mining et statistique decisionnelle . s.l. : EDITIONS TECHNIP, 2007.
VOLLE, Michel. 2001. Intranet et Datamining. Volle.com. [En ligne] 2001. http://www.volle.com/lectures/ACM1.htm.

3 comments:

badrou zeggarNovember 24, 2010 at 11:13 AM
Je partage mes connaissances, c'est plustot ce que je suis entrain de faire...et je pense que c'est bien la defintion d'un blog...
badrou zeggarNovember 25, 2010 at 9:54 AM
Généralement l'etude du Data Mining se fait sur des grandes bases de données (=Data Warehouse), et qui ont une duré >= 5 ans pour assurer l'efficience des resultats...
Personnelement j'utilise SQL Server 2008 comme outil, mais y'en d'autre Open source si tu veux...Et pour la base de donnée, ADVENTURE WORKS, c'est la plus repondue pour etudier ou faire des tests Data Mining.
RacJanuary 5, 2011 at 12:15 PM
merci c'est une bonne chose que de partager, juste que le data mining exploite des données d’entrepôts de données (data warehouse) et les solutions ouvertes sont excellente style postgresql, mysql et autres
merci encore une fois et bonne continuation

Badrou Zeggar blog

Monday, November 22, 2010

LE DATA MINING (FR)