En naviguant sur notre site vous acceptez l'installation et l'utilisation des cookies sur votre ordinateur. En savoir +

Menu Logo Principal Logo AgroParisTech logo Labex Arbre

laboratoire LERFoB

Conférence sur les forêts aléatoires et VSURF

le 24 octobre 2013, dans le cadre du Labex Arbre, Robin Genuer, professeur associé en Biostatistique à l’ISPED Université de Bordeaux, a tenu une conférence sur les forêts aléatoires et la sélection de variables au centre AgroParisTech de Nancy

Résumé de la conférence:
Derrière l’analyse de données et la modélisation se cachent deux cultures (Breiman 2001).
Une première constitue le courant principal et considère les données comme issues de mécanismes stochastiques.
L’autre ne fait pas d’hypothèses sur ces mécanismes et utilise des algorithmes pour comprendre ou prédire la nature du lien entre les variables d’entrée et les variables de réponse.
La modélisation algorithmique s'est développée rapidement depuis une dizaine d’années, en partie grâce à Léo Breiman qui a développé l’utilisation d’arbres de décision, appelés également « forêts aléatoires ».
Cette méthode est utilisée à la fois sur de grands ensembles de données complexes ou comme alternative à la modélisation de données d’ensembles plus petits.
Robin Genuer a fait sa thèse sur les forêts aléatoires et a développé une librairie du logiciel R qui porte sur la sélection de variables par forêts aléatoires (Genuer et al. 2010 VSURF).
Cet outil a de nombreux débouchés en termes d’utilisations forestières. Par exemple, de récents travaux de télédétections à l’ONF ont utilisé cet outil pour évaluer des dégâts de tempêtes sur une image satellite (Dapoigny 2013).
L’utilisation des forêts aléatoires pour prédire la biomasse forestière à partir de données LIDAR est également en pleine expansion.
Quels sont les principes, les atouts, mais aussi les pièges liés à cette technique, que savons-nous de cette nouvelle méthode ?