J’avais dû trouver l’année dernière pour une étudiante, un moyen d’interpréter son jeu de donnée. Plus de 30 variables, plus de 1000 sujets, j’avais besoin de plus que la sacro-sainte ANOVA pour m’en sortir dans un premier temps. J’ai donc relu mon livre de biostatistique et mon Mooc de statistique du Pr Falissard, pour me lancer dans du partitionnement de données ou data clustering. Souvent assimilée au Data mining et au Big data ce n’est en fait qu’une des méthodes parmi d’autres.
Comme on m’a redemandé plusieurs fois d’en faire depuis, je vais fixer ici mes notes sur le sujet, en espérant que cela puisse servir à quelqu’un. Le but n’est pas de se lancer dans l’interprétation des résultats, vous trouverez bien mieux que moi sur le reste du web, mais d’avoir des commandes rapides à mettre en place pour visualiser ses données. Ces statiques restent exploratoires, vous ne pourrez pas autant affirmer les choses que sur un test d’hypothèse, mais une fois vos variables explicatives identifiées, vous pourrez vous lancer dans une régression linéaire ou logistique par exemple et en fonction faire des tests post-hoc, pourquoi pas avec Rcommander ou JASP. Pour utiliser le code que je vous partage, il vous faudra un PC Linux, macOS ou Windows, à minima R et votre jeu de donnée au format csv. Comme le tuto était initialement destiné à mes étudiants, j’installe également RStudio pour préserver leur santé mentale, mais si vous êtes à l’aise avec la ligne de commande R c’est optionnel. Vous pouvez retrouver les commandes et les figures dans ce PDF.
Installation
Installation de R et RStudio
Installation des paquets supplémentaires
install.packages("psy", repos = "https://cloud.r-project.org/")
install.packages("corrplot", repos = "https://cloud.r-project.org/")
Chargement des données
Fixer son environnement de travail
setwd("~/votredossier")
~
indique le répertoire courant, donc /home/votrenom
sur Linux /Users/votrenom
sur Mac et /c:/Users/votrenom/Documents
sur Windows.
Importer des données
Matrice de corrélations
Analyse en Composante Principale
Classification ascendante hiérarchique
Ce(tte) œuvre est mise à disposition selon les termes de la Licence Creative Commons Attribution – Pas d’Utilisation Commerciale – Partage dans les Mêmes Conditions 4.0 International.