Data science : de la statistique aux big data
Que ce soit via des appareils connectés, des applications web ou bureautiques, les entreprises créent quotidiennement de la donnée dans tous les domaines (biologie, banques et assurances, industrie, start-ups, pharmacologie, sciences sociales,…). L’importance de ces données s’explique par l’information qu’elles recèlent. Avoir accès à cette information et savoir l’analyser, est devenu un enjeu pour toutes sortes d’entreprises et toutes sortes de missions. Ainsi le spectre des personnes pouvant être intéressées est assez large.
- maîtriser les principes de base de la programmation en R ainsi que RStudio
- maîtriser le vocabulaire et les notions des data sciences et des big data
- mettre en œuvre diverses analyses (méthodes de clustering, réseaux de neurones, analyses en composantes principales)
- résumer l’information d’un jeu de données et analyser les similarités entre les individus
Big data et statistique : clarification des notions et lien entre les deux
Premiers pas en R : présentation et prise en main de R
R un outil de data-science : gestion, tri, création de données
Analyses en Composantes Principales : mise en application d’une méthode de réduction de dimensionnalité
Clustering : présentation et mise en application de 2 méthodes de classification
Réseaux de neurones : un outil d’apprentissage statistique
Il n’y a aucun pré-requis en statistique ou en science des données.
La formation intégrant une large partie mise en application via un langage statistique, il est conseillé d’être assez habitué à l’outil informatique.
La participation à cette formation ne nécessite pas de pré-requis complémentaires.
La formation mélangera des moments de présentation théorique par le formateur et de la mise en pratique par l’ensemble des participants. Les méthodes seront présentées puis mises en application sur des données en utilisant le langage R. Les résultats, ainsi que leurs limites d’interprétation, seront discutés collectivement. De manière générale, le support diffusé et distribué aux stagiaires est le fil conducteur de ces trois journées mais le programme ouvre place à des discussions plus générales. Le logiciel Rstudio sera utilisé comme support pour la réalisation des scripts de code R.
M. Nicolas POULIN, Ingénieur de Recherche, UFR de Mathématique et d’Informatique
Courriel : poulin@math.unistra.fr
Cette formation constitue une action d’adaptation et de développement des compétences.Elle donne lieu à la délivrance d’une attestation de participation.Une évaluation en fin de formation permet de mesurer la satisfaction des stagiaires ainsi que l’atteinte des objectifs de formation (connaissances, compétences, adhésion, confiance) selon les niveaux 1 et 2 du modèle d’évaluation de l’efficacité des formations Kirkpatrick.