Contenu du cours

  1. 1
    • Programme de la formation Machine Learning

    • Installation Anaconda_Python

    • Installation Anaconda (version texte)

    • Installation de bibliothèques requises dans la formation

    • Pré-requis Python_Pandas _ rattrapage accéléré

  2. 2
    • Programme

  3. 3
    • Définition du problème: Qu'est-ce que le Machine Learning ?

    • Introduction au dataset

    • Les k plus proches voisisns - k Nearest Neighbors

    • Distance Euclidienne

    • Calculer la distance pour toutes les observations

    • Randomiser et Trier

    • Prix moyen

    • Fonction pour faire des prédictions

  4. 4
    • Tester la qualité des prédictions

    • Les métriques d'erreur

    • Erreur quadratique moyenne (MSE)

    • Entraîner un autre modèle

    • Racine carrée de l'erreur quadratique moyenne (RMSE)

    • Comparaison des erreurs

  5. 5
    • Récapitulatif

    • Supprimer des caractéristiques

    • Gérer les valeurs manquantes

    • Normaliser les colonnes

    • Distance Euclidienne pour le cas multivarié

    • Introduction à la bibliothèque Scikit-learn

    • Entrainer un modèle et faire des prédictions en utilisant Scikit-learn

    • Calculer l'erreur quadratique moyenne en utilisant Scikit-learn

    • Utiliser plus de caractéristiques

    • Utiliser toutes les caractéristiques

  6. 6
    • Récapitulatif

    • Optimisation hyper paramétrique

    • Elargir la grille de recherche

    • Visualiser les valeurs des hyper paramètres

    • Valider les caractéritiques et les hyper paramètres

    • Pratiquer le déroulement des opérations (workflow)

  7. 7
    • Introduction

    • Validation croisée Holdout

    • Validation croisée des K-Fold

    • Première itération

    • Fonction pour entraîner des modèles

    • Exécuter une validation croisée des K-Fold en utilisant Scikit-learn

    • Explorer différentes valeurs de K

    • Compromis biais-Variance

  8. 8
    • Introduction au dataset

    • Solution - Introduction au dataset

    • Nettoyage de données

    • Solution - Nettoyage de données

    • Modèle univarié

    • Solution - Modèle univarié

    • Modèle miltivarié

    • Solution - Modèle multivarié

    • Variation des hyperparamètres

    • Solution - Variation des hyperparamètres

  9. 9
    • Au programme

  10. 10
    • Apprentissage basé sur une instance Vs Apprentissage basé sur un modèle

    • Introduction aux données

    • Régression linéaire simple

    • Méthode des moindres carrés

    • Entrainer un modèle de régression linéaire avec Scikit-learn

    • Faire des prédictions

    • Régression linéaire multiple

  11. 11
    • Valeurs manquantes

    • Corrélation des colonnes de caractéristiques avec la colonne cible

    • Heatmap de la matrice de corrélation

    • Entrainer et tester le modèle

    • Supprimer les caractéristiques de faible variance

    • Modèle final

  12. 12
    • Introduction au Gradient Descent

    • Gradient Descent à un seul paramètre

    • Dérivée de la fonction de coût d'erreur

    • Fonction Gradient Descent

    • Fonction dérivée

    • Comprendre le gradient descendant pour des paramètres multiples

    • Gradient de la fonction coût pour plusieurs paramètres

  13. 13
    • Estimation des moindres carrés ordinaires

    • La fonction de coût

    • Dérivée de la fonction de coût

    • Gradient Descendant vs. Moindres carrés ordinaires

  14. 14
    • Introduction

    • Caractéristiques de catégorie

    • Technique pour gérer les caractéristiques de catégorie: colonnes factices

    • Transformer des caractéristiques numériques impropres ou inappropriées

    • Valeurs manquantes

    • Imputer des valeurs manquantes

  15. 15
    • Introduction au projet

    • Solution - Introduction au projet

    • Traitement des caractéristiques

    • Solution - Traitement des caractéristiques

    • Sélection des caractéristiques

    • Solution - Sélection des caractéristiques

    • Entrainement et Test

    • Solution - Entrainement et Test

  16. 16
    • Programme

  17. 17
    • Classification

    • Introduction aux données

    • Régression logistique

    • Fonction logistique

    • Entrainer un modèle de régression logistique

    • Tracer les probabilités

    • Prédiction des libellés

  18. 18
    • Introduction aux données

    • Précision

    • Résultats de la classification binaire

    • Sensibilité

    • Spécificité

  19. 19
    • Introduction aux données

    • Variables Nominales

    • Classification Multi-Classe

    • Entrainer un modèle de régression logistique multi-classe

    • Tester les modèles

    • Choisir l'origine de la voiture

  20. 20
    • Introduction aux données

    • Biais et Variance

    • Compromis Biais-Variance

    • Modèles multivariés

    • Validation croisée

    • Graphique compromis erreur quadratique moyenne /variance

  21. 21
    • Aperçu du clustering

    • Introduction aux données

    • Explorer les données

    • Distance entre les Sénateurs

    • Clustering

    • Explorer les Clusters

    • Explorer les Sénateurs présents dans le mauvais Cluster

    • Tracer les Clusters

    • Trouver les Sénateurs radicaux

  22. 22
    • Clustering sur les joueurs de NBA

    • Les meneurs de Jeu

    • Points par Match

    • Ratio Passe décisive - Perte de balle

    • Visualiser graphiquement ces meneurs de jeu

    • Clustering des joueurs

    • L'algorithme Setup K-Means (itératif)

    • Visualiser les centroïdes

    • L'algorithme Setup K-Means (la suite)

    • Etape 1 (Distance Euclidienne)

    • Etape 1 (la suite)

    • Visualiser les Clusters

    • Etape 2

    • Répéter l'étape 1

    • Répéter les étapes 1 & 2

    • Utilisation de la classe KMeans

  23. 23
    • Introduction aux données

    • Modèle linéaire

    • Introduction à la fonction Cost

    • La fonction Cost (suite)

    • Fonction Cost - Pentes

    • Algorithme du Gradient Descent

  24. 24
    • Introduction aux données

    • Neurones

    • Fonction Cost

    • Calculer les Gradients

    • Réseau de neurones à 2 couches

    • Réseaux de neurones

    • Fonction de coût pour un réseau de neurones multiple

    • Backpropagation (ou rétropropagation)

    • Séparation des données

    • Prédiction sur les fleurs d'iris

  25. 25
    • Le marché boursier et le dataset

    • Lire les données

    • Solution - Lire les données

    • Générer des indicateurs

    • Solution - Générer des indicateurs

    • Séparer les données

    • Solution - Séparer les données

    • Faire des prédictions

    • Solution - Faire des prédictions

    • Améliorer le modèle

    • Solution - Améliorer le modèle

    • MERCI!!