Assistant-doctorant en démographie (IDESO)
Migration et Mobilité en Suisse en temps de crise
Passionné par les sciences des données (computational social sciences)
“Des stats et du code!”
Groupe étudiant ayant une passion pour le code et les statistiques: cours et contenu!
Note
Pour le bon déroulement du cours, sachez que:
Je suis un amateur passionné
C’est mon premier cours dans une université populaire
C’est la première fois que j’enseigne le sujet
Ce n’est pas un cours formel
Vous pouvez partir à n’importe quel moment
Vous pouvez m’interrompre si vous avez une question
Qu’est-ce que l’intelligence artificielle (IA)?
Histoire de l’IA
Que sont les Large Languages Models (LLM)?
L’engouement pour l’IA?
Défis des Large Language Model (LLM)
Alternatives à ChatGPT
Block: 45min/15min (3x)
LMStudio à installer: https://lmstudio.ai/
En tant que modèle de machine learning, le modèle a besoin d’apprendre en premier lieu.
1 - Phase d’entraînement (avant la sortie du modèle) :
2 - Phase d’annotation/censure:
3 - Phase de prédiction (après l’entraînement) :
Les LLM sont utilisés dans différents domaines :
Chatbots et assistants virtuels (ChatGPT, OpenAI; Copilot, Microsoft; Gemini, Google)
Assistance au code (GitHub copilot, Microsoft)
etc.
Coûts : Ces modèles ont besoin d’une grande puissance de calcule pour les entraîner et les utiliser. Seules des grandes entreprises peuvent se lancer dans leur création.
Développement : Jusqu’à présent, la principale stratégie employée a simplement consisté à augmenter la taille des modèles, des données et des infrastructures, sans apporter de changements majeurs au modèle lui-même.
Hallucination et précision : Ces modèles ont également tendance à répondre avec beaucoup d’assurance des choses fausses ou qui n’ont rien à voir avec le sujet. Bien que cela puisse sembler être un bug ou quelque chose d’inattendu, ce n’est en fait pas surprenant : ces modèles ont été entraînés à prédire le mot suivant, et non à répondre correctement.
Sécurité : Comme les modèles ne sont pas codés à la main avec des règles, leur comportement ne peut être prédit, d’où la nécessité d’une validation humaine pour réduire les réponses problématiques (censure). Cependant, il est impossible de prévoir tous les cas et, très souvent, des personnes trouvent un moyen de détourner les modèles.
Autres :
Copyright (contenu volé)
Manque de mémoire à long terme (basé sur leur “token window”)
Limites du raisonnement complexe (réglée avec GPT o1?)
Manque de représentativité dans les langues
Biais culturels
Risque de confidentialité (OpenAI stock et utilisent les conversations)
Limitation multimodal (réglée avec GPT-4o et o1)
…
Titre trompeur (ChatGPT est plus “intelligent” qu’un docteur)
Portée limitée des tests (simple qu’une IA peut suivre: QCM textuel généralement)
Mémorisation ou compréhension? Possible surestimation des capacités de raisonnement alors que c’est peut-être de la mémorisation. Il y a une limites dans des scénarios peu familiers car les questions sont peut-être déjà dans les données d’entraînement.
Pour décrire les comportement des llm, on utilise très souvent des terme comme “réfléchir”, “raisonner”, “penser”, “comprendre”, “interpréter”, etc. qui sont humanisant.
Le phénomène des “petits amis/petites amies IA” fait référence à l’utilisation croissante d’agents conversationnels basés sur l’intelligence artificielle comme compagnons virtuels romantiques ou intimes.
Avant qu’un modèle ne soit diffusé, il doit être réentraîné (par renforcement) à l’aide d’une évaluation humaine afin de réduire les contenus dangereux, mais malgré cela, des risques subsistent.
https://claude.ai/login?returnTo=%2F%3F
Il faut un compte
Comment fonctionnent les LLM?
Les LLM sont basés sur le modèle de transformer, qui se compose de :
Encoder : Apprend à partir du texte d’entrée.
Décodeur : Prédit le mot suivant en utilisant les données encodées.
Création du premier GPT (Generative Pre-trained Transformer)
Ces modèles transformer servaient de base à la traduction mais ont vu leur usage s’élargir à la génération de texte
Au lieu de leur donner un texte d’une langue A à traduire dans la langue B, on utilise uniquement le décodeur pour prédire le prochain mot