Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons QLoRA, une approche efficace de fine-tuning qui réduit suffisamment l'utilisation de la mémoire pour permettre le fine-tuning d'un modèle de 65 milliards de paramètres sur un seul GPU de 48 Go tout en conservant les performances complètes d'une tâche de fine-tuning en 16 bits. QLoRA propage les gradients à travers un modèle de langage pré-entraîné quantifié en 4 bits et gelé, vers des adaptateurs de bas rang (LoRA). Notre meilleure famille de modèles, que nous nommons Guanaco, surpasse tous les modèles précédemment publiés en accès libre sur le benchmark Vicuna, atteignant 99,3 % des performances de ChatGPT tout en ne nécessitant que 24 heures de fine-tuning sur un seul GPU. QLoRA introduit plusieurs innovations pour économiser la mémoire sans sacrifier les performances : (a) le NormalFloat 4 bits (NF4), un nouveau type de données théoriquement optimal pour les poids distribués normalement, (b) la double quantification pour réduire l'empreinte mémoire moyenne en quantifiant les constantes de quantification, et (c) les optimiseurs paginés pour gérer les pics de mémoire. Nous utilisons QLoRA pour fine-tuner plus de 1 000 modèles, fournissant une analyse détaillée du suivi d'instructions et des performances de chatbot sur 8 ensembles de données d'instructions, plusieurs types de modèles (LLaMA, T5), et des échelles de modèles qui seraient impossibles à exécuter avec un fine-tuning classique (par exemple, des modèles de 33B et 65B paramètres). Nos résultats montrent que le fine-tuning QLoRA sur un petit ensemble de données de haute qualité conduit à des résultats de pointe, même en utilisant des modèles plus petits que les précédents SoTA. Nous fournissons une analyse détaillée des performances des chatbots basée à la fois sur des évaluations humaines et GPT-4, montrant que les évaluations GPT-4 sont une alternative économique et raisonnable à l'évaluation humaine. De plus, nous constatons que les benchmarks actuels de chatbots ne sont pas fiables pour évaluer avec précision les niveaux de performance des chatbots. Une analyse ciblée démontre où Guanaco échoue par rapport à ChatGPT. Nous publions tous nos modèles et codes, y compris les noyaux CUDA pour l'entraînement en 4 bits.
Le fine-tuning sur des données d'instructions a été largement validé comme une pratique efficace pour la mise en œuvre de modèles de langage conversationnels tels que ChatGPT. L'augmentation de la diversité et de la qualité de ces données, bien que simple, offre une grande probabilité d'améliorer les performances. Cet article vise à repousser encore plus loin les limites des modèles open-source. Nous présentons d'abord un ensemble de données systématiquement conçu, diversifié, informatif et à grande échelle de conversations instructives, UltraChat, qui ne repose pas sur des requêtes humaines. Notre objectif est de capturer l'étendue des interactions qu'un humain pourrait avoir avec un assistant IA, en utilisant un cadre complet pour générer itérativement des conversations multi-tours. UltraChat contient 1,5 million de dialogues multi-tours de haute qualité et couvre un large éventail de sujets et d'instructions. Notre analyse statistique d'UltraChat révèle sa supériorité dans diverses métriques clés, notamment l'échelle, la longueur moyenne, la diversité, la cohérence, etc., consolidant sa position comme un ensemble de données open-source de premier plan. En nous appuyant sur UltraChat, nous effectuons un fine-tuning d'un modèle LLaMA pour créer un modèle conversationnel puissant, UltraLLaMA. Nos évaluations indiquent qu'UltraLLaMA surpasse systématiquement d'autres modèles open-source, y compris Vicuna, précédemment reconnu comme le modèle open-source de pointe. Le jeu de données et le modèle seront rendus publics à l'adresse \url{https://github.com/thunlp/UltraChat}.
Nous présentons Goat, un modèle LLaMA affiné qui surpasse significativement GPT-4 sur une série de tâches arithmétiques. Affiné sur un ensemble de données généré de manière synthétique, Goat atteint des performances de pointe sur la sous-tâche arithmétique de BIG-bench. En particulier, Goat-7B en mode zero-shot égalise ou dépasse même la précision obtenue par PaLM-540B en mode few-shot. Étonnamment, Goat peut atteindre une précision quasi parfaite sur l'addition et la soustraction de grands nombres grâce à un affinage supervisé uniquement, ce qui était presque impossible avec les modèles de langage pré-entraînés précédents, tels que Bloom, OPT, GPT-NeoX, etc. Nous attribuons les performances exceptionnelles de Goat à la tokenisation cohérente des nombres par LLaMA. Pour aborder des tâches plus complexes comme la multiplication et la division de grands nombres, nous proposons une approche qui classe les tâches en fonction de leur apprenabilité, puis décompose les tâches non apprenables, telles que la multiplication et la division à plusieurs chiffres, en une série de tâches apprenables en exploitant les principes de base de l'arithmétique. Nous examinons minutieusement les performances de notre modèle, offrant une évaluation complète de l'efficacité de nos étapes de décomposition proposées. De plus, Goat-7B peut être facilement entraîné en utilisant LoRA sur un GPU avec 24 Go de VRAM, facilitant ainsi la reproductibilité pour d'autres chercheurs. Nous publions notre modèle, l'ensemble de données et le script Python pour la génération de l'ensemble de données.
Un risque majeur lié à l'utilisation des modèles de langage dans des applications pratiques est leur tendance à produire des déclarations incorrectes, un phénomène appelé hallucination. Les hallucinations sont souvent attribuées à des lacunes de connaissances dans les modèles de langage, mais nous émettons l'hypothèse que, dans certains cas, lorsqu'ils justifient des hallucinations précédemment générées, ces modèles produisent des affirmations fausses qu'ils pourraient par ailleurs reconnaître comme incorrectes. Nous avons construit trois ensembles de données de questions-réponses dans lesquels ChatGPT et GPT-4 énoncent souvent une réponse erronée et fournissent une explication contenant au moins une affirmation incorrecte. Fait crucial, nous constatons que ChatGPT et GPT-4 sont capables d'identifier respectivement 67 % et 87 % de leurs propres erreurs. Nous qualifions ce phénomène d'**effet boule de neige des hallucinations** : un modèle de langage s'engage excessivement dans des erreurs initiales, ce qui entraîne davantage d'erreurs qu'il n'aurait normalement pas commises.
Les modèles de langage acoustique (SpeechLMs) traitent et génèrent exclusivement des données acoustiques, sans supervision textuelle. Dans ce travail, nous proposons TWIST, une méthode pour entraîner des SpeechLMs en utilisant un démarrage à chaud à partir de modèles de langage textuel pré-entraînés. Nous démontrons, à l'aide d'évaluations automatiques et humaines, que TWIST surpasse un SpeechLM démarré à froid sur tous les aspects. Nous analysons empiriquement l'effet de différents choix de conception de modèle, tels que le tokeniseur acoustique, le modèle textuel pré-entraîné et la taille du jeu de données. Nous constatons que l'échelle du modèle et celle des données jouent toutes deux un rôle important dans la construction de SpeechLMs plus performants. Sur la base de nos observations, nous présentons le plus grand SpeechLM (à notre connaissance) en termes de nombre de paramètres et de données d'entraînement. Nous introduisons également deux versions orales du benchmark textuel StoryCloze afin d'améliorer l'évaluation des modèles et de faire progresser les recherches futures dans ce domaine. Des échantillons audio sont disponibles sur notre site web : https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .
Le contexte de taille fixe des Transformers rend les modèles GPT incapables de générer des textes de longueur arbitraire. Dans cet article, nous présentons RecurrentGPT, un simulacre basé sur le langage du mécanisme de récurrence des RNN. RecurrentGPT est construit sur un grand modèle de langage (LLM) tel que ChatGPT et utilise le langage naturel pour simuler le mécanisme de mémoire à long et court terme (LSTM). À chaque pas de temps, RecurrentGPT génère un paragraphe de texte et met à jour sa mémoire à long et court terme basée sur le langage, stockée sur le disque dur et dans l'invite, respectivement. Ce mécanisme de récurrence permet à RecurrentGPT de générer des textes de longueur arbitraire sans oubli. Comme les utilisateurs humains peuvent facilement observer et modifier les mémoires en langage naturel, RecurrentGPT est interprétable et permet une génération interactive de textes longs. RecurrentGPT est une première étape vers les systèmes d'écriture assistée par ordinateur de nouvelle génération, allant au-delà des suggestions d'édition locales. En plus de produire du contenu généré par IA (AIGC), nous démontrons également la possibilité d'utiliser RecurrentGPT comme une fiction interactive qui interagit directement avec les consommateurs. Nous appelons cette utilisation des modèles génératifs « L'IA comme contenu » (AIAC), que nous croyons être la prochaine forme de l'AIGC conventionnel. Nous démontrons en outre la possibilité d'utiliser RecurrentGPT pour créer des fictions interactives personnalisées qui interagissent directement avec les lecteurs plutôt qu'avec les écrivains. Plus largement, RecurrentGPT démontre l'utilité d'emprunter des idées aux conceptions de modèles populaires en sciences cognitives et en apprentissage profond pour inciter les LLM. Notre code est disponible à l'adresse https://github.com/aiwaves-cn/RecurrentGPT et une démonstration en ligne est disponible à l'adresse https://www.aiwaves.org/recurrentgpt.
L'essor des grands modèles de langage (LLMs) a ouvert la voie à diverses applications de cette technologie dans le développement de logiciels. En particulier, les LLMs génératifs se sont révélés efficaces pour alimenter des outils de rédaction de code basés sur l'IA, capables de suggérer des instructions ou des blocs de code entiers lors de la rédaction. Dans cet article, nous présentons CodeCompose, un outil de rédaction de code assisté par l'IA développé et déployé en interne chez Meta. CodeCompose repose sur le LLM InCoder, qui combine des capacités génératives avec une bidirectionnalité. Nous avons mis à l'échelle CodeCompose pour servir des dizaines de milliers de développeurs chez Meta, couvrant plus de 10 langages de programmation et plusieurs environnements de codage. Nous abordons les défis uniques en termes d'expérience utilisateur et de métriques qui surviennent lors du déploiement de tels outils dans des contextes industriels à grande échelle. Nous partageons notre expérience dans la prise de décisions de conception concernant le modèle et l'architecture système de CodeCompose pour relever ces défis. Enfin, nous présentons les métriques issues de notre déploiement à grande échelle de CodeCompose, montrant son impact sur l'expérience de rédaction de code interne à Meta sur une période de 15 jours, durant laquelle 4,5 millions de suggestions ont été faites par CodeCompose. Les métriques quantitatives révèlent que (i) CodeCompose affiche un taux d'acceptation de 22 % pour plusieurs langages, et (ii) 8 % du code saisi par les utilisateurs de CodeCompose provient de l'acceptation de suggestions de code de l'outil. Les retours qualitatifs indiquent une réception positive écrasante de 91,5 % pour CodeCompose. En plus d'assister dans la rédaction de code, CodeCompose introduit également d'autres effets positifs, tels que l'encouragement des développeurs à générer davantage de documentation dans le code et l'aide à la découverte de nouvelles API.
Nous proposons un nouveau benchmark vidéo multimodal - le Perception Test - pour évaluer les compétences de perception et de raisonnement des modèles multimodaux pré-entraînés (par exemple Flamingo, BEiT-3 ou GPT-4). Contrairement aux benchmarks existants qui se concentrent sur des tâches computationnelles (par exemple la classification, la détection ou le suivi), le Perception Test se focalise sur des compétences (Mémoire, Abstraction, Physique, Sémantique) et des types de raisonnement (descriptif, explicatif, prédictif, contrefactuel) à travers les modalités vidéo, audio et texte, afin de fournir un outil d'évaluation complet et efficace. Le benchmark explore les capacités de transfert des modèles pré-entraînés, dans un régime zero-shot / few-shot ou avec un fine-tuning limité. À cette fin, le Perception Test introduit 11,6k vidéos du monde réel, d'une durée moyenne de 23 secondes, conçues pour présenter des situations perceptuellement intéressantes, filmées par environ 100 participants à travers le monde. Les vidéos sont densément annotées avec six types d'étiquettes (questions-réponses à choix multiples et ancrées dans la vidéo, suivi d'objets et de points, segments d'actions temporelles et de sons), permettant des évaluations à la fois linguistiques et non linguistiques. Les ensembles de fine-tuning et de validation du benchmark sont disponibles publiquement (licence CC-BY), en plus d'un serveur de challenge avec un ensemble de test réservé. Les résultats de référence humains comparés aux modèles de question-réponse vidéo de pointe montrent un écart significatif de performance (91,4 % contre 43,6 %), suggérant qu'il existe une marge d'amélioration importante dans la compréhension vidéo multimodale. Le jeu de données, le code des modèles de référence et le serveur de challenge sont disponibles à l'adresse suivante : https://github.com/deepmind/perception_test.
L'alignement des grands modèles de langage (LLMs) sur les valeurs humaines est devenu de plus en plus important, car il permet un pilotage sophistiqué des LLMs, par exemple en les faisant suivre des instructions données tout en réduisant leur toxicité. Cependant, cela nécessite une quantité importante de démonstrations et de retours humains. Récemment, des modèles open-source ont tenté de reproduire le processus d'apprentissage de l'alignement en distillant des données provenant de LLMs déjà alignés comme InstructGPT ou ChatGPT. Bien que ce processus réduise les efforts humains, la construction de ces ensembles de données dépend fortement des modèles enseignants. Dans ce travail, nous proposons un cadre novateur pour l'apprentissage de l'alignement nécessitant presque aucun effort humain et aucune dépendance envers des LLMs pré-alignés. Tout d'abord, nous effectuons une modélisation de la récompense (RM) avec des retours synthétiques en comparant les réponses de LLMs standards de différentes tailles et prompts. Ensuite, nous utilisons la RM pour simuler des démonstrations de haute qualité afin d'entraîner une politique supervisée et pour optimiser davantage le modèle avec l'apprentissage par renforcement. Notre modèle résultant, Aligned Language Model with Synthetic Training dataset (ALMoST), surpasse les modèles open-source, y compris Alpaca, Dolly et OpenAssistant, qui sont entraînés sur les sorties d'InstructGPT ou sur des instructions annotées par des humains. Notre modèle de 7 milliards de paramètres surpasse les modèles de 12 à 13 milliards dans les tests A/B utilisant GPT-4 comme juge, avec un taux de victoire moyen d'environ 75 %.
Les humains apprennent à maîtriser des répertoires ouverts de compétences en imaginant et en pratiquant leurs propres objectifs. Ce processus d'apprentissage autotélique, littéralement la poursuite d'objectifs (télos) auto-générés (auto), devient de plus en plus ouvert à mesure que les objectifs deviennent plus diversifiés, abstraits et créatifs. L'exploration résultante de l'espace des compétences possibles est soutenue par une exploration interindividuelle : les représentations des objectifs évoluent culturellement et sont transmises entre les individus, en particulier par le biais du langage. Les agents artificiels actuels reposent principalement sur des représentations d'objectifs prédéfinies correspondant à des espaces d'objectifs soit bornés (par exemple, une liste d'instructions), soit non bornés (par exemple, l'espace des entrées visuelles possibles), mais sont rarement dotés de la capacité à remodeler leurs représentations d'objectifs, à former de nouvelles abstractions ou à imaginer des objectifs créatifs. Dans cet article, nous présentons un agent autotélique augmenté par un modèle de langage (LMA3) qui exploite un modèle de langage préentraîné (LM) pour soutenir la représentation, la génération et l'apprentissage d'objectifs diversifiés, abstraits et pertinents pour les humains. Le LM est utilisé comme un modèle imparfait de la transmission culturelle humaine ; une tentative de capturer des aspects du bon sens humain, de la physique intuitive et des intérêts généraux. Plus précisément, il soutient trois composants clés de l'architecture autotélique : 1) un re-étiqueteur qui décrit les objectifs atteints dans les trajectoires de l'agent, 2) un générateur d'objectifs qui propose de nouveaux objectifs de haut niveau ainsi que leur décomposition en sous-objectifs que l'agent maîtrise déjà, et 3) des fonctions de récompense pour chacun de ces objectifs. Sans recourir à des représentations d'objectifs, des fonctions de récompense ou un curriculum prédéfinis, nous montrons que les agents LMA3 apprennent à maîtriser une grande diversité de compétences dans un environnement textuel indépendant de la tâche.
Dans cet article, nous menons une investigation approfondie des capacités de raisonnement des modèles de langage à grande échelle (LLMs), en nous concentrant spécifiquement sur les modèles Open Pretrained Transformers (OPT) comme représentants de cette catégorie. Notre étude consiste à affiner trois tailles différentes d'OPT sur un corpus de raisonnement soigneusement sélectionné, produisant ainsi deux ensembles de modèles affinés : OPT-R, affiné sans explications, et OPT-RE, affiné avec des explications. Nous évaluons ensuite tous les modèles sur 57 tâches hors domaine issues du benchmark SUPER-NATURALINSTRUCTIONS, couvrant 26 compétences de raisonnement distinctes, en utilisant trois techniques d'incitation. À travers une grille exhaustive de 27 configurations et 6 156 évaluations de test, nous explorons les dimensions de l'affinage, de l'incitation et de l'échelle pour comprendre le rôle des explications sur différentes compétences de raisonnement. Nos résultats révèlent que la présence d'explications dans les exemples fewshot n'a pas d'impact significatif sur la performance du modèle lorsque celui-ci est affiné, tout en affectant positivement la version non affinée. De plus, nous observons une augmentation légère mais constante de la précision de classification lorsque nous intégrons des explications lors de l'incitation et de l'affinage, respectivement. Enfin, nous fournissons des insights sur les compétences qui bénéficient le plus de l'intégration d'explications lors de l'affinage et de l'incitation, telles que le raisonnement numérique (+20,4 %) et analogique (+13,9 %), ainsi que sur les compétences qui montrent des effets négligeables ou négatifs.
La rareté des données constitue un enjeu crucial pour le développement de systèmes de traitement du langage naturel (NLP) hautement multilingues. Pourtant, pour de nombreuses langues sous-représentées (ULs) — des langues pour lesquelles la recherche en NLP est particulièrement en retard dans la satisfaction des besoins des utilisateurs — il est réalisable d'annoter de petites quantités de données. Motivés par cela, nous proposons XTREME-UP, un benchmark défini par : son accent sur le scénario de données limitées plutôt que sur le zero-shot ; son focus sur des tâches centrées sur l'utilisateur — des tâches largement adoptées par les locuteurs de langues riches en ressources ; et son attention portée aux langues sous-représentées où ce scénario de données limitées tend à être le plus réaliste. XTREME-UP évalue les capacités des modèles de langage à travers 88 langues sous-représentées sur 9 technologies clés centrées sur l'utilisateur, incluant la reconnaissance automatique de la parole (ASR), la reconnaissance optique de caractères (OCR), la traduction automatique (MT), et des tâches d'accès à l'information d'utilité générale. Nous créons de nouveaux jeux de données pour l'OCR, la saisie prédictive, l'analyse sémantique et la translittération, et nous nous appuyons sur des jeux de données existants que nous affinons pour d'autres tâches. XTREME-UP propose une méthodologie pour évaluer de nombreux scénarios de modélisation, incluant le texte seul, le multimodal (vision, audio et texte), le réglage supervisé des paramètres, et l'apprentissage en contexte. Nous évaluons les modèles couramment utilisés sur ce benchmark. Nous mettons à disposition tout le code et les scripts pour entraîner et évaluer les modèles.