Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons Llemma, un grand modèle de langage dédié aux mathématiques. Nous avons poursuivi le pré-entraînement de Code Llama sur le Proof-Pile-2, un mélange d'articles scientifiques, de données web contenant des mathématiques et de code mathématique, ce qui a donné naissance à Llemma. Sur le benchmark MATH, Llemma surpasse tous les modèles de base ouverts connus, ainsi que la suite de modèles Minerva non publiée, sur une base équi-paramétrique. De plus, Llemma est capable d'utiliser des outils et de réaliser des preuves de théorèmes formels sans aucun ajustement supplémentaire. Nous rendons publics tous les artefacts, y compris les modèles de 7 milliards et 34 milliards de paramètres, le Proof-Pile-2, ainsi que le code pour reproduire nos expériences.
Les grands modèles de langage (LMs) sont actuellement entraînés à prédire des tokens à partir de préfixes de documents, ce qui leur permet de réaliser directement des tâches de génération de texte long et de réponse à des prompts qui peuvent être réduites à la complétion de documents. Les pipelines de pré-entraînement existants forment les LMs en concaténant des ensembles aléatoires de documents courts pour créer des contextes d'entrée, mais les documents précédents ne fournissent aucun signal pour prédire le document suivant. Nous proposons plutôt le pré-entraînement en contexte (In-Context Pretraining), une nouvelle approche où les modèles de langage sont pré-entraînés sur une séquence de documents connexes, les encourageant ainsi explicitement à lire et à raisonner au-delà des limites des documents. Nous pouvons réaliser ce pré-entraînement en contexte simplement en modifiant l'ordre des documents pour que chaque contexte contienne des documents liés, et en appliquant directement les pipelines de pré-entraînement existants. Cependant, ce problème de tri des documents est complexe. Il existe des milliards de documents, et nous souhaitons que le tri maximise la similarité contextuelle pour chaque document sans répéter aucune donnée. Pour ce faire, nous introduisons des algorithmes approximatifs pour trouver des documents connexes grâce à une recherche efficace des plus proches voisins et pour construire des contextes d'entrée cohérents avec un algorithme de parcours de graphe. Nos expériences montrent que le pré-entraînement en contexte offre une approche simple et scalable pour améliorer significativement les performances des LMs : nous observons des améliorations notables dans les tâches nécessitant un raisonnement contextuel plus complexe, notamment l'apprentissage en contexte (+8 %), la compréhension de lecture (+15 %), la fidélité aux contextes précédents (+16 %), le raisonnement sur de longs contextes (+5 %) et l'augmentation par recherche d'information (+9 %).
Les grands modèles de langage ont démontré leurs capacités remarquables en tant qu'interface générale pour diverses applications liées au langage. Motivés par cela, nous visons à construire une interface unifiée pour accomplir de nombreuses tâches vision-langage, notamment la description d'images, la réponse à des questions visuelles et l'ancrage visuel, entre autres. Le défi consiste à utiliser un seul modèle pour effectuer efficacement des tâches vision-langage variées avec des instructions multimodales simples. Dans cet objectif, nous présentons MiniGPT-v2, un modèle qui peut être considéré comme une interface unifiée pour mieux gérer diverses tâches vision-langage. Nous proposons d'utiliser des identifiants uniques pour différentes tâches lors de l'entraînement du modèle. Ces identifiants permettent à notre modèle de mieux distinguer chaque instruction de tâche sans effort et améliorent également l'efficacité d'apprentissage du modèle pour chaque tâche. Après un entraînement en trois étapes, les résultats expérimentaux montrent que MiniGPT-v2 obtient des performances solides sur de nombreux benchmarks de réponse à des questions visuelles et d'ancrage visuel par rapport à d'autres modèles généralistes vision-langage. Notre modèle et les codes sont disponibles à l'adresse https://minigpt-v2.github.io/
Un cadre de robot interactif réalise la planification de tâches à long terme et peut facilement généraliser à de nouveaux objectifs ou tâches distinctes, même pendant l'exécution. Cependant, la plupart des méthodes traditionnelles nécessitent une conception de modules prédéfinie, ce qui rend difficile la généralisation à différents objectifs. Les approches récentes basées sur des modèles de langage de grande taille permettent une planification plus ouverte, mais nécessitent souvent un ingénierie de prompts complexe ou des modèles pré-entraînés spécifiques à un domaine. Pour résoudre ce problème, nous proposons un cadre simple qui réalise la planification interactive de tâches avec des modèles de langage. Notre système intègre à la fois la planification de haut niveau et l'exécution de fonctions de bas niveau via le langage. Nous vérifions la robustesse de notre système dans la génération d'instructions de haut niveau pour des objectifs inédits et sa facilité d'adaptation à différentes tâches en substituant simplement les directives de tâches, sans nécessiter d'ingénierie de prompts complexe supplémentaire. De plus, lorsque l'utilisateur envoie une nouvelle requête, notre système est capable de replanifier avec précision en fonction de la nouvelle requête, des directives de tâches et des étapes précédemment exécutées. Pour plus de détails, consultez notre site https://wuphilipp.github.io/itp_site et https://youtu.be/TrKLuyv26_g.
Bien que les grands modèles de langage se soient avérés efficaces dans un large éventail d'applications en aval, ils génèrent souvent des textes problématiques ou dépourvus d'un attribut souhaité. Dans cet article, nous présentons le décodage augmenté par récompense (Reward-Augmented Decoding, RAD), une procédure de génération de texte qui utilise un petit modèle de récompense unidirectionnel pour encourager un modèle de langage à produire des textes possédant certaines propriétés. Plus précisément, RAD utilise le modèle de récompense pour évaluer les générations au fur et à mesure de leur production et réajuste les probabilités d'échantillonnage pour favoriser les tokens à forte récompense. En utilisant un modèle de récompense unidirectionnel, RAD peut mettre en cache les activations des étapes de génération précédentes afin de réduire la surcharge computationnelle. À travers des expériences sur la génération de textes non toxiques et contrôlés en termes de sentiment, nous démontrons que RAD obtient les meilleurs résultats parmi les méthodes qui modifient uniquement la procédure de génération et rivalise avec les performances des méthodes de pointe impliquant un réentraînement du modèle de langage. Nous validons en outre que RAD est efficace sur des modèles de langage très volumineux tout en induisant une surcharge computationnelle minimale.
Nous nous intéressons à l'élaboration de plans visuels pour des tâches complexes à long terme dans l'espace des vidéos générées et du langage, en exploitant les avancées récentes des modèles génératifs de grande envergure pré-entraînés sur des données à l'échelle d'Internet. À cette fin, nous présentons la planification vidéo-langage (VLP), un algorithme qui consiste en une procédure de recherche arborescente, où nous entraînons (i) des modèles vision-langage pour servir à la fois de politiques et de fonctions de valeur, et (ii) des modèles texte-à-vidéo comme modèles de dynamique. VLP prend en entrée une instruction de tâche à long terme et une observation d'image actuelle, et produit un plan vidéo détaillé qui fournit des spécifications multimodales (vidéo et langage) décrivant comment accomplir la tâche finale. VLP s'adapte à l'augmentation du budget de calcul, où un temps de calcul plus important améliore les plans vidéo, et est capable de synthétiser des plans vidéo à long terme dans différents domaines robotiques : du réarrangement multi-objets à la manipulation dextre bi-bras multi-caméras. Les plans vidéo générés peuvent être traduits en actions robotiques réelles via des politiques conditionnées par objectif, conditionnées sur chaque image intermédiaire de la vidéo générée. Les expériences montrent que VLP améliore considérablement les taux de réussite des tâches à long terme par rapport aux méthodes antérieures, tant sur des robots simulés que réels (sur 3 plateformes matérielles).
Nous étudions la distillation de données pour les tâches d'apprentissage automatique auto-régressives, où l'entrée et la sortie possèdent une structure causale stricte de gauche à droite. Plus précisément, nous proposons Farzi, qui résume un ensemble de données de séquences d'événements en un petit nombre de séquences synthétiques — les Farzi Data — optimisées pour maintenir (voire améliorer) les performances du modèle par rapport à un entraînement sur l'ensemble complet des données. En coulisses, Farzi réalise une distillation de données efficace en mémoire en (i) dérivant une différenciation en mode inverse efficace de l'optimiseur Adam en exploitant les produits Hessien-Vecteur ; et (ii) en factorisant l'espace discret à haute dimension des événements en un espace latent qui favorise de manière prouvée une régularisation implicite. Empiriquement, pour les tâches de recommandation séquentielle et de modélisation du langage, nous parvenons à atteindre 98 à 120 % des performances obtenues avec l'ensemble complet des données lors de l'entraînement de modèles de pointe sur des Farzi Data dont la taille représente aussi peu que 0,1 % de l'ensemble de données original. Notamment, la capacité à entraîner de meilleurs modèles avec significativement moins de données éclaire la conception des futurs grands modèles auto-régressifs et ouvre de nouvelles opportunités pour augmenter davantage la taille des modèles et des données.
Les formats de données à faible précision sont essentiels pour réduire les coûts de calcul et de stockage des applications modernes d'apprentissage profond. Cet article évalue les formats de données Microscaling (MX) qui combinent un facteur d'échelle par bloc avec des types à virgule flottante et entiers de faible précision pour les éléments individuels. Les formats MX équilibrent les besoins concurrents d'efficacité matérielle, de précision du modèle et de simplicité d'utilisation. Les résultats empiriques sur plus de deux douzaines de benchmarks démontrent la praticabilité des formats MX en tant que remplacement direct du format FP32 de base pour l'inférence et l'entraînement en IA, avec une faible complexité pour l'utilisateur. Nous montrons également la première instance d'entraînement de modèles de langage génératifs avec des poids, activations et gradients inférieurs à 8 bits, avec une perte de précision minimale et sans modifications de la procédure d'entraînement.
Malgré leur succès dans de nombreuses tâches de traitement du langage naturel, la résolution de problèmes mathématiques reste un défi majeur pour les grands modèles de langage (LLMs). Un écart important existe entre les performances "pass-at-one" et "pass-at-N" des LLMs dans la résolution de problèmes mathématiques, suggérant que les LLMs pourraient être proches de trouver des solutions correctes, ce qui motive notre exploration de méthodes de fine-tuning pour débloquer leur potentiel. En utilisant le jeu de données MATH, réputé pour sa difficulté, nous étudions trois stratégies de fine-tuning : (1) le fine-tuning de solutions, où nous affinons le modèle pour générer une solution détaillée à un problème mathématique donné ; (2) le ré-ordonnancement de clusters de solutions, où le LLM est affiné pour agir comme un vérificateur/évaluateur de solutions afin de choisir parmi des clusters de solutions générées ; (3) le fine-tuning multitâche séquentiel, qui intègre efficacement les tâches de génération et d'évaluation de solutions pour améliorer les performances du LLM. Grâce à ces méthodes, nous menons une étude empirique approfondie sur une série de modèles PaLM 2 et constatons : (1) La qualité et le style des solutions étape par étape utilisées pour le fine-tuning peuvent avoir un impact significatif sur les performances du modèle ; (2) Bien que le ré-ordonnancement des solutions et le vote majoritaire soient tous deux efficaces pour améliorer les performances du modèle lorsqu'ils sont utilisés séparément, ils peuvent également être combinés pour un gain de performance encore plus important ; (3) Le fine-tuning multitâche qui séquence les tâches de génération et d'évaluation de solutions peut offrir de meilleures performances par rapport au fine-tuning de solutions de base. Guidés par ces observations, nous concevons une recette de fine-tuning qui atteint environ 58,8 % de précision sur le jeu de données MATH avec des modèles PaLM 2-L affinés, soit une amélioration de 11,2 % par rapport aux performances en few-shot du modèle PaLM 2-L pré-entraîné avec vote majoritaire.
Nous étudions les capacités des grands modèles de langage (LLM) basés sur des architectures de type transformer pour des tâches de raisonnement relationnel impliquant des symboles abstraits. Ces tâches ont longtemps été étudiées dans la littérature en neurosciences comme des éléments fondamentaux pour des compétences plus complexes en programmation, mathématiques et raisonnement verbal. Pour (i) les tâches de régression, nous démontrons que les transformers généralisent lorsqu'ils sont entraînés, mais nécessitent des quantités étonnamment importantes de données d'entraînement. Pour (ii) les tâches de prédiction du token suivant avec des étiquettes symboliques, nous observons une "loi d'échelle inverse" : les transformers échouent à généraliser à mesure que la dimension de leur espace d'embedding augmente. Pour les deux configurations (i) et (ii), nous proposons des modifications subtiles des transformers qui peuvent réduire la quantité de données nécessaires en ajoutant deux paramètres entraînables par tête d'attention.
La synthèse d'invariants de boucle inductifs est fondamentale pour l'automatisation de la vérification de programmes. Dans ce travail, nous observons que les modèles de langage de grande taille (tels que gpt-3.5 ou gpt-4) sont capables de synthétiser des invariants de boucle pour une classe de programmes dans un contexte zéro-shot, mais nécessitent plusieurs échantillons pour générer les invariants corrects. Cela peut entraîner un grand nombre d'appels à un vérificateur de programmes pour établir un invariant. Pour résoudre ce problème, nous proposons une approche de {\it reclassement} pour les résultats générés par les modèles de langage de grande taille. Nous avons conçu un classificateur capable de distinguer les invariants inductifs corrects des tentatives incorrectes en se basant sur la définition du problème. Le classificateur est optimisé en tant que classificateur contrastif. Les résultats expérimentaux démontrent que ce mécanisme de reclassement améliore significativement le classement des invariants corrects parmi les candidats générés, conduisant à une réduction notable du nombre d'appels à un vérificateur.