Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les grands modèles de langage (LLMs) ont récemment démontré des capacités de raisonnement remarquables pour résoudre des problèmes mathématiques. Pour améliorer davantage cette capacité, ce travail propose l'apprentissage à partir des erreurs (Learning from Mistakes, LeMa), inspiré des processus d'apprentissage humains. Considérons un étudiant qui n'a pas réussi à résoudre un problème mathématique : il apprendra de l'erreur commise et de la manière de la corriger. En imitant ce processus d'apprentissage basé sur les erreurs, LeMa affine les LLMs sur des paires de données de correction d'erreurs générées par GPT-4. Plus précisément, nous collectons d'abord des chemins de raisonnement inexacts provenant de divers LLMs, puis utilisons GPT-4 comme "correcteur" pour (1) identifier l'étape erronée, (2) expliquer la raison de l'erreur, et (3) corriger l'erreur et générer la réponse finale. Les résultats expérimentaux démontrent l'efficacité de LeMa : sur cinq LLMs de base et deux tâches de raisonnement mathématique, LeMa améliore systématiquement les performances par rapport à un affinage sur des données de CoT (Chain-of-Thought) seul. De manière impressionnante, LeMa peut également bénéficier à des LLMs spécialisés tels que WizardMath et MetaMath, atteignant une précision de 85,4 % en pass@1 sur GSM8K et de 27,1 % sur MATH. Cela dépasse les performances SOTA obtenues par des modèles open-source non exécutables sur ces tâches complexes. Notre code, données et modèles seront disponibles publiquement à l'adresse https://github.com/microsoft/CodeT.
Les grands modèles multimodaux démontrent une capacité généraliste remarquable à accomplir diverses tâches multimodales de manière zero-shot. Les paires image-texte à grande échelle issues du web contribuent fondamentalement à ce succès, mais souffrent d'un bruit excessif. Des études récentes utilisent des légendes alternatives synthétisées par des modèles de génération de légendes et ont obtenu des performances notables sur les benchmarks. Cependant, nos expériences révèlent des problèmes significatifs de Déficit de Scalabilité et de Perte de Connaissance du Monde dans les modèles entraînés avec des légendes synthétiques, qui ont été largement masqués par leur succès initial sur les benchmarks. Après un examen plus approfondi, nous identifions la cause racine comme étant la structure linguistique trop simplifiée et le manque de détails de connaissance dans les légendes synthétiques existantes. Pour fournir des données de prétraitement multimodal de meilleure qualité et plus évolutives, nous proposons CapsFusion, un cadre avancé qui exploite les grands modèles de langage pour consolider et affiner les informations provenant à la fois des paires image-texte issues du web et des légendes synthétiques. Des expériences approfondies montrent que les légendes CapsFusion présentent une supériorité globale remarquable par rapport aux légendes existantes en termes de performance des modèles (par exemple, des améliorations de 18,8 et 18,3 du score CIDEr sur COCO et NoCaps), d'efficacité d'échantillonnage (nécessitant 11 à 16 fois moins de calcul que les baselines), de profondeur de la connaissance du monde et de scalabilité. Ces avantages en termes d'efficacité, d'efficience et de scalabilité positionnent CapsFusion comme un candidat prometteur pour le futur passage à l'échelle de l'entraînement des LMM.
Les systèmes de vision par ordinateur basés sur des réseaux de neurones reposent généralement sur un *backbone*, un extracteur de caractéristiques pré-entraîné ou initialisé aléatoirement. Il y a plusieurs années, l'option par défaut était un réseau de neurones convolutifs entraîné sur ImageNet. Cependant, ces dernières années ont vu émerger une multitude de *backbones* pré-entraînés à l'aide de divers algorithmes et jeux de données. Bien que cette abondance de choix ait permis d'améliorer les performances de nombreux systèmes, il est difficile pour les praticiens de prendre des décisions éclairées sur le *backbone* à choisir. *Battle of the Backbones* (BoB) facilite ce choix en évaluant une diversité de modèles pré-entraînés, y compris des modèles vision-langage, ceux entraînés via l'apprentissage auto-supervisé, et le *backbone* de Stable Diffusion, sur un large éventail de tâches de vision par ordinateur allant de la classification à la détection d'objets, en passant par la généralisation hors distribution (OOD) et bien plus encore. De plus, BoB met en lumière des directions prometteuses pour la communauté de recherche afin de faire progresser la vision par ordinateur, en révélant les forces et les faiblesses des approches existantes grâce à une analyse approfondie menée sur plus de 1500 sessions d'entraînement. Bien que les transformeurs de vision (ViTs) et l'apprentissage auto-supervisé (SSL) gagnent en popularité, nous constatons que les réseaux de neurones convolutifs pré-entraînés de manière supervisée sur de grands ensembles de données restent les plus performants sur la plupart des tâches parmi les modèles que nous avons considérés. Par ailleurs, dans des comparaisons directes sur les mêmes architectures et des jeux de données de pré-entraînement de taille similaire, nous observons que les *backbones* SSL sont très compétitifs, ce qui suggère que les travaux futurs devraient effectuer un pré-entraînement SSL avec des architectures avancées et des jeux de données de pré-entraînement plus vastes. Nous publions les résultats bruts de nos expériences ainsi que le code permettant aux chercheurs de soumettre leurs propres *backbones* à l'épreuve ici : https://github.com/hsouri/Battle-of-the-Backbones.
L'apprentissage par renforcement hors ligne (Offline RL) vise à trouver une politique quasi-optimale en utilisant des ensembles de données pré-collectionnés. Dans des scénarios réels, la collecte de données peut être coûteuse et risquée ; par conséquent, l'apprentissage par renforcement hors ligne devient particulièrement difficile lorsque les données dans le domaine sont limitées. Compte tenu des avancées récentes dans les modèles de langage de grande taille (LLMs) et de leur capacité d'apprentissage en few-shot, cet article présente Language Models for Motion Control (LaMo), un cadre général basé sur les Decision Transformers pour utiliser efficacement des modèles de langage pré-entraînés (LMs) dans l'apprentissage par renforcement hors ligne. Notre cadre met en évidence quatre composants cruciaux : (1) l'initialisation des Decision Transformers avec des LMs pré-entraînés de manière séquentielle, (2) l'utilisation de la méthode de fine-tuning LoRA, par opposition au fine-tuning complet des poids, pour combiner efficacement les connaissances pré-entraînées des LMs et les connaissances spécifiques au domaine, (3) l'utilisation de la transformation non linéaire MLP au lieu de projections linéaires pour générer des embeddings, et (4) l'intégration d'une perte de prédiction linguistique auxiliaire pendant le fine-tuning pour stabiliser les LMs et préserver leurs capacités originales sur les langues. Les résultats empiriques indiquent que LaMo atteint des performances de pointe dans les tâches à récompense éparse et réduit l'écart entre les méthodes d'apprentissage par renforcement hors ligne basées sur la valeur et les Decision Transformers dans les tâches à récompense dense. En particulier, notre méthode démontre des performances supérieures dans des scénarios avec un nombre limité d'échantillons de données. Notre site web de projet est https://lamo2023.github.io.
Nous avons évalué GPT-4 dans un test de Turing public en ligne. L’invocation de GPT-4 la plus performante a réussi dans 41 % des cas, surpassant les références établies par ELIZA (27 %) et GPT-3.5 (14 %), mais restant en deçà du hasard et de la référence fixée par les participants humains (63 %). Les décisions des participants se sont principalement basées sur le style linguistique (35 %) et les traits socio-émotionnels (27 %), soutenant l’idée que l’intelligence seule ne suffit pas pour réussir le test de Turing. Les caractéristiques démographiques des participants, telles que leur niveau d’éducation et leur familiarité avec les modèles de langage, n’ont pas permis de prédire le taux de détection, suggérant que même ceux qui comprennent ces systèmes en profondeur et interagissent fréquemment avec eux peuvent être sensibles à la tromperie. Malgré ses limites connues en tant que test d’intelligence, nous soutenons que le test de Turing reste pertinent comme évaluation de la communication naturaliste et de la tromperie. Les modèles d’IA capables de se faire passer pour des humains pourraient avoir des conséquences sociétales étendues, et nous analysons l’efficacité de différentes stratégies et critères pour juger de la ressemblance humaine.
Les développeurs en IA appliquent souvent des procédures d'alignement de sécurité pour prévenir l'utilisation abusive de leurs systèmes d'IA. Par exemple, avant que Meta ne publie Llama 2-Chat, une collection de grands modèles de langage affinés par instruction, ils ont investi massivement dans la formation à la sécurité, en intégrant un red teaming approfondi et un apprentissage par renforcement à partir de retours humains. Cependant, il reste incertain dans quelle mesure la formation à la sécurité protège contre l'utilisation abusive des modèles lorsque les attaquants ont accès aux poids des modèles. Nous explorons la robustesse de la formation à la sécurité dans les modèles de langage en affinant de manière subversive les poids publics de Llama 2-Chat. Nous utilisons l'adaptation à faible rang (LoRA) comme méthode d'affinage efficace. Avec un budget de moins de 200 $ par modèle et en utilisant un seul GPU, nous parvenons à annuler la formation à la sécurité des modèles Llama 2-Chat de tailles 7B, 13B et 70B. Plus précisément, notre technique d'affinage réduit considérablement le taux auquel le modèle refuse de suivre des instructions nuisibles. Nous obtenons un taux de refus inférieur à 1 % pour notre modèle Llama 2-Chat 70B sur deux benchmarks de refus. Notre méthode d'affinage conserve les performances générales, ce que nous validons en comparant nos modèles affinés à Llama 2-Chat sur deux benchmarks. De plus, nous présentons une sélection de sorties nuisibles produites par nos modèles. Bien qu'il existe une incertitude considérable sur l'étendue des risques des modèles actuels, il est probable que les modèles futurs auront des capacités significativement plus dangereuses, notamment la capacité de pirater des infrastructures critiques, de créer des armes biologiques dangereuses ou de se répliquer et de s'adapter de manière autonome à de nouveaux environnements. Nous montrons que l'affinage subversif est pratique et efficace, et nous soutenons donc que l'évaluation des risques liés à l'affinage devrait être un élément central des évaluations des risques pour la publication des poids des modèles.
Les modèles de diffusion constituent une famille de modèles génératifs qui atteignent des performances record dans des tâches telles que la synthèse d'images, la génération de vidéos et la conception de molécules. Malgré leurs capacités, leur efficacité, en particulier dans le processus inverse de débruitage, reste un défi en raison de taux de convergence lents et de coûts de calcul élevés. Dans ce travail, nous introduisons une approche qui exploite les systèmes dynamiques continus pour concevoir un nouveau réseau de débruitage pour les modèles de diffusion, plus efficace en termes de paramètres, présentant une convergence plus rapide et démontrant une robustesse accrue au bruit. En expérimentant avec des modèles de diffusion probabilistes de débruitage, notre framework fonctionne avec environ un quart des paramètres et 30 % des opérations en virgule flottante (FLOPs) par rapport aux U-Nets standards dans les modèles de diffusion probabilistes de débruitage (DDPMs). De plus, notre modèle est jusqu'à 70 % plus rapide en inférence que les modèles de référence dans des conditions égales, tout en convergeant vers des solutions de meilleure qualité.
Les grands corpus de texte constituent l'épine dorsale des modèles de langage. Cependant, notre compréhension du contenu de ces corpus reste limitée, notamment en ce qui concerne les statistiques générales, la qualité, les facteurs sociaux et l'inclusion de données d'évaluation (contamination). Dans ce travail, nous proposons What's In My Big Data? (WIMBD), une plateforme et un ensemble de seize analyses qui nous permettent de révéler et de comparer le contenu des grands corpus de texte. WIMBD s'appuie sur deux capacités de base — le comptage et la recherche — à grande échelle, ce qui nous permet d'analyser plus de 35 téraoctets sur un nœud de calcul standard. Nous appliquons WIMBD à dix corpus différents utilisés pour entraîner des modèles de langage populaires, notamment C4, The Pile et RedPajama. Notre analyse révèle plusieurs découvertes surprenantes et jusqu'alors non documentées concernant ces corpus, notamment la prévalence élevée de contenu dupliqué, synthétique et de faible qualité, d'informations personnellement identifiables, de langage toxique et de contamination des benchmarks. Par exemple, nous constatons qu'environ 50 % des documents dans RedPajama et LAION-2B-en sont des doublons. De plus, plusieurs ensembles de données utilisés pour évaluer les modèles entraînés sur ces corpus sont contaminés par rapport à des benchmarks importants, notamment le Winograd Schema Challenge et certaines parties de GLUE et SuperGLUE. Nous mettons en open-source le code et les artefacts de WIMBD afin de fournir un ensemble standard d'évaluations pour les nouveaux corpus de texte et d'encourager davantage d'analyses et de transparence autour de ceux-ci : github.com/allenai/wimbd.
Récemment, la génération vidéo a réalisé des progrès substantiels avec des résultats réalistes. Néanmoins, les vidéos générées par IA existantes sont généralement de très courts clips ("niveau plan") décrivant une seule scène. Pour produire une longue vidéo cohérente ("niveau histoire"), il est souhaitable d'avoir des effets de transition et de prédiction créatifs entre différents clips. Cet article présente un modèle de diffusion vidéo court-long, SEINE, qui se concentre sur la transition et la prédiction génératives. L'objectif est de générer des vidéos longues de haute qualité avec des transitions fluides et créatives entre les scènes et des durées variables de vidéos au niveau plan. Plus précisément, nous proposons un modèle de diffusion vidéo à masque aléatoire pour générer automatiquement des transitions basées sur des descriptions textuelles. En fournissant les images de différentes scènes comme entrées, combinées à un contrôle basé sur le texte, notre modèle génère des vidéos de transition qui assurent la cohérence et la qualité visuelle. De plus, le modèle peut être facilement étendu à diverses tâches telles que l'animation image-vidéo et la prédiction vidéo autorégressive. Pour mener une évaluation complète de cette nouvelle tâche générative, nous proposons trois critères d'évaluation pour une transition fluide et créative : la cohérence temporelle, la similarité sémantique et l'alignement sémantique vidéo-texte. Des expériences approfondies valident l'efficacité de notre approche par rapport aux méthodes existantes pour la transition et la prédiction génératives, permettant la création de vidéos longues au niveau histoire. Page du projet : https://vchitect.github.io/SEINE-project/ .
Pour traiter des phrases nouvelles, les modèles de langage (LMs) doivent généraliser de manière compositionnelle — c'est-à-dire combiner des éléments familiers de nouvelles manières. Quels aspects de la structure d'un modèle favorisent cette généralisation compositionnelle ? En nous concentrant sur les transformers, nous testons l'hypothèse, motivée par des travaux théoriques et empiriques récents, que les transformers généralisent de manière plus compositionnelle lorsqu'ils sont plus profonds (possèdent plus de couches). Comme l'ajout simple de couches augmente le nombre total de paramètres, confondant ainsi profondeur et taille, nous construisons trois classes de modèles qui échangent la profondeur contre la largeur, de sorte que le nombre total de paramètres reste constant (41M, 134M et 374M de paramètres). Nous pré-entraînons tous les modèles en tant que LMs et les affinons sur des tâches testant la généralisation compositionnelle. Nous rapportons trois conclusions principales : (1) après affinage, les modèles plus profonds généralisent mieux hors distribution que les modèles moins profonds, mais l'avantage relatif des couches supplémentaires diminue rapidement ; (2) au sein de chaque famille, les modèles plus profonds montrent de meilleures performances en modélisation du langage, mais les rendements diminuent de manière similaire ; (3) les avantages de la profondeur pour la généralisation compositionnelle ne peuvent pas être attribués uniquement à de meilleures performances en modélisation du langage ou sur des données en distribution.
ChipNeMo vise à explorer les applications des grands modèles de langage (LLM) pour la conception industrielle de puces. Plutôt que de déployer directement des LLM commerciaux ou open-source existants, nous adoptons les techniques d'adaptation de domaine suivantes : des tokenizers personnalisés, un pré-entraînement continu adapté au domaine, un réglage fin supervisé (SFT) avec des instructions spécifiques au domaine, et des modèles de recherche adaptés au domaine. Nous évaluons ces méthodes sur trois applications sélectionnées de LLM pour la conception de puces : un assistant d'ingénierie sous forme de chatbot, la génération de scripts EDA, et la synthèse et l'analyse de bugs. Nos résultats montrent que ces techniques d'adaptation de domaine permettent des améliorations significatives des performances des LLM par rapport aux modèles de base à usage général, pour les trois applications évaluées, permettant une réduction de la taille du modèle jusqu'à 5x avec des performances similaires ou meilleures sur une gamme de tâches de conception. Nos résultats indiquent également qu'il reste une marge d'amélioration entre nos résultats actuels et les résultats idéaux. Nous pensons qu'une investigation plus poussée des approches de LLM adaptés au domaine contribuera à combler cet écart à l'avenir.
L'évaluation automatique de l'intelligence des agents basés sur LLM est cruciale pour le développement d'agents LLM avancés. Bien que des efforts considérables aient été consacrés à la création de jeux de données d'évaluation annotés par des humains, tels qu'AlpacaEval, les techniques existantes sont coûteuses, chronophages et manquent d'adaptabilité. Dans cet article, inspiré par le jeu de langage populaire « Qui est l'espion », nous proposons d'utiliser le jeu de devinettes de mots pour évaluer les performances intellectuelles des LLM. Étant donné un mot, le LLM est invité à décrire le mot et à déterminer son identité (espion ou non) en se basant sur sa propre description et celles des autres joueurs. Idéalement, un agent avancé devrait être capable de décrire avec précision un mot donné en utilisant une description agressive tout en maximisant la confusion dans la description conservatrice, améliorant ainsi sa participation au jeu. À cette fin, nous développons d'abord DEEP pour évaluer les capacités d'expression et de dissimulation des LLM. DEEP exige que le LLM décrive un mot en modes agressif et conservateur. Nous introduisons ensuite SpyGame, un cadre interactif multi-agent conçu pour évaluer l'intelligence des LLM à travers leur participation à un jeu de société compétitif basé sur le langage. Intégrant l'interaction multi-agent, SpyGame exige que le LLM cible possède des compétences linguistiques et une pensée stratégique, offrant une évaluation plus complète des capacités cognitives humaines des LLM et de leur adaptabilité dans des situations de communication complexes. Le cadre d'évaluation proposé est très facile à mettre en œuvre. Nous avons collecté des mots provenant de multiples sources, domaines et langues et avons utilisé le cadre d'évaluation proposé pour mener des expériences. Des expériences approfondies démontrent que DEEP et SpyGame évaluent efficacement les capacités de divers LLM, capturant leur capacité à s'adapter à des situations nouvelles et à s'engager dans une communication stratégique.