Articles de recherche en IA sélectionnés quotidiennement avec traductions
Les modèles de langage n'ont réellement besoin d'utiliser qu'une fraction exponentielle de leurs neurones pour des inférences individuelles. En preuve, nous présentons FastBERT, une variante de BERT qui utilise 0,3 % de ses neurones lors de l'inférence tout en offrant des performances comparables à celles des modèles BERT similaires. FastBERT active sélectivement seulement 12 neurones sur 4095 pour chaque couche d'inférence. Cela est réalisé en remplaçant les réseaux feedforward par des réseaux feedforward rapides (FFFs). Bien qu'aucune implémentation véritablement efficace n'existe actuellement pour exploiter pleinement le potentiel d'accélération de l'exécution neuronale conditionnelle, nous fournissons un code CPU de haut niveau atteignant une accélération de 78x par rapport à l'implémentation feedforward optimisée de référence, ainsi qu'une implémentation PyTorch offrant une accélération de 40x par rapport à l'inférence feedforward par lots équivalente. Nous publions notre code d'entraînement, notre configuration de benchmarking et les poids du modèle.
Orca 1 apprend à partir de signaux riches, tels que des traces d'explication, ce qui lui permet de surpasser les modèles conventionnels ajustés par instruction sur des benchmarks comme BigBench Hard et AGIEval. Dans Orca 2, nous continuons d'explorer comment des signaux d'entraînement améliorés peuvent renforcer les capacités de raisonnement des petits modèles de langage (LM). La recherche sur l'entraînement des petits LM s'est souvent appuyée sur l'apprentissage par imitation pour reproduire les sorties de modèles plus performants. Nous soutenons qu'un accent excessif sur l'imitation peut limiter le potentiel des modèles plus petits. Nous cherchons à enseigner aux petits LM à employer différentes stratégies de résolution pour différentes tâches, potentiellement différentes de celles utilisées par le modèle plus grand. Par exemple, alors que les modèles plus grands pourraient fournir une réponse directe à une tâche complexe, les modèles plus petits pourraient ne pas avoir la même capacité. Dans Orca 2, nous enseignons au modèle diverses techniques de raisonnement (étape par étape, rappel puis génération, rappel-raisonnement-génération, réponse directe, etc.). Plus crucialement, nous visons à aider le modèle à apprendre à déterminer la stratégie de solution la plus efficace pour chaque tâche. Nous évaluons Orca 2 à l'aide d'un ensemble complet de 15 benchmarks divers (correspondant à environ 100 tâches et plus de 36 000 prompts uniques). Orca 2 surpasse significativement les modèles de taille similaire et atteint des niveaux de performance similaires ou supérieurs à ceux de modèles 5 à 10 fois plus grands, évalués sur des tâches complexes testant les capacités de raisonnement avancé dans des configurations zero-shot. Nous rendons Orca 2 open-source pour encourager davantage de recherches sur le développement, l'évaluation et l'alignement des petits LM.
La création de vidéos à haute dynamique, telles que des actions riches en mouvements et des effets visuels sophistiqués, représente un défi majeur dans le domaine de l'intelligence artificielle. Malheureusement, les méthodes actuelles de génération de vidéos, principalement axées sur la génération de texte à vidéo, ont tendance à produire des clips vidéo avec des mouvements minimaux malgré une fidélité élevée. Nous soutenons que s'appuyer uniquement sur des instructions textuelles est insuffisant et sous-optimal pour la génération de vidéos. Dans cet article, nous présentons PixelDance, une nouvelle approche basée sur des modèles de diffusion qui intègre des instructions d'image pour les première et dernière images, en conjonction avec des instructions textuelles pour la génération de vidéos. Les résultats expérimentaux complets démontrent que PixelDance, entraîné avec des données publiques, montre une bien meilleure capacité à synthétiser des vidéos avec des scènes complexes et des mouvements détaillés, établissant ainsi une nouvelle norme pour la génération de vidéos.
L'attention douce dans les modèles de langage à grande échelle (LLM) basés sur les Transformers est sujette à intégrer des informations non pertinentes du contexte dans ses représentations latentes, ce qui affecte négativement la génération des tokens suivants. Pour remédier à ces problèmes, nous introduisons System 2 Attention (S2A), qui exploite la capacité des LLM à raisonner en langage naturel et à suivre des instructions pour décider ce à quoi il faut prêter attention. S2A régénère le contexte d'entrée pour n'inclure que les parties pertinentes, avant de se concentrer sur le contexte régénéré pour produire la réponse finale. Dans les expériences, S2A surpasse les LLM standard basés sur l'attention sur trois tâches contenant des opinions ou des informations non pertinentes : les questions-réponses, les problèmes de mots mathématiques et la génération de textes longs, où S2A améliore la factualité et l'objectivité, et réduit la complaisance.
LoRA atteint une efficacité remarquable en termes de ressources et des performances comparables lors de l'adaptation de LLM pour des tâches spécifiques. Depuis que ChatGPT a démontré des performances supérieures sur diverses tâches, il y a eu un désir croissant d'adapter un seul modèle pour toutes les tâches. Cependant, le rang explicite faible de LoRA limite les performances d'adaptation dans des scénarios multi-tâches complexes. LoRA est dominé par un petit nombre de vecteurs singuliers principaux, tandis que le fine-tuning se décompose en un ensemble de transformations unitaires moins importantes. Dans cet article, nous proposons MultiLoRA pour une meilleure adaptation multi-tâches en réduisant la dominance des vecteurs singuliers principaux observés dans LoRA. MultiLoRA étend les modules LoRA horizontalement et modifie l'initialisation des paramètres des matrices d'adaptation pour réduire la dépendance des paramètres, produisant ainsi des sous-espaces unitaires plus équilibrés. Nous construisons de manière inédite des données d'entraînement spécialisées en mélangeant des ensembles de données de suivi d'instructions, de compréhension du langage naturel et de connaissances générales, afin de couvrir des échantillons sémantiquement et syntaxiquement différents. Avec seulement 2,5 % de paramètres supplémentaires, MultiLoRA surpasse les versions à LoRA unique et le fine-tuning sur plusieurs benchmarks et échelles de modèles. Une investigation plus poussée des matrices de mise à jour des poids de MultiLoRA montre une dépendance réduite aux vecteurs singuliers principaux et des contributions plus démocratiques des transformations unitaires.
Nous présentons GPQA, un ensemble de données exigeant composé de 448 questions à choix multiples rédigées par des experts en biologie, physique et chimie. Nous avons veillé à ce que les questions soient de haute qualité et extrêmement difficiles : les experts titulaires ou en cours de doctorat dans les domaines correspondants atteignent une précision de 65 % (74 % en excluant les erreurs évidentes identifiées a posteriori par les experts), tandis que des validateurs non-experts très compétents n’atteignent que 34 % de précision, malgré un temps moyen de plus de 30 minutes passé avec un accès illimité à Internet (c’est-à-dire que les questions sont « à l’épreuve de Google »). Les questions sont également difficiles pour les systèmes d’IA de pointe, notre modèle de référence le plus performant basé sur GPT-4 atteignant une précision de 39 %. Si nous souhaitons utiliser les futurs systèmes d’IA pour nous aider à répondre à des questions très complexes, par exemple lors du développement de nouvelles connaissances scientifiques, nous devons mettre au point des méthodes de supervision évolutives permettant aux humains de superviser leurs résultats, ce qui peut s’avérer difficile même si les superviseurs sont eux-mêmes compétents et bien informés. La difficulté de GPQA, tant pour les non-experts compétents que pour les systèmes d’IA de pointe, devrait permettre des expériences réalistes de supervision évolutive, ce qui, nous l’espérons, pourra contribuer à concevoir des moyens pour que les experts humains obtiennent de manière fiable des informations véridiques provenant de systèmes d’IA surpassant les capacités humaines.
Nous présentons Adapters, une bibliothèque open-source qui unifie l'apprentissage par transfert paramétriquement efficace et modulaire dans les grands modèles de langage. En intégrant 10 méthodes d'adaptation diverses dans une interface unifiée, Adapters offre une facilité d'utilisation et une configuration flexible. Notre bibliothèque permet aux chercheurs et aux praticiens d'exploiter la modularité des adaptateurs grâce à des blocs de composition, permettant la conception de configurations d'adaptation complexes. Nous démontrons l'efficacité de la bibliothèque en évaluant ses performances par rapport au réglage fin complet sur diverses tâches de TAL. Adapters fournit un outil puissant pour relever les défis des paradigmes de réglage fin conventionnels et promouvoir un apprentissage par transfert plus efficace et modulaire. La bibliothèque est disponible via https://adapterhub.ml/adapters.
Nous présentons Style Tailoring, une méthode pour affiner les modèles de diffusion latente (LDMs) dans un domaine spécifique tout en garantissant une qualité visuelle élevée, un alignement sur les prompts et une diversité des scènes. Nous choisissons la génération d'images de stickers comme domaine cible, car ces images diffèrent significativement des échantillons photoréalistes typiquement générés par les LDMs à grande échelle. Nous partons d'un modèle compétent de texte-à-image, comme Emu, et montrons que s'appuyer sur l'ingénierie des prompts avec un modèle photoréaliste pour générer des stickers conduit à un mauvais alignement sur les prompts et une faible diversité des scènes. Pour surmonter ces limites, nous affinons d'abord Emu sur des millions d'images ressemblant à des stickers collectées en utilisant une supervision faible pour susciter la diversité. Ensuite, nous créons des ensembles de données d'Alignement et de Style avec intervention humaine (HITL) à partir des générations du modèle, et affinons pour améliorer respectivement l'alignement sur les prompts et l'alignement stylistique. L'affinage séquentiel sur ces ensembles de données pose un compromis entre un meilleur alignement stylistique et les gains en alignement sur les prompts. Pour résoudre ce compromis, nous proposons une nouvelle méthode d'affinage appelée Style Tailoring, qui ajuste conjointement la distribution du contenu et du style et atteint le meilleur compromis. Les résultats d'évaluation montrent que notre méthode améliore la qualité visuelle de 14 %, l'alignement sur les prompts de 16,2 % et la diversité des scènes de 15,3 %, par rapport à l'ingénierie des prompts appliquée au modèle Emu de base pour la génération de stickers.
Les récentes avancées dans la génération de texte-à-3D marquent une étape importante dans les modèles génératifs, ouvrant de nouvelles possibilités pour créer des assets 3D imaginatifs dans divers scénarios du monde réel. Bien que les progrès récents en génération de texte-à-3D aient montré des résultats prometteurs, ils peinent souvent à produire des modèles 3D détaillés et de haute qualité. Ce problème est particulièrement prégnant, car de nombreuses méthodes s'appuient sur le Score Distillation Sampling (SDS). Cet article met en lumière une lacune notable du SDS : il génère des directions de mise à jour incohérentes et de faible qualité pour le modèle 3D, entraînant un effet de sur-lissage. Pour remédier à cela, nous proposons une nouvelle approche appelée Interval Score Matching (ISM). L'ISM utilise des trajectoires de diffusion déterministes et met en œuvre un appariement de scores basé sur des intervalles pour contrer le sur-lissage. Par ailleurs, nous intégrons le 3D Gaussian Splatting dans notre pipeline de génération de texte-à-3D. Des expériences approfondies montrent que notre modèle surpasse largement l'état de l'art en termes de qualité et d'efficacité d'entraînement.
L'augmentation du nombre de paramètres des modèles de langage s'est avérée être une approche efficace pour améliorer les performances. Pour les modèles denses, l'augmentation de la taille du modèle accroît proportionnellement l'empreinte computationnelle. Dans ce travail, nous cherchons à découpler de manière agressive la capacité d'apprentissage et les FLOPs grâce à des modèles de type Mixture-of-Experts (MoE) dotés de fonctions de routage basées sur un vocabulaire riche en connaissances et d'experts spécialisés. Notre approche proposée, appelée Mixture of Word Experts (MoWE), peut être vue comme un modèle augmenté par mémoire, où un grand ensemble d'experts spécifiques à chaque mot joue le rôle d'une mémoire parcimonieuse. Nous démontrons que MoWE surpasse significativement la famille de modèles T5 avec un nombre similaire de FLOPs sur une variété de tâches de traitement du langage naturel (NLP). De plus, MoWE surpasse les modèles MoE classiques sur les tâches intensives en connaissances et offre des performances comparables à des approches plus complexes augmentées par mémoire, qui nécessitent souvent l'invocation de mécanismes personnalisés pour interroger la mémoire parcimonieuse.
La visualisation de récits vise à générer une série d'images correspondant à l'histoire décrite dans des textes, tout en exigeant que les images générées soient de haute qualité, alignées avec la description textuelle et cohérentes dans les identités des personnages. Compte tenu de la complexité de la visualisation de récits, les méthodes existantes simplifient considérablement le problème en ne considérant que quelques personnages et scénarios spécifiques, ou en exigeant que les utilisateurs fournissent des conditions de contrôle par image, telles que des esquisses. Cependant, ces simplifications rendent ces méthodes inadaptées aux applications réelles. Pour pallier cela, nous proposons un système automatisé de visualisation de récits capable de générer efficacement des ensembles d'images de récits diversifiés, de haute qualité et cohérents, avec un minimum d'interactions humaines. Plus précisément, nous utilisons les capacités de compréhension et de planification des grands modèles de langage pour la planification des mises en page, puis nous exploitons des modèles de génération d'images à grande échelle pour produire des images de récits sophistiquées basées sur cette mise en page. Nous constatons empiriquement que des conditions de contrôle éparses, telles que des boîtes englobantes, sont adaptées à la planification des mises en page, tandis que des conditions de contrôle denses, comme des esquisses et des points clés, sont appropriées pour générer un contenu d'image de haute qualité. Pour tirer le meilleur des deux approches, nous concevons un module de génération de conditions denses pour transformer des mises en page simples en conditions de contrôle sous forme d'esquisses ou de points clés pour la génération finale d'images, ce qui améliore non seulement la qualité des images, mais permet également des interactions utilisateur faciles et intuitives. En outre, nous proposons une méthode simple mais efficace pour générer des images de personnages cohérentes sous plusieurs angles, éliminant ainsi la dépendance au travail humain pour collecter ou dessiner des images de personnages.
Des anciennes roues à eau à l'automatisation des processus robotisés (RPA), la technologie d'automatisation a évolué au fil de l'histoire pour libérer les êtres humains des tâches ardues. Cependant, la RPA peine à accomplir des tâches nécessitant une intelligence semblable à celle des humains, en particulier dans la conception élaborée de la construction des workflows et la prise de décision dynamique lors de leur exécution. Avec l'émergence des modèles de langage à grande échelle (LLMs) dotés d'une intelligence proche de celle des humains, cet article présente l'Automatisation des Processus Agentiques (APA), un paradigme révolutionnaire d'automatisation utilisant des agents basés sur des LLMs pour une automatisation avancée en déléguant le travail humain à des agents associés à la construction et à l'exécution. Nous instancions ensuite ProAgent, un agent basé sur des LLMs conçu pour élaborer des workflows à partir d'instructions humaines et prendre des décisions complexes en coordonnant des agents spécialisés. Des expériences empiriques sont menées pour détailler sa procédure de construction et d'exécution des workflows, démontrant la faisabilité de l'APA et révélant la possibilité d'un nouveau paradigme d'automatisation piloté par des agents. Notre code est disponible à l'adresse suivante : https://github.com/OpenBMB/ProAgent.
Les modèles de langage de grande taille (LLMs) ont démontré leur aptitude à traiter des tâches nécessitant une combinaison de planification de tâches et d'utilisation d'outils externes, tels que des API. Cependant, les systèmes complexes du monde réel posent trois défis majeurs concernant la planification des tâches et l'utilisation des outils : (1) Le système réel dispose généralement d'un vaste éventail d'API, ce qui rend impossible l'intégration des descriptions de toutes les API dans l'invite des LLMs en raison de la limitation de la longueur des tokens ; (2) Le système réel est conçu pour gérer des tâches complexes, et les LLMs de base peinent à planifier un ordre correct de sous-tâches et d'appels d'API pour de telles tâches ; (3) Les similarités sémantiques et fonctionnelles entre les API dans les systèmes réels créent des difficultés pour les LLMs, et même pour les humains, à les distinguer. En réponse, cet article propose un cadre complet visant à améliorer les capacités de Planification des Tâches et d'Utilisation des Outils (TPTU) des agents basés sur LLM opérant dans des systèmes du monde réel. Notre cadre comprend trois composants clés conçus pour relever ces défis : (1) le Récupérateur d'API sélectionne les API les plus pertinentes pour la tâche de l'utilisateur parmi la multitude disponible ; (2) le Fine-tuneur de LLM ajuste un LLM de base afin que le LLM ajusté soit plus compétent pour la planification des tâches et l'appel d'API ; (3) le Sélecteur de Démonstrations récupère de manière adaptative différentes démonstrations liées aux API difficiles à distinguer, qui sont ensuite utilisées pour l'apprentissage en contexte afin d'améliorer les performances finales. Nous validons nos méthodes à l'aide d'un système commercial réel ainsi que d'un ensemble de données académiques open-source, et les résultats mettent clairement en évidence l'efficacité de chaque composant individuel ainsi que du cadre intégré.
Nous présentons un pipeline qui améliore un modèle de vision et langage à usage général, GPT-4V(ision), en intégrant des observations d'actions humaines pour faciliter la manipulation robotique. Ce système analyse des vidéos de personnes exécutant des tâches et crée des programmes robotiques exécutables qui intègrent des insights sur les affordances. Le calcul commence par l'analyse des vidéos avec GPT-4V pour convertir les détails environnementaux et d'action en texte, suivie par un planificateur de tâches alimenté par GPT-4. Dans les analyses suivantes, les systèmes de vision réanalysent la vidéo avec le plan de tâche. Les noms d'objets sont ancrés à l'aide d'un détecteur d'objets à vocabulaire ouvert, tandis que l'accent sur la relation main-objet aide à détecter le moment de la saisie et du relâchement. Cet ancrage spatio-temporel permet aux systèmes de vision de recueillir davantage de données sur les affordances (par exemple, le type de préhension, les points de passage et les postures corporelles). Des expériences menées dans divers scénarios démontrent l'efficacité de cette méthode pour réaliser des opérations de robots réels à partir de démonstrations humaines de manière zero-shot. Les prompts de GPT-4V/GPT-4 sont disponibles sur la page du projet : https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
Le paysage actuel de la recherche exploitant les grands modèles de langage (LLMs) connaît une forte expansion. De nombreux travaux exploitent les puissantes capacités de raisonnement de ces modèles pour comprendre diverses modalités, telles que le texte, la parole, les images, les vidéos, etc. Ils utilisent également les LLMs pour comprendre l'intention humaine et générer des résultats souhaités comme des images, des vidéos et de la musique. Cependant, la recherche qui combine à la fois la compréhension et la génération en utilisant les LLMs est encore limitée et à un stade naissant. Pour combler cette lacune, nous introduisons un cadre de Compréhension et Génération Musicale Multi-Modale (M^{2}UGen) qui intègre les capacités des LLMs à comprendre et générer de la musique pour différentes modalités. Le cadre M^{2}UGen est conçu spécifiquement pour libérer le potentiel créatif à partir de sources d'inspiration diverses, englobant la musique, l'image et la vidéo grâce à l'utilisation des modèles pré-entraînés MERT, ViT et ViViT, respectivement. Pour permettre la génération musicale, nous explorons l'utilisation d'AudioLDM 2 et de MusicGen. Le pont entre la compréhension multi-modale et la génération musicale est réalisé grâce à l'intégration du modèle LLaMA 2. De plus, nous utilisons le modèle MU-LLaMA pour générer des ensembles de données étendus qui soutiennent la génération de musique à partir de texte/image/vidéo, facilitant ainsi l'entraînement de notre cadre M^{2}UGen. Nous menons une évaluation approfondie de notre cadre proposé. Les résultats expérimentaux démontrent que notre modèle atteint ou dépasse les performances des modèles actuels de pointe.