papers.description
Nous constatons que, simplement via une méthode d'échantillonnage et de vote, la performance des grands modèles de langage (LLMs) s'améliore avec le nombre d'agents instanciés. De plus, cette méthode est orthogonale aux méthodes complexes existantes pour améliorer davantage les LLMs, tandis que le degré d'amélioration est corrélé à la difficulté de la tâche. Nous menons des expériences approfondies sur un large éventail de benchmarks de LLMs pour vérifier la présence de notre découverte et étudier les propriétés qui peuvent en faciliter l'occurrence. Notre code est disponible publiquement à l'adresse suivante : https://anonymous.4open.science/r/more_agent_is_all_you_need.
Nous proposons le problème de la navigation web conversationnelle, dans lequel un agent numérique contrôle un navigateur web et suit les instructions de l'utilisateur pour résoudre des tâches du monde réel dans un dialogue multi-tours. Pour soutenir ce problème, nous introduisons WEBLINX - un benchmark à grande échelle de 100 000 interactions issues de 2 300 démonstrations expertes de navigation web conversationnelle. Notre benchmark couvre un large éventail de modèles sur plus de 150 sites web réels et peut être utilisé pour entraîner et évaluer des agents dans divers scénarios. En raison de la quantité d'informations présentes, les modèles de langage de grande taille (LLMs) ne peuvent pas traiter des pages web entières en temps réel. Pour résoudre ce goulot d'étranglement, nous concevons un modèle inspiré de la récupération d'information qui élimine efficacement les pages HTML en classant les éléments pertinents. Nous utilisons les éléments sélectionnés, ainsi que des captures d'écran et l'historique des actions, pour évaluer une variété de modèles quant à leur capacité à reproduire le comportement humain lors de la navigation sur le web. Nos expériences vont des petits modèles textuels aux LLMs multimodaux propriétaires. Nous constatons que les petits décodeurs affinés surpassent les meilleurs LLMs en zero-shot (y compris GPT-4V), mais aussi les modèles multimodaux affinés de plus grande taille qui ont été explicitement pré-entraînés sur des captures d'écran. Cependant, tous les modèles affinés peinent à généraliser à des sites web non vus. Nos résultats mettent en évidence la nécessité de grands modèles multimodaux capables de généraliser à de nouveaux contextes. Notre code, données et modèles sont disponibles pour la recherche : https://mcgill-nlp.github.io/weblinx
Le développement des systèmes d'intelligence artificielle évolue de la création de modèles statiques et spécifiques à une tâche vers des systèmes dynamiques basés sur des agents capables de performer dans un large éventail d'applications. Nous proposons un Modèle Fondamental d'Agent Interactif qui utilise un nouveau paradigme d'entraînement multi-tâches pour former des agents d'IA dans divers domaines, ensembles de données et tâches. Notre paradigme d'entraînement unifie des stratégies de pré-entraînement variées, incluant des auto-encodeurs masqués visuels, la modélisation du langage et la prédiction de l'action suivante, permettant ainsi un cadre d'IA polyvalent et adaptable. Nous démontrons les performances de notre cadre dans trois domaines distincts — la robotique, l'IA pour les jeux et la santé. Notre modèle montre sa capacité à générer des résultats significatifs et pertinents dans chaque domaine. La force de notre approche réside dans sa généralité, exploitant diverses sources de données telles que des séquences robotiques, des données de jeu, des ensembles de données vidéo à grande échelle et des informations textuelles pour un apprentissage multimodal et multi-tâches efficace. Notre approche ouvre une voie prometteuse pour le développement de systèmes généralistes, prenant des actions et multimodaux.
Les modèles de langage de grande taille (LLMs) ont démontré une remarquable maîtrise dans la compréhension et la génération du langage naturel. Cependant, leurs capacités s’affaiblissent dans des domaines hautement spécialisés sous-représentés dans le corpus de pré-entraînement, tels que les sciences physiques et biomédicales. Ce travail explore comment réadapter des LLMs généraux pour en faire des solveurs de tâches efficaces dans des domaines spécialisés. Nous introduisons un cadre novateur et indépendant du modèle pour apprendre des balises d’entrée personnalisées, paramétrées sous forme de vecteurs continus ajoutés à la couche d’embedding du LLM, afin de conditionner celui-ci. Nous concevons deux types de balises d’entrée : les balises de domaine, utilisées pour délimiter des représentations spécialisées (par exemple, des formules chimiques) et fournir un contexte pertinent au domaine ; et les balises de fonction, utilisées pour représenter des fonctions spécifiques (par exemple, la prédiction de propriétés moléculaires) et compresser les instructions de résolution de fonctions. Nous développons un protocole en trois étapes pour apprendre ces balises à l’aide de données auxiliaires et de connaissances du domaine. En dissociant explicitement les domaines de tâche des fonctions de tâche, notre méthode permet une généralisation à zéro-shot à des problèmes inédits grâce à des combinaisons variées des balises d’entrée. Elle améliore également les performances des LLMs dans divers domaines spécialisés, tels que la prédiction des propriétés des protéines ou des produits chimiques, et la modélisation des interactions médicament-cible, surpassant les modèles experts conçus pour ces tâches.
Ce rapport technique présente la méthodologie d'entraînement et les résultats d'évaluation des modèles d'encodage de texte multilingues E5 open-source, publiés mi-2023. Trois modèles d'encodage de tailles différentes (petit / base / grand) sont proposés, offrant un équilibre entre l'efficacité d'inférence et la qualité des encodages. La procédure d'entraînement suit la recette du modèle E5 en anglais, impliquant un pré-entraînement contrastif sur 1 milliard de paires de textes multilingues, suivi d'un ajustement fin sur une combinaison de jeux de données étiquetés. De plus, nous introduisons un nouveau modèle d'encodage ajusté par instructions, dont les performances sont comparables à celles des modèles de pointe monolingues (anglais uniquement) de tailles similaires. Les informations concernant la publication des modèles sont disponibles à l'adresse suivante : https://github.com/microsoft/unilm/tree/master/e5.
Malgré les récents progrès des modèles génératifs de texte-à-image personnalisés (P-T2I), la génération d'images pilotée par un sujet reste un défi. Les principaux goulots d'étranglement incluent 1) les exigences intensives en ressources de formation, 2) la sensibilité aux hyperparamètres entraînant des résultats incohérents, et 3) l'équilibrage des subtilités entre l'alignement des nouveaux concepts visuels et de la composition. Nous commençons par réitérer la philosophie centrale des modèles de diffusion texte-à-image pour aborder ces limitations. Principalement, les approches contemporaines de T2I pilotées par un sujet reposent sur les Modèles de Diffusion Latente (LDMs), qui facilitent la cartographie T2I à travers des couches d'attention croisée. Bien que les LDMs offrent des avantages distincts, la dépendance des méthodes P-T2I sur l'espace latent de ces modèles de diffusion augmente considérablement les demandes en ressources, conduisant à des résultats incohérents et nécessitant de nombreuses itérations pour une seule image souhaitée. Récemment, ECLIPSE a démontré une voie plus efficace en ressources pour l'entraînement de modèles T2I basés sur UnCLIP, contournant le besoin de préalables de diffusion texte-à-image. Sur cette base, nous introduisons lambda-ECLIPSE. Notre méthode montre qu'un P-T2I efficace ne dépend pas nécessairement de l'espace latent des modèles de diffusion. lambda-ECLIPSE réalise la personnalisation T2I pour un seul sujet, plusieurs sujets et guidée par les contours avec seulement 34M de paramètres et est entraîné en seulement 74 heures GPU en utilisant 1,6M de données intercalées image-texte. À travers des expériences approfondies, nous établissons également que lambda-ECLIPSE surpasse les bases de référence existantes en alignement de composition tout en préservant la performance d'alignement de concept, même avec une utilisation de ressources significativement plus faible.
L'apprentissage en contexte (ICL, également connu sous le nom de *few-shot prompting*) a été la méthode standard pour adapter les modèles de langage de grande taille (LLMs) à des tâches en aval, en apprenant à partir de quelques exemples d'entrées-sorties. Cependant, toutes les approches basées sur l'ICL n'apprennent qu'à partir de paires d'entrées-sorties correctes. Dans cet article, nous revisitons ce paradigme en tirant davantage parti des quelques exemples d'entrées-sorties fournis. Nous introduisons les *Learning Principles* (LEAP) : d'abord, nous incitons intentionnellement le modèle à commettre des erreurs sur ces quelques exemples ; ensuite, nous réfléchissons à ces erreurs et en tirons des "principes" explicites spécifiques à la tâche, qui aident à résoudre des problèmes similaires et à éviter les erreurs courantes ; enfin, nous incitons le modèle à répondre à des questions de test inédites en utilisant les exemples *few-shot* originaux et ces principes généraux appris. Nous évaluons LEAP sur un large éventail de benchmarks, notamment la réponse à des questions à sauts multiples (Hotpot QA), la réponse à des questions textuelles (DROP), le raisonnement Big-Bench Hard et les problèmes mathématiques (GSM8K et MATH) ; sur tous ces benchmarks, LEAP améliore les LLMs les plus performants disponibles, tels que GPT-3.5-turbo, GPT-4, GPT-4 turbo et Claude-2.1. Par exemple, LEAP améliore de 7,5 % le *few-shot prompting* standard avec GPT-4 sur DROP et de 3,3 % sur HotpotQA. Il est important de noter que LEAP ne nécessite pas plus d'entrées ou d'exemples que les paramètres standard du *few-shot prompting*.
Nous proposons SPHINX-X, une série étendue de Modèles de Langage Multimodaux (MLLM) développée sur la base de SPHINX. Pour améliorer l’architecture et l’efficacité de l’entraînement, nous modifions le cadre de SPHINX en supprimant les encodeurs visuels redondants, en contournant les sous-images entièrement remplies avec des tokens de saut, et en simplifiant l’entraînement multi-étapes en un paradigme tout-en-un en une seule étape. Pour libérer pleinement le potentiel des MLLM, nous assemblons un ensemble de données multidomaines et multimodales complet, couvrant des ressources publiquement disponibles dans les domaines du langage, de la vision et des tâches vision-langage. Nous enrichissons davantage cette collection avec nos ensembles de données OCR intensifs et Set-of-Mark, étendant ainsi la diversité et la généralité. En entraînant sur différents modèles de langage de base, notamment TinyLlama1.1B, InternLM2-7B, LLaMA2-13B et Mixtral8x7B, nous obtenons un spectre de MLLM variant en taille de paramètres et en capacités multilingues. Un benchmarking complet révèle une forte corrélation entre la performance multimodale et les échelles de données et de paramètres. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/Alpha-VLLM/LLaMA2-Accessory.
Nous présentons SPIRIT-LM, un modèle de langage multimodal de base qui combine librement texte et parole. Notre modèle est basé sur un modèle de langage textuel pré-entraîné que nous étendons à la modalité de la parole en l'entraînant de manière continue sur des unités de texte et de parole. Les séquences de parole et de texte sont concaténées en un seul ensemble de tokens, et entraînées avec une méthode d'entrelacement au niveau des mots en utilisant un petit corpus parallèle parole-texte automatiquement constitué. SPIRIT-LM existe en deux versions : une version BASE qui utilise des unités sémantiques de parole et une version EXPRESSIVE qui modélise l'expressivité en utilisant des unités de hauteur et de style en plus des unités sémantiques. Pour les deux versions, le texte est encodé avec des tokens BPE de sous-mots. Le modèle résultant présente à la fois les capacités sémantiques des modèles textuels et les capacités expressives des modèles de parole. De plus, nous démontrons que SPIRIT-LM est capable d'apprendre de nouvelles tâches en quelques essais à travers les modalités (c'est-à-dire la reconnaissance automatique de la parole, la synthèse vocale, la classification de la parole).
Dans cet article, nous introduisons un nouveau paradigme visant à améliorer les capacités d'un détecteur d'objets, par exemple en élargissant les catégories ou en optimisant les performances de détection, en l'entraînant sur un ensemble de données synthétiques générées par des modèles de diffusion. Plus précisément, nous intégrons une tête d'ancrage au niveau des instances dans un modèle de diffusion génératif pré-entraîné, afin de lui conférer la capacité de localiser des instances arbitraires dans les images générées. Cette tête d'ancrage est entraînée à aligner l'encodage textuel des noms de catégories avec les caractéristiques visuelles régionales du modèle de diffusion, en utilisant une supervision provenant d'un détecteur d'objets standard et un nouveau schéma d'auto-apprentissage pour les catégories (nouvelles) non couvertes par le détecteur. Cette version améliorée du modèle de diffusion, appelée InstaGen, peut servir de synthétiseur de données pour la détection d'objets. Nous menons des expériences approfondies pour montrer qu'un détecteur d'objets peut être amélioré en s'entraînant sur l'ensemble de données synthétiques généré par InstaGen, démontrant des performances supérieures aux méthodes de pointe existantes dans des scénarios de vocabulaire ouvert (+4,5 AP) et de données limitées (+1,2 à 5,2 AP).
La plupart des encodeurs vidéo basés sur des transformers sont limités à des contextes temporels courts en raison de leur complexité quadratique. Bien que diverses tentatives aient été faites pour étendre ce contexte, cela s'est souvent fait au détriment de la complexité conceptuelle et computationnelle. Nous proposons plutôt de réutiliser des transformers vidéo pré-entraînés en les ajustant simplement pour qu'ils prennent en compte des mémoires dérivées de manière non paramétrique à partir des activations passées. En tirant parti de la réduction de la redondance, notre vision transformer consolidé par mémoire (MC-ViT) étend sans effort son contexte loin dans le passé et montre un excellent comportement de mise à l'échelle lors de l'apprentissage à partir de vidéos plus longues. Ce faisant, MC-ViT établit un nouvel état de l'art dans la compréhension vidéo à long contexte sur EgoSchema, Perception Test et Diving48, surpassant des méthodes qui bénéficient d'ordres de grandeur plus de paramètres.
Les modèles Vision-Langage (VL) ont suscité un intérêt de recherche considérable, permettant des avancées remarquables dans le raisonnement multimodal. Ces architectures comprennent généralement un encodeur visuel, un Grand Modèle de Langage (LLM), et un module de projection qui aligne les caractéristiques visuelles avec l'espace de représentation du LLM. Malgré leur succès, une limitation critique persiste : le processus d'encodage visuel reste découplé des requêtes utilisateur, souvent formulées sous forme de questions relatives à l'image. Par conséquent, les caractéristiques visuelles résultantes peuvent ne pas être optimalement adaptées aux éléments spécifiques de l'image liés à la requête. Pour remédier à cela, nous introduisons QA-ViT, une approche Question Aware Vision Transformer pour le raisonnement multimodal, qui intègre directement la prise en compte de la question au sein de l'encodeur visuel. Cette intégration produit des caractéristiques visuelles dynamiques se concentrant sur les aspects pertinents de l'image par rapport à la question posée. QA-ViT est agnostique au modèle et peut être intégré efficacement dans toute architecture VL. Des expériences approfondies démontrent l'efficacité de l'application de notre méthode à diverses architectures multimodales, conduisant à une amélioration constante sur une variété de tâches et mettant en évidence son potentiel pour améliorer la compréhension visuelle et textuelle des scènes.
Nous présentons un nouvel algorithme pour optimiser des distributions définies implicitement par des diffusions stochastiques paramétrées. Cela nous permet de modifier la distribution des résultats des processus d'échantillonnage en optimisant leurs paramètres. Nous introduisons un cadre général pour l'optimisation au premier ordre de ces processus, qui effectue conjointement, en une seule boucle, les étapes d'optimisation et d'échantillonnage. Cette approche s'inspire des avancées récentes en optimisation bilevel et en différenciation implicite automatique, en exploitant le point de vue de l'échantillonnage comme une optimisation sur l'espace des distributions de probabilité. Nous fournissons des garanties théoriques sur la performance de notre méthode, ainsi que des résultats expérimentaux démontrant son efficacité dans des contextes réels.
Adapter le comportement de conduite à de nouveaux environnements, coutumes et lois constitue un problème de longue date dans la conduite autonome, empêchant le déploiement généralisé des véhicules autonomes (VA). Dans cet article, nous présentons LLaDA, un outil simple mais puissant qui permet aux conducteurs humains et aux véhicules autonomes de conduire partout en adaptant leurs tâches et plans de mouvement aux règles de circulation des nouveaux lieux. LLaDA y parvient en exploitant l'impressionnante généralisation en zero-shot des modèles de langage de grande taille (LLMs) pour interpréter les règles de circulation du manuel du conducteur local. À travers une étude utilisateur approfondie, nous montrons que les instructions de LLaDA sont utiles pour lever les ambiguïtés dans des situations inattendues sur le terrain. Nous démontrons également la capacité de LLaDA à adapter les politiques de planification de mouvement des VA sur des jeux de données réels ; LLaDA surpasse les approches de planification de référence sur tous nos critères. Pour plus de détails, consultez notre site web : https://boyiliee.github.io/llada.
Nous démontrons que l'apprentissage par renforcement hors ligne de type acteur-critique peut s'adapter à des modèles de grande taille - tels que les transformeurs - et suit des lois d'échelle similaires à celles de l'apprentissage supervisé. Nous constatons que les algorithmes acteur-critique hors ligne peuvent surpasser des références solides basées sur le clonage comportemental supervisé pour l'entraînement multi-tâches sur un grand ensemble de données contenant à la fois des comportements sous-optimaux et experts pour 132 tâches de contrôle continu. Nous introduisons un modèle acteur-critique basé sur Perceiver et clarifions les caractéristiques clés du modèle nécessaires pour faire fonctionner l'apprentissage par renforcement hors ligne avec des modules d'auto-attention et d'attention croisée. Globalement, nous constatons que : i) les algorithmes acteur-critique hors ligne simples constituent un choix naturel pour s'éloigner progressivement du paradigme actuellement dominant du clonage comportemental, et ii) via l'apprentissage par renforcement hors ligne, il est possible d'apprendre des politiques multi-tâches qui maîtrisent simultanément de nombreux domaines, y compris des tâches de robotique réelle, à partir de démonstrations sous-optimales ou de données auto-générées.