Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons phi-1, un nouveau modèle de langage de grande taille dédié au code, dont la taille est nettement plus réduite que celle des modèles concurrents : phi-1 est un modèle basé sur l'architecture Transformer, doté de 1,3 milliard de paramètres, entraîné pendant 4 jours sur 8 GPU A100, en utilisant une sélection de données de « qualité manuel scolaire » provenant du web (6 milliards de tokens) ainsi que des manuels et exercices générés de manière synthétique avec GPT-3.5 (1 milliard de tokens). Malgré cette échelle réduite, phi-1 atteint une précision pass@1 de 50,6 % sur HumanEval et de 55,5 % sur MBPP. Il présente également des propriétés émergentes surprenantes par rapport à phi-1-base, notre modèle avant l'étape de fine-tuning sur un ensemble de données d'exercices de codage, et à phi-1-small, un modèle plus petit avec 350 millions de paramètres entraîné selon le même pipeline que phi-1, qui atteint tout de même 45 % sur HumanEval.
La génération de mouvements humains réalistes à partir de descriptions d'actions données a connu des avancées significatives en raison de l'émergence des besoins en humains numériques. Bien que les travaux récents aient obtenu des résultats impressionnants dans la génération de mouvements directement à partir de descriptions textuelles d'actions, ils ne prennent souvent en charge qu'une seule modalité du signal de contrôle, ce qui limite leur application dans l'industrie réelle des humains numériques. Cet article présente un générateur polyvalent de mouvements (MotionGPT) capable d'utiliser des signaux de contrôle multimodaux, par exemple du texte et des poses sur une seule image, pour générer des mouvements humains consécutifs en traitant les signaux multimodaux comme des tokens d'entrée spéciaux dans les grands modèles de langage (LLM). Plus précisément, nous quantifions d'abord les signaux de contrôle multimodaux en codes discrets, puis les formulons dans une instruction d'invite unifiée pour demander aux LLM de générer la réponse en mouvement. Notre MotionGPT démontre un modèle unifié de génération de mouvements humains avec des signaux de contrôle multimodaux en ajustant seulement 0,4 % des paramètres du LLM. À notre connaissance, MotionGPT est la première méthode à générer des mouvements humains à partir de signaux de contrôle multimodaux, ce qui, nous l'espérons, pourra éclairer cette nouvelle direction. Les codes seront publiés après acceptation.
HomeRobot (nom) : Un robot abordable et adaptable qui navigue dans les foyers et manipule une large gamme d'objets pour accomplir des tâches quotidiennes. La Manipulation Mobile à Vocabulaire Ouvert (Open-Vocabulary Mobile Manipulation, OVMM) est le problème consistant à saisir n'importe quel objet dans un environnement inconnu et à le placer à un emplacement spécifié. Il s'agit d'un défi fondamental pour que les robots deviennent des assistants utiles dans les environnements humains, car il implique de résoudre des sous-problèmes issus de divers domaines de la robotique : la perception, la compréhension du langage, la navigation et la manipulation sont tous essentiels à l'OVMM. De plus, l'intégration des solutions à ces sous-problèmes pose ses propres défis substantiels. Pour stimuler la recherche dans ce domaine, nous introduisons le benchmark OVMM HomeRobot, où un agent navigue dans des environnements domestiques pour saisir des objets nouveaux et les placer sur des réceptacles cibles. HomeRobot comprend deux composants : un composant de simulation, qui utilise un ensemble d'objets variés et soigneusement sélectionnés dans de nouveaux environnements domestiques multi-pièces de haute qualité ; et un composant réel, fournissant une pile logicielle pour le robot Hello Robot Stretch à faible coût, afin d'encourager la reproduction d'expériences réelles dans différents laboratoires. Nous implémentons des bases de référence à la fois par apprentissage par renforcement et par heuristique (basées sur des modèles) et montrons des preuves de transfert sim-to-real. Nos bases de référence atteignent un taux de réussite de 20 % dans le monde réel ; nos expériences identifient des pistes pour améliorer les performances dans les travaux de recherche futurs. Consultez les vidéos sur notre site web : https://ovmm.github.io/.
Malgré le succès retentissant des modèles de langage de grande taille (LLMs) dans les assistants de codage comme GitHub Copilot, ces modèles peinent à comprendre le contexte présent dans un dépôt (par exemple, les imports, les classes parentes, les fichiers avec des noms similaires, etc.), produisant ainsi des complétions de code inexactes. Cet effet est plus marqué lors de l'utilisation de ces assistants pour des dépôts que le modèle n'a pas vus pendant l'entraînement, tels que des logiciels propriétaires ou des projets de code en cours de développement. Des travaux récents ont montré le potentiel d'utiliser le contexte du dépôt pendant l'inférence. Dans ce travail, nous étendons cette idée et proposons RepoFusion, un cadre pour entraîner les modèles à intégrer le contexte pertinent du dépôt. Les expériences sur la complétion de code à une seule ligne montrent que nos modèles entraînés avec le contexte du dépôt surpassent significativement des modèles de code beaucoup plus grands comme CodeGen-16B-multi (sim73 fois plus grand) et se rapprochent des performances du modèle StarCoderBase, sim 70 fois plus grand, qui a été entraîné avec l'objectif Fill-in-the-Middle. Nous considérons ces résultats comme une démonstration novatrice et convaincante des gains que l'entraînement avec le contexte du dépôt peut apporter. Nous menons des études d'ablation approfondies pour examiner l'impact des choix de conception tels que le type de contexte, le nombre de contextes, la longueur du contexte et l'initialisation dans notre cadre. Enfin, nous publions Stack-Repo, un ensemble de données de 200 dépôts Java avec des licences permissives et des fichiers quasi-dédoublés, enrichis de trois types de contextes de dépôt. De plus, nous mettons à disposition le code et les points de contrôle entraînés pour notre travail. Nos ressources publiées peuvent être consultées à l'adresse https://huggingface.co/RepoFusion.
Les données de nuages de points collectées dans des applications réelles sont souvent incomplètes. Les données manquent généralement en raison d'objets observés sous des angles partiels, qui ne capturent qu'une perspective ou un angle spécifique. De plus, les données peuvent être incomplètes en raison d'occlusions et d'un échantillonnage à faible résolution. Les approches existantes de complétion s'appuient sur des ensembles de données d'objets prédéfinis pour guider la complétion de nuages de points bruyants et incomplets. Cependant, ces approches obtiennent de mauvais résultats lorsqu'elles sont testées sur des objets hors distribution (Out-Of-Distribution, OOD), qui sont mal représentés dans l'ensemble de données d'entraînement. Ici, nous exploitons les avancées récentes en génération d'images guidée par texte, qui ont conduit à des percées majeures dans la génération de formes guidée par texte. Nous décrivons une approche appelée SDS-Complete qui utilise un modèle de diffusion pré-entraîné de texte à image et exploite la sémantique textuelle d'un nuage de points incomplet d'un objet donné, pour obtenir une représentation de surface complète. SDS-Complete peut compléter une variété d'objets en utilisant une optimisation au moment du test sans la collecte coûteuse d'informations 3D. Nous évaluons SDS-Complete sur des objets scannés incomplets, capturés par des capteurs de profondeur et des scanners LiDAR du monde réel. Nous constatons qu'il reconstruit efficacement des objets absents des ensembles de données courants, réduisant la perte de Chamfer de 50 % en moyenne par rapport aux méthodes actuelles. Page du projet : https://sds-complete.github.io/
Les modèles de diffusion débruiteurs constituent une classe puissante de modèles génératifs utilisés pour capturer des distributions complexes de signaux du monde réel. Cependant, leur applicabilité est limitée aux scénarios où des échantillons d'entraînement sont facilement disponibles, ce qui n'est pas toujours le cas dans les applications réelles. Par exemple, en infographie inverse, l'objectif est de générer des échantillons à partir d'une distribution de scènes 3D qui s'alignent sur une image donnée, mais les scènes 3D de référence sont indisponibles et seules des images 2D sont accessibles. Pour pallier cette limitation, nous proposons une nouvelle classe de modèles probabilistes de diffusion débruiteurs qui apprennent à échantillonner à partir de distributions de signaux qui ne sont jamais directement observés. Au lieu de cela, ces signaux sont mesurés indirectement via un modèle direct différentiable connu, qui produit des observations partielles du signal inconnu. Notre approche consiste à intégrer directement le modèle direct dans le processus de débruitage. Cette intégration relie efficacement la modélisation générative des observations à la modélisation générative des signaux sous-jacents, permettant un entraînement de bout en bout d'un modèle génératif conditionnel sur les signaux. Lors de l'inférence, notre approche permet d'échantillonner à partir de la distribution des signaux sous-jacents qui sont cohérents avec une observation partielle donnée. Nous démontrons l'efficacité de notre méthode sur trois tâches complexes en vision par ordinateur. Par exemple, dans le contexte de l'infographie inverse, notre modèle permet d'échantillonner directement à partir de la distribution de scènes 3D qui s'alignent sur une seule image 2D en entrée.
La capacité à exploiter des expériences robotiques hétérogènes provenant de différents robots et tâches pour maîtriser rapidement de nouvelles compétences et incarnations a le potentiel de transformer l'apprentissage robotique. Inspirés par les récentes avancées dans les modèles de base pour la vision et le langage, nous proposons un agent de base pour la manipulation robotique. Cet agent, nommé RoboCat, est un transformateur de décision conditionné par un objectif visuel, capable de consommer des expériences visuelles étiquetées avec des actions multi-incarnations. Ces données couvrent un large répertoire de compétences en contrôle moteur provenant de bras robotiques simulés et réels avec différents ensembles d'observations et d'actions. Avec RoboCat, nous démontrons la capacité à généraliser à de nouvelles tâches et robots, à la fois en mode zero-shot ainsi qu'à travers une adaptation utilisant seulement 100 à 1000 exemples pour la tâche cible. Nous montrons également comment un modèle entraîné peut lui-même être utilisé pour générer des données pour les itérations de formation ultérieures, fournissant ainsi un élément de base pour une boucle d'amélioration autonome. Nous étudions les capacités de l'agent, avec des évaluations à grande échelle à la fois en simulation et sur trois incarnations différentes de robots réels. Nous constatons qu'à mesure que nous augmentons et diversifions ses données d'entraînement, RoboCat montre non seulement des signes de transfert inter-tâches, mais devient également plus efficace pour s'adapter à de nouvelles tâches.
Les grands modèles de langage (LLMs) ont démontré des capacités remarquables en compréhension et génération de langage. En évoluant des LLMs de base vers des LLMs suivant des instructions, le réglage par instruction joue un rôle crucial pour aligner les LLMs sur les préférences humaines. Cependant, les LLMs existants se concentrent généralement sur l'anglais, ce qui entraîne des performances inférieures dans les langues non anglophones. Pour améliorer les performances dans les langues non anglophones, il est nécessaire de collecter des données d'entraînement spécifiques à chaque langue pour les LLMs de base et de construire des instructions spécifiques à chaque langue pour le réglage par instruction, deux tâches qui représentent une charge de travail importante. Pour minimiser l'effort humain, nous proposons de transférer les capacités de génération de langage et de suivi d'instructions de l'anglais vers d'autres langues à travers une tâche de traduction interactive. Nous avons développé BayLing, un LLM suivant des instructions, en utilisant LLaMA comme LLM de base et en construisant automatiquement des instructions de traduction interactive pour le réglage par instruction. Des évaluations approfondies démontrent que BayLing atteint des performances comparables à GPT-3.5-turbo, malgré une taille de paramètres considérablement plus petite, seulement 13 milliards. Les résultats expérimentaux sur les tâches de traduction montrent que BayLing atteint 95 % de la capacité de traduction en un seul tour par rapport à GPT-4 avec une évaluation automatique et 96 % de la capacité de traduction interactive par rapport à GPT-3.5-turbo avec une évaluation humaine. Pour estimer les performances sur des tâches générales, nous avons créé un ensemble de test d'instructions multi-tours appelé BayLing-80. Les résultats expérimentaux sur BayLing-80 indiquent que BayLing atteint 89 % des performances par rapport à GPT-3.5-turbo. BayLing démontre également des performances exceptionnelles sur l'évaluation des connaissances du GaoKao chinois et du SAT anglais, se classant juste derrière GPT-3.5-turbo parmi une multitude de LLMs suivant des instructions. La démo, la page d'accueil, le code et les modèles de BayLing sont disponibles.
Les modèles de langage pour le code (LMs) fonctionnent bien lorsque le code environnant à proximité de la génération fournit un contexte suffisant. Ce n'est pas le cas lorsqu'il devient nécessaire d'utiliser des types ou des fonctionnalités définis dans un autre module ou bibliothèque, en particulier ceux qui n'ont pas été vus pendant l'entraînement. Les LMs souffrent d'une conscience limitée de ce contexte global et finissent par halluciner, par exemple en utilisant incorrectement des types définis dans d'autres fichiers. Des travaux récents tentent de surmonter ce problème en récupérant des informations globales pour enrichir le contexte local. Cependant, cela gonfle l'invite ou nécessite des modifications architecturales et un entraînement supplémentaire. Les environnements de développement intégrés (IDEs) assistent les développeurs en mettant le contexte global à portée de main grâce à l'analyse statique. Nous étendons cette assistance, appréciée par les développeurs, aux LMs. Nous proposons une notion de moniteurs qui utilisent l'analyse statique en arrière-plan pour guider le décodage. Contrairement à une récupération a priori, l'analyse statique est invoquée de manière itérative tout au long du processus de décodage, fournissant les suggestions les plus pertinentes à la demande. Nous démontrons l'utilité de notre proposition en surveillant l'utilisation cohérente des types pour les identifiants chaque fois qu'un LM génère du code pour le déréférencement d'objet. Pour évaluer notre approche, nous avons constitué PragmaticCode, un ensemble de données de projets open-source avec leurs environnements de développement. Sur des modèles de différentes échelles de paramètres, nous montrons que le décodage guidé par moniteur améliore systématiquement la capacité d'un LM non seulement à générer des identifiants correspondant à la vérité terrain, mais aussi à améliorer les taux de compilation et l'accord avec la vérité terrain. Nous constatons que les LMs avec moins de paramètres, lorsqu'ils sont guidés par notre moniteur, peuvent surpasser des LMs plus grands. Avec le décodage guidé par moniteur, SantaCoder-1.1B obtient un meilleur taux de compilation et une meilleure correspondance du prochain identifiant que le modèle beaucoup plus grand text-davinci-003. Les ensembles de données et le code seront publiés à l'adresse https://aka.ms/monitors4codegen.
L'augmentation de mémoire est une approche puissante pour intégrer efficacement des informations externes dans les modèles de langage, mais elle entraîne une réduction des performances par rapport à la récupération de texte. Des travaux récents ont introduit LUMEN, un hybride de mémoire et de récupération qui pré-calcule partiellement la mémoire et met à jour les représentations de mémoire en temps réel avec un encodeur actif plus petit. Nous proposons GLIMMER, qui améliore cette approche grâce à 1) l'exploitation d'un accès libre aux représentations de mémoire puissantes en appliquant un reclassificateur superficiel sur la mémoire pour améliorer considérablement la qualité de la récupération à faible coût, et 2) l'intégration d'un apprentissage multi-tâches pour apprendre une mémoire et un encodeur actif plus généraux et de meilleure qualité. GLIMMER obtient des gains de performance significatifs à des vitesses plus rapides par rapport à LUMEN et FiD sur le benchmark KILT de tâches intensives en connaissances.
Les modèles de vision et langage à grande échelle (VLM) ont démontré des résultats impressionnants pour les applications de recherche guidée par le langage. Bien que ces modèles permettent des requêtes au niveau des catégories, ils peinent actuellement à effectuer des recherches personnalisées pour des moments dans une vidéo où apparaît une instance spécifique d'objet, comme « Mon chien Biscuit ». Nous présentons trois contributions pour résoudre ce problème. Premièrement, nous décrivons une méthode pour méta-personnaliser un VLM pré-entraîné, c'est-à-dire apprendre à personnaliser un VLM au moment du test pour effectuer des recherches dans des vidéos. Notre méthode étend le vocabulaire de tokens du VLM en apprenant de nouveaux embeddings de mots spécifiques à chaque instance. Pour capturer uniquement les caractéristiques spécifiques à l'instance, nous représentons chaque embedding d'instance comme une combinaison de caractéristiques globales partagées et apprises de la catégorie. Deuxièmement, nous proposons d'apprendre cette personnalisation sans supervision humaine explicite. Notre approche identifie automatiquement les moments d'instances visuelles nommées dans les vidéos en utilisant les transcriptions et la similarité vision-langage dans l'espace d'embedding du VLM. Enfin, nous introduisons This-Is-My, un benchmark de recherche d'instances vidéo personnalisées. Nous évaluons notre approche sur This-Is-My et DeepFashion2, et montrons que nous obtenons une amélioration relative de 15 % par rapport à l'état de l'art sur ce dernier ensemble de données.
La transcription musicale multitransiste vise à transcrire un signal audio musical en notes de musique pour plusieurs instruments simultanément. Il s'agit d'une tâche très complexe qui nécessite généralement un modèle plus sophistiqué pour obtenir des résultats satisfaisants. De plus, les travaux antérieurs se concentrent principalement sur la transcription d'instruments classiques, négligeant souvent les voix, qui constituent pourtant la source sonore la plus importante lorsqu'elles sont présentes dans un morceau de musique. Dans cet article, nous proposons une nouvelle architecture de réseau de neurones profond, Perceiver TF, pour modéliser la représentation temps-fréquence du signal audio en vue d'une transcription multitransiste. Perceiver TF enrichit l'architecture Perceiver en introduisant une expansion hiérarchique avec une couche Transformer supplémentaire pour modéliser la cohérence temporelle. Ainsi, notre modèle hérite des avantages de Perceiver, notamment une meilleure scalabilité, lui permettant de gérer efficacement la transcription de nombreux instruments dans un seul modèle. Lors des expériences, nous entraînons un Perceiver TF à modéliser 12 classes d'instruments ainsi que les voix dans un cadre d'apprentissage multitâche. Nos résultats démontrent que le système proposé surpasse les approches de pointe (par exemple, MT3 et SpecTNT) sur divers ensembles de données publics.