Articles de recherche en IA sélectionnés quotidiennement avec traductions
L'introduction des grands modèles de langage a considérablement fait progresser la génération de code. Cependant, les modèles open source manquent souvent des capacités d'exécution et de raffinement itératif des systèmes avancés comme l'interpréteur de code GPT-4. Pour remédier à cela, nous présentons OpenCodeInterpreter, une famille de systèmes de code open source conçus pour générer, exécuter et affiner itérativement le code. Soutenu par Code-Feedback, un ensemble de données comprenant 68 000 interactions multi-tours, OpenCodeInterpreter intègre l'exécution et les retours humains pour un raffinement dynamique du code. Notre évaluation approfondie d'OpenCodeInterpreter sur des benchmarks clés tels que HumanEval, MBPP et leurs versions améliorées d'EvalPlus révèle ses performances exceptionnelles. Notamment, OpenCodeInterpreter-33B atteint une précision de 83,2 (76,4) sur les versions moyennes (et plus) de HumanEval et MBPP, rivalisant de près avec les 84,2 (76,2) de GPT-4, et monte encore à 91,6 (84,6) avec des retours humains synthétisés de GPT-4. OpenCodeInterpreter réduit l'écart entre les modèles open source de génération de code et les systèmes propriétaires comme l'interpréteur de code GPT-4.
Bien que les Transformers aient permis des progrès considérables dans divers contextes d'application, ces architectures restent encore en retard par rapport aux planificateurs symboliques traditionnels pour résoudre des tâches complexes de prise de décision. Dans ce travail, nous démontrons comment entraîner des Transformers à résoudre des tâches de planification complexes et présentons Searchformer, un modèle Transformer qui résout de manière optimale des puzzles Sokoban jamais vus auparavant dans 93,7 % des cas, tout en utilisant jusqu'à 26,8 % d'étapes de recherche en moins que la recherche A* standard. Searchformer est un modèle Transformer encodeur-décodeur entraîné à prédire la dynamique de recherche de A*. Ce modèle est ensuite affiné via des itérations expertes pour effectuer moins d'étapes de recherche que la recherche A* tout en générant un plan optimal. Dans notre méthode d'entraînement, la dynamique de recherche de A* est exprimée sous forme d'une séquence de tokens décrivant quand les états de la tâche sont ajoutés et retirés de l'arbre de recherche pendant la planification symbolique. Dans nos études d'ablation sur la navigation dans les labyrinthes, nous constatons que Searchformer surpasse significativement les modèles de référence qui prédisent directement le plan optimal, avec une taille de modèle 5 à 10 fois plus petite et un ensemble de données d'entraînement 10 fois plus réduit. Nous démontrons également comment Searchformer s'adapte à des tâches de prise de décision plus vastes et complexes comme Sokoban, avec un pourcentage amélioré de tâches résolues et une dynamique de recherche raccourcie.
Dans le but de développer des modèles vision-langage (VLMs) plus inclusifs, cette étude présente un Grand Modèle Multilingue et Multimodal appelé Palo. Palo offre des capacités de raisonnement visuel dans 10 langues majeures, incluant l'anglais, le chinois, l'hindi, l'espagnol, le français, l'arabe, le bengali, le russe, l'ourdou et le japonais, couvrant ainsi environ 5 milliards de personnes (65 % de la population mondiale). Notre approche repose sur une méthode de traduction semi-automatisée pour adapter le jeu de données d'instructions multimodales de l'anglais vers les langues cibles, en utilisant un Grand Modèle de Langage affiné, garantissant ainsi une haute fidélité linguistique tout en permettant une mise à l'échelle grâce à un effort manuel minimal. L'intégration de jeux d'instructions diversifiés nous permet d'améliorer les performances globales dans plusieurs langues, en particulier celles qui sont sous-représentées comme l'hindi, l'arabe, le bengali et l'ourdou. Les modèles résultants sont entraînés à trois échelles différentes (1,7B, 7B et 13B paramètres) pour démontrer leur généralisation et leur scalabilité, où nous observons des améliorations substantielles par rapport à des bases de référence solides. Nous proposons également le premier benchmark multilingue et multimodal pour les approches futures afin d'évaluer leurs capacités de raisonnement vision-langage à travers les langues. Code : https://github.com/mbzuai-oryx/PALO.
Nous présentons le cadre TinyLLaVA, qui offre une perspective unifiée pour la conception et l'analyse des modèles multimodaux de grande échelle à petite échelle (LMMs). Nous étudions empiriquement les effets des différents encodeurs visuels, modules de connexion, modèles de langage, données d'entraînement et protocoles d'entraînement. Nos expériences approfondies montrent qu'une meilleure qualité des données combinée à de meilleurs protocoles d'entraînement permet aux LMMs de petite taille d'atteindre des performances comparables à celles des LMMs plus grands. Dans le cadre de notre approche, nous entraînons une famille de LMMs à petite échelle. Notre meilleur modèle, TinyLLaVA-3.1B, obtient une performance globale supérieure à celle des modèles existants de 7B tels que LLaVA-1.5 et Qwen-VL. Nous espérons que nos résultats pourront servir de références pour les recherches futures en termes de mise à l'échelle des données, configurations d'entraînement et sélection de modèles. Les poids de nos modèles et les codes seront rendus publics.
Les modèles de vision basés sur Transformer tokenisent généralement les images en patches carrés de taille fixe comme unités d'entrée, ce qui manque d'adaptabilité au contenu de l'image et néglige la structure inhérente de regroupement des pixels. Inspirés par la tokenisation en sous-mots largement adoptée dans les modèles de langage, nous proposons un tokeniseur d'images au niveau des sous-objets, où les sous-objets sont représentés par des segments d'images sémantiquement significatifs obtenus via des modèles de segmentation (par exemple, les modèles "segment anything"). Pour implémenter un système d'apprentissage basé sur la tokenisation en sous-objets, nous avons d'abord introduit un AutoEncodeur Séquence-à-Séquence (SeqAE) pour compresser les segments de sous-objets de tailles et formes variées en vecteurs d'embedding compacts, puis avons alimenté ces embeddings de sous-objets dans un grand modèle de langage pour l'apprentissage vision-langage. Les résultats empiriques ont démontré que notre tokenisation au niveau des sous-objets facilite significativement l'apprentissage efficace de la traduction d'images en descriptions d'objets et d'attributs par rapport à la tokenisation traditionnelle au niveau des patches. Les codes et modèles seront open-sourcés à l'adresse https://github.com/ChenDelong1999/subobjects.
Dans le vaste paysage de la conception expérimentale, la régression a été un outil puissant pour prédire avec précision les métriques de performance d'un système ou d'un modèle à partir d'un ensemble de paramètres, mais elle a traditionnellement été limitée à des méthodes applicables uniquement à une tâche spécifique. Dans cet article, nous proposons OmniPred, un cadre pour entraîner des modèles de langage en tant que régresseurs universels de bout en bout sur des données d'évaluation (x,y) issues d'expériences variées du monde réel. En utilisant des données provenant de Google Vizier, l'une des plus grandes bases de données d'optimisation en boîte noire au monde, nos expériences approfondies démontrent qu'avec seulement des représentations textuelles de paramètres et de valeurs mathématiques, les modèles de langage sont capables d'effectuer une régression numérique très précise, et s'ils ont la possibilité de s'entraîner sur plusieurs tâches, ils peuvent surpasser significativement les modèles de régression traditionnels.
Avec les progrès rapides des modèles de langage de grande taille (LLMs), des avancées significatives ont été réalisées dans les applications multi-agents. Cependant, les complexités liées à la coordination de la coopération entre agents et les performances erratiques des LLMs posent des défis notables dans le développement d'applications multi-agents robustes et efficaces. Pour relever ces défis, nous proposons AgentScope, une plateforme multi-agents centrée sur les développeurs, avec l'échange de messages comme mécanisme de communication central. Associé à des outils syntaxiques abondants, des ressources intégrées et des interactions conviviales, notre mécanisme de communication réduit considérablement les obstacles au développement et à la compréhension. En vue d'applications multi-agents robustes et flexibles, AgentScope propose à la fois des mécanismes de tolérance aux pannes intégrés et personnalisables, tout en étant équipé de supports au niveau du système pour la génération, le stockage et la transmission de données multi-modales. De plus, nous concevons un cadre de distribution basé sur les acteurs, permettant une conversion facile entre les déploiements locaux et distribués, ainsi qu'une optimisation parallèle automatique sans effort supplémentaire. Grâce à ces fonctionnalités, AgentScope permet aux développeurs de créer des applications qui exploitent pleinement le potentiel des agents intelligents. Nous avons publié AgentScope à l'adresse https://github.com/modelscope/agentscope, et espérons qu'AgentScope suscitera une participation et une innovation plus larges dans ce domaine en pleine évolution.
L'échantillonnage à partir de modèles probabilistes de diffusion (DPM) est souvent coûteux pour la génération d'images de haute qualité et nécessite généralement de nombreuses étapes avec un modèle de grande taille. Dans cet article, nous présentons T-Stitch, une technique simple mais efficace pour améliorer l'efficacité de l'échantillonnage avec peu ou pas de dégradation de la génération. Au lieu d'utiliser uniquement un grand DPM pour l'ensemble de la trajectoire d'échantillonnage, T-Stitch exploite d'abord un DPM plus petit dans les étapes initiales comme un remplacement économique du DPM plus grand, puis bascule vers le DPM plus grand à un stade ultérieur. Notre idée clé est que différents modèles de diffusion apprennent des encodages similaires sous la même distribution de données d'entraînement, et que les modèles plus petits sont capables de générer de bonnes structures globales dans les premières étapes. Des expériences approfondies démontrent que T-Stitch ne nécessite pas d'entraînement, est généralement applicable à différentes architectures, et complète la plupart des techniques d'échantillonnage rapide existantes avec des compromis flexibles entre vitesse et qualité. Sur DiT-XL, par exemple, 40 % des premières étapes temporelles peuvent être remplacées en toute sécurité par un DiT-S 10 fois plus rapide sans perte de performance sur la génération conditionnelle par classe d'ImageNet. Nous montrons en outre que notre méthode peut également être utilisée comme une technique de remplacement pour non seulement accélérer les modèles pré-entraînés populaires de diffusion stable (SD), mais aussi améliorer l'alignement des prompts des modèles SD stylisés provenant du zoo de modèles publics. Le code est disponible à l'adresse suivante : https://github.com/NVlabs/T-Stitch.
L'intégration des modèles de langage de grande taille (LLMs) dans les environnements de développement intégrés (IDEs) est devenue un point central dans le développement logiciel moderne. Les LLMs tels qu'OpenAI GPT-3.5/4 et Code Llama offrent le potentiel d'augmenter significativement la productivité des développeurs en servant d'assistants de programmation intelligents et pilotés par chat. Cependant, l'utilisation des LLMs tels quels est peu susceptible d'être optimale pour un scénario donné. Chaque système nécessite plutôt que le LLM soit affiné selon un ensemble d'heuristiques pour garantir les meilleures performances. Dans cet article, nous présentons le cadre d'évaluation Copilot : un ensemble de données et d'outils pour évaluer les interactions guidées par les LLMs dans les IDEs, couvrant divers scénarios de programmation et langages. Nous proposons nos métriques comme une évaluation plus robuste et riche en informations que les systèmes d'évaluation de l'état de l'art précédents. Nous concevons et calculons des métriques de succès basées à la fois sur des critères statiques et sur l'exécution pour des scénarios englobant une large gamme de tâches de développeurs, incluant la génération de code à partir de langage naturel (générer), la génération de documentation à partir de code (doc), la génération de cas de test (test), la correction de bugs (fix), ainsi que la compréhension de l'espace de travail et la résolution de requêtes (workspace). Ces métriques de succès sont conçues pour évaluer la performance des LLMs au sein d'un IDE donné et de son espace de paramètres respectif. Nos enseignements tirés de l'évaluation de trois LLMs courants à l'aide de ces métriques peuvent éclairer le développement et la validation de futurs scénarios dans les IDEs guidés par les LLMs.
La rareté des données dans les langues à ressources limitées peut être atténuée par des traductions mot à mot à partir de données annotées de tâches dans des langues à ressources abondantes, en utilisant des lexiques bilingues. Cependant, les lexiques bilingues présentent souvent un chevauchement lexical limité avec les données de tâches, ce qui entraîne une couverture de traduction et une utilisation du lexique médiocres. Nous proposons la génération de données conditionnée par lexique (LexC-Gen), une méthode qui génère à grande échelle des données de tâches de classification pour les langues à ressources limitées. Plus précisément, LexC-Gen utilise d'abord des mots de langues à ressources abondantes issus de lexiques bilingues pour générer des données de tâches compatibles avec le lexique, puis les traduit dans des langues à ressources limitées via une traduction mot à mot avec des lexiques bilingues. Sur 17 langues extrêmement pauvres en ressources, les données générées par LexC-Gen rivalisent avec des données de référence traduites par des experts, et montrent en moyenne une amélioration de 5,6 et 8,9 points par rapport aux méthodes existantes de traduction mot à mot basées sur des lexiques, respectivement pour les tâches d'analyse de sentiments et de classification thématique. Nous démontrons que le conditionnement sur des lexiques bilingues est l'élément clé de LexC-Gen. LexC-Gen est également pratique : elle ne nécessite qu'un seul GPU pour générer des données à grande échelle. Elle fonctionne bien avec des modèles de langage à accès ouvert, et son coût est un cinquième de celui de la génération de données multilingues basée sur GPT4.
Dans ce travail, nous abordons le problème complexe du débruitage des interactions main-objet (Hand-Object Interactions, HOI). Étant donné une séquence d'interaction erronée, l'objectif est d'affiner la trajectoire incorrecte de la main pour éliminer les artefacts d'interaction et obtenir une séquence perceptuellement réaliste. Ce défi implique un bruit d'interaction complexe, incluant des poses de main non naturelles et des relations main-objet incorrectes, ainsi que la nécessité d'une généralisation robuste à de nouvelles interactions et à divers modèles de bruit. Nous relevons ces défis grâce à une approche novatrice, GeneOH Diffusion, qui intègre deux conceptions clés : une représentation centrée sur le contact des HOI, nommée GeneOH, et un nouveau schéma de débruitage généralisable à différents domaines. La représentation centrée sur le contact, GeneOH, paramètre de manière informative le processus HOI, facilitant une généralisation améliorée à travers divers scénarios HOI. Le nouveau schéma de débruitage consiste en un modèle de débruitage canonique entraîné à projeter des échantillons de données bruitées depuis un espace de bruit blanchi vers une variété de données propres, ainsi qu'une stratégie de "débruitage par diffusion" qui peut traiter des trajectoires d'entrée avec divers modèles de bruit en les diffusant d'abord pour les aligner avec l'espace de bruit blanchi, puis en les nettoyant via le débruitage canonique. Des expériences approfondies sur quatre benchmarks présentant des variations de domaine significatives démontrent l'efficacité supérieure de notre méthode. GeneOH Diffusion montre également un potentiel prometteur pour diverses applications en aval. Site du projet : https://meowuu7.github.io/GeneOH-Diffusion/.
Les grands modèles de langage (LLM) sont des outils puissants pour la modération de contenu, mais leurs coûts d'inférence et leur latence les rendent prohibitifs pour une utilisation occasionnelle sur de grands ensembles de données, tels que le référentiel Google Ads. Cette étude propose une méthode pour intensifier les évaluations par LLM pour la modération de contenu dans Google Ads. Tout d'abord, nous utilisons des heuristiques pour sélectionner des candidats via filtrage et suppression des doublons, et créons des clusters de publicités pour lesquels nous sélectionnons une publicité représentative par cluster. Nous utilisons ensuite les LLM pour examiner uniquement les publicités représentatives. Enfin, nous propageons les décisions des LLM pour les publicités représentatives à leurs clusters respectifs. Cette méthode réduit le nombre d'évaluations de plus de 3 ordres de grandeur tout en obtenant un rappel 2 fois supérieur par rapport à un modèle de référence non-LLM. Le succès de cette approche dépend fortement des représentations utilisées dans le clustering et la propagation des labels ; nous avons constaté que les représentations de similarité intermodales donnent de meilleurs résultats que les représentations unimodales.
Les modèles de génération d'images à grande échelle à partir de texte permettent une large gamme de techniques d'édition d'images, utilisant des invites textuelles ou même des contrôles spatiaux. Cependant, l'application de ces méthodes d'édition à des images multi-vues représentant une seule scène conduit à des résultats incohérents en 3D. Dans ce travail, nous nous concentrons sur les manipulations géométriques basées sur le contrôle spatial et introduisons une méthode pour consolider le processus d'édition à travers différentes vues. Nous nous appuyons sur deux observations : (1) maintenir des caractéristiques cohérentes tout au long du processus de génération aide à atteindre une cohérence dans l'édition multi-vues, et (2) les requêtes dans les couches d'auto-attention influencent significativement la structure de l'image. Par conséquent, nous proposons d'améliorer la cohérence géométrique des images éditées en imposant la cohérence des requêtes. Pour ce faire, nous introduisons QNeRF, un champ de radiance neuronale entraîné sur les caractéristiques internes des requêtes des images éditées. Une fois entraîné, QNeRF peut rendre des requêtes cohérentes en 3D, qui sont ensuite injectées de manière douce dans les couches d'auto-attention pendant la génération, améliorant grandement la cohérence multi-vues. Nous affinons le processus grâce à une méthode progressive et itérative qui consolide mieux les requêtes à travers les étapes de diffusion. Nous comparons notre méthode à une gamme de techniques existantes et démontrons qu'elle peut atteindre une meilleure cohérence multi-vues et une plus grande fidélité à la scène d'entrée. Ces avantages nous permettent d'entraîner des NeRFs avec moins d'artefacts visuels, mieux alignés avec la géométrie cible.
L'avènement du 3D Gaussian Splatting (3DGS) a récemment provoqué une révolution dans le domaine du rendu neuronal, permettant des rendus de haute qualité en temps réel. Cependant, le 3DGS dépend fortement du nuage de points initialisé produit par les techniques de Structure-from-Motion (SfM). Lorsqu'il s'agit de traiter des scènes à grande échelle contenant inévitablement des surfaces sans texture, les techniques SfM échouent souvent à produire suffisamment de points sur ces surfaces et ne peuvent pas fournir une bonne initialisation pour le 3DGS. Par conséquent, le 3DGS souffre d'une optimisation difficile et de rendus de faible qualité. Dans cet article, inspirés par les techniques classiques de stéréo multi-vues (MVS), nous proposons GaussianPro, une nouvelle méthode qui applique une stratégie de propagation progressive pour guider la densification des Gaussiennes 3D. Par rapport aux simples stratégies de division et de clonage utilisées dans le 3DGS, notre méthode exploite les a priori des géométries reconstruites existantes de la scène et les techniques de correspondance de patchs pour produire de nouvelles Gaussiennes avec des positions et des orientations précises. Des expériences sur des scènes à grande et petite échelle valident l'efficacité de notre méthode, où notre méthode surpasse significativement le 3DGS sur le jeu de données Waymo, montrant une amélioration de 1,15 dB en termes de PSNR.
Nous présentons CyberDemo, une nouvelle approche d'apprentissage par imitation robotique qui exploite des démonstrations humaines simulées pour des tâches du monde réel. En intégrant une augmentation extensive des données dans un environnement simulé, CyberDemo surpasse les démonstrations traditionnelles réalisées dans le domaine réel lorsqu'elle est transférée dans le monde réel, gérant ainsi diverses conditions physiques et visuelles. Malgré son accessibilité et sa commodité dans la collecte de données, CyberDemo surpasse les méthodes de référence en termes de taux de réussite sur diverses tâches et démontre une généralisation avec des objets jamais vus auparavant. Par exemple, elle peut faire pivoter des tétra-valves et des penta-valves inédites, bien que les démonstrations humaines n'aient impliqué que des tri-valves. Notre recherche met en évidence le potentiel significatif des démonstrations humaines simulées pour des tâches de manipulation dextre dans le monde réel. Plus de détails sont disponibles à l'adresse suivante : https://cyber-demo.github.io.
En tant que technique prometteuse de génération 3D, la diffusion multivue (MVD) a suscité beaucoup d'attention en raison de ses avantages en termes de généralisation, de qualité et d'efficacité. En affinant des modèles de diffusion d'images pré-entraînés avec des données 3D, les méthodes MVD génèrent d'abord plusieurs vues d'un objet 3D à partir d'une image ou d'un texte, puis reconstruisent des formes 3D grâce à une reconstruction multivue. Cependant, les vues éparses et les détails incohérents dans les images générées rendent la reconstruction 3D difficile. Nous présentons MVD^2, une méthode de reconstruction 3D efficace pour les images de diffusion multivue (MVD). MVD^2 agrège les caractéristiques des images en un volume de caractéristiques 3D par projection et convolution, puis décode ces caractéristiques volumétriques en un maillage 3D. Nous entraînons MVD^2 avec des collections de formes 3D et des images MVD générées à partir de vues rendues de formes 3D. Pour résoudre la divergence entre les images multivues générées et les vues de référence des formes 3D, nous concevons un schéma d'entraînement dépendant de la vue, simple mais efficace. MVD^2 améliore la qualité de la génération 3D de MVD et est rapide et robuste face à diverses méthodes MVD. Après entraînement, il peut décoder efficacement des maillages 3D à partir d'images multivues en moins d'une seconde. Nous entraînons MVD^2 avec Zero-123++ et le jeu de données 3D ObjectVerse-LVIS, et démontrons ses performances supérieures dans la génération de modèles 3D à partir d'images multivues produites par différentes méthodes MVD, en utilisant à la fois des images synthétiques et réelles comme prompts.
Des recherches récentes ont démontré que les transformers, en particulier les modèles d'attention linéaire, exécutent implicitement des algorithmes similaires à la descente de gradient sur les données fournies en contexte lors de leur étape d'inférence directe. Cependant, leur capacité à traiter des problèmes plus complexes reste inexplorée. Dans cet article, nous prouvons que tout transformer linéaire maintient un modèle linéaire implicite et peut être interprété comme effectuant une variante de la descente de gradient préconditionnée. Nous étudions également l'utilisation des transformers linéaires dans un scénario difficile où les données d'entraînement sont corrompues par différents niveaux de bruit. De manière remarquable, nous démontrons que pour ce problème, les transformers linéaires découvrent un algorithme d'optimisation complexe et hautement efficace, surpassant ou égalant en performance de nombreuses bases de référence raisonnables. Nous rétro-concevons cet algorithme et montrons qu'il s'agit d'une approche novatrice incorporant une dynamique de momentum et une mise à l'échelle adaptative basée sur les niveaux de bruit. Nos résultats montrent que même les transformers linéaires possèdent la capacité surprenante de découvrir des stratégies d'optimisation sophistiquées.
L'apprentissage par imitation permet d'acquérir une politique à partir de démonstrations sans nécessiter de fonctions de récompense conçues manuellement. Dans de nombreuses tâches robotiques, telles que la course automobile autonome, les politiques imitées doivent modéliser des dynamiques environnementales complexes ainsi que la prise de décision humaine. La modélisation séquentielle est très efficace pour capturer les motifs complexes des séquences de mouvement, mais elle peine à s'adapter à de nouveaux environnements ou aux décalages de distribution fréquents dans les tâches robotiques du monde réel. En revanche, l'apprentissage par imitation adversarial (AIL) peut atténuer cet effet, mais il souffre d'une inefficacité en termes d'échantillons et de difficultés à gérer des motifs de mouvement complexes. Ainsi, nous proposons BeTAIL : Behavior Transformer Adversarial Imitation Learning, qui combine une politique Behavior Transformer (BeT) issue de démonstrations humaines avec un AIL en ligne. BeTAIL ajoute une politique résiduelle AIL à la politique BeT pour modéliser le processus séquentiel de prise de décision des experts humains et corriger les états hors distribution ou les changements dans les dynamiques environnementales. Nous testons BeTAIL sur trois défis avec des démonstrations de niveau expert issues de parties réelles de Gran Turismo Sport. Notre approche résiduelle BeTAIL réduit les interactions avec l'environnement et améliore les performances et la stabilité en course, même lorsque le BeT est pré-entraîné sur des circuits différents de ceux utilisés pour l'apprentissage final. Vidéos et code disponibles à l'adresse : https://sites.google.com/berkeley.edu/BeTAIL/home.