Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons EXAONE 3.0, un modèle de langage ajusté par instructions, premier modèle ouvert de la famille des grands modèles de langage (LLMs) développé par LG AI Research. Parmi les différentes tailles de modèles, nous rendons publiquement accessible le modèle ajusté par instructions de 7,8 milliards de paramètres afin de promouvoir la recherche ouverte et l'innovation. Grâce à des évaluations approfondies sur un large éventail de benchmarks publics et internes, EXAONE 3.0 démontre des performances compétitives dans des scénarios réels, avec une capacité à suivre des instructions, par rapport à d'autres modèles ouverts de pointe de taille similaire. Notre analyse comparative montre qu'EXAONE 3.0 excelle particulièrement en coréen, tout en affichant des performances convaincantes dans les tâches générales et le raisonnement complexe. Avec son efficacité réelle et sa maîtrise bilingue, nous espérons qu'EXAONE continuera à contribuer aux avancées dans le domaine de l'IA experte. Notre modèle EXAONE 3.0 ajusté par instructions est disponible à l'adresse suivante : https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.
La construction d'un agent à usage général est une vision de longue date dans le domaine de l'intelligence artificielle. Les agents existants ont réalisé des progrès remarquables dans de nombreux domaines, mais ils peinent encore à accomplir des tâches à long terme dans un monde ouvert. Nous attribuons cela au manque de connaissances du monde et d'expériences multimodales nécessaires pour guider les agents à travers une variété de tâches à long terme. Dans cet article, nous proposons un module de Mémoire Multimodale Hybride pour relever ces défis. Celui-ci 1) transforme les connaissances en un Graphe de Connaissance Hiérarchique Dirigé qui permet aux agents de représenter et d'apprendre explicitement les connaissances du monde, et 2) résume les informations historiques dans un Pool d'Expériences Multimodales Abstraites qui fournit aux agents des références riches pour l'apprentissage en contexte. Sur la base du module de Mémoire Multimodale Hybride, un agent multimodal, Optimus-1, est construit avec un Planificateur Guidé par les Connaissances et un Réflecteur Piloté par l'Expérience, contribuant à une meilleure planification et réflexion face aux tâches à long terme dans Minecraft. Les résultats expérimentaux approfondis montrent qu'Optimus-1 surpasse significativement tous les agents existants sur des benchmarks de tâches à long terme difficiles, et atteint des performances proches de celles d'un humain sur de nombreuses tâches. De plus, nous introduisons divers Modèles de Langage Multimodaux de Grande Taille (MLLMs) comme base d'Optimus-1. Les résultats expérimentaux montrent qu'Optimus-1 présente une forte généralisation grâce au module de Mémoire Multimodale Hybride, surpassant le modèle de référence GPT-4V sur de nombreuses tâches.
Atteindre une vitesse et des performances de niveau humain sur des tâches du monde réel constitue un objectif phare pour la communauté de recherche en robotique. Ce travail représente une étape vers cet objectif en présentant le premier agent robotique apprenant atteignant des performances de niveau amateur humain en tennis de table compétitif. Le tennis de table est un sport physiquement exigeant qui nécessite des années d'entraînement pour les joueurs humains afin d'atteindre un niveau avancé de maîtrise. Dans cet article, nous contribuons (1) une architecture de politique hiérarchique et modulaire comprenant (i) des contrôleurs de bas niveau avec leurs descripteurs de compétences détaillés qui modélisent les capacités de l'agent et aident à combler l'écart entre la simulation et la réalité, et (ii) un contrôleur de haut niveau qui sélectionne les compétences de bas niveau, (2) des techniques permettant un transfert sim-to-real sans adaptation, incluant une approche itérative pour définir la distribution des tâches ancrée dans le monde réel et établissant un curriculum automatique, et (3) une adaptation en temps réel à des adversaires inconnus. Les performances de la politique ont été évaluées à travers 29 matchs robot contre humain, dont le robot a remporté 45% (13/29). Tous les humains étaient des joueurs inconnus, et leur niveau de compétence variait de débutant à niveau tournoi. Bien que le robot ait perdu tous les matchs contre les joueurs les plus avancés, il a remporté 100% des matchs contre les débutants et 55% des matchs contre les joueurs intermédiaires, démontrant des performances solides de niveau amateur humain. Les vidéos des matchs peuvent être visionnées sur https://sites.google.com/view/competitive-robot-table-tennis.
Les modèles de langage de grande taille (LLMs) excellent dans les tâches de code autonomes comme HumanEval et MBPP, mais peinent à gérer des dépôts de code entiers. Ce défi a stimulé la recherche sur l'amélioration de l'interaction entre les LLMs et les bases de code à l'échelle d'un dépôt. Les solutions actuelles reposent sur la récupération basée sur la similarité ou sur des outils et API manuels, chacune présentant des inconvénients notables. La récupération basée sur la similarité a souvent un faible rappel dans les tâches complexes, tandis que les outils et API manuels sont généralement spécifiques à une tâche et nécessitent des connaissances expertes, limitant leur généralisabilité à travers diverses tâches de code et applications réelles. Pour atténuer ces limitations, nous introduisons \framework, un système qui intègre des agents LLM avec des interfaces de bases de données graphiques extraites des dépôts de code. En exploitant les propriétés structurelles des bases de données graphiques et la flexibilité du langage de requête graphique, \framework permet à l'agent LLM de construire et d'exécuter des requêtes, permettant une récupération de contexte précise et consciente de la structure du code, ainsi qu'une navigation dans le code. Nous évaluons \framework à l'aide de trois benchmarks : CrossCodeEval, SWE-bench et EvoCodeBench. De plus, nous développons cinq applications de codage réelles. Avec un schéma de base de données graphique unifié, \framework démontre des performances compétitives et un potentiel à la fois dans les environnements académiques et réels, mettant en avant sa polyvalence et son efficacité dans l'ingénierie logicielle. Notre démonstration d'application est disponible ici : https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval est une boîte à outils complète pour tester la sécurité des IA, conçue pour évaluer les grands modèles de langage (LLM). Il prend en charge une diversité de modèles, incluant à la fois ceux à poids ouvert et ceux basés sur API, et propose plus de 35 benchmarks de sécurité couvrant des domaines tels que la sécurité multilingue, la sécurité exagérée et les injections de prompts. Le framework supporte à la fois le benchmarking des LLM et des juges, et intègre des mutateurs personnalisés pour tester la sécurité face à diverses mutations de style de texte, comme le futur et la paraphrase. Par ailleurs, WalledEval introduit WalledGuard, un nouvel outil de modération de contenu compact et performant, ainsi que SGXSTest, un benchmark pour évaluer la sécurité exagérée dans des contextes culturels. Nous rendons WalledEval accessible au public à l'adresse suivante : https://github.com/walledai/walledevalA.
Le splatting 3D Gaussien (3DGS) a récemment émergé comme une représentation alternative qui exploite une représentation basée sur des Gaussiennes 3D et introduit un rendu volumétrique approximatif, atteignant une vitesse de rendu très rapide et une qualité d'image prometteuse. De plus, des études ultérieures ont réussi à étendre le 3DGS à des scènes 3D dynamiques, démontrant ainsi son large éventail d'applications. Cependant, un inconvénient majeur apparaît car le 3DGS et ses méthodes dérivées nécessitent un nombre substantiel de Gaussiennes pour maintenir la haute fidélité des images rendues, ce qui exige une grande quantité de mémoire et de stockage. Pour résoudre ce problème critique, nous mettons l'accent sur deux objectifs clés : réduire le nombre de points Gaussien sans sacrifier les performances et compresser les attributs des Gaussiennes, tels que la couleur dépendante de la vue et la covariance. À cette fin, nous proposons une stratégie de masque apprenable qui réduit considérablement le nombre de Gaussiennes tout en préservant des performances élevées. En outre, nous proposons une représentation compacte mais efficace de la couleur dépendante de la vue en utilisant un champ neuronal basé sur une grille plutôt que de s'appuyer sur les harmoniques sphériques. Enfin, nous apprenons des codebooks pour représenter de manière compacte les attributs géométriques et temporels par quantification vectorielle résiduelle. Avec des techniques de compression de modèle telles que la quantification et le codage entropique, nous montrons systématiquement une réduction de plus de 25x du stockage et une amélioration de la vitesse de rendu par rapport au 3DGS pour les scènes statiques, tout en maintenant la qualité de la représentation de la scène. Pour les scènes dynamiques, notre approche atteint une efficacité de stockage de plus de 12x et conserve une reconstruction de haute qualité par rapport aux méthodes existantes de pointe. Notre travail fournit un cadre complet pour la représentation de scènes 3D, atteignant des performances élevées, un apprentissage rapide, une compacité et un rendu en temps réel. Notre page de projet est disponible à l'adresse https://maincold2.github.io/c3dgs/.
Les modèles récents de génération d'images excellent dans la création d'images de haute qualité à partir de brèves descriptions. Cependant, ils échouent à maintenir la cohérence de multiples instances à travers les images lorsqu'ils sont confrontés à des contextes étendus. Cette incohérence est largement due à l'absence, dans les ensembles de données d'entraînement existants, d'étiquetage granulaire des caractéristiques des instances. Pour résoudre ces problèmes, nous introduisons Openstory++, un ensemble de données à grande échelle combinant des annotations supplémentaires au niveau des instances avec des images et du texte. De plus, nous développons une méthodologie d'entraînement qui met l'accent sur la génération d'images-textes centrée sur les entités, garantissant que les modèles apprennent à tisser efficacement des informations visuelles et textuelles. Plus précisément, Openstory++ simplifie le processus d'extraction de keyframes à partir de vidéos en domaine ouvert, en utilisant des modèles vision-langage pour générer des descriptions qui sont ensuite polies par un grand modèle de langage pour assurer la continuité narrative. Il surpasse les ensembles de données précédents en offrant une ressource en domaine ouvert plus vaste, qui intègre un sous-titrage automatisé, des images haute résolution adaptées au décompte des instances, et des séquences de frames étendues pour la cohérence temporelle. Par ailleurs, nous présentons Cohere-Bench, un cadre de référence pionnier pour évaluer les tâches de génération d'images lorsque un contexte multimodal long est fourni, y compris la capacité à maintenir cohérents l'arrière-plan, le style et les instances dans le contexte donné. Comparé aux benchmarks existants, notre travail comble des lacunes critiques dans la génération multimodale, propulsant le développement de modèles capables de générer et d'interpréter habilement des récits complexes dans des environnements en domaine ouvert. Les expériences menées dans Cohere-Bench confirment la supériorité d'Openstory++ dans le développement de modèles de narration visuelle de haute qualité, améliorant leur capacité à traiter des tâches de génération en domaine ouvert. Plus de détails sont disponibles sur https://openstorypp.github.io/
Nous présentons Speech-MASSIVE, un ensemble de données multilingue pour la compréhension du langage parlé (Spoken Language Understanding, SLU), comprenant la contrepartie audio d'une partie du corpus textuel MASSIVE. Speech-MASSIVE couvre 12 langues issues de différentes familles linguistiques et hérite de MASSIVE les annotations pour les tâches de prédiction d'intention et de remplissage de slots. Cette extension est motivée par la rareté des ensembles de données SLU massivement multilingues et par le besoin croissant de jeux de données audio polyvalents pour évaluer les modèles de base (LLM, encodeurs audio) à travers les langues et les tâches. Nous fournissons un ensemble de données multimodal, multitâche et multilingue, et rapportons des performances de référence pour le SLU en utilisant à la fois des architectures en cascade et end-to-end dans divers scénarios d'apprentissage (zero-shot, few-shot et fine-tuning complet). De plus, nous démontrons l'adéquation de Speech-MASSIVE pour l'évaluation d'autres tâches telles que la transcription de la parole, l'identification des langues et la traduction automatique de la parole. L'ensemble de données, les modèles et le code sont disponibles publiquement à l'adresse suivante : https://github.com/hlt-mt/Speech-MASSIVE.
Les méthodes basées sur le rendu volumétrique différentiable ont réalisé des progrès significatifs dans la synthèse de nouvelles vues. D'une part, des méthodes innovantes ont remplacé le réseau de Neural Radiance Fields (NeRF) par des structures localement paramétrisées, permettant des rendus de haute qualité en un temps raisonnable. D'autre part, des approches ont utilisé le splatting différentiable au lieu du lancer de rayons de NeRF pour optimiser rapidement les champs de radiance à l'aide de noyaux gaussiens, permettant une adaptation fine à la scène. Cependant, le lancer de rayons différentiable de noyaux irrégulièrement espacés a été peu exploré, tandis que le splatting, bien qu'il permette des temps de rendu rapides, est susceptible de produire des artefacts clairement visibles. Notre travail comble cette lacune en fournissant une formulation physiquement cohérente de la radiance émise c et de la densité {\sigma}, décomposées avec des fonctions gaussiennes associées à des Gaussiennes Sphériques/Harmoniques pour une représentation colorimétrique à toutes fréquences. Nous introduisons également une méthode permettant le lancer de rayons différentiable de Gaussiennes distribuées de manière irrégulière à l'aide d'un algorithme qui intègre les champs de radiance tranche par tranche et exploite une structure BVH. Cela permet à notre approche de s'adapter finement à la scène tout en évitant les artefacts du splatting. En conséquence, nous obtenons une qualité de rendu supérieure par rapport à l'état de l'art tout en maintenant des temps d'entraînement raisonnables et en atteignant des vitesses d'inférence de 25 FPS sur le jeu de données Blender. Page du projet avec vidéos et code : https://raygauss.github.io/
Cet article présente une approche pour décomposer des graphiques animés en sprites, un ensemble d'éléments ou de couches de base. Notre approche repose sur l'optimisation des paramètres des sprites pour s'adapter à la vidéo raster. Pour plus d'efficacité, nous supposons des textures statiques pour les sprites afin de réduire l'espace de recherche tout en évitant les artefacts grâce à un modèle de priorité de texture. Pour accélérer davantage l'optimisation, nous introduisons l'initialisation des paramètres des sprites en utilisant un modèle pré-entraîné de segmentation d'objets vidéo et des annotations manuelles sur une seule image. Pour notre étude, nous avons construit le jeu de données Crello Animation à partir d'un service de conception en ligne et défini des métriques quantitatives pour mesurer la qualité des sprites extraits. Les expériences montrent que notre méthode surpasse significativement les approches de référence pour des tâches de décomposition similaires en termes de compromis qualité/efficacité.
La séparation de sources audio cinématographiques (CASS) est une sous-tâche relativement nouvelle de la séparation de sources audio. Un cas typique de CASS est un problème à trois pistes, visant à séparer le mélange en une piste de dialogue (DX), une piste de musique (MX) et une piste d'effets (FX). Cependant, en pratique, plusieurs cas particuliers existent, car certaines sources sonores ne s'intègrent pas parfaitement dans l'une de ces trois pistes, nécessitant l'utilisation de pistes auxiliaires supplémentaires en production. Un cas particulier très courant est la voix chantée dans l'audio cinématographique, qui peut appartenir soit à la DX soit à la MX, selon le contexte cinématographique. Dans ce travail, nous démontrons une extension très simple des modèles Bandit à décodeur dédié et Banquet à décodeur unique basé sur des requêtes à un problème à quatre pistes, traitant le dialogue non musical, la musique instrumentale, la voix chantée et les effets comme des pistes distinctes. Fait intéressant, le modèle Banquet basé sur des requêtes a surpassé le modèle Bandit à décodeur dédié. Nous avons émis l'hypothèse que cela est dû à un meilleur alignement des caractéristiques au niveau du goulot d'étranglement, imposé par la couche FiLM indépendante de la bande. Le jeu de données et l'implémentation du modèle seront disponibles à l'adresse suivante : https://github.com/kwatcharasupat/source-separation-landing.