papers.description
Les agents d'intelligence artificielle générale sont de plus en plus reconnus comme des cadres fondamentaux pour la prochaine génération d'intelligence artificielle, permettant un raisonnement complexe, des interactions web, du codage et des capacités de recherche autonomes. Cependant, les systèmes d'agents actuels sont soit fermés, soit fortement dépendants d'une variété d'API payantes et d'outils propriétaires, limitant ainsi l'accessibilité et la reproductibilité pour la communauté de recherche. Dans ce travail, nous présentons Cognitive Kernel-Pro, un cadre d'agent multi-module entièrement open-source et (dans la mesure du possible) gratuit, conçu pour démocratiser le développement et l'évaluation des agents d'IA avancés. Au sein de Cognitive Kernel-Pro, nous étudions systématiquement la curation de données d'entraînement de haute qualité pour les modèles de base d'agents, en nous concentrant sur la construction de requêtes, de trajectoires et de réponses vérifiables dans quatre domaines clés : web, fichiers, code et raisonnement général. De plus, nous explorons de nouvelles stratégies de réflexion et de vote en temps de test pour améliorer la robustesse et les performances des agents. Nous évaluons Cognitive Kernel-Pro sur GAIA, obtenant des résultats de pointe parmi les agents open-source et gratuits. Notamment, notre modèle open-source à 8 milliards de paramètres surpasse les systèmes leaders précédents tels que WebDancer et WebSailor, établissant une nouvelle norme de performance pour les agents d'IA accessibles et hautement performants. Le code est disponible à l'adresse suivante : https://github.com/Tencent/CognitiveKernel-Pro
Les modèles de langage à grande échelle par diffusion (DLLMs) émergent comme une alternative puissante aux modèles de langage à grande échelle autorégressifs dominants, offrant une génération parallèle efficace et une modélisation globale du contexte. Cependant, l'application pratique des DLLMs est entravée par une contrainte architecturale critique : la nécessité d'une longueur de génération prédéfinie de manière statique. Cette allocation de longueur fixe entraîne un compromis problématique : des longueurs insuffisantes nuisent aux performances sur des tâches complexes, tandis que des longueurs excessives engendrent une surcharge computationnelle importante et parfois une dégradation des performances. Bien que le cadre d'inférence soit rigide, nous observons que le modèle lui-même possède des signaux internes corrélés à la longueur optimale de réponse pour une tâche donnée. Pour combler cette lacune, nous exploitons ces signaux latents et introduisons DAEDAL, une nouvelle stratégie de débruitage sans apprentissage qui permet une expansion dynamique et adaptative de la longueur pour les DLLMs. DAEDAL opère en deux phases : 1) Avant le processus de débruitage, DAEDAL commence avec une courte longueur initiale et l'étend itérativement à une longueur approximative adaptée à la tâche, guidé par une métrique de complétion de séquence. 2) Pendant le processus de débruitage, DAEDAL intervient dynamiquement en identifiant et en étendant les régions de génération insuffisantes par l'insertion de tokens masqués, garantissant que la sortie finale est pleinement développée. Des expériences approfondies sur les DLLMs démontrent que DAEDAL atteint des performances comparables, et dans certains cas supérieures, à des références à longueur fixe soigneusement ajustées, tout en améliorant l'efficacité computationnelle grâce à un ratio de tokens effectif plus élevé. En résolvant la contrainte de longueur statique, DAEDAL débloque un nouveau potentiel pour les DLLMs, comblant une lacune critique avec leurs homologues autorégressifs et ouvrant la voie à une génération plus efficace et performante.
Le succès actuel des transformateurs de diffusion repose fortement sur l'espace latent compressé façonné par l'autoencodeur variationnel (VAE) pré-entraîné. Cependant, ce paradigme d'entraînement en deux étapes introduit inévitablement des erreurs accumulées et des artefacts de décodage. Pour résoudre ces problèmes, les chercheurs reviennent à l'espace pixel au prix de pipelines en cascade complexes et d'une complexité accrue des tokens. Contrairement à leurs efforts, nous proposons de modéliser le décodage par patchs avec un champ neuronal et présentons une solution monolithique, monostade, efficace et de bout en bout, baptisée diffusion par champ neuronal pixel (PixelNerd). Grâce à la représentation efficace du champ neuronal dans PixelNerd, nous avons directement atteint un FID de 2,15 sur ImageNet 256×256 et un FID de 2,84 sur ImageNet 512×512 sans aucun pipeline en cascade complexe ni VAE. Nous étendons également notre framework PixelNerd aux applications de texte à image. Notre modèle PixelNerd-XXL/16 a obtenu un score global compétitif de 0,73 sur le benchmark GenEval et un score global de 80,9 sur le benchmark DPG.
Les grands modèles vision-langage (VLMs) ont réalisé des progrès significatifs dans les tâches de compréhension visuelle 2D, suscitant un intérêt pour étendre ces capacités à la compréhension de scènes 3D. Cependant, les VLMs 3D actuels rencontrent souvent des difficultés en matière de raisonnement robuste et de généralisation, en raison des limitations des données spatiales de haute qualité et de la nature statique des hypothèses sur les points de vue. Pour relever ces défis, nous proposons 3D-R1, un modèle de base qui améliore les capacités de raisonnement des VLMs 3D. Plus précisément, nous construisons d'abord un ensemble de données synthétiques de haute qualité avec CoT, nommé Scene-30K, en exploitant les ensembles de données 3D-VL existants et un moteur de données basé sur Gemini 2.5 Pro. Il sert de données d'initialisation pour 3D-R1. De plus, nous utilisons une politique RLHF telle que GRPO dans le processus d'apprentissage par renforcement pour améliorer les capacités de raisonnement et introduisons trois fonctions de récompense : une récompense de perception, une récompense de similarité sémantique et une récompense de format pour maintenir la précision de détection et la précision sémantique des réponses. Par ailleurs, nous introduisons une stratégie de sélection de vue dynamique qui choisit de manière adaptative les perspectives les plus informatives pour la compréhension de scènes 3D. Des expériences approfondies démontrent que 3D-R1 apporte une amélioration moyenne de 10 % sur divers benchmarks de scènes 3D, mettant en évidence son efficacité pour améliorer le raisonnement et la généralisation dans la compréhension de scènes 3D. Code : https://github.com/AIGeeksGroup/3D-R1. Site web : https://aigeeksgroup.github.io/3D-R1.
Les récentes avancées dans les agents de modèles de langage de grande taille (LLM) ont montré des progrès remarquables dans la résolution de problèmes logiciels, en exploitant des techniques avancées telles que la collaboration multi-agents et la recherche arborescente Monte Carlo (MCTS). Cependant, les agents actuels agissent comme des explorateurs sans mémoire - traitant chaque problème séparément sans conserver ou réutiliser les connaissances issues des expériences de réparation précédentes. Cela conduit à une exploration redondante des trajectoires infructueuses et à des occasions manquées d'adapter des méthodes de résolution de problèmes réussies à des problèmes similaires. Pour résoudre ce problème, nous introduisons SWE-Exp, une approche enrichie par l'expérience qui distille des connaissances concises et exploitables à partir des trajectoires précédentes des agents, permettant un apprentissage continu à travers les problèmes. Notre méthode introduit une banque d'expériences multidimensionnelle qui capture à la fois les tentatives de réparation réussies et échouées. Plus précisément, elle extrait des connaissances réutilisables sur la résolution de problèmes à différents niveaux - de la compréhension globale du problème aux modifications spécifiques du code. Les expériences montrent que SWE-Exp atteint un taux de résolution de pointe (41,6% Pass@1) sur SWE-bench-Verified dans le cadre d'agents open-source. Notre approche établit un nouveau paradigme dans lequel les agents d'ingénierie logicielle automatisée accumulent et exploitent systématiquement l'expertise en réparation, passant fondamentalement d'une exploration par essais et erreurs à une résolution de problèmes stratégique et guidée par l'expérience.
La résolution de problèmes a connu des progrès remarquables grâce aux capacités de raisonnement avancées des grands modèles de langage (LLM). Récemment, des frameworks basés sur des agents, tels que SWE-agent, ont encore fait avancer ces progrès en permettant à des agents autonomes utilisant des outils de s'attaquer à des tâches complexes d'ingénierie logicielle. Bien que les approches existantes de résolution de problèmes basées sur des agents reposent principalement sur des explorations indépendantes, elles se retrouvent souvent bloquées dans des solutions locales et échouent à identifier des schémas de problèmes qui s'étendent à différentes parties de la base de code. Pour remédier à cette limitation, nous proposons SWE-Debate, un framework de débat compétitif multi-agents qui encourage des chemins de raisonnement diversifiés et permet une localisation des problèmes plus consolidée. SWE-Debate commence par créer plusieurs traces de propagation de défauts comme propositions de localisation en parcourant un graphe de dépendances de code. Ensuite, il organise un débat en trois tours entre des agents spécialisés, chacun incarnant des perspectives de raisonnement distinctes le long de la trace de propagation de défauts. Cette compétition structurée permet aux agents de converger de manière collaborative vers un plan de correction consolidé. Enfin, ce plan de correction consolidé est intégré dans un agent de modification de code basé sur MCTS pour la génération de correctifs. Les expériences sur le benchmark SWE-bench montrent que SWE-Debate atteint de nouveaux résultats de pointe parmi les frameworks d'agents open-source et surpasse largement les approches de référence.
L'évaluation des capacités conversationnelles des modèles de langage de grande taille (LLMs) demeure une tâche complexe. Les approches actuelles dominantes reposent principalement sur le paradigme « LLM-comme-juge », où un LLM est sollicité pour servir d'évaluateur afin de juger la qualité des dialogues. Cependant, ces méthodes souffrent souvent de divers biais, ce qui compromet la fiabilité et la cohérence des résultats d'évaluation. Pour atténuer ces biais, des méthodes récentes emploient plusieurs LLMs comme juges et agrègent leurs jugements pour sélectionner l'évaluation optimale. Bien qu'efficace, cette approche multi-juges entraîne un coût computationnel significatif lors de l'inférence. Dans cet article, nous proposons un évaluateur de dialogues multi-tours efficace qui capture la sagesse collective de plusieurs juges LLMs en agrégeant leurs connaissances de préférence dans un modèle unique. Notre approche préserve les avantages des retours diversifiés de plusieurs juges tout en réduisant considérablement le coût de l'évaluation, permettant une évaluation rapide et flexible de la qualité des dialogues. Des expériences approfondies sur sept benchmarks d'évaluation de dialogues, incluant des notations uniques et des comparaisons par paires, démontrent que notre méthode surpasse les approches existantes dans divers scénarios, mettant en évidence son efficacité et sa robustesse.
Les récents progrès dans les grands modèles de langage ont catalysé le développement de modèles de langage multimodaux (MLLMs) qui intègrent texte, parole et vision au sein de cadres unifiés. Alors que les MLLMs évoluent de systèmes étroits, monolingues et spécifiques à des tâches vers des modèles polyvalents capables de suivre des instructions, une frontière clé réside dans l'évaluation de leurs capacités multilingues et multimodales sur des contextes à la fois longs et courts. Cependant, les benchmarks existants ne parviennent pas à évaluer conjointement ces dimensions : ils sont souvent limités à l'anglais, se concentrent principalement sur une seule modalité à la fois, reposent sur des contextes courts ou manquent d'annotations humaines — ce qui entrave une évaluation complète des performances des modèles à travers les langues, les modalités et la complexité des tâches. Pour combler ces lacunes, nous introduisons MCIF (Multimodal Crosslingual Instruction Following), le premier benchmark multilingue annoté par des humains, basé sur des conférences scientifiques, conçu pour évaluer le suivi d'instructions dans des contextes multilingues et multimodaux sur des entrées à la fois courtes et longues. MCIF couvre trois modalités principales — parole, vision et texte — et quatre langues diverses (anglais, allemand, italien et chinois), permettant une évaluation complète des capacités des MLLMs à interpréter des instructions à travers les langues et à les combiner avec des informations contextuelles multimodales. MCIF est publié sous licence CC-BY 4.0 pour encourager la recherche ouverte et les progrès dans le développement des MLLMs.
La segmentation référentielle multimodale vise à segmenter des objets cibles dans des scènes visuelles, telles que des images, des vidéos et des scènes 3D, en se basant sur des expressions référentielles sous forme de texte ou d'audio. Cette tâche joue un rôle crucial dans les applications pratiques nécessitant une perception précise des objets basée sur les instructions de l'utilisateur. Au cours de la dernière décennie, elle a suscité une attention considérable dans la communauté multimodale, grâce aux avancées des réseaux de neurones convolutifs, des transformateurs et des modèles de langage de grande envergure, qui ont tous considérablement amélioré les capacités de perception multimodale. Cet article propose une revue exhaustive de la segmentation référentielle multimodale. Nous commençons par introduire le contexte de ce domaine, incluant les définitions des problèmes et les jeux de données couramment utilisés. Ensuite, nous résumons une méta-architecture unifiée pour la segmentation référentielle et passons en revue les méthodes représentatives dans trois types principaux de scènes visuelles : les images, les vidéos et les scènes 3D. Nous discutons également des méthodes d'Expression Référentielle Généralisée (GREx) pour relever les défis de la complexité du monde réel, ainsi que des tâches connexes et des applications pratiques. Des comparaisons approfondies des performances sur des benchmarks standards sont également fournies. Nous suivons continuellement les travaux connexes sur https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
La génération de vidéos pilotée par l'audio vise à synthétiser des vidéos réalistes qui s'alignent sur des enregistrements audio en entrée, similairement à la capacité humaine à visualiser des scènes à partir d'entrées auditives. Cependant, les approches existantes se concentrent principalement sur l'exploration d'informations sémantiques, telles que les classes des sources sonores présentes dans l'audio, limitant ainsi leur capacité à générer des vidéos avec un contenu et une composition spatiale précis. En revanche, nous, humains, pouvons non seulement identifier naturellement les catégories sémantiques des sources sonores, mais aussi déterminer leurs attributs spatiaux profondément encodés, y compris leurs positions et directions de mouvement. Ces informations utiles peuvent être élucidées en considérant des indicateurs spatiaux spécifiques dérivés des propriétés physiques inhérentes au son, telles que l'intensité ou la fréquence. Comme les méthodes précédentes ignorent largement ce facteur, nous présentons SpA2V, le premier cadre qui exploite explicitement ces indices auditifs spatiaux à partir de l'audio pour générer des vidéos avec une correspondance sémantique et spatiale élevée. SpA2V décompose le processus de génération en deux étapes : 1) Planification de vidéo guidée par l'audio : Nous adaptons méticuleusement un MLLM de pointe pour une nouvelle tâche consistant à exploiter les indices spatiaux et sémantiques de l'audio en entrée pour construire des Dispositions de Scène Vidéo (VSL). Cela sert de représentation intermédiaire pour combler le fossé entre les modalités audio et vidéo. 2) Génération de vidéo ancrée dans la disposition : Nous développons une approche efficace et efficiente pour intégrer de manière transparente les VSL comme guide conditionnel dans des modèles de diffusion pré-entraînés, permettant ainsi une génération de vidéo ancrée dans les VSL sans nécessiter d'entraînement supplémentaire. Des expériences approfondies démontrent que SpA2V excelle dans la génération de vidéos réalistes avec un alignement sémantique et spatial par rapport aux audios en entrée.
Les modèles de langage de grande taille (LLMs) ont démontré une remarquable capacité à générer des textes ressemblant étroitement à ceux produits par les humains. Cependant, ils génèrent souvent des déclarations factuellement incorrectes, un problème communément appelé « hallucination ». La résolution de ce problème est cruciale pour améliorer la fiabilité et l'efficacité des LLMs. Alors que de nombreuses recherches se sont concentrées sur les hallucinations en anglais, notre étude étend cette investigation à des données conversationnelles dans trois langues : le hindi, le farsi et le mandarin. Nous proposons une analyse approfondie d'un ensemble de données pour examiner les erreurs factuelles et linguistiques dans ces langues pour les modèles GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 et Qwen-3. Nous avons constaté que les LLMs produisent très peu de réponses hallucinées en mandarin, mais génèrent un nombre significativement plus élevé d'hallucinations en hindi et en farsi.
La navigation visuelle avec une image comme objectif constitue un problème fondamental et complexe. Les méthodes conventionnelles reposent soit sur un apprentissage par renforcement de bout en bout, soit sur une politique modulaire utilisant un graphe topologique ou une carte BEV comme mémoire, ce qui ne permet pas de modéliser pleinement la relation géométrique entre l'environnement 3D exploré et l'image objectif. Pour localiser efficacement et précisément l'image objectif dans l'espace 3D, nous construisons notre système de navigation sur la base de la représentation 3D gaussienne rendue (3DGS). Cependant, en raison de l'intensité computationnelle de l'optimisation 3DGS et de l'espace de recherche important de la pose de la caméra à 6 degrés de liberté, l'utilisation directe de la 3DGS pour la localisation d'image pendant le processus d'exploration de l'agent est excessivement inefficace. Pour cela, nous proposons IGL-Nav, un cadre de localisation incrémentale 3D gaussienne pour une navigation efficace et consciente de la 3D avec une image objectif. Plus précisément, nous mettons à jour de manière incrémentale la représentation de la scène à mesure que de nouvelles images arrivent, grâce à une prédiction monoculaire en avant. Ensuite, nous localisons grossièrement l'objectif en exploitant les informations géométriques pour un appariement d'espace discret, ce qui peut être équivalent à une convolution 3D efficace. Lorsque l'agent est proche de l'objectif, nous résolvons finalement la pose fine de la cible par optimisation via un rendu différentiable. Le IGL-Nav proposé surpasse les méthodes état de l'art existantes avec une marge importante dans diverses configurations expérimentales. Il peut également gérer le cadre plus complexe de l'image objectif en vue libre et être déployé sur une plateforme robotique réelle en utilisant un téléphone portable pour capturer l'image objectif à une pose arbitraire. Page du projet : https://gwxuan.github.io/IGL-Nav/.
Si l'IA excelle dans la génération de texte, d'audio, d'images et de vidéos, la création de contenus audio-visuels interactifs tels que les jeux vidéo reste un défi. Les modèles de langage actuels (LLMs) peuvent générer des jeux et animations en JavaScript, mais ils manquent de métriques d'évaluation automatisées et peinent à produire des contenus complexes qui nécessitent normalement des équipes humaines travaillant pendant plusieurs mois (multi-shots, multi-agents) avec des assets créés par des artistes. Pour résoudre ces problèmes, nous avons développé une nouvelle métrique et un système multi-agents. Nous proposons AVR-Eval, une métrique relative pour évaluer la qualité des contenus multimédias en utilisant des enregistrements audio-visuels (AVRs). Un modèle omni-modal (traitant texte, vidéo et audio) compare les AVRs de deux contenus, tandis qu'un modèle de langage examine les évaluations pour déterminer la supériorité. Nous montrons qu'AVR-Eval identifie correctement les contenus de qualité par rapport à ceux qui sont défectueux ou mal assortis. Nous avons construit AVR-Agent, un système multi-agents générant du code JavaScript à partir d'une banque d'assets multimédias (audio, images, modèles 3D). L'agent de codage sélectionne les assets pertinents, génère plusieurs versions initiales du code, utilise AVR-Eval pour identifier la meilleure version, et l'améliore itérativement grâce aux retours omni-modaux de l'agent basés sur les AVRs. Nous avons mené des expériences sur des jeux et animations avec AVR-Eval (taux de victoire du contenu A contre B). Nous constatons que le contenu généré par AVR-Agent a un taux de victoire significativement plus élevé que celui produit par génération en une seule étape. Cependant, les modèles peinent à exploiter efficacement les assets personnalisés et les retours AVR, ne montrant aucun gain de taux de victoire. Cela révèle un écart critique : alors que les humains bénéficient d'assets de haute qualité et de retours audio-visuels, les modèles de codage actuels ne semblent pas utiliser ces ressources aussi efficacement, soulignant des différences fondamentales entre les approches de création de contenu humaines et machines.