papers.description
Les agents linguistiques ont démontré un potentiel remarquable dans la recherche web et la récupération d'information. Cependant, ces agents de recherche supposent que les requêtes utilisateur sont complètes et non ambiguës, une hypothèse qui s'éloigne de la réalité où les utilisateurs commencent par des requêtes incomplètes nécessitant une clarification par interaction. Pourtant, la plupart des agents manquent de mécanismes interactifs durant le processus de recherche, et les benchmarks existants ne peuvent évaluer cette capacité. Pour combler cette lacune, nous présentons InteractComp, un benchmark conçu pour évaluer si les agents de recherche peuvent reconnaître l'ambiguïté des requêtes et interagir activement pour la résoudre durant la recherche. Suivant le principe "facile à vérifier, interagir pour désambiguïser", nous construisons 210 questions expertes réparties sur 9 domaines via une méthodologie cible-distracteur créant une ambiguïté réelle résoluble uniquement par interaction. L'évaluation de 17 modèles révèle un échec frappant : le meilleur modèle n'atteint que 13,73% de précision contre 71,50% avec un contexte complet, exposant une surconfiance systémique plutôt que des déficits de raisonnement. L'interaction forcée produit des gains spectaculaires, démontrant des capacités latentes que les stratégies actuelles n'exploitent pas. L'analyse longitudinale montre que les capacités d'interaction stagnent depuis 15 mois tandis que les performances de recherche ont été multipliées par sept, révélant un angle mort critique. Cette stagnation, couplée au retour immédiat inhérent aux tâches de recherche, fait d'InteractComp une ressource précieuse pour évaluer et entraîner les capacités d'interaction des agents de recherche. Le code est disponible à l'adresse https://github.com/FoundationAgents/InteractComp.
Nous présentons Tongyi DeepResearch, un modèle de langage évolué agentique spécialement conçu pour les tâches de recherche approfondie nécessitant une quête d'information à long terme. Pour favoriser une agence de recherche autonome et approfondie, Tongyi DeepResearch est développé grâce à un cadre d'apprentissage de bout en bout combinant un pré-entraînement agentique et un post-entraînement agentique, permettant un raisonnement et une recherche d'information évolutifs pour des tâches complexes. Nous avons conçu un pipeline de synthèse de données hautement évolutif, entièrement automatique, qui ne repose pas sur une annotation humaine coûteuse et alimente toutes les phases d'entraînement. En construisant des environnements personnalisés pour chaque étape, notre système permet des interactions stables et cohérentes tout au long du processus. Tongyi DeepResearch, doté de 30,5 milliards de paramètres au total avec seulement 3,3 milliards activés par token, obtient des performances de pointe sur une série de benchmarks de recherche approfondie agentique, incluant Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES et xbench-DeepSearch-2510. Nous ouvrons en accès libre le modèle, le cadre de travail et les solutions complètes afin de renforcer les capacités de la communauté scientifique.
Les agents web basés sur LLM présentent un immense potentiel pour la recherche d'informations, mais leur efficacité sur les tâches à long terme est entravée par un compromis fondamental dans la gestion du contexte. Les agents prédominants de type ReAct souffrent d'une saturation contextuelle en accumulant des historiques bruts et bruyants, tandis que les méthodes qui résument rigidement l'historique complet à chaque étape risquent la perte irréversible de détails critiques. Pour résoudre ces problèmes, nous présentons AgentFold, un nouveau paradigme d'agent centré sur la gestion proactive du contexte, inspiré du processus cognitif humain de consolidation rétrospective. AgentFold traite son contexte comme un espace de travail cognitif dynamique à sculpter activement, plutôt que comme un journal passif à remplir. À chaque étape, il apprend à exécuter une opération de « repliement » qui gère sa trajectoire historique à multiples échelles : il peut effectuer des condensations granulaires pour préserver des détails fins essentiels, ou des consolidations profondes pour abstraire des sous-tâches multi-étapes entières. Les résultats sur des benchmarks majeurs sont frappants : avec un simple réglage fin supervisé (sans pré-entraînement continu ni RL), notre agent AgentFold-30B-A3B atteint 36,2 % sur BrowseComp et 47,3 % sur BrowseComp-ZH. Notamment, cette performance surpasse ou égale non seulement des modèles open-source d'une échelle considérablement plus grande, comme le DeepSeek-V3.1-671B-A37B, mais dépasse également les agents propriétaires leaders comme l'o4-mini d'OpenAI.
Les récentes avancées des modèles de langage multimodaux (MLLM) ont accéléré le développement des modèles vision-langage-action (VLA) pour la manipulation robotique. Bien qu'efficaces dans de nombreux scénarios, les approches actuelles reposent largement sur des instructions explicites, alors que dans les interactions réelles, les humains donnent rarement des instructions directes. Une collaboration efficace exige que les robots infèrent les intentions des utilisateurs de manière proactive. Dans ce travail, nous introduisons les instructions contextuelles multimodales, un nouveau cadre où l'intention est déduite du dialogue oral, des sons environnementaux et des indices visuels plutôt que de commandes explicites. Pour répondre à ce nouveau paradigme, nous présentons RoboOmni, un framework Percevoir-Penser-Parler-Exécuter basé sur des LLM omni-modaux de bout en bout qui unifie la reconnaissance d'intention, la confirmation interactive et l'exécution d'actions. RoboOmni fusionne spatio-temporellement les signaux auditifs et visuels pour une reconnaissance d'intention robuste, tout en permettant une interaction vocale directe. Pour pallier l'absence de données d'entraînement pour la reconnaissance proactive d'intention en manipulation robotique, nous créons OmniAction, comprenant 140 000 épisodes, plus de 5 000 locuteurs, 2 400 sons d'événements, 640 arrière-plans et six types d'instructions contextuelles. Les expériences en simulation et en conditions réelles montrent que RoboOmni surpasse les approches basées sur le texte et la reconnaissance automatique de la parole en taux de réussite, vitesse d'inférence, reconnaissance d'intention et assistance proactive.
Nous présentons Game-TARS, un agent de jeu généraliste entraîné avec un espace d'action unifié et évolutif ancré sur des entrées clavier-souris natives alignées sur l'humain. Contrairement aux approches basées sur des API ou des interfaces graphiques, ce paradigme permet un pré-entraînement continu à grande échelle sur des domaines hétérogènes, incluant les systèmes d'exploitation, le web et les jeux de simulation. Game-TARS a été pré-entraîné sur plus de 500 milliards de tokens avec des trajectoires diverses et des données multimodales. Les techniques clés incluent une perte continue décroissante pour réduire la confusion causale et une stratégie efficace de Pensée Sparse qui équilibre la profondeur de raisonnement et le coût d'inférence. Les expériences montrent que Game-TARS atteint environ deux fois le taux de succès du modèle état de l'art précédent sur les tâches Minecraft en monde ouvert, se rapproche de la généralité des humains novices dans des jeux web 3D non vus, et surpasse GPT-5, Gemini-2.5-Pro et Claude-4-Sonnet dans les benchmarks FPS. Les résultats de mise à l'échelle en temps d'entraînement et en temps de test confirment que l'espace d'action unifié maintient les améliorations lorsqu'il est mis à l'échelle avec des données cross-jeux et multimodales. Nos résultats démontrent que des représentations d'action simples et évolutives, combinées à un pré-entraînement à grande échelle, offrent une voie prometteuse vers des agents généralistes dotés de larges capacités d'utilisation informatique.
La génération vidéo en espace continu a progressé rapidement, tandis que les approches discrètes restent à la traîne en raison de l'accumulation d'erreurs et des incohérences sur de longs contextes. Dans ce travail, nous revisitons la modélisation générative discrète et présentons Uniform discRete diffuSion with metric pAth (URSA), un cadre simple mais puissant qui comble l'écart avec les approches continues pour la génération vidéo scalable. Au cœur d'URSA se trouve la formulation de la génération vidéo comme un raffinement global itératif de tokens spatiotemporels discrets. Il intègre deux conceptions clés : un Chemin Métrique Linéarisé et un mécanisme de Décalage Temporel Dépendant de la Résolution. Ces conceptions permettent à URSA de passer efficacement à la synthèse d'images haute résolution et à la génération de vidéos de longue durée, tout en nécessitant beaucoup moins d'étapes d'inférence. De plus, nous introduisons une stratégie de réglage fin temporel asynchrone qui unifie des tâches variées au sein d'un seul modèle, incluant l'interpolation et la génération vidéo à partir d'images. Des expériences approfondies sur des benchmarks exigeants de génération d'images et de vidéos démontrent qu'URSA surpasse constamment les méthodes discrètes existantes et atteint des performances comparables aux méthodes de diffusion continues les plus avancées. Le code et les modèles sont disponibles à l'adresse https://github.com/baaivision/URSA.
Les résultats de recherche publics sur le fine-tuning supervisé à grande échelle d'agents IA restent relativement rares, car la collecte de données d'entraînement pour agents présente des défis uniques. Dans ce travail, nous soutenons que le goulot d'étranglement n'est pas un manque de sources de données sous-jacentes, mais que la grande variété des données est fragmentée entre des formats, outils et interfaces hétérogènes. À cette fin, nous introduisons le protocole de données d'agent (ADP), un langage de représentation léger qui sert d'"interlangue" entre les jeux de données d'agents dans des formats divers et les pipelines unifiés d'entraînement d'agents en aval. La conception de l'ADP est suffisamment expressive pour capturer une grande variété de tâches, incluant l'utilisation d'API/outils, la navigation web, le codage, l'ingénierie logicielle et les flux de travail agentiques généraux, tout en restant simple à analyser et à utiliser pour l'entraînement sans ingénierie au niveau de chaque jeu de données. Expérimentalement, nous avons unifié une vaste collection de 13 jeux de données d'entraînement d'agents existants au format ADP, et converti les données ADP standardisées en formats prêts pour l'entraînement pour plusieurs frameworks d'agents. Nous avons effectué un fine-tuning supervisé sur ces données, et démontré un gain de performance moyen d'environ 20% par rapport aux modèles de base correspondants, atteignant des performances à l'état de l'art ou proches sur les benchmarks standards de codage, navigation, utilisation d'outils et recherche, sans réglage spécifique au domaine. Tous les codes et données sont publiés publiquement, dans l'espoir que l'ADP puisse aider à abaisser la barrière vers un entraînement d'agents standardisé, scalable et reproductible.
Les modèles vision-langage-action (VLA) existants agissent dans le monde réel en 3D mais sont généralement construits sur des encodeurs 2D, créant un déficit de raisonnement spatial qui limite leur généralisation et adaptabilité. Les techniques récentes d'intégration 3D pour les VLA nécessitent soit des capteurs spécialisés et transfèrent mal entre les modalités, soit injectent des indices faibles dépourvus de géométrie qui dégradent l'alignement vision-langage. Dans ce travail, nous présentons FALCON (From Spatial to Action), un nouveau paradigme qui injecte des tokens spatiaux 3D riches dans la tête d'action. FALCON exploite des modèles de fondation spatiaux pour fournir des préjugés géométriques solides à partir du seul RVB, et inclut un Modèle Spatial Embarqué qui peut optionnellement fusionner la profondeur ou la pose pour une fidélité accrue lorsqu'elles sont disponibles, sans réentraînement ni modifications architecturales. Pour préserver le raisonnement langagier, les tokens spatiaux sont consommés par une Tête d'Action à Renforcement Spatial plutôt que d'être concaténés dans le backbone vision-langage. Ces conceptions permettent à FALCON de résoudre les limitations en matière de représentation spatiale, de transférabilité des modalités et d'alignement. Dans des évaluations exhaustives sur trois benchmarks de simulation et onze tâches du monde réel, notre méthode FALCON atteint des performances à l'état de l'art, surpasse systématiquement les bases de référence compétitives et demeure robuste face à l'encombrement, au conditionnement par prompt spatial, et aux variations d'échelle et de hauteur des objets.
Récemment, l'édition d'images basée sur les modèles Diffusion-in-Transformer a connu un développement rapide. Cependant, les méthodes d'édition existantes manquent souvent d'un contrôle efficace sur le degré de modification, limitant ainsi leur capacité à obtenir des résultats plus personnalisés. Pour remédier à cette limitation, nous étudions le mécanisme d'attention MM-Attention au sein du modèle DiT et observons que les tokens Query et Key partagent un vecteur de biais qui dépend uniquement de la couche. Nous interprétons ce biais comme représentant le comportement d'édition inhérent au modèle, tandis que la différence entre chaque token et son biais correspondant encode les signaux d'édition spécifiques au contenu. Sur la base de cette observation, nous proposons Group Relative Attention Guidance (GRAG), une méthode simple mais efficace qui repondère les valeurs différentielles des différents tokens pour moduler l'attention du modèle sur l'image d'entrée par rapport à l'instruction d'édition, permettant un contrôle continu et fin de l'intensité de l'édition sans aucun ajustement. Des expériences approfondies menées sur les frameworks d'édition d'images existants démontrent que GRAG peut être intégré avec seulement quatre lignes de code, améliorant constamment la qualité de l'édition. De plus, par rapport au Guidance Classifier-Free couramment utilisé, GRAG permet un contrôle plus fluide et plus précis du degré d'édition. Notre code sera publié à l'adresse https://github.com/little-misfit/GRAG-Image-Editing.
Le décodage spéculatif accélère l'inférence des LLM en utilisant un petit modèle d'ébauche pour proposer plusieurs jetons qu'un modèle cible vérifie en parallèle. Étendre cette idée au traitement par lots est essentiel pour le déploiement en production, mais cela introduit le problème des tenseurs irréguliers : les séquences d'un même lot acceptent un nombre différent de jetons d'ébauche, brisant l'alignement à droite et corrompant les ID de position, les masques d'attention et l'état du cache KV. Nous montrons que plusieurs implémentations existantes de traitement par lots violent l'équivalence de sortie – l'exigence fondamentale que le décodage spéculatif doit produire des séquences de jetons identiques à la génération autorégressive standard. Ces violations se produisent précisément en raison d'une gestion inadéquate du problème des tenseurs irréguliers. En réponse, nous (1) caractérisons les exigences de synchronisation qui garantissent l'exactitude, (2) présentons un décodage spéculatif par lots axé sur la correction, EQSPEC, qui révèle que le réalignement représente 40 % de la surcharge, et (3) introduisons EXSPEC, qui maintient un pool glissant de séquences et forme dynamiquement des groupes de même longueur, pour réduire la surcharge de réalignement tout en préservant les accélérations spéculatives par séquence. Sur l'ensemble de données SpecBench, avec les paires cible/ébauche Vicuna-7B/68M, Qwen3-8B/0.6B et GLM-4-9B/0.6B, notre approche atteint jusqu'à 3 fois l'amélioration du débit pour une taille de lot de 8 par rapport à une taille de lot de 1, avec une mise à l'échelle efficace jusqu'à la taille de lot 8, tout en maintenant 95 % d'équivalence de sortie. Notre méthode ne nécessite aucun noyau personnalisé et s'intègre parfaitement aux piles d'inférence existantes. Notre code est disponible à l'adresse https://github.com/eBay/spec_dec.
Les agents de recherche basés sur LLM sont de plus en plus entraînés sur des données synthétiques centrées sur les entités pour résoudre des tâches complexes et intensives en connaissances. Cependant, les méthodes d'entraînement prédominantes comme l'Optimisation de Politique Relative par Groupe (GRPO) ignorent cette riche information entitaire, se reposant plutôt sur des récompenses éparses basées sur les résultats. Cette limitation critique les empêche de distinguer les échantillons informatifs de "quasi-réussites" - ceux avec un raisonnement substantiellement correct mais une réponse finale erronée - des échecs complets, gaspillant ainsi des signaux d'apprentissage précieux. Nous résolvons ce problème en exploitant les entités elles-mêmes écartées durant l'entraînement. Notre analyse empirique révèle une forte corrélation positive entre le nombre d'entités de référence identifiées durant le processus de raisonnement d'un agent et la précision de la réponse finale. Sur la base de cette observation, nous introduisons l'Optimisation de Politique Relative par Groupe Sensible aux Entités (E-GRPO), un cadre novateur qui formule une fonction de récompense dense et sensible aux entités. E-GRPO attribue des récompenses partielles aux échantillons incorrects proportionnellement à leur taux de correspondance entitaire, permettant au modèle d'apprendre efficacement de ces "quasi-réussites". Les expériences sur divers benchmarks de question-réponse (QA) et de recherche approfondie montrent qu'E-GRPO surpasse constamment et significativement la baseline GRPO. De plus, notre analyse révèle qu'E-GRPO non seulement atteint une précision supérieure, mais induit aussi des politiques de raisonnement plus efficaces nécessitant moins d'appels d'outils, démontrant une approche plus efficace et économe en échantillons pour l'alignement des agents de recherche.
L'entraînement d'agents de modèles de langage à grande échelle sur des tâches situées à la frontière de leurs capacités est essentiel pour débloquer un raisonnement avancé. Nous présentons une approche de synthèse de données inspirée par la théorie éducative de la Zone de Développement Proximal (ZDP), qui définit cette frontière comme des tâches qu'un LLM ne peut résoudre seul mais peut maîtriser avec un guidage. Pour opérationnaliser cela, nous introduisons l'AgentFrontier Engine, un pipeline automatisé qui synthétise des données multidisciplinaires de haute qualité, situées précisément dans la ZDP du LLM. Ce moteur prend en charge à la fois le pré-entraînement continu avec des données riches en connaissances et l'entraînement ciblé post-formation sur des tâches de raisonnement complexe. À partir du même cadre, nous dérivons le ZPD Exam, un benchmark dynamique et automatisé conçu pour évaluer les capacités des agents sur ces tâches frontières. Nous avons entraîné le modèle AgentFrontier-30B-A3B sur nos données synthétisées, qui obtient des résultats de pointe sur des benchmarks exigeants comme Humanity's Last Exam, surpassant même certains agents propriétaires leaders. Notre travail démontre qu'une approche de synthèse de données guidée par la ZDP offre une voie évolutive et efficace pour construire des agents LLM plus performants.
Avec les progrès des capacités de prise de décision et de raisonnement, les agents multimodaux montrent un fort potentiel dans les scénarios d'application informatique. Les évaluations passées ont principalement évalué les compétences d'interaction avec les interfaces graphiques (GUI), tandis que les capacités d'invocation d'outils, telles que celles permises par le Model Context Protocol (MCP), ont été largement négligées. Comparer des agents avec une invocation d'outils intégrée à ceux évalués uniquement sur l'interaction GUI est intrinsèquement injuste. Nous présentons OSWorld-MCP, le premier benchmark complet et équitable pour évaluer l'invocation d'outils, l'opération d'interfaces graphiques et les capacités de prise de décision des agents informatiques dans un environnement réaliste. Nous concevons un nouveau pipeline automatisé de génération de code pour créer des outils et les combinons avec une sélection minutieuse d'outils existants. Une validation manuelle rigoureuse produit 158 outils de haute qualité (couvrant 7 applications courantes), chacun vérifié pour sa fonctionnalité correcte, son applicabilité pratique et sa polyvalence. Des évaluations approfondies d'agents multimodaux de pointe sur OSWorld-MCP montrent que les outils MCP améliorent généralement les taux de réussite des tâches (par exemple, de 8,3 % à 20,4 % pour OpenAI o3 à 15 étapes, de 40,1 % à 43,3 % pour Claude 4 Sonnet à 50 étapes), soulignant l'importance d'évaluer les capacités d'invocation d'outils. Cependant, même les modèles les plus puissants ont des taux d'invocation d'outils relativement faibles, seulement 36,3 %, indiquant une marge d'amélioration et soulignant le défi que représente ce benchmark. En mesurant explicitement les compétences d'utilisation des outils MCP, OSWorld-MCP approfondit la compréhension des agents multimodaux et établit une nouvelle norme pour évaluer les performances dans des environnements complexes assistés par des outils. Notre code, notre environnement et nos données sont publiquement disponibles à l'adresse https://osworld-mcp.github.io.
Les grands modèles de langage (LLM) ont récemment permis le développement d'agents de programmation capables de générer, exécuter et réviser du code de visualisation. Cependant, les modèles existants échouent souvent dans les workflows pratiques en raison d'une couverture linguistique limitée, d'une exécution peu fiable et d'un manque de mécanismes de correction itératifs. Les progrès ont été entravés par des jeux de données et des benchmarks étroits qui privilégient la génération en un seul tour et les tâches monolingues. Pour relever ces défis, nous présentons trois ressources complémentaires pour faire progresser les agents de programmation de visualisation. VisCode-Multi-679K est un jeu de données supervisé à grande échelle contenant 679 000 échantillons de visualisation validés et exécutables avec des dialogues de correction multi-tours couvrant 12 langages de programmation. VisPlotBench est un benchmark pour l'évaluation systématique, proposant des tâches exécutables, des rendus graphiques et des protocoles pour la génération initiale et l'auto-débogage multi-tours. Enfin, nous présentons VisCoder2, une famille de modèles de visualisation multilingues entraînés sur VisCode-Multi-679K. Les expériences montrent que VisCoder2 surpasse significativement les modèles open-source performants et approche les performances de modèles propriétaires comme GPT-4.1, avec des gains supplémentaires grâce à l'auto-débogage itératif, atteignant un taux global de réussite à l'exécution de 82,4 % à l'échelle 32B, particulièrement dans les langages symboliques ou dépendants d'un compilateur.
Les agents basés sur des modèles de langage de grande taille (LLM) sont apparus comme une approche transformative pour la résolution de problèmes ouverts, la recherche d'information (RI) constituant une capacité fondamentale qui permet un raisonnement et une prise de décision autonomes. Alors que les recherches antérieures se sont largement concentrées sur l'amélioration de la profondeur de récupération, nous observons que les agents de RI actuels souffrent souvent d'une faible efficacité de recherche, ce qui limite à son tour les performances globales. Un facteur clé sous-jacent à cette inefficacité est la rareté des entités cibles dans les tâches d'entraînement, ce qui limite les opportunités pour les agents d'apprendre et de généraliser des comportements de recherche efficaces. Pour relever ces défis, nous proposons WebLeaper, un cadre pour construire des tâches de RI à haute couverture et générer des trajectoires de solution efficaces. Nous formalisons la RI comme un problème de raisonnement à structure arborescente, permettant d'intégrer un ensemble substantiellement plus grand d'entrités cibles dans un contexte contraint. En tirant parti de tables Wikipédia organisées, nous proposons trois variantes pour synthétiser des tâches de RI : Basique, Union et Union-Inverse, afin d'augmenter systématiquement à la fois l'efficacité et l'efficience de la RI. Enfin, nous sélectionnons des trajectoires d'entraînement en ne conservant que celles qui sont à la fois précises et efficaces, garantissant ainsi que le modèle est optimisé à la fois pour l'exactitude et les performances de recherche. Des expériences approfondies sur des configurations basiques et complètes, menées sur cinq benchmarks de RI (BrowserComp, GAIA, xbench-DeepSearch, WideSearch et Seal-0), démontrent que notre méthode obtient systématiquement des améliorations à la fois en termes d'efficacité et d'efficience par rapport à des bases de référence solides.
La pensée parallèle élargit l'ampleur de l'exploration, complétant l'exploration approfondie des agents de recherche d'information (IS) pour renforcer davantage la capacité de résolution de problèmes. Cependant, la pensée parallèle conventionnelle rencontre deux défis majeurs dans ce contexte : l'inefficacité due au déploiement répété à partir de zéro, et la difficulté d'intégrer des trajectoires de raisonnement à long horizon lors de la génération de réponses, car une capacité contextuelle limitée empêche une prise en compte complète du processus de raisonnement. Pour résoudre ces problèmes, nous proposons ParallelMuse, un paradigme en deux étapes conçu pour les agents IS profonds. La première étape, le Déploiement Partiel à Fonctionnalité Spécifiée, partitionne les séquences générées en régions fonctionnelles et effectue une réutilisation et un branchement de chemins guidés par l'incertitude pour améliorer l'efficacité de l'exploration. La deuxième étape, l'Agrégation de Raisonnement Compressé, exploite la redondance du raisonnement pour compresser sans perte les informations pertinentes pour la dérivation de la réponse et synthétiser une réponse finale cohérente. Les expériences menées sur plusieurs agents open-source et benchmarks démontrent une amélioration des performances allant jusqu'à 62 % avec une réduction de 10 à 30 % de la consommation de tokens d'exploration.
Bien que les modèles de langage multimodaux (MLLM) excellent dans la compréhension visuelle, ils éprouvent souvent des difficultés dans les scénarios complexes nécessitant une planification visuelle et de l'imagination. Inspirés par la manière dont les humains utilisent le croquis comme une forme de pensée visuelle pour développer et communiquer des idées, nous présentons Latent Sketchpad, un cadre qui équipe les MLLM d'un bloc-notes visuel interne. Les représentations visuelles internes des MLLM ont traditionnellement été confinées à la compréhension perceptuelle. Nous les réorientons pour soutenir une pensée visuelle générative sans compromettre la capacité de raisonnement. En nous appuyant sur les MLLM de pointe, notre approche intègre directement la génération visuelle dans leur processus de raisonnement autogressif natif. Cela permet au modèle d'alterner un raisonnement textuel avec la génération de latents visuels. Ces latents guident le processus de pensée interne et peuvent être traduits en images de type croquis pour une interprétabilité. Pour concrétiser cela, nous introduisons deux composants : une Tête Visuelle Sensible au Contexte qui produit de manière autogressive des représentations visuelles, et un Décodeur de Croquis pré-entraîné qui les convertit en images interprétables par l'homme. Nous évaluons le cadre sur notre nouveau jeu de données MazePlanning. Les expériences menées sur divers MLLM montrent que Latent Sketchpad offre des performances de raisonnement comparables, voire supérieures, à celles de leur architecture de base. Il se généralise en outre à travers différents MLLM de pointe, incluant Gemma3 et Qwen2.5-VL. En étendant le raisonnement textuel du modèle à la pensée visuelle, notre cadre ouvre de nouvelles opportunités pour une interaction homme-machine plus riche et des applications plus vastes. Plus de détails et de ressources sont disponibles sur notre page de projet : https://latent-sketchpad.github.io/.
L'entraînement de modèles de langage à la critique pour évaluer et fournir des retours sur les sorties des modèles est une méthode prometteuse pour améliorer les LLM sur des tâches de raisonnement complexe. Cependant, les approches existantes reposent généralement sur des superviseurs plus puissants pour annoter les données de critique. Pour remédier à cela, nous proposons Critique-RL, une approche de RL en ligne pour développer des modèles de langage critiques sans supervision renforcée. Notre approche fonctionne sur un paradigme à deux joueurs : l'acteur génère une réponse, le critique fournit un retour, et l'acteur affine la réponse en conséquence. Nous montrons d'abord que s'appuyer uniquement sur des signaux de récompense indirects provenant des sorties de l'acteur pour l'optimisation par RL conduit souvent à des critiques peu satisfaisants : si leur utilité (c'est-à-dire fournir un retour constructif) s'améliore, la discriminabilité (c'est-à-dire déterminer si une réponse est de haute qualité ou non) reste faible, ce qui entraîne des gains de performance marginaux. Pour surmonter cela, Critique-RL adopte une stratégie d'optimisation en deux étapes. Dans l'étape I, elle renforce la discriminabilité du critique avec des signaux de récompense directs basés sur des règles ; dans l'étape II, elle introduit des récompenses indirectes basées sur l'affinage par l'acteur pour améliorer l'utilité du critique, tout en maintenant sa discriminabilité via une régularisation appropriée. Des expériences approfondies sur diverses tâches et modèles montrent que Critique-RL apporte des améliorations substantielles de performance. Par exemple, elle permet un gain de 9,02 % sur les tâches en domaine fermé et un gain de 5,70 % sur les tâches en domaine ouvert pour Qwen2.5-7B, soulignant ainsi son potentiel.
Malgré les progrès rapides des modèles de langage multimodaux et des grands modèles audio-langage, les benchmarks audio existants testent principalement une sémantique pouvant être inférée à partir de légendes textuelles, occultant ainsi les déficits en raisonnement perceptif fin. Nous formalisons l'intelligence audio 4D, définie comme le raisonnement sur la dynamique sonore dans le temps et l'espace 3D, et nous introduisons STAR-Bench pour la mesurer. STAR-Bench combine un cadre de Perception Acoustique Fondamentale (six attributs sous régimes absolu et relatif) avec un cadre de Raisonnement Spatio-Temporel Holistique incluant le réordonnancement de segments pour des processus continus et discrets, ainsi que des tâches spatiales couvrant la localisation statique, les relations multi-sources et les trajectoires dynamiques. Notre pipeline de curation des données utilise deux méthodes pour garantir des échantillons de haute qualité. Pour les tâches fondamentales, nous utilisons de l'audio synthétisé de manière procédurale et simulé par physique. Pour les données holistiques, nous suivons un processus en quatre étapes incluant l'annotation humaine et une sélection finale basée sur les performances humaines. Contrairement aux benchmarks antérieurs où une réponse basée uniquement sur la légende réduit légèrement la précision, STAR-Bench induit des baisses bien plus importantes (-31,5 % pour le temporel, -35,2 % pour le spatial), prouvant son accent sur des indices difficilement descriptibles linguistiquement. L'évaluation de 19 modèles révèle des écarts substantiels par rapport aux humains et une hiérarchie des capacités : les modèles propriétaires sont limités par la perception fine, tandis que les modèles open-source sont à la traîne en perception, connaissances et raisonnement. Notre benchmark STAR-Bench offre des insights critiques et une voie claire pour développer des modèles futurs dotés d'une compréhension plus robuste du monde physique.
Le Mixture-of-Experts (MoE) est apparu comme un paradigme puissant pour augmenter la capacité des modèles tout en préservant l'efficacité computationnelle. Malgré son succès notable dans les grands modèles de langage (LLM), les tentatives existantes pour appliquer le MoE aux Transformers de Diffusion (DiT) n'ont obtenu que des gains limités. Nous attribuons cet écart à des différences fondamentales entre les tokens linguistiques et visuels. Les tokens linguistiques sont sémantiquement denses avec une variation inter-tokens prononcée, tandis que les tokens visuels présentent une redondance spatiale et une hétérogénéité fonctionnelle, entravant la spécialisation des experts dans le MoE visuel. Pour pallier cela, nous présentons ProMoE, un framework MoE doté d'un routeur à deux étapes avec un guidage de routage explicite qui favorise la spécialisation des experts. Concrètement, ce guidage encourage le routeur à partitionner les tokens d'image en ensembles conditionnels et non conditionnels via un routage conditionnel selon leurs rôles fonctionnels, et à affiner l'affectation des tokens d'image conditionnels grâce à un routage prototypique avec des prototypes apprenables basés sur le contenu sémantique. De plus, l'allocation des experts basée sur la similarité dans l'espace latent, permise par le routage prototypique, offre un mécanisme naturel pour incorporer un guidage sémantique explicite, et nous validons qu'un tel guidage est crucial pour le MoE visuel. Sur cette base, nous proposons une fonction de perte de contraste de routage qui améliore explicitement le processus de routage prototypique, en favorisant la cohérence intra-expert et la diversité inter-expert. Des expériences approfondies sur le benchmark ImageNet démontrent que ProMoE surpasse les méthodes de l'état de l'art sous les objectifs d'entraînement Rectified Flow et DDPM. Le code et les modèles seront rendus publics.
Les recherches sur les lois d'échelle se sont concentrées de manière écrasante sur l'anglais, pourtant les modèles d'IA les plus importants servent explicitement des milliards d'utilisateurs internationaux. Dans ce travail, nous menons la plus vaste étude sur les lois d'échelle multilingues à ce jour, totalisant 774 expériences d'entraînement multilingues, couvrant des modèles de 10 millions à 8 milliards de paramètres, plus de 400 langues d'entraînement et 48 langues d'évaluation. Nous introduisons la Loi d'Échelle de Transfert Adaptatif (ATLAS) pour le pré-entraînement monolingue et multilingue, qui surpasse la généralisation hors-échantillon des lois d'échelle existantes, souvent de plus de 0,3 R². Nos analyses des expériences éclairent la dynamique d'apprentissage multilingue, les propriétés de transfert entre langues et la malédiction du multilinguisme. Premièrement, nous dérivons une matrice de transfert translinguistique, mesurant empiriquement les scores de bénéfice mutuel entre 38 x 38 = 1444 paires de langues. Deuxièmement, nous dérivons une loi d'échelle agnostique à la langue qui révèle comment optimiser l'échelle de la taille du modèle et des données lors de l'ajout de langues sans sacrifier les performances. Troisièmement, nous identifions les points de basculement computationnels pour déterminer quand effectuer un pré-entraînement à partir de zéro plutôt qu'un affinage à partir de points de contrôle multilingues. Nous espérons que ces résultats fournissent le fondement scientifique pour démocratiser les lois d'échelle à travers les langues et permettent aux praticiens de mettre à l'échelle les modèles efficacement – au-delà de l'IA centrée sur l'anglais.
À ce jour, il existe très peu de benchmarks d'évaluation culturellement spécifiques pour les grands modèles de langage (LLM) qui couvrent un grand nombre de langues et de cultures. Dans cet article, nous présentons Global PIQA, un benchmark participatif de raisonnement de sens commun pour plus de 100 langues, construit manuellement par 335 chercheurs de 65 pays à travers le monde. Les 116 variétés linguistiques de Global PIQA couvrent cinq continents, 14 familles de langues et 23 systèmes d'écriture. Dans la section non parallèle de Global PIQA, plus de 50 % des exemples font référence à des plats locaux, des coutumes, des traditions ou d'autres éléments culturellement spécifiques. Nous constatons que les LLM de pointe obtiennent de bons résultats sur Global PIQA dans l'ensemble, mais qu'ils présentent des performances plus faibles dans les langues moins dotées (un écart de précision allant jusqu'à 37 %, alors que le hasard pur donne 50 %). Les modèles ouverts obtiennent généralement de moins bons résultats que les modèles propriétaires. Global PIQA souligne que dans de nombreuses langues et cultures, la connaissance du quotidien reste un domaine à améliorer, parallèlement à des capacités plus largement discutées comme le raisonnement complexe et les connaissances expertes. Au-delà de son utilité pour l'évaluation des LLM, nous espérons que Global PIQA offre un aperçu de la grande diversité des cultures dans lesquelles le langage humain est ancré.
Les systèmes d'auto-amélioration nécessitent une interaction avec l'environnement pour une adaptation continue. Nous présentons SPICE (Self-Play In Corpus Environments), un cadre d'apprentissage par renforcement où un modèle unique joue deux rôles : un Défieur qui extrait des documents d'un vaste corpus pour générer des tâches de raisonnement diversifiées, et un Raisonneur qui les résout. Grâce à une dynamique antagoniste, le Défieur crée un curriculum automatique à la frontière des capacités du Raisonneur, tandis que l'ancrage dans le corpus fournit le signal externe riche et quasi inépuisable nécessaire à une amélioration soutenue. Contrairement aux méthodes existantes de jeu autonome non ancrées qui offrent des bénéfices plus limités, SPICE obtient des gains constants sur des référentiels de raisonnement mathématique (+8,9%) et général (+9,8%) pour plusieurs familles de modèles. Notre analyse révèle comment l'ancrage documentaire est un ingrédient clé de SPICE pour générer continuellement ses propres objectifs de difficulté croissante et les atteindre, permettant une auto-amélioration durable.
La visualisation, une forme d'imagerie spécifique au domaine mais largement utilisée, constitue un moyen efficace de transformer des ensembles de données complexes en informations intuitives. Sa valeur dépend de la fidélité de la représentation des données, de la clarté de leur communication et de la qualité esthétique de leur conception. Cependant, évaluer la qualité d'une visualisation reste difficile : contrairement aux images naturelles, cela nécessite un jugement simultané sur la précision de l'encodage des données, l'expressivité de l'information et l'esthétique visuelle. Bien que les modèles de langage multimodaux (MLLM) aient montré des performances prometteuses dans l'évaluation esthétique des images naturelles, aucun benchmark systématique n'existe pour mesurer leurs capacités dans l'évaluation des visualisations. Pour remédier à cela, nous proposons VisJudge-Bench, le premier benchmark complet pour évaluer les performances des MLLM dans l'évaluation de l'esthétique et de la qualité des visualisations. Il contient 3 090 échantillons annotés par des experts provenant de scénarios réels, couvrant des visualisations uniques, multiples et des tableaux de bord incluant 32 types de graphiques. Des tests systématiques sur ce benchmark révèlent que même les MLLM les plus avancés (comme GPT-5) présentent encore des écarts significatifs par rapport aux experts humains, avec une Erreur Absolue Moyenne (MAE) de 0,551 et une corrélation avec les évaluations humaines de seulement 0,429. Pour résoudre ce problème, nous proposons VisJudge, un modèle spécialement conçu pour l'évaluation de l'esthétique et de la qualité des visualisations. Les résultats expérimentaux démontrent que VisJudge réduit significativement l'écart avec le jugement humain, abaissant la MAE à 0,442 (une réduction de 19,8 %) et augmentant la cohérence avec les experts humains à 0,681 (une amélioration de 58,7 %) par rapport à GPT-5. Le benchmark est disponible à l'adresse https://github.com/HKUSTDial/VisJudgeBench.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a permis des progrès impressionnants en raisonnement mathématique et multimodal, devenant un paradigme standard de post-entraînement pour les modèles contemporains de langage et vision-langage. Cependant, cette approche introduit un risque significatif de régression des capacités, où les modèles oublient des compétences fondamentales après un entraînement prolongé sans stratégies de régularisation. Nous confirmons empiriquement cette préoccupation en observant que les modèles de raisonnement open-source subissent une dégradation des performances sur des capacités fondamentales comme la perception et la fidélité aux faits. Bien que l'ajout de termes de régularisation comme la divergence KL puisse aider à prévenir l'écart par rapport au modèle de base, ces termes sont calculés sur la tâche actuelle et ne garantissent donc pas la préservation des connaissances générales. Parallèlement, la réutilisation d'expériences couramment employée sur des domaines hétérogènes rend difficile la décision de l'importance relative à accorder à chaque objectif d'entraînement. Pour résoudre ce problème, nous proposons RECAP - une stratégie de révision avec repondération dynamique des objectifs pour la préservation des connaissances générales. Notre mécanisme de repondération s'adapte en ligne en utilisant des signaux à court terme de convergence et d'instabilité, déplaçant l'attention du post-entraînement des objectifs saturés vers ceux sous-performants ou volatils. Notre méthode est de bout en bout et directement applicable aux pipelines RLVR existants sans nécessiter l'entraînement de modèles supplémentaires ou un réglage intensif. Des expériences approfondies sur des benchmarks basés sur Qwen2.5-VL-3B et Qwen2.5-VL-7B démontrent l'efficacité de notre méthode, qui préserve non seulement les capacités générales mais améliore également le raisonnement en permettant des compromis plus flexibles entre les récompenses intra-tâches.
La génération d'images à partir de texte (T2I) en ultra-haute résolution (UHR) a connu des progrès notables. Cependant, deux défis majeurs subsistent : 1) l'absence d'un jeu de données T2I UHR à grande échelle et de haute qualité, et 2) la négligence de stratégies d'entraînement adaptées à la synthèse de détails fins dans les scénarios UHR. Pour relever le premier défi, nous présentons UltraHR-100K, un jeu de données de haute qualité contenant 100 000 images UHR accompagnées de descriptions riches, offrant un contenu diversifié et une forte fidélité visuelle. Chaque image dépasse une résolution de 3K et est rigoureusement sélectionnée sur la base de la richesse des détails, de la complexité du contenu et de la qualité esthétique. Pour relever le second défi, nous proposons une méthode de post-entraînement sensible aux fréquences qui améliore la génération de détails fins dans les modèles de diffusion T2I. Plus précisément, nous concevons (i) un Échantillonnage des Pas de Temps Orienté Détail (DOTS) pour concentrer l'apprentissage sur les étapes de débruitage critiques pour les détails, et (ii) une Régularisation Fréquentielle à Pondération Douce (SWFR), qui utilise la Transformée de Fourier Discrète (TFD) pour contraindre doucement les composantes fréquentielles, favorisant la préservation des détails haute fréquence. Des expériences approfondies sur nos benchmarks UltraHR-eval4K démontrent que notre approche améliore significativement la qualité des détails fins et la fidélité globale de la génération d'images UHR. Le code est disponible à l'adresse https://github.com/NJU-PCALab/UltraHR-100k.
Le raisonnement par chaîne de pensée (CoT) est essentiel pour améliorer l'interprétabilité et la fiabilité des grands modèles vision-langage (LVLM). Cependant, les algorithmes d'entraînement existants tels que SFT, PPO et GRPO peuvent mal généraliser sur des tâches de raisonnement non vues et dépendent fortement d'un modèle de récompense biaisé. Pour relever ce défi, nous reformulons le raisonnement dans les LVLM comme un problème d'inférence a posteriori et proposons un algorithme d'entraînement scalable basé sur l'inférence variationnelle amortie. En exploitant des algorithmes d'apprentissage par renforcement recherchant la diversité, nous introduisons une nouvelle fonction de récompense éparse pour les signaux d'apprentissage au niveau token qui encourage des CoT latents diversifiés et à forte vraisemblance, surmontant les limitations de l'échantillonnage déterministe et évitant le détournement de récompense. De plus, nous mettons en œuvre une stratégie d'inférence bayésienne scalable qui remplace les coûteuses méthodes Best-of-N et Beam Search par une vraisemblance marginale pour classer efficacement les rationalités et réponses optimales. Nous démontrons empiriquement que la méthode proposée améliore les LVLM de pointe sur sept benchmarks de raisonnement, en termes d'efficacité, de généralisation et d'interprétabilité.
Alors que les Grands Modèles Vision-Langage (LVLM) sont de plus en plus déployés dans des domaines tels que le commerce, la santé et l'actualité, ils sont exposés à des contenus persuasifs omniprésents. Une question cruciale est de savoir comment ces modèles fonctionnent en tant que persuadés - comment et pourquoi ils peuvent être influencés par des entrées multimodales persuasives. Comprendre à la fois leur susceptibilité à la persuasion et l'efficacité des différentes stratégies persuasives est essentiel, car des modèles trop influençables pourraient adopter des croyances trompeuses, ignorer les préférences des utilisateurs ou générer des sorties contraires à l'éthique ou dangereuses lorsqu'ils sont exposés à des messages manipulateurs. Nous présentons MMPersuade, un cadre unifié pour étudier systématiquement la dynamique de la persuasion multimodale dans les LVLM. MMPersuade contribue par (i) un jeu de données multimodal complet qui associe des images et des vidéos à des principes de persuasion établis dans des contextes commerciaux, subjectifs et comportementaux, et adversariaux, et (ii) un cadre d'évaluation qui quantifie à la fois l'efficacité persuasive et la susceptibilité du modèle via un score d'accord par un tiers et des probabilités de tokens auto-estimées sur les historiques de conversation. Notre étude de six LVLM leaders en tant que persuadés révèle trois insights clés : (i) les entrées multimodales augmentent substantiellement l'efficacité persuasive - et la susceptibilité des modèles - par rapport au texte seul, en particulier dans les scénarios de désinformation ; (ii) des préférences préalablement déclarées réduisent la susceptibilité, mais l'information multimodale conserve son avantage persuasif ; et (iii) différentes stratégies varient en efficacité selon les contextes, la réciprocité étant la plus puissante dans les contextes commerciaux et subjectifs, tandis que la crédibilité et la logique prévalent dans les contextes adversariaux. En analysant conjointement l'efficacité persuasive et la susceptibilité, MMPersuade fournit une base principielle pour développer des modèles robustes, cohérents avec les préférences et alignés sur l'éthique lorsqu'ils interagissent avec des contenus multimodaux persuasifs.
L'appel de fonction (FC) permet aux grands modèles de langage (LLM) et aux agents autonomes d'interagir avec des outils externes, une capacité essentielle pour résoudre des problèmes complexes du monde réel. Alors que cette aptitude devient de plus en plus centrale pour les systèmes d'IA avancés, le besoin de données d'entraînement de haute qualité et multi-tours pour la développer et l'affiner ne peut être surestimé. Les méthodes existantes de synthèse de données, telles que l'échantillonnage aléatoire de l'environnement ou le jeu de rôle multi-agents, ne sont pas suffisamment puissantes pour générer des données de haute qualité dans des environnements réalistes. Les défis pratiques se présentent sous trois aspects : l'entraînement ciblé du modèle, l'isolation de l'architecture des outils et la dépendance logique multi-tours. Pour remédier à ces lacunes structurelles, nous présentons FunReason-MT, un nouveau cadre de synthèse de données pour l'utilisation multi-tours d'outils en contexte réel. FunReason-MT résout la barrière de complexité des données FC multi-tours en employant 1) des interactions par graphe Environnement-API pour recueillir des trajectoires variées et de haute qualité, 2) une synthèse avancée de requêtes-outils pour simplifier la construction de requêtes difficiles, et 3) une chaîne itérative guidée pour une génération sophistiquée de raisonnement en chaîne (CoT). Les évaluations sur le Berkeley Function-Calling Leaderboard (BFCLv3) démontrent la puissance de notre cadre : un modèle de 4B construit sur les données générées par FunReason-MT atteint des performances de pointe parmi les modèles de taille comparable, surpassant la plupart des modèles privés. Des améliorations supplémentaires des performances sur BFCLv4 confirment que FunReason-MT constitue une source fiable et robuste pour l'apprentissage agentiel.
Les modèles génératifs ont réalisé des progrès significatifs dans la synthèse d'audio de haute fidélité à partir de courtes descriptions textuelles. Cependant, l'édition d'audio existant à l'aide du langage naturel est restée largement inexplorée. Les approches actuelles exigent soit la description complète de l'audio modifié, soit sont limitées à des instructions d'édition prédéfinies manquant de flexibilité. Dans ce travail, nous présentons SAO-Instruct, un modèle basé sur Stable Audio Open capable de modifier des clips audio en utilisant n'importe quelle instruction en langage naturel libre. Pour entraîner notre modèle, nous créons un ensemble de données de triplets d'édition audio (audio d'entrée, instruction d'édition, audio de sortie) en utilisant Prompt-to-Prompt, l'inversion DDPM et un pipeline d'édition manuelle. Bien qu'entraîné partiellement sur des données synthétiques, notre modèle généralise bien aux clips audio réels provenant de sources diverses et à des instructions d'édition non vues. Nous démontrons que SAO-Instruct obtient des performances compétitives sur les métriques objectives et surpasse les autres approches d'édition audio dans une étude d'écoute subjective. Pour encourager les recherches futures, nous publions notre code et les poids de notre modèle.
Les grands modèles de langage (LLM) ont démontré qu'un pré-entraînement à grande échelle permet aux systèmes de s'adapter rapidement à de nouveaux problèmes avec peu de supervision dans le domaine linguistique. Cependant, ce succès ne s'est pas traduit aussi efficacement dans le domaine visuel, où les modèles, y compris les LLM, continuent de rencontrer des difficultés avec la compréhension compositionnelle, l'efficacité des échantillons et la résolution de problèmes généraliste. Nous étudions les modèles de diffusion vidéo (VDM) comme une voie prometteuse pour combler cette lacune. Le pré-entraînement sur des données spatiotemporelles dote ces modèles de forts biais inductifs pour la structure et la dynamique, ce qui, selon notre hypothèse, peut soutenir une large adaptabilité aux tâches. Pour tester cela, nous concevons une évaluation contrôlée dans laquelle un LLM pré-entraîné et un VDM pré-entraîné sont équipés d'adaptateurs légers et confrontés à des tâches dans leurs modalités naturelles. Sur des benchmarks incluant ARC-AGI, ConceptARC, des jeux visuels, la planification d'itinéraires et les automates cellulaires, les VDM démontrent une efficacité des données supérieure à leurs homologues linguistiques. Dans l'ensemble, nos résultats indiquent que le pré-entraînement vidéo offre des biais inductifs qui favorisent les progrès vers des modèles fondationnels visuels.
Les agents d'IA de pointe montrent un potentiel croissant en tant qu'assistants de recherche scientifique, et pourraient finalement s'avérer utiles pour des workflows de recherche étendus et ouverts. Cependant, afin d'utiliser les agents pour des recherches novatrices, nous devons d'abord évaluer la fidélité et l'exactitude fondamentales de leur travail. Pour évaluer les agents en tant qu'assistants de recherche, nous présentons ReplicationBench, un cadre d'évaluation qui teste si les agents peuvent répliquer des articles de recherche entiers tirés de la littérature en astrophysique. L'astrophysique, où la recherche repose fortement sur des données d'archives et des études computationnelles tout en nécessitant peu d'expérimentation réelle, constitue un banc d'essai particulièrement utile pour les agents IA dans la recherche scientifique. Nous décomposons chaque article en tâches qui exigent des agents qu'ils répliquent les contributions fondamentales de l'article, incluant la configuration expérimentale, les dérivations, l'analyse des données et la base de code. Chaque tâche est co-développée avec les auteurs originaux de l'article et cible un résultat scientifique clé, permettant une évaluation objective à la fois de la fidélité (respect des méthodes originales) et de l'exactitude (précision technique des résultats). ReplicationBench est extrêmement difficile pour les modèles de langage de pointe actuels : même les modèles de langage les plus performants obtiennent un score inférieur à 20 %. Nous analysons les trajectoires de ReplicationBench en collaboration avec des experts du domaine et découvrons un ensemble riche et diversifié de modes de défaillance pour les agents dans la recherche scientifique. ReplicationBench établit le premier benchmark de tâches de recherche en astrophysique à l'échelle d'un article, validées par des experts, révèle des insights sur les performances des agents généralisables à d'autres domaines de la science axée sur les données, et fournit un cadre évolutif pour mesurer la fiabilité des agents IA dans la recherche scientifique.
Comprendre les objets au niveau de leurs parties constitutives est fondamental pour faire progresser la vision par ordinateur, la synthèse d'images et la robotique. Si des jeux de données comme PartNet ont stimulé les progrès dans la compréhension des parties en 3D, leur dépendance à des géométries non texturées et à une annotation experte limite leur évolutivité et leur utilité. Nous présentons PartNeXt, un jeu de données de nouvelle génération qui comble ces lacunes avec plus de 23 000 modèles 3D texturés de haute qualité, annotés avec des étiquettes de parties hiérarchiques et fines réparties sur 50 catégories. Nous évaluons PartNeXt sur deux tâches : (1) la segmentation de parties agnostique aux classes, où les méthodes de pointe (par exemple, PartField, SAMPart3D) peinent avec les parties fines et de niveau feuille, et (2) le question-réponse centré sur les parties 3D, un nouveau benchmark pour les modèles de langage 3D qui révèle des lacunes significatives dans l'ancrage des parties en vocabulaire ouvert. De plus, l'entraînement de Point-SAM sur PartNeXt apporte des gains substantiels par rapport à PartNet, soulignant la qualité et la diversité supérieures du jeu de données. En combinant une annotation évolutive, des étiquettes sensibles aux textures et une évaluation multi-tâches, PartNeXt ouvre de nouvelles voies de recherche pour la compréhension structurée des objets 3D.
Dans le paysage actuel des données en expansion rapide, l'extraction de connaissances à partir de textes non structurés est essentielle pour l'analyse en temps réel, l'inférence temporelle et les cadres de mémoire dynamique. Cependant, la construction traditionnelle de graphes de connaissances (GC) statiques néglige souvent la nature dynamique et temporellement sensible des données du monde réel, limitant ainsi l'adaptabilité aux changements continus. De plus, les approches récentes zero- ou few-shot qui évitent le fine-tuning spécifique à un domaine ou la dépendance à des ontologies préconstruites souffrent souvent d'une instabilité sur plusieurs exécutions, ainsi que d'une couverture incomplète des faits clés. Pour relever ces défis, nous présentons ATOM (AdapTive and OptiMized), une approche few-shot et évolutive qui construit et met continuellement à jour des Graphes de Connaissances Temporels (GCT) à partir de textes non structurés. ATOM segmente les documents d'entrée en faits "atomiques" minimaux et autonomes, améliorant l'exhaustivité et la stabilité de l'extraction. Ensuite, il construit des GCT atomiques à partir de ces faits tout en employant une modélisation à double temporalité qui distingue le moment où l'information est observée de celui où elle est valide. Les GCT atomiques résultants sont ensuite fusionnés en parallèle. Des évaluations empiriques démontrent qu'ATOM atteint une exhaustivité supérieure d'environ 18 %, une meilleure stabilité d'environ 17 % et une réduction de latence de plus de 90 % par rapport aux méthodes de référence, démontrant un fort potentiel d'évolutivité pour la construction dynamique de GCT.
Les modèles de langage de grande taille (LLM) présentent une dualité préoccupante, capable à la fois d'une généralisation remarquable et d'une mémorisation littérale et fragile de leurs données d'entraînement. Cette imprévisibilité compromet leur fiabilité dans les applications à haut risque. Dans ce travail, nous proposons un cadre unifié pour comprendre, identifier et contrôler ces modes de raisonnement distincts. Premièrement, nous introduisons un modèle théorique basé sur le principe du goulot d'étranglement informationnel (IB), formalisant la généralisation comme l'apprentissage d'une représentation compressée et pertinente pour la tâche, et la mémorisation comme un échec de compression. S'appuyant sur cette théorie, nous développons le Pilotage Dynamique de Mode (DMS), un nouvel algorithme au moment de l'inférence qui comprend deux composantes : (1) une sonde linéaire légère, fondée sur la causalité, qui identifie la dépendance instantanée du modèle à la mémorisation, et (2) un mécanisme de pilotage dynamique des activations qui oriente le calcul du modèle vers des circuits de généralisation pré-identifiés. Nous formulons le DMS comme une forme de décodage auto-contrastif adaptatif. Des expériences sur des tâches de raisonnement et de fidélité factuelle démontrent que le DMS améliore significativement la cohérence logique et la précision factuelle, offrant ainsi une approche principielle pour renforcer la fiabilité des LLM.
L'alignement des représentations vision-langue confère aux modèles vision-langue (VLM) actuels de solides capacités de raisonnement multimodal. Cependant, l'interprétabilité de la composante d'alignement reste peu explorée en raison de la difficulté à cartographier la sémantique des représentations multimodales dans un ensemble de concepts unifié. Pour résoudre ce problème, nous proposons VL-SAE, un autoencodeur creux qui encode les représentations vision-langue dans ses activations cachées. Chaque neurone de sa couche cachée est corrélé à un concept représenté par des images et des textes sémantiquement similaires, interprétant ainsi ces représentations avec un ensemble de concepts unifié. Pour établir la corrélation neurone-concept, nous encourageons les représentations sémantiquement similaires à présenter des activations neuronales cohérentes lors de l'apprentissage auto-supervisé. Premièrement, pour mesurer la similarité sémantique des représentations multimodales, nous effectuons leur alignement sous une forme explicite basée sur la similarité cosinus. Deuxièmement, nous construisons le VL-SAE avec un encodeur basé sur la distance et deux décodeurs spécifiques à une modalité pour garantir la cohérence d'activation des représentations sémantiquement similaires. Les expériences sur plusieurs VLM (par exemple, CLIP, LLaVA) démontrent la capacité supérieure de VL-SAE à interpréter et améliorer l'alignement vision-langue. Pour l'interprétation, l'alignement entre les représentations visuelles et linguistiques peut être compris en comparant leur sémantique avec des concepts. Pour l'amélioration, l'alignement peut être renforcé en alignant les représentations vision-langue au niveau conceptuel, contribuant à des améliorations de performance dans les tâches en aval, incluant la classification d'images zero-shot et l'élimination des hallucinations. Les codes sont disponibles à l'adresse https://github.com/ssfgunner/VL-SAE.
L'optimisation topologique (OT) est au cœur de la conception en ingénierie mais reste très gourmande en calculs en raison de la complexité des phénomènes physiques et des contraintes rigides. Les méthodes existantes basées sur l'apprentissage profond se limitent à des grilles carrées fixes, à quelques conditions aux limites prédéfinies manuellement et à une optimisation a posteriori, ce qui empêche un déploiement généralisé. Nous présentons Optimize Any Topology (OAT), un modèle fondateur qui prédit directement des configurations à compliance minimale pour des rapports d'aspect, des résolutions, des fractions volumiques, des charges et des fixations arbitraires. OAT combine un autoencodeur agnostique à la résolution et à la forme avec un décodeur à champ neuronal implicite et un modèle de diffusion latente conditionnelle entraîné sur OpenTO, un nouveau corpus de 2,2 millions de structures optimisées couvrant 2 millions de configurations uniques de conditions aux limites. Sur quatre benchmarks publics et deux tests exigeants non vus lors de l'entraînement, OAT réduit la compliance moyenne jusqu'à 90 % par rapport aux meilleurs modèles antérieurs et offre une inférence en moins d'une seconde sur un seul GPU, pour des résolutions allant de 64 x 64 à 256 x 256 et des rapports d'aspect allant jusqu'à 10:1. Ces résultats établissent OAT comme un cadre général, rapide et indépendant de la résolution pour l'optimisation topologique prenant en compte la physique, et fournissent un jeu de données à grande échelle pour stimuler la recherche future en modélisation générative pour la conception inverse. Le code et les données sont disponibles à l'adresse https://github.com/ahnobari/OptimizeAnyTopology.
Récemment, l'apprentissage par renforcement basé sur GRPO a réalisé des progrès remarquables dans l'optimisation des modèles de « flow-matching », améliorant efficacement leur alignement avec des récompenses spécifiques aux tâches. Dans ces cadres, la mise à jour de la politique repose sur l'écrêtage du ratio d'importance pour contraindre les gradients positifs et négatifs trop confiants. Cependant, en pratique, nous observons un décalage systématique dans la distribution du ratio d'importance : sa moyenne tombe en dessous de 1 et sa variance varie considérablement selon les pas de temps. Cette distribution décalée vers la gauche et incohérente empêche les échantillons à avantage positif d'entrer dans la région écrêtée, ce qui fait que le mécanisme échoue à contraindre les mises à jour positives trop confiantes. Par conséquent, le modèle de politique entre inévitablement dans une phase d'optimisation implicite excessive : tandis que la récompense proxy continue d'augmenter, des métriques essentielles telles que la qualité de l'image et l'alignement avec l'invite texte se dégradent fortement, rendant finalement la politique apprise impraticable pour une utilisation réelle. Pour résoudre ce problème, nous présentons GRPO-Guard, une amélioration simple mais efficace des cadres GRPO existants. Notre méthode intègre une normalisation du ratio, qui rétablit un ratio d'importance équilibré et cohérent dans le temps, garantissant que l'écrêtage PPO contraigne correctement les mises à jour néfastes à travers les pas de débruitage. De plus, une stratégie de repondération du gradient égalise les gradients de politique sur les conditions de bruit, empêchant les mises à jour excessives provenant de régions particulières de pas de temps. Ensemble, ces conceptions agissent comme un mécanisme d'écrêtage régulé, stabilisant l'optimisation et atténuant substantiellement la suroptimisation implicite sans recourir à une régularisation KL lourde. Des expériences approfondies sur plusieurs architectures de diffusion (par exemple, SD3.5M, Flux.1-dev) et diverses tâches proxy démontrent que GRPO-Guard réduit significativement la suroptimisation tout en maintenant, voire en améliorant, la qualité de génération.
Le raisonnement fidèle dans les modèles vision-langage (VLM) médicaux nécessite non seulement des prédictions précises, mais aussi un alignement transparent entre les justifications textuelles et les preuves visuelles. Si l'incitation en chaîne de pensée (CoT) a montré des résultats prometteurs dans les systèmes de questions-réponses visuelles (VQA) médicales, aucun jeu de données expert à grande échelle n'avait jusqu'ici capturé un raisonnement séquentiel avec un ancrage visuel précis. Nous présentons S-Chain, le premier jeu de données à grande échelle comprenant 12 000 images médicales annotées par des experts avec des boîtes englobantes et une CoT visuelle structurée (SV-CoT), reliant explicitement les régions visuelles aux étapes du raisonnement. Le jeu de données prend en outre en charge 16 langues, totalisant plus de 700 000 paires VQA pour une large applicabilité multilingue. En utilisant S-Chain, nous évaluons les VLM médicaux de pointe (ExGra-Med, LLaVA-Med) et les VLM généralistes (Qwen2.5-VL, InternVL2.5), démontrant que la supervision par SV-CoT améliore significativement l'interprétabilité, la fidélité de l'ancrage et la robustesse. Au-delà de l'évaluation comparative, nous étudions sa synergie avec la génération augmentée par retrieval, révélant comment les connaissances du domaine et l'ancrage visuel interagissent lors d'un raisonnement autorégressif. Enfin, nous proposons un nouveau mécanisme qui renforce l'alignement entre les preuves visuelles et le raisonnement, améliorant à la fois la fiabilité et l'efficacité. S-Chain établit une nouvelle référence pour le raisonnement médical ancré et ouvre la voie à des VLM médicaux plus dignes de confiance et explicables.
Nous présentons une évaluation complète de la capacité des grands modèles de langage (LLM) à traiter un langage culturellement ancré, notamment à comprendre et à utiliser de manière pragmatique des expressions figurées qui codent des connaissances locales et des nuances culturelles. En utilisant le langage figuré comme indicateur de la nuance culturelle et des connaissances locales, nous concevons des tâches d'évaluation pour la compréhension contextuelle, l'usage pragmatique et l'interprétation des connotations en arabe et en anglais. Nous évaluons 22 LLM open-source et privateurs sur des idiomes d'arabe égyptien, des proverbes arabes multidialectaux et des proverbes anglais. Nos résultats montrent une hiérarchie constante : la précision moyenne pour les proverbes arabes est inférieure de 4,29 % à celle des proverbes anglais, et les performances pour les idiomes égyptiens sont inférieures de 10,28 % à celles des proverbes arabes. Pour la tâche d'usage pragmatique, la précision chute de 14,07 % par rapport à la compréhension, bien que fournir des phrases contextuelles idiomatiques améliore la précision de 10,66 %. Les modèles éprouvent également des difficultés avec le sens connotatif, atteignant au maximum 85,58 % d'accord avec les annotateurs humains sur des idiomes présentant un accord inter-annotateurs de 100 %. Ces résultats démontrent que le langage figuré constitue un outil diagnostique efficace pour le raisonnement culturel : si les LLM peuvent souvent interpréter le sens figuré, ils rencontrent des difficultés à l'utiliser de manière appropriée. Pour soutenir les recherches futures, nous publions Kinayat, le premier jeu de données d'idiomes d'arabe égyptien conçu pour l'évaluation à la fois de la compréhension figurative et de l'usage pragmatique.
Les représentations vectorielles de textes brevetés permettent la recherche d'antériorité, la cartographie technologique et l'analyse de brevets, mais les benchmarks existants capturent insuffisamment les défis spécifiques au domaine brevet. Nous présentons PatenTEB, un benchmark complet comprenant 15 tâches de recherche, classification, paraphrase et clustering, avec 2,06 millions d'exemples. PatenTEB utilise des divisions stratifiées par domaine, une sélection d'exemples négatifs difficiles spécifiques au domaine et une couverture systématique de scénarios de recherche asymétrique fragment-document absents des benchmarks génériques. Nous développons la famille de modèles patembed par apprentissage multi-tâche, couvrant 67M à 344M de paramètres avec des contextes allant jusqu'à 4096 tokens. La validation externe montre une forte généralisation : patembed-base obtient l'état de l'art sur MTEB BigPatentClustering.v2 (0.494 V-mesure contre 0.445 précédent meilleur), tandis que patembed-large atteint 0.377 NDCG@100 sur DAPFAM. Les ablations systématiques révèlent que l'apprentissage multi-tâche améliore la généralisation externe malgré des coûts mineurs sur le benchmark, et qu'une initialisation par pré-entraînement domaine-spécifique offre des avantages constants across les familles de tâches. Toutes les ressources seront disponibles sur https://github.com/iliass-y/patenteb. Mots-clés : recherche de brevets, embeddings de phrases, apprentissage multi-tâche, recherche asymétrique, évaluation de benchmarks, apprentissage contrastif.