papers.description
Nous présentons Ling 2.0, une série de fondations linguistiques orientées raisonnement, construite sur le principe que chaque activation renforce la capacité de raisonnement. Conçue pour évoluer de dizaines de milliards à mille milliards de paramètres sous un paradigme unifié de mixture d'experts (MoE), Ling 2.0 met l'accent sur une forte parcimonie, une cohérence multi-échelle et une efficacité guidée par des lois d'échelle empiriques. La série comprend trois modèles non-pensants (instruct) - Ling-mini-2.0, Ling-flash-2.0 et Ling-1T - allant de 16 à 1000 milliards de paramètres totaux et atteignant jusqu'à 7 fois l'efficacité de calcul active par rapport aux modèles denses équivalents. Ling 2.0 intègre des innovations coordonnées en architecture de modèle, pré-entraînement, post-entraînement et infrastructure : un MoE à haute parcimonie avec MTP pour un raisonnement efficace, des données orientées raisonnement avec activation CoT en milieu d'entraînement, un affinage par renforcement (DFT, Evo-CoT), et un entraînement intégral en FP8 avec des pipelines hétérogènes à granularité fine. À l'échelle du billion, Ling-1T établit une nouvelle frontière de Pareto entre précision du raisonnement et efficacité computationnelle, démontrant qu'une activation parcimonieuse, lorsqu'elle est correctement alignée sur des objectifs de raisonnement, permet une intelligence évolutive et efficace. Collectivement, Ling 2.0 fournit une base cohérente, ouverte et efficace pour faire progresser les futurs modèles de raisonnement et de pensée, y compris la série Ring construite sur la même base.
Les politiques implicites paramétrées par des modèles génératifs, comme Diffusion Policy, sont devenues la norme pour l'apprentissage de politiques et les modèles Vision-Langage-Action (VLA) en robotique. Cependant, ces approches souffrent souvent d'un coût computationnel élevé, d'un biais d'exposition et de dynamiques d'inférence instables, conduisant à une divergence sous des changements de distribution. Les modèles à base d'énergie (EBM) abordent ces problèmes en apprenant des paysages énergétiques de bout en bout et en modélisant des dynamiques d'équilibre, offrant ainsi une robustesse améliorée et un biais d'exposition réduit. Pourtant, les politiques paramétrées par des EBM ont historiquement peiné à passer à l'échelle efficacement. Des travaux récents sur les Transformers à base d'énergie (EBT) démontrent la scalabilité des EBM dans des espaces de haute dimension, mais leur potentiel pour résoudre les défis fondamentaux des modèles physiquement incarnés reste sous-exploré. Nous introduisons une nouvelle architecture à base d'énergie, EBT-Policy, qui résout des problèmes clés dans des contextes robotiques et réels. Sur diverses tâches en simulation et dans le monde réel, EBT-Policy surpasse systématiquement les politiques basées sur la diffusion, tout en nécessitant moins de calcul pour l'entraînement et l'inférence. Fait remarquable, sur certaines tâches, elle converge en seulement deux étapes d'inférence, une réduction par 50 par rapport aux 100 étapes de Diffusion Policy. De plus, EBT-Policy présente des capacités émergentes inédites dans les modèles précédents, comme la capacité de récupération en zéro-shot après des séquences d'actions ayant échoué, en utilisant uniquement le clonage comportemental et sans entraînement explicite à la reprise. En tirant parti de son énergie scalaire pour une inférence consciente de l'incertitude et une allocation dynamique des ressources de calcul, EBT-Policy ouvre une voie prometteuse vers un comportement robotique robuste et généralisable sous des changements de distribution.
Le Test-Time Scaling (TTS) améliore les grands modèles de langage (LLM) en allouant des calculs supplémentaires lors de l'inférence, généralement via un scaling parallèle, séquentiel ou hybride. Cependant, les études antérieures supposent souvent des architectures de collaboration fixes (par exemple, des topologies) et une utilisation à modèle unique, négligeant le fait que les architectures et combinaisons de modèles optimales peuvent varier selon les tâches. Par conséquent, nous étudions le nouveau problème de la recherche de combinaisons de modèles et d'architectures optimales en termes de calcul dans le TTS sous un budget fixe. Nous le formalisons comme un graphe de collaboration multi-LLM, où les nœuds encodent les rôles et les affectations de modèles LLM, et les arêtes capturent le flux d'information. Ce problème est difficile car (i) l'espace de recherche combinatoire est prohibitivement grand, et (ii) les exigences spécifiques aux tâches nécessitent des conceptions sur mesure. Pour y remédier, nous reformulons le problème comme une optimisation de graphe probabiliste et, grâce à des expériences pilotes, déduisons trois insights empiriques sur les graphes de collaboration TTS. Guidés par ces insights, nous proposons Agent-REINFORCE, un framework augmenté par un agent LLM qui reproduit le pipeline REINFORCE en mappant échantillonnage-gradient-mise à jour vers échantillonnage-feedback-mise à jour, où le feedback sert de gradient textuel pour mettre à jour le graphe probabiliste et rechercher efficacement les graphes de collaboration multi-LLM optimaux. Les expériences montrent qu'Agent-REINFORCE surpasse les bases de référence traditionnelles et basées sur les LLM en efficacité d'échantillonnage et en performance de recherche, et identifie efficacement les graphes optimaux sous des objectifs conjoints de précision et de latence d'inférence.
Nous présentons [Cosmos-Predict2.5], la dernière génération de modèles fondateurs mondiaux Cosmos pour l'IA physique. Basé sur une architecture flow-based, [Cosmos-Predict2.5] unifie la génération Text2World, Image2World et Video2World dans un modèle unique et exploite [Cosmos-Reason1], un modèle vision-langage d'IA physique, pour fournir un ancrage textuel plus riche et un contrôle plus fin de la simulation mondiale. Entraîné sur 200 millions de clips vidéo sélectionnés et affiné par post-entraînement à base d'apprentissage par renforcement, [Cosmos-Predict2.5] réalise des améliorations substantielles par rapport à [Cosmos-Predict1] en qualité vidéo et alignement instructionnel, avec des modèles publiés aux échelles 2B et 14B. Ces capacités permettent une génération de données synthétiques, une évaluation de politiques et une simulation en boucle fermée plus fiables pour la robotique et les systèmes autonomes. Nous étendons également la famille avec [Cosmos-Transfer2.5], un framework de type control-net pour la traduction mondiale Sim2Real et Real2Real. Bien qu'étant 3,5 fois plus petit que [Cosmos-Transfer1], il offre une génération vidéo à plus haute fidélité et robuste sur un horizon temporel long. Ensemble, ces avancées établissent [Cosmos-Predict2.5] et [Cosmos-Transfer2.5] comme des outils polyvalents pour la mise à l'échelle de l'intelligence incarnée. Pour accélérer la recherche et le déploiement en IA physique, nous publions le code source, les points de contrôle pré-entraînés et des benchmarks sous la licence NVIDIA Open Model License aux adresses https://github.com/nvidia-cosmos/cosmos-predict2.5 et https://github.com/nvidia-cosmos/cosmos-transfer2.5. Nous espérons que ces ressources ouvertes abaisseront les barrières à l'adoption et stimuleront l'innovation dans la construction de la prochaine génération d'intelligence incarnée.
Les récentes avancées des modèles génératifs multimodaux ont permis des améliorations substantielles en édition d'images. Cependant, les modèles génératifs actuels peinent encore à traiter des tâches d'édition d'images diverses et complexes nécessitant un raisonnement implicite, soulignant le besoin d'un benchmark complet pour évaluer systématiquement leurs performances dans divers scénarios de raisonnement. Les benchmarks existants se concentrent principalement sur la transformation d'attributs d'objets uniques dans des scénarios réalistes, lesquels, bien qu'utiles, rencontrent deux défis majeurs : (1) ils négligent largement les interactions multi-objets ainsi que les scénarios de monde-jeu impliquant des règles définies par l'humain, pourtant courants dans les applications réelles ; (2) ils s'appuient uniquement sur des références textuelles pour évaluer les images générées, risquant des erreurs d'évaluation systématiques, particulièrement dans les scénarios de raisonnement complexes. Pour pallier ces limites, ce travail propose UniREditBench, un benchmark unifié pour l'évaluation de l'édition d'images basée sur le raisonnement. Il comprend 2 700 échantillons soigneusement constitués, couvrant à la fois des scénarios réalistes et de monde-jeu à travers 8 dimensions principales et 18 sous-dimensions. Pour améliorer la fiabilité de l'évaluation, nous introduisons une évaluation double référence multimodale, fournissant à la fois des références textuelles et des images de vérité terrain pour chaque évaluation d'échantillon. De plus, nous concevons un pipeline automatisé de synthèse de données multi-scénarios et construisons UniREdit-Data-100K, un jeu de données synthétique à grande échelle avec des annotations de raisonnement en chaîne de pensée (CoT) de haute qualité. Nous affinons Bagel sur ce jeu de données et développons UniREdit-Bagel, démontrant des améliorations substantielles dans des contextes intra-domaines et hors-distribution. Par un benchmarking approfondi de modèles d'édition d'images open-source et propriétaires, nous révélons leurs forces et faiblesses sur divers aspects.
La relumination est une tâche cruciale possédant à la fois une demande pratique et une valeur artistique. Les modèles de diffusion récents ont montré un fort potentiel en permettant des effets d'éclairage riches et contrôlables. Cependant, comme ils sont généralement optimisés dans un espace latent sémantique, où la proximité ne garantit pas l'exactitude physique dans l'espace visuel, ils produisent souvent des résultats irréalistes, tels que des reflets surexposés, des ombres désalignées et des occlusions incorrectes. Nous abordons ce problème avec UniLumos, un cadre de relumination unifié pour les images et les vidéos qui intègre un retour de géométrie dans l'espace RGB au sein d'une architecture de flow matching. En supervisant le modèle avec des cartes de profondeur et de normales extraites de ses sorties, nous alignons explicitement les effets d'éclairage avec la structure de la scène, améliorant ainsi la plausibilité physique. Néanmoins, ce retour d'information nécessite des sorties de haute qualité pour la supervision dans l'espace visuel, ce qui rend le débruitage multi-étapes standard très coûteux en calcul. Pour atténuer cela, nous utilisons l'apprentissage par cohérence de chemin, permettant à la supervision de rester efficace même dans des régimes d'entraînement à faible nombre d'étapes. Pour permettre un contrôle et une supervision fins de la relumination, nous concevons un protocole d'annotation structuré à six dimensions capturant les attributs fondamentaux de l'illumination. Sur cette base, nous proposons LumosBench, un benchmark de niveau attribut désentrelacé qui évalue la contrôlabilité de l'éclairage via de grands modèles vision-langage, permettant une évaluation automatique et interprétable de la précision de la relumination selon des dimensions individuelles. Des expériences approfondies démontrent qu'UniLumos atteint une qualité de relumination à l'état de l'art avec une cohérence physique significativement améliorée, tout en offrant une accélération par 20 pour la relumination d'images et de vidéos. Le code est disponible à l'adresse https://github.com/alibaba-damo-academy/Lumos-Custom.
Les réseaux de neurones graphiques fonctionnent par transmission de messages ascendante, différant fondamentalement de la perception visuelle humaine qui capture intuitivement d'abord les structures globales. Nous étudions le potentiel sous-estimé des modèles de vision pour la compréhension des graphes, constatant qu'ils atteignent des performances comparables aux GNN sur des benchmarks établis tout en présentant des schémas d'apprentissage nettement différents. Ces comportements divergents, combinés aux limitations des benchmarks existants qui confondent caractéristiques du domaine et compréhension topologique, motivent notre introduction de GraphAbstract. Ce benchmark évalue la capacité des modèles à percevoir les propriétés globales des graphes comme le font les humains : reconnaissance d'archétypes organisationnels, détection de symétrie, perception de la force de connectivité et identification d'éléments critiques. Nos résultats révèlent que les modèles de vision surpassent significativement les GNN sur les tâches nécessitant une compréhension structurelle holistique et maintiennent une généralisabilité across différentes échelles de graphes, tandis que les GNN peinent avec l'abstraction de motifs globaux et voient leurs performances se dégrader avec l'augmentation de la taille des graphes. Ce travail démontre que les modèles de vision possèdent des capacités remarquables mais sous-utilisées pour la compréhension structurelle des graphes, particulièrement pour les problèmes nécessitant une conscience topologique globale et un raisonnement invariant à l'échelle. Ces résultats ouvrent de nouvelles voies pour exploiter ce potentiel sous-estimé afin de développer des modèles fondamentaux pour les graphes plus efficaces pour les tâches dominées par la reconnaissance holistique de motifs.
Les grands modèles de raisonnement (LRM) démontrent d'impressionnantes capacités en raisonnement complexe, mais leurs gains marginaux sur les questions factuelles nécessitant des preuves restent limités. Nous constatons que cette limitation est partiellement attribuable à un décalage raisonnement-réponse, où le modèle identifie les faits corrects durant son raisonnement mais ne parvient pas à les intégrer dans la réponse finale, réduisant ainsi la fidélité factuelle. Pour résoudre ce problème, nous proposons MR-ALIGN, un cadre d'alignement basé sur le méta-raisonnement qui améliore la factualité sans recourir à des vérificateurs externes. MR-ALIGN quantifie les probabilités de transition d'état le long du processus de réflexion du modèle et construit une récompense implicite sensible aux transitions qui renforce les schémas de raisonnement bénéfiques tout en supprimant ceux défectueux au niveau des segments de pensée atomiques. Cette repondération transforme les signaux au niveau des tokens en scores de segments conscients des probabilités, favorisant des trajectoires de raisonnement cohérentes plus propices à l'exactitude factuelle. Les évaluations empiriques sur quatre ensembles de données de questions-réponses factuelles et un benchmark de factualité en texte long montrent que MR-ALIGN améliore constamment la précision et la véracité tout en réduisant le raisonnement trompeur. Ces résultats soulignent qu'aligner le processus de raisonnement lui-même, plutôt que simplement les sorties, est crucial pour faire progresser la factualité des LRM.
Les modèles multimodaux unifiés (UMM) sont apparus comme un paradigme puissant pour unifier de manière transparente la compréhension et la génération de texte et d'images. Cependant, les évaluations dominantes traitent ces capacités de manière isolée, de sorte que les tâches avec des entrées et des sorties multimodales sont notées principalement via un raisonnement unimodal, c'est-à-dire que les benchmarks textuels privilégient le raisonnement linguistique, tandis que les benchmarks visuels se concentrent sur les résultats du raisonnement manifestés dans les pixels. Nous présentons ROVER pour répondre à ce besoin pressant de tester le raisonnement réciproque cross-modal, c'est-à-dire l'utilisation d'une modalité pour guider, vérifier ou affiner les sorties dans l'autre, une capacité centrale pour la vision d'une intelligence multimodale unifiée. ROVER est un benchmark annoté manuellement qui cible explicitement le raisonnement réciproque cross-modal ; il contient 1312 tâches ancrées dans 1876 images, couvrant deux cadres complémentaires. Le raisonnement verbalement augmenté pour la génération visuelle évalue si les modèles peuvent utiliser des invites verbales et des chaînes de raisonnement pour guider une synthèse d'image fidèle. Le raisonnement visuellement augmenté pour la génération verbale évalue si les modèles peuvent générer des visualisations intermédiaires qui renforcent leurs propres processus de raisonnement pour répondre à des questions. Des expériences sur 17 modèles unifiés révèlent deux résultats clés : (i) Le raisonnement cross-modal détermine la qualité de la génération visuelle, les modèles entrelacés surpassant significativement les non-entrelacés ; fait notable, la combinaison de modèles unimodaux performants n'atteint pas un raisonnement comparable. (ii) Les modèles montrent une dissociation entre raisonnement physique et symbolique : ils réussissent à interpréter littéralement des concepts perceptifs mais échouent à construire des abstractions visuelles pour des tâches symboliques, où un raisonnement défaillant nuit aux performances. Ces résultats soulignent le raisonnement réciproque cross-modal comme une frontière critique pour permettre une véritable génération omnimodale.
L'imitation du mouvement est une approche prometteuse pour la locomotion humanoïde, permettant aux agents d'acquérir des comportements similaires à ceux des humains. Les méthodes existantes reposent généralement sur des ensembles de données de capture de mouvement de haute qualité comme AMASS, mais ceux-ci sont rares et coûteux, limitant l'évolutivité et la diversité. Des études récentes tentent d'étendre la collecte de données en convertissant des vidéos internet à grande échelle, comme le démontre Humanoid-X. Cependant, elles introduisent souvent des artefacts physiques tels que la lévitation, les pénétrations et le glissement des pieds, qui entravent l'imitation stable. En réponse, nous présentons PHUMA, un ensemble de données de locomotion humanoïde physiquement fondé qui exploite des vidéos humaines à grande échelle, tout en résolvant les artefacts physiques par une curation minutieuse des données et un retargeting contraint par la physique. PHUMA applique des limites articulaires, garantit le contact avec le sol et élimine le glissement des pieds, produisant des mouvements à la fois à grande échelle et physiquement fiables. Nous avons évalué PHUMA dans deux ensembles de conditions : (i) l'imitation de mouvements inédits à partir de vidéos de test auto-enregistrées et (ii) le suivi de trajectoire avec guidage pelvien uniquement. Dans les deux cas, les politiques entraînées sur PHUMA surpassent Humanoid-X et AMASS, obtenant des gains significatifs dans l'imitation de mouvements divers. Le code est disponible à l'adresse https://davian-robotics.github.io/PHUMA.
Les méthodes actuelles de génération vidéo conditionnée par le mouvement souffrent d'une latence prohibitive (plusieurs minutes par vidéo) et d'un traitement non causal qui empêche une interaction en temps réel. Nous présentons MotionStream, permettant une latence inférieure à la seconde avec une génération en flux jusqu'à 29 IPS sur un seul GPU. Notre approche commence par enrichir un modèle texte-à-vidéo avec un contrôle motion, qui génère des vidéos de haute qualité conformes au prompt texte global et au guidage motion local, mais sans effectuer d'inférence à la volée. Ainsi, nous distillons cet enseignant bidirectionnel en un étudiant causal via l'auto-forçage avec distillation par appariement de distributions, permettant une inférence en flux temps réel. Plusieurs défis majeurs surviennent lors de la génération de vidéos sur des horizons temporels longs, potentiellement infinis : (1) combler l'écart domaine entre l'entraînement sur des séquences finies et l'extrapolation à des horizons infinis, (2) maintenir une haute qualité en empêchant l'accumulation d'erreurs, et (3) conserver une inférence rapide sans augmentation des coûts computationnels dus à la croissance des fenêtres de contexte. Un élément clé de notre approche est l'introduction d'une attention causale glissante soigneusement conçue, combinée à des puits d'attention. En incorporant l'auto-déroulement avec puits d'attention et le roulement du cache KV pendant l'entraînement, nous simulons correctement les extrapolations en inférence avec une fenêtre de contexte fixe, permettant une génération à vitesse constante de vidéos de longueur arbitraire. Nos modèles obtiennent des résultats state-of-the-art en suivi motion et qualité vidéo tout en étant deux ordres de grandeur plus rapides, permettant uniquement un streaming de longueur infinie. Avec MotionStream, les utilisateurs peuvent peindre des trajectoires, contrôler des caméras ou transférer du mouvement, et voir les résultats se dérouler en temps réel, offrant une expérience véritablement interactive.
Nous présentons LongCat-Flash-Omni, un modèle omnimodal open-source de pointe comptant 560 milliards de paramètres, excellant dans l'interaction audio-visuelle en temps réel. En adoptant une stratégie d'entraînement progressive inspirée d'un curriculum pédagogique, qui transitionne de tâches de modélisation de séquences modales simples vers des tâches de plus en plus complexes, LongCat-Flash-Omni acquiert des capacités multimodales complètes tout en conservant de solides performances unimodales. S'appuyant sur LongCat-Flash, qui utilise une architecture haute performance de type Mixture-of-Experts (MoE) à connexions raccourcies avec des experts à calcul nul, LongCat-Flash-Omni intègre des modules efficaces de perception multimodale et de reconstruction de la parole. Malgré sa taille immense de 560 milliards de paramètres (dont 27B activés), LongCat-Flash-Omni atteint une interaction audio-visuelle en temps réel à faible latence. Pour l'infrastructure d'entraînement, nous avons développé un schéma de parallélisme à modalités découplées, spécialement conçu pour gérer l'hétérogénéité des données et du modèle inhérente à l'entraînement multimodal à grande échelle. Cette approche innovante démontre une efficacité exceptionnelle en maintenant plus de 90 % du débit atteint par un entraînement sur texte seul. Des évaluations approfondies montrent que LongCat-Flash-Omni obtient des performances de pointe sur des benchmarks omnimodaux parmi les modèles open-source. De plus, il produit des résultats très compétitifs sur un large éventail de tâches modales spécifiques, incluant la compréhension de texte, d'image et de vidéo, ainsi que la compréhension et la génération audio. Nous fournissons une vue d'ensemble complète de la conception de l'architecture du modèle, des procédures d'entraînement et des stratégies de données, et ouvrons le code du modèle pour favoriser les futurs travaux de recherche et développement dans la communauté.
Récemment, les grands modèles de langage (LLM) ont démontré des capacités remarquables de résolution de problèmes en s'intégrant de manière autonome à des outils externes pour un raisonnement collaboratif. Cependant, en raison de la nature intrinsèquement complexe et diverse de l'information multimodale, permettre aux grands modèles de langage multimodaux (MLLM) d'utiliser de manière flexible et efficace des outils externes pendant le raisonnement reste un défi peu exploré. Dans ce travail, nous présentons ToolScope, un cadre agentiel conçu pour unifier la planification globale avec la perception multimodale locale, en adoptant un outil Percevoir spécialisé pour atténuer la dégradation du contexte visuel dans les tâches de question-réponse visuelle (VQA) à long horizon. ToolScope comprend trois composants principaux : le Navigateur Global, l'Exécuteur Agentiel et le Synthériseur de Réponses. Le Navigateur Global fonctionne comme un "télescope", offrant des conseils stratégiques de haut niveau. L'Exécuteur Agentiel opère de manière itérative pour augmenter le MLLM avec une perception locale via l'intégration d'outils externes - Recherche, Code et Percevoir. Enfin, le Synthériseur de Réponses consolide et organise le processus de raisonnement en une sortie cohérente et conviviale. Nous évaluons ToolScope sur quatre benchmarks VQA couvrant divers domaines, incluant VQA 2.0, ScienceQA, MAT-Search et MathVista. Il démontre de fortes capacités de généralisation, atteignant une amélioration moyenne des performances allant jusqu'à +6,69 % sur l'ensemble des jeux de données.
Les progrès récents dans le raisonnement des grands modèles de langage (LLM) via l'apprentissage par renforcement reposent sur des ensembles de données annotées pour des récompenses vérifiables, ce qui peut limiter la capacité des modèles à dépasser les performances humaines. Bien que l'auto-jeu offre une alternative prometteuse, les approches existantes dépendent de vérificateurs externes ou ne peuvent pas apprendre de manière ouverte. Nous présentons Open-Ended Self-Improving Reasoner (OpenSIR), un cadre d'auto-jeu où un LLM apprend à générer et résoudre des problèmes nouveaux en alternant les rôles d'enseignant et d'étudiant sans supervision externe. Pour générer des problèmes novateurs, OpenSIR optimise à la fois la difficulté et la diversité, en récompensant les problèmes qui challengent de manière appropriée tout en explorant des concepts distincts, permettant ainsi une découverte mathématique ouverte. En partant d'un seul problème trivial initial, OpenSIR améliore substantiellement les modèles instructionnels : Llama-3.2-3B-Instruct progresse de 73.9 à 78.3 sur GSM8K, et de 28.8 à 34.4 sur College Math, tandis que Gemma-2-2B-Instruct passe de 38.5 à 58.7 sur GSM8K. Nos analyses révèlent qu'OpenSIR réalise un apprentissage ouvert grâce à des rôles enseignant-étudiant en co-évolution qui calibrent adaptativement la difficulté et stimulent une exploration diversifiée, progressant autonome
Le paradigme dominant en matière de récupération vidéo souffre d'un désalignement structurel, car des benchmarks étroits encouragent des données limitées et un entraînement monotâche. Par conséquent, la capacité universelle est supprimée en l'absence d'une évaluation diagnostique qui définit et exige une généralisation multidimensionnelle. Pour briser ce cycle, nous introduisons un cadre basé sur la co-conception de l'évaluation, des données et de la modélisation. Premièrement, nous établissons l'Universal Video Retrieval Benchmark (UVRB), une suite de 16 ensembles de données conçus non seulement pour mesurer les performances mais aussi pour diagnostiquer les lacunes critiques de capacité à travers les tâches et les domaines. Deuxièmement, guidés par les diagnostics de l'UVRB, nous introduisons un workflow de synthèse évolutif qui génère 1,55 million de paires de haute qualité pour peupler l'espace sémantique requis par l'universalité. Enfin, nous concevons la Pyramide de Modalités, un curriculum qui entraîne notre General Video Embedder (GVE) en exploitant explicitement les interconnexions latentes au sein de nos données diversifiées. Des expériences approfondies montrent que le GVE atteint une généralisation zero-shot de pointe sur l'UVRB. En particulier, notre analyse révèle que les benchmarks populaires sont de mauvais prédicteurs des capacités générales et que la récupération partiellement pertinente est un scénario dominant mais négligé. Globalement, notre cadre co-conçu offre une voie pratique pour échapper au champ d'application limité et progresser vers une récupération vidéo véritablement universelle.
La frontière du raisonnement visuel évolue vers des modèles comme OpenAI o3, capables de créer et d'utiliser intelligemment des outils pour transformer des images afin de résoudre des problèmes, une approche également appelée « raisonnement avec les images » dans le cadre d'un enchaînement de pensées (chain-of-thought). Pourtant, les benchmarks existants ne parviennent pas à capturer pleinement cette capacité avancée. Même Visual Search, le benchmark le plus courant pour les méthodes actuelles de raisonnement avec les images, ne teste que des opérations de base telles que la localisation et le recadrage, offrant peu d'informations sur un raisonnement plus complexe, dynamique et dépendant d'outils. Nous présentons TIR-Bench, un benchmark complet pour évaluer le raisonnement agentique avec les images à travers 13 tâches variées, chacune nécessitant une utilisation novatrice d'outils pour le traitement et la manipulation d'images dans un enchaînement de pensées. Nous évaluons 22 grands modèles de langage multimodaux (MLLM), allant des principaux modèles open source et propriétaires à ceux dotés d'une augmentation explicite de l'utilisation d'outils. Les résultats montrent que TIR-Bench est universellement exigeant et qu'une performance solide nécessite de véritables capacités de raisonnement avec les images. Enfin, nous présentons une étude pilote comparant le fine-tuning direct et le fine-tuning agentique.
Les modèles vision-langue démontrent des performances et une capacité de généralisation sans précédent sur un large éventail de tâches et de scénarios. L'intégration de ces modèles de fondation dans les systèmes de navigation robotique ouvre la voie vers la création de robots polyvalents. Pourtant, l'évaluation des capacités de navigation de ces modèles reste limitée par des essais en conditions réelles coûteux, des simulations excessivement simplifiées et des points de référence limités. Nous présentons NaviTrace, un benchmark de haute qualité de Question-Réponse Visuelle où un modèle reçoit une instruction et un type d'incarnation (humain, robot à pattes, robot à roues, vélo) et doit produire une trace de navigation 2D dans l'espace image. Sur 1000 scénarios et plus de 3000 traces expertes, nous évaluons systématiquement huit modèles vision-langue de pointe à l'aide d'un score de trace sémantique nouvellement introduit. Cette métrique combine la distance de Dynamic Time Warping, l'erreur de position du point d'arrivée, et des pénalités conditionnées par l'incarnation dérivées de la sémantique par pixel, et elle présente une corrélation avec les préférences humaines. Notre évaluation révèle un écart constant par rapport aux performances humaines, causé par une mauvaise ancrage spatial et une localisation déficiente des objectifs. NaviTrace établit un benchmark reproductible et évolutif pour la navigation robotique en monde réel. Le benchmark et le classement sont disponibles à l'adresse https://leggedrobotics.github.io/navitrace_webpage/.
La compréhension des rébus (qui utilisent des images, symboles et lettres pour représenter de manière créative des mots ou phrases) nécessite diverses compétences telles que la reconnaissance d'images, les capacités cognitives, le raisonnement de bon sens, le raisonnement multi-étapes, les jeux de mots visuels, etc., ce qui en fait une tâche difficile même pour les modèles vision-langage actuels. Dans cet article, nous présentons |,↻,BUS,|, un benchmark vaste et diversifié de 1 333 rébus anglais comportant différents styles artistiques et niveaux de difficulté, répartis en 18 catégories telles que nourriture, expressions idiomatiques, sports, finance, divertissement, etc. Nous proposons également RebusDescProgICE, un framework agnostique aux modèles qui combine une description non structurée et un raisonnement structuré basé sur du code, ainsi qu'une meilleure sélection d'exemples en contexte basée sur le raisonnement, améliorant les performances des modèles vision-langage sur |,↻,BUS,| de 2,1 à 4,1 % et de 20 à 30 % avec des modèles propriétaires et open source respectivement, par rapport au raisonnement en chaîne de pensée.
Nous présentons Trove, une boîte à outils de recherche open-source facile à utiliser qui simplifie les expérimentations de recherche sans sacrifier la flexibilité ni la vitesse. Pour la première fois, nous introduisons des fonctionnalités efficaces de gestion des données qui chargent et traitent (filtrent, sélectionnent, transforment et combinent) les jeux de données de recherche à la volée, avec seulement quelques lignes de code. Cela offre aux utilisateurs la flexibilité d'expérimenter facilement avec différentes configurations de jeux de données sans avoir à calculer et stocker plusieurs copies de jeux de données volumineux. Trove est hautement personnalisable : en plus de nombreuses options intégrées, il permet aux utilisateurs de modifier librement les composants existants ou de les remplacer entièrement par des objets définis par l'utilisateur. Il fournit également un pipeline unifié à faible code pour l'évaluation et l'extraction de négatifs difficiles, qui prend en charge l'exécution multi-nœuds sans aucune modification de code. Les fonctionnalités de gestion des données de Trove réduisent la consommation mémoire d'un facteur 2,6. De plus, le pipeline d'inférence facile à utiliser de Trove n'entraîne aucune surcharge, et les temps d'inférence diminuent linéairement avec le nombre de nœuds disponibles. Plus important encore, nous démontrons comment Trove simplifie les expériences de recherche et permet des personnalisations arbitraires, facilitant ainsi la recherche exploratoire.
La lecture des instruments de mesure est un exercice aisé pour les humains et nécessite relativement peu d'expertise métier, mais elle reste étonnamment difficile pour les modèles vision-langage (VLM) actuels, comme nous l'avons constaté lors d'une évaluation préliminaire. Dans ce travail, nous présentons MeasureBench, un benchmark pour l'évaluation de la lecture visuelle de mesures, couvrant à la fois des images réelles et des images synthétisées de divers types d'instruments, ainsi qu'un pipeline extensible pour la synthèse de données. Notre pipeline génère de manière procédurale un type de cadran spécifié avec une apparence visuelle contrôlable, permettant une variation scalable de détails clés tels que les aiguilles, les échelles, les polices, l'éclairage et l'encombrement. L'évaluation sur les VLM populaires, propriétaires et à poids ouvert, montre que même les VLM de pointe les plus performants éprouvent des difficultés générales avec la lecture des mesures. Un mode d'échec récurrent est la localisation des indicateurs : les modèles peuvent lire les chiffres ou les étiquettes mais identifient incorrectement les positions clés des aiguilles ou des alignements, ce qui entraîne de grandes erreurs numériques malgré un raisonnement textuel plausible. Nous avons également mené des expériences préliminaires avec de l'apprentissage par renforcement sur des données synthétiques, et obtenons des résultats encourageants sur le sous-ensemble synthétique en domaine contraint, mais moins prometteurs pour les images du monde réel. Notre analyse met en lumière une limitation fondamentale des VLM actuels dans l'ancrage spatial à granularité fine. Nous espérons que cette ressource pourra contribuer aux futures avancées sur la numératie visuellement ancrée et la perception spatiale précise des VLM, en comblant l'écart entre la reconnaissance des chiffres et la mesure du monde.
Les progrès récents des modèles de langage multimodaux (MLLM) ont considérablement amélioré la compréhension visuelle 2D, suscitant un intérêt pour leur application à des tâches complexes de raisonnement 3D. Cependant, il reste incertain si ces modèles peuvent capturer efficacement l'information spatiale détaillée nécessaire à une performance robuste en conditions réelles, particulièrement la cohérence multi-vues, exigence clé pour un raisonnement 3D précis. Face à ce constat, nous introduisons l'apprentissage de viewpoint, une tâche conçue pour évaluer et améliorer les capacités de raisonnement spatial des MLLM. Nous présentons le jeu de données Viewpoint-100K, comprenant 100 000 paires d'images centrées sur des objets avec des viewpoints variés et des paires question-réponse correspondantes. Notre approche utilise une stratégie de fine-tuning en deux étapes : premièrement, des connaissances fondamentales sont injectées au MLLM de référence via un fine-tuning supervisé sur Viewpoint-100K, conduisant à des améliorations significatives sur multiples tâches ; deuxièmement, la généralisation est renforcée par apprentissage par renforcement utilisant l'algorithme GRPO sur un ensemble plus large de questions. De plus, nous introduisons une méthode d'initialisation hybride conçue pour apprendre simultanément les représentations de viewpoint et maintenir une cohérence raisonnée. Les résultats expérimentaux montrent que notre approche active significativement la capacité de raisonnement spatial des MLLM, améliorant les performances sur des tâches de raisonnement intra-domaine et extra-domaine. Nos conclusions soulignent l'intérêt de développer des compétences spatiales fondamentales dans les MLLM, ouvrant la voie à des progrès futurs en robotique, systèmes autonomes et compréhension de scènes 3D.
La sélection des données est un aspect crucial du Renforcement de l'Apprentissage avec Récompenses Vérifiables (RLVR) pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Les méthodes actuelles de sélection des données sont largement basées sur des heuristiques, manquant de garanties théoriques et de généralisabilité. Ce travail propose une approche théoriquement fondée utilisant les fonctions d'influence pour estimer la contribution de chaque point de données à l'objectif d'apprentissage. Pour surmonter le coût computationnel prohibitif des évaluations de politique requis pour l'estimation d'influence en ligne, nous introduisons une méthode d'estimation d'influence hors politique qui approxime efficacement l'influence des données en utilisant des trajectoires hors ligne pré-collectées. De plus, pour gérer les gradients de haute dimension des LLM, nous utilisons une projection aléatoire creuse pour réduire la dimensionalité et améliorer l'efficacité du stockage et du calcul. En tirant parti de ces techniques, nous développons le **Curriculum RL avec Guidage par Influence Hors Politique (CROPI)**, un cadre d'apprentissage par renforcement multi-étapes qui sélectionne itérativement les données les plus influentes pour la politique actuelle. Les expériences sur des modèles allant jusqu'à 7 milliards de paramètres démontrent que CROPI accélère significativement l'entraînement. Sur un modèle de 1,5 milliard de paramètres, il atteint une accélération de 2,66x au niveau des étapes tout en n'utilisant que 10 % des données par étape par rapport à un entraînement sur le jeu de données complet. Nos résultats soulignent le potentiel substantiel de la sélection de données basée sur l'influence pour un RLVR efficace.
La définition de métriques phares appropriées est cruciale pour faire progresser les capacités de raisonnement mathématique des modèles de fondation, surtout étant donné que les évaluations existantes sont soit trop faciles, soit se concentrent uniquement sur l'obtention de réponses courtes correctes. Pour résoudre ces problèmes, nous présentons IMO-Bench, une suite de benchmarks de raisonnement avancé, validée par un panel de spécialistes de haut niveau et ciblant spécifiquement le niveau des Olympiades Internationales de Mathématiques (OIM), la compétition la plus prestigieuse pour les jeunes mathématiciens. IMO-AnswerBench teste d'abord les modèles sur 400 problèmes diversifiés d'Olympiades avec des réponses courtes vérifiables. IMO-ProofBench est l'évaluation de niveau supérieur pour les capacités de rédaction de preuves, incluant à la fois des problèmes de niveau OIM basique et avancé ainsi que des directives de notation détaillées pour faciliter l'évaluation automatique. Ces benchmarks ont joué un rôle crucial dans notre réalisation historique d'une performance de niveau or aux OIM 2025 avec Gemini Deep Think (Luong et Lockhart, 2025). Notre modèle a atteint 80,0 % sur IMO-AnswerBench et 65,7 % sur IMO-ProofBench avancé, surpassant les meilleurs modèles non-Gemini par de larges marges de 6,9 % et 42,4 % respectivement. Nous avons également montré que les correcteurs automatiques construits avec le raisonnement de Gemini corrèlent bien avec les évaluations humaines et avons créé IMO-GradingBench, avec 1000 notations humaines de preuves, pour permettre de nouveaux progrès dans l'évaluation automatique des réponses longues. Nous espérons qu'IMO-Bench aidera la communauté à progresser vers un raisonnement mathématique robuste et le mettons à disposition sur https://imobench.github.io/.
Les modèles vision-langage-action (VLA) visent à comprendre les instructions en langage naturel et les observations visuelles pour exécuter les actions correspondantes en tant qu'agent incarné. Les travaux récents intègrent des images futures dans la boucle de compréhension-action, produisant des VLA unifiés qui comprennent, génèrent et agissent conjointement - lisant le texte et les images tout en produisant des images futures et des actions. Cependant, ces modèles s'appuient soit sur des experts externes pour l'unification des modalités, soit traitent la génération d'images et la prédiction d'actions comme des processus séparés, limitant ainsi les bénéfices d'une synergie directe entre ces tâches. Notre philosophie fondamentale est d'optimiser conjointement la génération et l'action grâce à un processus de débruîtage synchrone, où l'affinement itératif permet aux actions d'évoluer depuis leur initialisation, sous guidance visuelle constante et suffisante. Nous ancrons cette philosophie dans notre modèle VLA par Diffusion Unifiée et le Processus de Diffusion par Débruîtage Discret Joint (JD3P), qui est un processus de diffusion intégrant multiples modalités dans une trajectoire de débruîtage unique servant de mécanisme clé pour rendre la compréhension, la génération et l'action intrinsèquement synergiques. Notre modèle et notre théorie sont construits sur un espace tokenisé unifié de toutes les modalités et un mécanisme d'attention hybride. Nous proposons en outre une pipeline d'entraînement en deux étapes et plusieurs techniques inférentielles qui optimisent performance et efficacité. Notre approche atteint des performances state-of-the-art sur des benchmarks tels que CALVIN, LIBERO et SimplerEnv avec une inférence 4 fois plus rapide que les méthodes autorégressives, et nous démontrons son efficacité par des analyses approfondies et des évaluations en conditions réelles. Notre page projet est disponible à l'adresse https://irpn-eai.github.io/UD-VLA.github.io/.
Les modèles fondateurs en génération vidéo démontrent des capacités remarquables en tant que modèles du monde potentiels pour simuler le monde physique. Cependant, leur application dans des domaines à haut risque comme la chirurgie, qui exigent une connaissance causale profonde et spécialisée plutôt que des règles physiques générales, reste une lacune critique inexplorée. Pour relever systématiquement ce défi, nous présentons SurgVeo, le premier benchmark expert pour l'évaluation des modèles de génération vidéo en chirurgie, et la Pyramide de Plausibilité Chirurgicale (SPP), un nouveau cadre à quatre niveaux conçu pour évaluer les sorties des modèles, de l'apparence basique à la stratégie chirurgicale complexe. Sur la base du benchmark SurgVeo, nous confions au modèle avancé Veo-3 une tâche de prédiction zero-shot sur des séquences chirurgicales issues de procédures laparoscopiques et neurochirurgicales. Un panel de quatre chirurgiens certifiés évalue les vidéos générées selon la SPP. Nos résultats révèlent un "écart de plausibilité" distinct : si Veo-3 atteint une Plausibilité Perceptive Visuelle exceptionnelle, il échoue de manière critique aux niveaux supérieurs de la SPP, incluant la Plausibilité du Fonctionnement des Instruments, la Plausibilité de la Rétroaction Environnementale et la Plausibilité de l'Intention Chirurgicale. Ce travail fournit la première preuve quantitative du gouffre entre le mimétisme visuellement convaincant et la compréhension causale dans l'IA chirurgicale. Nos résultats issus de SurgVeo et de la SPP établissent une base cruciale et une feuille de route pour développer des modèles futurs capables de naviguer dans les complexités des domaines spécialisés des soins de santé réels.
Le succès remarquable des modèles de langage de grande taille multimodaux (MLLMs) a stimulé les progrès dans le domaine des plongements multimodaux. Cependant, les modèles existants restent intrinsèquement discriminatifs, ce qui limite leur capacité à bénéficier du paradigme de génération piloté par le raisonnement. Dans ce travail, nous ouvrons la voie à l'exploration des plongements génératifs, unifiant les tâches de plongement au sein d'un paradigme génératif. Nous proposons UME-R1, un cadre universel de plongement multimodal comprenant une stratégie d'apprentissage en deux étapes : un réglage fin supervisé de démarrage à froid qui dote le modèle de capacités de raisonnement et lui permet de générer à la fois des plongements discriminatifs et génératifs ; puis un apprentissage par renforcement qui améliore le raisonnement et optimise davantage la qualité des plongements génératifs. Ce travail pionnier révèle quatre insights clés : 1) les plongements génératifs permettent des gains de performance substantiels par rapport aux plongements discriminatifs conventionnels en exploitant les puissantes capacités de raisonnement génératif des MLLMs ; 2) les plongements discriminatifs et génératifs sont complémentaires, leur performance oracle combinée dépassant largement celle de chaque type pris isolément ; 3) l'apprentissage par renforcement peut efficacement améliorer les plongements génératifs, établissant un paradigme d'optimisation scalable ; 4) un échantillonnage répété lors de l'inférence améliore la couverture des tâches en aval (pass@k), soulignant le potentiel de scalabilité au moment de l'inférence des plongements génératifs. Évalué sur le benchmark MMEB-V2 à travers 78 tâches couvrant la vidéo, l'image et les documents visuels, UME-R1 surpasse significativement les modèles de plongement discriminatifs conventionnels et offre une base pour des plongements multimodaux génératifs plus interprétables et pilotés par le raisonnement. Notre code, modèles et jeux de données seront publics à l'adresse https://github.com/XMUDeepLIT/UME-R1.
Les grands modèles de langage (LLM) ont démontré d'importantes capacités en raisonnement en langage naturel, mais leur application au renseignement sur les cybermenaces (CTI) reste limitée. L'analyse du CTI implique de condenser de grands volumes de rapports non structurés en connaissances exploitables, un processus où les LLM pourraient réduire considérablement la charge de travail des analystes. CTIBench a introduit un benchmark complet pour évaluer les LLM sur plusieurs tâches de CTI. Dans ce travail, nous étendons CTIBench en développant AthenaBench, un benchmark amélioré qui inclut un pipeline de création de jeu de données optimisé, une suppression des doublons, des métriques d'évaluation affinées et une nouvelle tâche centrée sur les stratégies d'atténuation des risques. Nous évaluons douze LLM, incluant des modèles propriétaires de pointe tels que GPT-5 et Gemini-2.5 Pro, ainsi que sept modèles open-source des familles LLaMA et Qwen. Si les LLM propriétaires obtiennent globalement de meilleurs résultats, leurs performances restent médiocres sur les tâches nécessitant un raisonnement intensif, comme l'attribution des acteurs de menace et l'atténuation des risques, les modèles open-source affichant un retard encore plus marqué. Ces résultats mettent en lumière les limitations fondamentales des capacités de raisonnement des LLM actuels et soulignent la nécessité de modèles spécifiquement conçus pour les workflows et l'automatisation du CTI.
La mise en correspondance d'interface graphique (GUI grounding) est une fonction clé des agents d'utilisation informatique, qui associe des instructions en langage naturel à des régions d'écran actionnables. Les approches existantes basées sur les modèles de langage multimodaux (MLLM) le formulent généralement comme une tâche de génération de coordonnées basée sur le texte, mais générer directement des coordonnées précises à partir d'entrées visuelles reste difficile et coûteux en calcul. Une manière intuitive de mettre en œuvre cette correspondance consiste d'abord à sélectionner des patches visuels pertinents pour les instructions, puis à déterminer l'emplacement de clic précis dans ces patches. En nous appuyant sur l'observation que les MLLM généraux possèdent une capacité native de mise en correspondance, nichée dans leurs mécanismes d'attention, nous proposons GUI-AIMA, un framework de fine-tuning supervisé sans coordonnées et basé sur l'attention pour une mise en correspondance efficace des interfaces graphiques. GUI-AIMA aligne l'attention multimodale intrinsèque des MLLM avec des signaux de mise en correspondance par patchs. Ces signaux sont calculés de manière adaptative pour diverses instructions utilisateur par agrégation multi-têtes sur des matrices d'attention requête-visuelle simplifiées. De plus, son approche sans coordonnées permet d'intégrer facilement une étape de zoom amovible. GUI-AIMA-3B a été entraîné avec seulement 85 000 captures d'écran, démontrant une exceptionnelle efficacité des données et confirmant qu'un entraînement léger peut déclencher la capacité native de mise en correspondance des MLLM. Il obtient des performances de pointe parmi les modèles 3B, atteignant une précision moyenne de 58,6 % sur ScreenSpot-Pro et 62,2 % sur OSWorld-G. Page du projet : https://github.com/sjz5202/GUI-AIMA
Les explications en langage naturel (NLE) décrivent comment les grands modèles de langage (LLM) prennent des décisions, en s'appuyant à la fois sur des connaissances contextuelles externes (CK) et sur des connaissances paramétriques (PK) stockées dans les poids du modèle. Comprendre leur interaction est essentiel pour évaluer l'ancrage des NLE, mais cela reste peu exploré. Les travaux antérieurs ont largement examiné uniquement une génération en une seule étape, généralement la réponse finale, et ont modélisé l'interaction PK et CK uniquement comme un choix binaire dans un sous-espace de rang 1. Cela néglige des formes d'interaction plus riches, telles que des connaissances complémentaires ou de soutien. Nous proposons un nouveau sous-espace de projection de rang 2 qui dissocie plus précisément les contributions PK et CK et l'utilisons pour la première analyse multi-étapes des interactions de connaissances à travers des séquences NLE plus longues. Les expériences sur quatre ensembles de données de questions-réponses et trois LLM à réglage par instruction et à poids ouverts montrent que les interactions de connaissances diverses sont mal représentées dans un sous-espace de rang 1 mais sont efficacement capturées dans notre formulation de rang 2. Notre analyse multi-étapes révèle que les NLE hallucinés s'alignent fortement sur la direction PK, que les NLE fidèles au contexte équilibrent PK et CK, et que l'incitation en chaîne de pensée (Chain-of-Thought) pour les NLE déplace les NLE générés vers la CK en réduisant la dépendance à la PK. Ce travail fournit le premier cadre pour des études systématiques des interactions de connaissances multi-étapes dans les LLM grâce à une dissociation plus riche dans un sous-espace de rang 2. Code et données : https://github.com/copenlu/pk-ck-knowledge-disentanglement.
Dans le domaine de la recherche d'information, la fusion de candidats provenant de systèmes de recherche hétérogènes est un défi de longue date, particulièrement pour des données complexes et multimodales comme les vidéos. Si les techniques de fusion typiques ne nécessitent pas d'entraînement, elles reposent uniquement sur des signaux de classement ou de score, ignorant les représentations des candidats. Ce travail présente Vote-in-Context (ViC), un cadre généralisé et sans entraînement qui repense le reclassement et la fusion de listes comme une tâche de raisonnement à zéro-shot pour un modèle vision-langage (VLM). L'idée centrale est de sérialiser les preuves de contenu et les métadonnées du système de recherche directement dans l'invite du VLM, permettant au modèle de pondérer de manière adaptive le consensus des systèmes de recherche par rapport au contenu visuel et linguistique. Nous démontrons la généralité de ce cadre en l'appliquant au domaine difficile de la recherche vidéo cross-modale. À cette fin, nous introduisons le S-Grid, une carte de sérialisation compacte qui représente chaque vidéo sous forme de grille d'images, éventuellement associée à des sous-titres pour permettre un raisonnement de liste sur les candidats vidéo. ViC est évalué à la fois comme reclassificateur de liste unique, où il améliore considérablement la précision des systèmes de recherche individuels, et comme système de fusion par ensemble, où il surpasse constamment des bases de référence solides comme CombSUM. Sur des benchmarks de recherche vidéo incluant ActivityNet et VATEX, le cadre établit de nouvelles performances de pointe en recherche à zéro-shot, démontrant son efficacité à traiter des signaux visuels et temporels complexes aux côtés du texte. En environnement zéro-shot, ViC atteint des scores Rappel@1 de 87,1 % (t2v) / 89,0 % (v2t) sur MSR-VTT et 99,6 % (v2t) sur VATEX, représentant des gains massifs allant jusqu'à +40 points de Rappel@1 par rapport aux précédentes bases de référence de pointe. Nous présentons ViC comme une méthode simple, reproductible et très efficace pour transformer les VLM modernes en puissants outils de reclassement et de fusion à zéro-shot. Le code et les ressources sont disponibles publiquement à l'adresse : https://github.com/mohammad2012191/ViC