papers.description
Le paradigme « Penser avec le texte » et « Penser avec les images » améliore significativement les capacités de raisonnement des grands modèles de langage (LLM) et des modèles de vision et langage (VLM). Cependant, ces paradigmes présentent des limitations inhérentes. (1) Les images ne capturent que des instants uniques et ne parviennent pas à représenter des processus dynamiques ou des changements continus, et (2) La séparation du texte et de la vision en modalités distinctes entrave une compréhension et une génération multimodales unifiées. Pour surmonter ces limitations, nous introduisons « Penser avec la vidéo », un nouveau paradigme qui exploite les modèles de génération vidéo, tels que Sora-2, pour relier le raisonnement visuel et textuel dans un cadre temporel unifié. Pour soutenir cette exploration, nous avons développé le Benchmark de Pensée Vidéo (VideoThinkBench). VideoThinkBench englobe deux catégories de tâches : (1) les tâches centrées sur la vision (par exemple, les puzzles d'observation visuelle), et (2) les tâches centrées sur le texte (par exemple, des sous-ensembles de GSM8K, MMMU). Notre évaluation établit Sora-2 comme un raisonneur compétent. Sur les tâches centrées sur la vision, Sora-2 est généralement comparable aux VLM de pointe (SOTA), et les dépasse même sur plusieurs tâches, comme les jeux d'observation visuelle. Sur les tâches centrées sur le texte, Sora-2 atteint une précision de 92 % sur MATH et de 75,53 % sur MMMU. De plus, nous analysons systématiquement l'origine de ces capacités. Nous constatons également que l'auto-cohérence et l'apprentissage en contexte peuvent améliorer les performances de Sora-2. En résumé, nos résultats démontrent que le modèle de génération vidéo est le modèle unifié potentiel pour la compréhension et la génération multimodales, positionnant la « pensée par la vidéo » comme un paradigme de raisonnement multimodal unifié.
Permettre aux grands modèles multimodaux (LMM) d'intégrer profondément l'interaction visuelle avec des capacités de raisonnement à long terme reste un défi de longue date dans ce domaine. Les récentes avancées en raisonnement visuo-centré explorent un paradigme prometteur, « Penser avec les Images », pour les LMM, marquant une transition d'un raisonnement assisté par l'image vers une pensée interactive avec l'image. Bien que cette étape permette aux modèles de se concentrer sur des régions d'image à granularité fine, les progrès restent limités par des espaces d'outils visuels restreints et des conceptions de flux de travail spécifiques aux tâches. Pour combler cette lacune, nous présentons V-Thinker, un assistant de raisonnement multimodal polyvalent qui permet une pensée interactive et visuo-centrée via un apprentissage par renforcement de bout en bout. V-Thinker comprend deux composants clés : (1) un Volant d'Inertie d'Évolution des Données qui synthétise, fait évoluer et vérifie automatiquement des ensembles de données de raisonnement interactif selon trois dimensions - diversité, qualité et difficulté ; et (2) un Curriculum de Formation Progressive Visuelle qui aligne d'abord la perception via une supervision au niveau du point, puis intègre le raisonnement interactif grâce à un cadre d'apprentissage par renforcement en deux étapes. Par ailleurs, nous introduisons VTBench, un benchmark vérifié par des experts ciblant les tâches de raisonnement interactif visuo-centré. Des expériences approfondies démontrent que V-Thinker surpasse constamment des bases de référence solides basées sur les LMM dans des scénarios de raisonnement général et interactif, offrant des perspectives précieuses pour faire progresser les applications de raisonnement interactif avec l'image.
Bien que l'apprentissage par renforcement (RL) puisse renforcer les capacités des agents basés sur des grands modèles de langage (LLM) en permettant une auto-amélioration par l'interaction, son adoption pratique reste difficile en raison du coût élevé des déploiements, de la diversité limitée des tâches, de signaux de récompense peu fiables et de la complexité infrastructurelle, autant de facteurs qui entravent la collecte de données d'expérience à grande échelle. Pour relever ces défis, nous présentons DreamGym, le premier cadre unifié conçu pour synthétiser des expériences diverses avec une approche scalable afin de permettre un entraînement RL en ligne efficace pour les agents autonomes. Plutôt que de dépendre de déploiements coûteux en environnement réel, DreamGym distille la dynamique de l'environnement en un modèle d'expérience basé sur le raisonnement qui déduit des transitions d'état cohérentes et des signaux de feedback via un raisonnement pas à pas, permettant ainsi une collecte scalable de déploiements d'agents pour le RL. Pour améliorer la stabilité et la qualité des transitions, DreamGym exploite un tampon de relecture d'expérience initialisé avec des données hors ligne du monde réel et continuellement enrichi par de nouvelles interactions pour soutenir activement l'entraînement de l'agent. Pour améliorer l'acquisition de connaissances, DreamGym génère de manière adaptative de nouvelles tâches qui challengent la politique actuelle de l'agent, permettant un apprentissage curriculaire en ligne plus efficace. Les expériences menées dans divers environnements et avec différentes architectures d'agents démontrent que DreamGym améliore substantiellement l'entraînement RL, à la fois dans des configurations entièrement synthétiques et dans des scénarios de transfert sim-to-real. Sur des tâches non optimisées pour le RL comme WebArena, DreamGym surpasse toutes les méthodes de référence de plus de 30%. Et dans des configurations adaptées au RL mais coûteuses, il atteint les performances de GRPO et PPO en utilisant uniquement des interactions synthétiques. Lors du transfert d'une politique entraînée exclusivement sur des expériences synthétiques vers un RL en environnement réel, DreamGym procure des gains de performance supplémentaires significatifs tout en nécessitant beaucoup moins d'interactions réelles, offrant ainsi une stratégie d'amorçage scalable pour le RL généraliste.
Nous soutenons que les progrès en matière d'intelligence multimodale véritable nécessitent une transition des systèmes réactifs axés sur des tâches spécifiques et de l'utilisation de contextes longs par force brute vers un paradigme plus large : la supersensation. Nous définissons la supersensation spatiale selon quatre étapes dépassant la compréhension purement linguistique : la perception sémantique (nommer ce qui est vu), la cognition événementielle en flux continu (maintien de la mémoire à travers des expériences continues), la cognition spatiale 3D implicite (inférer le monde derrière les pixels) et la modélisation prédictive du monde (création de modèles internes qui filtrent et organisent l'information). Les benchmarks actuels testent largement seulement les premières étapes, offrant une couverture étroite de la cognition spatiale et défiant rarement les modèles de manière à exiger une véritable modélisation du monde. Pour faire progresser la supersensation spatiale, nous présentons VSI-SUPER, un benchmark en deux parties : VSR (rappel spatial visuel à long terme) et VSC (comptage spatial visuel continu). Ces tâches nécessitent des entrées vidéo de durée arbitrairement longue mais résistent à l'expansion de contexte par force brute. Nous testons ensuite les limites de la mise à l'échelle des données en constituant VSI-590K et en entraînant Cambrian-S, obtenant une amélioration absolue de +30 % sur VSI-Bench sans sacrifier les capacités générales. Pourtant, les performances sur VSI-SUPER restent limitées, indiquant que la mise à l'échelle seule est insuffisante pour la supersensation spatiale. Nous proposons la sensation prédictive comme voie à suivre, en présentant une preuve de concept dans laquelle un prédicteur auto-supervisé de l'image latente suivante exploite la surprise (l'erreur de prédiction) pour piloter la mémoire et la segmentation d'événements. Sur VSI-SUPER, cette approche surpasse substantiellement les principaux modèles de référence propriétaires, montrant que la supersensation spatiale exige des modèles qui non seulement voient, mais anticipent, sélectionnent et organisent également l'expérience.
Nous présentons Nemotron Nano V2 VL, le dernier modèle de la série vision-langage Nemotron, conçu pour une compréhension robuste des documents du monde réel, une compréhension vidéo longue et des tâches de raisonnement. Nemotron Nano V2 VL offre des améliorations significatives par rapport à notre modèle précédent, Llama-3.1-Nemotron-Nano-VL-8B, dans tous les domaines visuels et textuels, grâce à des améliorations majeures de l'architecture du modèle, des jeux de données et des méthodes d'entraînement. Nemotron Nano V2 VL s'appuie sur Nemotron Nano V2, un LLM hybride de type Mamba-Transformer, et sur des techniques innovantes de réduction de tokens pour atteindre un débit d'inférence supérieur dans les scénarios de documents longs et de vidéos. Nous publions les points de contrôle du modèle aux formats BF16, FP8 et FP4, et partageons une grande partie de nos jeux de données, de nos méthodes et de notre code d'entraînement.
L'hypothèse des billets de loterie forts (SLTH) conjecture que des sous-réseaux performants, appelés billets de loterie forts (SLT), sont cachés dans les réseaux de neurones initialisés aléatoirement. Bien que des études théoriques récentes aient établi la SLTH pour diverses architectures neuronales, la SLTH pour les architectures de transformateurs manque encore de fondements théoriques. En particulier, la théorie actuelle de la SLTH ne prend pas encore en compte le mécanisme d'attention multi-têtes (MHA), une composante essentielle des transformateurs. Pour combler cette lacune, nous introduisons une analyse théorique de l'existence de SLTs au sein des MHA. Nous démontrons que si un MHA initialisé aléatoirement avec H têtes et une dimension d'entrée d possède une dimension cachée O(dlog(Hd^{3/2})) pour la clé et la valeur, il contient un SLT qui approxime un MHA arbitraire avec la même dimension d'entrée avec une forte probabilité. De plus, en exploitant cette théorie pour les MHA, nous étendons la SLTH aux transformateurs sans couches de normalisation. Nous validons empiriquement nos résultats théoriques, démontrant que l'erreur d'approximation entre le SLT contenu dans un modèle source (MHA et transformateur) et une cible approximative équivalente décroît exponentiellement lorsqu'on augmente la dimension cachée du modèle source.
Nous présentons GUI-360°, une base de données à grande échelle et exhaustive ainsi qu'une suite de benchmarks conçues pour faire progresser les agents informatiques utilisateurs (AIU). Les AIU présentent des défis uniques et sont contraints par trois lacunes persistantes : une pénurie de tâches réalistes pour les AIU, l'absence de pipelines automatisés de collecte et d'annotation pour les trajectoires multimodales, et le manque d'un benchmark unifié évaluant conjointement l'ancrage dans l'interface graphique, l'analyse de l'écran et la prédiction d'actions. GUI-360° résout ces lacunes avec un pipeline augmenté par LLM, largement automatisé, pour le sourcing de requêtes, la construction de modèles d'environnements, l'instanciation de tâches, l'exécution par lots et le filtrage qualité piloté par LLM. Le corpus publié contient plus de 1,2 million d'étapes d'action exécutées à travers des milliers de trajectoires dans des applications bureautiques Windows populaires, et inclut des captures d'écran en pleine résolution, des métadonnées d'accessibilité lorsqu'elles sont disponibles, des objectifs instanciés, des traces de raisonnement intermédiaires, ainsi que des trajectoires d'actions réussies et échouées. La base de données prend en charge trois tâches canoniques - l'ancrage dans l'interface graphique, l'analyse de l'écran et la prédiction d'actions - et un espace d'action hybride GUI+API qui reflète les conceptions modernes d'agents. L'évaluation des modèles état-de-l'art vision-langage sur GUI-360° révèle des lacunes substantielles immédiates en matière d'ancrage et de prédiction d'actions ; le fine-tuning supervisé et l'apprentissage par renforcement apportent des gains significatifs mais ne comblent pas l'écart avec la fiabilité du niveau humain. Nous publions GUI-360° et le code accompagnateur pour faciliter la recherche reproductible et accélérer les progrès sur les AIU robustes pour poste de travail. L'ensemble complet des données a été rendu public sur https://huggingface.co/datasets/vyokky/GUI-360.
Les récents progrès des modèles vision-langage (VLM) ont permis d'atteindre des performances de pointe sur de nombreuses tâches de référence. Cependant, l'utilisation de corpus d'apprentissage préalable à l'échelle d'Internet, souvent propriétaires, soulève une préoccupation majeure pour les praticiens et les utilisateurs : une performance gonflée due à la fuite des données de test. Si des travaux antérieurs ont proposé des stratégies d'atténuation telles que la décontamination des données d'apprentissage préalable et la refonte des benchmarks pour les LLM, la direction complémentaire du développement de méthodes de détection pour les VLM contaminés reste peu explorée. Pour combler cette lacune, nous contaminons délibérément des VLM open-source sur des benchmarks populaires et montrons que les approches de détection existantes échouent complètement ou présentent un comportement incohérent. Nous proposons ensuite une nouvelle méthode de détection simple mais efficace basée sur une perturbation sémantique multimodale, démontrant que les modèles contaminés ne parviennent pas à généraliser sous des perturbations contrôlées. Enfin, nous validons notre approche sur plusieurs stratégies de contamination réalistes, confirmant sa robustesse et son efficacité. Le code et l'ensemble de données perturbé seront rendus publics.
Des benchmarks robustes sont cruciaux pour évaluer les modèles de langage de grande taille multimodaux (MLLM). Pourtant, nous constatons que les modèles peuvent exceller dans de nombreux benchmarks multimodaux sans une compréhension visuelle solide, en exploitant plutôt des biais, des connaissances linguistiques a priori et des motifs superficiels. Ceci est particulièrement problématique pour les benchmarks centrés sur la vision qui sont censés nécessiter des entrées visuelles. Nous adoptons un principe de diagnostic pour la conception des benchmarks : si un benchmark peut être contourné, il le sera. Les concepteurs devraient donc tenter de « contourner » leurs propres benchmarks en premier lieu, en utilisant des procédures de diagnostic et de débiaisage pour identifier et atténuer systématiquement les biais non visuels. Un diagnostic efficace nécessite un « entraînement direct sur l'ensemble de test » – en sondant l'ensemble de test publié pour révéler ses motifs intrinsèques et exploitables. Nous opérationnalisons cette norme avec deux composantes. Premièrement, nous diagnostiquons la sensibilité d'un benchmark en utilisant une méthodologie de « Test de Résistance sur l'Ensemble de Test » (TsT). Notre principal outil de diagnostic consiste à fine-tuner un modèle de langage puissant via une validation croisée k-fold exclusivement sur les entrées textuelles non visuelles de l'ensemble de test pour révéler les performances par raccourci et attribuer à chaque échantillon un score de biais s(x). Nous complétons cela par un diagnostic léger basé sur une Forêt Aléatoire opérant sur des caractéristiques conçues manuellement pour un audit rapide et interprétable. Deuxièmement, nous débiasons les benchmarks en filtrant les échantillons à fort biais à l'aide d'une procédure « d'Élagage Itératif des Biais » (IBP). En appliquant ce cadre à quatre benchmarks – VSI-Bench, CV-Bench, MMMU et VideoMME – nous mettons à jour des biais non visuels omniprésents. Comme étude de cas, nous appliquons notre cadre complet pour créer VSI-Bench-Debiased, démontrant une solvabilité non visuelle réduite et un écart de performance plus large pour les modèles sans vision que l'original.
Les modèles émergents de systèmes de grands modèles de langage (LLM), tels que l'inférence désagrégée, le routage par mélange d'experts (MoE) et le réglage fin asynchrone par renforcement, nécessitent une communication point-à-point flexible au-delà des simples collectives. Les implémentations existantes sont verrouillées à des contrôleurs d'interface réseau (NIC) spécifiques, entravant l'intégration dans les moteurs d'inférence et la portabilité entre les fournisseurs de matériel. Nous présentons TransferEngine, qui connecte les fonctionnalités des NIC courants pour exposer une interface uniforme. TransferEngine expose des opérations WriteImm unilatérales avec une primitive ImmCounter pour la notification d'achèvement, sans hypothèses d'ordonnancement du transport réseau, en gérant de manière transparente plusieurs NIC par GPU. Nous démontrons un débit maximal de 400 Gbps sur NVIDIA ConnectX-7 et sur l'adaptateur de tissu élastique (EFA) d'AWS. Nous présentons TransferEngine via trois systèmes de production : (1) le transfert de KvCache pour une inférence désagrégée avec mise à l'échelle dynamique, (2) des mises à jour de poids par RL atteignant 1,3 seconde pour des modèles à billions de paramètres, et (3) une implémentation de dispatch/combinaison MoE dépassant la latence de décodage de DeepEP sur ConnectX-7, avec les premières latences viables sur EFA. Nous démontrons que notre communication point-à-point portable complète les collectives tout en évitant le verrouillage.
Nous proposons EVTAR, un modèle d'essayage virtuel de bout en bout avec référence additionnelle, qui ajuste directement le vêtement cible sur l'image de la personne tout en incorporant des images de référence pour améliorer la précision de l'essayage. La plupart des approches existantes d'essayage virtuel reposent sur des entrées complexes telles que des images de personnes agnostiques, la pose humaine, le densepose ou les points clés du corps, ce qui les rend laborieuses et peu pratiques pour les applications réelles. En revanche, EVTAR adopte une stratégie d'apprentissage en deux étapes, permettant une inférence simple avec uniquement l'image source et les vêtements cibles en entrée. Notre modèle génère des résultats d'essayage sans masques, sans densepose ni cartes de segmentation. De plus, EVTAR exploite des images de référence additionnelles de différentes personnes portant les mêmes vêtements pour mieux préserver la texture du vêtement et les détails fins. Ce mécanisme est analogue à la manière dont les humains considèrent les modèles de référence lorsqu'ils choisissent des tenues, simulant ainsi un effet d'habillage plus réaliste et de meilleure qualité. Nous enrichissons les données d'apprentissage avec des références supplémentaires et des images de personnes non appariées pour soutenir ces capacités. Nous évaluons EVTAR sur deux benchmarks largement utilisés et diverses tâches, et les résultats valident systématiquement l'efficacité de notre approche.
Malgré des capacités impressionnantes en compréhension vidéo de haut niveau, les modèles de langage multimodaux éprouvent des difficultés dans le raisonnement spatial à travers le temps et l'espace. Si les approches actuelles d'entraînement spatial reposent sur des données vidéo du monde réel, l'obtention de séquences diversifiées avec des annotations spatiales précises reste un goulot d'étranglement. Pour remédier à cela, nous présentons SIMS-V — un cadre systématique de génération de données qui exploite l'information privilégiée des simulateurs 3D pour créer des données d'entraînement vidéo spatialement riches pour les modèles de langage multimodaux. En utilisant ce cadre, nous étudions quelles propriétés des données simulées favorisent un transfert efficace vers le monde réel grâce à des ablations systématiques des types de questions, de leurs mélanges et de leurs échelles. Nous identifions un ensemble minimal de trois catégories de questions (mesure métrique, raisonnement dépendant de la perspective et suivi temporel) qui s'avèrent les plus efficaces pour développer une intelligence spatiale transférable, surpassant une couverture exhaustive malgré l'utilisation de moins de types de questions. Ces insights permettent un entraînement hautement efficace : notre modèle de langage vidéo de 7 milliards de paramètres, affiné sur seulement 25 000 exemples simulés, surpasse la base de référence plus grande de 72 milliards de paramètres et obtient des performances compétitives avec des modèles propriétaires sur des benchmarks rigoureux de raisonnement spatial en monde réel. Notre approche démontre une généralisation robuste, maintenant les performances en compréhension vidéo générale tout en affichant des améliorations substantielles sur les tâches spatiales incarnées et réelles.
L'évaluation automatique des systèmes de traduction parole-texte (ST) est généralement réalisée en comparant les hypothèses de traduction avec une ou plusieurs traductions de référence. Bien qu'efficace dans une certaine mesure, cette approche hérite de la limitation de l'évaluation basée sur des références, qui ignore les informations précieuses provenant de l'entrée source. En traduction automatique (MT), les progrès récents ont montré que les métriques neuronales intégrant le texte source obtiennent une meilleure corrélation avec les jugements humains. Étendre cette idée à la ST, cependant, n'est pas trivial car la source est audio plutôt que textuelle, et des transcriptions fiables ou des alignements entre la source et les références sont souvent indisponibles. Dans ce travail, nous menons la première étude systématique sur les métriques tenant compte de la source pour la ST, en nous concentrant particulièrement sur les conditions opérationnelles réelles où les transcriptions sources ne sont pas disponibles. Nous explorons deux stratégies complémentaires pour générer des substituts textuels de l'audio d'entrée : les transcriptions par reconnaissance automatique de la parole (ASR) et les rétro-traductions de la traduction de référence. Nous introduisons également un nouvel algorithme de re-segmentation cross-lingue en deux étapes pour résoudre le problème de désalignement entre les sources synthétiques et les traductions de référence. Nos expériences, menées sur deux benchmarks de ST couvrant 79 paires de langues et six systèmes de ST aux architectures et niveaux de performance divers, montrent que les transcriptions ASR constituent une source synthétique plus fiable que les rétro-traductions lorsque le taux d'erreur sur les mots est inférieur à 20 %, tandis que les rétro-traductions représentent toujours une alternative moins coûteuse en calcul mais toujours efficace. De plus, notre algorithme de re-segmentation cross-lingue permet une utilisation robuste des métriques MT sensibles à la source dans l'évaluation de la ST, ouvrant la voie vers des méthodologies d'évaluation de la traduction de la parole plus précises et plus fondées.
Le football humanoïde représente un défi représentatif pour l'intelligence incarnée, nécessitant que les robots opèrent dans une boucle perception-action étroitement couplée. Cependant, les systèmes existants reposent généralement sur des modules découplés, entraînant des réponses retardées et des comportements incohérents dans des environnements dynamiques, tandis que les limitations perceptives du monde réel exacerbent davantage ces problèmes. Dans ce travail, nous présentons un contrôleur unifié basé sur l'apprentissage par renforcement qui permet aux robots humanoïdes d'acquérir des compétences footballistiques réactives grâce à l'intégration directe de la perception visuelle et du contrôle moteur. Notre approche étend les Adversarial Motion Priors à des contextes perceptifs dans des environnements dynamiques réels, faisant le pont entre l'imitation motrice et le contrôle dynamique ancré visuellement. Nous introduisons une architecture encodeur-décodeur combinée à un système de perception virtuelle modélisant les caractéristiques visuelles du monde réel, permettant à la politique de retrouver des états privilégiés à partir d'observations imparfaites et d'établir une coordination active entre la perception et l'action. Le contrôleur résultant démontre une forte réactivité, exécutant constamment des comportements footballistiques cohérents et robustes dans divers scénarios, y compris lors de véritables matchs de RoboCup.
Nous présentons SAIL-RL, un cadre d'apprentissage par renforcement (RL) post-entraînement qui améliore les capacités de raisonnement des modèles de langage multimodaux de grande taille (MLLM) en leur apprenant quand et comment réfléchir. Les approches existantes sont limitées par une supervision basée uniquement sur les résultats, qui récompense les bonnes réponses sans garantir un raisonnement solide, et par des stratégies de réflexion uniformes, conduisant souvent à une réflexion excessive sur des tâches simples et insuffisante sur des problèmes complexes. SAIL-RL relève ces défis avec un système de récompense dual : la Récompense de Réflexion, qui évalue la qualité du raisonnement via l'enracinement factuel, la cohérence logique et la consistance des réponses, et la Récompense de Jugement, qui détermine de manière adaptative si un raisonnement approfondi ou une réponse directe est approprié. Les expériences sur le modèle SAIL-VL2, à la pointe de l'état de l'art, montrent que SAIL-RL améliore les performances sur des benchmarks de raisonnement et de compréhension multimodale aux échelles 4B et 8B, atteignant des performances compétitives face à des modèles commerciaux fermés comme GPT-4o, et réduit substantiellement les hallucinations, l'établissant comme un cadre principiel pour construire des MLLM plus fiables et adaptatifs. Le code sera disponible à l'adresse https://github.com/BytedanceDouyinContent/SAIL-RL.