papers.description
Les modèles de fondation vidéo génèrent un contenu visuellement réaliste et temporellement cohérent, mais leur fiabilité en tant que simulateurs du monde dépend de leur capacité à capturer les contraintes physiques, logiques et spatiales. Les métriques existantes telles que la Fréchet Video Distance (FVD) privilégient la qualité perceptuelle et négligent les échecs de raisonnement, incluant les violations de causalité, de physique et de cohérence globale. Nous présentons MMGR (Évaluation et Référentiel de Raisonnement Générative Multi-Modal), un cadre d'évaluation structuré reposant sur cinq capacités de raisonnement : Physique, Logique, Spatial 3D, Spatial 2D et Temporel. MMGR évalue le raisonnement génératif dans trois domaines : le Raisonnement Abstrait (ARC-AGI, Sudoku), la Navigation Incarnée (navigation et localisation en 3D du monde réel) et le Sens Commun Physique (sports et interactions compositionnelles). MMGR applique des métriques fines qui exigent une exactitude holistique à la fois pour la génération vidéo et image. Nous évaluons les principaux modèles vidéo (Veo-3, Sora-2, Wan-2.2) et image (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), révélant d'importants écarts de performance entre les domaines. Les modèles montrent un succès modéré sur les tâches de Sens Commun Physique mais performent faiblement en Raisonnement Abstrait (moins de 10 % de précision sur ARC-AGI) et peinent avec la planification spatiale à long terme dans des contextes incarnés. Notre analyse met en lumière des limitations clés des modèles actuels, incluant une dépendance excessive aux données perceptuelles, une faible cohérence de l'état global et des objectifs qui récompensent la plausibilité visuelle au détriment de l'exactitude causale. MMGR propose un référentiel de diagnostic unifié et une voie vers des modèles génératifs du monde conscients du raisonnement.
Les récents progrès en génération vidéo ont produit des contenus si réalistes qu'ils deviennent souvent indiscernables des vidéos authentiques, faisant de la détection des vidéos générées par IA un enjeu sociétal émergent. Les benchmarks antérieurs de détection AIGC évaluent principalement des vidéos sans audio, ciblent des domaines narratifs larges et se concentrent exclusivement sur la classification. Pourtant, il reste incertain si les modèles de génération vidéo les plus avancés peuvent produire des vidéos immersives avec audio qui trompent efficacement les humains et les modèles vision-langage (VLM). Pour répondre à cette question, nous présentons Video Reality Test, une suite de benchmarks vidéo basée sur des sources ASMR pour tester le réalisme perceptuel sous couplage audio-visuel serré, comportant les dimensions suivantes : (i) Des sources vidéo-audio ASMR immersives. Construit sur une sélection rigoureuse de vidéos ASMR réelles, le benchmark cible des interactions action-objet granulaires avec une diversité d'objets, d'actions et d'arrière-plans. (ii) Évaluation par les pairs. Un protocole créateur-relecteur adversarial où les modèles de génération vidéo jouent le rôle de créateurs cherchant à tromper les relecteurs, tandis que les VLM servent de relecteurs tentant d'identifier les faux contenus. Nos résultats expérimentaux montrent que : Le meilleur créateur Veo3.1-Fast trompe même la plupart des VLM : le relecteur le plus performant (Gemini 2.5-Pro) n'atteint que 56% de précision (aléatoire 50%), bien en deçà des experts humains (81,25%). L'ajout d'audio amliore la discrimination réel-faux, mais des indices superficiels comme les filigranes peuvent encore induire significativement les modèles en erreur. Ces résultats délimitent la frontière actuelle du réalisme en génération vidéo et exposent les limitations des VLM en matière de fidélité perceptuelle et de cohérence audio-visuelle. Notre code est disponible à l'adresse https://github.com/video-reality-test/video-reality-test.
Ce document présente WorldPlay, un modèle de diffusion vidéo en flux continu permettant une modélisation mondiale interactive en temps réel avec une cohérence géométrique à long terme, résolvant le compromis entre vitesse et mémoire qui limite les méthodes actuelles. WorldPlay tire sa puissance de trois innovations clés. 1) Nous utilisons une Représentation d'Actions Duale pour permettre un contrôle d'action robuste en réponse aux entrées clavier et souris de l'utilisateur. 2) Pour assurer une cohérence à long terme, notre Mémoire de Contexte Reconstitué reconstruit dynamiquement le contexte à partir des images passées et utilise un recadrage temporel pour garder accessibles les images géométriquement importantes mais anciennes, atténuant efficacement l'affaiblissement de la mémoire. 3) Nous proposons également le Forçage de Contexte, une nouvelle méthode de distillation conçue pour un modèle conscient de la mémoire. L'alignement du contexte mémoriel entre le modèle enseignant et le modèle étudiant préserve la capacité de ce dernier à utiliser des informations à long terme, permettant des vitesses en temps réel tout en empêchant la dérive des erreurs. Ensemble, ces innovations permettent à WorldPlay de générer des vidéos en flux continu de 720p sur de longues durées à 24 images par seconde avec une cohérence supérieure, se comparant favorablement aux techniques existantes et montrant une forte généralisation à travers des scènes diverses. La page du projet et une démo en ligne sont disponibles aux adresses suivantes : https://3d-models.hunyuan.tencent.com/world/ et https://3d.hunyuan.tencent.com/sceneTo3D.
La génération d'images pilotée par des sujets est passée de la composition mono-sujet à multi-sujets, tout en négligeant la distinction, c'est-à-dire la capacité à identifier et générer le sujet correct lorsque les entrées contiennent plusieurs candidats. Cette limitation restreint l'efficacité dans des environnements visuels complexes et réalistes. Nous proposons Scone, une méthode unifiée de compréhension-génération qui intègre composition et distinction. Scone permet à l'expert de compréhension d'agir comme un pont sémantique, transmettant l'information sémantique et guidant l'expert de génération pour préserver l'identité du sujet tout en minimisant les interférences. Un schéma d'entraînement en deux étapes apprend d'abord la composition, puis améliore la distinction par alignement sémantique et masquage attentionnel. Nous introduisons également SconeEval, un benchmark pour évaluer à la fois la composition et la distinction dans divers scénarios. Les expériences démontrent que Scone surpasse les modèles open-source existants dans les tâches de composition et de distinction sur deux benchmarks. Notre modèle, benchmark et données d'entraînement sont disponibles à l'adresse : https://github.com/Ryann-Ran/Scone.
Le traçage spatial, en tant que capacité fondamentale d'interaction incarnée pour les robots, est intrinsèquement complexe car il nécessite un raisonnement métrique multi-étapes combiné à des références spatiales complexes et à des mesures métriques en monde réel. Cependant, les méthodes existantes peinent à accomplir cette tâche compositionnelle. Pour y remédier, nous proposons RoboTracer, un VLM (Vision-Language Model) conscient de la 3D qui réalise à la fois la référence spatiale 3D et la mesure via un encodeur spatial universel et un décodeur supervisé par régression pour améliorer la conscience de l'échelle lors du fine-tuning supervisé (SFT). De plus, RoboTracer améliore le raisonnement métrique multi-étapes via un fine-tuning par renforcement (RFT) avec des récompenses de processus sensibles aux métriques, supervisant des indices perceptifs intermédiaires clés pour générer avec précision des traces spatiales. Pour soutenir l'entraînement SFT et RFT, nous présentons TraceSpatial, un jeu de données à grande échelle de 30 millions de paires question-réponse, couvrant des scènes extérieures/intérieures/sur tabletop et supportant des processus de raisonnement complexes (jusqu'à 9 étapes). Nous présentons également TraceSpatial-Bench, un benchmark difficile qui comble le manque d'évaluation du traçage spatial. Les résultats expérimentaux montrent que RoboTracer surpasse les méthodes de référence en compréhension, mesure et référence spatiales, avec un taux de réussite moyen de 79,1 %, et obtient également des performances SOTA sur TraceSpatial-Bench avec une large avance, dépassant Gemini-2.5-Pro de 36 % en précision. Fait notable, RoboTracer peut être intégré à diverses politiques de contrôle pour exécuter des tâches dynamiques à long terme sur divers robots (UR5, humanoïde G1) dans des scènes réelles encombrées.
L'évolution rapide des modèles de langage de grande taille (LLM) repose sur la qualité et la diversité des ensembles de données post-entraînement. Cependant, une dichotomie critique persiste : si les modèles sont rigoureusement évalués par des benchmarks, les données qui les alimentent restent une boîte noire, caractérisée par une composition opaque, une provenance incertaine et un manque d'évaluation systématique. Cette opacité entrave la reproductibilité et obscurcit le lien de causalité entre les caractéristiques des données et les comportements des modèles. Pour combler cette lacune, nous présentons OpenDataArena (ODA), une plateforme holistique et ouverte conçue pour évaluer la valeur intrinsèque des données post-entraînement. ODA établit un écosystème complet comprenant quatre piliers essentiels : (i) un pipeline unifié d'entraînement-évaluation qui garantit des comparaisons équitables et ouvertes entre divers modèles (par exemple, Llama, Qwen) et domaines ; (ii) un cadre de notation multidimensionnel qui profile la qualité des données selon des dizaines d'axes distincts ; (iii) un explorateur interactif de lignée de données pour visualiser la généalogie des ensembles de données et disséquer les sources des composants ; et (iv) une boîte à outils entièrement open-source pour l'entraînement, l'évaluation et la notation afin de favoriser la recherche sur les données. Des expériences approfondies sur ODA – couvrant plus de 120 ensembles de données d'entraînement dans de multiples domaines sur 22 benchmarks, validées par plus de 600 cycles d'entraînement et 40 millions de points de données traités – révèlent des insights non triviaux. Notre analyse met en lumière les compromis inhérents entre la complexité des données et les performances des tâches, identifie la redondance dans les benchmarks populaires via le traçage de la lignée, et cartographie les relations généalogiques entre les ensembles de données. Nous publions tous les résultats, outils et configurations pour démocratiser l'accès à l'évaluation de données de haute qualité. Plutôt que de simplement étendre un classement, ODA envisage un changement d'une curation de données par essais et erreurs vers une science fondée de l'IA axée sur les données (Data-Centric AI), ouvrant la voie à des études rigoureuses sur les lois de mélange des données et la composition stratégique des modèles de base.
La recherche de similarité vectorielle (VSS) dans les espaces de haute dimension émerge rapidement comme une fonctionnalité centrale des systèmes de base de données de nouvelle génération pour de nombreux services gourmands en données – allant de la recherche d'embeddings dans les grands modèles de langage (LLM), à la recherche d'information sémantique et aux moteurs de recommandation. Cependant, les benchmarks actuels évaluent la VSS principalement sur le compromis rappel-latence par rapport à une vérité terrain définie uniquement par des métriques de distance, négligeant la façon dont la qualité de la récupération impacte finalement les tâches en aval. Cette déconnexion peut induire en erreur tant la recherche académique que la pratique industrielle. Nous présentons Iceberg, une suite de benchmarks holistique pour l'évaluation en bout en bout des méthodes de VSS dans des contextes applicatifs réalistes. Adoptant une perspective centrée sur la tâche, Iceberg met en lumière l'*Entonnoir de Perte d'Information*, qui identifie trois sources principales de dégradation des performances de bout en bout : (1) la **Perte d'Embedding** lors de l'extraction des caractéristiques ; (2) le **Mauvais Usage des Métriques**, où les distances reflètent mal la pertinence pour la tâche ; (3) la **Sensibilité à la Distribution des Données**, soulignant la robustesse des index face aux asymétries et aux multimodalités. Pour une évaluation plus complète, Iceberg couvre huit jeux de données diversifiés dans des domaines clés tels que la classification d'images, la reconnaissance faciale, la recherche textuelle et les systèmes de recommandation. Chaque jeu de données, comprenant de 1 à 100 millions de vecteurs, inclut des étiquettes riches et spécifiques à la tâche ainsi que des métriques d'évaluation, permettant d'évaluer les algorithmes de recherche dans le pipeline applicatif complet plutôt que de manière isolée. Iceberg évalue 13 méthodes de VSS state-of-the-art et les re-classe sur la base de métriques au niveau applicatif, révélant des écarts substantiels par rapport aux classements traditionnels dérivés uniquement d'évaluations rappel-latence. S'appuyant sur ces insights, nous définissons un ensemble de méta-caractéristiques centrées sur la tâche et déduisons un arbre de décision interprétable pour guider les praticiens dans la sélection et le réglage des méthodes de VSS pour leurs charges de travail spécifiques.
Les graphiques vectoriels évolutifs (SVG) sont au cœur du design web moderne, et la demande pour les animer ne cesse de croître à mesure que les environnements web deviennent plus dynamiques. Pourtant, l'automatisation de l'animation des graphiques vectoriels reste un défi pour les modèles vision-langage (VLM), malgré les progrès récents en génération de code et en planification du mouvement. Les VLM traitent souvent mal les SVG, car des parties visuellement cohérentes sont souvent fragmentées en formes de bas niveau qui offrent peu d'indications sur les éléments qui devraient se déplacer ensemble. Dans cet article, nous présentons un cadre qui restaure la structure sémantique nécessaire à une animation fiable des SVG et révèle la couche manquante que les systèmes VLM actuels négligent. Ceci est réalisé grâce à une agrégation statistique de multiples prédictions faibles de parties, permettant au système d'inférer stablement la sémantique à partir de prédictions bruitées. En réorganisant les SVG en groupes sémantiques, notre approche permet aux VLM de produire des animations ayant une bien plus grande cohérence. Nos expériences démontrent des gains substantiels par rapport aux approches existantes, suggérant que la restauration sémantique est l'étape clé qui permet une animation robuste des SVG et supporte des interactions plus interprétables entre les VLM et les graphiques vectoriels.
Le principal défi de la génération de vidéos en flux continu est de maintenir la cohérence du contenu sur un contexte long, ce qui exige une conception mémoire sophistiquée. La plupart des solutions existantes gèrent la mémoire en compressant les images historiques selon des stratégies prédéfinies. Cependant, différents segments vidéo à générer devraient s'appuyer sur des indices historiques distincts, ce qu'une stratégie fixe peine à satisfaire. Dans ce travail, nous proposons MemFlow pour résoudre ce problème. Plus précisément, avant de générer le segment suivant, nous mettons à jour dynamiquement la banque mémoire en retrouvant les images historiques les plus pertinentes via l'invitation textuelle associée à ce segment. Cette conception assure une cohérence narrative même en cas de nouveaux événements ou de changements de scénario dans les images futures. De plus, lors de la génération, nous n'activons que les tokens les plus pertinents de la banque mémoire pour chaque requête dans les couches d'attention, garantissant ainsi efficacement l'efficacité de la génération. Ainsi, MemFlow atteint une cohérence exceptionnelle sur contexte long avec une charge computationnelle négligeable (réduction de vitesse de 7,9 % par rapport à la baseline sans mémoire) et préserve la compatibilité avec tout modèle de génération vidéo en flux continu utilisant un cache KV.
La conception de fonctions de récompense efficaces représente un défi central et souvent ardu en apprentissage par renforcement (RL), particulièrement lors du développement d'agents autonomes pour des tâches de raisonnement complexes. Bien que des approches d'optimisation automatique des récompenses existent, elles reposent généralement sur des heuristiques évolutionnaires sans dérivées qui traitent la fonction de récompense comme une boîte noire, ne parvenant pas à capturer la relation causale entre la structure de la récompense et la performance à la tâche. Pour combler cette lacune, nous proposons le Differentiable Evolutionary Reinforcement Learning (DERL), un cadre bi-niveaux qui permet la découverte autonome de signaux de récompense optimaux. Dans DERL, un méta-optimiseur fait évoluer une fonction de récompense (c'est-à-dire une Méta-Récompense) en composant des primitives atomiques structurées, guidant l'entraînement d'une politique en boucle interne. De manière cruciale, contrairement aux approches évolutionnaires précédentes, DERL est différentiable dans sa méta-optimisation : il traite la performance de validation en boucle interne comme un signal pour mettre à jour le Méta-Optimiseur via l'apprentissage par renforcement. Cela permet à DERL d'approximer le « méta-gradient » de la réussite de la tâche, apprenant progressivement à générer un retour d'information plus dense et plus actionnable. Nous validons DERL dans trois domaines distincts : agent robotique (ALFWorld), simulation scientifique (ScienceWorld) et raisonnement mathématique (GSM8k, MATH). Les résultats expérimentaux montrent que DERL atteint des performances à l'état de l'art sur ALFWorld et ScienceWorld, surpassant significativement les méthodes reposant sur des récompenses heuristiques, en particulier dans des scénarios hors-distribution. L'analyse de la trajectoire évolutive démontre que DERL capture avec succès la structure intrinsèque des tâches, permettant un alignement auto-améliorant des agents sans intervention humaine.
Nous présentons Olmo 3, une famille de modèles de langage entièrement ouverts à la pointe de la technologie, disponibles aux échelles de 7 et 32 milliards de paramètres. La conception des modèles Olmo 3 cible le raisonnement en contexte long, l'appel de fonctions, la programmation, le suivi d'instructions, le dialogue général et la restitution de connaissances. Cette version inclut l'intégralité du flux de développement du modèle, c'est-à-dire le cycle de vie complet de la famille de modèles, incluant chaque étape, point de contrôle, donnée et dépendance utilisée pour sa construction. Notre modèle phare, Olmo 3 Think 32B, est le modèle de réflexion entièrement ouvert le plus performant jamais publié à ce jour.
La construction de modèles de raisonnement généralistes par apprentissage par renforcement (RL) implique une hétérogénéité inter-domaines substantielle, incluant de grandes variations dans la longueur des réponses à l'inférence et la latence de vérification. Cette variabilité complique l'infrastructure RL, ralentit l'entraînement et rend difficile la définition du curriculum d'apprentissage (par exemple, l'extension de la longueur des réponses) et la sélection des hyperparamètres. Dans ce travail, nous proposons l'apprentissage par renforcement en cascade par domaine (Cascade RL) pour développer des modèles de raisonnement généralistes, Nemotron-Cascade, capables de fonctionner à la fois en mode instruction et en mode réflexion profonde. S'éloignant des approches conventionnelles qui mélangent des prompts hétérogènes de différents domaines, Cascade RL orchestre un RL séquentiel par domaine, réduisant la complexité technique et offrant des performances de pointe sur un large éventail de benchmarks. Notamment, le RLHF pour l'alignement, utilisé comme étape préliminaire, améliore la capacité de raisonnement du modèle bien au-delà d'une simple optimisation des préférences, et les étapes RLVR ultérieures par domaine dégradent rarement les performances sur les benchmarks obtenus dans les domaines antérieurs et peuvent même les améliorer (voir une illustration dans la Figure 1). Notre modèle de 14B, après RL, surpasse son enseignant SFT, DeepSeek-R1-0528, sur LiveCodeBench v5/v6/Pro et atteint une performance de niveau médaille d'argent aux Olympiades Internationales d'Informatique (IOI) 2025. Nous partageons de manière transparente nos recettes d'entraînement et de données.
Les grands modèles de langage (LLM) ont démontré un potentiel remarquable pour transformer les systèmes de recommandation, en passant d'une correspondance implicite des schémas comportementaux à un raisonnement explicite sur les intentions. Bien que RecGPT-V1 ait ouvert la voie à ce paradigme en intégrant un raisonnement basé sur les LLM pour l'exploration des centres d'intérêt des utilisateurs et la prédiction des étiquettes d'articles, il souffre de quatre limitations fondamentales : (1) une inefficacité computationnelle et une redondance cognitive entre les multiples voies de raisonnement ; (2) une diversité insuffisante des explications dans une génération à modèle fixe ; (3) une généralisation limitée sous des paradigmes d'apprentissage supervisé ; et (4) une évaluation simpliste axée sur les résultats qui ne répond pas aux standards humains. Pour relever ces défis, nous présentons RecGPT-V2 avec quatre innovations clés. Premièrement, un Système Multi-Agents Hiérarchique restructure le raisonnement intentionnel via une collaboration coordonnée, éliminant la duplication cognitive tout en permettant une couverture diversifiée des intentions. Combiné à l'Inférence par Représentations Hybrides qui compresse les contextes comportementaux des utilisateurs, notre framework réduit la consommation GPU de 60 % et améliore le rappel exclusif de 9,39 % à 10,99 %. Deuxièmement, un framework de Méta-Prompting génère dynamiquement des prompts adaptatifs contextuels, améliorant la diversité des explications de +7,3 %. Troisièmement, l'apprentissage par renforcement contraint atténue les conflits multi-récompenses, permettant une amélioration de +24,1 % dans la prédiction d'étiquettes et de +13,0 % dans l'acceptation des explications. Quatrièmement, un framework Agent-comme-Juge décompose l'évaluation en un raisonnement en plusieurs étapes, améliorant l'alignement avec les préférences humaines. Les tests A/B en ligne sur Taobao démontrent des améliorations significatives : +2,98 % CTR, +3,71 % IPV, +2,19 % TV et +11,46 % NER. RecGPT-V2 établit à la fois la faisabilité technique et la viabilité commerciale du déploiement à grande échelle d'un raisonnement intentionnel alimenté par les LLM, comblant le fossé entre l'exploration cognitive et l'utilité industrielle.
Si les modèles de génération et les modèles unifiés existants excellent dans la génération d'images générales, ils peinent avec les tâches nécessitant un raisonnement approfondi, une planification et des capacités de cartographie précise des données vers le visuel au-delà des scénarios généraux. Pour repousser les limites actuelles, nous introduisons une nouvelle tâche exigeante : la visualisation créative de tableaux, qui requiert du modèle de générer une infographie qui visualise fidèlement et esthétiquement les données d'un tableau donné. Pour relever ce défi, nous proposons ShowTable, un pipeline qui synergise les MLLM avec les modèles de diffusion via un processus progressif d'auto-correction. Le MLLM agit comme l'orchestrateur central pour raisonner le plan visuel et juger les erreurs visuelles afin de fournir des instructions affinées, tandis que le modèle de diffusion exécute les commandes du MLLM, obtenant ainsi des résultats à haute fidélité. Pour soutenir cette tâche et notre pipeline, nous introduisons trois pipelines automatisés de construction de données pour entraîner les différents modules. De plus, nous présentons TableVisBench, un nouveau benchmark comprenant 800 instances difficiles réparties sur 5 dimensions d'évaluation, pour mesurer les performances sur cette tâche. Les expériences démontrent que notre pipeline, instancié avec différents modèles, surpasse significativement les approches de référence, soulignant ses capacités efficaces de raisonnement multi-modal, de génération et de correction d'erreurs.
Les progrès récents en génération 3D à partir d'images ont ouvert d'immenses possibilités pour la conception, la RA/RV et la robotique. Cependant, pour utiliser les assets 3D générés par l'IA dans des applications réelles, une exigence cruciale est la capacité de les modifier facilement. Nous présentons une méthode feedforward, Steer3D, pour ajouter une pilotabilité textuelle aux modèles de génération image-à-3D, permettant l'édition des assets 3D générés par le langage. Notre approche s'inspire de ControlNet, que nous adaptons à la génération image-à-3D pour permettre un pilotage textuel directement lors d'une passe avant. Nous construisons un moteur de données scalable pour la génération automatique de données, et développons une méthode d'entraînement en deux étapes basée sur l'apprentissage par flow-matching et l'Optimisation Directe des Préférences (DPO). Par rapport aux méthodes concurrentes, Steer3D suit plus fidèlement les instructions textuelles et maintient une meilleure cohérence avec l'asset 3D original, tout en étant 2,4 à 28,5 fois plus rapide. Steer3D démontre qu'il est possible d'ajouter une nouvelle modalité (le texte) pour piloter la génération de modèles génératifs image-à-3D pré-entraînés avec seulement 100 000 données. Site du projet : https://glab-caltech.github.io/steer3d/
La mise à l'échelle rapide des grands modèles de langage (LLM) a permis d'atteindre des performances remarquables, mais elle entraîne également des coûts mémoire prohibitifs. Les approches existantes d'optimisation des paramètres, telles que l'élagage et la quantification, compriment principalement les modèles pré-entraînés sans améliorer leur capacité architecturale, atteignant ainsi le plafond de représentation du modèle de base. Dans ce travail, nous proposons VersatileFFN, un nouveau réseau feed-forward (FFN) permettant une réutilisation flexible des paramètres dans les dimensions de largeur et de profondeur, avec un budget de paramètres fixe. Inspiré par la théorie des doubles processus cognitifs, VersatileFFN comprend deux voies adaptatives : une voie à largeur versatile qui génère un mélange de sous-experts à partir d'un seul FFN partagé, imitant le routage parcimonieux d'experts sans augmenter les paramètres, et une voie à profondeur versatile qui applique récursivement le même FFN pour simuler un traitement plus profond pour les tokens complexes. Une porte à sensibilité de difficulté équilibre dynamiquement les deux voies, orientant les tokens "faciles" vers la route efficace en largeur et allouant un raffinement itératif plus profond aux tokens "difficiles". De manière cruciale, les deux voies réutilisent les mêmes paramètres, donc toute capacité supplémentaire provient du calcul plutôt que de la mémoire. Les expériences menées sur divers benchmarks et échelles de modèles démontrent l'efficacité de la méthode. Le code sera disponible à l'adresse https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
La prédiction d'affordances, qui identifie les régions d'interaction sur les objets à partir d'instructions langagières, est essentielle pour l'IA incarnée. Les modèles end-to-end dominants couplent le raisonnement de haut niveau et l'ancrage de bas niveau dans un pipeline monolithique et s'appuient sur l'entraînement avec des jeux de données annotés, ce qui entraîne une mauvaise généralisation sur de nouveaux objets et environnements inédits. Dans cet article, nous dépassons ce paradigme en proposant A4-Agent, un cadre agentique sans entraînement qui découple la prédiction d'affordances en un pipeline à trois étapes. Notre framework coordonne des modèles de fondation spécialisés au moment du test : (1) un Rêveur qui utilise des modèles génératifs pour visualiser l'apparence d'une interaction ; (2) un Penseur qui exploite les grands modèles vision-langage pour décider quelle partie d'objet interagir ; et (3) un Repéreur qui orchestre des modèles de fondation visuelle pour localiser précisément la zone d'interaction. En tirant parti des forces complémentaires de modèles pré-entraînés sans ajustement spécifique à la tâche, notre cadre zero-shot surpasse significativement les méthodes supervisées de pointe sur plusieurs benchmarks et démontre une robuste généralisation aux environnements réels.
Nous présentons SS4D, un modèle génératif natif 4D qui synthétise des objets 3D dynamiques directement à partir de vidéos monoculaires. Contrairement aux approches antérieures qui construisent des représentations 4D en optimisant des modèles génératifs 3D ou vidéo, nous entraînons un générateur directement sur des données 4D, atteignant ainsi une haute fidélité, une cohérence temporelle et une cohérence structurelle. Au cœur de notre méthode se trouve un ensemble compressé de latents structurés dans l'espace-temps. Plus précisément : (1) Pour pallier la rareté des données d'entraînement 4D, nous nous appuyons sur un modèle pré-entraîné de reconstruction 3D à partir d'une seule image, préservant ainsi une forte cohérence spatiale. (2) La cohérence temporelle est assurée par l'introduction de couches temporelles dédiées qui raisonnent sur les différentes images. (3) Pour permettre un entraînement et une inférence efficaces sur de longues séquences vidéo, nous compressons la séquence latente le long de l'axe temporel à l'aide de convolutions 4D factorisées et de blocs de sous-échantillonnage temporel. De plus, nous utilisons une stratégie d'entraînement soigneusement conçue pour renforcer la robustesse aux occlusions.
Les modèles de diffusion discrets masqués (MDM) ont obtenu des performances remarquables sur un large éventail de tâches multimodales, incluant la compréhension, la génération et l'édition d'images. Cependant, leur vitesse d'inférence reste sous-optimale en raison de la nécessité de traiter de manière répétée des jetons masqués redondants à chaque étape d'échantillonnage. Dans ce travail, nous proposons Sparse-LaViDa, un nouveau cadre de modélisation qui tronque dynamiquement les jetons masqués inutiles à chaque étape d'inférence pour accélérer l'échantillonnage des MDM. Pour préserver la qualité de génération, nous introduisons des jetons registres spécialisés qui servent de représentations compactes pour les jetons tronqués. De plus, pour garantir la cohérence entre l'entraînement et l'inférence, nous concevons un masque d'attention spécialisé qui reproduit fidèlement la procédure d'échantillonnage tronquée pendant l'entraînement. Basé sur le MDM unifié de pointe LaViDa-O, Sparse-LaViDa permet d'atteindre une accélération allant jusqu'à 2x sur diverses tâches, incluant la génération d'images à partir de texte, l'édition d'images et le raisonnement mathématique, tout en maintenant la qualité de génération.
La quantification non paramétrique a suscité beaucoup d'attention en raison de son efficacité paramétrique et de son extensibilité à de grands dictionnaires. Dans cet article, nous présentons une formulation unifiée des différentes méthodes de quantification non paramétrique à travers le prisme du codage par réseaux. La géométrie des codes en réseau explique la nécessité de termes de perte auxiliaires lors de l'entraînement d'auto-encodeurs avec certaines variantes existantes sans table de consultation comme BSQ. Pour progresser, nous explorons quelques candidats possibles, incluant les réseaux aléatoires, les réseaux de Fibonacci généralisés et les réseaux d'empilement de sphères le plus dense. Parmi ceux-ci, nous constatons que la méthode de quantification basée sur le réseau de Leech, dénommée Spherical Leech Quantization (Λ_{24}-SQ), conduit à la fois à une procédure d'entraînement simplifiée et à un meilleur compromis reconstruction-compression grâce à sa haute symétrie et sa distribution uniforme sur l'hypersphère. Dans les tâches de tokenisation et compression d'images, cette approche de quantification obtient une meilleure qualité de reconstruction sur toutes les métriques que BSQ, l'état de l'art précédent, tout en consommant légèrement moins de bits. L'amélioration s'étend également aux frameworks état de l'art de génération d'images auto-régressifs.
Les modèles de langage par diffusion (dLM) sont apparus comme un paradigme prometteur permettant une génération parallèle non autorégressive, mais leur efficacité d'apprentissage reste inférieure à celle des modèles de langage autorégressifs (AR) lorsqu'ils sont entraînés à partir de zéro. Pour remédier à cela, nous étudions la conversion AR-vers-dLM afin de transformer des modèles AR pré-entraînés en dLM efficaces, alliant rapidité et préservation de la précision des modèles AR sur les tâches. Nous y parvenons en identifiant les limitations des schémas d'attention et des objectifs des méthodes existantes de conversion AR-vers-dLM, puis en proposant des principes et méthodologies pour une conversion plus efficace. Plus précisément, nous comparons d'abord systématiquement différents schémas d'attention et constatons que le maintien des distributions de poids pré-entraînés des modèles AR est crucial pour une conversion réussie. Ainsi, nous introduisons un schéma de pré-entraînement continu avec un motif d'attention par blocs, qui reste causal entre les blocs tout en permettant une modélisation bidirectionnelle au sein de chaque bloc. Cette approche préserve mieux les distributions de poids des modèles AR pré-entraînés qu'une modélisation entièrement bidirectionnelle, en plus de son avantage connu de permettre la mise en cache KV, et conduit à un gain à la fois en précision et en efficacité. Deuxièmement, pour réduire l'écart entre l'entraînement et les tests concernant la distribution des tokens masqués (uniforme vs. fortement gauche-droite), nous proposons une stratégie de masquage des tokens dépendante de la position, qui attribue des probabilités de masquage plus élevées aux tokens ultérieurs lors de l'entraînement pour mieux imiter le comportement en phase de test. En nous appuyant sur ce cadre, nous menons des études approfondies sur les schémas d'attention des dLM, leur dynamique d'entraînement et d'autres choix de conception, fournissant des insights actionnables pour une conversion AR-vers-dLM scalable. Ces études donnent naissance à la famille Efficient-DLM, qui surpasse les modèles AR et dLM de l'état de l'art. Par exemple, notre Efficient-DLM 8B atteint une précision supérieure de +5,4% / +2,7% avec un débit 4,5x / 2,7x plus élevé comparé respectivement à Dream 7B et Qwen3 4B.
Ce travail n'introduit pas une méthode nouvelle, mais établit plutôt une base de référence simple, incrémentale, mais essentielle pour l'ancrage temporel vidéo (VTG), une capacité fondamentale dans la compréhension vidéo. Bien que les grands modèles de langage multimodaux (MLLMs) excellent dans diverses tâches de compréhension vidéo, les méthodes pour les optimiser spécifiquement pour le VTG restent peu explorées. Dans cet article, nous présentons TimeLens, une investigation systématique sur la construction de MLLMs dotés de fortes capacités en VTG, suivant deux dimensions principales : la qualité des données et la conception algorithmique. Nous exposons d'abord des problèmes critiques de qualité dans les benchmarks VTG existants et introduisons TimeLens-Bench, comprenant des versions soigneusement ré-annotées de trois benchmarks populaires avec des critères de qualité stricts. Notre analyse révèle des reclassements spectaculaires des modèles par rapport aux benchmarks antérieurs, confirmant le manque de fiabilité des standards d'évaluation passés. Nous abordons également le problème des données d'entraînement bruitées via un pipeline de ré-annotation automatisé, produisant TimeLens-100K, un jeu de données d'entraînement à grande échelle et de haute qualité. En nous appuyant sur cette base de données, nous menons des explorations approfondies des principes de conception algorithmique, dégageant une série d'enseignements significatifs et de pratiques efficaces mais efficientes. Celles-ci incluent un encodage textuel entrelacé pour la représentation temporelle, une approche de reinforcement learning sans raisonnement (thinking-free) avec récompenses vérifiables (RLVR) comme paradigme d'entraînement, et des protocoles soigneusement conçus pour l'entraînement RLVR. Ces efforts aboutissent aux modèles TimeLens, une famille de MLLMs affichant des performances de pointe en VTG parmi les modèles open-source, surpassant même des modèles propriétaires tels que GPT-5 et Gemini-2.5-Flash. Tous les codes, données et modèles seront publiés pour faciliter la recherche future.
Atteindre une intelligence incarnée véritablement adaptative nécessite des agents qui apprennent non seulement en imitant des démonstrations statiques, mais en s'améliorant continuellement par l'interaction environnementale, ce qui est analogue à la manière dont les humains maîtrisent les compétences par la pratique. Les modèles Vision-Langage-Action (VLA) ont fait progresser la manipulation robotique en exploitant les grands modèles de langage, mais restent fondamentalement limités par le Fine-Tuning Supervisé (SFT) : ils nécessitent des centaines de démonstrations par tâche, mémorisent rigidement les trajectoires et échouent à s'adapter lorsque les conditions de déploiement s'écartent de l'entraînement. Nous présentons EVOLVE-VLA, un cadre d'entraînement au moment du test permettant aux VLA de s'adapter continuellement par interaction avec l'environnement avec un nombre minimal, voire nul, de démonstrations spécifiques à la tâche. Le principal défi technique consiste à remplacer les signaux de récompense oracle (indisponibles au moment du test) par un retour d'information autonome. Nous résolvons ce problème grâce à un estimateur de progrès apprenant fournissant un retour dense et, point crucial, nous concevons notre cadre pour « dompter » ce signal intrinsèquement bruité via deux mécanismes : (1) un mécanisme d'estimation de progrès accumulé lissant les estimations ponctuelles bruitées, et (2) une stratégie d'extension progressive de l'horizon permettant une évolution graduelle de la politique. EVOLVE-VLA obtient des gains substantiels : +8,6 % sur les tâches à long horizon, +22,0 % en apprentissage en one-shot, et permet une généralisation inter-tâches – atteignant 20,8 % de succès sur des tâches non vues sans entraînement sur des démonstrations spécifiques (contre 0 % pour le SFT pur). Une analyse qualitative révèle des capacités émergentes absentes des démonstrations, incluant la récupération d'erreurs et des stratégies novatrices. Ce travail représente une étape cruciale vers des VLA qui apprennent et s'adaptent véritablement, dépassant l'imitation statique pour tendre vers des améliorations continues autonomes.
Nous présentons CRISP, une méthode qui reconstruit une cinématique humaine simulable et la géométrie de la scène à partir d'une vidéo monoculaire. Les travaux antérieurs sur la reconstruction conjointe humain-scène s'appuient sur des préconisations issues des données et sur une optimisation conjointe sans intégration de la physique, ou produisent une géométrie bruitée avec des artéfacts qui entraînent l'échec des politiques de suivi du mouvement lors d'interactions avec la scène. En revanche, notre idée clé est de reconstruire une géométrie convexe, propre et prête pour la simulation en ajustant des primitives planes à une reconstruction de la scène sous forme de nuage de points, via un pipeline simple de clustering basé sur la profondeur, les normales et le flux. Pour reconstruire la géométrie de la scène pouvant être occultée durant les interactions, nous utilisons une modélisation des contacts humain-scène (par exemple, nous utilisons la posture humaine pour reconstruire l'assise occultée d'une chaise). Enfin, nous garantissons la plausibilité physique des reconstructions humaines et scéniques en les utilisant pour piloter un contrôleur d'avatar humanoïde via l'apprentissage par renforcement. Notre approche réduit le taux d'échec du suivi du mouvement de 55,2 % à 6,9 % sur des benchmarks vidéo centrés sur l'humain (EMDB, PROX), tout en offrant un débit de simulation par renforcement 43 % plus rapide. Nous la validons en outre sur des vidéos en conditions réelles, incluant des vidéos capturées de manière informelle, des vidéos Internet, et même des vidéos générées par Sora. Cela démontre la capacité de CRISP à générer à grande échelle des mouvements humains et des environnements d'interaction physiquement valides, faisant ainsi progresser significativement les applications réel-vers-sim pour la robotique et la RA/RV.
La restauration d'images médicales (MedIR) vise à reconstruire des images médicales de haute qualité à partir de leurs versions dégradées. Les récents progrès en MedIR se sont concentrés sur des modèles polyvalents capables de traiter simultanément plusieurs tâches de restauration différentes. Cependant, en raison des différences significatives de modalité et de types de dégradation, l'utilisation d'un modèle partagé pour ces tâches diverses nécessite une attention particulière à deux relations inter-tâches critiques : l'interférence entre tâches, qui se produit lorsque des directions de mise à jour du gradient entrent en conflit entre différentes tâches sur un même paramètre, et le déséquilibre entre tâches, qui correspond à une optimisation inégale causée par des difficultés d'apprentissage variables inhérentes à chaque tâche. Pour relever ces défis, nous proposons un Transformer adaptatif aux tâches (TAT), une nouvelle architecture qui s'adapte dynamiquement à différentes tâches grâce à deux innovations clés. Premièrement, une stratégie de génération de poids adaptative aux tâches est introduite pour atténuer l'interférence entre tâches en générant des paramètres de poids spécifiques à chaque tâche, éliminant ainsi les conflits potentiels de gradient sur les paramètres de poids partagés. Deuxièmement, une stratégie d'équilibrage des pertes adaptative aux tâches ajuste dynamiquement les pondérations des fonctions de coût en fonction des difficultés d'apprentissage spécifiques à chaque tâche, évitant ainsi la domination ou le sous-apprentissage de certaines tâches. Des expérimentations approfondies démontrent que notre méthode TAT atteint des performances à l'état de l'art sur trois tâches de MedIR—synthèse d'images TEP, réduction de bruit en scanner et super-résolution en IRM—à la fois dans des configurations dédiées à une tâche unique et polyvalentes. Le code est disponible à l'adresse https://github.com/Yaziwel/TAT.
L'inférence des grands modèles Mixture-of-Experts (MoE) est difficile en raison des exigences élevées en ressources et des charges de travail dynamiques. Les solutions existantes déploient souvent le modèle entier comme une unité monolithique unique, appliquant une configuration de ressources unifiée aux modules d'attention et aux experts malgré leurs besoins différents, ce qui limite l'évolutivité et l'efficacité des ressources. Dans cet article, nous proposons Janus, un système d'inférence MoE évolutif qui dissocie l'attention des experts sur des sous-clusters GPU séparés, permettant à chaque module d'être géré et mis à l'échelle indépendamment. Janus intègre trois conceptions clés pour une inférence MoE efficace et dissociée. Premièrement, il propose un schéma de communication adaptatif à deux phases qui exploite les hiérarchies de bande passante intra et inter-nœuds pour un échange de données à faible latence. Deuxièmement, motivé par la nature liée à la mémoire des modules MoE, Janus introduit un ordonnanceur léger implémenté sous forme de noyau GPU pour équilibrer le nombre d'experts activés entre les GPU avec une surcharge minimale, réduisant ainsi la latence d'inférence. Troisièmement, Janus effectue une gestion fine des ressources pour ajuster dynamiquement le placement des experts et mettre à l'échelle indépendamment les ressources d'attention et MoE afin d'améliorer l'efficacité globale. L'évaluation montre que Janus atteint un débit par GPU jusqu'à 3,9 fois supérieur aux systèmes les plus avancés tout en respectant les exigences de latence par token.
La réponse visuelle ancrée temporellement (GVQA) vise à localiser les segments temporels pertinents dans les vidéos et à générer des réponses précises à une question donnée ; cependant, les grands modèles vidéo-langage (LVLM) présentent une conscience temporelle limitée. Bien que les approches existantes basées sur l'optimisation de politique relative par groupe (GRPO) tentent d'améliorer l'ancrage temporel, elles peinent encore à ancrer fidèlement leurs réponses dans les preuves vidéo pertinentes, conduisant à des erreurs de localisation temporelle et des hallucinations. Dans ce travail, nous présentons Zoom-Zero, un framework grossier-à-fin qui localise d'abord les segments pertinents pour la requête, puis effectue un zoom temporel sur les images les plus saillantes pour une vérification visuelle plus fine. Notre méthode adresse les limites de la GRPO pour la tâche GVQA grâce à deux innovations clés : (i) une récompense de précision de zoom qui valide la fidélité de la prédiction d'ancrage temporel et facilite la vérification visuelle fine sur les images ancrées ; (ii) l'attribution sélective de crédit par token, qui attribue les récompenses aux tokens responsables de la localisation temporelle ou de la génération de réponses, atténuant le problème de la GRPO dans le traitement des signaux de récompense multi-facettes. Notre méthode proposée fait progresser la réponse visuelle ancrée temporellement, améliorant l'ancrage temporel de 5,2 % sur NExT-GQA et de 4,6 % sur ReXTime, tout en augmentant la précision moyenne des réponses de 2,4 %. De plus, le zoom grossier-à-fin lors de l'inférence bénéficie davantage à la compréhension de vidéos longues en préservant les détails visuels critiques sans compromettre le contexte global, produisant une amélioration moyenne de 6,4 % sur les benchmarks de vidéos longues.
L'apprentissage en contexte est fondamental pour les modèles de langage de grande taille (LLM) modernes ; cependant, les architectures dominantes imposent une structure contextuelle rigide et fixe en attribuant des indices positionnels linéaires ou constants. En nous appuyant sur la théorie de la charge cognitive (TCC), nous soutenons que cette structure non informative augmente la charge cognitive extrinsèque, consommant une capacité de mémoire de travail limitée qui devrait être allouée au raisonnement profond et à l'allocation de l'attention. Pour résoudre ce problème, nous proposons RePo, un nouveau mécanisme qui réduit la charge extrinsèque via un repositionnement du contexte. Contrairement aux approches standard, RePo utilise un module différentiable, f_φ, pour attribuer des positions aux tokens qui capturent les dépendances contextuelles, plutôt que de s'appuyer sur un intervalle entier prédéfini. En poursuivant l'apprentissage préalable sur l'architecture de base OLMo-2 1B, nous démontrons que RePo améliore significativement les performances sur des tâches impliquant des contextes bruités, des données structurées et de plus longues longueurs de contexte, tout en maintenant des performances compétitives sur des tâches générales à contexte court. Une analyse détaillée révèle que RePo alloue avec succès une attention plus élevée aux informations distantes mais pertinentes, attribue des positions dans un espace dense et non linéaire, et capture la structure intrinsèque du contexte d'entrée. Notre code est disponible à l'adresse https://github.com/SakanaAI/repo.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) s'est avéré efficace pour entraîner les grands modèles de raisonnement (LRM) en exploitant des signaux vérifiables par réponse pour guider l'optimisation des politiques, une approche qui souffre cependant de coûts d'annotation élevés. Pour atténuer ce problème, des travaux récents ont exploré des méthodes RLVR non supervisées qui dérivent les récompenses uniquement de la cohérence interne du modèle, par exemple via l'entropie ou le vote majoritaire. Bien que semblant prometteuses, ces méthodes sont souvent sujettes à un effondrement du modèle (model collapse) lors des phases avancées de l'entraînement, probablement dû au renforcement de schémas de raisonnement incorrects en l'absence de supervision externe. Dans ce travail, nous étudions un nouveau paradigme RLVR semi-supervisé qui utilise un petit ensemble étiqueté pour guider l'entraînement RLVR sur des échantillons non étiquetés. Notre idée clé est que les récompenses supervisées sont essentielles pour stabiliser l'entraînement basé sur la cohérence pour les échantillons non étiquetés, garantissant que seuls les schémas de raisonnement vérifiés sur des instances étiquetées sont incorporés dans l'apprentissage par renforcement. Sur le plan technique, nous proposons un algorithme efficace d'optimisation de politique, TraPO, qui identifie les échantillons non étiquetés fiables en faisant correspondre la similarité de leur trajectoire d'apprentissage avec celle des échantillons étiquetés. Sur cette base, TraPO atteint une remarquable efficacité des données et une forte généralisation sur six benchmarks de raisonnement mathématique largement utilisés (AIME24/25, AMC, MATH-500, Minerva et Olympiad) et trois tâches hors distribution (ARC-c, GPQA-diamond et MMLU-pro). Avec seulement 1 000 échantillons étiquetés et 3 000 non étiquetés, TraPO atteint une précision moyenne de 42,6 %, surpassant la meilleure méthode non supervisée entraînée sur 45 000 échantillons non étiquetés (38,3 %). Particulièrement notable, avec 4 000 échantillons étiquetés et 12 000 non étiquetés, TraPO surpasse même le modèle entièrement supervisé entraîné sur l'ensemble complet de 45 000 échantillons étiquetés sur tous les benchmarks, tout en n'utilisant que 10 % des données étiquetées. Le code est disponible à l'adresse https://github.com/ShenzhiYang2000/TRAPO.
Les mécanismes d'alignement de sécurité dans les grands modèles de langage empêchent les réponses aux requêtes nuisibles via un comportement de refus appris, mais ces mêmes mécanismes entravent les applications de recherche légitimes, incluant la modélisation cognitive, les tests adversariaux et l'analyse de sécurité. Bien que les techniques d'ablitération permettent une suppression chirurgicale des représentations de refus par orthogonalisation directionnelle, l'efficacité relative des implémentations disponibles reste non caractérisée. Cette étude évalue quatre outils d'ablitération (Heretic, DECCP, ErisForge, FailSpy) sur seize modèles fine-tunés par instruction (7B à 14B paramètres), rapportant la compatibilité des outils sur les 16 modèles et des métriques quantitatives sur des sous-ensembles dictés par la prise en charge des outils. Les méthodes à passage unique ont démontré une préservation supérieure des capacités sur le sous-ensemble évalué (changement moyen GSM8K sur trois modèles : ErisForge -0,28 pp ; DECCP -0,13 pp), tandis que l'ablitération optimisée par approche bayésienne a produit un décalage de distribution variable (divergence KL : 0,043-1,646) avec un impact sur les capacités dépendant du modèle. Ces résultats fournissent aux chercheurs des critères de sélection fondés sur des preuves pour le déploiement d'outils d'ablitération sur diverses architectures de modèles. La conclusion principale indique que les capacités de raisonnement mathématique présentent la sensibilité la plus élevée aux interventions d'ablitération, avec un changement GSM8K allant de +1,51 pp à -18,81 pp (-26,5 % en relatif) selon la sélection de l'outil et l'architecture du modèle.
Les modèles du monde ont démontré une grande utilité pour améliorer les performances des agents incarnés dans l'exécution de tâches. Alors que les travaux antérieurs se concentrent largement sur les modèles du monde dans l'espace des pixels, ces approches rencontrent des limitations pratiques dans les environnements d'interface graphique (GUI), où la prédiction d'éléments visuels complexes dans les états futurs est souvent difficile. Dans ce travail, nous explorons une formulation alternative de la modélisation du monde pour les agents GUI, où les transitions d'état sont décrites en langage naturel plutôt que par la prédiction de pixels bruts. Premièrement, nous introduisons MobileWorldBench, un benchmark qui évalue la capacité des modèles vision-langage (VLM) à fonctionner comme modèles du monde pour les agents mobiles GUI. Deuxièmement, nous publions MobileWorld, un jeu de données à grande échelle comprenant 1,4 million d'échantillons, qui améliore significativement les capacités de modélisation du monde des VLM. Enfin, nous proposons un nouveau cadre qui intègre les modèles du monde VLM dans le cadre de planification des agents mobiles, démontrant que les modèles du monde sémantiques peuvent directement bénéficier aux agents mobiles en améliorant les taux de réussite des tâches. Le code et le jeu de données sont disponibles à l'adresse https://github.com/jacklishufan/MobileWorld.
L'extraction de bâtiments à partir d'images de télédétection est une tâche difficile en raison des variations complexes de la structure des bâtiments. Les méthodes existantes utilisent des blocs convolutifs ou d'auto-attention pour capturer les caractéristiques multi-échelles dans les modèles de segmentation, mais l'écart inhérent des pyramides de caractéristiques et une intégration insuffisante des caractéristiques globales-locales conduisent à des résultats d'extraction imprécis et ambigus. Pour résoudre ce problème, nous présentons dans cet article un Réseau de Fusion Globale-Locale à Agrégation d'Incertitude (UAGLNet), capable d'exploiter une sémantique visuelle globale-locale de haute qualité sous la guidance d'une modélisation de l'incertitude. Plus précisément, nous proposons un encodeur coopératif novateur, qui adopte des couches hybrides de CNN et de transformer à différents stades pour capturer respectivement la sémantique visuelle locale et globale. Un bloc d'interaction coopérative intermédiaire (CIB) est conçu pour réduire l'écart entre les caractéristiques locales et globales lorsque le réseau devient plus profond. Ensuite, nous proposons un module de Fusion Globale-Locale (GLF) pour fusionner de manière complémentaire les représentations globales et locales. De plus, pour atténuer l'ambiguïté de segmentation dans les régions incertaines, nous proposons un Décodeur à Agrégation d'Incertitude (UAD) pour estimer explicitement l'incertitude pixel par pixel afin d'améliorer la précision de la segmentation. Des expériences approfondies démontrent que notre méthode obtient des performances supérieures à celles des autres méthodes de l'état de l'art. Notre code est disponible à l'adresse https://github.com/Dstate/UAGLNet
Ce document présente JMMMU-Pro, un benchmark japonais de compréhension multimodale multidisciplinaire basé sur l'image, ainsi que Vibe Benchmark Construction, une méthode de construction évolutive. Suivant l'évolution de MMMU vers MMMU-Pro, JMMMU-Pro étend JMMMU en fusionnant l'image de la question et le texte de la question en une seule image, créant ainsi un benchmark qui nécessite une compréhension intégrée visuo-textuelle via la perception visuelle. Pour construire JMMMU-Pro, nous proposons Vibe Benchmark Construction, une méthodologie dans laquelle un modèle génératif d'images (par exemple, Nano Banana Pro) produit des questions visuelles candidates, puis des humains vérifient les sorties et, si nécessaire, régénèrent les images avec des instructions ajustées pour garantir la qualité. En tirant parti des capacités de génération d'images hautement réalistes de Nano Banana Pro et de sa capacité à intégrer du texte japonais propre, nous construisons un benchmark de haute qualité à faible coût, couvrant un large éventail d'arrière-plans et de conceptions de mise en page. Les résultats expérimentaux montrent que tous les LMM open source éprouvent des difficultés considérables avec JMMMU-Pro, soulignant que JMMMU-Pro constitue un benchmark important pour orienter les futurs efforts de la communauté open source. Nous estimons que JMMMU-Pro fournit un outil d'évaluation plus rigoureux pour juger des capacités japonaises des LMM et que notre Vibe Benchmark Construction offre également une ligne directrice efficace pour le développement futur de benchmarks VQA basés sur l'image.
L'intégration rapide de l'intelligence artificielle générative dans l'éducation a accéléré la transformation numérique de l'enseignement en ligne, mais les perceptions des utilisateurs concernant les applications éducatives basées sur l'IA restent peu explorées. Cette étude réalise une évaluation fondée sur l'analyse des sentiments des avis d'utilisateurs des principales applications éducatives d'IA sur le Google Play Store pour évaluer leur efficacité, leurs défis et leurs implications pédagogiques. Notre méthode a consisté à collecter les données des applications et les avis, à utiliser RoBERTa pour une classification binaire des sentiments, GPT-4o pour l'extraction des points clés, et GPT-5 pour synthétiser les thèmes positifs/négatifs principaux. Les applications ont été catégorisées en sept types (par exemple, assistants aux devoirs, solveurs de mathématiques, outils linguistiques), avec des chevauchements reflétant des conceptions multifonctionnelles. Les résultats indiquent des sentiments majoritairement positifs, les applications d'aide aux devoirs comme Edu AI (95,9 % de positifs) et Answer.AI (92,7 %) menant en termes de précision, rapidité et personnalisation, tandis que les applications linguistiques/LMS (par exemple, Teacher AI à 21,8 % de positifs) sont à la traîne en raison d'une instabilité et de fonctionnalités limitées. Les points positifs soulignent l'efficacité pour le brainstorming, la résolution de problèmes et l'engagement ; les points négatifs se concentrent sur les paywalls, les inexactitudes, les publicités et les dysfonctionnements. Les tendances montrent que les assistants aux devoirs surpassent les outils spécialisés, soulignant le potentiel démocratisant de l'IA malgré les risques de dépendance et d'inégalité. La discussion propose de futures écosystèmes avec des modèles hybrides IA-humain, la réalité virtuelle/augmentée pour un apprentissage immersif, et une feuille de route pour les développeurs (personnalisation adaptative) et les décideurs politiques (régulation de la monétisation pour l'inclusivité). Cela souligne le rôle de l'IA générative dans l'avancement de l'enseignement en ligne en permettant des améliorations éthiques qui favorisent des environnements équitables et innovants. L'ensemble des données est disponible ici (https://github.com/erfan-nourbakhsh/GenAI-EdSent).
Ces dernières années, l'état de l'art en segmentation d'instances vidéo non supervisée repose largement sur des données vidéo synthétiques, générées à partir de jeux de données d'images centrés sur les objets comme ImageNet. Cependant, la synthèse vidéo par décalage et mise à l'échelle artificiels des masques d'instances d'images échoue à modéliser avec précision le mouvement réaliste dans les vidéos, tel que les changements de perspective, le mouvement de parties d'une ou plusieurs instances, ou le mouvement de la caméra. Pour résoudre ce problème, nous proposons un modèle de segmentation d'instances vidéo non supervisé entraîné exclusivement sur des données vidéo réelles. Nous partons de masques de segmentation d'instances non supervisés sur des images vidéo individuelles. Cependant, ces segmentations mono-image présentent un bruit temporel et leur qualité varie tout au long de la vidéo. Par conséquent, nous établissons une cohérence temporelle en identifiant des masques-clés de haute qualité dans la vidéo en exploitant des préacquis de mouvement profonds. Les pseudo-annotations éparses des masques-clés sont ensuite utilisées pour entraîner un modèle de segmentation pour une propagation implicite des masques, pour laquelle nous proposons une approche de Distillation Éparse-Vers-Dense aidée par une Temporal DropLoss. Après l'entraînement du modèle final sur l'ensemble d'étiquettes dense résultant, notre approche surpasse l'état de l'art actuel sur diverses benchmarks.
Le succès de l'apprentissage automatique moderne repose sur l'accès à des données d'apprentissage de haute qualité. Dans de nombreux scénarios réels, comme l'acquisition de données depuis des dépôts publics ou le partage entre institutions, les données sont naturellement organisées en ensembles discrets qui varient en pertinence, qualité et utilité. La sélection des dépôts ou institutions à interroger pour trouver des ensembles de données utiles, ainsi que le choix des ensembles à intégrer à l'entraînement du modèle, sont donc des décisions cruciales. Pourtant, la plupart des méthodes existantes sélectionnent des échantillons individuels et traitent toutes les données comme également pertinentes, ignorant les différences entre les ensembles de données et leurs sources. Dans ce travail, nous formalisons la tâche de sélection d'ensembles de données : choisir des ensembles entiers dans un vaste pool hétérogène afin d'améliorer les performances en aval sous contraintes de ressources. Nous proposons DaSH (Dataset Selection via Hierarchies), une méthode de sélection qui modélise l'utilité à la fois au niveau des ensembles de données et des groupes (par exemple, collections, institutions), permettant une généralisation efficace à partir d'observations limitées. Sur deux benchmarks publics (Digit-Five et DomainNet), DaSH surpasse les méthodes de référence en sélection de données avec une amélioration allant jusqu'à 26,2 % en précision, tout en nécessitant beaucoup moins d'étapes d'exploration. Des études d'ablation montrent que DaSH est robuste dans des contextes à faibles ressources et en l'absence d'ensembles de données pertinents, ce qui le rend adapté à une sélection d'ensembles de données évolutive et adaptive dans les workflows pratiques d'apprentissage multi-source.
Ce document présente un jeu de données multi-modales à grande échelle pour la segmentation vidéo d'expressions de mouvement référentielles, en se concentrant sur la segmentation et le suivi d'objets cibles dans des vidéos sur la base de descriptions langagières de leurs mouvements. Les jeux de données existants pour la segmentation vidéo référentielle ciblent souvent des objets saillants et utilisent des expressions langagières riches en attributs statiques, permettant potentiellement d'identifier l'objet cible dans une seule image. Ces jeux de données sous-estiment le rôle du mouvement dans les vidéos et les langages. Pour explorer la faisabilité d'utiliser des expressions de mouvement et des indices de raisonnement motionnel pour la compréhension vidéo au niveau pixel, nous introduisons MeViS, un jeu de données contenant 33 072 expressions de mouvement annotées manuellement, en texte et en audio, couvrant 8 171 objets dans 2 006 vidéos de scénarios complexes. Nous évaluons 15 méthodes existantes sur 4 tâches supportées par MeViS, incluant 6 méthodes de segmentation vidéo d'objets référentiels (RVOS), 3 méthodes de segmentation vidéo d'objets guidée par l'audio (AVOS), 2 méthodes de suivi multi-objets référentiel (RMOT) et 4 méthodes de description vidéo pour la nouvelle tâche de génération d'expressions de mouvement référentielles (RMEG). Les résultats mettent en évidence les faiblesses et limitations des méthodes existantes pour aborder la compréhension vidéo guidée par les expressions de mouvement. Nous analysons ensuite les défis et proposons une approche LMPM++ pour les tâches RVOS/AVOS/RMOT, qui établit de nouveaux records. Notre jeu de données fournit une plateforme facilitant le développement d'algorithmes de compréhension vidéo guidés par les expressions de mouvement dans des scènes vidéo complexes. Le jeu de données MeViS proposé et le code source de la méthode sont disponibles publiquement à l'adresse https://henghuiding.com/MeViS/.
Les modèles vision-langage à grande échelle (VLM) démontrent des capacités de raisonnement complexe impressionnantes, mais leur potentiel dans la planification séquentielle visuelle – c'est-à-dire l'exécution d'actions multi-étapes pour atteindre un objectif – reste largement inexploré. De plus, la planification séquentielle pratique implique souvent des étapes non optimales (erronées), ce qui met les VLM au défi de détecter et de corriger de telles étapes. Nous proposons le benchmark de planification séquentielle corrective (CoSPlan) pour évaluer les VLM dans des tâches de planification séquentielle basée sur la vision et sujettes aux erreurs, couvrant quatre domaines : la navigation dans un labyrinthe, le réarrangement de blocs, la reconstruction d'image et la réorganisation d'objets. CoSPlan évalue deux capacités clés : la Détection d'Erreurs (identifier une action non optimale) et l'Achèvement des Étapes (corriger et compléter les séquences d'actions pour atteindre l'objectif). Malgré l'utilisation de techniques de raisonnement de pointe comme le raisonnement en chaîne (Chain-of-Thought) et les graphes de scène, les VLM (par exemple, Intern-VLM et Qwen2) peinent sur CoSPlan, échouant à exploiter les indices contextuels pour atteindre les objectifs. Pour résoudre ce problème, nous proposons une nouvelle méthode sans apprentissage, les mises à jour incrémentales du graphe de scène (SGI), qui introduit des étapes de raisonnement intermédiaires entre l'état initial et l'état objectif. SGI aide les VLM à raisonner sur les séquences, entraînant un gain de performance moyen de 5,2 %. En plus d'améliorer la fiabilité dans la planification séquentielle corrective, SGI se généralise à des tâches de planification traditionnelles telles que Plan-Bench et la VQA.
La génération texte-vidéo (T2V) a progressé rapidement, mais maintenir une identité cohérente des personnages d'une scène à l'autre reste un défi majeur. Les méthodes de personnalisation existantes se concentrent souvent sur l'identité faciale mais ne parviennent pas à préserver les indices contextuels plus larges tels que la coiffure, la tenue vestimentaire et la morphologie, qui sont pourtant essentiels à la cohérence visuelle. Nous proposons ContextAnyone, un framework de diffusion sensible au contexte qui permet une génération vidéo avec des personnages cohérents à partir d'un texte et d'une seule image de référence. Notre méthode reconstruit conjointement l'image de référence et génère de nouvelles images vidéo, permettant au modèle de percevoir et d'utiliser pleinement les informations de référence. Ces informations sont efficacement intégrées dans un modèle de diffusion de type DiT grâce à un nouveau module Emphasize-Attention qui renforce sélectivement les caractéristiques sensibles à la référence et empêche la dérive d'identité entre les images. Une fonction de perte à double guidage combine les objectifs de diffusion et de reconstruction de référence pour améliorer la fidélité de l'apparence, tandis que l'encodage positionnel Gap-RoPE proposé sépare les tokens de référence et les tokens vidéo pour stabiliser la modélisation temporelle. Les expériences démontrent que ContextAnyone surpasse les méthodes existantes de génération vidéo à partir d'une référence en termes de cohérence d'identité et de qualité visuelle, générant des vidéos de personnages cohérentes et préservant le contexte à travers des mouvements et des scènes variés. Page du projet : https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.