Articles de recherche IA sélectionnés quotidiennement avec traductions
Si les modèles de langage multimodaux à grande échelle démontrent des capacités sémantiques impressionnantes, ils souffrent souvent d'une cécité spatiale, peinant à effectuer un raisonnement géométrique fin et à appréhender la dynamique physique. Les solutions existantes reposent généralement sur des modalités 3D explicites ou des échafaudages géométriques complexes, qui sont limités par la rareté des données et les défis de généralisation. Dans ce travail, nous proposons un changement de paradigme en exploitant l'a priori spatial implicite contenu dans les modèles de génération de vidéos à grande échelle. Nous postulons que pour synthétiser des vidéos temporellement cohérentes, ces modèles apprennent intrinsèquement des a priori structurels 3D robustes et des lois physiques. Nous présentons VEGA-3D (Video Extracted Generative Awareness), un framework plug-and-play qui réutilise un modèle de diffusion vidéo pré-entraîné en tant que Simulateur de Monde Latent. En extrayant des caractéristiques spatio-temporelles à partir des niveaux de bruit intermédiaires et en les intégrant aux représentations sémantiques via un mécanisme de fusion adaptative au niveau des tokens, nous enrichissons les MLLM avec des indices géométriques denses sans supervision 3D explicite. Des expériences approfondies sur des benchmarks de compréhension de scènes 3D, de raisonnement spatial et de manipulation incarnée démontrent que notre méthode surpasse les approches de l'état de l'art, validant le fait que les a priori génératifs constituent une base évolutive pour la compréhension du monde physique. Le code est disponible publiquement à l'adresse https://github.com/H-EmbodVis/VEGA-3D.
Les modèles actuels d'édition vidéo guidée par instructions peinent à concilier simultanément des modifications sémantiques précises et une préservation fidèle du mouvement. Bien que les approches existantes s'appuient sur l'injection de priors externes explicites (par exemple, des caractéristiques VLM ou des conditions structurelles) pour atténuer ces problèmes, cette dépendance limite sévèrement la robustesse et la généralisation des modèles. Pour surmonter cette limitation, nous présentons SAMA (Ancrage Sémantique factorisé et Alignement du Mouvement), un framework qui factorise l'édition vidéo en un ancrage sémantique et une modélisation du mouvement. Premièrement, nous introduisons l'Ancrage Sémantique, qui établit une ancre visuelle fiable en prédisant conjointement des tokens sémantiques et des latents vidéo sur des images d'ancrage éparses, permettant une planification structurelle purement sensible aux instructions. Deuxièmement, l'Alignement du Mouvement pré-entraîne le même backbone sur des tâches de prétexte de restauration vidéo centrées sur le mouvement (inpainting cubique, perturbation de vitesse et mélange de tubes), permettant au modèle d'intérioriser la dynamique temporelle directement à partir des vidéos brutes. SAMA est optimisé avec un pipeline en deux étapes : une phase de pré-entraînement factorisé qui apprend des représentations sémantique-mouvement intrinsèques sans données d'édition vidéo-instruction appariées, suivie d'un fine-tuning supervisé sur des données d'édition appariées. Fait remarquable, le pré-entraînement factorisé seul confère déjà une forte capacité d'édition vidéo zero-shot, validant la factorisation proposée. SAMA atteint des performances state-of-the-art parmi les modèles open-source et est compétitif avec les principaux systèmes commerciaux (par exemple, Kling-Omni). Le code, les modèles et les jeux de données seront publiés.
Nous présentons Nemotron-Cascade 2, un modèle ouvert de type MoE de 30B avec 3B paramètres activés, qui offre des capacités de raisonnement de premier ordre et de fortes compétences agentiques. Malgré sa taille compacte, ses performances en raisonnement mathématique et en programmation approchent celles des modèles ouverts de pointe. C'est le deuxième LLM à poids ouvert, après DeepSeekV3.2-Speciale-671B-A37B, à atteindre des performances de niveau Médaille d'Or aux Olympiades Internationales de Mathématiques (OIM), aux Olympiades Internationales d'Informatique (OII) et aux finales mondiales de l'ICPC en 2025, démontrant une densité d'intelligence remarquablement élevée avec 20 fois moins de paramètres. Par rapport à Nemotron-Cascade 1, les avancées techniques clés sont les suivantes. Après un SFT sur un jeu de données soigneusement constitué, nous étendons considérablement le RL en Cascade pour couvrir un spectre beaucoup plus large de domaines de raisonnement et agentiques. De plus, nous introduisons une distillation sur politique multi-domaines à partir des modèles enseignants intermédiaires les plus performants pour chaque domaine tout au long du processus de RL en Cascade, ce qui nous permet de récupérer efficacement les régressions sur les benchmarks et de maintenir de solides gains de performance en cours de route. Nous publions la collection des points de contrôle du modèle et des données d'entraînement.
La création de vidéos dynamiques et cohérentes en vue de sujets personnalisés est très demandée pour un large éventail d'applications émergentes, notamment la RV/RA immersive, la production virtuelle et le commerce électronique de nouvelle génération. Cependant, malgré les progrès rapides dans la génération de vidéos pilotée par le sujet, les méthodes existantes traitent principalement les sujets comme des entités 2D, en se concentrant sur le transfert d'identité via des caractéristiques visuelles monoculaires ou des invites textuelles. Étant donné que les sujets du monde réel sont intrinsèquement 3D, l'application de ces approches centrées sur la 2D à la personnalisation d'objets 3D révèle une limitation fondamentale : elles manquent des préconnaissances spatiales complètes nécessaires pour reconstruire la géométrie 3D. Par conséquent, lors de la synthèse de nouvelles vues, elles doivent compter sur la génération de détails plausibles mais arbitraires pour les régions non visibles, plutôt que de préserver la véritable identité 3D. Atteindre une personnalisation véritablement consciente de la 3D reste difficile en raison de la rareté des jeux de données vidéo multi-vues. Bien que l'on puisse tenter de fine-tuner des modèles sur des séquences vidéo limitées, cela conduit souvent à un surapprentissage temporel. Pour résoudre ces problèmes, nous introduisons un nouveau cadre pour la personnalisation vidéo 3D-aware, comprenant 3DreamBooth et 3Dapter. 3DreamBooth découple la géométrie spatiale du mouvement temporel grâce à un paradigme d'optimisation sur 1 image. En limitant les mises à jour aux représentations spatiales, il intègre efficacement une solide préconnaissance 3D dans le modèle sans nécessiter d'apprentissage exhaustif basé sur la vidéo. Pour améliorer les textures à grain fin et accélérer la convergence, nous incorporons 3Dapter, un module de conditionnement visuel. Après un pré-entraînement mono-vue, 3Dapter subit une optimisation conjointe multi-vues avec la branche de génération principale via une stratégie de conditionnement asymétrique. Cette conception permet au module d'agir comme un routeur sélectif dynamique, interrogeant des indices géométriques spécifiques à la vue à partir d'un ensemble de référence minimal. Page du projet : https://ko-lani.github.io/3DreamBooth/
L'exécution en temps réel est cruciale pour le déploiement des modèles Vision-Langage-Action (VLA) dans le monde physique. Les méthodes d'inférence asynchrones existantes optimisent principalement la fluidité de la trajectoire, mais négligent la latence critique dans la réaction aux changements environnementaux. En repensant la notion de réaction dans les politiques de découpage des actions, cet article présente une analyse systématique des facteurs régissant le temps de réaction. Nous montrons que le temps de réaction suit une distribution uniforme déterminée conjointement par le Temps jusqu'à la Première Action (TTPA) et l'horizon d'exécution. De plus, nous révélons que la pratique standard d'appliquer un échéancier constant dans les VLA basés sur les flux peut être inefficace et contraint le système à terminer toutes les étapes d'échantillonnage avant qu'un mouvement ne puisse commencer, formant le goulot d'étranglement de la latence de réaction. Pour surmonter ce problème, nous proposons l'Échantillonnage Rapide d'Actions pour une Réaction Immédiate (FASTER). En introduisant un Échéancier Sensible à l'Horizon, FASTER priorise de manière adaptative les actions à court terme lors de l'échantillonnage des flux, compressant le débruitage de la réaction immédiate par dix (par exemple, dans π_{0.5} et X-VLA) en une seule étape, tout en préservant la qualité de la trajectoire à long terme. Couplé à un pipeline client-serveur en flux continu, FASTER réduit substantiellement la latence de réaction effective sur les robots réels, en particulier lorsqu'il est déployé sur des GPU de gamme grand public. Des expériences en conditions réelles, incluant une tâche de tennis de table hautement dynamique, prouvent que FASTER débloque une réactivité en temps réel sans précédent pour les politiques généralistes, permettant la génération rapide de trajectoires précises et fluides.
Nous présentons Memento-Skills, un système d'agent LLM généraliste et continuellement adaptable qui fonctionne comme un agent concevant des agents : il construit, adapte et améliore de manière autonome des agents spécialisés par l'expérience. Le système repose sur un cadre d'apprentissage par renforcement basé sur la mémoire avec des invites contextuelles, où des compétences réutilisables (stockées sous forme de fichiers markdown structurés) servent de mémoire persistante et évolutive. Ces compétences encodent à la fois le comportement et le contexte, permettant à l'agent de capitaliser les connaissances à travers les interactions. En partant de compétences élémentaires simples (comme la recherche web et les opérations terminal), l'agent s'améliore continuellement via le mécanisme d'Apprentissage Réflexif Lecture–Écriture introduit dans Memento~2~wang2025memento2. Durant la phase de lecture, un routeur de compétences entraînable sélectionne la compétence la plus pertinente en fonction de l'invite contextuelle actuelle ; durant la phase d'écriture, l'agent met à jour et étend sa bibliothèque de compétences sur la base de nouvelles expériences. Cette conception en boucle fermée permet un apprentissage continu sans mise à jour des paramètres du LLM, toute l'adaptation étant réalisée via l'évolution des compétences et des invites externalisées. Contrairement aux approches antérieures reposant sur des agents conçus par l'homme, Memento-Skills permet à un agent généraliste de concevoir de bout en bout des agents pour de nouvelles tâches. Grâce à une génération et un affinage itératifs des compétences, le système améliore progressivement ses propres capacités. Les expériences sur le benchmark General AI Assistants et Humanity's Last Exam démontrent des gains soutenus, atteignant respectivement des améliorations relatives de 26,2 % et 116,2 % en précision globale. Le code est disponible à l'adresse https://github.com/Memento-Teams/Memento-Skills.
La génération de mouvements antérieure suit principalement deux paradigmes : les modèles de diffusion continus qui excellent dans le contrôle cinématique, et les générateurs discrets basés sur des tokens qui sont efficaces pour le conditionnement sémantique. Pour combiner leurs forces, nous proposons un cadre en trois étapes comprenant l'extraction de caractéristiques conditionnelles (Perception), la génération de tokens discrets (Planification) et la synthèse de mouvements par diffusion (Contrôle). Au cœur de ce cadre se trouve MoTok, un tokeniseur de mouvements discrets basé sur la diffusion qui découple l'abstraction sémantique de la reconstruction fine en déléguant la récupération du mouvement à un décodeur de diffusion, permettant des tokens compacts à une seule couche tout en préservant la fidélité du mouvement. Pour les conditions cinématiques, des contraintes grossières guident la génération de tokens pendant la planification, tandis que les contraintes fines sont appliquées pendant le contrôle via une optimisation basée sur la diffusion. Cette conception empêche les détails cinématiques de perturber la planification sémantique des tokens. Sur HumanML3D, notre méthode améliore significativement la contrôlabilité et la fidélité par rapport à MaskControl tout en utilisant seulement un sixième des tokens, réduisant l'erreur de trajectoire de 0,72 cm à 0,08 cm et le FID de 0,083 à 0,029. Contrairement aux méthodes antérieures qui se dégradent sous des contraintes cinématiques plus fortes, la nôtre améliore la fidélité, réduisant le FID de 0,033 à 0,014.
La reconstruction d'objets 3D articulés à partir d'une seule image nécessite d'inférer conjointement la géométrie de l'objet, la structure des parties et les paramètres de mouvement à partir de preuves visuelles limitées. Une difficulté majeure réside dans l'enchevêtrement entre les indices de mouvement et la structure de l'objet, ce qui rend la régression directe de l'articulation instable. Les méthodes existantes abordent ce défi par le biais d'une supervision multi-vues, d'un assemblage par recherche ou d'une génération vidéo auxiliaire, sacrifiant souvent l'évolutivité ou l'efficacité. Nous présentons MonoArt, un cadre unifié fondé sur un raisonnement structurel progressif. Plutôt que de prédire l'articulation directement à partir des caractéristiques de l'image, MonoArt transforme progressivement les observations visuelles en une géométrie canonique, des représentations structurelles des parties et des plongements conscients du mouvement au sein d'une architecture unique. Ce processus de raisonnement structuré permet une inférence d'articulation stable et interprétable sans modèles de mouvement externes ou pipelines multi-étapes. Des expériences approfondies sur PartNet-Mobility démontrent que OM atteint des performances de pointe à la fois en précision de reconstruction et en vitesse d'inférence. Le cadre se généralise en outre à la manipulation robotique et à la reconstruction de scènes articulées.
La génération visuelle avec des tokens discrets a suscité une attention considérable, car elle permet un paradigme unifié de prédiction de tokens partagé avec les modèles de langage, promettant des architectures multimodales transparentes. Cependant, les méthodes actuelles de génération discrète restent limitées à des tokens latents de faible dimensionnalité (généralement 8-32 dimensions), sacrifiant ainsi la richesse sémantique essentielle à la compréhension. Bien que des représentations pré-entraînées de haute dimensionnalité (768-1024 dimensions) puissent combler cet écart, leur génération discrète pose des défis fondamentaux. Dans cet article, nous présentons Cubic Discrete Diffusion (CubiD), le premier modèle de génération discrète pour représentations haute dimension. CubiD effectue un masquage granulaire sur l'ensemble de la représentation discrète haute dimension – toute dimension à toute position peut être masquée et prédite à partir d'observations partielles. Cela permet au modèle d'apprendre des corrélations riches à la fois au sein et entre les positions spatiales, avec un nombre d'étapes de génération fixé à T indépendamment de la dimensionnalité des caractéristiques, où T ≪ hwd. Sur ImageNet-256, CubiD atteint l'état de l'art en génération discrète avec un fort comportement d'échelle de 900M à 3,7B paramètres. Fait crucial, nous validons que ces tokens discrétisés préservent les capacités de représentation originales, démontrant que les mêmes tokens discrets peuvent efficacement servir à la fois aux tâches de compréhension et de génération. Nous espérons que ces travaux inspireront les futures recherches vers des architectures multimodales unifiées. Le code est disponible à l'adresse : https://github.com/YuqingWang1029/CubiD.
Nous présentons F2LLM-v2, une nouvelle famille de modèles d'encodage multilingues à usage général, disponibles en 8 tailles distinctes allant de 80 millions à 14 milliards de paramètres. Entraîné sur un nouvel ensemble composite de 60 millions d'échantillons de données publiques de haute qualité, F2LLM-v2 prend en charge plus de 200 langues, avec un accent particulier sur les langues à ressources limitées ou intermédiaires précédemment sous-représentées. En intégrant un pipeline d'entraînement en deux étapes basé sur des modèles de langage de grande taille avec l'apprentissage matriochka, l'élagage de modèles et les techniques de distillation des connaissances, nous proposons des modèles bien plus efficaces que les précédents modèles d'encodage basés sur des LLM, tout en conservant des performances compétitives. Des évaluations approfondies confirment que F2LLM-v2-14B se classe premier sur 11 benchmarks MTEB, tandis que les modèles plus petits de la famille établissent également un nouvel état de l'art pour les applications à ressources limitées. Pour faciliter la recherche open-source sur les modèles d'encodage, nous publions l'ensemble des modèles, données, codes et points de contrôle intermédiaires.
Les récents progrès des modèles de langage étendus omnimodaux (OmniLLM) ont considérablement amélioré la compréhension des entrées audio et vidéo. Cependant, les évaluations actuelles se concentrent principalement sur de courts clips audio et vidéo d'une durée de 10 secondes à 5 minutes, ne reflétant pas les exigences des applications réelles où les vidéos durent généralement plusieurs dizaines de minutes. Pour combler cette lacune cruciale, nous présentons LVOmniBench, un nouveau benchmark conçu spécifiquement pour l'évaluation de la compréhension cross-modale des contenus audio et vidéo de longue durée. Ce jeu de données comprend des vidéos de haute qualité provenant de plateformes ouvertes, caractérisées par une dynamique audiovisuelle riche. Grâce à une sélection et une annotation manuelles rigoureuses, LVOmniBench contient 275 vidéos, d'une durée de 10 à 90 minutes, et 1 014 paires question-réponse (QA). LVOmniBench vise à évaluer rigoureusement les capacités des OmniLLM dans divers domaines, incluant la mémoire à long terme, la localisation temporelle, la compréhension fine et la perception multimodale. Notre évaluation approfondie révèle que les OmniLLM actuels rencontrent des difficultés significatives lors du traitement d'entrées audiovisuelles étendues. Les modèles open source atteignent généralement des précisions inférieures à 35 %, tandis que Gemini 3 Pro atteint une précision maximale d'environ 65 %. Nous anticipons que ce jeu de données, ainsi que nos résultats empiriques, stimuleront des recherches futures et le développement de modèles avancés capables de résoudre des problèmes complexes de compréhension cross-modale dans des contextes audiovisuels de longue durée.
Les agents d'interface graphique (GUI) à long horizon constituent une étape clé vers le déploiement en conditions réelles, pourtant la mémoire d'interaction efficace reste peu explorée dans les paradigmes dominants. La relecture intégrale des séquences d'interaction est redondante et amplifie le bruit, tandis que les synthèses effacent souvent les informations cruciales pour les dépendances et la traçabilité. Nous présentons AndroTMem, un cadre de diagnostic pour la mémoire ancrée dans les agents GUI Android à long horizon. Son benchmark principal, AndroTMem-Bench, comprend 1 069 tâches avec 34 473 étapes d'interaction (moyenne 32,1 par tâche, maximum 65). Nous évaluons les agents avec le TCR (Taux d'Achèvement des Tâches), en nous concentrant sur les tâches dont la réalisation nécessite de conserver les états intermédiaires critiques ; AndroTMem-Bench est conçu pour imposer de fortes dépendances causales entre les étapes, rendant les états intermédiaires rares mais essentiels décisifs pour les actions suivantes et plaçant la mémoire d'interaction au cœur de l'évaluation. Sur divers agents GUI open-source et propriétaires, nous observons un schéma constant : à mesure que les séquences d'interaction s'allongent, les baisses de performance sont principalement dues à des défaillances de la mémoire intra-tâche, et non à des erreurs de perception isolées ou à des erreurs d'action locales. Guidés par ce diagnostic, nous proposons Anchored State Memory (ASM), qui représente les séquences d'interaction comme un ensemble compact d'ancres d'état intermédiaire liées causalement, permettant une récupération ciblée sur les sous-buts et une prise de décision tenant compte de l'attribution. Dans divers contextes et sur 12 agents GUI évalués, ASM surpasse constamment les approches de relecture intégrale et les bases de référence par synthèse, améliorant le TCR de 5 % à 30,16 % et l'AMS de 4,93 % à 24,66 %, indiquant qu'une mémoire structurée et ancrée atténue efficacement le goulot d'étranglement de la mémoire d'interaction dans les tâches GUI à long horizon. Le code, le benchmark et les ressources associées sont disponibles publiquement à l'adresse [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).
Dans cet article, nous introduisons une nouvelle tâche, la Génération Réactive de Mouvements de l'Auditeur à partir des Énoncés de l'Orateur, qui vise à générer des mouvements corporels d'auditeur naturels répondant de manière appropriée aux énoncés d'un orateur. Cependant, la modélisation de ces comportements non verbaux de l'auditeur reste peu explorée et difficile en raison de la nature intrinsèquement non déterministe des réactions humaines. Pour faciliter cette tâche, nous présentons ReactMotionNet, un jeu de données à grande échelle qui associe des énoncés d'orateur à plusieurs mouvements candidats de l'auditeur, annotés selon différents degrés de pertinence. Cette conception du jeu de données capture explicitement la nature un-à-plusieurs du comportement de l'auditeur et fournit une supervision au-delà d'un seul mouvement de référence. S'appuyant sur cette conception, nous développons des protocoles d'évaluation axés sur les préférences, conçus pour évaluer la pertinence réactive, ce que les métriques conventionnelles de mouvement se concentrant sur l'alignement entrée-mouvement ignorent. Nous proposons en outre ReactMotion, un cadre génératif unifié qui modélise conjointement le texte, l'audio, l'émotion et le mouvement, et qui est entraîné avec des objectifs basés sur les préférences pour favoriser des réponses de l'auditeur à la fois appropriées et diversifiées. Des expériences approfondies montrent que ReactMotion surpasse les bases de référence par recherche et les pipelines en cascade basés sur des LLM, générant des mouvements d'auditeur plus naturels, diversifiés et appropriés.
Les récents progrès étendent les capacités des Modèles de Langue Multimodaux (MLLM) au-delà du simple question-réponse visuel standard vers l'utilisation d'outils externes pour des tâches visuelles avancées. Malgré ces avancées, l'exécution précise et la composition efficace d'outils diversifiés pour des tâches complexes restent un goulot d'étranglement persistant. Contraints par des ensembles d'outils limités et des trajectoires d'utilisation simples, les benchmarks existants ne parviennent pas à capturer des interactions d'outils complexes et variées, échouant à évaluer les performances des modèles dans des conditions pratiques et réalistes. Pour combler cette lacune, nous présentons VisualToolChain-Bench (VTC-Bench), un benchmark complet conçu pour évaluer la maîtrise de l'utilisation d'outils par les MLLM. Pour s'aligner sur les pipelines de vision par ordinateur réalistes, notre cadre intègre 32 opérations visuelles diverses basées sur OpenCV. Ce riche ensemble d'outils permet des combinaisons étendues, permettant à VTC-Bench d'évaluer rigoureusement la composition multi-outils et l'exécution de plans multi-étapes sur un horizon temporel long. Pour une évaluation précise, nous fournissons 680 problèmes soigneusement sélectionnés, structurés selon une hiérarchie cognitive à neuf catégories, chacun avec des trajectoires d'exécution de référence. Des expériences approfondies sur 19 MLLM leaders révèlent des limitations critiques dans les capacités agentiques visuelles des modèles actuels. Plus précisément, les modèles peinent à s'adapter à des ensembles d'outils diversifiés et à généraliser à des opérations non vues, le modèle leader Gemini-3.0-Pro n'atteignant que 51% sur notre benchmark. De plus, la composition multi-outils reste un défi persistant. Face à des tâches complexes, les modèles peinent à formuler des plans d'exécution efficaces, s'appuyant fortement sur un sous-ensemble étroit et sous-optimal de fonctions familières plutôt que de sélectionner les outils optimaux. En identifiant ces défis fondamentaux, VTC-Bench établit une base de référence rigoureuse pour guider le développement de modèles agentiques visuels plus généralisés.
Si les modèles de langage multimodaux (MLLM) ont remporté un succès remarquable dans l'interprétation des scènes naturelles, leur capacité à traiter des symboles discrets – les éléments fondamentaux de la cognition humaine – reste une question ouverte cruciale. Contrairement aux données visuelles continues, les symboles tels que les formules mathématiques, les structures chimiques et les caractères linguistiques nécessitent une interprétation précise et plus profonde. Cet article présente un benchmark complet pour évaluer comment les meilleurs MLLM naviguent dans ces « espaces sémantiques discrets » à travers cinq domaines : langage, culture, mathématiques, physique et chimie. Notre enquête révèle un phénomène contre-intuitif : les modèles échouent souvent à la reconnaissance basique des symboles tout en réussissant des tâches de raisonnement complexes, suggérant qu'ils s'appuient sur des probabilités linguistiques plutôt que sur une véritable perception visuelle. En exposant cette « inadéquation cognitive », nous soulignons un écart significatif dans les capacités actuelles de l'IA : la difficulté à véritablement percevoir et comprendre les langages symboliques qui sous-tendent la découverte scientifique et la pensée abstraite. Ce travail propose une feuille de route pour développer des systèmes intelligents plus rigoureux et alignés sur l'intelligence humaine.
La suppression d'objets vidéo vise à éliminer les objets cibles dynamiques et leurs effets visuels, tels que la déformation, les ombres et les réflexions, tout en restaurant des arrière-plans homogènes. Les méthodes récentes de retouche vidéo et de suppression d'objets basées sur la diffusion parviennent à supprimer les objets mais peinent souvent à effacer ces effets et à synthétiser des arrière-plans cohérents. Au-delà des limitations méthodologiques, les progrès sont freinés par l'absence d'un jeu de données complet capturant systématiquement les effets d'objets courants dans divers environnements pour l'entraînement et l'évaluation. Pour y remédier, nous présentons VOR (Video Object Removal), un jeu de données à grande échelle offrant des vidéos appariées variées. Chaque paire comprend une vidéo où l'objet cible est présent avec ses effets et une contrepartie où l'objet et ses effets sont absents, avec des masques d'objets correspondants. VOR contient 60 000 paires de vidéos de haute qualité provenant de sources capturées et synthétiques, couvre cinq types d'effets, et inclut un large éventail de catégories d'objets ainsi que des scènes multi-objets dynamiques complexes. Sur la base de VOR, nous proposons EffectErase, une méthode de suppression d'objets vidéo sensible aux effets, qui traite l'insertion d'objets vidéo comme tâche auxiliaire inverse dans un schéma d'apprentissage réciproque. Le modèle intègre un guidage régional adapté aux tâches qui concentre l'apprentissage sur les zones affectées et permet une commutation flexible des tâches. Ensuite, un objectif de cohérence insertion-suppression encourage des comportements complémentaires et une localisation partagée des régions d'effets et des indices structurels. Entraîné sur VOR, EffectErase obtient des performances supérieures dans des expériences approfondies, fournissant un effacement de haute qualité des effets d'objets vidéo dans divers scénarios.
Les modèles vision-langage (VLM) se sont révélés aveugles, sous-utilisant souvent leurs entrées visuelles même pour des tâches nécessitant un raisonnement visuel. Dans ce travail, nous démontrons que les VLM sont sélectivement aveugles. Ils modulent la quantité d'attention accordée aux entrées visuelles en fonction du cadrage linguistique, même lorsque des formulations alternatives exigent un raisonnement visuel identique. En utilisant l'attention visuelle comme sonde, nous quantifions comment le cadrage modifie à la fois la quantité et la distribution de l'attention sur l'image. Les cadrages contraints, tels que les questions à choix multiples et les questions oui/non, induisent une attention substantiellement moindre au contexte de l'image par rapport aux questions ouvertes, réduisent la concentration sur les régions pertinentes pour la tâche et déplacent l'attention vers des tokens non informatifs. Nous démontrons en outre que cette mauvaise allocation de l'attention est la cause principale de la dégradation de la précision et de l'incohérence entre les différents cadrages. S'appuyant sur cette compréhension mécaniste, nous introduisons une méthode légère d'ajustement par prompt utilisant des tokens apprenables qui encourage les schémas d'attention robustes et ancrés visuellement observés dans les cadres ouverts, améliorant l'ancrage visuel et les performances across les différents cadrages.
La traduction parole-parole simultanée (SimulS2S) est essentielle pour la communication multilingue en temps réel et son intégration dans les plateformes de réunion et de streaming ne cesse de croître. Malgré cela, la recherche sur la SimulS2S reste peu explorée, les solutions actuelles reposant souvent sur des procédures d'entraînement gourmandes en ressources et opérant sur des énoncés courts et pré-segmentés, ce qui les empêche de généraliser à la parole continue. Pour combler cette lacune, nous proposons SimulU, la première stratégie sans entraînement pour la SimulS2S de long format. SimulU adopte des stratégies de gestion de l'historique et de sélection de la parole de sortie qui exploitent l'attention croisée dans les modèles de bout en bout pré-entraînés pour réguler à la fois l'historique d'entrée et la génération de sortie. Les évaluations sur MuST-C dans 8 langues montrent que SimulU atteint un compromis qualité-latence meilleur ou comparable à celui de modèles en cascade performants. En éliminant le besoin d'un entraînement spécifique, SimulU ouvre une voie prometteuse vers la SimulS2S de bout en bout dans des scénarios réalistes et de long format.
Les agents LLM multi-tours sont de plus en plus importants pour résoudre des tâches complexes et interactives, et l'apprentissage par renforcement (RL) est un élément clé pour améliorer leur comportement à long terme. Cependant, l'entraînement RL nécessite de générer un grand nombre de trajectoires d'évaluation en environnement isolé (« sandbox »), et les infrastructures existantes couplent souvent l'orchestration de ces évaluations avec la boucle d'entraînement, rendant les systèmes difficiles à migrer et à maintenir. Suivant la philosophie du « rollout-as-a-service », nous présentons ProRL Agent, une infrastructure évolutive qui prend en charge l'ensemble du cycle de vie des évaluations d'agents via un service API. ProRL Agent fournit également des environnements sandbox standardisés et extensibles prenant en charge diverses tâches agentiques dans des environnements HPC sans privilèges racine. Nous validons ProRL Agent via un entraînement RL sur des tâches de génie logiciel, de mathématiques, de STEM et de programmation. ProRL Agent est open source et intégré dans le cadre de NVIDIA NeMo Gym.
Les modèles de langage multimodaux (MLLM) ont réalisé des progrès impressionnants dans la connexion entre la vision et le langage, mais ils peinent encore avec la compréhension spatiale et le raisonnement tenant compte du point de vue. Les efforts récents visent à enrichir les représentations d'entrée avec des indices géométriques plutôt que d'enseigner explicitement aux modèles à raisonner dans l'espace 3D. Nous présentons Loc3R-VLM, un cadre qui équipe les modèles vision-langage 2D de capacités avancées de compréhension 3D à partir d'une entrée vidéo monoculaire. Inspiré par la cognition spatiale humaine, Loc3R-VLM repose sur deux objectifs conjoints : la reconstruction de la disposition globale pour construire une représentation holistique de la structure de la scène, et la modélisation explicite de la situation pour ancrer la perspective égocentrique. Ces objectifs fournissent une supervision spatiale directe qui ancre à la fois la perception et le langage dans un contexte 3D. Pour garantir la cohérence géométrique et l'alignement à l'échelle métrique, nous exploitons des préalables légers sur la pose de la caméra, extraits d'un modèle de fondation 3D pré-entraîné. Loc3R-VLM obtient des performances de pointe en localisation basée sur le langage et surpasse les approches existantes basées sur la 2D et la vidéo sur des benchmarks de question-réponse situés et généraux en 3D, démontrant que notre cadre de supervision spatiale permet une solide compréhension 3D. Page du projet : https://kevinqu7.github.io/loc3r-vlm
La régulation du ratio d'importance est cruciale pour la stabilité de l'entraînement des cadres basés sur l'Optimisation de Politique Relative par Groupe (GRPO). Cependant, les méthodes de contrôle de ratio prédominantes, telles que l'écrêtage strict, souffrent de limites non différentiables et de régions à gradient nul, ne parvenant pas à maintenir la fidélité du gradient. De plus, ces méthodes manquent d'un mécanisme sensible au risque pour supprimer de manière adaptative les déviations extrêmes, laissant le processus d'optimisation vulnérable à des changements de politique abrupts. Pour relever ces défis, nous proposons l'Optimisation de Politique Modulée et Sensible au Risque (MHPO), un nouveau cadre conçu pour un apprentissage par renforcement robuste et stable. Le MHPO proposé introduit un Modulateur à Log-Fidélité (LFM) pour transformer les ratios d'importance non bornés en un domaine borné et différentiable. Ce mécanisme prévient efficacement la déstabilisation du paysage de perte par des tokens aberrants à haute variance, tout en garantissant une stabilité globale du gradient. En complément, une Pénalité de Risque Découplée (DHP) intègre des fonctions de risque cumulé issues de l'analyse de survie pour réguler indépendamment les changements de politique positifs et négatifs. En façonnant le paysage d'optimisation avec des pénalités sensibles au risque, le MHPO proposé permet une régulation fine des changements de politique asymétriques, atténuant simultanément l'effondrement modal dû à une surexpansion et empêchant l'érosion de la politique due à une contraction catastrophique, le tout dans une région de confiance stabilisée. Des évaluations approfondies sur divers benchmarks de raisonnement, incluant des tâches textuelles et vision-langage, démontrent que le MHPO surpasse constamment les méthodes existantes, atteignant des performances supérieures tout en améliorant significativement la stabilité de l'entraînement.
Ce rapport technique présente MOSS-TTS, un modèle fondateur de génération de parole construit sur une méthode évolutive : tokens audio discrets, modélisation autorégressive et pré-entraînement à grande échelle. Basé sur MOSS-Audio-Tokenizer, un tokeniseur Transformer causal qui compresse l'audio 24 kHz à 12,5 ips avec un RVQ à débit variable et des représentations sémantico-acoustiques unifiées, nous publions deux générateurs complémentaires : MOSS-TTS, qui privilégie la simplicité structurelle, l'évolutivité et le déploiement orienté contexte long/contrôle, et MOSS-TTS-Local-Transformer, qui introduit un module autorégressif local par trame pour une efficacité de modélisation supérieure, une meilleure préservation du locuteur et un temps réduit jusqu'au premier audio. Dans des contextes multilingues et open-domain, MOSS-TTS prend en charge le clonage vocal zero-shot, le contrôle de durée au niveau token, le contrôle de prononciation au niveau phonème/pinyin, le changement de code fluide et la génération stable de longs formats. Ce rapport résume la conception, la méthode d'entraînement et les caractéristiques empiriques des modèles publiés.
La capacité de restituer des scènes avec une fidélité ajustable à partir d'un seul modèle, connue sous le nom de niveau de détail (LoD), est cruciale pour le déploiement pratique de la projection de gaussiennes 3D (3DGS). Les méthodes discrètes de LoD existantes n'offrent qu'un ensemble limité de points de fonctionnement, tandis que les approches concurrentes de LoD continu permettent un ajustement plus fluide mais souffrent souvent d'une dégradation notable de la qualité à pleine capacité, faisant du LoD une décision de conception coûteuse. Nous présentons Matryoshka Gaussian Splatting (MGS), un cadre d'apprentissage qui permet un LoD continu pour les pipelines 3DGS standard sans sacrifier la qualité de rendu à pleine capacité. MGS apprend un seul ensemble ordonné de gaussiennes tel que le rendu de n'importe quel préfixe, c'est-à-dire les k premières projections, produise une reconstruction cohérente dont la fidélité s'améliore progressivement avec l'augmentation du budget. Notre idée clé est l'apprentissage avec budget stochastique : à chaque itération, un budget de projection aléatoire est échantillonné et le préfixe correspondant ainsi que l'ensemble complet sont optimisés. Cette stratégie ne nécessite que deux passes avant et n'introduit aucune modification architecturale. Les expériences sur quatre benchmarks et six modèles de référence montrent que MGS égale les performances à pleine capacité de son modèle de base tout en permettant un compromis continu vitesse-qualité à partir d'un seul modèle. Des ablations extensives sur les stratégies de tri, les objectifs d'apprentissage et la capacité du modèle valident en outre les conceptions.
Les modèles vision-langage (VLM) adaptés à la télédétection reposent fortement sur des supervisions image-texte spécifiques au domaine, pourtant les annotations de haute qualité pour l'imagerie satellitaire et aérienne restent rares et coûteuses à produire. Les pipelines de pseudo-étiquetage dominants comblent cette lacune en distillant les connaissances de grands modèles de référence, mais cette dépendance envers de grands enseignants est coûteuse, limite l'évolutivité et plafonne les performances au niveau du modèle enseignant. Nous proposons OSMDA : un cadre d'adaptation de domaine autonome qui élimine cette dépendance. Notre idée clé est qu'un VLM de base performant peut servir de moteur d'annotation autonome : en associant des images aériennes à des tuiles OpenStreetMap (OSM) rendues, nous exploitons les capacités de reconnaissance optique de caractères et de compréhension de graphiques du modèle pour générer des légendes enrichies par les vastes métadonnées auxiliaires d'OSM. Le modèle est ensuite affiné sur le corpus résultant avec de la seule imagerie satellitaire, produisant OSMDA-VLM, un VLM adapté au domaine qui ne nécessite aucun étiquetage manuel ni modèle externe plus puissant. Nous menons des évaluations exhaustives couvrant 10 benchmarks pour des tâches image-texte-à-texte et comparons avec 9 bases de référence compétitives. Lorsqu'il est mélangé à parts égales avec des données réelles, notre méthode obtient des résultats à l'état de l'art, tout en étant substantiellement moins chère à entraîner que les alternatives dépendantes d'un enseignant. Ces résultats suggèrent que, compte tenu d'un modèle de base solide, l'alignement avec des données géographiques collaboratives est une voie pratique et évolutive vers l'adaptation au domaine de la télédétection. Le jeu de données et les poids des modèles seront rendus publics.
La capacité à dériver précisément des objets mathématiques est une exigence fondamentale pour les applications en STEM en aval, incluant les mathématiques, la physique et la chimie, où le raisonnement doit aboutir à des expressions formellement structurées. Pourtant, les évaluations actuelles des modèles de langage (LM) en raisonnement mathématique et scientifique reposent largement sur des formats de réponse simplifiés, tels que des valeurs numériques ou des questions à choix multiples, en raison de la commodité de l'évaluation automatisée. Dans cet article, nous apportons trois contributions pour améliorer le raisonnement sur les objets mathématiques : (i) nous construisons et publions des données d'entraînement et des benchmarks pour la dérivation d'objets mathématiques, la suite Principia ; (ii) nous proposons des protocoles d'entraînement avec des juges et vérificateurs LLM performants, et montrons qu'un entraînement des juges sur-politique améliore les performances ; (iii) nous montrons comment l'entraînement sur-politique peut également être utilisé pour augmenter le calcul au moment du test via l'agrégation. Nous constatons que des LM performants comme Qwen3-235B et o3 éprouvent des difficultés sur Principia, tandis que nos protocoles d'entraînement permettent des améliorations significatives sur différentes architectures de LLM, tout en améliorant simultanément les résultats sur les tâches numériques et de QCM existantes, démontrant ainsi une généralisation trans-format des capacités de raisonnement.
Nous présentons MultiTempBench, un benchmark multilingue de raisonnement temporel couvrant trois tâches — calcul de dates, conversion de fuseaux horaires et extraction de relations temporelles — à travers cinq langues (anglais, allemand, chinois, arabe et haoussa) et plusieurs conventions calendaires (grégorien, hégirien et lunaire chinois). MultiTempBench contient 15 000 exemples construits par traduction de 750 questions anglaises soigneusement sélectionnées, chaque question étant déclinée en variantes contrôlées de format de date. Nous évaluons 20 modèles de langage de grande taille et introduisons le Ratio de Fragmentation de Date multilingue (mDFR), calibré à l'aide d'évaluations humaines de sévérité, ainsi que des analyses par sondage géométrique des représentations temporelles internes. Nous constatons que la qualité de la tokenisation des artefacts temporels est un goulot d'étranglement dépendant des ressources : dans les langues peu dotées et les formats calendaires plus rares, la fragmentation perturbe la séparation Année/Mois/Jour et la précision s'effondre, tandis que les contextes riches en ressources sont souvent robustes à une séparation au niveau des chiffres. Au-delà de la tokenisation, une régression à effets mixtes croisés montre que la linéarité temporelle est le prédicteur le plus fort du raisonnement temporel dans les langues bien dotées, tandis que la fragmentation est le prédicteur dominant dans les langues peu dotées. Le code est disponible à l'adresse : https://github.com/gagan3012/mtb
L'identification d'objets potentiels est cruciale pour la reconnaissance et l'analyse d'objets dans diverses applications de vision par ordinateur. Les méthodes existantes localisent généralement les objets potentiels en s'appuyant sur des images exemplaires, des catégories prédéfinies ou des descriptions textuelles. Cependant, leur dépendance à l'égard d'invites visuelles et textuelles limite souvent la flexibilité, restreignant l'adaptabilité dans des scénarios réels. Dans cet article, nous présentons un nouveau Réseau de Proposition de Régions Universel Sans Invite (PF-RPN), qui identifie les objets potentiels sans dépendre d'invites externes. Premièrement, le module Adaptateur Sparse Image-Aware (SIA) effectue une localisation initiale des objets potentiels en utilisant un embedding de requête apprenable mis à jour dynamiquement avec des caractéristiques visuelles. Ensuite, le module Cascade Self-Prompt (CSP) identifie les objets potentiels restants en exploitant l'embedding apprenable auto-invité, agrégeant de manière autonome des caractéristiques visuelles informatives de manière cascade. Enfin, le module Centerness-Guided Query Selection (CG-QS) facilite la sélection d'embeddings de requête de haute qualité à l'aide d'un réseau de scoring de centralité. Notre méthode peut être optimisée avec des données limitées (par exemple, 5 % des données MS COCO) et appliquée directement à divers domaines d'application de détection d'objets pour identifier des objets potentiels sans ajustement fin, tels que la détection d'objets sous-marins, la détection de défauts industriels et la détection d'objets dans les images de télédétection. Les résultats expérimentaux sur 19 jeux de données valident l'efficacité de notre méthode. Le code est disponible à l'adresse https://github.com/tangqh03/PF-RPN.
Nous présentons COT-FM, un cadre général qui reconfigure le chemin de probabilité dans l'appariement de flux (Flow Matching, FM) pour parvenir à une génération plus rapide et plus fiable. Les modèles FM produisent souvent des trajectoires courbes en raison de couplages aléatoires ou par lots, ce qui accroît l'erreur de discrétisation et réduit la qualité des échantillons. COT-FM résout ce problème en regroupant les échantillons cibles et en attribuant à chaque cluster une distribution source dédiée, obtenue en inversant des modèles FM pré-entraînés. Cette stratégie « diviser pour régner » produit un transport local plus précis et des champs vectoriels significativement plus rectilignes, le tout sans modifier l'architecture du modèle. En tant qu'approche prête à l'emploi, COT-FM accélère systématiquement l'échantillonnage et améliore la qualité de génération sur des ensembles de données 2D, des benchmarks de génération d'images et des tâches de manipulation robotique.
Les grands modèles de langage (LLM) ont démontré des capacités remarquables en traduction automatique pour les paires de langues riches en ressources, mais leurs performances sur les langues peu dotées restent à la traîne. Les méthodes existantes d'après-entraînement reposent largement sur des données parallèles de haute qualité, qui sont souvent rares ou indisponibles pour les langues peu dotées. Dans cet article, nous présentons WALAR, une méthode d'entraînement par renforcement utilisant uniquement du texte monolingue pour améliorer les capacités de traduction des LLM sur un grand nombre de langues peu dotées, tout en préservant leurs performances sur les langues riches en ressources. Notre idée clé s'appuie sur l'observation des modes de défaillance (ou « trous ») dans les modèles existants d'estimation de qualité multilingue basée sur la source. L'apprentissage par renforcement utilisant ces modèles d'estimation de qualité tend à amplifier ces trous, ce qui produit des LLM multilingues de moindre qualité. Nous développons des techniques incluant l'alignement de mots et l'alignement linguistique pour atténuer ces trous dans la récompense utilisée par WALAR pour l'entraînement par renforcement. Nous avons entraîné de manière continue un LLM prenant en charge la traduction de 101 langues en utilisant WALAR. Les expériences montrent que notre nouveau modèle surpasse largement LLaMAX, l'un des LLM multilingues open-source les plus performants, sur 1400 directions de traduction du jeu de données Flores-101.
Comprendre et générer des objets 3D en tant que compositions de parties significatives est fondamental pour la perception et le raisonnement humains. Cependant, la plupart des méthodes de texte-à-3D négligent la structure sémantique et fonctionnelle des parties. Bien que les approches récentes intégrant la notion de parties introduisent une décomposition, elles restent largement axées sur la géométrie, manquant d'ancrage sémantique et échouant à modéliser l'alignement des parties avec les descriptions textuelles ou leurs relations inter-parties. Nous proposons DreamPartGen, un cadre pour la génération texte-à-3D consciente des parties et fondée sémantiquement. DreamPartGen introduit les Latents de Parties Duplex (DPLs) qui modélisent conjointement la géométrie et l'apparence de chaque partie, et les Latents Sémantiques Relationnels (RSLs) qui capturent les dépendances inter-parties dérivées du langage. Un processus de co-débruîtage synchronisé impose une cohérence mutuelle géométrique et sémantique, permettant une synthèse 3D cohérente, interprétable et alignée sur le texte. Sur plusieurs benchmarks, DreamPartGen obtient des performances de pointe en matière de fidélité géométrique et d'alignement texte-forme.
La détection d'anomalies logiques dans l'inspection industrielle reste difficile en raison des variations d'apparence visuelle (par exemple, encombrement du fond, variation d'éclairage et flou), qui détournent souvent les détecteurs axés sur la vision de l'identification des violations au niveau des règles. Cependant, les benchmarks existants proposent rarement des configurations contrôlées où les états logiques sont fixes tandis que ces facteurs parasites varient. Pour combler cette lacune, nous présentons VID-AD, un ensemble de données pour la détection d'anomalies logiques sous distraction induite par la vision. Il comprend 10 scénarios manufacturiers et cinq conditions de capture, totalisant 50 tâches à une classe et 10 395 images. Chaque scénario est défini par deux contraintes logiques sélectionnées parmi quantité, longueur, type, placement et relation, les anomalies incluant à la fois des violations simples et combinées des contraintes. Nous proposons en outre un cadre de détection d'anomalies basé sur le langage qui repose uniquement sur des descriptions textuelles générées à partir d'images normales. En utilisant l'apprentissage par contraste avec des textes positifs et des textes négatifs basés sur la contradiction synthétisés à partir de ces descriptions, notre méthode apprend des plongements qui capturent les attributs logiques plutôt que les caractéristiques de bas niveau. Des expériences approfondies démontrent des améliorations constantes par rapport aux lignes de base dans toutes les configurations évaluées. Le jeu de données est disponible à l'adresse : https://github.com/nkthiroto/VID-AD.
Le persan présente des défis uniques en compréhension audio à travers sa poésie classique, sa musique traditionnelle et son alternance codique omniprésente - aucun n'étant capturé par les benchmarks existants. Nous présentons PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), le premier benchmark pour évaluer les grands modèles audio-linguistiques sur la langue et la culture persanes, comprenant 16 tâches et plus de 8 000 échantillons couvrant la compréhension de la parole, l'analyse paralinguistique et la compréhension audio culturelle. Dix tâches sont nouvellement introduites, incluant la détection du mètre et du style poétique, la compréhension de la musique traditionnelle persane et la détection de l'alternance codique. Les modèles de référence textuels surpassent systématiquement leurs équivalents audio, suggérant que les modèles n'exploitent peut-être pas les informations spécifiques à l'audio au-delà de ce que la transcription seule fournit. Les tâches ancrées culturellement révèlent un mode d'échec qualitativement distinct : tous les modèles obtiennent des résultats proches du hasard pour la détection du vazn, quelle que soit leur échelle, indiquant que la perception prosodique reste hors de portée des modèles actuels. Le jeu de données est publiquement disponible à l'adresse https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench