Articles de recherche IA sélectionnés quotidiennement avec traductions
Les grands scientifiques possèdent un jugement et une perspicacité remarquables, étroitement liés à ce que l'on appelle le goût scientifique. Nous utilisons ici ce terme pour désigner la capacité à évaluer et à proposer des idées de recherche ayant un fort impact potentiel. Cependant, la plupart des recherches se concentrent sur l'amélioration des capacités d'exécution d'un scientifique IA, tandis que le renforcement du goût scientifique des IA reste peu exploré. Dans ce travail, nous proposons le Renforcement par Retour Communautaire (RLCF), un paradigme d'entraînement utilisant des signaux communautaires à grande échelle comme supervision, et formulons l'apprentissage du goût scientifique comme un problème de modélisation et d'alignement des préférences. Pour la modélisation des préférences, nous entraînons Scientific Judge sur 700 000 paires d'articles (à fort vs faible nombre de citations) appariés par domaine et par date, afin qu'il évalue les idées. Pour l'alignement des préférences, en utilisant Scientific Judge comme modèle de récompense, nous entraînons un modèle de politique, Scientific Thinker, à proposer des idées de recherche à fort impact potentiel. Les expériences montrent que Scientific Judge surpasse les LLMs de l'état de l'art (par exemple, GPT-5.2, Gemini 3 Pro) et généralise aux tests d'années futures, aux domaines non vus et aux préférences issues de l'évaluation par les pairs. De plus, Scientific Thinker propose des idées de recherche ayant un impact potentiel plus élevé que les méthodes de référence. Nos résultats démontrent que l'IA peut acquérir un goût scientifique, marquant une étape clé vers la réalisation de scientifiques IA de niveau humain.
Nous présentons HSImul3R, un cadre unifié pour la reconstruction 3D prête pour la simulation d'interactions personne-scène (IPS) à partir de captures occasionnelles, incluant des images multivues éparses et des vidéos monoculaires. Les méthodes existantes souffrent d'un fossé perception-simulation : les reconstructions visuellement plausibles violent souvent les contraintes physiques, entraînant une instabilité dans les moteurs physiques et des échecs dans les applications d'IA incarnée. Pour combler ce fossé, nous introduisons un pipeline d'optimisation bidirectionnelle physiquement fondé qui utilise le simulateur physique comme superviseur actif pour affiner conjointement la dynamique humaine et la géométrie de la scène. Dans le sens avant, nous utilisons l'Apprentissage par Renforcement Ciblé sur la Scène pour optimiser le mouvement humain sous une double supervision de la fidélité du mouvement et de la stabilité des contacts. Dans le sens inverse, nous proposons l'Optimisation Directe par Récompense de Simulation, qui exploite les retours du simulateur sur la stabilité gravitationnelle et le succès de l'interaction pour affiner la géométrie de la scène. Nous présentons également HSIBench, un nouveau benchmark avec des objets et des scénarios d'interaction variés. Des expériences approfondies démontrent que HSImul3R produit les premières reconstructions IPS stables et prêtes pour la simulation, et peut être déployé directement sur des robots humanoïdes réels.
Les capacités de recherche approfondie sont devenues une compétence indispensable pour les agents de modèles de langage (LLM) de pointe, mais le développement d'agents de recherche performants reste dominé par les géants industriels en raison d'un manque de données d'entraînement transparentes et de haute qualité. Cette pénurie persistante de données a fondamentalement entravé les progrès de la communauté scientifique élargie dans le développement et l'innovation dans ce domaine. Pour combler cette lacune, nous présentons OpenSeeker, le premier agent de recherche entièrement open-source (c'est-à-dire le modèle et les données) qui atteint des performances de pointe grâce à deux innovations techniques fondamentales : (1) La synthèse évolutive et contrôlable de questions-réponses ancrée sur les faits, qui rétro-conçoit le graphe web via une expansion topologique et un masquage d'entités pour générer des tâches de raisonnement complexes à sauts multiples avec une couverture et une complexité contrôlables. (2) La synthèse de trajectoires débruitée, qui utilise un mécanisme de sommaire rétrospectif pour débruiter la trajectoire, favorisant ainsi la génération d'actions de haute qualité par les LLMs enseignants. Les résultats expérimentaux démontrent qu'OpenSeeker, entraîné (en un seul cycle d'entraînement) sur seulement 11 700 échantillons synthétisés, atteint des performances de pointe sur plusieurs benchmarks incluant BrowseComp, BrowseComp-ZH, xbench-DeepSearch et WideSearch. Notamment, avec un simple entraînement par fine-tuning supervisé (SFT), OpenSeeker surpasse significativement le deuxième meilleur agent entièrement open-source DeepDive (par exemple, 29,5 % contre 15,3 % sur BrowseComp), et dépasse même des concurrents industriels comme Tongyi DeepResearch (entraîné via un pré-entraînement continu extensif, du SFT et de l'apprentissage par renforcement) sur BrowseComp-ZH (48,4 % contre 46,7 %). Nous ouvrons entièrement en open-source l'ensemble complet des données d'entraînement et les poids du modèle pour démocratiser la recherche sur les agents de recherche de pointe et favoriser un écosystème plus transparent et collaboratif.
Les grands modèles de langage évoluent de fournisseurs d'information passifs vers des agents actifs destinés à des workflows complexes. Cependant, leur déploiement en tant que travailleurs IA fiables en entreprise est entravé par des benchmarks qui ne capturent pas les subtilités des environnements professionnels, notamment la nécessité d'une planification à long horizon face à des changements d'état persistants et des protocoles d'accès stricts. Dans ce travail, nous présentons EnterpriseOps-Gym, un benchmark conçu pour évaluer la planification agentique dans des contextes enterprise réalistes. Plus précisément, EnterpriseOps-Gym propose un sandbox conteneurisé avec 164 tables de base de données et 512 outils fonctionnels pour simuler les frictions de recherche du monde réel. Dans cet environnement, les agents sont évalués sur 1 150 tâches expertes réparties sur huit verticales critiques (incluant le Service Client, les RH et l'IT). Notre évaluation de 14 modèles frontière révèle des limitations critiques : le meilleur modèle, Claude Opus 4.5, n'atteint que 37,4% de succès. Une analyse approfondie montre que fournir des plans humains oracle améliore les performances de 14 à 35 points de pourcentage, identifiant le raisonnement stratégique comme le principal goulot d'étranglement. De plus, les agents échouent fréquemment à refuser des tâches irréalisables (le meilleur modèle atteint 53,9%), entraînant des effets secondaires non souhaités et potentiellement dommageables. Nos résultats soulignent que les agents actuels ne sont pas encore prêts pour un déploiement autonome en entreprise. Plus largement, EnterpriseOps-Gym fournit un banc d'essai concret pour améliorer la robustesse de la planification agentique dans les workflows professionnels.
Et si un modèle de simulation du monde pouvait restituer non pas un environnement imaginaire, mais une ville existant réellement ? Les modèles génératifs de monde antérieurs synthétisent des environnements visuellement plausibles mais artificiels en imaginant l'intégralité du contenu. Nous présentons le Seoul World Model (SWM), un modèle de monde à l'échelle d'une ville, ancré dans la ville réelle de Séoul. SWM ancre la génération vidéo autorégressive via un conditionnement augmenté par retrieval sur des images Street View à proximité. Cependant, cette conception introduit plusieurs défis, notamment un décalage temporel entre les références récupérées et la scène cible dynamique, une diversité de trajectoires limitée et une parcimonie des données issues de captures à intervalles espacés depuis des véhicules. Nous abordons ces défis grâce à l'appariement cross-temporel, un vaste jeu de données synthétiques permettant des trajectoires caméra variées, et un pipeline d'interpolation de vues qui synthétise des vidéos d'apprentissage cohérentes à partir d'images Street View éparses. Nous introduisons en outre un « Virtual Lookahead Sink » pour stabiliser la génération à long terme en ré-ancrant continuellement chaque segment sur une image récupérée à une future localisation. Nous évaluons SWM par rapport à des modèles de monde vidéo récents dans trois villes : Séoul, Busan et Ann Arbor. SWM surpasse les méthodes existantes pour générer des vidéos spatialement fidèles, temporellement cohérentes et à long horizon, ancrées dans des environnements urbains réels sur des trajectoires atteignant des centaines de mètres, tout en prenant en charge des mouvements de caméra diversifiés et des variations de scénario guidées par texte.
Les connexions résiduelles avec PreNorm sont standard dans les LLMs modernes, mais elles accumulent toutes les sorties de couches avec des poids unitaires fixes. Cette agrégation uniforme entraîne une croissance incontrôlée des états cachés avec la profondeur, diluant progressivement la contribution de chaque couche. Nous proposons Attention Residuals (AttnRes), qui remplace cette accumulation fixe par une attention softmax sur les sorties des couches précédentes, permettant à chaque couche d'agréger sélectivement les représentations antérieures avec des poids appris et dépendants de l'entrée. Pour résoudre la surcharge mémoire et de communication liée à l'attention sur toutes les sorties de couches précédentes lors de l'entraînement de modèles à grande échelle, nous introduisons Block AttnRes, qui partitionne les couches en blocs et applique l'attention sur des représentations au niveau des blocs, réduisant l'empreinte mémoire tout en préservant la plupart des bénéfices du AttnRes complet. Combiné à une communication pipeline basée sur le cache et une stratégie de calcul en deux phases, Block AttnRes devient un remplacement pratique direct des connexions résiduelles standard avec une surcharge minimale. Les expériences de lois d'échelle confirment que l'amélioration est cohérente quelle que soit la taille du modèle, et les ablations valident le bénéfice de la sélection depth-wise dépendante du contenu. Nous intégrons en outre AttnRes dans l'architecture Kimi Linear (48B paramètres totaux / 3B paramètres activés) et effectuons un pré-entraînement sur 1,4T de tokens, où AttnRes atténue la dilution PreNorm, produisant des magnitudes de sortie et une distribution de gradients plus uniformes en profondeur, et améliore les performances en aval sur toutes les tâches évaluées.
L'augmentation de la profondeur est un facteur clé pour les grands modèles de langage (LLM). Pourtant, lorsque les LLM deviennent plus profonds, ils souffrent souvent d'une dégradation du signal : les caractéristiques informatives formées dans les couches superficielles sont progressivement diluées par les mises à jour résiduelles répétées, ce qui les rend plus difficiles à récupérer dans les couches plus profondes. Nous introduisons l'attention à mélange de profondeurs (MoDA), un mécanisme qui permet à chaque tête d'attention de prendre en compte les paires KV de la séquence à la couche actuelle et les paires KV de profondeur des couches précédentes. Nous décrivons en outre un algorithme efficace matériellement pour MoDA qui résout les problèmes d'accès mémoire non contigus, atteignant 97,3 % de l'efficacité de FlashAttention-2 pour une longueur de séquence de 64K. Les expériences sur des modèles de 1,5 milliard de paramètres démontrent que MoDA surpasse constamment les bases de référence solides. Notamment, il améliore la perplexité moyenne de 0,2 sur 10 benchmarks de validation et augmente les performances moyennes de 2,11 % sur 10 tâches en aval, avec une surcharge computationnelle négligeable de 3,7 % en FLOPs. Nous constatons également que combiner MoDA avec une normalisation post-couche (post-norm) donne de meilleures performances que son utilisation avec une normalisation pré-couche (pre-norm). Ces résultats suggèrent que MoDA est une primitive prometteuse pour l'augmentation d'échelle en profondeur. Le code est disponible à l'adresse https://github.com/hustvl/MoDA.
De nombreuses tentatives ont été faites pour distiller les grands modèles de langage (LLM) basés sur une attention quadratique en des architectures linéarisées sous-quadratiques. Cependant, malgré des recherches approfondies, ces modèles distillés échouent souvent à égaler les performances de leurs modèles enseignants sur diverses tâches en aval. Nous nous fixons pour objectif une distillation sans perte, que nous définissons en termes de taux Win-and-Tie corrigés par tolérance entre l'étudiant et l'enseignant sur des ensembles de tâches. À cette fin, nous introduisons un pipeline de distillation efficace pour des étudiants basés sur des xLSTM. Nous proposons une étape de fusion supplémentaire, où des experts individuellement linéarisés sont combinés en un modèle unique. Nous démontrons l'efficacité de ce pipeline en distillant des modèles de base et des modèles ajustés par instructions des familles Llama, Qwen et Olmo. Dans de nombreux contextes, nos étudiants basés sur des xLSTM récupèrent la majeure partie des performances de l'enseignant, et les dépassent même sur certaines tâches en aval. Nos contributions constituent une étape importante vers des remplacements plus économes en énergie et plus rentables des LLM basés sur des transformeurs.
Les modèles vision-langage (VLM) produisent fréquemment des "hallucinations" - des énoncés plausibles mais factuellement incorrects - ce qui constitue un obstacle majeur à leur déploiement fiable. Dans ce travail, nous proposons un nouveau paradigme pour diagnostiquer les hallucinations, en les reconsidérant non plus comme des erreurs de sortie statiques, mais comme des pathologies dynamiques de la cognition computationnelle du modèle. Notre cadre s'appuie sur un principe normatif de rationalité computationnelle, nous permettant de modéliser la génération d'un VLM comme une trajectoire cognitive dynamique. Nous concevons une série de sondes informationnelles qui projettent cette trajectoire dans un Espace d'État Cognitif interprétable et de faible dimension. Notre découverte centrale est un principe directeur que nous nommons dualité géométrico-informationnelle : l'anormalité géométrique d'une trajectoire cognitive dans cet espace est fondamentalement équivalente à sa surprisale informationnelle élevée. La détection d'hallucinations devient ainsi un problème de détection d'anomalies géométriques. Évalué dans divers contextes - allant du question-réponse binaire rigoureux (POPE) et du raisonnement complet (MME) à la génération de légendes libre (MS-COCO) - notre cadre obtient des performances à l'état de l'art. Surtout, il fonctionne avec une grande efficacité sous supervision faible et reste très robuste même lorsque les données d'étalonnage sont fortement contaminées. Cette approche permet une attribution causale des échecs, en cartographiant les erreurs observables vers des états pathologiques distincts : instabilité perceptuelle (mesurée par l'Entropie Perceptive), défaillance logico-causale (mesurée par le Conflit Inférentiel) et ambiguïté décisionnelle (mesurée par l'Entropie Décisionnelle). À terme, cela ouvre une voie vers la conception de systèmes d'IA dont le raisonnement est par essence transparent, vérifiable et diagnostiquable.
Les Transformers de Diffusion (DiTs) ont démontré une scalabilité et une qualité remarquables dans la génération d'images et de vidéos, suscitant un intérêt croissant pour leur extension à des tâches de génération et d'édition contrôlées. Cependant, comparés à leurs équivalents pour l'image, les progrès dans le contrôle et l'édition vidéo restent limités, principalement en raison de la rareté des données vidéo appariées et du coût computationnel élevé de l'entraînement des modèles de diffusion vidéo. Pour résoudre ce problème, nous proposons dans cet article un cadre d'ajustement sans vidéo, nommé ViFeEdit, pour les transformers de diffusion vidéo. Sans nécessiter aucune forme de données vidéo d'entraînement, ViFeEdit réalise une génération et une édition vidéo polyvalentes, en s'adaptant uniquement avec des images 2D. Au cœur de notre approche se trouve une reparamétrisation architecturale qui découple l'indépendance spatiale de l'attention 3D complète dans les transformers de diffusion vidéo modernes. Cela permet une édition visuellement fidèle tout en maintenant la cohérence temporelle avec seulement des paramètres additionnels minimaux. De plus, cette conception fonctionne dans un pipeline à double voie avec des plongements de pas de temps distincts pour la planification du bruit, montrant une forte adaptabilité à divers signaux de conditionnement. Des expériences approfondies démontrent que notre méthode produit des résultats prometteurs en matière de génération et d'édition vidéo contrôlées avec un entraînement minimal sur des données d'images 2D. Les codes sont disponibles à l'adresse https://github.com/Lexie-YU/ViFeEdit.
L'entraînement d'agents web autonomes est fondamentalement limité par les environnements dont ils tirent leur apprentissage : les sites web réels sont dangereux à explorer, difficiles à réinitialiser et fournissent rarement un retour d'information vérifiable. Nous proposons VeriEnv, un cadre qui utilise les modèles de langage comme créateurs d'environnements, en clonant automatiquement des sites web réels en environnements synthétiques entièrement exécutables et vérifiables. En exposant un accès interne contrôlé via un SDK Python, VeriEnv permet aux agents de générer automatiquement des tâches avec des récompenses déterministes et vérifiables par programme, éliminant ainsi la dépendance à l'égard d'évaluateurs heuristiques ou basés sur des LLM. Cette conception découple l'apprentissage de l'agent des interactions risquées avec le monde réel tout en permettant une auto-évolution évolutive grâce à l'expansion de l'environnement. Par des expériences sur des benchmarks d'agents web, nous montrons que les agents entraînés avec VeriEnv se généralisent à des sites web non vus, atteignent une maîtrise spécifique aux sites via un entraînement auto-évolutif et bénéficient de la mise à l'échelle du nombre d'environnements d'entraînement. Le code et les ressources seront publiés à l'adresse https://github.com/kyle8581/VeriEnv après acceptation.
L'optimisation de systèmes complexes, allant des prompts de modèles de langage étendus (LLM) aux agents à tours multiples, nécessite traditionnellement une itération manuelle laborieuse. Nous formalisons ce défi en tant que problème d'optimisation générative stochastique, où un modèle de langage génératif agit comme optimiseur, guidé par des récompenses numériques et des retours textuels pour découvrir le système optimal. Nous présentons l'Optimisation Priorisée avec Agrégation Contextuelle Locale (POLCA), un cadre évolutif conçu pour gérer la stochasticité inhérente à l'optimisation — comme les retours bruités, l'échantillonnage par mini-lots et les comportements stochastiques des systèmes — tout en maîtrisant efficacement l'expansion non contrainte de l'espace des solutions. POLCA maintient une file de priorité pour gérer le compromis exploration-exploitation, en suivant systématiquement les solutions candidates et leurs historiques d'évaluation. Pour améliorer l'efficacité, nous intégrons un mécanisme de ε-réseau pour préserver la diversité des paramètres et un Summarizer basé sur LLM pour effectuer un méta-apprentissage à travers les essais historiques. Nous démontrons théoriquement que POLCA converge vers des solutions candidates quasi-optimales malgré la stochasticité. Nous évaluons notre cadre sur divers benchmarks, incluant τ-bench, HotpotQA (optimisation d'agents), VeriBench (traduction de code) et KernelBench (génération de noyaux CUDA). Les résultats expérimentaux montrent que POLCA atteint une performance robuste, économe en échantillons et en temps, surpassant constamment les algorithmes de l'état de l'art sur des problèmes déterministes et stochastiques. Le code source de ce travail est publiquement disponible à l'adresse https://github.com/rlx-lab/POLCA.
Les Grands Modèles de Raisonnement (LRM) obtiennent des performances impressionnantes sur des tâches de raisonnement complexes grâce au raisonnement en Chaîne de Pensée (CoT), qui leur permet de générer des jetons de réflexion intermédiaires avant de parvenir à la réponse finale. Cependant, les LRM souffrent souvent d'une surréflexion significative, gaspillant un temps de calcul excessif même après que la réponse a été générée précocement. Les travaux antérieurs ont identifié l'existence d'une longueur de raisonnement optimale telle que son tronquage à ce point réduit considérablement les sorties CoT avec pratiquement aucun changement de performance. Cependant, déterminer les longueurs CoT optimales pour des jeux de données pratiques est hautement non trivial car elles dépendent entièrement de la tâche et du modèle. Dans cet article, nous abordons précisément ce problème et concevons TERMINATOR, une stratégie de sortie anticipée pour les LRM lors de l'inférence afin d'atténuer la surréflexion. L'idée centrale de TERMINATOR est que la première apparition de la réponse finale d'un LRM est souvent prévisible, et nous exploitons ces premières positions de réponse pour créer un nouveau jeu de données de longueurs de raisonnement optimales afin d'entraîner TERMINATOR. Grâce à cette approche, TERMINATOR réalise des réductions significatives des longueurs CoT de 14 % à 55 % en moyenne sur quatre jeux de données pratiques et exigeants : MATH-500, AIME 2025, HumanEval et GPQA, tout en surpassant les méthodes actuelles de l'état de l'art.
Les benchmarks existants pour la génération web reposent sur des invites textuelles ou des captures d'écran statiques comme entrée. Cependant, les vidéos transmettent naturellement des signaux plus riches tels que le flux d'interaction, le timing des transitions et la continuité du mouvement, qui sont essentiels pour une recréation fidèle de pages web. Malgré ce potentiel, la génération de pages web conditionnée par la vidéo reste largement inexplorée, sans benchmark dédié à cette tâche. Pour combler cette lacune, nous présentons WebVR, un benchmark qui évalue si les MLLMs peuvent recréer fidèlement des pages web à partir de vidéos de démonstration. WebVR contient 175 pages web couvrant des catégories variées, toutes construites via un pipeline de synthèse contrôlé plutôt que par web scraping, garantissant des démonstrations variées et réalistes sans chevauchement avec les pages en ligne existantes. Nous concevons également une grille d'évaluation visuelle fine, alignée sur le jugement humain, qui évalue les pages web générées selon de multiples dimensions. Les expériences sur 19 modèles révèlent des écarts substantiels dans la recréation du style fin et de la qualité du mouvement, tandis que l'évaluation automatique basée sur la grille atteint 96 % d'accord avec les préférences humaines. Nous publions le jeu de données, la boîte à outils d'évaluation et les résultats de référence pour soutenir les futures recherches sur la génération de vidéo à page web.
Tous les classificateurs, y compris les modèles de vision les plus avancés, possèdent des invariants, partiellement ancrés dans la géométrie de leurs applications linéaires. Ces invariants, qui résident dans le noyau du classificateur, induisent des ensembles équivalents d'entrées qui sont mappés vers des sorties identiques. Le contenu sémantique de ces invariants reste vague, car les approches existantes peinent à fournir des informations interprétables par un humain. Pour combler cette lacune, nous présentons l'Interprétation Sémantique de la Géométrie du Noyau (SING), une méthode qui construit des images équivalentes par rapport au réseau et attribue des interprétations sémantiques aux variations disponibles. Nous utilisons un mapping des caractéristiques du réseau vers des modèles de vision et langage multimodaux. Cela nous permet d'obtenir des descriptions en langage naturel et des exemples visuels des décalages sémantiques induits. SING peut être appliqué à une seule image, révélant des invariants locaux, ou à des ensembles d'images, permettant une large analyse statistique aux niveaux de la classe et du modèle. Par exemple, notre méthode révèle que ResNet50 laisse fuiter des attributs sémantiques pertinents dans le noyau, tandis que DinoViT, un ViT pré-entraîné avec la méthode auto-supervisée DINO, est supérieur pour maintenir la sémantique des classes à travers l'espace invariant.
Les LLM manifestent souvent des moments d'illumination lors du raisonnement, comme des auto-corrections apparentes suite à des tokens tels que "Attends", mais leurs mécanismes sous-jacents restent obscurs. Nous introduisons un cadre informationnel qui décompose le raisonnement en information procédurale et verbalisation épistémique - l'externalisation explicite de l'incertitude qui soutient les actions de contrôle en aval. Nous montrons qu'un raisonnement purement procédural peut devenir informationnellement stagnant, tandis que la verbalisation épistémique permet une acquisition continue d'information et est cruciale pour atteindre une suffisance informationnelle. Les résultats empiriques démontrent que les performances de raisonnement sont pilotées par l'externalisation de l'incertitude plutôt que par des tokens de surface spécifiques. Notre cadre unifie les découvertes antérieures sur les moments d'illumination et les expériences post-entraînement, et offre des perspectives pour la conception future de modèles de raisonnement.
La motivation est un moteur central du comportement humain, façonnant les décisions, les objectifs et la performance aux tâches. Alors que les grands modèles de langage (LLM) s'alignent de plus en plus sur les préférences humaines, nous nous demandons s'ils présentent une forme analogue de motivation. Nous examinons si les LLM « rapportent » différents niveaux de motivation, comment ces déclarations sont liées à leur comportement, et si des facteurs externes peuvent les influencer. Nos expériences révèlent des schémas cohérents et structurés qui font écho à la psychologie humaine : l'auto-évaluation de la motivation correspond à différentes signatures comportementales, varie selon les types de tâches, et peut être modulée par des manipulations externes. Ces résultats démontrent que la motivation est un construit organisateur cohérent du comportement des LLM, reliant systématiquement les déclarations, les choix, l'effort et la performance, et révélant des dynamiques motivationnelles similaires à celles documentées en psychologie humaine. Cette perspective approfondit notre compréhension du comportement des modèles et de son lien avec des concepts inspirés de l'humain.
La génération de mouvements humains est souvent apprise dans des espaces euclidiens, bien que les mouvements valides suivent une géométrie non euclidienne structurée. Nous présentons la Génération de Mouvements Riemannienne (RMG), un cadre unifié qui représente le mouvement sur un produit de variétés et apprend la dynamique via l'appariement de flots riemanniens. RMG factorise le mouvement en plusieurs facteurs de variétés, produisant une représentation sans échelle avec normalisation intrinsèque, et utilise l'interpolation géodésique, la supervision dans l'espace tangent, et l'intégration d'EDO préservant la variété pour l'entraînement et l'échantillonnage. Sur HumanML3D, RMG atteint un FID de pointe au format HumanML3D (0,043) et se classe première sur toutes les métriques rapportées sous le format MotionStreamer. Sur MotionMillion, elle surpasse également des bases de référence solides (FID 5,6, R@1 0,86). Les études d'ablation montrent que la représentation compacte T+R (translations + rotations) est la plus stable et efficace, soulignant que la modélisation géométriquement consciente est une voie pratique et évolutive vers la génération de mouvements de haute fidélité.
Nous présentons le PokeAgent Challenge, une référence à grande échelle pour la recherche en prise de décision, construite sur le système de combat multi-agents de Pokémon et son vaste environnement de jeu de rôle (RPG). L'observabilité partielle, le raisonnement théorie des jeux et la planification à long terme demeurent des problèmes non résolus pour l'IA de pointe, mais peu de benchmarks sollicitent simultanément ces trois aspects dans des conditions réalistes. PokeAgent vise à combler ces lacunes à grande échelle grâce à deux volets complémentaires : notre volet Combat, qui nécessite un raisonnement stratégique et une généralisation sous observabilité partielle dans les combats Pokémon compétitifs, et notre volet Speedrunning, qui exige une planification à long terme et une prise de décision séquentielle dans le RPG Pokémon. Notre volet Combat fournit un jeu de données de plus de 20 millions de trajectoires de combat, accompagné d'une suite de modèles de référence heuristiques, par apprentissage par renforcement (RL) et basés sur les grands modèles de langage (LLM), capables d'un jeu compétitif de haut niveau. Notre volet Speedrunning offre le premier cadre d'évaluation standardisé pour le speedrunning de RPG, incluant un système d'orchestration multi-agents open source permettant des comparaisons modulaires et reproductibles des approches LLM instrumentées. Notre compétition NeurIPS 2025 valide à la fois la qualité de nos ressources et l'intérêt de la communauté de recherche pour Pokémon, avec plus de 100 équipes en compétition sur les deux volets et les solutions gagnantes détaillées dans notre article. Les soumissions des participants et nos modèles de référence révèlent des écarts considérables entre les performances des modèles généralistes (LLM), des modèles spécialisés (RL) et des joueurs humains d'élite. L'analyse via la matrice d'évaluation BenchPress montre que le combat Pokémon est quasi orthogonal aux benchmarks LLM standards, mesurant des capacités non capturées par les suites existantes et positionnant Pokémon comme un problème non résolu pouvant faire progresser la recherche en RL et LLM. Nous passons à un benchmark vivant avec un classement en direct pour le volet Combat et une évaluation autonome pour le volet Speedrunning sur https://pokeagentchallenge.com.
L'apprentissage par renforcement pour la génération de code repose sur des récompenses vérifiables via les taux de réussite aux tests unitaires. Cependant, les suites de tests de haute qualité sont rares, les ensembles de données existants offrent une couverture limitée, et les récompenses statiques ne s'adaptent pas à l'amélioration des modèles. Les méthodes récentes d'auto-jeu unifient la génération de code et de tests dans un seul modèle, mais se heurtent à un dilemme inhérent : un accès en boîte blanche mène à une auto-collusion où le modèle produit des tests triviaux pour des récompenses faciles, tandis qu'une restriction en boîte noire génère des tests génériques qui ne détectent pas les bogues spécifiques à l'implémentation. Nous présentons Code-A1, un cadre de coévolution antagoniste qui optimise conjointement un LLM de Code et un LLM de Test avec des objectifs opposés. Le LLM de Code est récompensé pour réussir plus de tests, tandis que le LLM de Test est récompensé pour exposer plus de défauts. Cette séparation architecturale élimine les risques d'auto-collusion et permet en toute sécurité la génération de tests en boîte blanche, où le LLM de Test peut inspecter le code candidat pour concevoir des tests antagonistes ciblés. Nous introduisons en outre un mécanisme de Livre des Erreurs pour la relecture d'expérience et une récompense composite équilibrant la validité des tests avec la difficulté antagoniste. Les expériences sur les modèles Qwen2.5-Coder démontrent que Code-A1 atteint des performances de génération de code égalant ou dépassant les modèles entraînés sur des tests annotés par des humains, tout en améliorant significativement la capacité de génération de tests.
La prédiction d'affordance constitue un pont essentiel entre la perception et l'action dans l'IA incarnée. Cependant, les recherches existantes se limitent aux modèles de caméra sténopé, qui souffrent de champs de vision étroits et d'observations fragmentées, omettant souvent le contexte environnemental holistique critique. Dans cet article, nous présentons la première exploration de la Prédiction d'Affordance Panoramique, utilisant l'imagerie à 360 degrés pour capturer les relations spatiales globales et la compréhension holistique de la scène. Pour faciliter cette nouvelle tâche, nous introduisons d'abord PAP-12K, un jeu de données de référence à grande échelle contenant plus de 1 000 images panoramiques en ultra-haute résolution (12k, 11904 x 5952) avec plus de 12 000 paires de questions-réponses soigneusement annotées et des masques d'affordance. De plus, nous proposons PAP, une méthode sans apprentissage, inspirée du système visuel fovéal humain, qui suit une approche du grossier au fin pour traiter la résolution ultra-élevée et la distorsion sévère inhérentes aux images panoramiques. PAP emploie un routage visuel récursif via des invites de grille pour localiser progressivement les cibles, applique un mécanisme de regard adaptatif pour rectifier les distorsions géométriques locales, et utilise un pipeline de mise en correspondance en cascade pour extraire des masques précis au niveau de l'instance. Les résultats expérimentaux sur PAP-12K révèlent que les méthodes existantes de prédiction d'affordance conçues pour les images perspectives standard subissent une dégradation sévère des performances et échouent face aux défis uniques de la vision panoramique. En revanche, le cadre PAP surmonte efficacement ces obstacles, surpassant significativement les meilleures méthodes de référence et soulignant le potentiel immense de la perception panoramique pour une intelligence incarnée robuste.
Les modèles de grands langages multimodaux (MLLM) démontrent des performances solides dans la compréhension visuelle et auditive lorsqu'ils sont évalués isolément. Cependant, leur capacité à raisonner conjointement sur des signaux omni-modaux (visuels, auditifs et textuels) dans des vidéos longues et complexes reste largement inexplorée. Nous présentons MMOU, un nouveau benchmark conçu pour évaluer systématiquement la compréhension et le raisonnement multimodaux dans ces conditions réalistes et exigeantes. MMOU comprend 15 000 questions soigneusement sélectionnées, associées à 9 038 vidéos collectées sur le web de durées variables, couvrant des domaines diversifiés et présentant un contenu audiovisuel riche et étroitement lié. Le benchmark englobe 13 catégories de compétences fondamentales, toutes nécessitant l'intégration de preuves à travers les modalités et le temps. Toutes les questions sont annotées manuellement sur plusieurs tours par des annotateurs professionnels, garantissant une haute qualité et une fidélité du raisonnement. Nous évaluons plus de 20 modèles multimodaux open-source et propriétaires state-of-the-art sur MMOU. Les résultats révèlent des écarts de performance substantiels : le meilleur modèle propriétaire n'atteint que 64,2 % de précision, tandis que le modèle open-source le plus performant n'atteint que 46,8 %. Nos résultats soulignent les défis de la compréhension omni-modale de longue durée, révélant que les modèles actuels échouent fréquemment à appliquer même des compétences fondamentales dans les vidéos longues. À travers une analyse détaillée, nous identifions en outre des modes d'échec systématiques et fournissons des éclairages sur les raisons et les situations où les modèles actuels rencontrent des limites.
Le modèle de langage de grande taille (LLM) pré-entraîné présente des capacités étendues, mais pour des tâches ou domaines spécifiques, l'obtention d'une précision supérieure et d'un raisonnement plus fiable dépend généralement d'un post-entraînement via le Fine-Tuning Supervisé (SFT) ou l'Apprentissage par Renforcement (RL). Bien qu'elles soient souvent considérées comme des méthodologies distinctes, des développements théoriques et empiriques récents démontrent que le SFT et le RL sont étroitement liés. Cette étude présente une perspective complète et unifiée sur le post-entraînement des LLM avec le SFT et le RL. Nous fournissons d'abord un aperçu approfondi des deux techniques, en examinant leurs objectifs, structures algorithmiques et besoins en données. Nous analysons ensuite systématiquement leurs interactions, en mettant en lumière les cadres qui intègrent le SFT et le RL, les pipelines d'entraînement hybrides et les méthodes qui exploitent leurs forces complémentaires. En nous appuyant sur un ensemble représentatif d'études d'application récentes (2023-2025), nous identifions les tendances émergentes, caractérisons l'évolution rapide vers les paradigmes de post-entraînement hybrides et dégageons les principaux enseignements clarifiant quand et pourquoi chaque méthode est la plus efficace. En synthétisant les perspectives théoriques, les méthodologies pratiques et les preuves empiriques, cette étude établit une compréhension cohérente du SFT et du RL dans un cadre unifié et esquisse des orientations prometteuses pour la recherche future sur un post-entraînement des LLM évolutif, efficient et généralisable.
Comme le révèle la loi d’échelle du MoE à granularité fine, les performances du modèle cessent de s’améliorer une fois que la granularité de la dimension intermédiaire dépasse le seuil optimal, limitant les gains supplémentaires issus d’une conception fine unidimensionnelle. Pour résoudre ce goulot d’étranglement, nous proposons FineRMoE (FineR-Grained MoE), une architecture qui étend la conception fine des experts aux dimensions intermédiaire et de sortie, visant à renforcer la spécialisation des experts au-delà de la limite unidimensionnelle. Nous introduisons en outre un paradigme de calcul avant parcimonieux à deux niveaux et un mécanisme d’aiguillage spécialisé pour contrôler l’activation. De plus, pour éviter le coût prohibitif de l’entraînement de FineRMoE à partir de zéro, nous concevons une méthode de surcyclage généralisée pour construire FineRMoE de manière économique. Des expériences approfondies démontrent la performance supérieure de FineRMoE sur dix benchmarks standards. Par rapport au meilleur modèle de référence, FineRMoE atteint une efficacité paramétrique 6 fois supérieure, une latence de préremplissage 281 fois plus faible et un débit de décodage 136 fois plus élevé lors de l’inférence.
Suite aux avancées majeures dans la génération de texte et d'images, le domaine vidéo a connu un essor considérable, produisant des séquences hautement réalistes et contrôlables. Parallèlement à ces progrès, ces modèles soulèvent également de sérieuses inquiétudes concernant la désinformation, rendant la détection fiable des vidéos synthétiques de plus en plus cruciale. Les détecteurs basés sur les images sont fondamentalement limités car ils opèrent image par image et ignorent la dynamique temporelle, tandis que les détecteurs vidéo supervisés généralisent mal aux générateurs non vus, un inconvénient majeur compte tenu de l'émergence rapide de nouveaux modèles. Ces défis motivent les approches zero-shot, qui évitent les données synthétiques et évaluent plutôt le contenu par rapport aux statistiques des données réelles, permettant une détection sans entraînement et agnostique au modèle. Nous présentons STALL, un détecteur simple, sans entraînement et théoriquement justifié, qui fournit un score basé sur la vraisemblance pour les vidéos, modélisant conjointement les preuves spatiales et temporelles dans un cadre probabiliste. Nous évaluons STALL sur deux benchmarks publics et présentons ComGenVid, un nouveau benchmark incluant des modèles génératifs de pointe. STALL surpasse constamment les méthodes de référence antérieures, qu'elles soient basées sur les images ou la vidéo. Le code et les données sont disponibles à l'adresse https://omerbenhayun.github.io/stall-video.
La relighting sur image unique est un problème fortement sous-contraint : de légères modifications d'éclairage peuvent entraîner des variations non linéaires importantes dans l'ombrage, les ombres et les spécularités, tandis que la géométrie et les matériaux demeurent non observés. Les approches existantes basées sur la diffusion s'appuient soit sur des pipelines de décomposition intrinsèque ou de G-buffer qui nécessitent un suivi dense et fragile, soit opèrent uniquement dans l'espace latent sans ancrage physique, rendant le contrôle granulaire de la direction, de l'intensité et de la couleur peu fiable. Nous observons qu'une décomposition intrinsèque complète est superflue et redondante pour une relighting précise. En revanche, des indices clairsemés mais physiquement significatifs, indiquant où l'éclairage devrait changer et comment les matériaux devraient réagir, suffisent pour guider un modèle de diffusion. Forts de ce constat, nous présentons LightCtrl, qui intègre des préconnaissances physiques à deux niveaux : un encodeur proxy latent à *few-shot* qui extrait des indices compacts de matériaux-géométrie à partir d'un suivi PBR limité, et un masque sensible à l'éclairage qui identifie les régions d'illumination critiques et oriente le débruiteur vers les pixels pertinents pour l'ombrage. Pour pallier la rareté des données PBR, nous affinons la branche proxy à l'aide d'un objectif basé sur DPO qui impose une cohérence physique dans les indices prédits. Nous présentons également ScaLight, un jeu de données à grande échelle au niveau objet avec un éclairage systématiquement varié et des métadonnées complètes de caméra-éclairage, permettant un entraînement physiquement cohérent et contrôlable. Sur des benchmarks de niveau objet et scène, notre méthode atteint une relighting photométriquement fidèle avec un contrôle continu précis, surpassant les méthodes de référence antérieures basées sur la diffusion et la décomposition intrinsèque, incluant des gains allant jusqu'à +2,4 dB PSNR et une RMSE inférieure de 35 % sous des variations d'éclairage contrôlées.
Les modèles du monde en télédétection visent à la fois à expliquer les changements observés et à prévoir des futurs plausibles, deux tâches qui partagent des connaissances préalables spatiotemporelles. Les méthodes existantes, cependant, les abordent généralement séparément, limitant le transfert inter-tâches. Nous présentons RS-WorldModel, un modèle unifié pour la télédétection qui traite conjointement la compréhension des changements spatiotemporels et la prévision de scènes futures guidée par texte, et nous construisons RSWBench-1.1M, un jeu de données de 1,1 million d'échantillons avec de riches annotations linguistiques couvrant les deux tâches. RS-WorldModel est entraîné en trois étapes : (1) le pré-entraînement génératif géo-contextuel (GAGP) conditionne la prévision sur les métadonnées géographiques et d'acquisition ; (2) le réglage par instruction synergique (SIT) entraîne conjointement la compréhension et la prévision ; (3) l'optimisation par renforcement vérifiable (VRO) affine les sorties avec des récompenses vérifiables et spécifiques aux tâches. Avec seulement 2 milliards de paramètres, RS-WorldModel surpasse les modèles open-source jusqu'à 120 fois plus grands sur la plupart des métriques de question-réponse concernant les changements spatiotemporels. Il atteint un FID de 43,13 pour la prévision de scènes futures guidée par texte, dépassant toutes les bases de référence open-source ainsi que le modèle fermé Gemini-2.5-Flash Image (Nano Banana).
L'IA peut-elle progresser sur d'importants problèmes mathématiques non résolus ? Les grands modèles de langage sont désormais capables de raisonnements mathématiques et scientifiques sophistiqués, mais leur capacité à mener des recherches véritablement novatrices reste largement débattue et insuffisamment explorée. Nous présentons HorizonMath, un benchmark de plus de 100 problèmes majoritairement non résolus couvrant 8 domaines des mathématiques appliquées et computationnelles, associé à un cadre d'évaluation open-source pour la vérification automatisée. Notre benchmark cible une classe de problèmes où la découverte est difficile, exigeant une intuition mathématique significative, mais où la vérification est computationnellement efficace et simple. Comme ces solutions sont inconnues, HorizonMath est immunisé contre la contamination des données, et la plupart des modèles de pointe obtiennent des scores proches de 0 %. Les benchmarks existants de niveau recherche reposent plutôt sur la vérification formelle de preuves ou l'examen manuel, deux approches coûteuses à mettre à l'échelle. En utilisant cette plateforme, nous identifions deux problèmes pour lesquels GPT 5.4 Pro propose des solutions qui améliorent les meilleurs résultats publiés connus, représentant des contributions potentielles (sous réserve d'expertise). Nous publions HorizonMath comme un défi ouvert et une ressource communautaire évolutive, où les solutions correctes aux problèmes des classes non résolues pourraient constituer des résultats novateurs dans la littérature mathématique.
Le raisonnement vidéo nécessite que les modèles localisent et suivent les preuves pertinentes pour la question sur plusieurs images. Bien que l'apprentissage par renforcement (RL) avec des récompenses vérifiables améliore la précision, il peine encore à atteindre un ancrage spatio-temporel fiable durant le processus de raisonnement. De plus, l'amélioration de l'ancrage repose généralement sur des données d'entraînement à grande échelle ou des outils de perception lors de l'inférence, ce qui accroît le coût d'annotation ou le coût computationnel. Pour relever ce défi, nous proposons VisonCoach, un cadre RL adaptatif qui améliore l'ancrage spatio-temporel via des invites visuelles comme guide durant l'entraînement. Pendant l'entraînement RL, des invites visuelles sont appliquées de manière sélective aux entrées difficiles pour amplifier les preuves pertinentes et supprimer les distracteurs. Le modèle intègre ensuite ces améliorations par auto-distillation, permettant un raisonnement ancré directement sur les vidéos brutes sans invite visuelle lors de l'inférence. VisonCoach comprend deux composants : (1) un Sélecteur d'Invites Visuelles, qui prédit les types d'invites appropriés conditionnés par la vidéo et la question, et (2) un Raisonneur Spatio-Temporel, optimisé par RL sous guidage d'invites visuelles et avec des récompenses d'ancrage conscientes des objets, qui imposent une cohérence d'identité des objets et un chevauchement multi-région des boîtes englobantes. Des expériences approfondies démontrent que VisonCoach atteint des performances à l'état de l'art dans des configurations comparables, sur divers benchmarks de raisonnement vidéo, compréhension vidéo et ancrage temporel (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest et Charades-STA), tout en maintenant une voie d'inférence unique et efficace sans outils externes. Nos résultats montrent que l'invite visuelle durant l'entraînement améliore le raisonnement vidéo ancré, tandis que l'auto-distillation permet au modèle d'intérioriser cette capacité sans nécessiter d'invites lors de l'inférence.
Les progrès récents dans la génération de vidéos à trajectoire contrôlable ont réalisé des avancées remarquables. Les méthodes antérieures utilisent principalement des architectures à base d'adaptateurs pour un contrôle précis du mouvement le long de trajectoires prédéfinies. Cependant, toutes ces méthodes s'appuient sur un processus de débruitage multi-étapes, entraînant une redondance temporelle substantielle et une surcharge computationnelle importante. Bien que les méthodes existantes de distillation vidéo parviennent à distiller des générateurs multi-étapes en versions à peu d'étapes, leur application directe à la génération de vidéos à trajectoire contrôlable se solde par une dégradation notable de la qualité vidéo et de la précision trajectoire. Pour combler cette lacune, nous présentons FlashMotion, un nouveau cadre d'entraînement conçu pour la génération de vidéos à trajectoire contrôlable en peu d'étapes. Nous entraînons d'abord un adaptateur de trajectoire sur un générateur vidéo multi-étapes pour un contrôle trajectoire précis. Ensuite, nous distillons le générateur en une version à peu d'étapes pour accélérer la génération vidéo. Enfin, nous affinons l'adaptateur à l'aide d'une stratégie hybride combinant des objectifs de diffusion et adversariaux, l'alignant ainsi sur le générateur à peu d'étapes pour produire des vidéos de haute qualité et à la trajectoire précise. Pour l'évaluation, nous introduisons FlashBench, un benchmark pour la génération de vidéos à trajectoire contrôlable en séquences longues, qui mesure à la fois la qualité vidéo et la précision trajectoire pour différents nombres d'objets au premier plan. Les expériences sur deux architectures d'adaptateurs montrent que FlashMotion surpasse les méthodes existantes de distillation vidéo et les modèles multi-étapes antérieurs, tant en qualité visuelle qu'en cohérence trajectoire.
Des travaux récents ont mis en évidence le phénomène de malédiction de la profondeur dans les grands modèles de langage (LLM), où les couches tardives contribuent moins à l'apprentissage et à la représentation que les couches initiales. Cette sous-utilisation est liée à l'accumulation de variance dans la Prédicteur-Normalisation de Couche, qui peut conduire les blocs profonds vers un comportement quasi identique. Dans cet article, nous démontrons que la parcimonie, au-delà de permettre l'efficacité, agit comme un régulateur de la propagation de la variance et améliore ainsi l'utilisation de la profondeur. Notre étude couvre deux sources de parcimonie : (i) la parcimonie implicite, qui émerge des conditions d'entraînement et des données, incluant la parcimonie des poids induite par la décroissance de poids et la parcimonie de l'attention induite par des contextes longs en entrée ; et (ii) la parcimonie explicite, qui est imposée par la conception architecturale, incluant la parcimonie de partage clé/valeur dans l'Attention à Requêtes Groupées et la parcimonie d'activation des experts dans les Modèles de Mélange d'Experts. Notre affirmation est solidement étayée par des expériences contrôlées de mise à l'échelle en profondeur et des interventions ciblées sur l'efficacité des couches. Dans tous les contextes, nous observons une relation constante : la parcimonie améliore l'utilisation des couches en réduisant la variance en sortie et en favorisant la différenciation fonctionnelle. Nous condensons finalement nos résultats en une règle empirique pratique pour entraîner des LLM efficaces en profondeur, permettant une amélioration notable de 4,6 % de la précision sur les tâches en aval. Nos résultats révèlent la parcimonie, émergeant naturellement des choix de conception standard, comme un mécanisme clé mais jusqu'alors négligé pour une mise à l'échelle efficace de la profondeur dans les LLM. Le code est disponible à l'adresse https://github.com/pUmpKin-Co/SparsityAndCoD.
Les agents d'IA incarnés nécessitent de plus en plus une exécution parallèle de multiples tâches, telles que la manipulation, la conversation et la construction de mémoire, à partir d'observations partagées sous des contraintes temporelles distinctes. Les modèles vision-langage-action (VLA) de type Mixture-of-Transformers (MoT) supportent architecturalement de telles sorties hétérogènes, mais les systèmes d'inférence existants échouent à atteindre un parallélisme multi-tâches efficace pour un déploiement embarqué en raison de calculs redondants et de conflits de ressources. Nous identifions la gestion isolée du cache KV comme la cause fondamentale. Pour y remédier, nous proposons une gestion unifiée du cache KV, un paradigme d'inférence qui traite le cache KV comme une ressource partagée de premier ordre entre les tâches et dans le temps. Cette abstraction permet deux optimisations clés : le partage KV inter-tâches élimine le pré-remplissage redondant des observations partagées, tandis le traitement par lots continu inter-trames découple le décodage linguistique à longueur variable de la génération d'actions à cadence fixe sur les cycles de contrôle. Nous implémentons ce paradigme pour π_{0.5}, le VLA MoT le plus populaire, et l'évaluons dans des configurations robotiques représentatives. OxyGen atteint jusqu'à 3.7 fois l'accélération par rapport à une exécution isolée, fournissant simultanément un débit linguistique de plus de 200 tokens/s et une fréquence d'action de 70 Hz sans dégradation de la qualité des actions.
La génération précise de glyphes pour le rendu visuel de texte est essentielle mais difficile. Les méthodes existantes améliorent généralement le rendu de texte en s’entraînant sur un grand nombre d’images de texte scénique de haute qualité, mais la couverture limitée des variations de glyphes et une stylisation excessive compromettent souvent la précision des glyphes, en particulier pour les caractères complexes ou hors domaine. Certaines méthodes utilisent l’apprentissage par renforcement pour atténuer ce problème, mais leurs modèles de récompense reposent généralement sur des systèmes de reconnaissance de texte insensibles aux erreurs fines de glyphes, de sorte que les images avec des glyphes incorrects peuvent tout de même recevoir des récompenses élevées. Inspirés par l’Optimisation Directe des Préférences (DPO), nous proposons GlyphPrinter, une méthode de rendu de texte basée sur les préférences qui élimine la dépendance à des modèles de récompense explicites. Cependant, l’objectif DPO standard ne modélise que la préférence globale entre deux échantillons, ce qui est insuffisant pour le rendu visuel de texte où les erreurs de glyphes surviennent généralement dans des régions localisées. Pour résoudre ce problème, nous construisons le jeu de données GlyphCorrector avec des annotations de préférence de glyphes au niveau régional et proposons R-GDPO (Region-Grouped DPO), un objectif régional qui optimise les préférences inter et intra-échantillons sur les régions annotées, améliorant considérablement la précision des glyphes. De plus, nous introduisons le Guidage par Récompense Régionale, une stratégie d’inférence qui échantillonne à partir d’une distribution optimale avec une précision de glyphes contrôlable. Des expériences approfondies démontrent que GlyphPrinter surpasse les méthodes existantes en précision de glyphes tout en maintenant un équilibre favorable entre stylisation et précision.
Les modèles récents de diffusion vidéo ont accompli des progrès remarquables en qualité visuelle, mais le contrôle précis et granulaire reste un goulot d'étranglement clé limitant la personnalisation pratique pour la création de contenu. Pour les créateurs de vidéos IA, trois formes de contrôle sont cruciales : (i) la composition scénique, (ii) la personnalisation cohérente multi-vues du sujet, et (iii) l'ajustement de la pose de caméra ou du mouvement d'objet. Les méthodes existantes traitent généralement ces dimensions de manière isolée, avec un support limité pour la synthèse de sujets multi-vues et la préservation de l'identité sous des changements de pose arbitraires. Cette absence d'architecture unifiée rend difficile la prise en charge d'une vidéo polyvalente et conjointement contrôlable. Nous présentons Tri-Prompting, un cadre unifié et un paradigme d'entraînement en deux étapes qui intègre la composition scénique, la cohérence multi-vues du sujet et le contrôle du mouvement. Notre approche exploite un module de mouvement à double conditionnement piloté par des points de suivi 3D pour les arrière-plans et des indices RVB sous-échantillonnés pour les sujets au premier plan. Pour assurer un équilibre entre contrôlabilité et réalisme visuel, nous proposons en outre une planification d'échelle ControlNet pour l'inférence. Tri-Prompting prend en charge de nouveaux workflows, incluant l'insertion 3D-aware de sujets dans des scènes arbitraires et la manipulation de sujets existants dans une image. Les résultats expérimentaux démontrent que Tri-Prompting surpasse significativement des méthodes spécialisées comme Phantom et DaS en matière d'identité du sujet multi-vues, de cohérence 3D et de précision du mouvement.
Dans cet article, nous étudions la diffusabilité (capacité d'apprentissage) des autoencodeurs variationnels (VAE) dans le cadre de la diffusion latente. Premièrement, nous montrons que la diffusion dans l'espace des pixels entraînée avec une fonction de coût MSE est intrinsèquement biaisée vers l'apprentissage des fréquences spatiales basses et moyennes, et que la densité spectrale de puissance (DSP) en loi de puissance des images naturelles rend ce biais bénéfique d'un point de vue perceptuel. Motivés par ce résultat, nous proposons l'Hypothèse d'Appariement Spectral : les latences avec une diffusabilité supérieure devraient (i) suivre une DSP en loi de puissance aplatie (Appariement Spectral d'Encodage, ASE) et (ii) préserver la correspondance sémantique fréquence-à-fréquence à travers le décodeur (Appariement Spectral de Décodage, ASD). En pratique, nous appliquons l'ASE en appariant la DSP entre les images et les latences, et l'ASD via un masquage spectral partagé avec une reconstruction alignée en fréquence. De manière importante, l'Appariement Spectral offre une vue unifiée qui clarifie les observations antérieures de latences trop bruitées ou trop lissées, et interprète plusieurs méthodes récentes comme des cas particuliers (par exemple, VA-VAE, EQ-VAE). Les expériences suggèrent que l'Appariement Spectral permet une génération par diffusion supérieure sur les ensembles de données CelebA et ImageNet, et surpasse les approches antérieures. Enfin, nous étendons la vue spectrale à l'alignement de représentations (REPA) : nous montrons que l'énergie spectrale directionnelle de la représentation cible est cruciale pour REPA, et proposons une méthode basée sur DoG pour améliorer encore les performances de REPA. Notre code est disponible à l'adresse https://github.com/forever208/SpectrumMatching.
Avec le déploiement croissant d'agents IA en tant que systèmes continus, il devient essentiel de construire de manière autonome et de faire évoluer en continu des logiciels personnalisés pour permettre l'interaction au sein d'environnements dynamiques. Pourtant, les benchmarks existants évaluent les agents sur des tâches de codage isolées et ponctuelles, négligeant les dépendances temporelles et la dette technique inhérentes à l'évolution réelle des logiciels. Pour combler cette lacune, nous présentons DeepCommit, un pipeline agentiel qui reconstruit des graphes acycliques orientés (DAG) de jalons vérifiables à partir de journaux de commit bruités, où les jalons sont définis comme des objectifs de développement sémantiquement cohésifs. Ces séquences exécutables permettent à EvoClaw, un nouveau benchmark qui exige des agents qu'ils maintiennent l'intégrité du système et limitent l'accumulation d'erreurs, des dimensions de l'évolution logicielle à long terme largement absentes des benchmarks actuels. Notre évaluation de 12 modèles de pointe sur 4 frameworks d'agents révèle une vulnérabilité critique : les scores de performance globaux chutent significativement, de plus de 80% sur les tâches isolées à au plus 38% dans des contextes continus, exposant la difficulté profonde des agents avec la maintenance à long terme et la propagation des erreurs.
Les déclarations du Federal Open Market Committee (FOMC) constituent une source majeure d'information sur la politique monétaire, et même des modifications subtiles dans leur formulation peuvent faire bouger les marchés financiers mondiaux. Une tâche centrale consiste donc à mesurer la position hawkish-dovish véhiculée dans ces textes. Les approches existantes traitent généralement la détection de position comme un problème de classification standard, en étiquetant chaque déclaration de manière isolée. Cependant, l'interprétation de la communication de politique monétaire est intrinsèquement relative : les réactions des marchés dépendent non seulement du ton d'une déclaration, mais aussi de la façon dont ce ton évolue d'une réunion à l'autre. Nous présentons le Delta-Consistent Scoring (DCS), un cadre d'évaluation sans annotation qui cartographie les représentations de grands modèles de langage (LLM) figés vers des scores de position continus en modélisant conjointement la position absolue et les changements relatifs entre les réunions. Plutôt que de s'appuyer sur des étiquettes manuelles hawkish-dovish, le DCS utilise des réunions consécutives comme source d'auto-supervision. Il apprend un score de position absolue pour chaque déclaration et un score de changement relatif entre des déclarations consécutives. Un objectif de cohérence delta encourage les changements dans les scores absolus à s'aligner sur les changements relatifs. Cela permet au DCS de reconstituer une trajectoire de position temporellement cohérente sans étiquettes manuelles. Sur quatre architectures de LLM, le DCS surpasse constamment les sondes supervisées et les bases de référence de type LLM-comme-juge, atteignant jusqu'à 71,1 % de précision sur la classification hawkish-dovish au niveau de la phrase. Les scores obtenus au niveau de la réunion sont également significatifs d'un point de vue économique : ils présentent une forte corrélation avec les indicateurs d'inflation et sont significativement associés aux mouvements des rendements des obligations d'État. Globalement, les résultats suggèrent que les représentations des LLM encodent des signaux de politique monétaire qui peuvent être récupérés grâce à une structure temporelle relative.
Les modèles Vision-Langage-Action (VLA) excellent dans la manipulation statique mais peinent dans les environnements dynamiques avec des cibles mobiles. Cet écart de performance provient principalement de la rareté des jeux de données pour la manipulation dynamique et de la dépendance des VLA grand public aux observations monocadre, ce qui limite leurs capacités de raisonnement spatiotemporel. Pour y remédier, nous présentons DOMINO, un jeu de données et un benchmark à grande échelle pour la manipulation dynamique généralisable, comprenant 35 tâches avec des complexités hiérarchiques, plus de 110 000 trajectoires expertes et une suite d'évaluation multidimensionnelle. Par des expériences exhaustives, nous évaluons systématiquement les VLA existants sur des tâches dynamiques, explorons des stratégies d'entraînement efficaces pour la perception dynamique et validons la généralisabilité des données dynamiques. De plus, nous proposons PUMA, une architecture VLA consciente de la dynamique. En intégrant un flux optique historique centré sur la scène et des requêtes mondiales spécialisées pour prévoir implicitement les états futurs centrés sur les objets, PUMA couple une perception historique avec une prédiction à court terme. Les résultats démontrent que PUMA atteint des performances de pointe, obtenant une amélioration absolue de 6,3 % du taux de succès par rapport aux lignes de base. De plus, nous montrons que l'entraînement sur des données dynamiques favorise des représentations spatiotemporelles robustes qui se transfèrent aux tâches statiques. Tous les codes et données sont disponibles à l'adresse https://github.com/H-EmbodVis/DOMINO.
La personnalisation de concepts lie généralement des tokens rares à un concept cible. Malheureusement, ces approches souffrent souvent de performances instables, car les données de pré-entraînement contiennent rarement ces tokens rares. Par ailleurs, ces tokens rares ne parviennent pas à transmettre la connaissance inhérente au concept cible. Par conséquent, nous introduisons la personnalisation de concepts sensible à la connaissance, une nouvelle tâche visant à lier des connaissances textuelles diverses à des concepts visuels cibles. Cette tâche nécessite que le modèle identifie la connaissance dans l'invite textuelle pour réaliser une génération personnalisée haute fidélité. Parallèlement, le modèle doit lier efficacement l'ensemble des connaissances textuelles au concept cible. C'est pourquoi nous proposons MoKus, un nouveau cadre pour la personnalisation de concepts sensible à la connaissance. Notre cadre repose sur une observation clé : le transfert de connaissances intermodales, où la modification des connaissances dans la modalité textuelle se transfère naturellement à la modalité visuelle lors de la génération. Inspiré par cette observation, MoKus comprend deux étapes : (1) Dans l'apprentissage du concept visuel, nous apprenons d'abord la représentation d'ancrage pour stocker l'information visuelle du concept cible. (2) Dans la mise à jour des connaissances textuelles, nous mettons à jour la réponse aux requêtes de connaissance vers la représentation d'ancrage, permettant une génération personnalisée haute fidélité. Pour évaluer plus complètement notre méthode MoKus sur cette nouvelle tâche, nous introduisons le premier benchmark pour la personnalisation de concepts sensible à la connaissance : KnowCusBench. Des évaluations approfondies ont démontré que MoKus surpasse les méthodes de l'état de l'art. De plus, le transfert de connaissances intermodales permet à MoKus d'être facilement étendu à d'autres applications sensibles à la connaissance, comme la création de concepts virtuels et l'effacement de concepts. Nous démontrons également la capacité de notre méthode à obtenir des améliorations sur des benchmarks de connaissances générales.
Nous présentons ScienceClaw + Infinite, un cadre d'investigation scientifique autonome dans lequel des agents indépendants mènent des recherches sans coordination centrale, et où tout contributeur peut déployer de nouveaux agents dans un écosystème partagé. Le système est structuré autour de trois composants : un registre extensible de plus de 300 compétences scientifiques interopérables, une couche d'artefacts qui préserve la lignée computationnelle complète sous forme de graphe orienté acyclique (DAG), et une plateforme structurée pour le discours scientifique basé sur les agents, dotée d'une gouvernance prenant en compte la provenance. Les agents sélectionnent et enchaînent des outils en fonction de leurs profils scientifiques, produisent des artefacts immuables avec des métadonnées typées et une lignée parentale, et diffusent des besoins informationnels non satisfaits vers un index global partagé. L'ArtifactReactor permet une coordination sans planificateur : les agents pairs découvrent et satisfont les besoins ouverts via un score basé sur la pression, tandis qu'un appariement par chevauchement de schémas déclenche une synthèse multi-parents à travers des analyses indépendantes. Une couche de mutation autonome élague activement le DAG d'artefacts en expansion pour résoudre les workflows conflictuels ou redondants, tandis qu'une mémoire persistante permet aux agents de s'appuyer continuellement sur des états épistémiques complexes sur plusieurs cycles. Infinite convertit ces sorties en enregistrements scientifiques auditable via des publications structurées, des vues de provenance et des relations de discours interprétables par machine, les retours de la communauté orientant les cycles d'investigation ultérieurs. À travers quatre investigations autonomes – la conception de peptides pour le récepteur de la somatostatine SSTR2, le criblage de céramiques légères résistantes aux impacts, l'établissement de ponts de résonance transdisciplinaires entre biologie, science des matériaux et musique, et la construction d'analogies formelles entre la morphologie urbaine et l'évolution des joints de grains – le cadre démontre un enchaînement hétérogène d'outils, une convergence émergente parmi des agents opérant indépendamment, et un raisonnement traçable depuis le calcul brut jusqu'à la découverte publiée.
L'analyse de documents, en tant que tâche de vision fondamentale mais cruciale, est en train d'être révolutionnée par les modèles vision-langage (VLM). Cependant, le décodage autorégressif (AR) inhérent aux VLM crée un goulot d'étranglement significatif, limitant sévèrement la vitesse d'analyse. Dans cet article, nous proposons la Prédiction de Tokens Parallèles (PTP), une méthode enfichable, agnostique au modèle et simple mais efficace, qui permet aux VLM de générer plusieurs tokens futurs en parallèle avec une meilleure efficacité d'échantillonnage. Plus précisément, nous insérons des tokens apprenables dans la séquence d'entrée et concevons des objectifs d'entraînement correspondants pour doter le modèle de capacités de décodage parallèle pour l'analyse de documents. De plus, pour soutenir un entraînement efficace, nous développons un pipeline complet de génération de données qui produit efficacement des données d'entraînement à grande échelle et de haute qualité pour l'analyse de documents par les VLM. Des expériences approfondies sur OmniDocBench et olmOCR-bench démontrent que notre méthode améliore non seulement significativement la vitesse de décodage (1.6x-2.2x) mais réduit aussi les hallucinations du modèle et présente de fortes capacités de généralisation.
L'interprétation du raisonnement interne des modèles vision-langage est essentielle pour le déploiement de l'IA dans des domaines critiques pour la sécurité. L'explicabilité par concepts offre une perspective alignée avec l'humain en représentant le comportement d'un modèle à travers des composants sémantiquement significatifs. Cependant, les méthodes existantes se limitent largement aux images et négligent les interactions multimodales. Les plongements texte-image, tels que ceux produits par CLIP, souffrent d'un écart de modalité, où les caractéristiques visuelles et textuelles suivent des distributions distinctes, limitant ainsi l'interprétabilité. L'Analyse des Corrélations Canoniques (CCA) offre une approche rigoureuse pour aligner les caractéristiques de distributions différentes, mais n'a pas été exploitée pour l'analyse multi-modale au niveau des concepts. Nous montrons que les objectifs de la CCA et de InfoNCE sont étroitement liés, de sorte qu'optimiser la CCA optimise implicitement InfoNCE, fournissant un mécanisme simple, sans entraînement supplémentaire, pour améliorer l'alignement multimodal sans affecter l'objectif InfoNCE pré-entraîné. Motivés par cette observation, nous couplons l'explicabilité par concepts avec la CCA, en introduisant Concept CCA (CoCCA), un cadre qui aligne les plongements multimodaux tout en permettant une décomposition interprétable en concepts. Nous l'étendons ensuite et proposons Sparse Concept CCA (SCoCCA), qui impose de la parcimonie pour produire des concepts plus discriminants et dissociés, facilitant une amélioration de l'activation, de l'ablation et de la manipulation sémantique. Notre approche généralise les explications basées sur les concepts aux plongements multimodaux et atteint des performances de pointe en découverte de concepts, comme en témoignent les tâches de reconstruction et de manipulation telles que l'ablation de concepts.
L'essayage virtuel (VTON) a progressé dans la visualisation de vêtements individuels, mais la mode réelle se concentre sur des tenues complètes incluant multiples vêtements, accessoires, catégories granulaires, superposition et styles variés, ce qui reste hors de portée des systèmes VTON actuels. Les jeux de données existants sont limités en catégories et manquent de diversité vestimentaire. Nous présentons Garments2Look, le premier jeu de données multimodal à grande échelle pour le VTON au niveau de la tenue, comprenant 80 000 paires multiples-vêtements-vers-une-tenue couvrant 40 catégories principales et plus de 300 sous-catégories granulaires. Chaque paire inclut une tenue avec 3 à 12 images de référence de vêtements (moyenne de 4,48), une image de mannequin portant la tenue, et des annotations textuelles détaillées sur les articles et l'essayage. Pour équilibrer authenticité et diversité, nous proposons un pipeline de synthèse. Celui-ci implique la construction heuristique de listes de tenues avant la génération des résultats d'essayage, l'ensemble du processus étant soumis à un filtrage automatique strict et une validation humaine pour garantir la qualité des données. Pour évaluer la difficulté de la tâche, nous adaptons des méthodes VTON state-of-the-art et des modèles généraux d'édition d'image pour établir des références. Les résultats montrent que les méthodes actuelles peinent à habiller virtuellement des tenues complètes de manière fluide et à inférer correctement la superposition et le style, entraînant des désalignements et artéfacts.
La synthèse vocale en flux continu (TTS) pour les systèmes interactifs doit commencer à parler avec un délai minimal tout en restant contrôlable au fur et à mesure que le texte arrive de manière incrémentielle. Nous présentons VoXtream2, un modèle TTS en flux continu à zéro-shot avec contrôle dynamique du débit d'élocution pouvant être mis à jour à mi-énoncé en temps réel. VoXtream2 combine un mécanisme d'appariement de distribution sur les états de durée avec un guidage sans classifieur à travers les signaux de conditionnement pour améliorer la contrôlabilité et la qualité de synthèse. Le masquage du texte d'amorçage permet un amorçage audio sans texte, éliminant le besoin de transcription de l'amorce. Sur des benchmarks standards en zéro-shot et un ensemble de test dédié au débit d'élocution, VoXtream2 obtient des résultats objectifs et subjectifs compétitifs par rapport aux bases de référence publiques, malgré un modèle plus petit et moins de données d'entraînement. En mode flux continu, il fonctionne 4 fois plus vite que le temps réel avec une latence du premier paquet de 74 ms sur un GPU grand public.
Les avancées récentes en génération d'images discrètes ont montré que l'augmentation de la taille du codebook VQ améliore significativement la fidélité de reconstruction. Cependant, l'entraînement de modèles génératifs avec un grand codebook VQ reste difficile, nécessitant généralement une architecture plus large et un cycle d'apprentissage plus long. Dans ce travail, nous proposons la Minimisation de l'Entropie Croisée des Voisins Stochastiques (SNCE), une nouvelle fonction de coût conçue pour résoudre les défis d'optimisation des générateurs d'images discrètes à grand codebook. Au lieu de superviser le modèle avec une cible one-hot stricte, SNCE construit une distribution catégorique douce sur un ensemble de tokens voisins. La probabilité attribuée à chaque token est proportionnelle à la proximité entre son embedding de code et l'embedding de l'image de référence, encourageant le modèle à capturer une structure géométrique sémantiquement significative dans l'espace d'embedding quantifié. Nous menons des expériences approfondies sur la génération conditionnelle ImageNet-256, la synthèse d'image à grande échelle guidée par texte, et les tâches de retouche d'image. Les résultats démontrent que SNCE améliore significativement la vitesse de convergence et la qualité générative globale par rapport aux objectifs d'entropie croisée standard.
La réponse aux questions cliniques sur les dossiers de santé électroniques (DSE) peut aider les cliniciens et les patients à accéder plus efficacement aux informations médicales pertinentes. Cependant, de nombreuses approches récentes reposent sur de grands modèles basés sur le cloud, difficiles à déployer dans les environnements cliniques en raison des contraintes de confidentialité et des exigences computationnelles. Dans ce travail, nous étudions jusqu'où la réponse aux questions ancrée sur les DSE peut être poussée en se limitant à un simple ordinateur portable. Nous participons aux quatre sous-tâches de la tâche partagée ArchEHR-QA 2026 et évaluons plusieurs approches conçues pour fonctionner sur du matériel standard. Toutes les expériences sont menées localement sans API externes ni infrastructure cloud. Nos résultats montrent que de tels systèmes peuvent atteindre des performances compétitives sur les classements de la tâche partagée. En particulier, nos soumissions obtiennent des résultats supérieurs à la moyenne dans deux sous-tâches, et nous observons que des modèles plus petits peuvent approcher les performances de systèmes bien plus grands lorsqu'ils sont correctement configurés. Ces résultats suggèrent que des systèmes de question-réponse sur les DSE, préservant la confidentialité et fonctionnant entièrement en local, sont réalisables avec les modèles actuels et du matériel standard. Le code source est disponible à l'adresse https://github.com/ibrahimey/ArchEHR-QA-2026.