Articles de recherche IA sélectionnés quotidiennement avec traductions
Les récents progrès dans les modèles de raisonnement ont considérablement amélioré la résolution de problèmes mathématiques et scientifiques à long horizon, plusieurs systèmes atteignant désormais un niveau de performance équivalent à la médaille d'or lors des Olympiades Internationales de Mathématiques (IMO) et de Physique (IPhO). Dans cet article, nous présentons une recette simple et unifiée pour transformer un modèle de raisonnement post-entraîné en un solveur rigoureux de niveau olympique. Cette recette commence par un curriculum de perplexité inversée pour le SFT afin d'instaurer des comportements rigoureux de recherche de preuves et d'auto-vérification, puis amplifie ces comportements via un pipeline d'apprentissage par renforcement en deux étapes, passant d'un RL avec récompenses vérifiables à un RL plus subtil au niveau de la preuve, et enfin améliore les performances de résolution par un passage à l'échelle au moment du test. En appliquant cette recette, nous entraînons un modèle de base 30B-A3B avec SFT sur environ 340 000 trajectoires de moins de 8 000 tokens, suivi de 200 étapes de RL. Le modèle résultant, SU-01, supporte un raisonnement stable sur des problèmes difficiles avec des trajectoires dépassant 100 000 tokens, tout en atteignant un niveau de performance équivalent à la médaille d'or dans les compétitions d'olympiades mathématiques et physiques, notamment IMO 2025/USAMO 2026 et IPhO 2024/2025. Il démontre également une forte généralisation du raisonnement scientifique à des domaines au-delà des mathématiques et de la physique.
La génération vidéo interactive en temps réel nécessite un déploiement à faible latence, en continu et contrôlable. Les méthodes existantes de distillation par diffusion autorégressive (AR) ont obtenu des résultats solides dans le régime à 4 étapes par blocs, en distillant des modèles de base bidirectionnels en étudiants AR à quelques étapes, mais elles restent limitées par une granularité de réponse grossière et une latence d'échantillonnage non négligeable. Dans cet article, nous étudions un cadre plus agressif : l'autorégression image par image avec seulement 1 à 2 étapes d'échantillonnage. Dans ce régime, nous identifions l'initialisation d'un étudiant AR à quelques étapes comme le goulot d'étranglement principal : les stratégies existantes sont soit mal alignées avec la cible, incapables de génération en quelques étapes, soit trop coûteuses à passer à l'échelle. Nous proposons Causal Forcing++, un pipeline principiel et scalable qui utilise la distillation par cohérence causale (causal CD) pour l'initialisation AR en quelques étapes. L'idée centrale est que la causal CD apprend le même flot d'écoulement conditionnel AR que la distillation par ODE causale, mais obtient une supervision à partir d'une seule étape d'ODE d'un enseignant en ligne entre des pas de temps adjacents, évitant ainsi le besoin de précalculer et de stocker des trajectoires PF-ODE complètes. Cela rend l'initialisation à la fois plus efficace et plus facile à optimiser. Le pipeline résultant, \ours, dépasse l'état de l'art Causal Forcing par blocs à 4 étapes dans le **cadre à 2 étapes image par image** de 0,1 sur VBench Total, 0,3 sur VBench Quality et 0,335 sur VisionReward, tout en réduisant la latence de la première image de 50 % et le coût d'entraînement de la phase 2 d'environ 4 fois. Nous étendons également ce pipeline à la génération de modèles du monde conditionnés par l'action dans l'esprit de Genie3. Page du projet : https://github.com/thu-ml/Causal-Forcing et https://github.com/shengshu-ai/minWM .
L'apprentissage par renforcement (RL) s'est imposé comme un paradigme central pour le post-entraînement des agents LLM, mais son signal de récompense au niveau de la trajectoire ne fournit qu'une supervision grossière pour les interactions à long horizon. L'auto-distillation sur politique (OPSD) complète le RL en introduisant un guidage dense au niveau des jetons, provenant d'une branche enseignante enrichie d'un contexte privilégié. Cependant, le transfert de l'OPSD à des agents multi-tours s'avère problématique : l'instabilité composée des interactions multi-tours déstabilise la supervision, tandis que le guidage privilégié conditionné par les compétences nécessite un traitement asymétrique, car les rejets négatifs de l'enseignant peuvent découler d'une récupération ou d'une utilisation imparfaite des compétences. Nous introduisons SDAR (Self-Distilled Agentic Reinforcement Learning), qui traite l'OPSD comme un objectif auxiliaire à porte tout en conservant le RL comme colonne vertébrale d'optimisation principale. SDAR projette les signaux détachés au niveau des jetons dans une porte sigmoïde, renforçant la distillation sur les jetons à écart positif approuvés par l'enseignant et atténuant doucement les rejets négatifs de l'enseignant. Sur les familles Qwen2.5 et Qwen3 évaluées sur ALFWorld, WebShop et Search-QA, SDAR améliore considérablement les performances par rapport à GRPO (+9,4 % sur ALFWorld, +7,0 % sur Search-QA, +10,2 % sur WebShop-Acc), évite l'instabilité de l'approche naïve GRPO+OPSD, et surpasse systématiquement les méthodes hybrides RL-OPSD à différentes échelles de modèle.
La mémoire est essentielle pour les grands modèles vision-langage (LVLMs) afin de gérer de longues interactions multimodales, avec deux directions méthodologiques offrant cette capacité : les LVLMs à contexte long et les agents à mémoire augmentée. Cependant, aucun benchmark existant ne compare systématiquement les deux sur des questions qui requièrent réellement des preuves multimodales. Pour combler cette lacune, nous présentons MEMLENS, un benchmark complet pour la mémoire dans les conversations multimodales multi-sessions, comprenant 789 questions couvrant cinq capacités de mémoire (extraction d'informations, raisonnement multi-session, raisonnement temporel, mise à jour des connaissances et refus de réponse) à quatre longueurs de contexte standard (32K-256K tokens) selon un schéma de comptage de tokens cross-modal. Une étude d'ablation d'images confirme que résoudre MEMLENS nécessite des preuves visuelles : supprimer les images de preuve fait chuter deux LVLMs de pointe en dessous de 2 % de précision sur les 80,4 % de questions dont les preuves incluent des images. En évaluant 27 LVLMs et 7 agents à mémoire augmentée, nous constatons que les LVLMs à contexte long atteignent une haute précision en contexte court grâce à un ancrage visuel direct mais se dégradent à mesure que les conversations s'allongent, tandis que les agents à mémoire sont stables en longueur mais perdent en fidélité visuelle sous une compression lors du stockage. Le raisonnement multi-session plafonne la plupart des systèmes en dessous de 30 %, et aucune approche seule ne résout la tâche. Ces résultats motivent le développement d'architectures hybrides combinant l'attention à long contexte avec une récupération multimodale structurée. Notre code est disponible sur https://github.com/xrenaf/MEMLENS.
Nous présentons SANA-WM, un modèle du monde open-source efficace de 2,6 milliards de paramètres, entraîné nativement pour la génération de séquences d’une minute, capable de synthétiser des vidéos haute fidélité en 720p à l’échelle de la minute avec un contrôle précis de la caméra. SANA-WM atteint une qualité visuelle comparable à celle des références industrielles de grande envergure telles que LingBot-World et HY-WorldPlay, tout en améliorant significativement l’efficacité. Quatre conceptions centrales animent notre architecture : (1) l’attention linéaire hybride combine un Gated DeltaNet (GDN) par trame avec une attention softmax pour une modélisation efficace de contextes longs sous contrainte mémoire ; (2) le contrôle de caméra à double branche garantit un suivi précis des trajectoires à 6 degrés de liberté ; (3) le pipeline de génération en deux étapes applique un raffineur de vidéos longues aux sorties de l’étape 1, améliorant la qualité et la cohérence entre les séquences ; (4) le pipeline d’annotation robuste extrait des poses de caméra précises à l’échelle métrique à 6 degrés de liberté à partir de vidéos publiques, produisant des étiquettes d’action de haute qualité, cohérentes spatio-temporellement. Grâce à ces conceptions, SANA-WM démontre une efficacité remarquable en termes de données, de puissance de calcul pour l’entraînement et de matériel d’inférence : il n’utilise qu’environ 213 000 clips vidéo publics avec supervision de pose à l’échelle métrique, termine l’entraînement en 15 jours sur 64 H100, et génère chaque clip de 60 secondes sur un seul GPU ; sa variante distillée peut être déployée sur un unique RTX 5090 avec quantification NVFP4 pour débruité un clip 720p de 60 secondes en 34 secondes. Sur notre benchmark de modèle du monde à une minute, SANA-WM démontre une meilleure précision de suivi d’action que les références open-source précédentes et atteint une qualité visuelle comparable avec un débit 36 fois supérieur pour une modélisation du monde scalable.
La mémoire à long terme des agents est de plus en plus multimodale, mais les évaluations existantes testent rarement si les agents préservent les preuves visuelles nécessaires à un raisonnement ultérieur. Dans les travaux antérieurs, de nombreuses questions visuellement fondées peuvent être résolues en utilisant uniquement des légendes ou des traces textuelles, ce qui permet d'inférer les réponses sans préserver les preuves visuelles fines. Parallèlement, les cas plus difficiles nécessitant un raisonnement sur des états visuels changeants sont largement absents. C'est pourquoi nous introduisons MemEye, un cadre qui évalue les capacités de mémoire selon deux dimensions : l'une mesure la granularité des preuves visuelles décisives (du niveau scénique au niveau pixel), et l'autre mesure la manière dont les preuves récupérées doivent être utilisées (de la preuve unique à la synthèse évolutive). Dans ce cadre, nous construisons un nouveau banc d'essai couvrant 8 tâches de scénarios de vie, avec des portes de validation basées sur l'ablation pour évaluer la possibilité de réponse, la résistance aux raccourcis, la nécessité visuelle et la structure de raisonnement. En évaluant 13 méthodes de mémoire sur 4 architectures VLM, nous montrons que les architectures actuelles peinent encore à préserver les détails visuels fins et à raisonner sur les changements d'état au fil du temps. Nos résultats indiquent que la mémoire multimodale à long terme dépend de l'acheminement des preuves, du suivi temporel et de l'extraction des détails.
Nous présentons Darwin Family, un cadre pour la fusion évolutive sans entraînement de grands modèles de langage via une recombinaison sans gradient dans l’espace des poids. Nous nous demandons si la performance de raisonnement de pointe peut être améliorée sans entraînement supplémentaire, en réorganisant les capacités latentes déjà encodées dans les points de contrôle existants. Darwin introduit trois idées clés : (i) un génome de fusion adaptatif à 14 dimensions permettant une recombinaison fine au niveau des composants et des blocs ; (ii) la fusion MRI-Trust, qui équilibre de manière adaptative les signaux diagnostiques d’importance des couches avec la recherche évolutive via un paramètre de confiance apprenable ; et (iii) un Mapper d’Architecture qui permet le croisement inter-architectures entre familles de modèles hétérogènes. Empiriquement, le modèle phare Darwin-27B-Opus atteint 86,9 % sur GPQA Diamond, se classant 6e parmi 1 252 modèles évalués, et surpassant son modèle de base entièrement entraîné sans aucun entraînement basé sur le gradient. À travers des échelles allant de 4B à 35B paramètres, les modèles Darwin s’améliorent systématiquement par rapport à leurs parents, supportent une évolution récursive multi-génération et permettent une fusion évolutive sans entraînement combinant des composants basés sur Transformer et Mamba. Ensemble, la famille Darwin démontre que la fusion évolutive guidée par diagnostic est une alternative pratique et reproductible aux pipelines coûteux de post-entraînement pour les modèles de langage centrés sur le raisonnement.
Les agents autonomes basés sur les LLM ont démontré des capacités solides en matière de raisonnement, de planification et d'utilisation d'outils, mais ils restent limités lorsque les tâches nécessitent une coordination soutenue entre rôles, outils et environnements. Les systèmes multi-agents répondent à cette problématique par une collaboration structurée entre agents spécialisés, mais une coordination plus étroite amplifie également un risque moins exploré : les erreurs peuvent se propager entre les agents et au fil des cycles d'interaction, produisant des défaillances difficiles à diagnostiquer et qui se traduisent rarement par une auto-amélioration structurelle. Les revues de littérature existantes couvrent séparément les capacités individuelles des agents, la collaboration multi-agents ou l'auto-évolution des agents, laissant inexplorées les dépendances causales qui les relient. Cette revue propose une synthèse unifiée organisée autour de quatre étapes liées causalement, que nous appelons la progression LIFE : Poser les fondements des capacités (Lay the capability foundation), Intégrer les agents par la collaboration (Integrate agents through collaboration), Trouver les défauts par attribution (Find faults through attribution), et Évoluer par auto-amélioration autonome (Evolve through autonomous self-improvement). Pour chaque étape, nous fournissons des taxonomies systématiques et caractérisons formellement les dépendances entre étapes adjacentes, révélant comment chaque étape dépend de la suivante tout en la contraignant. Au-delà de la synthèse des travaux existants, nous identifions les défis ouverts aux frontières des étapes et proposons un programme de recherche transversal pour des systèmes multi-agents en boucle fermée capables de diagnostiquer en continu les défaillances, de réorganiser les structures et d'affiner les comportements des agents, élargissant ainsi les cadres de coordination actuels vers des formes plus auto-organisées d'intelligence collective. En reliant ces fils de recherche auparavant fragmentés, cette revue vise à offrir à la fois une référence systématique et une feuille de route conceptuelle vers une intelligence multi-agents autonome et auto-améliorante.
Les agents basés sur les grands modèles de langage (LLM) sont de plus en plus appelés à maintenir une mémoire personnalisée cohérente et à long terme, mais les référentiels actuels mesurent principalement la récupération statique de faits, négligeant la capacité à réviser les croyances mémorisées lorsque de nouvelles preuves émergent. Nous identifions un mode de défaillance critique et peu exploré, le Conflit Implicite : une observation ultérieure invalide un souvenir antérieur sans négation explicite, nécessitant une inférence contextuelle et un raisonnement de bon sens pour être détectée. Afin d’évaluer rigoureusement cette capacité, nous présentons STALE, un benchmark de 400 scénarios de conflit validés par des experts (1 200 requêtes d’évaluation réparties sur trois dimensions de sondage) couvrant plus de 100 sujets quotidiens avec des contextes allant jusqu’à 150 000 tokens. Nous proposons un cadre de sondage tridimensionnel qui teste la Résolution d’État (détecter qu’une croyance antérieure est obsolète), la Résistance aux Prémisses (rejeter les requêtes qui présupposent faussement un état périmé) et l’Adaptation Implicite des Politiques (appliquer proactivement des états mis à jour dans le comportement aval). Une évaluation systématique des LLM de pointe et des architectures mémoire spécialisées révèle un écart persistant entre la récupération de preuves actualisées et leur mise en œuvre, le meilleur modèle évalué n’atteignant qu’une précision globale de 55,2%. Les modèles acceptent souvent les hypothèses obsolètes intégrées dans une requête utilisateur, et peinent à reconnaître quand un changement dans un aspect de l’état de l’utilisateur devrait invalider des souvenirs connexes. Pour établir une première référence pour une mémoire sensible à l’état, nous présentons également CUPMem, un prototype qui renforce la révision à l’écriture via une consolidation structurée des états et une recherche sensible à la propagation, suggérant que l’arbitrage explicite des états constitue une voie prometteuse pour une mémoire agentique robuste.
Les grands modèles de langage et de vision-langage alimentent de plus en plus des agents qui agissent au nom d'un utilisateur via des harnais d'interface en ligne de commande (CLI). Cependant, la plupart des benchmarks d'agents reposent encore sur des bacs à sable synthétiques, des tâches à horizon court, des API de services simulés et des vérifications de réponses finales, ce qui laisse en suspens la question de savoir si les agents peuvent accomplir un travail réaliste à long horizon dans les environnements d'exécution où ils sont déployés. Ce travail présente WildClawBench, un benchmark en environnement d'exécution natif comprenant 60 tâches bilingues et multimodales, rédigées par des humains et réparties en six catégories thématiques. Chaque tâche prend en moyenne environ 8 minutes de temps réel et plus de 20 appels d'outils, et s'exécute dans un conteneur Docker reproductible hébergeant un véritable harnais d'agent CLI (OpenClaw, Claude Code, Codex ou Hermes Agent) avec accès à des outils réels plutôt qu'à des services simulés. La notation est hybride, combinant des vérifications déterministes basées sur des règles, un audit de l'état de l'environnement pour les effets secondaires, et un juge LLM/VLM pour la vérification sémantique. Sur 19 modèles de pointe, le meilleur, Claude Opus 4.7, n'atteint que 62,2 % au total avec OpenClaw, tandis que tous les autres modèles restent en dessous de 60 %, et le simple changement de harnais fait varier un modèle unique de jusqu'à 18 points. Ces résultats montrent que l'évaluation des agents à long horizon en environnement d'exécution natif reste une tâche loin d'être résolue pour les modèles de pointe actuels. Nous publions les tâches, le code et les outils conteneurisés pour soutenir une évaluation reproductible.
La génération vidéo contrôlée par caméra a réalisé des progrès substantiels, permettant aux vidéos générées de suivre des trajectoires de point de vue prescrites. Cependant, les méthodes existantes apprennent généralement un conditionnement spécifique à la caméra via des encodeurs de caméra, des branches de contrôle, ou des modifications de l'attention et du codage positionnel, ce qui nécessite souvent un post-entraînement sur des vidéos annotées de caméra à grande échelle. Les alternatives sans entraînement évitent un tel post-entraînement, mais reportent souvent le coût vers une optimisation en phase de test ou un guidage supplémentaire en phase de débruitage. Nous proposons Warp-as-History, une interface simple qui transforme les déformations induites par la caméra en pseudo-historique déformé par caméra avec un alignement positionnel de l'image cible et une sélection des jetons visibles. Étant donné une trajectoire de caméra cible, nous construisons un pseudo-historique déformé par caméra à partir des observations passées et le transmettons via le chemin d'historique visuel du modèle. De manière cruciale, nous alignons son codage positionnel avec les images cibles en cours de débruitage et supprimons les jetons d'historique déformé sans observations sources valides. Sans aucun entraînement, modification architecturale ou optimisation en phase de test, cette interface révèle une capacité non triviale de zéro-shot d'un modèle de génération vidéo figé à suivre des trajectoires de caméra. De plus, un ajustement fin LoRA léger hors ligne sur une seule vidéo annotée de caméra améliore encore cette capacité et se généralise à des vidéos non vues, renforçant l'adhérence à la caméra, la qualité visuelle et la dynamique de mouvement sans optimisation en phase de test ni adaptation à la vidéo cible. Des expériences approfondies sur divers ensembles de données confirment l'efficacité de notre méthode.
Alors que l'écosystème des grands modèles de langage (LLM) s'étend, les modèles individuels présentent des capacités variables selon les requêtes, les repères et les domaines, ce qui motive le développement du routage des LLM. Si les travaux antérieurs se sont largement concentrés sur la conception de mécanismes de routage, les profils de LLM, qui capturent les capacités des modèles, restent sous-explorés. Dans ce travail, nous nous demandons : comment la conception des profils de LLM affecte-t-elle les performances de routage à travers différents routeurs ? Répondre à cette question aide à clarifier le rôle des profils dans le routage, à démêler la conception des profils de celle des routeurs, et à permettre une comparaison plus équitable et un développement plus fondé des systèmes de routage. À cette fin, nous considérons le profilage des LLM comme un problème d'intégration d'informations structurées sur des historiques d'interactions hétérogènes. Nous développons un espace de conception général des profils de LLM, nommé RouteProfile, selon quatre dimensions clés : la forme organisationnelle, le type de représentation, la profondeur d'agrégation et la configuration d'apprentissage. À travers une évaluation systématique sur trois routeurs représentatifs dans des contextes de généralisation standard et de nouveau LLM, nous montrons que : (1) les profils structurés surpassent systématiquement les profils plats ; (2) les signaux au niveau des requêtes sont plus fiables que les signaux grossiers au niveau des domaines ; et (3) la généralisation aux modèles nouvellement introduits bénéficie le plus des profils structurés sous des configurations entraînables. Dans l'ensemble, notre travail met en lumière la conception des profils de LLM comme une direction importante pour les futures recherches sur le routage.
La mémoire d'un agent est généralement construite soit hors ligne à partir de démonstrations soigneusement sélectionnées, soit en ligne à partir d'interactions post-déploiement. Cependant, quelle que soit sa méthode de construction, un agent se heurte à un fossé de démarrage à froid lorsqu'il est introduit pour la première fois dans un nouvel environnement sans aucune expérience spécifique à la tâche disponible. Dans cet article, nous étudions la construction de mémoire pré-tâche : la possibilité pour un agent de construire une mémoire procédurale avant d'observer des tâches dans l'environnement cible, en utilisant uniquement des exercices synthétiques auto-générés. Pourtant, une interaction purement synthétique s'avère insuffisante, car sans contrôle sur ce qu'il faut pratiquer et ce qu'il faut stocker, les tâches synthétiques deviennent redondantes, irréalisables et finalement peu informatives, et la mémoire se dégrade rapidement en raison de trajectoires non filtrées. Pour surmonter ce problème, nous présentons Preping, un cadre de construction de mémoire guidé par un proposeur. Son cœur est la mémoire du proposeur, un état de contrôle structuré qui façonne les exercices futurs. Un Proposeur génère des tâches synthétiques conditionnées par cet état, un Solveur les exécute, et un Validateur détermine quelles trajectoires sont éligibles pour l'insertion en mémoire tout en fournissant un retour d'information pour orienter les propositions futures. Les expériences sur AppWorld, BFCL v3 et MCP-Universe montrent que Preping améliore considérablement la performance par rapport à une ligne de base sans mémoire et atteint des performances compétitives avec des méthodes robustes basées sur des playbooks construites à partir d'expériences hors ligne ou en ligne, avec un coût de déploiement 2,99 fois inférieur sur AppWorld et 2,23 fois inférieur sur BFCL v3 par rapport à la construction de mémoire en ligne. Des analyses complémentaires révèlent que le principal avantage ne provient pas du seul volume synthétique, mais du contrôle côté proposeur sur la faisabilité, la redondance et la couverture, combiné à des mises à jour sélectives de la mémoire.
La mémoire à long terme est essentielle pour les agents LLM opérant sur plusieurs sessions, pourtant les systèmes de mémoire existants considèrent l'infrastructure de récupération comme fixe : le contenu stocké évolue tandis que les fonctions de score, les stratégies de fusion et les politiques de génération de réponses restent figées lors du déploiement. Nous soutenons qu'une mémoire véritablement adaptative nécessite une co-évolution à deux niveaux : les connaissances stockées et le mécanisme de récupération qui les interroge. Nous présentons EvolveMem, une architecture de mémoire auto-évolutive qui expose sa configuration de récupération complète sous la forme d'un espace d'actions structuré optimisé par un module de diagnostic basé sur un LLM. À chaque cycle d'évolution, le module lit les journaux d'échecs par question, identifie les causes profondes et propose des ajustements ciblés de la configuration ; un méta-analyseur gardé les applique avec des garanties de retour automatique en cas de régression et d'exploration en cas de stagnation. Cette auto-évolution en boucle fermée réalise un processus d'auto-recherche : le système mène de manière autonome des cycles de recherche itératifs sur sa propre architecture, remplaçant le réglage manuel de la configuration. En partant d'une configuration minimale de base, le processus converge de manière autonome, découvrant des stratégies de récupération efficaces, y compris des dimensions de configuration entièrement nouvelles absentes de l'espace d'actions original. Sur LoCoMo, EvolveMem surpasse la meilleure référence de 25,7 % en termes relatifs et réalise une amélioration relative de 78,0 % par rapport à la configuration de base minimale. Sur MemBench, EvolveMem dépasse la meilleure référence de 18,9 % en termes relatifs. Les configurations évoluées se transfèrent entre les bancs d'essai avec un transfert positif plutôt que catastrophique, indiquant que le processus d'auto-évolution capture des principes universels de récupération plutôt que des heuristiques spécifiques au banc d'essai. Le code est disponible à l'adresse https://github.com/aiming-lab/SimpleMem.
Nous cherchons souvent à générer des images à la fois photoréalistes et cohérentes en 3D, en respectant des contrôles précis de géométrie, de matériau et de point de vue. Généralement, cela est réalisé par l’ajustement fin d’un générateur d’images, pré-entraîné sur des milliards d’images réelles, en utilisant des rendus d’actifs 3D synthétiques, pour lesquels des annotations des signaux de contrôle sont disponibles. Bien que cette approche permette d’apprendre les contrôles souhaités, elle compromet souvent le réalisme des images en raison de l’écart de domaine entre les photographies et les rendus. Nous observons que ce problème provient en grande partie du fait que le modèle apprend une association non intentionnelle entre la présence des signaux de contrôle et l’apparence synthétique des images. Pour remédier à cela, nous présentons Realiz3D, un cadre léger pour entraîner des modèles de diffusion, qui découple les contrôles du domaine visuel. L’idée clé est d’apprendre explicitement le domaine visuel, réel ou synthétique, séparément des autres signaux de contrôle, en introduisant une covariable qui, injectée dans de petits adaptateurs résiduels, modifie le domaine. Ainsi, le générateur peut être entraîné à acquérir de la contrôlabilité sans s’adapter à un domaine visuel spécifique. De cette manière, le modèle peut être guidé pour produire des images réalistes même lorsque les contrôles sont appliqués. Nous améliorons la transférabilité des contrôles au domaine réel en tirant parti des connaissances sur les rôles des différentes couches et étapes de débruitage dans les générateurs basés sur la diffusion, ce qui éclaire de nouvelles stratégies d’entraînement et d’inférence qui atténuent encore l’écart. Nous démontrons les avantages de Realiz3D dans des tâches telles que la génération texte-à-multivues et la texturation à partir d’entrées 3D, produisant des résultats à la fois cohérents en 3D et photoréalistes.
Le raisonnement visuel, souvent entrelacé avec des états visuels intermédiaires, est devenu une direction prometteuse dans le domaine. Une approche simple consiste à générer directement des images via des modèles unifiés pendant le raisonnement, mais cela est coûteux en calcul et non trivial sur le plan architectural. Les alternatives récentes incluent le raisonnement agentique via du code ou des appels d'outils, et le raisonnement latent avec des embeddings cachés apprenables. Cependant, les méthodes agentiques entraînent une latence de changement de contexte due à l'exécution externe, tandis que les méthodes latentes manquent de généralisation aux tâches et sont difficiles à entraîner avec la parallélisation autorégressive. Pour combiner leurs forces tout en atténuant leurs limites, nous proposons ATLAS, un cadre dans lequel un seul « mot » discret, appelé jeton fonctionnel, sert à la fois d'opération agentique et d'unité de raisonnement visuel latent. Chaque jeton fonctionnel est associé à une opération visuelle internalisée, mais ne nécessite aucune supervision visuelle et reste un jeton standard dans le vocabulaire du tokeniseur, pouvant être généré via la prédiction du prochain jeton. Cette conception évite la génération verbeuse de contenu visuel intermédiaire, tout en préservant la compatibilité avec l'entraînement standard et évolutif par SFT et RL, sans modification architecturale ou méthodologique. Pour remédier à la parcimonie des jetons fonctionnels pendant le RL, nous introduisons le GRPO à ancrage latent (LA-GRPO), qui stabilise l'entraînement en ancrant les jetons fonctionnels avec un objectif auxiliaire pondéré statiquement, fournissant des mises à jour de gradient plus fortes. Des expériences et analyses approfondies démontrent qu'ATLAS atteint des performances supérieures sur des benchmarks difficiles tout en maintenant une interprétabilité claire. Nous espérons qu'ATLAS offre un nouveau paradigme inspirant la future recherche en raisonnement visuel.
La recherche de chemins multi-agents (MAPF) est une abstraction largement utilisée pour les problèmes de planification de trajectoires multi-robots, où plusieurs agents homogènes se déplacent simultanément dans un environnement partagé. Bien que résoudre le MAPF de manière optimale soit NP-difficile, des solveurs scalables et efficaces sont essentiels pour des applications réelles telles que la logistique et les opérations de recherche et sauvetage. À cette fin, la communauté de recherche a proposé divers solveurs MAPF sous-optimaux décentralisés qui exploitent l'apprentissage automatique. De telles méthodes cadrent le MAPF (du point de vue d'un seul agent) comme un Dec-POMDP où, à chaque pas de temps, un agent doit décider d'une action en fonction de l'observation locale, et résolvent généralement le problème via l'apprentissage par renforcement ou l'apprentissage par imitation. Nous suivons la même approche mais introduisons en plus un module de communication apprenable conçu pour améliorer la coopération entre agents grâce à un partage efficace de caractéristiques. Nous présentons la Communication Locale pour la Recherche de Chemins Multi-Agents (LC-MAPF), un modèle pré-entraîné généralisable qui applique une communication multi-tour entre agents voisins pour échanger des informations et améliorer leur coordination. Nos expériences montrent que la méthode introduite surpasse les solveurs MAPF existants basés sur l'apprentissage, y compris les approches basées sur l'IL et le RL, selon diverses métriques dans un large éventail de scénarios de test (inédits). Fait remarquable, le mécanisme de communication introduit ne compromet pas la scalabilité de LC-MAPF, un goulot d'étranglement courant pour les solveurs MAPF basés sur la communication.
De nombreux défis de codage concrets sont ouverts et n'admettent aucune solution optimale connue. Cependant, les progrès récents du codage par LLM se sont concentrés sur des tâches bien définies telles que l'implémentation de fonctionnalités, la correction de bugs et la programmation compétitive. Le codage ouvert reste un point faible des LLM, principalement parce que les problèmes d'entraînement ouverts sont rares et coûteux à construire. Notre objectif est de synthétiser des problèmes de codage ouverts à grande échelle pour former des codeurs LLM plus performants. Nous présentons FrontierSmith, un système automatisé pour faire évoluer de manière itérative des problèmes ouverts à partir de tâches de codage fermées existantes. À partir de problèmes de programmation compétitive, FrontierSmith génère des variantes ouvertes candidates en modifiant les objectifs des problèmes, en restreignant les sorties et en généralisant les entrées. Il utilise ensuite une métrique quantitative de divergence d'idées pour sélectionner les problèmes qui suscitent des approches véritablement diverses de la part de différents solveurs. Les agents génèrent ensuite des cas de test et des vérificateurs pour les candidats survivants. Sur deux benchmarks de codage ouvert, l'entraînement sur nos données synthétisées produit des gains substantiels par rapport aux modèles de base : Qwen3.5-9B s'améliore de +8,82 points sur FrontierCS et de +306,36 (performance basée sur le classement Elo) sur ALE-bench ; Qwen3.5-27B s'améliore respectivement de +12,12 et +309,12. Les problèmes synthétisés amènent également les agents à effectuer plus de tours et à utiliser plus de tokens, à l'instar de ceux élaborés par des humains, ce qui suggère que les amorces fermées peuvent constituer un point de départ pratique pour des données de codage à long terme.
L'entraînement de transformeurs causaux à des longueurs de séquence extrêmes est limité par le temps et la mémoire quadratiques de l'attention par produit scalaire mis à l'échelle (SDPA). Dans ce travail, nous proposons Lighthouse Attention, un algorithme d'attention hiérarchique basé sur une sélection symétrique, dédié à l'entraînement, qui encapsule le SDPA standard et peut être facilement retiré vers la fin de l'entraînement. Notre sélection hiérarchique est également sans gradient, ce qui nous dispense de traiter un noyau de passage arrière complexe et potentiellement inefficace. Notre contribution est triple : (i) une étape de pré- et post-traitement hiérarchique sous-quadratique qui effectue une compression et une décompression adaptatives de la séquence ; (ii) une stratégie de compression symétrique qui regroupe simultanément les requêtes, les clés et les valeurs, tout en préservant la causalité de gauche à droite, ce qui améliore considérablement le parallélisme ; (iii) une approche d'entraînement en deux étapes où nous pré-entraînons pendant la majeure partie du temps avec Lighthouse Attention, puis récupérons un modèle d'attention complet à la fin par un court entraînement. Nous menons des expériences préliminaires de pré-entraînement de LLM à petite échelle qui montrent l'efficacité de notre méthode par rapport à un entraînement par attention complète, tous les autres paramètres étant identiques, où nous obtenons un temps d'entraînement total plus rapide et une perte finale plus faible après la phase de récupération. Le code complet est disponible à l'adresse : https://github.com/ighoshsubho/lighthouse-attention
Les données d’imitation robotique sont souvent multimodales : des observations visuo-linguistiques similaires peuvent être suivies de différents segments d’actions, car les démonstrateurs humains agissent avec des intentions à court terme, des phases de tâche ou un contexte récent différents. Les politiques VLA existantes conditionnées par l’image infèrent chaque segment à partir de l’observation courante et de l’instruction seules, de sorte que, sous une observabilité partielle, elles peuvent rééchantillonner des intentions différentes entre des étapes de replanification adjacentes, entraînant un conflit entre segments et une exécution instable. Nous présentons IntentVLA, un cadre VLA conditionné par l’historique qui encode les observations visuelles récentes en une représentation compacte d’intention à court terme et l’utilise pour conditionner la génération de segments. Nous introduisons également AliasBench, un banc d’essai sensible à l’ambiguïté comprenant 12 tâches sur RoboTwin2, avec des données d’entraînement appariées et des environnements d’évaluation qui isolent l’ambiguïté d’observation à court terme. Sur AliasBench, SimplerEnv, LIBERO et RoboCasa, IntentVLA améliore la stabilité des déploiements et surpasse des bases de référence VLA robustes.
L'apprentissage par renforcement est devenu un outil puissant pour améliorer les modèles texte-image basés sur la diffusion, mais les méthodes existantes sont largement limitées à l'optimisation mono-tâche. Étendre l'apprentissage par renforcement à plusieurs tâches est difficile : l'optimisation conjointe souffre d'interférence entre tâches et de déséquilibre, tandis que l'approche en cascade (cascade RL) est lourde et sujette à l'oubli catastrophique. Nous proposons DiffusionOPD, un nouveau paradigme d'entraînement multi-tâche pour les modèles de diffusion basé sur la distillation de politique en ligne (Online Policy Distillation, OPD). DiffusionOPD entraîne d'abord des enseignants spécifiques à chaque tâche de manière indépendante, puis distille leurs capacités dans un étudiant unifié le long des trajectoires de déploiement (rollout) propres à l'étudiant. Cela découple l'exploration mono-tâche de l'intégration multi-tâche et évite la charge d'optimisation liée à la résolution conjointe de toutes les tâches à partir de zéro. Théoriquement, nous étendons le cadre OPD des tokens discrets aux processus de Markov à états continus, en dérivant un objectif KL par étape sous forme fermée qui unifie le raffinement par EDS stochastique et par EDO déterministe via l'appariement des moyennes. Nous démontrons formellement et empiriquement que ce gradient analytique offre une variance plus faible et une meilleure généralité par rapport aux gradients de politique de type PPO classiques. Des expériences approfondies montrent que DiffusionOPD surpasse systématiquement les références (baselines) de RL multi-récompenses et de RL en cascade en termes d'efficacité d'entraînement et de performance finale, tout en atteignant des résultats de pointe (état de l'art) sur tous les benchmarks évalués.
La reconstruction de scènes 3D de haute qualité a récemment progressé vers des architectures feed-forward généralisables, permettant de générer des environnements complexes en un seul passage avant. Cependant, malgré leurs performances solides dans la perception de scènes statiques, ces modèles restent limités dans leur capacité à répondre à des instructions humaines dynamiques, ce qui restreint leur utilisation dans des applications interactives. Les méthodes d'édition existantes reposent généralement sur une stratégie de remontée 2D, où les vues individuelles sont éditées indépendamment puis remontées dans l'espace 3D. Ce pipeline indirect conduit souvent à des textures floues et à une géométrie incohérente, car les éditeurs 2D manquent de la conscience spatiale nécessaire pour préserver la structure d'un point de vue à l'autre. Pour remédier à ces limitations, nous proposons VGGT-Edit, un cadre feed-forward pour l'édition native de scènes 3D conditionnée par du texte. VGGT-Edit introduit une injection de texte synchronisée en profondeur pour aligner les orientations sémantiques avec les poses spatiales du backbone, assurant ainsi un ancrage stable des instructions. Ce signal sémantique est ensuite traité par une tête de transformation résiduelle, qui prédit directement les déplacements géométriques 3D pour déformer la scène tout en préservant la stabilité de l'arrière-plan. Pour garantir des résultats de haute fidélité, nous supervisons le cadre avec une fonction objectif multi-termes qui impose une précision géométrique et une cohérence inter-vues. Nous construisons également l'ensemble de données DeltaScene, un jeu de données à grande échelle généré via un pipeline automatisé avec filtrage par accord 3D pour assurer la qualité des vérités terrain. Les expériences montrent que VGGT-Edit surpasse considérablement les bases de la remontée 2D, produisant des détails d'objets plus nets, une forte cohérence multi-vues et une vitesse d'inférence quasi instantanée.
La modélisation agentique vise à transformer les LLM en agents autonomes capables de résoudre des tâches complexes par le biais de la planification, du raisonnement, de l'utilisation d'outils et d'interactions multi-tours avec l'environnement. Malgré des investissements majeurs, la recherche ouverte reste contrainte par des lacunes en matière d'infrastructure et de formation. De nombreux systèmes performants s'appuient sur des bases de code, des modèles ou des services propriétaires, tandis que la plupart des cadres open-source se concentrent sur l'orchestration et l'évaluation plutôt que sur l'entraînement scalable d'agents. Nous présentons Orchard, un cadre open-source pour la modélisation agentique scalable. Au cœur de celui-ci se trouve Orchard Env, un service d'environnement léger fournissant des primitives réutilisables pour la gestion du cycle de vie des environnements sandbox à travers les domaines de tâches, les harnais d'agents et les étapes de pipeline. Au-dessus d'Orchard Env, nous construisons trois recettes de modélisation agentique. Orchard-SWE cible les agents de codage. Nous distillons 107 000 trajectoires à partir de MiniMax-M2.5 et Qwen3.5-397B, introduisons la SFT avec attribution de crédit pour apprendre des segments productifs de trajectoires non résolues, et appliquons le Déploiement Adaptatif Équilibré pour l'apprentissage par renforcement. En partant de Qwen3-30B-A3B-Thinking, Orchard-SWE atteint 64,3% sur SWE-bench Verified après SFT et 67,5% après SFT+RL, établissant un nouvel état de l'art parmi les modèles open-source de taille comparable. Orchard-GUI entraîne un agent visio-linguistique de 4B utilisant un ordinateur avec seulement 0,4K trajectoires distillées et 2,2K tâches ouvertes. Il atteint des taux de succès de 74,1%, 67,0% et 64,0% respectivement sur WebVoyager, Online-Mind2Web et DeepShop, ce qui en fait le modèle open-source le plus performant tout en restant compétitif avec les systèmes propriétaires. Orchard-Claw cible les agents assistants personnels. Entraîné avec seulement 0,2K tâches synthétiques, il atteint 59,6% pass@3 sur Claw-Eval et 73,9% lorsqu'il est associé à un harnais ZeroClaw plus performant. Collectivement, ces résultats montrent qu'une couche d'environnement légère, ouverte et indépendante des harnais permet de disposer de données agentiques, de recettes d'entraînement et d'évaluations réutilisables à travers les domaines.
Dès lors qu’un nouveau média émerge, son usage dépasse la simple transmission d’un contenu explicite. L’information qu’il transporte agit généralement sur deux plans : le premier est le contenu directement présenté, tandis que le second est le sous-texte qui le sous-tend — les idées et intentions implicites que le créateur cherche à transmettre par le biais du média. De même, depuis l’adoption généralisée des technologies vidéo, la vidéo n’a pas seulement servi d’outil puissant pour enregistrer et communiquer des informations visuelles, mais aussi de véhicule pour des émotions, des attitudes et des significations sociales souvent difficiles à formuler explicitement. Ainsi, le sens véritable de nombreuses vidéos ne réside pas uniquement dans ce qui est montré à l’écran ; il est souvent ancré dans le contexte, le style d’expression et l’expérience sociale du spectateur. Certaines formes de ce sous-texte vidéo sont humoristiques, tandis que d’autres portent de l’ironie, de la moquerie ou de la critique. Ces significations implicites peuvent également être interprétées de manières très différentes selon les contextes culturels et les groupes sociaux. Cependant, la plupart des modèles existants de compréhension vidéo se concentrent encore principalement sur la compréhension littérale du visuel, comme la reconnaissance d’objets, d’actions ou de relations temporelles, et manquent d’une capacité systématique à appréhender les significations métaphoriques, ironiques et sociales intégrées dans les vidéos. Pour combler cette lacune, nous présentons ViMU, le premier référentiel conçu pour évaluer systématiquement les capacités de compréhension du sous-texte des modèles de pointe dans les vidéos. ViMU évalue si les modèles de compréhension vidéo peuvent aller au-delà de la perception littérale pour inférer un sens implicite, tout en ancrant leurs interprétations dans des preuves multimodales et en répondant à des questions ouvertes et à choix multiples. Il est important de noter que toutes les questions sont conçues pour être sans indice, garantissant qu’aucune preuve clé n’est divulguée aux modèles avant la réponse.
Les modèles de diffusion vidéo autorégressifs (AR) adoptent un cadre de génération en flux, permettant une génération vidéo à long horizon avec une réactivité en temps réel, comme illustré par le paradigme d'entraînement Self Forcing. Cependant, les modèles de diffusion vidéo AR existants souffrent encore d'une complexité d'attention significative et d'une charge mémoire importante en raison des caches clé-valeur (KV) redondants à travers les trames historiques, ce qui limite leur passage à l'échelle. Dans cet article, nous relevons ce défi en introduisant la compression du cache KV dans la diffusion vidéo autorégressive. Nous observons que les têtes d'attention dans les modèles de diffusion AR dominants présentent des schémas d'attention et des rôles fonctionnels nettement distincts, qui restent stables entre les échantillons et les étapes de débruitage. En nous appuyant sur notre étude empirique de la spécialisation fonctionnelle par tête, nous divisons les têtes d'attention en deux catégories : les têtes statiques, qui se concentrent sur les transitions entre les segments autorégressifs et la fidélité intra-trame, et les têtes dynamiques, qui régissent le mouvement inter-trame et la cohérence. Nous proposons ensuite Forcing-KV, une stratégie hybride de compression du cache KV qui effectue un élagage structuré statique pour les têtes statiques et un élagage dynamique basé sur la similarité entre segments pour les têtes dynamiques. Tout en maintenant la qualité de sortie, notre méthode atteint une vitesse de génération de plus de 29 images par seconde sur un seul GPU NVIDIA H200, avec une réduction de 30 % de la mémoire cache, offrant des accélérations allant jusqu'à 1,35x et 1,50x sur LongLive et Self Forcing en résolution 480P, et atteignant une accélération de 2,82x en résolution 1080P. Le code et les vidéos de démonstration sont disponibles à l'adresse https://zju-jiyicheng.github.io/Forcing-KV-Page.
Les récentes avancées en matière de génération d'images ont facilité la production d'images de haute qualité. Cependant, ces sorties sont intrinsèquement aplaties, entremêlant les éléments de premier plan, l'arrière-plan et le texte dans un canevas fixe. Par conséquent, l'édition flexible après génération reste difficile, révélant un écart de dernier kilomètre évident vers une utilisabilité pratique. Les approches existantes reposent soit sur des ressources de calques propriétaires rares, soit construisent des données partiellement synthétiques à partir de préalables structurels limités. Cependant, ces deux stratégies font face à des défis fondamentaux en matière de passage à l'échelle. Dans ce travail, nous étudions si des données de calques purement synthétiques peuvent améliorer la décomposition de la conception graphique. Nous partons de l'hypothèse que, dans la conception graphique, une décomposition efficace ne nécessite pas de modéliser les dépendances entre calques avec autant de précision que dans la composition d'images naturelles, car les éléments de conception sont souvent disposés intentionnellement en tant que composants modulaires et sémantiquement séparables. Concrètement, nous menons une étude centrée sur les données basée sur le référentiel CLD, un cadre de décomposition de calques à la pointe de la technologie. À partir de ce référentiel, nous construisons notre propre jeu de données synthétique, SynLayers, générons une supervision textuelle à l'aide de modèles de langage visuel, et automatisons les entrées d'inférence avec des boîtes englobantes prédites par VLM. Notre étude révèle trois résultats clés : (1) même un entraînement avec des données purement synthétiques peut surpasser des alternatives non passables à l'échelle telles que le jeu de données largement utilisé PrismLayersPro, démontrant sa viabilité en tant que substitut efficace et passable à l'échelle ; (2) les performances s'améliorent constamment avec l'augmentation de l'échelle des données d'entraînement, tandis que les gains commencent à saturent autour de 50 000 échantillons ; et (3) les données synthétiques permettent un contrôle équilibré des distributions du nombre de calques, évitant le déséquilibre souvent observé dans les ensembles de données réelles. Nous espérons que cette étude centrée sur les données encouragera une adoption plus large des données synthétiques en tant que fondation pratique pour les systèmes d'édition de conception en calques.
Les modèles de diffusion vidéo autorégressifs causaux permettent la génération en flux continu en temps réel en extrapolant des fragments futurs à partir de contenus déjà générés. La distillation de tels générateurs à partir d'enseignants bidirectionnels de haute fidélité donne des modèles compétitifs à quelques étapes, mais un écart persistant entre les distributions d'historique rencontrées lors de l'entraînement et celles apparaissant à l'inférence limite la qualité de la génération sur de longs horizons. Nous présentons le Réseau d'Extrapolation Vidéo Autoregressif en Temps Réel (RAVEN), un cadre de test en phase d'entraînement qui reconditionne chaque auto-déploiement en une séquence entrelacée de points finaux historiques propres et d'états de débruitage bruités. Cette formulation aligne l'attention d'entraînement avec l'extrapolation à l'inférence et permet aux pertes des fragments aval de superviser les représentations d'historique dont dépendent les prédictions futures. Nous proposons également l'Optimisation Relative de Politique de Groupe par Modèle de Cohérence (CM-GRPO), qui reformule une étape d'échantillonnage de cohérence comme une transition gaussienne conditionnelle et applique l'Apprentissage par Renforcement (RL) en ligne directement à ce noyau, évitant ainsi le processus auxiliaire d'Euler-Maruyama adopté dans les formulations RL antérieures basées sur les modèles de flux. Les expériences démontrent que RAVEN surpasse les récentes bases de distillation vidéo causale en termes de qualité, de sémantique et d'évaluation du degré dynamique, et que CM-GRPO apporte des gains supplémentaires lorsqu'il est combiné à RAVEN.
Les grands modèles de laboratoire multimodaux (MLLMs) rencontrent encore des difficultés dans la compréhension spatiale sous le paradigme dominant de l'image perspective, qui hérite du champ de vision étroit de la perception humaine. Pour la navigation, la recherche robotique et la compréhension de scènes 3D, la détection panoramique à 360 degrés offre une forme de super-détection en capturant l'intégralité de l'environnement environnant d'un seul coup. Cependant, les pipelines existants des MLLMs décomposent généralement les panoramas en plusieurs vues perspectives, laissant la structure sphérique de la projection équirectangulaire (ERP) largement implicite. Dans cet article, nous étudions la compréhension pano-native, qui exige qu'un MLLM raisonne sur un panorama ERP en tant qu'espace continu et centré sur l'observateur. À cette fin, nous définissons d'abord les capacités clés pour la compréhension pano-native, notamment l'ancrage sémantique, la localisation sphérique, la transformation du repère de référence et le raisonnement spatial 3D sensible à la profondeur. Nous construisons ensuite un pipeline de génération de métadonnées à grande échelle qui convertit les panoramas ERP de sources mixtes en une supervision géométrique, ancrée dans le langage et sensible à la profondeur, et nous instancions ces signaux en données d'ajustement d'instructions alignées sur les capacités. Du côté du modèle, nous introduisons PanoWorld avec une attention croisée spatiale sphérique, qui injecte la géométrie sphérique dans le flux visuel. Nous construisons également PanoSpace-Bench, un banc d'essai diagnostique pour évaluer le raisonnement spatial natif ERP. Les expériences montrent que PanoWorld surpasse nettement les références propriétaires et open source sur les bancs d'essai PanoSpace-Bench, H* Bench et R2R-CE Val-Unseen. Ces résultats démontrent qu'un raisonnement panoramique robuste nécessite une supervision pano-native dédiée et une adaptation de modèle tenant compte de la géométrie. Tout le code source et les données proposées seront mis à disposition publiquement.
Les systèmes de mémoire sont essentiels pour que les agents de jeu de rôle (RPA) maintiennent une cohérence à long terme. Cependant, les méthodes existantes de mémoire pour RPA (par exemple, le profilage) reposent principalement sur un résumé récurrent, dont la compression élimine inévitablement des détails importants. Pour résoudre ce problème, nous proposons un cadre de mémoire basé sur la recherche appelé BOOKMARKS, qui initialise, maintient et met à jour activement des éléments de signets pertinents pour la tâche en cours (par exemple, l'interprétation d'un personnage). Un signet est structuré comme la réponse à une question à un point spécifique de l'intrigue. Pour chaque tâche en cours, BOOKMARKS sélectionne des signets existants réutilisables ou en initialise de nouveaux (au début de l'intrigue) avec des questions utiles. Ces signets sont ensuite synchronisés avec le point actuel de l'histoire, leurs réponses étant mises à jour en conséquence, afin qu'ils puissent être efficacement réutilisés lors de futurs cycles d'ancrage. Comparé au résumé récurrent, BOOKMARKS offre (1) un ancrage actif pour capturer les détails spécifiques à la tâche et (2) une mise à jour passive pour éviter les calculs inutiles. Dans l'implémentation, BOOKMARKS prend en charge les recherches de concepts, de comportements et d'états, chacune étant alimentée par une méthode de synchronisation efficace. BOOKMARKS surpasse significativement les bases de référence de mémoire pour RPA sur 85 personnages issus de 16 artéfacts, démontrant l'efficacité de la mémoire basée sur la recherche pour les RPA.
Nous poursuivons une vision de modèles de langage auto-améliorants dans laquelle le modèle ne se contente pas de générer des problèmes ou des traces à imiter, mais construit les environnements qui l’entraînent. Dans le cadre du RL de raisonnement sans données, cette vision reformule l’auto-amélioration comme passant d’une boucle de génération de données à une boucle de construction d’environnements, où chaque artefact est un objet exécutable réutilisable qui échantillonne des instances, calcule des références et évalue les réponses. La pérennité de cette amélioration repose sur une propriété unique : les environnements doivent présenter une asymétrie stable entre résolution et vérification ; le modèle doit être capable d’écrire un oracle une fois pour toutes, qu’il ne peut pas exécuter de manière fiable en langage naturel sur de nouvelles instances. Cette asymétrie prend deux formes complémentaires. Certaines tâches sont algorithmiquement difficiles à raisonner mais triviales en tant que code : un programme dynamique ou un parcours de graphe, compilé une fois, produit un nombre illimité d’instances calibrées. D’autres sont intrinsèquement difficiles à résoudre mais faciles à vérifier, comme le subset-sum planté ou la satisfaction de contraintes. Toutes deux créent un écart durable entre la proposition et la résolution que la politique ne peut combler en contournant le vérificateur, et c’est cet écart qui maintient la récompense informative à mesure que l’apprenant progresse. Nous instancions cette vision dans EvoEnv, une méthode générateur-résolveur à politique unique qui synthétise des environnements Python à partir de dix graines et ne les admet qu’après une validation par étapes, une auto-évaluation sémantique, une calibration de difficulté relative au résolveur et des vérifications de nouveauté. La preuve la plus solide provient du régime déjà fort : sur Qwen3-4B-Thinking, le RLVR sur données publiques fixes et le RLVR sur environnements artisanaux fixes réduisent la moyenne, tandis qu’EvoEnv l’améliore de 72,4 à 74,8, soit un gain relatif de 3,3 %. L’auto-amélioration stable, suggérons-nous, ne dépend pas de la production de davantage de données synthétiques, mais de l’apprentissage par les modèles à construire des mondes dont la difficulté reste structurellement hors de leur propre portée.
Générer un mouvement humain réaliste constitue un défi central mais non résolu dans la génération vidéo. Bien que l’apprentissage par renforcement (RL) post-entraînement ait récemment permis des améliorations de la qualité générale des vidéos, son extension au mouvement humain reste limitée par un signal de récompense incapable d’évaluer de manière fiable le réalisme du mouvement. Les récompenses vidéo existantes reposent principalement sur des signaux perceptifs 2D, sans modéliser explicitement l’état 3D du corps, le contact et la dynamique sous-jacents au mouvement humain articulé, et attribuent souvent des scores élevés à des vidéos présentant des corps flottants ou des mouvements physiquement invraisemblables. Pour y remédier, nous proposons PhyMotion, une récompense de mouvement structurée et fine qui ancre les trajectoires 3D humaines reconstruites dans un simulateur physique et évalue la qualité du mouvement selon plusieurs dimensions de faisabilité physique. Concrètement, nous reconstruisons les maillages corporels SMPL à partir des vidéos générées, les repositionnons sur un humanoïde dans le simulateur physique MuJoCo, et évaluons le mouvement résultant selon trois axes : plausibilité cinématique, cohérence du contact et de l’équilibre, et faisabilité dynamique. Chaque composante fournit un signal continu et interprétable lié à un aspect spécifique de la qualité du mouvement, permettant à la récompense de capturer quels aspects du mouvement sont physiquement corrects ou violés. Les expériences montrent que PhyMotion obtient une corrélation plus forte avec les jugements humains que les formulations de récompense existantes. Ces gains se retrouvent dans le post-entraînement par RL, où l’optimisation de PhyMotion conduit à des améliorations plus importantes et plus cohérentes que l’optimisation des récompenses existantes, améliorant le réalisme du mouvement à la fois pour les générateurs vidéo autorégressifs et bidirectionnels, selon des métriques automatiques et une évaluation humaine en aveugle (gain de +68 Elo). Les ablations montrent que les trois axes fournissent des signaux de supervision complémentaires, tandis que la récompense préserve la qualité globale de génération vidéo avec un surcoût d’entraînement modéré.
L'auto-distillation sur politique est devenue une recette performante pour le raisonnement des LLM, où un enseignant privilégié supervise les propres déroulements de l'élève tout en se conditionnant sur la solution de référence. Cependant, un choix de conception partagé par presque toutes ces méthodes est resté incontesté : l'enseignant voit toujours l'intégralité du raisonnement de référence. Nous soutenons que cette configuration par défaut fait elle-même partie du problème et identifions un décalage d'exposition du côté de l'enseignant : lorsque l'enseignant se conditionne sur un raisonnement bien au-delà des compétences actuelles de l'élève, les cibles de jetons résultantes deviennent trop fortes pour être absorbées. Un balayage contrôlé à exposition fixe rend cela concret sur deux fronts : 1) l'exposition complète n'est pas systématiquement le meilleur choix, et 2) le décalage élève-enseignant croît de manière monotone à mesure que l'enseignant voit davantage de raisonnement privilégié. Cela motive à traiter l'exposition de l'enseignant non comme un hyperparamètre fixe, mais comme une variable de contrôle apprenable en phase d'entraînement. Nous proposons donc l'Exposition Adaptative de l'Enseignant pour l'Auto-Distillation (ATESD). ATESD modélise le ratio de révélation avec un contrôleur de politique bêta léger, conditionné sur des statistiques compactes de l'état d'entraînement, et utilise une exposition échantillonnée pour une courte fenêtre de maintien des mises à jour de l'élève. Pour rendre ce contrôleur d'exposition apprenable, nous l'optimisons avec une récompense d'apprentissage progressif actualisée qui attribue un score à chaque décision maintenue en fonction de son effet sur l'amélioration future de l'élève plutôt que sur son changement immédiat de perte, traitant ainsi l'attribution de crédit différée induite par la distillation sur politique. Les expériences sur AIME 24, AIME 25 et HMMT 25 avec Qwen3-{1.7B, 4B, 8B} montrent qu'ATESD surpasse systématiquement les références concurrentes d'auto-distillation et d'apprentissage par renforcement, améliorant OPSD de +0,95, +2,05 et +2,33 points Average@12 respectivement, et établissant l'exposition adaptative de l'enseignant comme un nouvel axe efficace pour l'auto-distillation du raisonnement.
L'utilisation de modèles fondamentaux multimodaux pour analyser des images de tableaux constitue une application à haute valeur ajoutée mais difficile dans les scénarios grand public et d'entreprise. Malgré son importance, les évaluations actuelles reposent largement sur des tableaux textuels structurés ou des images rendues propres, laissant inexplorée la complexité visuelle des images de tableaux issues du monde réel. Ces images présentent des mises en page variées et des domaines divers qui exigent une perception structurelle et un raisonnement numérique sophistiqués. Pour combler cette lacune, nous introduisons WildTableBench, le premier benchmark de questions-réponses pour les images de tableaux naturels provenant de contextes réels. WildTableBench comprend 402 images de tableaux à haute densité d'information collectées sur des forums et sites web dans divers domaines, ainsi que 928 questions annotées et vérifiées manuellement, réparties en 17 sous-types couvrant cinq catégories. Nous évaluons 21 modèles fondamentaux multimodaux de pointe, propriétaires et open source, sur ce benchmark. Un seul modèle dépasse les 50 % de précision, tandis que tous les autres modèles se situent entre 4,1 % et 49,9 %. Nous menons en outre des analyses diagnostiques pour caractériser les échecs des modèles et révéler des faiblesses persistantes dans la perception structurelle et le raisonnement. Ces résultats et analyses offrent des perspectives utiles sur les capacités actuelles des modèles et établissent WildTableBench comme un benchmark diagnostique précieux pour la compréhension des images de tableaux.
La super-résolution d'images de texte (Text-SR) nécessite plus qu'une synthèse de détails visuellement plausible : de légères erreurs dans la topologie des traits peuvent modifier l'identité des caractères et nuire à la lisibilité. Les méthodes existantes améliorent la fidélité du texte avec des a priori plus forts basés sur la reconnaissance ou génératifs, mais elles sont toujours confrontées à deux défis non résolus en cas de dégradation sévère : la condition textuelle extraite d'entrées de faible qualité peut elle-même être peu fiable, et un a priori global plausible ne détermine pas entièrement les limites fines des traits. Nous présentons PRISM, un cadre de Text-SR basé sur la diffusion en une seule étape qui répond à ces deux défis grâce à la rectification d'a priori par appariement de flux (Flow-Matching Prior Rectification, FMPR) et à un encodeur résiduel conscient de l'incertitude guidé par la structure (Structure-guided Uncertainty-aware Residual Encoder, SURE). FMPR construit un a priori privilégié en phase d'apprentissage à partir de latents appariés de faible/haute qualité et apprend un appariement de flux qui transporte les embeddings dégradés vers cet espace d'a priori orienté vers la restauration, produisant un guidage textuel global plus précis et plus fiable. SURE prédit en outre des résidus structurels conscients de l'incertitude pour absorber sélectivement les preuves fiables de limites locales tout en supprimant les indices ambigus de traits. Ensemble, ces composants permettent une rectification explicite de l'a priori global et un raffinement local de la structure en une seule passe de restauration par diffusion. Les expériences sur des benchmarks synthétiques et réels montrent que PRISM atteint des performances de pointe avec une inférence au niveau de la milliseconde. Notre jeu de données et notre code seront disponibles à l'adresse https://github.com/faithxuz/PRISM.
Dans cet article, nous étudions les opérateurs de solution des équations de champ physiques sur des maillages géométriques dans une perspective d'espaces fonctionnels. Nous révélons que l'orthogonalité de Hodge résout fondamentalement l'interférence spectrale en isolant les degrés de liberté topologiques non apprenables des dynamiques géométriques apprenables, permettant ainsi une approximation additive confinée à des sous-espaces préservant la structure. En nous appuyant sur la théorie de Hodge et la décomposition d'opérateurs, nous dérivons une décomposition au niveau de l'opérateur fondée sur des principes. Le résultat est une architecture hybride eulérienne-lagrangienne avec un biais inductif au niveau algébrique que nous appelons dualité spectrale de Hodge (HSD). Dans notre cadre, nous utilisons des formes différentielles discrètes pour capturer les composants dominés par la topologie et un espace ambiant auxiliaire orthogonal pour représenter les dynamiques locales complexes. Notre méthode atteint une précision et une efficacité supérieures sur les graphes géométriques, avec une fidélité accrue aux invariants physiques. Notre code est disponible à l'adresse https://github.com/ContinuumCoder/Hodge-Spectral-Duality.
L'appariement de flux latent pour la génération d'images transporte généralement du bruit gaussien vers les latents d'autoencodeur variationnel le long de trajectoires linéaires. Cependant, les deux extrémités se concentrent dans de fines coques sphériques, et une corde euclidienne quitte ces coques même lorsque le prétraitement aligne leurs rayons. En décomposant chaque jeton latent en composantes radiale et angulaire, nous montrons via des sondes d'échange de composantes que le contenu perceptuel et sémantique décodé est principalement porté par la direction, le rayon contribuant beaucoup moins. Nous projetons donc les latents des données sur un rayon de jeton fixe, utilisons la projection radiale du bruit gaussien comme a priori sphérique, affinons le décodeur avec l'encodeur gelé, et remplaçons l'interpolation linéaire par une interpolation linéaire sphérique. Les trajectoires géodésiques résultantes restent sur la sphère à chaque pas de temps, et leurs cibles de vitesse sont purement angulaires par construction. Sous un entraînement apparié, la méthode améliore systématiquement le FID d'ImageNet-256 conditionné par classe à travers différents tokenizers d'images, laisse l'architecture de diffusion inchangée, et ne nécessite ni encodeur auxiliaire ni objectif d'alignement de représentation.
L'évaluation des modifications d'images guidées par des instructions nécessite des récompenses reflétant des préférences humaines subtiles, mais les modèles de récompense actuels reposent généralement sur des annotations de préférence à grande échelle et un entraînement supplémentaire du modèle. Cela crée un déficit d'efficacité des données : les humains peuvent souvent déduire les critères d'évaluation cibles à partir de seulement quelques exemples, tandis que les modèles sont généralement entraînés sur des centaines de milliers de comparaisons. Nous présentons RewardHarness, un cadre de récompense agentique auto-évolutif qui reformule la modélisation des récompenses comme une évolution du contexte plutôt qu'une optimisation des poids. Au lieu d'apprendre à partir d'annotations à grande échelle, RewardHarness s'aligne sur les préférences humaines en faisant évoluer itérativement une bibliothèque d'outils et de compétences à partir d'aussi peu que 100 démonstrations de préférence. Étant donné une image source, des images modifiées candidates et une instruction d'édition, un Orchestrateur sélectionne le sous-ensemble le plus pertinent d'outils et de compétences parmi la bibliothèque maintenue, et un Sous-Agent figé les utilise pour construire une chaîne de raisonnement produisant un jugement de préférence. En comparant les jugements prédits avec les préférences de référence et en analysant les succès et les échecs dans le processus de raisonnement, l'Orchestrateur affine automatiquement sa bibliothèque d'outils et de compétences sans annotation humaine supplémentaire. En utilisant seulement 0,05 % des données de préférence d'EditReward, RewardHarness atteint une précision moyenne de 47,4 % sur les benchmarks d'évaluation d'édition d'images, surpassant GPT-5 de 5,3 points. Utilisé comme signal de récompense pour le fine-tuning GRPO, les modèles optimisés par RL atteignent 3,52 sur ImgEdit-Bench. Page du projet : https://rewardharness.com.
Les agents IA sont de plus en plus déployés dans des environnements dynamiques et ouverts qui nécessitent une adaptation aux nouvelles informations au fur et à mesure qu'elles arrivent. Pour mesurer efficacement cette capacité dans des cas d'utilisation réalistes, nous proposons de construire des simulations ancrées qui rejouent les événements du monde réel dans l'ordre où ils se sont produits. Nous développons FutureSim, où les agents prévoient des événements mondiaux au-delà de leur seuil de connaissances tout en interagissant avec une relecture chronologique du monde : de véritables articles de presse arrivant et des questions se résolvant tout au long de la période simulée. Nous évaluons les agents de pointe dans leur environnement natif, en testant leur capacité à prédire des événements mondiaux sur une période de trois mois, de janvier à mars 2026. FutureSim révèle une nette séparation de leurs capacités, avec une précision de 25 % pour le meilleur agent, et un score de compétence de Brier pour de nombreux agents inférieur à celui d'une absence totale de prédiction. Grâce à des ablations minutieuses, nous montrons comment FutureSim offre un cadre réaliste pour étudier des axes de recherche émergents tels que l'adaptation à long horizon en phase de test, la recherche, la mémoire et le raisonnement sur l'incertitude. Dans l'ensemble, nous espérons que la conception de notre benchmark ouvre la voie à la mesure des progrès de l'IA en matière d'adaptation ouverte s'étendant sur de longs horizons temporels dans le monde réel.
La génération d'une scène 3D au niveau de la rue à partir d'une seule image satellite est une tâche cruciale mais difficile. Les méthodes actuelles présentent un compromis marqué : les modèles de géométrie-colorisation atteignent une haute fidélité géométrique mais sont généralement centrés sur les bâtiments et manquent de diversité sémantique. En revanche, les modèles basés sur des proxies utilisent des cadres image-à-3D par feed-forward pour générer des scènes holistiques en apprenant conjointement la géométrie et la texture, un processus qui produit un contenu riche mais une géométrie grossière et instable. Nous attribuons ces échecs géométriques à l'écart de point de vue extrême et à la supervision éparse et inconsistante inhérente aux données satellite-vers-rue. Nous introduisons Sat3DGen pour relever ces défis fondamentaux, en incarnant une méthodologie géométrie d'abord. Cette méthodologie enrichit le paradigme feed-forward en intégrant des contraintes géométriques novatrices avec une stratégie d'entraînement en vue perspective, contrant explicitement les sources principales d'erreur géométrique. Cette stratégie centrée sur la géométrie conduit à un bond spectaculaire tant en précision 3D qu'en photoréalisme. Pour la validation, nous avons d'abord construit un nouveau référentiel en associant l'ensemble de test VIGOR-OOD à des données MNS haute résolution. Sur ce référentiel, notre méthode améliore l'erreur quadratique moyenne géométrique (RMSE) de 6,76 m à 5,20 m. Crucialement, ce bond géométrique booste également le photoréalisme, réduisant la distance de Fréchet par inception (FID) de sim40 à 19 par rapport à la méthode de référence, Sat2Density++, sans utiliser de modules supplémentaires dédiés à la qualité d'image. Nous démontrons la polyvalence de nos actifs 3D de haute qualité à travers diverses applications en aval, notamment la synthèse sémantique-carte-vers-3D, la génération vidéo multi-caméra, le maillage à grande échelle et l'estimation non supervisée de modèle numérique de surface (MNS) à partir d'une seule image. Le code a été publié sur https://github.com/qianmingduowan/Sat3DGen.
Les modèles de langage omni-modaux sont conçus pour comprendre conjointement les entrées audio, visuelles et le langage, mais les gains de référence peuvent être gonflés lorsque les preuves visuelles seules suffisent à répondre à une requête. Nous étudions si les références omni-modales actuelles séparent les raccourcis visuels de l'intégration authentique des preuves audio-visuelles-linguistiques, et comment le post-entraînement se comporte dans un cadre d'évaluation visuellement débiaisé. Nous auditons neuf références omni-modales avec un sondage purement visuel, supprimons les requêtes visuellement résolubles, et conservons les sous-ensembles complets lorsque le filtrage est indéfini ou rendrait les comparaisons instables. Cela donne OmniClean, une vue d'évaluation nettoyée avec 8 551 requêtes conservées sur 16 968 requêtes auditées. Sur OmniClean, nous évaluons OmniBoost, une recette de post-entraînement en trois étapes basée sur Qwen2.5-Omni-3B : SFT bi-modal mixte, RLVR à modalités mixtes, et SFT sur données auto-distillées. Le SFT bi-modal équilibré donne des gains limités et inégaux, le RLVR fournit la première amélioration large, et l'auto-distillation remodèle le profil de référence. Après le SFT sur données auto-distillées, le modèle 3B atteint des performances comparables, et globalement légèrement supérieures, à Qwen3-Omni-30B-A3B-Instruct sans utiliser un enseignant omni-modal plus fort. Ces résultats montrent que les progrès omni-modaux sont plus faciles à interpréter lorsque l'évaluation contrôle les fuites visuelles, et que les petits modèles omni-modaux peuvent bénéficier d'un post-entraînement par étapes avec une supervision par requête omni auto-distillée. Page du projet : https://cheliu-computation.github.io/omni/
Nous étudions la concaténation temporelle de sous-politiques dans les processus de décision markoviens (PDM) avec des fonctions de récompense variant dans le temps. Nous introduisons la Recherche Générale de Dijkstra (RGD) et prouvons que des politiques d'atteinte d'objectif globalement optimales peuvent être obtenues par composition temporelle de sous-politiques optimales intermédiaires. Motivés par le principe « chercher, sélectionner, mettre à jour » sous-jacent à la RGD, nous proposons le Routage Latent Dynamique (RLD), une méthode de post-entraînement de modèle de langage qui apprend conjointement des codes latents discrets, des politiques de routage et des paramètres de modèle grâce à une recherche dynamique en une seule étape d'entraînement. Dans des contextes de réglage fin avec peu de données, le RLD égal ou surpasse le réglage fin supervisé sur quatre ensembles de données et six modèles, réalisant un gain moyen de +6,6 points de pourcentage, tandis que les références de latents discrets antérieures sous-performent systématiquement le RFS. Des analyses mécanistes et des ablations ciblées du code montrent que le RLD apprend des comportements de routage structurés avec des rôles causaux distincts.
Nous présentons un nouveau cadre computationnel pour détecter et structurer les récits politiques manipulateurs. Cette tâche est devenue plus cruciale en raison du déplacement des débats politiques vers les réseaux sociaux. L'un des défis principaux consiste à distinguer les récits politiques manipulateurs des critiques légitimes. Certains messages peuvent également reformuler des événements réels dans un contexte manipulateur. Pour obtenir de bons résultats de regroupement, nous filtrons au préalable les messages manipulateurs à l'aide d'une invite détaillée de type few-shot, qui combine des récits de campagne documentés avec des critiques légitimes afin de les différencier. Cette invite permet à un modèle de raisonnement d'attribuer des étiquettes, en ne conservant que les messages à caractère manipulateur pour un traitement ultérieur. Les messages restants sont ensuite intégrés dans un espace vectoriel et leur dimensionnalité est réduite à l'aide d'UMAP, avant d'appliquer HDBSCAN pour découvrir des groupes narratifs. Un avantage clé de cette approche non supervisée est son indépendance vis-à-vis d'une liste prédéfinie de catégories cibles, ce qui permet de révéler de nouveaux regroupements narratifs. Enfin, un modèle de raisonnement est utilisé pour dégager le récit sous-jacent à chaque groupe. Cette approche, appliquée à plus de 1,2 million de messages sur les réseaux sociaux, a permis d'identifier efficacement 41 groupes narratifs manipulateurs distincts en combinant un filtrage basé sur des invites avec un regroupement non supervisé.
Les élections représentent une étape cruciale dans le développement continu d'une nation. Afin de mieux comprendre la rhétorique politique des différents mouvements, allant de la gauche à la droite, nous proposons un modèle basé sur les transformers capable de projeter l'orientation politique d'un texte sur un spectre continu gauche-droite, représenté par un scalaire normalisé d compris entre -1 et 1. Cette approche permet aux analystes de se concentrer sur des segments spécifiques du paysage politique, comme les conservateurs, tout en excluant les mouvements libéraux et d'extrême droite. Une telle tâche ne peut être réalisée qu'avec des classifieurs multiclasses, à condition que l'orientation souhaitée soit intégrée dans l'une de leurs classes prédéfinies. Pour déterminer le modèle de base le plus adapté parmi 13 transformers candidats pour cette tâche, nous avons construit quatre corpus distincts. Un corpus comprenait des notes de séance annotées du Bundestag allemand, tandis qu'un autre était basé sur un outil officiel d'aide à la décision en ligne, Wahl-O-Mat. Le troisième corpus était constitué d'articles provenant de 33 journaux, chacun identifié par son orientation politique, et le quatrième comprenait 535 200 tweets de 597 membres des 20ᵉ et 21ᵉ législatures du Bundestag allemand. Pour atténuer le surapprentissage, nous avons utilisé deux corpus distincts pour l'entraînement et deux autres pour les tests respectifs. Pour la performance intra-domaine, DeBERTa-large a obtenu le score F1 le plus élevé (F1=0,844), ainsi que pour le test extra-domaine sur X (Twitter) (ACC=0,864). Concernant le test extra-domaine sur les journaux, Gemma2-2B a excellé (MAE=0,172). Cette étude démontre que les modèles de type transformer peuvent reconnaître le cadrage politique dans les actualités allemandes à un niveau comparable aux sondages d'opinion publique. Nos résultats suggèrent que tant l'architecture du modèle que la disponibilité de données d'entraînement spécifiques au domaine peuvent être aussi influentes que la taille du modèle pour estimer le biais politique. Nous discutons des limitations méthodologiques et esquissons des pistes pour améliorer la robustesse de la mesure du biais.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a connu un grand succès dans le développement de grands modèles de langage (LLM) avec des déploiements de chaîne de pensée pour de nombreuses tâches telles que les mathématiques et le codage. Néanmoins, le RLVR peine en matière d'efficacité d'échantillonnage sur les problèmes difficiles où il est difficile de générer des déploiements corrects. Des travaux antérieurs proposent de résoudre ce problème grâce au RLVR guidé par démonstrations, c'est-à-dire en effectuant un ajustement supervisé fin (SFT) lorsque le RL échoue ; cependant, le SFT nécessite souvent beaucoup de données, dont l'acquisition peut être coûteuse. Dans cet article, nous proposons FEST, un algorithme RLVR guidé par démonstrations à faible nombre d'exemples (FEw-ShoT). Il obtient des résultats convaincants avec seulement 128 démonstrations sélectionnées aléatoirement dans un ensemble de données SFT. Nous constatons que trois composantes sont essentielles au succès : le signal supervisé, le signal on-policy et des poids décroissants sur l'ensemble de données SFT à faible nombre d'exemples pour éviter le surapprentissage lors d'un entraînement sur plusieurs époques. Sur plusieurs références, FEST surpasse les méthodes de référence avec des données SFT bien moins nombreuses, égalant même leurs performances avec l'ensemble de données complet.
Les modèles vidéo génératifs sont de plus en plus étudiés en tant que modèles du monde implicites, mais il reste difficile d'évaluer s'ils produisent une structure et un mouvement 3D physiquement plausibles. La plupart des pipelines d'évaluation vidéo existants reposent fortement sur le jugement humain ou des évaluateurs appris, ce qui peut être subjectif et peu diagnostique pour les défaillances géométriques. Nous introduisons PDI-Bench (Indice de Distorsion de Perspective), un cadre quantitatif pour auditer la cohérence géométrique dans les vidéos générées. À partir d'un clip généré, nous obtenons des observations centrées sur les objets via segmentation et suivi de points (par exemple, SAM 2, MegaSaM et CoTracker3), les projetons en coordonnées 3D de l'espace monde par reconstruction monoculaire, et calculons un ensemble de résidus de géométrie projective couvrant trois dimensions de défaillance : l'alignement échelle-profondeur, la cohérence du mouvement 3D et la rigidité structurelle 3D. Pour soutenir une évaluation systématique, nous construisons PDI-Dataset, couvrant divers scénarios conçus pour mettre à l'épreuve ces contraintes géométriques. Sur les générateurs vidéo de pointe, PDI révèle des modes de défaillance cohérents et spécifiques à la géométrie qui ne sont pas capturés par les métriques perceptuelles courantes, et fournit un signal diagnostique pour progresser vers une génération vidéo ancrée physiquement et un modèle du monde physique. Notre code et notre jeu de données sont disponibles à l'adresse https://pdi-bench.github.io/.
Les systèmes d'agents LLM industriels séparent souvent la planification de l'exécution, mais les planificateurs LLM produisent fréquemment des workflows structurellement invalides ou inutilement longs, entraînant des échecs fragiles et des coûts d'outils et d'API évitables. Nous proposons SPIN, un wrapper de planification qui combine la planification validée par graphe orienté acyclique (DAG) avec un contrôle d'exécution basé sur les préfixes. SPIN applique un contrat DAG strict via \_validate\_plan\_text et un prompt de réparation, produisant des plans exécutables avant l'exécution en aval, puis évalue les préfixes DAG de manière incrémentielle pour s'arrêter lorsque le préfixe actuel est suffisant pour répondre à la requête. Sur AssetOpsBench, à travers 261 scénarios, SPIN réduit les tâches exécutées de 1061 à 623 et améliore le score Accomplished de 0,638 à 0,706, tout en réduisant les appels d'outils de 11,81 à 6,82 par exécution. Sur MCP Bench, le même wrapper améliore les scores liés à la planification, à l'ancrage et aux dépendances pour GPT OSS1 et Llama 4 Maverick.
Les architectures Mixture-of-Experts (MoE) améliorent l'efficacité des grands modèles de langage en n'activant qu'un sous-ensemble d'experts par jeton. Cependant, les MoE standards utilisent une stratégie de routage Top-K fixe, ce qui entraîne des calculs redondants et une latence d'inférence sous-optimale. Les méthodes d'accélération existantes nécessitent soit un réentraînement coûteux avec des modifications architecturales, soit souffrent d'une forte baisse de performance à haute parcimonie en raison d'un décalage entre l'entraînement et l'inférence. Pour remédier à ces limitations, nous proposons BEAM (Binary Expert Activation Masking), une méthode novatrice qui apprend une sélection d'experts adaptative aux jetons via des masques binaires entraînables. Grâce à un estimateur straight-through et une perte de régularisation auxiliaire, BEAM induit une parcimonie dynamique des experts par un apprentissage de bout en bout tout en préservant la capacité du modèle. Nous implémentons également un kernel CUDA personnalisé et efficace pour BEAM, assurant une intégration transparente avec le cadre d'inférence vLLM. Les expériences montrent que BEAM conserve plus de 98 % des performances du modèle original tout en réduisant les FLOPs des couches MoE jusqu'à 85 %, atteignant un décodage jusqu'à 2,5 fois plus rapide et un débit 1,4 fois plus élevé, démontrant ainsi son efficacité en tant que solution pratique et prête à l'emploi pour une inférence MoE efficiente.
Alors que les agents IA passent d'interfaces de dialogue à des systèmes qui lisent des données privées, appellent des outils et exécutent des flux de travail multi-étapes, les garde-fous deviennent une dernière ligne de défense contre les préjudices concrets liés au déploiement. Dans ces contextes, les défaillances des garde-fous ne sont plus de simples erreurs de qualité de réponse : elles peuvent divulguer des secrets, autoriser des actions dangereuses ou bloquer un travail légitime. Les défaillances les plus difficiles sont souvent contextuelles : la recevabilité d'une action dépend de normes locales de confidentialité, de politiques organisationnelles et d'attentes des utilisateurs qui résistent à une spécification pré-déploiement. Cela crée un fossé pratique : les garde-fous doivent s'adapter à leurs propres environnements opérationnels, mais le retour d'information post-déploiement se limite généralement à des signalements rares et bruités de la part des utilisateurs, et un réglage fin répété est souvent peu pratique. Pour combler ce fossé, nous proposons LiSA (Adaptation Permanente de Sécurité), un cadre d'induction de politiques conservateur qui améliore un garde-fou de base fixe grâce à une mémoire structurée. LiSA transforme les défaillances occasionnelles en abstractions de politiques réutilisables afin que les signalements rares puissent se généraliser au-delà des cas individuels, ajoute des règles locales conscientes des conflits pour éviter la surgénéralisation dans des contextes d'étiquettes mixtes, et applique un filtrage de confiance sensible aux preuves via une borne inférieure postérieure, de sorte que la réutilisation de la mémoire s'adapte à l'accumulation de preuves plutôt qu'à la seule précision empirique. Sur PrivacyLens+, ConFaide+ et AgentHarm, LiSA surpasse systématiquement les bases de référence basées sur la mémoire sous un retour d'information épars, reste robuste sous un retour d'information bruité même à des taux de retournement d'étiquettes de 20 %, et repousse la frontière latence-performance au-delà de la simple mise à l'échelle du modèle de base. En fin de compte, LiSA offre une voie pratique pour sécuriser les agents IA contre la longue traîne imprévisible des risques extrêmes du monde réel.
Malgré des progrès rapides, les modèles actuels de texte-à-image (T2I) reposent principalement sur un paradigme de génération en une seule étape, qui peine à traiter les sémantiques complexes et subit des rendements décroissants liés à la mise à l'échelle des paramètres. Bien que les approches récentes de raisonnement multi-étape soient prometteuses, elles sont entravées par des hallucinations de planification non fondées et dépourvues de vérification, une réflexion post-hoc monolithique, des instabilités d'optimisation en contexte long, et une latence d'inférence prohibitive. Pour surmonter ces goulots d'étranglement, nous proposons le cadre Closed-Loop Visual Reasoning (CLVR), un système complet qui couple profondément la planification logique visuo-linguistique avec la génération par diffusion au niveau des pixels. CLVR introduit un moteur de données automatisé avec vérification visuelle par étape pour synthétiser des trajectoires de raisonnement fiables, et propose le Proxy Prompt Reinforcement Learning (PPRL) pour résoudre les instabilités d'optimisation en contexte long en distillant des historiques multimodaux entrelacés en signaux de récompense explicites pour une attribution causale précise. De plus, pour atténuer le grave goulot d'étranglement de latence causé par le débruitage itératif, nous proposons Δ-Space Weight Merge (DSWM), une méthode théoriquement fondée qui fusionne les poids d'alignement avec des a priori de distillation prêts à l'emploi, réduisant le coût d'inférence par étape à seulement 4 NFE sans nécessiter de re-distillation coûteuse. Des expériences approfondies montrent que CLVR surpasse les lignes de base open-source existantes sur plusieurs benchmarks et se rapproche des performances des modèles commerciaux propriétaires, débloquant des capacités de mise à l'échelle générales au moment du test pour la génération visuelle complexe.
Les escroqueries conversationnelles, telles que les arnaques sentimentales et les fraudes aux investissements, émergent comme une forme majeure de fraude en ligne. Contrairement aux leurres ponctuels comme les faux messages de loterie ou de péage impayé, elles se déroulent à travers des conversations à plusieurs tours au cours desquelles les escrocs manipulent progressivement leurs victimes en utilisant des techniques psychologiques évolutives. Cependant, les recherches existantes se concentrent principalement sur la détection statique des arnaques ou sur des arnaques synthétiques, laissant en suspens la question de savoir si les modèles de langage peuvent comprendre comment les arnaques réelles progressent au fil du temps. Nous présentons PreScam, un benchmark pour modéliser la progression des arnaques à partir des premières conversations. Construit à partir de signalements d'arnaques soumis par les utilisateurs, PreScam filtre et structure 177 989 signalements bruts en 11 573 instances d'escroqueries conversationnelles couvrant 20 catégories d'arnaques. Chaque instance est structurée hiérarchiquement selon le cycle de vie de l'arnaque défini par la chaîne d'attaque proposée, et annotée au niveau du tour avec les actions psychologiques de l'escroc et les réponses de la victime. Nous évaluons les modèles sur deux tâches : la prédiction de terminaison en temps réel, qui estime si une conversation approche de la phase de terminaison, et la prédiction des actions de l'escroc, qui prévoit ses actions ultérieures. Les résultats montrent un écart net entre la fluidité de surface et la modélisation de la progression : les encodeurs supervisés surpassent considérablement les LLM en zéro-shot pour la prédiction de terminaison en temps réel, tandis que la prédiction de l'action suivante reste seulement modérément réussie, même pour des LLM puissants. Pris ensemble, ces résultats montrent que les modèles actuels peuvent saisir certains indices liés aux arnaques, mais peinent encore à suivre l'escalade des risques et le déroulement de la manipulation à travers les tours de parole.
La prévision de séries temporelles ne se résume pas à une simple extrapolation numérique, mais exige souvent un raisonnement intégrant des données contextuelles non structurées telles que des actualités ou des événements. Alors que les modèles de fondation spécialisés dans les séries temporelles (TSFM) excellent dans la prévision à partir de motifs numériques, ils restent insensibles aux signaux textuels du monde réel. Inversement, bien que les LLM émergent comme des prévisionnistes zéro-shot, leurs performances demeurent inégales selon les domaines et l’ancrage contextuel. Pour combler cet écart, nous présentons Nexus, un cadre de prévision multi-agents qui décompose la prédiction en étapes spécialisées : isoler les fluctuations temporelles de niveau macro et micro, et intégrer les informations contextuelles lorsqu’elles sont disponibles avant de synthétiser une prévision finale. Cette décomposition permet à Nexus de s’adapter de signaux saisonniers à des informations volatiles liées à des événements, sans recourir à des ancres statistiques externes ni à des sollicitations monolithiques. Nous montrons que les LLM de la génération actuelle possèdent une capacité de prévision intrinsèque nettement plus forte que ce qui était reconnu auparavant, dépendant de manière cruciale de la manière dont les raisonnements numériques et contextuels sont organisés. Évalué sur des données postérieures aux coupures de connaissances des LLM, couvrant les métriques immobilières de Zillow et des actions boursières volatiles, Nexus égale ou dépasse systématiquement les TSFM de pointe et les bases de référence solides avec LLM. Au-delà de la précision numérique, Nexus produit des traces de raisonnement de haute qualité qui montrent explicitement les moteurs fondamentaux derrière chaque prévision. Nos résultats établissent que la prévision dans le monde réel est un problème de raisonnement agentique qui s’étend bien au-delà de la simple modélisation de séquences.
Nous présentons CurveBench, un benchmark pour le raisonnement topologique hiérarchique à partir d'entrées visuelles. CurveBench se compose de 756 images de courbes de Jordan deux à deux non sécantes, réparties en configurations faciles, polygonales, inspirées de topographies, labyrinthiques et de comptage dense. Chaque image est annotée avec un arbre enraciné encodant les relations d'inclusion entre les régions planaires. Nous formulons la tâche comme une prédiction structurée : à partir d'une image, un modèle doit reconstruire l'arbre d'inclusion enraciné complet induit par les courbes. Malgré la simplicité visuelle de la tâche, le modèle le plus performant évalué, Gemini 3.1 Pro, n'atteint que 71,1 % de précision de génération d'arbre sur CurveBench-Easy et 19,1 % sur CurveBench-Hard. Nous démontrons en outre l'utilité du benchmark grâce à un fine-tuning de type RLVR de modèles vision-langage à poids ouverts. Notre modèle entraîné Qwen3-VL-8B améliore la précision de génération d'arbre sur CurveBench-Easy de 2,8 % à 33,3 % par rapport à Qwen-3-VL-8B-Thinking, dépassant GPT-5.4 et Claude Opus 4.5 selon notre protocole d'évaluation. L'écart restant, en particulier sur CurveBench-Hard, montre que le raisonnement visuel exact tenant compte de la topologie est loin d'être résolu.
Les modèles Vision-Langage-Action (VLA) atteignent une flexibilité et une généralisation remarquables, dépassant les paradigmes de contrôle classiques. Cependant, la plupart des VLA dominants sont entraînés selon un paradigme d'observation à image unique, ce qui les rend structurellement aveugles aux dynamiques temporelles. Par conséquent, ces modèles se dégradent sévèrement dans les scénarios non stationnaires, même lorsqu'ils sont entraînés ou affinés sur des jeux de données dynamiques. Les approches existantes nécessitent soit un réentraînement coûteux, soit souffrent de goulots d'étranglement de latence et d'une faible cohérence temporelle entre les segments d'actions. Nous proposons la Correction de Rythme et de Trajectoire (Pace-and-Path Correction), un opérateur en phase d'inférence, de forme fermée et sans entraînement, qui encapsule tout VLA à actions segmentées. À partir d'un unique coût quadratique, une minimisation conjointe produit une solution unifiée se décomposant orthogonalement en deux canaux distincts. Le canal de rythme comprime l'exécution le long de la direction planifiée, tandis que le canal de trajectoire applique un décalage spatial orthogonal, absorbant conjointement les dynamiques perçues au sein de la fenêtre de segment. Nous évaluons notre approche sur un référentiel diagnostique complet, MoveBench, conçu pour isoler le mouvement comme seule variable contrôlée. Les résultats empiriques démontrent que notre cadre surpasse systématiquement les enveloppes sans entraînement de pointe et les méthodes adaptatives dynamiques, et améliore les taux de succès jusqu'à 28,8 % et 25,9 % en valeur absolue par rapport aux modèles VLA fondateurs, respectivement dans des environnements uniquement dynamiques et mixtes statiques-dynamiques.