papers.description
Face à l’épuisement progressif des textes publics de haute qualité — un phénomène souvent qualifié de « mur de données » — l’entraînement préalable s’oriente désormais moins vers l’augmentation du nombre de tokens que vers la sélection de tokens de meilleure qualité. Cependant, les méthodes existantes reposent soit sur des filtres statiques heuristiques ignorant la dynamique d’apprentissage, soit sur des critères dynamiques mais indépendants de l’optimiseur, basés sur des gradients bruts. Nous proposons OPUS (Optimizer-induced Projected Utility Selection), un cadre de sélection dynamique des données qui définit l’utilité dans l’espace de mise à jour induit par l’optimiseur. OPUS évalue les candidats en projetant leurs mises à jour effectives — façonnées par les optimiseurs modernes — sur une direction cible dérivée d’un proxy stable et de distribution interne. Pour garantir l’extensibilité, nous employons la technique Ghost avec CountSketch afin de réduire la charge computationnelle, et un échantillonnage de Boltzmann pour préserver la diversité des données, n’ajoutant qu’un surcoût calculatoire de 4,7 %. OPUS obtient des résultats remarquables sur divers corpus, niveaux de qualité, optimiseurs et échelles de modèles. Lors de l’entraînement préalable de GPT-2 Large/XL sur FineWeb et FineWeb-Edu avec 30 milliards de tokens, OPUS surpasse les approches de référence de niveau industriel, et même un entraînement complet sur 200 milliards de tokens. De plus, combiné à des filtres statiques industriels, OPUS améliore encore l’efficacité de l’entraînement, y compris avec des données de moindre qualité. Enfin, lors de l’entraînement continu de Qwen3-8B-Base sur SciencePedia, OPUS atteint des performances supérieures avec seulement 0,5 milliard de tokens, contre 3 milliards pour l’entraînement complet, démontrant ainsi un gain significatif en efficacité des données dans des domaines spécialisés.
Les agents autonomes d’interface graphique interagissent avec leur environnement en percevant les interfaces et en exécutant des actions. En tant que bac à sable virtuel, le modèle GUI World dote les agents d’une capacité de prévision semblable à celle des humains en permettant des prédictions conditionnées par l’action. Cependant, les approches existantes basées sur le texte et les pixels peinent à concilier une fidélité visuelle élevée et une contrôlabilité structurelle fine. Pour y remédier, nous proposons Code2World, un codeur vision-langage qui simule l’état visuel suivant via la génération de code rendu. Concrètement, pour pallier le manque de données, nous construisons AndroidCode en traduisant des trajectoires d’interface graphique en HTML haute fidélité et en affinant le code synthétisé grâce à un mécanisme de révision par retour visuel, produisant ainsi un corpus de plus de 80 000 paires écran-action de haute qualité. Pour adapter les modèles vision-langage existants à la prédiction de code, nous effectuons d’abord un apprentissage par fine-tuning supervisé comme amorçage pour respecter la mise en forme, puis nous appliquons un apprentissage par renforcement sensible au rendu, qui utilise le résultat visuel rendu comme signal de récompense en imposant une fidélité sémantique visuelle et une cohérence des actions. Des expériences approfondies montrent que Code2World-8B obtient les meilleures performances en prédiction d’interface utilisateur suivante, rivalisant avec des modèles concurrents tels que GPT-5 et Gemini-3-Pro-Image. Particulièrement, Code2World améliore significativement les taux de réussite de navigation en aval de manière flexible, augmentant Gemini-2.5-Flash de +9,5 % sur la navigation AndroidWorld. Le code est disponible à l’adresse https://github.com/AMAP-ML/Code2World.
Les agents d'interface graphique sont apparus comme un paradigme puissant pour automatiser les interactions dans les environnements numériques, mais atteindre à la fois une large généralité et des performances robustes et constantes reste un défi. Dans ce rapport, nous présentons UI-Venus-1.5, un Agent d'Interface Graphique unifié et de bout en bout, conçu pour des applications robustes dans le monde réel. La famille de modèles proposée comprend deux variantes denses (2B et 8B) et une variante à mixture d'experts (30B-A3B) pour répondre à divers scénarios d'application en aval. Comparée à notre version précédente, UI-Venus-1.5 introduit trois avancées techniques majeures : (1) une phase complète de Mid-Training exploitant 10 milliards de tokens sur plus de 30 jeux de données pour établir des sémantiques fondamentales des IGU ; (2) un Apprentissage par Renforcement en ligne avec des déploiements de trajectoires complètes, alignant les objectifs d'entraînement sur la navigation dynamique à long terme dans des environnements à grande échelle ; et (3) un Agent d'Interface Graphique unique et unifié construit via une Fusion de Modèles, qui synthétise des modèles spécialisés par domaine (ancrage, web et mobile) en un point de contrôle cohésif. Des évaluations approfondies démontrent qu'UI-Venus-1.5 établit de nouvelles performances de pointe sur des benchmarks tels que ScreenSpot-Pro (69,6 %), VenusBench-GD (75,0 %) et AndroidWorld (77,6 %), surpassant significativement les précédents modèles de référence solides. De plus, UI-Venus-1.5 démontre des capacités de navigation robustes sur une variété d'applications mobiles chinoises, exécutant efficacement les instructions utilisateur dans des scénarios réels. Code : https://github.com/inclusionAI/UI-Venus ; Modèle : https://huggingface.co/collections/inclusionAI/ui-venus
La résolution de problèmes humains n'est jamais la répétition d'un seul état d'esprit, entendu comme un mode distinct de traitement cognitif. Face à une tâche spécifique, nous ne nous appuyons pas sur un unique état d'esprit, mais intégrons plutôt plusieurs états d'esprit au sein d'un même processus de résolution. Pourtant, les méthodes de raisonnement des LLM existantes tombent dans un piège commun : elles appliquent le même état d'esprit fixe à toutes les étapes, négligeant le fait que les différentes phases de résolution d'un même problème requièrent des états d'esprit fondamentalement différents. Cette hypothèse de rigidité cognitive empêche les modèles d'atteindre un niveau supérieur d'intelligence. Pour remédier à cette limite, nous proposons Chaîne d'États d'Esprit (CoM), un cadre agentique sans entraînement permettant une orchestration adaptative des états d'esprit au niveau de chaque étape. CoM décompose le raisonnement en quatre états d'esprit fonctionnellement hétérogènes : Spatial, Convergent, Divergent et Algorithmique. Un Méta-Agent sélectionne dynamiquement l'état d'esprit optimal en fonction de l'évolution de l'état du raisonnement, tandis qu'une Porte Contextuelle bidirectionnelle filtre les flux d'information inter-modules pour maintenir l'efficacité et l'efficience. Les expériences menées sur six benchmarks exigeants couvrant les mathématiques, la génération de code, les questions-réponses scientifiques et le raisonnement spatial démontrent que CoM atteint des performances à l'état de l'art, surpassant le meilleur modèle de référence de 4,96 % et 4,72 % en précision globale sur Qwen3-VL-32B-Instruct et Gemini-2.0-Flash, tout en équilibrant l'efficience du raisonnement. Notre code est disponible publiquement à l'adresse https://github.com/QuantaAlpha/chain-of-mindset.
Les agents de modèles de langage de grande taille (LLM) ont démontré des résultats remarquables dans des tâches complexes, mais ils opèrent souvent de manière isolée, sans tirer parti des expériences passées. Les méthodes existantes basées sur la mémoire stockent principalement des trajectoires brutes, souvent redondantes et bruitées. Cela empêche les agents d'extraire des schémas comportementaux réutilisables et de haut niveau, essentiels pour la généralisation. Dans cet article, nous proposons SkillRL, un cadre qui comble le fossé entre l'expérience brute et l'amélioration des politiques grâce à la découverte automatique de compétences et à une évolution récursive. Notre approche introduit un mécanisme de distillation basé sur l'expérience pour construire une bibliothèque hiérarchique de compétences (SkillBank), une stratégie de récupération adaptative pour les heuristiques générales et spécifiques aux tâches, et un mécanisme d'évolution récursive permettant à la bibliothèque de compétences de co-évoluer avec la politique de l'agent durant l'apprentissage par renforcement. Ces innovations réduisent significativement l'empreinte tokenique tout en améliorant l'utilité du raisonnement. Les résultats expérimentaux sur ALFWorld, WebShop et sept tâches augmentées par recherche démontrent que SkillRL atteint des performances à l'état de l'art, surpassant des bases de référence solides de plus de 15,3 % et maintenant sa robustesse à mesure que la complexité des tâches augmente. Le code est disponible à l'adresse https://github.com/aiming-lab/SkillRL.
La transition de la manipulation symbolique vers le raisonnement scientifique de haut niveau représente une frontière cruciale pour les Grands Modèles de Langage (LLM), la physique servant de test décisif pour lier la logique abstraite à la réalité physique. La physique exige qu'un modèle maintienne une cohérence physique avec les lois qui régissent l'univers, une tâche qui nécessite fondamentalement une perception multimodale pour ancrer la logique abstraite dans la réalité. Au niveau des Olympiades, les diagrammes sont souvent constitutifs plutôt qu'illustratifs, contenant des contraintes essentielles, telles que les conditions aux limites et les symétries spatiales, qui sont absentes du texte. Pour combler cette lacune visuo-logique, nous présentons P1-VL, une famille de modèles vision-langage open-source conçus pour un raisonnement scientifique avancé. Notre méthode harmonise l'Apprentissage par Renforcement Curriculaire, qui utilise une expansion progressive de la difficulté pour stabiliser le post-entraînement, avec l'Augmentation Agentique, permettant une auto-vérification itérative lors de l'inférence. Évalué sur HiPhO, un benchmark rigoureux comprenant 13 examens de 2024-2025, notre modèle phare P1-VL-235B-A22B devient le premier Modèle Vision-Langage (VLM) open-source à remporter 12 médailles d'or et obtient des performances à l'état de l'art parmi les modèles open-source. Notre système augmenté par agent atteint le 2ᵉ rang mondial global, juste derrière Gemini-3-Pro. Au-delà de la physique, P1-VL démontre une capacité remarquable de raisonnement scientifique et une grande généralisabilité, établissant une avance significative sur les modèles de base dans les benchmarks STEM. En ouvrant le code de P1-VL, nous fournissons une étape fondatrice vers une intelligence physique à usage général, pour mieux aligner les perceptions visuelles avec les lois physiques abstraites afin de favoriser la découverte scientifique automatisée.
Les récents progrès des grands modèles de langage (LLM) ont permis à des agents autonomes d'accomplir des tâches complexes nécessitant des interactions itératives avec des outils et des environnements. Cependant, la scalabilité de l'entraînement de tels agents est limitée par le manque d'environnements diversifiés et fiables. Dans cet article, nous proposons Agent World Model (AWM), un pipeline de génération d'environnements entièrement synthétique. Grâce à cette méthode, nous avons mis à l'échelle 1 000 environnements couvrant des scénarios quotidiens, dans lesquels les agents peuvent interagir avec des ensembles d'outils riches (35 outils par environnement en moyenne) et obtenir des observations de haute qualité. Notamment, ces environnements sont pilotés par du code et soutenus par des bases de données, offrant des transitions d'état plus fiables et cohérentes que les environnements simulés par des LLM. De plus, ils permettent une interaction agent-environnement plus efficace que la collecte de trajectoires dans des environnements réalistes. Pour démontrer l'efficacité de cette ressource, nous réalisons un apprentissage par renforcement à grande échelle pour des agents utilisant des outils de manière itérative. Grâce aux environnements entièrement exécutables et aux états de base de données accessibles, nous pouvons également concevoir des fonctions de récompense fiables. Les expériences sur trois benchmarks montrent qu'un entraînement exclusivement dans des environnements synthétiques, plutôt que dans des environnements spécifiques aux benchmarks, produit une forte généralisation hors distribution. Le code est disponible à l'adresse https://github.com/Snowflake-Labs/agent-world-model.
L'attention parcimonieuse par blocs est prometteuse pour accélérer le pré-remplissage des LLM à contexte long, mais l'identification efficace des blocs pertinents reste un goulot d'étranglement. Les méthodes existantes utilisent généralement une attention à granularité grossière comme approximation pour l'estimation de l'importance des blocs, mais ont souvent recours à une recherche ou un scoring coûteux au niveau des tokens, entraînant une surcharge de sélection significative. Dans ce travail, nous retraçons l'inexactitude de l'attention standard à granularité grossière via le pooling moyen à une cause théorique fondamentale : l'interaction entre le pooling moyen et les embeddings positionnels rotatifs (RoPE). Nous prouvons que le pooling moyen agit comme un filtre passe-bas qui induit des interférences destructrices dans les dimensions haute fréquence, créant effectivement un "angle mort" pour l'information positionnelle locale (par exemple, les motifs de barre oblique). Pour résoudre ce problème, nous présentons Prism, une approche spectrale et sans apprentissage qui décompose la sélection de blocs en branches haute et basse fréquence. En appliquant un calibrage de température basé sur l'énergie, Prism restaure les signaux positionnels atténués directement à partir des représentations poolées, permettant une estimation de l'importance des blocs en utilisant uniquement des opérations au niveau des blocs, améliorant ainsi l'efficacité. Des évaluations approfondies confirment que Prism maintient une précision équivalente à l'attention complète tout en offrant une accélération allant jusqu'à 5,1 fois.
Récemment, les modèles de langage de grande taille à diffusion (dLLM) ont démontré des avantages uniques en termes d'efficacité, rendus possibles par leur mécanisme de décodage intrinsèquement parallèle et leur paradigme de génération flexible. Parallèlement, malgré les progrès rapides des agents de recherche, leur déploiement pratique est limité par une contrainte fondamentale, appelée 1) Défi de la Latence : l'exécution séquentielle du raisonnement en plusieurs tours, de l'appel d'outils et de l'attente des réponses des outils dans le paradigme de l'agent ReAct induit une latence de bout en bout importante. Intuitivement, les dLLM peuvent exploiter leurs atouts distincts pour optimiser l'efficacité opérationnelle des agents sous le paradigme ReAct. Concrètement, les modèles de base dLLM existants sont confrontés au 2) Défi des Capacités de l'Agent. C'est-à-dire que les dLLM existants présentent des capacités de raisonnement et d'appel d'outils remarquablement faibles, empêchant ces avantages d'être effectivement réalisés en pratique. Dans cet article, nous proposons DLLM-Searcher, un cadre d'optimisation pour les agents de recherche basés sur les dLLM. Pour résoudre le Défi des Capacités de l'Agent, nous concevons un pipeline de post-entraînement en deux étapes comprenant un Fine-Tuning Supervisé Agentique (Agentic SFT) et une Optimisation des Préférences à Variance Réduite Agentique (Agentic VRPO), qui améliore les capacités de recherche d'information et de raisonnement du modèle de base dLLM. Pour atténuer le Défi de la Latence, nous tirons parti du mécanisme de génération flexible des dLLM et proposons un nouveau paradigme d'agent appelé Raisonnement et Action Parallèles (P-ReAct). P-ReAct guide le modèle à prioriser le décodage des instructions d'appel d'outils, permettant ainsi au modèle de continuer à réfléchir pendant l'attente du retour de l'outil. Les résultats expérimentaux démontrent que DLLM-Searcher atteint des performances comparables aux principaux agents de recherche basés sur les LLM, et que P-ReAct offre une accélération de l'inférence d'environ 15 %. Notre code est disponible à l'adresse https://anonymous.4open.science/r/DLLM-Searcher-553C.
La mise à l'échelle des modèles de monde contrôlables par actions est limitée par la rareté des étiquettes d'actions. Bien que l'apprentissage latent d'actions promette d'extraire des interfaces de contrôle à partir de vidéos non étiquetées, les latents apprises échouent souvent à se transférer entre les contextes : elles entremêlent des indices spécifiques à la scène et manquent d'un système de coordonnées partagé. Ceci se produit parce que les objectifs standards opèrent uniquement au sein de chaque clip, sans fournir de mécanisme pour aligner la sémantique des actions entre les contextes. Notre idée clé est que bien que les actions ne soient pas observées, leurs effets sémantiques sont observables et peuvent servir de référence partagée. Nous introduisons SeqΔ-REPA, un objectif d'alignement des effets de contrôle au niveau séquentiel qui ancre l'action latente intégrée aux différences de caractéristiques temporelles provenant d'un encodeur vidéo auto-supervisé et figé. Sur cette base, nous présentons Olaf-World, une pipeline qui pré-entraîne des modèles de monde vidéo conditionnés par l'action à partir de vidéos passives à grande échelle. Des expériences approfondies démontrent que notre méthode apprend un espace d'action latent plus structuré, conduisant à un transfert d'action zéro-shot plus robuste et une adaptation plus économe en données à de nouvelles interfaces de contrôle que les méthodes de référence état de l'art.
Nous étudions l'édition d'images par instruction dans le cadre de flux de travail professionnels et identifions trois défis persistants : (i) les éditeurs modifient souvent excessivement, altérant le contenu au-delà de l'intention de l'utilisateur ; (ii) les modèles existants sont largement monotour, alors que les éditions multitours peuvent compromettre la fidélité des objets ; et (iii) l'évaluation à une résolution d'environ 1K est mal alignée avec les flux de travail réels qui opèrent souvent sur des images en ultra haute définition (par exemple, 4K). Nous proposons Agent Banana, un framework agentique planificateur-exécuteur hiérarchique pour une édition délibérative, fidèle et consciente des objets. Agent Banana introduit deux mécanismes clés : (1) le Repli Contextuel, qui compresse les longues histoires d'interaction en une mémoire structurée pour un contrôle stable à long horizon ; et (2) la Décomposition en Calques d'Image, qui effectue des éditions localisées par calques pour préserver les régions non ciblées tout en permettant des sorties en résolution native. Pour soutenir une évaluation rigoureuse, nous construisons HDD-Bench, un benchmark dialogué en haute définition comportant des cibles étape par étape vérifiables et des images natives 4K (11,8 millions de pixels) pour diagnostiquer les échecs à long horizon. Sur HDD-Bench, Agent Banana obtient la meilleure cohérence multitour et fidélité de l'arrière-plan (par exemple, IC 0,871, SSIM-OM 0,84, LPIPS-OM 0,12) tout en restant compétitif sur le suivi des instructions, et obtient également de solides performances sur les benchmarks d'édition monotour standard. Nous espérons que ces travaux feront progresser l'édition d'images agentique fiable de qualité professionnelle et son intégration dans les flux de travail réels.
La génération vidéo auto-régressive permet la synthèse de vidéos longues en conditionnant itérativement chaque nouveau lot d'images sur le contenu précédemment généré. Cependant, des travaux récents ont montré que ces pipelines souffrent d'une dérive temporelle importante, où les erreurs s'accumulent et s'amplifient sur de longues séquences. Nous émettons l'hypothèse que cette dérive ne provient pas principalement d'une capacité insuffisante du modèle, mais plutôt d'une propagation d'erreurs lors de l'inférence. Plus précisément, nous soutenons que la dérive résulte de la réutilisation non contrôlée de tokens latents corrompus pendant l'inférence auto-régressive. Pour corriger cette accumulation d'erreurs, nous proposons une méthode simple, opérant lors de l'inférence, qui atténue la dérive temporelle en identifiant et en supprimant les tokens latents instables avant leur réutilisation pour le conditionnement. À cette fin, nous définissons les tokens instables comme des tokens latents dont les représentations s'écartent significativement de celles du lot précédemment généré, indiquant une corruption potentielle ou une dérive sémantique. En supprimant explicitement les tokens latents corrompus du contexte auto-régressif, plutôt que de modifier des régions spatiales entières ou les paramètres du modèle, notre méthode empêche les informations latentes peu fiables d'influencer les étapes futures de génération. Par conséquent, elle améliore significativement la cohérence temporelle à long terme sans modifier l'architecture du modèle, la procédure d'entraînement, ni quitter l'espace latent.
Des études récentes ont exploré les modèles autorégressifs pour la génération d'images, avec des résultats prometteurs, et ont combiné des modèles de diffusion avec des cadres autorégressifs pour optimiser la génération d'images via des pertes de diffusion. Dans cette étude, nous présentons une analyse théorique des modèles de diffusion et autorégressifs avec perte de diffusion, en soulignant les avantages de ces derniers. Nous présentons une comparaison théorique de la diffusion conditionnelle et de la diffusion autorégressive avec perte de diffusion, démontrant que l'optimisation par débruitage par patchs dans les modèles autorégressifs atténue efficacement les erreurs de condition et conduit à une distribution de condition stable. Notre analyse révèle également que la génération de condition autorégressive affine la condition, provoquant une décroissance exponentielle de l'influence de l'erreur de condition. De plus, nous introduisons une nouvelle approche de raffinement de condition basée sur la théorie du transport optimal (OT) pour résoudre le problème de « l'incohérence de condition ». Nous démontrons théoriquement que la formulation du raffinement de condition comme un flux de gradient de Wasserstein assure une convergence vers la distribution de condition idéale, atténuant efficacement l'incohérence de condition. Les expériences démontrent la supériorité de notre méthode par rapport aux modèles de diffusion et aux modèles autorégressifs avec des méthodes à perte de diffusion.
Les modèles Vision-Langage-Action (VLA) sont apparus comme un paradigme prometteur pour le contrôle robotique généraliste, avec la mise à l'échelle au moment du test (TTS) qui gagne en attention pour améliorer la robustesse au-delà de l'entraînement. Cependant, les méthodes TTS existantes pour les VLA nécessitent un entraînement supplémentaire, des vérificateurs et de multiples passes avant, les rendant peu pratiques pour le déploiement. De plus, elles n'interviennent qu'au décodage des actions tout en gardant les représentations visuelles fixes – ce qui est insuffisant en cas d'ambiguïté perceptuelle, où reconsidérer comment percevoir est aussi important que de décider quoi faire. Pour résoudre ces limitations, nous proposons SCALE, une stratégie d'inférence simple qui module conjointement la perception visuelle et l'action sur la base de « l'auto-incertitude », inspirée par l'exploration guidée par l'incertitude dans la théorie de l'Inférence Active – sans nécessiter d'entraînement supplémentaire, ni vérificateur, et avec une seule passe avant. SCALE élargit l'exploration dans la perception et l'action en cas de forte incertitude, tout en se concentrant sur l'exploitation en situation de confiance, permettant une exécution adaptative à diverses conditions. Les expériences sur des benchmarks en simulation et en conditions réelles démontrent que SCALE améliore les VLA de l'état de l'art et surpasse les méthodes TTS existantes tout en conservant l'efficacité d'une seule passe.
La transformation d'un grand modèle de langage (LLM) en modèle vision-langage (VLM) peut être réalisée en projetant les tokens visuels d'un encodeur visuel dans l'espace d'embedding d'un LLM. Il est remarquable que cette projection puisse être aussi simple qu'une transformation par un perceptron multicouche peu profond. Pour comprendre pourquoi les LLM peuvent traiter si facilement les tokens visuels, nous avons besoin de méthodes d'interprétabilité qui révèlent ce qui est encodé dans les représentations des tokens visuels à chaque couche du traitement par le LLM. Dans ce travail, nous présentons LatentLens, une approche novatrice pour cartographier les représentations latentes vers des descriptions en langage naturel. LatentLens fonctionne en encodant un large corpus textuel et en stockant les représentations contextuelles des tokens pour chaque token de ce corpus. Les représentations des tokens visuels sont ensuite comparées à leurs représentations textuelles contextuelles, les k plus proches voisins fournissant des descriptions du token visuel. Nous évaluons cette méthode sur 10 VLM différents, montrant que les méthodes couramment utilisées, comme LogitLens, sous-estiment considérablement l'interprétabilité des tokens visuels. Avec LatentLens, en revanche, la majorité des tokens visuels sont interprétables dans tous les modèles étudiés et à toutes les couches. Qualitativement, nous montrons que les descriptions produites par LatentLens sont sémantiquement significatives et fournissent des interprétations plus fines pour les humains que les tokens individuels. Plus généralement, nos résultats apportent de nouvelles preuves sur l'alignement entre les représentations visuelles et linguistiques, ouvrant de nouvelles directions pour l'analyse des représentations latentes.
Doter les agents incarnés de la capacité à raisonner sur les tâches, à anticiper les résultats physiques et à générer des actions précises est essentiel pour la manipulation à usage général. Bien que les modèles Vision-Langage-Action (VLA) récents aient tiré parti de modèles de fond pré-entraînés, ils se concentrent généralement soit sur la planification linguistique, soit sur la prévision visuelle de manière isolée. Ces méthodes intègrent rarement les deux capacités simultanément pour guider la génération d'actions, ce qui entraîne des performances sous-optimales dans les tâches de manipulation complexes et à long horizon. Pour combler cette lacune, nous proposons BagelVLA, un modèle unifié qui intègre la planification linguistique, la prévision visuelle et la génération d'actions dans un cadre unique. Initialisé à partir d'un modèle génératif et de compréhension unifié pré-entraîné, BagelVLA est entraîné à entrelacer le raisonnement textuel et la prédiction visuelle directement dans la boucle d'exécution des actions. Pour coupler efficacement ces modalités, nous introduisons le Guidage par Flux Résiduel (Residual Flow Guidance, RFG), qui s'initialise à partir de l'observation courante et utilise un débruitage en une seule étape pour extraire des caractéristiques visuelles prédictives, guidant ainsi la génération d'actions avec une latence minimale. Des expériences approfondies démontrent que BagelVLA surpasse les méthodes de référence existantes par une marge significative sur plusieurs benchmarks simulés et réels, en particulier dans les tâches nécessitant un raisonnement en plusieurs étapes.
L'entraînement d'agents généralistes capables de s'adapter à des scénarios divers nécessite des environnements interactifs pour l'auto-exploration. Cependant, les environnements interactifs restent cruellement rares, et les méthodes de synthèse existantes souffrent de limitations importantes en matière de diversité environnementale et d'évolutivité. Pour relever ces défis, nous présentons ScaleEnv, un cadre qui construit des environnements entièrement interactifs et des tâches vérifiables entièrement à partir de zéro. Plus précisément, ScaleEnv garantit la fiabilité de l'environnement par des tests procéduraux, et assure l'exhaustivité et la solvabilité des tâches via l'expansion d'un graphe de dépendance d'outils et la vérification d'actions exécutables. En permettant aux agents d'apprendre par l'exploration au sein de ScaleEnv, nous démontrons des améliorations significatives des performances sur des benchmarks de l'utilisation d'outils en tours multiples et non vus, tels que τ^2-Bench et VitaBench, mettant en évidence de fortes capacités de généralisation. De plus, nous étudions la relation entre l'augmentation du nombre de domaines et les performances de généralisation du modèle, fournissant des preuves empiriques que l'augmentation de la diversité environnementale est essentielle pour un apprentissage robuste des agents.
Le pré-entraînement de politiques Vision-Langage-Action (VLA) sur des vidéos à l'échelle d'Internet est séduisant, mais les objectifs courants à actions latentes apprennent souvent la mauvaise chose : ils restent ancrés à la variation des pixels plutôt qu'aux transitions d'état pertinentes pour l'action, les rendant vulnérables au biais d'apparence, au mouvement parasite et à la fuite d'information. Nous présentons VLA-JEPA, un cadre de pré-entraînement de type JEPA qui contourne ces écueils par conception. L'idée clé est la prédiction d'état sans fuite : un encodeur cible produit des représentations latentes à partir des images futures, tandis que la voie étudiée ne voit que l'observation actuelle — les informations futures sont utilisées uniquement comme cibles de supervision, jamais en entrée. En prédisant dans l'espace latent plutôt que dans l'espace pixel, VLA-JEPA apprend des abstractions de la dynamique qui sont robustes aux mouvements de la caméra et aux changements d'arrière-plan non pertinents. Cela donne une recette simple en deux étapes — pré-entraînement JEPA suivi d'un réglage fin avec une tête d'action — sans la complexité multi-étapes des pipelines à actions latentes antérieurs. Les expériences sur LIBERO, LIBERO-Plus, SimplerEnv et des tâches de manipulation en monde réel montrent que VLA-JEPA obtient des gains constants en généralisation et en robustesse par rapport aux méthodes existantes.
Le paradigme dominant en apprentissage robotique tente de généraliser entre environnements, incarnations et tâches à l'aide d'invites langagières lors de l'exécution. Une tension fondamentale limite cette approche : le langage est souvent trop abstrait pour guider la compréhension physique concrète requise pour une manipulation robuste. Dans ce travail, nous introduisons les Politiques Ancrées sur le Contact (CAP), qui remplacent le conditionnement linguistique par des points de contact physique dans l'espace. Simultanément, nous structurons CAP comme une bibliothèque de modèles utilitaires modulaires plutôt que comme une politique généraliste monolithique. Cette factorisation nous permet de mettre en œuvre un cycle d'itération réel-vers-simulé : nous construisons EgoGym, un benchmark de simulation léger, pour identifier rapidement les modes de défaillance et affiner nos modèles et jeux de données avant le déploiement réel. Nous montrons qu'en se basant sur le contact et en itérant via la simulation, CAP généralise immédiatement à de nouveaux environnements et incarnations pour trois compétences de manipulation fondamentales, tout en n'utilisant que 23 heures de données de démonstration, et surpasse les grands modèles linguistiques visuels état-de-l'art dans des évaluations zero-shot par 56%. Tous les points de contrôle des modèles, codebase, matériel, simulation et jeux de données seront open-source. Page du projet : https://cap-policy.github.io/
Les systèmes multi-agents basés sur LLM permettent un raisonnement avancé et l'utilisation d'outils via la spécialisation des rôles, mais l'apprentissage par renforcement (RL) post-entraînement fiable pour ces systèmes reste difficile. Dans ce travail, nous identifions théoriquement une raison clé de l'instabilité de l'entraînement lors de l'extension du RL basé sur les groupes aux systèmes multi-agents LLM. Nous montrons que sous une optimisation de type GRPO, une ligne de base de normalisation globale peut s'écarter des distributions de récompense d'agents divers, ce qui conduit finalement à une instabilité de la norme du gradient. Sur la base de cette constatation, nous proposons Dr. MAS, une méthode d'entraînement RL simple et stable pour les systèmes multi-agents LLM. Dr. MAS utilise un correctif par agent : normaliser les avantages par agent en utilisant les statistiques de récompense de chaque agent, ce qui calibre les échelles de gradient et stabilise considérablement l'entraînement, tant théoriquement qu'empiriquement. Au-delà de l'algorithme, Dr. MAS fournit un cadre d'entraînement RL de bout en bout pour les systèmes multi-agents LLM, prenant en charge l'orchestration scalable, la configuration flexible de service et d'optimisation LLM par agent, et la planification partagée des ressources des backends d'acteurs LLM. Nous évaluons Dr. MAS sur des benchmarks de raisonnement mathématique multi-agent et de recherche multi-tours en utilisant les modèles des séries Qwen2.5 et Qwen3. Dr. MAS obtient des gains nets par rapport au GRPO standard (par exemple, +5,6 % avg@16 et +4,6 % pass@16 en maths, et +15,2 % avg@16 et +13,1 % pass@16 en recherche) tout en éliminant largement les pics de gradient. De plus, il reste très efficace avec des assignations hétérogènes de modèles par agent tout en améliorant l'efficacité.
L’acquisition de connaissances transférables à partir de vidéos non annotées et leur application dans de nouveaux environnements constituent une capacité fondamentale des agents intelligents. Ce travail présente VideoWorld 2, qui étend VideoWorld et propose la première étude sur l’apprentissage de connaissances transférables directement à partir de vidéos brutes du monde réel. Au cœur de VideoWorld 2 se trouve un modèle de dynamique latente à renforcement dynamique (dLDM) qui dissocie la dynamique des actions de l’apparence visuelle : un modèle de diffusion vidéo préentraîné gère la modélisation de l’apparence visuelle, permettant au dLDM d’apprendre des codes latents centrés sur des dynamiques compactes et significatives liées à la tâche. Ces codes latents sont ensuite modélisés de manière autorégressive pour apprendre des politiques de tâches et supporter un raisonnement à long terme. Nous évaluons VideoWorld 2 sur des tâches complexes de fabrication artisanale du monde réel, où les modèles précédents de génération vidéo et de dynamique latente peinent à fonctionner de manière fiable. Remarquablement, VideoWorld 2 amène jusqu’à 70 % d’amélioration du taux de réussite des tâches et produit des vidéos d’exécution longues et cohérentes. En robotique, nous montrons que VideoWorld 2 peut acquérir des connaissances efficaces en manipulation à partir du jeu de données Open-X, ce qui améliore considérablement les performances des tâches sur CALVIN. Cette étude révèle le potentiel de l’apprentissage de connaissances mondaines transférables directement à partir de vidéos brutes. L’ensemble du code, des données et des modèles sera ouvert afin de favoriser de futures recherches.
Les jeux de données de haute qualité et ouverts restent un goulot d'étranglement majeur pour le réglage fin (fine-tuning) texte-à-image (T2I). Malgré les progrès rapides des architectures de modèles et des pipelines d'entraînement, la plupart des ensembles de données de réglage fin publiquement disponibles souffrent d'une faible résolution, d'un mauvais alignement texte-image ou d'une diversité limitée, ce qui entraîne un écart de performance net entre les modèles de recherche ouverts et les modèles de niveau professionnel. Dans ce travail, nous présentons Fine-T2I, un jeu de données à grande échelle, de haute qualité et entièrement ouvert pour le réglage fin T2I. Fine-T2I couvre 10 combinaisons de tâches, 32 catégories d'invites (prompts), 11 styles visuels et 5 modèles d'invites, et combine des images synthétiques générées par des modèles modernes performants avec des images réelles soigneusement sélectionnées provenant de photographes professionnels. Tous les échantillons sont rigoureusement filtrés pour l'alignement texte-image, la fidélité visuelle et la qualité des invites, plus de 95 % des candidats initiaux étant éliminés. L'ensemble de données final contient plus de 6 millions de paires texte-image, représentant environ 2 To sur disque, approchant l'échelle des jeux de données de pré-entraînement tout en maintenant une qualité de niveau réglage fin. Sur un ensemble varié de modèles de diffusion et autorégressifs pré-entraînés, le réglage fin sur Fine-T2I améliore systématiquement à la fois la qualité de génération et le respect des instructions, comme le valident l'évaluation humaine, la comparaison visuelle et les métriques automatiques. Nous publions Fine-T2I sous une licence ouverte pour contribuer à combler le fossé des données dans le réglage fin T2I au sein de la communauté ouverte.
L'entraînement de modèles agentiques pour des tâches en terminal repose de manière cruciale sur des trajectoires de terminal de haute qualité qui capturent des interactions réalistes à long terme dans divers domaines. Cependant, la construction de telles données à grande échelle reste difficile en raison de deux exigences clés : l’\emph{Exécutabilité}, car chaque instance nécessite un environnement Docker adapté et souvent distinct ; et la \emph{Vérifiabilité}, car l'hétérogénéité des sorties de tâches empêche une vérification unifiée et standardisée. Pour relever ces défis, nous proposons TerminalTraj, un pipeline évolutif qui (i) filtre des dépôts de haute qualité pour construire des environnements d'exécution Dockerisés, (ii) génère des instances de tâches alignées avec Docker, et (iii) synthétise des trajectoires d'agents avec un code de validation exécutable. En utilisant TerminalTraj, nous avons constitué 32 000 images Docker et généré 50 733 trajectoires de terminal vérifiées couvrant huit domaines. Les modèles entraînés sur ces données avec l'architecture de base Qwen2.5-Coder obtiennent des améliorations de performances constantes sur TerminalBench (TB), avec des gains allant jusqu'à 20\% sur TB~1.0 et 10\% sur TB~2.0 par rapport à leurs architectures de base respectives. Notamment, TerminalTraj-32B atteint des performances solides parmi les modèles de moins de 100 milliards de paramètres, avec 35,30\% sur TB~1.0 et 22,00\% sur TB~2.0, et démontre un comportement d'échelle amélioré au moment du test. Tous les codes et données sont disponibles à l'adresse https://github.com/Wusiwei0410/TerminalTraj.
Les modèles de langage de grande taille (LLM) rencontrent des défis significatifs dans le traitement de contextes longs, incluant des coûts computationnels quadratiques, l'oubli d'informations et la fragmentation contextuelle inhérente à la génération augmentée par récupération (RAG). Nous proposons un cadre cognitivement inspiré pour l'inférence efficace en contexte long, basé sur la compression par segments et la récupération sélective en mémoire, plutôt que sur le traitement de tous les tokens bruts. Le framework segmente les entrées longues en segments et encode chaque segment en représentations mémoire compressées à l'aide d'un compresseur appris. Un module de gating sélectionne dynamiquement des blocs de mémoire pertinents, qui sont ensuite traités itérativement par un module de raisonnement doté d'une mémoire de travail évolutive pour résoudre des tâches en aval. Le compresseur et le raisonneur sont optimisés conjointement via un apprentissage par renforcement de bout en bout, tandis que le module de gating est entraîné séparément comme un classifieur. Les résultats expérimentaux montrent que la méthode proposée atteint une précision compétitive sur des benchmarks de raisonnement à sauts multiples tels que RULER-HQA, extrapole la longueur de contexte de 7K à 1,75M de tokens, et offre un compromis précision-efficacité favorable par rapport à des bases de référence solides en contexte long. En particulier, elle permet jusqu'à une réduction par 2 de l'utilisation maximale de mémoire GPU et une accélération de l'inférence par 6 par rapport à MemAgent.
Le pilotage par activation (activation steering) est apparu comme une approche prometteuse pour adapter efficacement les grands modèles de langage (LLM) à des comportements en aval. Cependant, la plupart des méthodes de pilotage existantes reposent sur une direction statique unique par tâche ou concept, ce qui les rend inflexibles face aux variations des tâches et inadéquates pour les tâches complexes nécessitant plusieurs capacités coordonnées. Pour remédier à cette limitation, nous proposons STEER2ADAPT, un cadre léger qui adapte les LLM en composant des vecteurs de pilotage plutôt qu'en en apprenant de nouveaux à partir de zéro. Dans de nombreux domaines (par exemple, le raisonnement ou la sécurité), les tâches partagent un petit ensemble de dimensions conceptuelles sous-jacentes. STEER2ADAPT capture ces dimensions sous la forme d'un sous-espace sémantique préalable réutilisable et de faible dimension, et s'adapte à de nouvelles tâches en découvrant dynamiquement une combinaison linéaire de vecteurs de base à partir de seulement quelques exemples. Les expériences menées sur 9 tâches et 3 modèles, dans les domaines du raisonnement et de la sécurité, démontrent l'efficacité de STEER2ADAPT, avec une amélioration moyenne de 8,2 %. Des analyses approfondies montrent en outre que STEER2ADAPT est une méthode d'adaptation au moment de l'inférence économe en données, stable et transparente pour les LLM.
Les transformeurs de diffusion intègrent généralement l'information textuelle via des couches d'attention et un mécanisme de modulation utilisant une représentation textuelle agrégée. Néanmoins, les approches récentes abandonnent le conditionnement textuel par modulation et reposent exclusivement sur l'attention. Dans cet article, nous examinons si le conditionnement textuel par modulation est nécessaire et s'il peut procurer un avantage en termes de performance. Notre analyse montre que, dans son usage conventionnel, l'embedding agrégé contribue peu à la performance globale, suggérant que l'attention seule est généralement suffisante pour propager fidèlement l'information des prompts. Cependant, nous révélons que l'embedding agrégé peut apporter des gains significatifs lorsqu'il est utilisé sous un angle différent – en servant de guide et en permettant des déplacements contrôlés vers des propriétés plus souhaitables. Cette approche ne nécessite pas d'apprentissage supplémentaire, est simple à mettre en œuvre, induit une surcharge computationnelle négligeable, et peut être appliquée à divers modèles de diffusion, apportant des améliorations sur diverses tâches, incluant la génération texte-image/vidéo et l'édition d'image.
Dans ce travail, nous présentons Covo-Audio, un LALM (Large Audio Language Model) de bout en bout à 7 milliards de paramètres qui traite directement des entrées audio continues et génère des sorties audio au sein d'une architecture unique et unifiée. Grâce à un pré-entraînement à grande échelle soigneusement organisé et à un post-entraînement ciblé, Covo-Audio atteint des performances à l'état de l'art ou compétitives parmi les modèles d'échelle comparable sur un large éventail de tâches, incluant la modélisation parole-texte, le dialogue oral, la compréhension de la parole, la compréhension audio et l'interaction vocale en duplex intégral. Des évaluations approfondies démontrent que le modèle de base pré-entraîné présente de solides capacités de compréhension parole-texte et de raisonnement sémantique sur plusieurs benchmarks, surpassant les modèles open-source représentatifs de taille similaire. De plus, Covo-Audio-Chat, la variante orientée dialogue, démontre de fortes capacités conversationnelles orales, incluant la compréhension, le raisonnement contextuel, le suivi d'instructions et la génération de réponses contextuellement appropriées et empathiques, validant son applicabilité à des scénarios réels d'assistants conversationnels. Covo-Audio-Chat-FD, le modèle évolué en duplex intégral, atteint des performances substantiellement supérieures à la fois sur les capacités de dialogue oral et les comportements d'interaction en duplex intégral, démontrant sa compétence en matière de robustesse pratique. Pour atténuer le coût élevé du déploiement de LALM de bout en bout pour des systèmes conversationnels naturels, nous proposons une stratégie de découplage intelligence-haut-parleur qui sépare l'intelligence dialogue du rendu vocal, permettant une personnalisation vocale flexible avec un minimum de données de synthèse vocale (TTS) tout en préservant les performances conversationnelles. Globalement, nos résultats soulignent le fort potentiel des modèles à l'échelle des 7B pour intégrer une intelligence audio sophistiquée avec un raisonnement sémantique de haut niveau, et suggèrent une voie évolutive vers des LALM plus performants et polyvalents.
Le raisonnement par chaîne de pensée (CoT) et ses variantes ont considérablement amélioré les performances des modèles de langage sur les tâches de raisonnement complexes, mais les mécanismes précis par lesquels les différentes stratégies facilitent la généralisation restent mal compris. Si les explications actuelles invoquent souvent une augmentation du calcul au moment du test ou un guidage structurel, établir un lien quantifiable et cohérent entre ces facteurs et la généralisation reste un défi. Dans ce travail, nous identifions la dimension intrinsèque comme une mesure quantitative pour caractériser l'efficacité des chaînes de raisonnement. La dimension intrinsèque quantifie le nombre minimum de dimensions du modèle nécessaire pour atteindre un seuil de précision donné sur une tâche donnée. En maintenant l'architecture du modèle fixe et en faisant varier la formulation de la tâche via différentes stratégies de raisonnement, nous démontrons que les stratégies de raisonnement efficaces réduisent systématiquement la dimension intrinsèque de la tâche. En validant cela sur GSM8K avec Gemma-3 1B et 4B, nous observons une forte corrélation inverse entre la dimension intrinsèque d'une stratégie de raisonnement et ses performances de généralisation sur des données en distribution et hors distribution. Nos résultats suggèrent que les chaînes de raisonnement efficaces facilitent l'apprentissage en compressant mieux la tâche à l'aide de moins de paramètres, offrant ainsi une nouvelle métrique quantitative pour analyser les processus de raisonnement.
Les grands modèles de langage (LLM) ont montré des capacités prometteuses pour résoudre des problèmes mathématiques complexes, mais ils peinent encore à produire des solutions précises et cohérentes. L'apprentissage par renforcement (RL) offre un cadre pour aligner ces modèles sur des récompenses spécifiques aux tâches, améliorant ainsi leur qualité et leur fiabilité globales. L'optimisation de politique relative par groupe (GRPO) est une alternative efficace et sans fonction de valeur à l'optimisation de politique proximale (PPO), qui utilise une normalisation des récompenses relative au groupe. Nous présentons l'optimisation de politique relative par groupe itérative (iGRPO), une extension en deux étapes de GRPO qui ajoute un auto-conditionnement dynamique via des ébauches générées par le modèle. Dans l'étape 1, iGRPO échantillonne plusieurs ébauches exploratoires et sélectionne celle ayant la récompense la plus élevée en utilisant le même signal de récompense scalaire que celui utilisé pour l'optimisation. Dans l'étape 2, elle ajoute cette meilleure ébauche à l'invite originale et applique une mise à jour de type GRPO sur des raffinements conditionnés par l'ébauche, entraînant la politique à s'améliorer au-delà de sa meilleure tentative précédente. Avec des budgets de déploiement équivalents, iGRPO surpasse constamment GRPO sur différents modèles de base (par exemple, Nemotron-H-8B-Base-8K et DeepSeek-R1 Distilled), validant son efficacité sur divers benchmarks de raisonnement. De plus, l'application d'iGRPO à OpenReasoning-Nemotron-7B entraîné sur AceReason-Math permet d'atteindre de nouveaux résultats state-of-the-art de 85,62 % et 79,64 % sur AIME24 et AIME25, respectivement. Les études d'ablation montrent en outre que le wrapper de raffinement se généralise au-delà des variantes de GRPO, bénéficie d'un juge génératif et modifie la dynamique d'apprentissage en retardant l'effondrement de l'entropie. Ces résultats soulignent le potentiel du RL itératif basé sur l'auto-feedback pour faire progresser le raisonnement mathématique vérifiable.
L'extensibilité efficace de l'automatisation des interfaces graphiques est essentielle pour les agents d'utilisation informatique (CUA) ; cependant, les travaux existants se concentrent principalement sur l'ancrage des interfaces graphiques plutôt que sur la planification des interfaces graphiques, plus cruciale et nécessitant une collecte de données plus sophistiquée. En réalité, le processus d'exploration d'un CUA à travers les applications, les bureaux et les pages web suit généralement une structure arborescente, les points d'entrée fonctionnels antérieurs étant souvent explorés plus fréquemment. Ainsi, organiser les trajectoires à grande échelle en structures arborescentes peut réduire le coût des données et rationaliser la mise à l'échelle des données pour la planification des interfaces graphiques. Dans ce travail, nous proposons TreeCUA pour étendre efficacement l'automatisation des interfaces graphiques avec une évolution vérifiable structurée en arbre. Nous proposons un cadre collaboratif multi-agents pour explorer l'environnement, vérifier les actions, résumer les trajectoires et évaluer la qualité afin de générer des trajectoires d'interface graphique évolutives et de haute qualité. Pour améliorer l'efficacité, nous concevons une topologie novatrice basée sur les arbres pour stocker et rejouer les nœuds d'exploration dupliqués, et concevons un algorithme d'exploration adaptatif pour équilibrer la profondeur (c'est-à-dire la difficulté de la trajectoire) et la largeur (c'est-à-dire la diversité des trajectoires). De plus, nous développons un guidage par connaissance du monde et un retour en arrière par mémoire globale pour éviter une génération de faible qualité. Enfin, nous étendons naturellement et proposons la méthode TreeCUA-DPO à partir des informations abondantes des nœuds de l'arbre, améliorant la capacité de planification des interfaces graphiques en se référant aux informations des branches des trajectoires adjacentes. Les résultats expérimentaux montrent que TreeCUA et TreeCUA-DPO offrent des améliorations significatives, et les études hors domaine (OOD) démontrent en outre une forte généralisation. Toutes les informations sur les nœuds de trajectoire et le code seront disponibles sur https://github.com/UITron-hub/TreeCUA.
Les agents d'interface graphique de bout en bout pour les environnements de bureau réels nécessitent de grandes quantités de données d'interaction de haute qualité, mais la collecte de démonstrations humaines est coûteuse et les pipelines synthétiques existants souffrent souvent d'une diversité de tâches limitée ou de trajectoires bruitées avec dérive des objectifs. Nous présentons Anchor, un cadre d'expansion de trajectoires qui génère de manière incrémentale une supervision scalable pour le bureau à partir d'un petit ensemble de démonstrations de référence vérifiées. À partir de chaque démonstration de référence, nous identifions des points de branchement correspondant à des changements d'état significatifs et proposons de nouvelles variantes de tâches ancrées dans l'état, conditionnées par le contexte actuel de l'interface graphique. Un agent d'exécution suit ensuite les instructions proposées pour générer de nouvelles trajectoires, tandis qu'un vérificateur impose l'achèvement des tâches via des contrôles sensibles à l'état et une cohérence au niveau trajectoire. Pour améliorer la qualité de la supervision, nous appliquons en outre un filtrage au niveau des étapes conditionné par la tâche pour supprimer les actions non fondées, et débrutons les segments post-branchement pour maintenir une intention cohérente. Les expériences sur les benchmarks de bureau standard, OSWorld et WindowsAgentArena, montrent que les modèles affinés sur notre corpus étendu obtiennent des améliorations constantes par rapport aux agents zero-shot et aux bases de synthèse représentatives, et généralisent à travers les applications et les systèmes d'exploitation.
La collecte de données en conditions réelles pour les agents incarnés reste coûteuse et dangereuse, ce qui nécessite des environnements 3D évolutifs, réalistes et compatibles avec les simulateurs. Cependant, les systèmes de génération de scènes existants reposent souvent sur des approches par règles ou des pipelines spécifiques à une tâche, produisant des artefacts et des scènes physiquement non valides. Nous présentons SAGE, un framework agentique qui, étant donné une tâche incarnée spécifiée par l'utilisateur (par exemple, "ramasser un bol et le poser sur la table"), comprend l'intention et génère automatiquement des environnements prêts pour la simulation à grande échelle. L'agent couple plusieurs générateurs pour la disposition et la composition d'objets avec des critiques évaluant la plausibilité sémantique, le réalisme visuel et la stabilité physique. Grâce à un raisonnement itératif et une sélection adaptative d'outils, il affine automatiquement les scènes jusqu'à satisfaire l'intention de l'utilisateur et la validité physique. Les environnements résultants sont réalistes, diversifiés et directement déployables dans les simulateurs modernes pour l'entraînement de politiques. Les politiques entraînées uniquement sur ces données présentent des tendances claires d'évolutivité et généralisent à des objets et dispositions non vus, démontrant le potentiel de la mise à l'échelle par simulation pour l'IA incarnée. Le code, les démonstrations et le jeu de données SAGE-10k sont disponibles sur la page du projet : https://nvlabs.github.io/sage.
Ce document remet en question la domination des pipelines continus dans la génération visuelle. Nous étudions systématiquement l'écart de performance entre les méthodes discrètes et continues. Contrairement à la croyance selon laquelle les tokeniseurs discrets sont intrinsèquement inférieurs, nous démontrons que la disparité provient principalement du nombre total de bits alloués dans l'espace latent (c'est-à-dire le taux de compression). Nous montrons qu'augmenter la taille du codebook permet de combler efficacement cet écart, permettant aux tokeniseurs discrets d'égaler ou de surpasser leurs équivalents continus. Cependant, les méthodes de génération discrètes existantes peinent à tirer parti de cette idée, souffrant d'une dégradation des performances ou de coûts d'entraînement prohibitifs avec un codebook augmenté. Pour résoudre ce problème, nous proposons le modèle auto-régressif masqué sur les bits (BAR), un cadre évolutif qui prend en charge des tailles de codebook arbitraires. En équipant un transformeur auto-régressif d'une tête de modélisation masquée des bits, BAR prédit les tokens discrets en générant progressivement leurs bits constitutifs. BAR atteint un nouveau state-of-the-art avec un gFID de 0,99 sur ImageNet-256, surpassant les méthodes leaders des paradigmes continus et discrets, tout en réduisant significativement les coûts d'échantillonnage et en convergeant plus rapidement que les approches continues précédentes. La page du projet est disponible à l'adresse https://bar-gen.github.io/
La pensée parallèle est apparue comme un nouveau paradigme pour les grands modèles de raisonnement (LRM) dans la résolution de problèmes complexes. Les méthodes récentes exploitent l'apprentissage par renforcement (RL) pour améliorer cette pensée parallèle, visant à pallier les limitations en ressources computationnelles et en efficacité rencontrées avec le réglage fin supervisé. Cependant, la plupart des études existantes se concentrent principalement sur l'optimisation de la phase d'agrégation, accordant une attention limitée à l'étape d'exploration des chemins de raisonnement. Dans cet article, nous analysons théoriquement l'optimisation de la pensée parallèle dans le cadre de l'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR), et identifions que le goulot d'étranglement de l'information mutuelle entre les chemins d'exploration restreint fondamentalement les performances globales. Pour remédier à cela, nous proposons l'Exploration de Chemins Guidée par un Plan (OPE), qui partitionne explicitement l'espace des solutions en générant divers plans de raisonnement avant le raisonnement parallèle, réduisant ainsi la redondance informationnelle et améliorant la diversité des informations capturées à travers les chemins d'exploration. Nous implémentons OPE avec une stratégie de RL itérative qui optimise indépendamment la planification du plan et le raisonnement guidé par celui-ci. Des expériences approfondies sur plusieurs benchmarks mathématiques complexes démontrent qu'OPE améliore efficacement les performances de raisonnement avec différentes stratégies d'agrégation, permettant aux LRM de découvrir plus fiabilité les solutions correctes.
La planification est devenue une capacité centrale pour les systèmes d'agents contemporains afin de naviguer dans des tâches complexes à long terme. Pourtant, les approches existantes reposent principalement sur des structures de planification fixes et artisanales qui manquent de flexibilité pour s'adapter à la diversité structurelle des problèmes ouverts. Pour remédier à cette limitation, nous présentons TodoEvolve, un paradigme de méta-planification qui synthétise de manière autonome et révise dynamiquement des architectures de planification spécifiques aux tâches. Plus précisément, nous construisons d'abord PlanFactory, un espace de conception modulaire qui standardise divers paradigmes de planification au sein d'une base de code unifiée englobant la topologie, l'initialisation, l'adaptation et la navigation, fournissant ainsi une interface commune pour des modèles de planification hétérogènes. En tirant parti de PlanFactory, nous collectons des trajectoires de planification de haute qualité et entraînons Todo-14B via l'Optimisation des Préférences par Impédance Guidée (IGPO), un objectif d'apprentissage par renforcement multi-objectifs qui encourage la génération de systèmes de planification performants, stables et économes en tokens pour des tâches et architectures d'agents arbitraires. Les évaluations empiriques sur cinq benchmarks agentiques démontrent que TodoEvolve surpasse constamment les modules de planification soigneusement conçus tout en maintenant des coûts d'API et une surcharge d'exécution économiques.
Les méthodes de décomposition d'activation dans les modèles de langage sont étroitement liées à des hypothèses géométriques sur la manière dont les concepts se matérialisent dans l'espace d'activation. Les approches existantes recherchent des directions globales individuelles, supposant implicitement une séparabilité linéaire, ce qui néglige les concepts ayant une structure non linéaire ou multidimensionnelle. Dans ce travail, nous utilisons les Mélanges d'Analyseurs Factoriels (MFA) comme alternative non supervisée et évolutive, modélisant l'espace d'activation comme une collection de régions gaussiennes avec leur structure de covariance locale. Les MFA décomposent les activations en deux objets géométriques compositionnels : le centroïde de la région dans l'espace d'activation, et la variation locale par rapport à ce centroïde. Nous entraînons des MFA à grande échelle pour Llama-3.1-8B et Gemma-2-2B, et montrons qu'ils capturent des structures complexes et non linéaires dans l'espace d'activation. De plus, les évaluations sur des benchmarks de localisation et de pilotage montrent que les MFA surpassent les méthodes de référence non supervisées, sont compétitifs avec les méthodes de localisation supervisées, et obtiennent souvent de meilleures performances de pilotage que les autoencodeurs épars. Ensemble, nos résultats positionnent la géométrie locale, exprimée via des sous-espaces, comme une unité d'analyse prometteuse pour la découverte évolutive de concepts et le contrôle des modèles, en tenant compte des structures complexes que les directions isolées échouent à capturer.
La décodage par diffusion parallèle peut accélérer l'inférence des modèles de langage par diffusion en démasquant plusieurs tokens par étape, mais un parallélisme agressif nuit souvent à la qualité. Le décodage révocable atténue ce problème en revérifiant les tokens antérieurs, mais nous observons que les schémas de vérification existants déclenchent fréquemment des oscillations de bascule, où les tokens sont remasqués puis restaurés ultérieurement sans changement. Ce comportement ralentit l'inférence de deux manières : le remasquage des positions vérifiées affaiblit le contexte de conditionnement pour le drafting parallèle, et les cycles de remasquage répétés consomment le budget de révision avec peu de progrès net. Nous proposons COVER (Cache Override Verification for Efficient Revision), qui effectue une vérification leave-one-out et un drafting stable en une seule passe avant. COVER construit deux vues d'attention via le remplacement du cache KV : les tokens sélectionnés sont masqués pour la vérification, tandis que leurs états clés-valeurs en cache sont injectés pour toutes les autres requêtes afin de préserver l'information contextuelle, avec une correction diagonale de forme fermée empêchant la fuite d'auto-influence aux positions des tokens vérifiés. COVER priorise en outre les tokens à vérifier à l'aide d'un score de stabilité qui équilibre l'incertitude, l'influence en aval et la dérive du cache, et adapte le nombre de tokens vérifiés par étape. Sur divers benchmarks, COVER réduit notablement les révisions inutiles et permet un décodage plus rapide tout en préservant la qualité de la sortie.
Les grands modèles de langage (LLM) sont de plus en plus utilisés dans le développement logiciel, mais leur tendance à générer du code non sécurisé reste un obstacle majeur à leur déploiement réel. Les méthodes existantes d'alignement du code sécurisé souffrent souvent d'un paradoxe fonctionnalité-sécurité, améliorant la sécurité au prix d'une dégradation substantielle de l'utilité. Nous proposons SecCoderX, un cadre d'apprentissage par renforcement en ligne pour la génération de code sécurisé préservant la fonctionnalité. SecCoderX établit d'abord un pont entre la détection des vulnérabilités et la génération de code sécurisé en réutilisant des ressources de détection matures de deux manières : (i) en synthétisant des tâches de codage diverses et réalistes induisant des vulnérabilités pour les déploiements de RL en ligne, et (ii) en entraînant un modèle de récompense basé sur le raisonnement des vulnérabilités qui fournit une supervision de sécurité évolutive et fiable. Ensemble, ces composants sont unifiés dans une boucle de RL en ligne pour aligner les LLM de code afin de générer du code sécurisé et fonctionnel. Des expériences approfondies démontrent que SecCoderX atteint des performances de pointe, améliorant le Taux de Sécurité Efficace (ESR) d'environ 10 % par rapport aux modèles non alignés, tandis que les méthodes antérieures dégradent souvent l'ESR de 14 à 54 %. Nous publions notre code, notre jeu de données et nos points de contrôle de modèle à l'adresse https://github.com/AndrewWTY/SecCoderX.
Bien que le *flow matching* soit élégant, sa dépendance aux vitesses conditionnelles à un seul échantillon conduit à des cibles d'entraînement à haute variance qui déstabilisent l'optimisation et ralentissent la convergence. En caractérisant explicitement cette variance, nous identifions 1) un régime de haute variance près de l'a priori, où l'optimisation est difficile, et 2) un régime de faible variance près de la distribution des données, où les vitesses conditionnelles et marginales coïncident presque. En tirant parti de cette observation, nous proposons Stable Velocity, un cadre unifié qui améliore à la fois l'entraînement et l'échantillonnage. Pour l'entraînement, nous introduisons Stable Velocity Matching (StableVM), un objectif non biaisé de réduction de variance, ainsi que Variance-Aware Representation Alignment (VA-REPA), qui renforce de manière adaptative la supervision auxiliaire dans le régime de faible variance. Pour l'inférence, nous montrons que les dynamiques dans le régime de faible variance admettent des simplifications sous forme fermée, permettant Stable Velocity Sampling (StableVS), une accélération sans *finetuning*. Des expériences approfondies sur ImageNet 256×256 et de grands modèles pré-entraînés texte-à-image et texte-à-vidéo, incluant SD3.5, Flux, Qwen-Image et Wan2.2, démontrent des améliorations constantes de l'efficacité de l'entraînement et un échantillonnage plus de 2 fois plus rapide dans le régime de faible variance sans dégradation de la qualité des échantillons. Notre code est disponible à l'adresse https://github.com/linYDTHU/StableVelocity.
L'auto-correction est essentielle pour résoudre des problèmes de raisonnement complexes dans les modèles vision-langage (VLM). Cependant, les méthodes existantes d'apprentissage par renforcement (RL) peinent à l'apprendre, car les comportements efficaces d'auto-correction n'émergent que rarement, rendant les signaux d'apprentissage extrêmement clairsemés. Pour relever ce défi, nous proposons les déroulements spécifiques à la correction (Octopus), un cadre d'augmentation des déroulements RL qui synthétise des exemples d'auto-correction denses en recombinant des déroulements existants. Cette augmentation améliore simultanément l'efficacité de l'échantillonnage grâce à la réutilisation des déroulements et stabilise l'optimisation RL via une supervision équilibrée. De plus, nous introduisons une stratégie de masquage des réponses qui découple l'auto-correction du raisonnement direct, évitant les conflits de signaux et permettant aux deux comportements d'être appris efficacement. Sur cette base, nous présentons Octopus-8B, un VLM de raisonnement doté d'une capacité d'auto-correction contrôlable. Sur 7 benchmarks, il atteint des performances à l'état de l'art parmi les VLM open-source, surpassant la meilleure base de référence RLVR de 1,0 point tout en ne nécessitant que 0,72 fois le temps d'entraînement par étape.
Dans cet article, nous visons à établir un lien entre l'apprentissage au moment du test et un nouveau type de mémoire paramétrique pouvant être transférée ou fusionnée de manière flexible avec les paramètres du modèle. Nous présentons Locas, une mémoire paramétrique à support local qui partage la conception des blocs de réseaux feed-forward des transformeurs modernes, lui permettant d'être pérennisée de manière flexible dans les paramètres du modèle tout en supportant un apprentissage continu efficace. Nous discutons deux variantes majeures de Locas : l'une avec une conception MLP à deux couches classique, offrant une garantie théorique plus claire ; l'autre partage la même structure GLU-FFN que les LLMs à l'état de l'art, et peut être facilement intégrée aux modèles existants pour un apprentissage continu à la fois efficace en paramètres et en calcul. De manière cruciale, nous montrons qu'une initialisation correcte de ces mémoires latérales de type FFN à faible rang – réalisée de manière princippée en réutilisant les paramètres, les activations et/ou les gradients du modèle – est essentielle pour une convergence rapide, une meilleure généralisation et la prévention de l'oubli catastrophique. Nous validons le mécanisme de mémoire proposé sur les tâches de modélisation du langage sur livres entiers PG-19 et de question-réponse en dialogue à long contexte LoCoMo. Avec seulement 0,02 % de paramètres supplémentaires dans le cas le plus faible, Locas-GLU est capable de stocker les informations du contexte passé tout en maintenant une fenêtre de contexte beaucoup plus réduite. De plus, nous testons également la perte de capacité générale du modèle après avoir mémorisé le livre entier avec Locas, via une évaluation comparative MMLU. Les résultats démontrent la capacité prometteuse de Locas à pérenniser le contexte passé en connaissances paramétriques tout en minimisant l'oubli catastrophique des connaissances internes existantes du modèle.
Les agents de programmation basés sur LLM ont démontré de solides performances sur les benchmarks de résolution automatisée de problèmes, mais les évaluations existantes se concentrent largement sur la réussite finale des tâches, fournissant des insights limités sur la manière dont les agents récupèrent et utilisent le contexte du code pendant la résolution de problèmes. Nous présentons ContextBench, une évaluation orientée processus de la récupération de contexte dans les agents de programmation. ContextBench se compose de 1 136 tâches de résolution de problèmes issues de 66 dépôts couvrant huit langages de programmation, chacune étant enrichie de contextes de référence annotés manuellement. Nous implémentons en outre un cadre d'évaluation automatisé qui suit les trajectoires des agents et mesure le rappel, la précision et l'efficacité du contexte tout au long de la résolution des problèmes. En utilisant ContextBench, nous évaluons quatre LLM de pointe et cinq agents de programmation. Nos résultats montrent que les infrastructures sophistiquées d'agents n'apportent que des gains marginaux en récupération de contexte ("La Leçon Amère" des agents de programmation), que les LLM privilégient systématiquement le rappel au détriment de la précision, et qu'il existe un écart substantiel entre le contexte exploré et le contexte effectivement utilisé. ContextBench complète les benchmarks de bout en bout existants avec des métriques intermédiaires basées sur un contexte de référence, permettant de déconstruire le processus de résolution de problèmes. Ces contextes offrent des signaux intermédiaires précieux pour guider le raisonnement des LLM dans les tâches logicielles.
L'apprentissage par renforcement améliore considérablement le raisonnement des grands modèles de langage, mais il a aussi tendance à allonger les chaînes de raisonnement et à augmenter le coût computationnel lors de l'entraînement et de l'inférence. Bien que des méthodes de contrôle de la longueur aient été proposées, la longueur de sortie optimale pour équilibrer efficacité et performance reste incertaine. Dans ce travail, nous comparons plusieurs méthodes de contrôle de la longueur sur deux modèles, Qwen3-1.7B Base et DeepSeek-R1-Distill-Qwen-1.5B. Nos résultats indiquent que les pénalités de longueur peuvent entraver l'acquisition du raisonnement, tandis qu'un contrôle de longueur correctement ajusté peut améliorer l'efficacité pour les modèles dotés d'un fort raisonnement préalable. En étendant les travaux antérieurs aux politiques entraînées par RL, nous identifions deux modes d'échec : 1) les sorties longues augmentent la dispersion, et 2) les sorties courtes conduisent à un sous-raisonnement.
L'absence d'état des modèles de fondation constitue un goulot d'étranglement pour la capacité des systèmes agentiels à apprendre de manière continue, une capacité essentielle pour le raisonnement et l'adaptation à long terme. Pour remédier à cette limitation, les systèmes agentiels intègrent généralement des modules de mémoire pour conserver et réutiliser les expériences passées, visant un apprentissage continu pendant la phase de test. Cependant, la plupart des conceptions de mémoire existantes sont conçues manuellement et fixes, ce qui limite leur capacité à s'adapter à la diversité et à la non-stationnarité des tâches du monde réel. Dans cet article, nous présentons ALMA (Automated meta-Learning of Memory designs for Agentic systems), un cadre qui méta-apprend des conceptions de mémoire pour remplacer les conceptions manuelles, minimisant ainsi l'effort humain et permettant aux systèmes agentiels d'être des apprenants continus dans divers domaines. Notre approche emploie un Méta-Agent qui explore des conceptions de mémoire exprimées sous forme de code exécutable de manière ouverte, permettant théoriquement la découverte de conceptions de mémoire arbitraires, incluant les schémas de base de données ainsi que leurs mécanismes de récupération et de mise à jour. Des expériences approfondies dans quatre domaines de prise de décision séquentielle démontrent que les conceptions de mémoire apprises permettent un apprentissage plus efficace et efficient à partir de l'expérience que les conceptions de mémoire manuelles de pointe sur tous les benchmarks. Développé et déployé en toute sécurité, ALMA représente une étape vers des systèmes d'IA auto-améliorants qui apprennent à être adaptatifs et des apprenants continus.
Les agents IA dotés de capacités d'appel d'outils sont vulnérables aux attaques par injection indirecte de prompts (IPI). Dans ce scénario d'attaque, des commandes malveillantes dissimulées dans du contenu non sécurisé trompent l'agent pour qu'il exécute des actions non autorisées. Les défenses existantes peuvent réduire le taux de réussite des attaques, mais souffrent souvent du dilemme de la sur-défense : elles déploient une sanitisation coûteuse et permanente, indépendamment de la menace réelle, dégradant ainsi l'utilité et la latence même dans des scénarios bénins. Nous revisitons l'IPI sous l'angle de l'ablation causale : une injection réussie se manifeste par un changement de dominance où la requête utilisateur ne fournit plus un soutien décisif pour l'action privilégiée de l'agent, tandis qu'un segment non sécurisé particulier, comme un document récupéré ou une sortie d'outil, exerce une influence attribuable disproportionnée. Sur la base de cette signature, nous proposons CausalArmor, un framework de défense sélectif qui (i) calcule des attributions légères basées sur l'ablation leave-one-out aux points de décision privilégiés, et (ii) déclenche une sanitisation ciblée uniquement lorsqu'un segment non sécurisé domine l'intention utilisateur. De plus, CausalArmor utilise un masquage rétroactif de la Chaîne de Pensée pour empêcher l'agent d'agir sur des traces de raisonnement « empoisonnées ». Nous présentons une analyse théorique montrant que la sanitisation basée sur les marges d'attribution produit conditionnellement une borne supérieure exponentiellement petite sur la probabilité de sélectionner des actions malveillantes. Les expériences sur AgentDojo et DoomArena démontrent que CausalArmor égale la sécurité des défenses agressives tout en améliorant l'explicabilité et en préservant l'utilité et la latence des agents IA.
L'injection indirecte d'invites menace les agents LLM en intégrant des instructions malveillantes dans du contenu externe, permettant des actions non autorisées et le vol de données. Les agents LLM maintiennent une mémoire de travail via leur fenêtre de contexte, qui stocke l'historique des interactions pour la prise de décision. Les agents conventionnels accumulent de manière indiscriminée toutes les sorties d'outils et les traces de raisonnement dans cette mémoire, créant deux vulnérabilités critiques : (1) les instructions injectées persistent tout au long du flux de travail, offrant aux attaquants de multiples opportunités de manipulation, et (2) le contenu verbeux et non essentiel dégrade les capacités décisionnelles. Les défenses existantes considèrent la mémoire gonflée comme acquise et se concentrent sur la résilience, plutôt que de réduire l'accumulation inutile pour prévenir l'attaque. Nous présentons AgentSys, un cadre qui se défend contre l'injection indirecte d'invites via une gestion explicite de la mémoire. Inspiré par l'isolation de la mémoire des processus dans les systèmes d'exploitation, AgentSys organise les agents hiérarchiquement : un agent principal génère des agents travailleurs pour les appels d'outils, chacun s'exécutant dans un contexte isolé et pouvant générer des travailleurs imbriqués pour les sous-tâches. Les données externes et les traces des sous-tâches n'entrent jamais dans la mémoire de l'agent principal ; seules les valeurs de retour validées par schéma peuvent franchir les frontières via un parsing JSON déterministe. Des ablations montrent que l'isolation seule réduit le succès des attaques à 2,19 %, et l'ajout d'un validateur/nettoyeur améliore la défense avec des vérifications déclenchées par événements dont la surcharge évolue avec les opérations plutôt qu'avec la longueur du contexte. Sur AgentDojo et ASB, AgentSys atteint un taux de succès d'attaque de 0,78 % et 4,25 % tout en améliorant légèrement l'utilité bénigne par rapport aux bases non défendues. Il reste robuste face aux attaquants adaptatifs et sur plusieurs modèles de base, montrant que la gestion explicite de la mémoire permet des architectures d'agents LLM dynamiques et sécurisées. Notre code est disponible à l'adresse : https://github.com/ruoyaow/agentsys-memory.
Les modèles vision-langage (VLM) ont obtenu des performances impressionnantes dans la compréhension intermodale des entrées textuelles et visuelles, mais les benchmarks existants se concentrent principalement sur des requêtes en texte pur. Dans les scénarios réels, le langage apparaît également fréquemment sous forme de texte visualisé intégré dans des images, ce qui soulève la question de savoir si les VLM actuels traitent ces demandes d'entrée de manière comparable. Nous présentons VISTA-Bench, un benchmark systématique couvrant les domaines de la perception multimodale, du raisonnement et de la compréhension unimodale. Il évalue la compréhension du texte visualisé en confrontant des questions en texte pur et en texte visualisé dans des conditions de rendu contrôlées. Une évaluation approfondie de plus de 20 VLM représentatifs révèle un écart de modalité prononcé : les modèles qui performent bien sur les requêtes en texte pur voient souvent leurs performances se dégrader substantiellement lorsque le contenu sémantique équivalent est présenté sous forme de texte visualisé. Cet écart est encore amplifié par une difficulté perceptuelle accrue, mettant en évidence une sensibilité aux variations de rendu malgré une sémantique inchangée. Globalement, VISTA-Bench fournit un cadre d'évaluation principiel pour diagnostiquer cette limitation et pour guider les progrès vers des représentations linguistiques plus unifiées entre le texte tokenisé et les pixels. Le jeu de données source est disponible à l'adresse https://github.com/QingAnLiu/VISTA-Bench.
L'adaptation au moment du test (TTT) adapte les modèles de langage via des mises à jour par gradient lors de l'inférence. Mais l'adaptation est-elle la bonne stratégie ? Nous étudions les stratégies optimales en calcul au moment du test pour les tâches à ancrage exécutable vérifiable (VEG), des domaines comme l'optimisation de kernels GPU où un évaluateur déterministe fournit des signaux de récompense denses et continus. En utilisant KernelBench comme banc d'essai et un modèle de 120 milliards de paramètres (GPT-OSS-120B adapté par LoRA), nous constatons que la recherche surpasse l'adaptation minimale (1-5 pas de gradient) : l'échantillonnage Best-of-N atteint 90% de réussite aux tâches (18/20 tâches) à K=64 sur l'ensemble complet d'évaluation L1 de KernelBench, tandis que le meilleur checkpoint de TTT n'atteint que 30,6% (moyenne sur 3 seeds), le "K équivalent" de TTT étant inférieur à 1, c'est-à-dire pire que l'inférence sur un seul échantillon. Le mode d'échec est un affûtage excessif : les mises à jour par gradient réduisent la diversité vers des solutions médiocres plutôt que de découvrir les solutions optimales. Notre contribution principale est la sélection guidée par la surprisal : sélectionner l'échantillon correct avec la surprisal la plus élevée (confiance la plus faible) donne 80% de réussite contre 50% pour la sélection la plus confiante, soit une amélioration de 30%. Son extension aux 3 meilleurs selon la surprisal correspond aux performances d'un oracle à 100%. Cette stratégie sans coût supplémentaire, validée par une analyse contrôlée en longueur, permet d'atteindre les performances d'un oracle. Pour les tâches VEG à récompense dense, le calcul devrait être alloué à la diversité d'échantillonnage et à une sélection intelligente plutôt qu'à l'adaptation par gradient. Le principe de sélection guidée par la surprisal pourrait se généraliser à d'autres domaines à ancrage exécutable où les solutions optimales se situent dans la queue de la distribution.
Les modèles génératifs en temps continu, tels que les modèles de diffusion, le *flow matching* et le *rectified flow*, apprennent des champs de vecteurs dépendants du temps, mais sont généralement entraînés avec des objectifs qui traitent les pas de temps indépendamment, ce qui entraîne une variance élevée de l'estimateur et un échantillonnage inefficace. Les approches antérieures atténuent ce problème via des pénalités de régularisation explicites, une régularisation de trajectoire, ou des chemins de probabilité et solveurs modifiés. Nous introduisons la Consistance Temporelle des Paires (TPC), un principe léger de réduction de variance qui couple les prédictions de vitesse à des paires de pas de temps le long du même chemin de probabilité, opérant entièrement au niveau de l'estimateur sans modifier l'architecture du modèle, le chemin de probabilité ou le solveur. Nous fournissons une analyse théorique montrant que TPC induit une régularisation quadratique couplée à la trajectoire qui réduit de manière prouvée la variance du gradient tout en préservant l'objectif sous-jacent de *flow matching*. Instanciée dans le cadre du *flow matching*, TPC améliore la qualité et l'efficacité des échantillons sur CIFAR-10 et ImageNet à plusieurs résolutions, obtenant un FID plus faible à un coût de calcul identique ou inférieur aux méthodes précédentes, et s'étend de manière transparente aux pipelines modernes de type SOTA avec entraînement par augmentation de bruit, débruitage par score et *rectified flow*.
Les grands modèles de langage (LLM) sont de plus en plus déployés dans des domaines à haut risque, où des défaillances rares mais graves peuvent entraîner des préjudices irréversibles. Cependant, les benchmarks d'évaluation dominants réduisent souvent le risque social complexe à des scores scalaires centrés sur la moyenne, occultant ainsi la structure distributionnelle, les interactions transdimensionnelles et le comportement dans les pires cas. Cet article présente l'Analyse des Préjudices Sociaux par Profils de Risque (SHARP), un cadre d'évaluation multidimensionnelle et sensible à la distribution des préjudices sociaux. SHARP modélise le préjudice comme une variable aléatoire multivariée et intègre une décomposition explicite en biais, équité, éthique et fiabilité épistémique avec une agrégation par union de défaillances reparamétrée comme un log-risque cumulatif additif. Le cadre utilise en outre des statistiques distributionnelles sensibles au risque, avec la Valeur Conditionnelle au Risque (CVaR95) comme métrique principale, pour caractériser le comportement du modèle dans les pires cas. L'application de SHARP à onze LLM de pointe, évalués sur un corpus fixe de n=901 requêtes socialement sensibles, révèle que des modèles présentant un risque moyen similaire peuvent afficher des différences de plus du double dans l'exposition et la volatilité des queues de distribution. Pour l'ensemble des modèles, le comportement marginal des queues varie systématiquement selon les dimensions de préjudice : le biais présente les sévérités de queue les plus fortes, les risques épistémiques et d'équité occupant des régimes intermédiaires, et le défaut d'alignement éthique étant systématiquement plus faible ; ensemble, ces profils révèlent des structures de défaillance hétérogènes et dépendantes du modèle que les benchmarks scalaires amalgament. Ces résultats indiquent qu'une évaluation et une gouvernance responsables des LLM nécessitent de dépasser les moyennes scalaires pour s'orienter vers un profilage multidimensionnel du risque sensible aux queues de distribution.
Les déploiements modernes exigent que les LLM appliquent des politiques de sécurité à grande échelle, mais de nombreux contrôles reposent sur des interventions au moment de l'inférence qui ajoutent des coûts de calcul récurrents et une complexité de service. Le pilotage par activation est largement utilisé, mais il nécessite des hooks d'exécution et son coût augmente avec le nombre de générations ; les variantes conditionnelles améliorent la sélectivité en conditionnant l'application du pilotage, mais conservent néanmoins un chemin de contrôle à l'inférence. Nous nous demandons si le refus sélectif peut être entièrement déplacé hors ligne : une compréhension mécanistique du refus spécifique à une catégorie peut-elle être distillée en une mise à jour des poids restreinte à un circuit, qui se déploie comme un point de contrôle standard ? Nous proposons C-Δθ : l'arithmétique des poids restreinte au circuit, qui (i) localise le calcul causal du refus sous la forme d'un circuit parcimonieux en utilisant EAP-IG et (ii) calcule une mise à jour contrainte des poids ΔθC supportée uniquement sur ce circuit (généralement <5 % des paramètres). L'application de ΔθC produit un point de contrôle modifié prêt à l'emploi sans hooks d'inférence, déplaçant le coût d'une intervention par requête vers une mise à jour hors ligne unique. Nous évaluons la sélectivité ciblée par catégorie et la rétention des capacités sur des benchmarks de refus et d'utilité.
Avec le déploiement généralisé d'Agents Informatiques (AI) dans des environnements réels complexes, les risques à long terme prévalents entraînent souvent des conséquences graves et irréversibles. La plupart des garde-fous existants pour les AI adoptent une approche réactive, limitant le comportement de l'agent uniquement dans l'espace d'observation actuel. Bien que ces garde-fous puissent prévenir les risques immédiats à court terme (par exemple, cliquer sur un lien de phishing), ils ne peuvent pas éviter proactivement les risques à long terme : des actions apparemment raisonnables peuvent conduire à des conséquences à haut risque qui émergent avec un délai (par exemple, nettoyer les journaux rend les futures audits intraçables), ce que les garde-fous réactifs ne peuvent pas identifier dans l'espace d'observation actuel. Pour remédier à ces limitations, nous proposons une approche de garde-fou prédictif, dont l'idée centrale est d'aligner les risques futurs prédits avec les décisions actuelles. Sur la base de cette approche, nous présentons SafePred, un cadre de garde-fou prédictif pour les AI qui établit une boucle risque-décision pour garantir un comportement sécurisé de l'agent. SafePred prend en charge deux capacités clés : (1) La prédiction des risques à court et long terme : en utilisant les politiques de sécurité comme base pour la prédiction des risques, SafePred exploite la capacité de prédiction du modèle mondial pour générer des représentations sémantiques des risques à court et long terme, identifiant et élaguant ainsi les actions conduisant à des états à haut risque ; (2) L'optimisation des décisions : traduire les risques prédits en guides de décision sécurisés exploitables grâce à des interventions au niveau des étapes et une re-planification au niveau des tâches. Des expériences approfondies montrent que SafePred réduit significativement les comportements à haut risque, atteignant plus de 97,6 % de performance en matière de sécurité et améliorant l'utilité des tâches jusqu'à 21,4 % par rapport aux bases réactives.
L'exploitation des encodeurs de représentation pour la modélisation générative offre une voie vers une synthèse efficace et de haute fidélité. Cependant, les transformers à diffusion standards échouent à converger directement sur ces représentations. Si des travaux récents attribuent cet échec à un goulot d'étranglement de capacité, proposant un accroissement coûteux en calcul de la largeur des transformers à diffusion, nous démontrons que l'échec est fondamentalement géométrique. Nous identifions l'**Interférence Géométrique** comme la cause racine : l'appariement de flux euclidien standard force les trajectoires de probabilité à traverser l'intérieur à faible densité de l'espace de caractéristiques hypersphérique des encodeurs de représentation, au lieu de suivre la surface de la variété. Pour résoudre ce problème, nous proposons l'**Appariement de Flux Riemannien avec Régularisation de Jacobi (RJF)**. En contraignant le processus génératif aux géodésiques de la variété et en corrigeant la propagation d'erreur induite par la courbure, RJF permet aux architectures standard de Transformer à Diffusion de converger sans mise à l'échelle de la largeur. Notre méthode RJF permet à l'architecture DiT-B standard (131 millions de paramètres) de converger efficacement, atteignant un FID de 3,37 là où les méthodes précédentes échouaient à converger. Code : https://github.com/amandpkr/RJF
L'exécution de LLMs avec un raisonnement étendu sur chaque problème est coûteuse, mais déterminer quelles entrées nécessitent réellement une puissance de calcul supplémentaire reste un défi. Nous étudions si la probabilité de leur propre succès est récupérable à partir de leurs représentations internes avant la génération, et si ce signal peut guider une inférence plus efficace. Nous entraînons des sondes linéaires sur les activations pré-génération pour prédire le succès spécifique à la politique sur des tâches de mathématiques et de codage, surpassant nettement les caractéristiques de surface telles que la longueur de la question et TF-IDF. En utilisant E2H-AMC, qui fournit les performances humaines et du modèle sur des problèmes identiques, nous montrons que les modèles codent une notion de difficulté spécifique au modèle, distincte de la difficulté humaine, et que cette distinction augmente avec le raisonnement étendu. En tirant parti de ces sondes, nous démontrons que l'acheminement des requêtes à travers un pool de modèles peut surpasser le modèle le plus performant tout en réduisant le coût d'inférence jusqu'à 70 % sur MATH, montrant que les représentations internes permettent des gains d'efficacité pratiques même lorsqu'elles divergent des intuitions humaines sur la difficulté. Notre code est disponible à l'adresse : https://github.com/KabakaWilliam/llms_know_difficulty
Le clustering de graphes attribués (AGC) est une tâche non supervisée fondamentale qui intègre la topologie structurelle et les attributs des nœuds pour découvrir des motifs latents dans les données structurées en graphes. Malgré son importance dans des applications industrielles telles que la détection de fraude et la segmentation d'utilisateurs, un fossé important persiste entre la recherche académique et le déploiement en conditions réelles. Les protocoles d'évaluation actuels souffrent de l'utilisation de jeux de données de citations de petite taille et à forte homophilie, de paradigmes d'entraînement non extensibles par lots complets, et d'une dépendance aux métriques supervisées qui ne reflètent pas les performances dans des environnements pauvres en étiquettes. Pour combler ces lacunes, nous présentons PyAGC, un benchmark et une bibliothèque complets, prêts pour la production, conçus pour tester rigoureusement les méthodes AGC à diverses échelles et propriétés structurelles. Nous unifions les méthodologies existantes dans un cadre modulaire Encode-Cluster-Optimiser et, pour la première fois, fournissons des implémentations efficaces en mémoire par mini-lots pour un large éventail d'algorithmes AGC de pointe. Notre benchmark rassemble 12 jeux de données variés, allant de 2,7K à 111M de nœuds, incorporant spécifiquement des graphes industriels avec des caractéristiques tabulaires complexes et une faible homophilie. De plus, nous préconisons un protocole d'évaluation holistique qui impose des métriques structurelles non supervisées et un profilage de l'efficacité parallèlement aux métriques supervisées traditionnelles. Testé en conditions réelles dans des workflows industriels critiques au sein d'Ant Group, ce benchmark offre à la communauté une plateforme robuste, reproductible et évolutive pour faire progresser la recherche en AGC vers un déploiement réaliste. Le code et les ressources sont disponibles publiquement via GitHub (https://github.com/Cloudy1225/PyAGC), PyPI (https://pypi.org/project/pyagc) et la Documentation (https://pyagc.readthedocs.io).
La simulation est devenue un outil essentiel pour la formation et l'évaluation des robots domestiques à grande échelle. Pourtant, les environnements existants ne parviennent pas à capturer la diversité et la complexité physique des espaces intérieurs réels. Les méthodes actuelles de synthèse de scènes produisent des pièces meublées de manière éparse, dépourvues de l'encombrement dense, du mobilier articulé et des propriétés physiques essentielles à la manipulation robotique. Nous présentons SceneSmith, un cadre agentiel hiérarchique qui génère des environnements intérieurs prêts pour la simulation à partir d'invites en langage naturel. SceneSmith construit des scènes par étapes successives – de la conception architecturale au placement des meubles, jusqu'au peuplement des petits objets – chaque étape étant mise en œuvre via une interaction entre des agents de modèles de vision par calculateur (VLM) : un concepteur, un critique et un orchestrateur. Le cadre intègre étroitement la génération d'actifs via la synthèse texte-3D pour les objets statiques, la récupération de jeux de données pour les objets articulés et l'estimation des propriétés physiques. SceneSmith génère 3 à 6 fois plus d'objets que les méthodes antérieures, avec moins de 2 % de collisions entre objets et 96 % des objets restant stables sous simulation physique. Dans une étude utilisateur menée auprès de 205 participants, il obtient des taux de préférence moyens de 92 % pour le réalisme et de 91 % pour la fidélité à l'invite par rapport aux méthodes de référence. Nous démontrons en outre que ces environnements peuvent être utilisés dans un pipeline de bout en bout pour l'évaluation automatique des politiques robotiques.