Articles de recherche IA sélectionnés quotidiennement avec traductions
La capacité de contexte ultra-long devient indispensable pour les LLMs de pointe : les workflows agentiques, le raisonnement de code à l'échelle d'un dépôt et la mémoire persistante exigent tous que le modèle assure une attention conjointe sur des centaines de milliers à des millions de tokens, mais le coût quadratique de l'attention softmax rend cette approche irréalisable à l'échelle du déploiement. Nous présentons MiniMax Sparse Attention (MSA), une attention creuse par blocs construite sur l'Attention par Requêtes Groupées (GQA). Une Branche d'Index légère score les blocs clé-valeur et sélectionne indépendamment un sous-ensemble Top-k pour chaque groupe GQA, permettant une récupération creuse propre à chaque groupe tout en maintenant une exécution efficace au niveau du bloc ; la Branche Principale effectue ensuite une attention creuse exacte par blocs uniquement sur les blocs sélectionnés. Conçue autour d'un principe de simplicité et d'évolutivité, MSA est délibérément simplifiée, ce qui la rend directement déployable sur un large éventail de GPU. Pour traduire la parcimonie en gains de vitesse pratiques, nous co-concevons MSA avec un chemin d'exécution GPU utilisant une sélection Top-k sans exponentielle et une attention creuse KV-outer afin d'améliorer l'utilisation des cœurs tensoriels sous un accès granulaire par blocs. Sur un modèle de 109 milliards de paramètres avec apprentissage multimodal natif, MSA offre des performances équivalentes à GQA tout en réduisant le calcul d'attention par token de 28,4x pour un contexte de 1M. Associée à notre noyau co-conçu, MSA atteint des accélérations en temps réel de 14,2x pour le préremplissage et de 7,6x pour le décodage sur H800. Notre noyau d'inférence est disponible à l'adresse : https://github.com/MiniMax-AI/MSA. Un modèle multimodal natif de qualité production, propulsé par MSA, a été publié publiquement à l'adresse : https://huggingface.co/MiniMaxAI/MiniMax-M3.
Les agents basés sur de grands modèles de langage (LLM) ont obtenu d'excellentes performances sur un large éventail de benchmarks, mais la plupart des évaluations supposent des environnements statiques. En revanche, le déploiement dans le monde réel est intrinsèquement dynamique, exigeant que les agents alignent continuellement leurs connaissances, compétences et comportements sur des environnements changeants et des conditions de tâches mises à jour. Pour combler cette lacune, nous introduisons EvoArena, une suite de benchmarks qui modélise les changements environnementaux sous forme de séquences de mises à jour progressives couvrant les domaines terminal, logiciel et social. Nous proposons également EvoMem, un paradigme de mémoire basé sur des correctifs qui enregistre l'évolution de la mémoire sous forme d'historiques de mises à jour structurés, permettant aux agents de raisonner sur l'évolution environnementale à travers les changements de leur mémoire. Les expériences montrent que les agents actuels peinent sur EvoArena, atteignant une précision moyenne de 39,6 % dans les domaines évolutifs terminal, logiciel et de préférences sociales. EvoMem améliore systématiquement les performances, avec un gain moyen de 1,5 % sur EvoArena et améliore également des benchmarks standards tels que GAIA et LoCoMo de 6,1 % et 4,8 %. Au-delà des tâches individuelles, EvoMem améliore également la précision au niveau des chaînes de 3,7 % sur EvoArena, où le succès nécessite d'accomplir une séquence consécutive de sous-tâches évolutives liées. Une analyse mécaniste montre qu'EvoMem améliore la capture des preuves dans la mémoire, indiquant une meilleure préservation des états complets des environnements en évolution. Nos résultats soulignent l'importance de modéliser l'évolution tant dans l'évaluation que dans la mémoire pour un déploiement fiable des agents.
Les agents d'utilisation d'ordinateur (CUA) opèrent de plus en plus dans des environnements d'exécution combinant le contrôle visuel du bureau, l'exécution en ligne de commande, l'édition de code, les navigateurs et les outils externes. Les benchmarks existants, cependant, évaluent souvent ces interfaces comme des capacités séparables, laissant l'orchestration inter-interface à long horizon sous-testée. Ainsi, nous introduisons WeaveBench, un benchmark à interface hybride à long horizon comprenant 114 tâches couvrant 8 domaines de travail réels, ancrées dans des demandes utilisateur authentiques et des artefacts vérifiables publiquement. Chaque tâche exige que les agents combinent observations/actions GUI avec opérations CLI/code au sein d'une même trajectoire. Nous évaluons ces tâches sur un bureau Ubuntu réel au sein d'environnements d'exécution d'agents CLI déployés, augmentés d'un plugin minimal de contrôle de bureau. Nous proposons également un juge compagnon sensible à la trajectoire, qui inspecte les livrables, fichiers, captures d'écran, journaux et traces d'actions, tout en détectant les comportements de contournement tels que les preuves visuelles fabriquées ou les métriques codées en dur. Pour les couplages modèle-environnement d'exécution de pointe, le meilleur taux de réussite n'atteint que 41,2 %, montrant que le benchmark reste loin d'être saturé. Le juge sensible à la trajectoire révèle en outre que l'évaluation basée uniquement sur les résultats surestime considérablement les performances des agents. Globalement, WeaveBench expose un fossé critique dans l'évaluation des CUA et fournit un banc d'essai efficace pour mesurer si les agents peuvent orchestrer des opérations GUI, CLI et code sur des tâches du monde réel à long horizon.
Le raisonnement spatial, c’est-à-dire la capacité à déterminer où se trouvent les objets, comment ils interagissent et comment ils se déplacent en 3D, demeure un défi fondamental pour les modèles vision-langage (VLM). Les agents augmentés par des outils tentent d’y remédier en enrichissant les VLM de modules de perception spécialisés, mais leur efficacité est limitée par l’interface d’action à travers laquelle ces outils sont invoqués. Dans ce travail, nous étudions comment la conception de cette interface façonne la capacité de l’agent à effectuer un raisonnement spatial ouvert (open-ended). Les agents spatiaux actuels utilisent soit une exécution de code en un seul passage, qui s’engage dans une stratégie d’analyse complète avant d’observer un résultat intermédiaire, soit une interface structurée d’appels d’outils qui offre souvent moins de flexibilité pour composer librement des opérations ou adapter l’analyse à chaque tâche. Ces deux conceptions offrent une flexibilité limitée pour un raisonnement spatial 3D/4D ouvert et complexe. Nous proposons donc SpatialClaw, un cadre sans apprentissage (training-free) pour le raisonnement spatial qui adopte le code comme interface d’action. SpatialClaw maintient un noyau Python avec état, préchargé avec les images d’entrée et une suite de primitives de perception et de géométrie, permettant à un agent propulsé par un VLM d’écrire une cellule exécutable par étape, en fonction de toutes les sorties antérieures. Cela permet à l’agent de composer et de manipuler flexiblement les résultats de perception et d’adapter son analyse aux observations textuelles et visuelles intermédiaires ainsi qu’aux exigences de chaque problème. Évalué sur 20 benchmarks de raisonnement spatial couvrant un large éventail de tâches statiques et dynamiques de raisonnement spatial 3D/4D, SpatialClaw atteint une précision moyenne de 59,9 %, surpassant le récent agent spatial de +11,2 points, avec des gains constants sur six architectures VLM issues de deux familles de modèles, sans aucune adaptation spécifique au benchmark ou au modèle.
Nous présentons MaxProof, un cadre de mise à l’échelle au niveau de la population en phase de test pour la preuve mathématique de niveau compétition, dans la série MiniMax-M3. M3 entraîne d’abord trois capacités orientées vers la preuve — génération de preuves, vérification de preuves et réparation de preuves conditionnée par une critique — à l’aide d’un vérificateur génératif à défense en profondeur conçu pour un faible taux de faux positifs. Ces capacités sont fusionnées en un seul modèle M3 publié. En phase de test, MaxProof traite le modèle comme un générateur, un vérificateur, un raffineur et un classeur, explore une population de preuves candidates, et renvoie une preuve finale via une sélection par tournoi. Grâce à la mise à l’échelle en phase de test de MaxProof, le modèle M3 atteint 35/42 aux Olympiades Internationales de Mathématiques 2025 et 36/42 aux Olympiades de Mathématiques des États-Unis 2026, dépassant le seuil de la médaille d’or humaine dans les deux cas.
Les générateurs d'images récents ont démontré un photoréalisme impressionnant et une capacité à suivre des instructions dans la génération et l'édition d'images uniques. Cependant, en raison des contraintes de leurs architectures, ils ne parviennent pas à réaliser une génération entrelacée (séquence texte-image), pourtant cruciale dans les applications de récits visuels, de guidage et de manipulation incarnée. Même les derniers modèles multimodaux unifiés (UMM) open source affichent des performances limitées à cet égard. Dans cet article, nous présentons InterleaveThinker, le premier pipeline multi-agent conçu pour doter tout générateur d'images existant de capacités de génération entrelacée. Plus précisément, nous utilisons un agent planificateur pour organiser la séquence d'entrée image-texte, en indiquant au générateur d'images les opérations à exécuter à chaque étape. Ensuite, nous introduisons un agent critique pour évaluer les sorties du générateur, identifier les échantillons qui s'écartent des instructions planifiées et affiner les instructions pour une nouvelle génération. Pour mettre en œuvre ce pipeline, nous construisons les ensembles Interleave-Planner-SFT-80k et Interleave-Critic-SFT-112k afin d'effectuer un démarrage à froid du format. Puis nous développons Interleave-Critic-RL-13k pour renforcer la capacité de correction d'instructions par étapes au sein d'une trajectoire de génération à l'aide de GRPO. Étant donné qu'une seule trajectoire de génération entrelacée peut impliquer plus de 25 appels au générateur, l'optimisation de l'ensemble de la trajectoire n'est pas réalisable sur le plan computationnel. Par conséquent, nous proposons une récompense de précision et une récompense par étapes, permettant à l'apprentissage par renforcement en une seule étape de guider efficacement l'ensemble de la trajectoire de génération. Les résultats montrent qu'InterleaveThinker améliore les performances de divers générateurs d'images. Sur les benchmarks de génération entrelacée, il atteint des performances comparables à Nano Banana et GPT-5. Étonnamment, il améliore également significativement le modèle de base sur les benchmarks basés sur le raisonnement ; par exemple, sur 4-step FLUX.2-klein, nous observons des gains substantiels sur WISE et RISE.
Les Modèles de Langage Multimodaux à Grande Échelle (MLLMs) ont démontré un succès remarquable dans la compréhension visuelle, mais leurs performances se dégradent significativement face aux corruptions visuelles du monde réel. Bien qu'il existe des approches existantes pour améliorer la robustesse, elles sont limitées : l'alignement des caractéristiques en boîte noire manque d'interprétabilité, et le raisonnement textuel en boîte blanche ne peut pas restaurer les détails perdus au niveau des pixels. Ce travail examine une question fondamentale de recherche : les MLLMs peuvent-ils récupérer par eux-mêmes le contenu visuel corrompu ? Pour y répondre, nous proposons Robust-U1, un nouveau cadre qui dote les MLLMs d'une capacité explicite d'auto-récupération visuelle pour une compréhension robuste. L'approche comprend trois étapes principales : un ajustement fin supervisé pour la reconstruction initiale, un apprentissage par renforcement avec des récompenses doubles (SSIM au niveau des pixels et similarité CLIP au niveau sémantique) pour aligner une haute qualité visuelle, et un raisonnement multimodal qui considère conjointement l'entrée corrompue et l'image restaurée. Des expériences approfondies montrent que Robust-U1 atteint une robustesse de pointe sur le banc d'essai de corruptions réelles et maintient des performances supérieures sous des corruptions adversaires sur des bancs d'essai VQA généraux. L'analyse confirme qu'une récupération visuelle de haute qualité améliore directement les performances de raisonnement, établissant l'auto-récupération comme un mécanisme critique pour une compréhension visuelle robuste. Le code source est disponible à l'adresse https://github.com/jqtangust/Robust-U1.
L’entraînement d’agents de recherche profonde nécessite des questions vérifiables dont les réponses restent indisponibles jusqu’à ce qu’assez de preuves aient été acquises par la recherche. Les méthodes de synthèse existantes augmentent souvent la difficulté apparente en enrichissant les structures de graphes, mais la complexité structurelle seule ne garantit pas une difficulté de recherche réalisée : le processus de recherche prévu peut s’effondrer par une voie d’identification moins coûteuse. Nous formalisons cet écart avec un cadre de difficulté tenant compte des raccourcis et identifions quatre risques de raccourci exploitables : la couverture conjointe des preuves, la sélectivité d’indice unique, les constantes exposées et la liaison de connaissances préalables. Pour diagnostiquer leurs effets réalisés, nous utilisons des signatures de trajectoire incluant le coût de résolution, le temps d’obtention de la réponse et le taux de raccourci préalable. Guidés par ce cadre, nous présentons FORT, un Cadre de synthèse de données d’entraînement résistantes aux raccourcis. FORT construit des données d’entraînement résistantes aux raccourcis en contrôlant les risques de raccourci à travers la sélection d’entités, la construction de graphe de preuves, la formulation de questions et le raffinement contradictoire. Les expériences montrent que FORT induit une recherche plus longue avant la réponse et moins de motifs de raccourci que les ensembles de données de recherche profonde open-source existants. En utilisant les trajectoires résultantes, nous entraînons FORT-Searcher uniquement par ajustement supervisé fin (SFT), et il obtient la meilleure performance globale parmi les agents de recherche open-source de taille comparable sur des benchmarks de recherche profonde exigeants. Les ressources pertinentes seront mises à disposition sur https://github.com/RUCAIBox/FORT-Searcher.
Les laboratoires scientifiques s'appuient de plus en plus sur des systèmes d'IA pour raisonner sur les expériences, mais l'acte physique de faire de la science reste largement hors de leur portée. L'IA peut aider à lire la littérature, générer des hypothèses et planifier des protocoles, mais l'exécution de ces protocoles sur la paillasse nécessite encore un opérateur humain. Les modèles Vision-Langage-Action (VLA) offrent une interface possible entre les protocoles écrits et l'exécution robotique, mais les politiques existantes sont principalement entraînées sur des démonstrations domestiques et de table, et rencontrent rarement les instruments, les liquides transparents ou les workflows protocolaires fixes que l'on trouve dans les laboratoires scientifiques. Combler cet écart nécessite à la fois une supervision spécifique au laboratoire et un cadre d'apprentissage unifié capable d'accueillir les diverses incarnations robotiques utilisées pour exécuter des protocoles expérimentaux. Nous identifions donc les données et l'incarnation comme des goulots d'étranglement centraux, aux côtés de la conception du modèle. Pour résoudre le problème des données, nous construisons RoboGenesis, un workflow basé sur la simulation et un moteur de données qui compose des workflows de laboratoire configurés à partir de compétences atomiques, valide et filtre les déploiements, et exporte des démonstrations structurées pour les profils robotiques pris en charge. Du côté de la politique, nous présentons LabVLA, entraîné selon une recette en deux étapes : le pré-entraînement par jetons d'action FAST rend d'abord le backbone Qwen3-VL-4B-Instruct conscient des actions avant tout apprentissage de contrôle continu, puis le post-entraînement par appariement de flux attache un expert en actions DiT sous isolation des connaissances. Sur le référentiel LabUtopia, LabVLA atteint le taux de réussite moyen le plus élevé parmi toutes les lignes de base évaluées, tant dans les configurations intra-distribution que hors distribution.
Le décodage spéculatif (DS) répond aux coûts d'inférence élevés des LLM en permettant à des modèles légers de générer des candidats que de grands vérificateurs valident en parallèle. Les méthodes existantes de vérification par ébauche utilisent des décisions binaires : accepter ou recalculer entièrement. Cependant, nous constatons que de nombreux tokens rejetés peuvent être vérifiés correctement par un sous-modèle allégé dérivé du vérificateur complet via un routage intra-modèle, plutôt que par le vérificateur complet. Cela motive notre vérificateur allégé pour traiter les tokens nécessitant des ressources de vérification modérées, réduisant ainsi les coûteux appels au grand modèle. Nous proposons VIA-SD (Verification via Intra-Model Routing for Speculative Decoding), un cadre multi-niveaux utilisant un vérificateur allégé routé. Les tokens de l'ébauche sont traités hiérarchiquement : acceptation directe pour les cas à haute confiance, régénération par le vérificateur allégé pour les cas à confiance moyenne, et vérification par le modèle complet pour les cas incertains. Sur quatre tâches représentatives et plusieurs familles de modèles, VIA-SD réduit les taux de rejet de 0,10 à 0,22 et offre des accélérations de 10 à 20 % par rapport aux bases de DS solides, tout en atteignant une accélération de 2,5 à 3 fois par rapport au décodage sans ébauche. De plus, VIA-SD est compatible avec les cadres DS existants sans modifier leurs procédures d'entraînement. Nos résultats suggèrent que le DS multi-niveaux constitue un paradigme général pour une inférence LLM évolutive et efficace. Page du projet : https://zju-xyc.github.io/VIA-SD-Project-Page/
La fusion d'images multimodales vise à intégrer des informations complémentaires provenant de différentes modalités en une image fusionnée qui préserve des détails locaux riches tout en maintenant une apparence globalement cohérente. Les approches existantes construisent des représentations partagées sur des grilles de caractéristiques 2D, excellentes pour modéliser les structures locales mais offrant une prise limitée sur les facteurs d'apparence globaux à l'échelle de l'image. Pour équilibrer ces objectifs, nous introduisons une interface compacte de jetons 1D basée sur un tokenizer d'images pré-entraîné et figé, pour modéliser les facteurs d'apparence/de base non locaux. Au lieu d'utiliser le tokenizer comme base de reconstruction, notre conception utilise l'espace de jetons 1D comme support global tout en conservant la voie spatiale 2D pour la restauration des structures locales. Plus précisément, nous introduisons l'édition sélective de jetons (Selective Token Editing, STE), qui met à jour/remplace de manière parcimonieuse un petit ensemble de jetons critiques, offrant un mécanisme léger pour orienter la cohérence globale de l'apparence tout en laissant la base de fusion inchangée et en évitant des pertes supplémentaires. Les expériences sur quatre bancs d'essai couramment utilisés montrent que notre méthode atteint les meilleures performances globales, avec des améliorations cohérentes et multi-métriques tant en cohérence globale qu'en fidélité locale. Page du projet : https://zju-xyc.github.io/1D-Fusion-Project-Page/
Les tokeniseurs visuels holistiques sont fondamentaux pour les modèles multimodaux unifiés (UMM) car ils projettent des entrées visuelles diverses dans un espace de représentation unifié. Dans cet article, nous présentons HYDRA-X, le premier UMM qui unifie la tokenisation des images et des vidéos au sein d'un unique Vision Transformer (ViT). Notre conception est motivée par deux défis principaux : injecter efficacement une capacité de reconstruction spatiotemporelle dans un ViT natif, et intégrer une conscience sémantique à la fois au niveau de l'image et de la vidéo dans l'espace latent. Pour relever le premier défi, des ablations exhaustives révèlent deux résultats clés : (1) une attention temporelle causale au niveau des trames suffit pour la reconstruction visuelle, tandis qu'une attention spatiotemporelle complète la dégrade ; et (2) une compression temporelle hiérarchique surpasse nettement les alternatives en une seule étape. Pour aborder le second défi, nous proposons un décompresseur léger qui sur-échantillonne les caractéristiques temporellement compressées sous une supervision conjointe par un enseignant image-vidéo, imposant ainsi des structures sémantiques complémentaires au sein de l'espace latent compact. En nous appuyant sur ce tokeniseur holistique, nous proposons en outre une amélioration raisonnée du pipeline d'édition : l'interaction source-cible devrait se produire au niveau latent à l'intérieur du tokeniseur plutôt qu'au niveau sémantique à l'intérieur du LLM, améliorant considérablement la cohérence de l'édition et accélérant la convergence. Instancié dans un modèle dense de 7 milliards de paramètres, HYDRA-X atteint des performances solides sur des tâches de compréhension et de génération d'images et de vidéos, ouvrant la voie à de futurs UMM à tokeniseur unifié.
Les agents basés sur les modèles de langage (LLM) montrent un potentiel croissant pour automatiser la découverte scientifique. Dotés d'une métrique optimisable et d'un environnement d'exécution, ils peuvent proposer, valider et itérer des solutions scientifiques, et ont produit des résultats surpassant les approches conçues par des humains. Alors que les capacités des modèles continuent de s'améliorer, nous soutenons que le goulot d'étranglement pour la découverte scientifique autonome se déplace de la prescription de flux de travail d'agents vers la conception d'environnements d'agents : les ressources, contraintes et interfaces qui façonnent le comportement des agents. Nous cadrons cela comme de l'ingénierie d'environnement : construire des environnements qui amplifient les comportements productifs, tels que l'exploration ouverte, la gestion systématique des artefacts et la collaboration inter-agents, tout en supprimant les comportements nuisibles, comme le piratage de récompenses (reward hacking) et une supervision humaine à friction élevée. Nous présentons EurekAgent, un système d'agents basé sur l'ingénierie d'environnement pour la découverte scientifique autonome pilotée par métrique. EurekAgent conçoit l'environnement selon quatre dimensions : l'ingénierie des permissions pour une exécution bornée des agents et une évaluation isolée ; l'ingénierie des artefacts pour la collaboration basée sur le système de fichiers et Git ; l'ingénierie budgétaire pour une exploration tenant compte du budget ; et l'ingénierie du boucle humaine (human-in-the-loop) pour une supervision et une intervention humaines faciles. EurekAgent établit de nouveaux résultats de pointe sur plusieurs tâches en mathématiques, ingénierie de noyaux (kernel engineering) et apprentissage automatique, y compris de nouveaux résultats de pointe pour l'empilement de 26 cercles, découverts pour un coût total d'API inférieur à 11 $. Nous publions notre code et nos résultats en open source, et appelons à faire de l'ingénierie d'environnement une direction de recherche centrale pour développer des agents de recherche autonomes fiables.
Le succès des grands modèles de langage dans le raisonnement mathématique repose fortement sur la génération de chemins de résolution diversifiés et valides durant la phase de rollout. Cependant, les techniques actuelles de rollout sont confrontées à un compromis fondamental : l'échantillonnage au niveau des jetons produit souvent des trajectoires redondantes qui ne diffèrent que par la reformulation, tandis que les méthodes au niveau des embeddings utilisant du bruit aléatoire perturbent fréquemment la cohérence sémantique. Pour résoudre ce problème, nous présentons N-GRPO, une nouvelle stratégie d'exploration intégrée dans le cadre de l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO). Plutôt que de recourir à un échantillonnage au niveau des jetons ou à un bruit natif au niveau des embeddings, notre approche exploite le mélange de voisins sémantiques (Semantic Neighbor Mixing). Ce mécanisme construit dynamiquement des représentations d'entrée en mélangeant les embeddings d'un jeton d'ancrage et de ses voisins sémantiques les plus proches, injectant ainsi de la diversité tout en respectant strictement la variété sémantique locale. Les évaluations expérimentales sur les modèles DeepSeek-R1-Distill-Qwen de différentes tailles montrent que N-GRPO non seulement obtient des améliorations constantes par rapport à des bases de référence solides sur des benchmarks de raisonnement mathématique, mais présente également des capacités de généralisation robustes sur des tâches hors distribution.
La chaîne de pensée latente comprime le raisonnement en remplaçant les traces de raisonnement visibles par une récurrence continue d'états cachés, mais les formulations existantes sont difficiles à optimiser avec l'apprentissage par renforcement (RL) standard sur politique et difficiles à interpréter de manière causale. Notre idée clé est qu'une seule paire de jetons de délimitation explicites peut résoudre les deux problèmes à la fois : des ancres d'entrée et de sortie discrètes rendent le bloc latent compatible avec le RL standard sur politique, et les mêmes ancres offrent un point d'appui naturel pour l'analyse mécaniste. Motivés par cela, nous proposons SWITCH, un cadre de raisonnement latent commutable. Le modèle émet <swi> pour entrer en mode latent et </swi> pour en sortir. Comme les délimitations sont des jetons discrets ordinaires, le ratio de politique GRPO est bien défini à chaque point de décision. Les mêmes ancres exposent également les étapes latentes à des sondages directs et à des interventions causales. Nous entraînons le modèle avec un curriculum visible-à-latent et un objectif Switch-GRPO qui propage les gradients à travers le calcul latent récurrent. SWITCH surpasse systématiquement les approches précédentes de raisonnement latent par récurrence d'états cachés à échelle similaire. L'analyse mécaniste à travers les jetons de délimitation révèle en outre trois résultats : (i) <swi> est une politique de commutation apprise, nettement localisée, plutôt qu'un artefact stylistique ; (ii) l'étape latente qu'il ouvre effectue un calcul spécifique au problème et causalement important, plutôt que d'agir comme un espace réservé inerte ; et (iii) ce calcul est concentré sur une seule transition d'état caché à l'entrée. Ensemble, ces résultats montrent que le raisonnement latent par récurrence d'états cachés est à la fois entraînable par RL et ouvert à une analyse mécaniste directe, y compris la manière dont le RL sur politique améliore le modèle de l'intérieur.
Nous présentons VideoMDM, un cadre basé sur la diffusion qui apprend des a priori de mouvement humain 3D directement à partir de poses 2D précises extraites de vidéos monoculaires, sans aucune vérité terrain 3D. Un élévateur 2D-3D pré-entraîné fournit des séquences de poses 3D approximatives servant d’enseignant bruité : celles-ci sont diffusées, débruitées par le modèle en 3D, et supervisées en 2D en reprojetant la prédiction et en la comparant aux points clés précis. Nous montrons que, sous des hypothèses légères, une perte de reprojection 2D pondérée par la profondeur est équivalente en espérance à une supervision 3D directe, et nous adaptons les régularisateurs de mouvement 3D standard — cohérence de vélocité et alignement de représentation sur-paramétrée — à ce cadre 2D. Contrairement aux méthodes qui ne remontent la 2D en 3D qu’à l’inférence, VideoMDM apprend une variété de mouvement 3D cohérente pendant l’entraînement. Sur HumanML3D, il réduit presque l’écart avec le MDM entièrement supervisé en 3D (FID 0,88 contre 0,54) ; sur les ensembles de vidéos réelles Fit3D et NBA, la méthode apprend à générer des mouvements constamment préférés par les humains, avec des résultats quantitatifs solides.
Bien qu'ils génèrent des images de plus en plus photoréalistes, les modèles texte-à-image (T2I) présentent encore des défaillances localisées, subtiles et structurellement complexes. Diagnostiquer ces échecs nécessite un retour d'information au niveau des instances qui répond où un défaut se produit, de quel type il est, pourquoi il est défectueux et son importance pour la qualité globale de l'image. Alors que les récentes méthodes de retour dense vont au-delà de la supervision scalaire, leurs représentations centrées sur les cartes de chaleur formulent toujours le diagnostic comme une régression de champ de pixels, ce qui rend difficile la localisation des défauts à cardinalité variable et le liage des raisons sémantiques à des échecs individuels. Pour remédier à ce goulot d'étranglement de représentation, nous proposons le Structured Defect Grounding (SDG), qui aborde le diagnostic T2I comme une prédiction d'ensembles structurés en modélisant chaque défaut comme un tuple (emplacement, type, raison, importance). Pour rendre cette formulation entraînable et mesurable, nous introduisons SDG-30K, un ensemble de données de 30 000 images avec annotations par boîtes englobantes couvrant quatre générateurs T2I modernes, ainsi qu'un protocole d'évaluation dédié, SDG-Eval. En nous appuyant sur cette représentation structurée, nous présentons en outre un cadre de diagnostic à alignement dans lequel un modèle de vision-langage (VLM) sert de détecteur SDG, et BoxFlow-GRPO convertit les ensembles de défauts prédits en récompenses spatiales pondérées par importance et dérivées de boîtes pour l'alignement du modèle de diffusion. Des expériences approfondies montrent que notre détecteur SDG surpasse les principaux VLM propriétaires sur le grounding structuré des défauts, tandis que les récompenses guidées par SDG améliorent systématiquement l'alignement T2I et soutiennent le raffinement localisé de l'image. Ces résultats établissent SDG comme une interface unifiée au niveau des instances pour diagnostiquer, évaluer et améliorer les modèles génératifs modernes.
Nous présentons MoVerse, un modèle vidéo temps réel du monde (world model) qui crée une scène interactive navigable à partir d'une seule image à champ de vision étroit. Ce paramètre est difficile car l'entrée n'observe qu'une petite fraction de l'environnement, tandis que la navigation interactive nécessite un monde environnant complet, une géométrie persistante, un mouvement de caméra contrôlable et des observations haute-fidélité temporellement cohérentes. MoVerse aborde ce problème en séparant la construction du monde du rendu d'observation. Il étend d'abord l'entrée en un panorama 360° aligné avec la gravité via une diffusion consciente de la topologie, comblant le champ de vision manquant avant le raisonnement 3D. Il élève ensuite le panorama en un échafaudage gaussien 3D persistant à l'aide d'une prédiction résiduelle panoramique consciente de la géométrie, produisant une mémoire spatiale dense et directement rendable. Enfin, un moteur de rendu vidéo conditionné par les gaussiennes transforme les rendus de l'échafaudage le long de trajectoires de caméra spécifiées par l'utilisateur en vidéo photoréaliste. Pour rendre ce moteur de rendu pratique pour l'interaction, nous entraînons un enseignant par diffusion bidirectionnelle pour un rendu conditionnel de haute qualité et le distillons en un étudiant autorégressif causal pour un streaming à latence bornée. Cette conception combine la contrôlabilité et la cohérence à longue portée des représentations 3D explicites avec la qualité perceptuelle des modèles vidéo génératifs. MoVerse prend en charge la navigation en temps réel dans la scène à 8 FPS sur un seul GPU NVIDIA RTX 4090, démontrant une voie pratique vers la création de monde à partir d'une seule image avec une sortie vidéo interactive.
Les grands modèles de langage sont de plus en plus déployés en tant qu'agents pour des tâches à long horizon, mais leurs performances sont façonnées non seulement par la capacité du modèle et la conception de l'environnement, mais aussi par le harnais qui médiatise l'interaction agent-environnement. Les harnais existants sont largement conçus manuellement, ce qui les rend difficiles à passer à l'échelle à mesure que les trajectoires s'allongent et que les interactions deviennent plus complexes. Dans ce travail, nous nous demandons si le harnais peut être généré par un module enfichable entraînable de bout en bout. Nous introduisons HarnessBridge, un contrôleur de harnais léger et apprenable qui paramétrise l'interface agent-environnement comme une projection bidirectionnelle. HarnessBridge apprend deux projections bidirectionnelles : la projection d'observation, qui distille les trajectoires brutes en états compacts et pertinents pour la décision, et la projection d'action, qui convertit les actions proposées en transitions exécutables ou en rejets ancrés dans la trajectoire. Nous entraînons HarnessBridge sur un ensemble de données de supervision de harnais via un ajustement unifié par instructions. Sur Terminal-Bench~2.0 et SWE-bench Verified, HarnessBridge atteint ou dépasse les harnais spécialisés performants tout en réduisant considérablement l'utilisation de tokens et la longueur des trajectoires, et se généralise des générateurs plus petits aux modèles commerciaux plus grands.
La distillation de diffusion en peu d'étapes est devenue de plus en plus mature pour la génération en 4 à 8 étapes, mais aller au-delà jusqu'à 2 étapes reste un défi. Dans ce travail, nous présentons Z-Image Turbo++, un modèle de génération d'images en 2 étapes de haute qualité, distillé à partir du professeur Z-Image Turbo en 8 étapes. Notre méthode aborde les goulets d'étranglement centraux que sont l'augmentation de la difficulté de la tâche et la capacité limitée du modèle pour la génération en 2 étapes, grâce à trois choix de conception simples mais efficaces, adaptés à ce régime. Premièrement, nous proposons un Apprentissage Adversarial Aligné sur la Distribution, qui utilise des images générées par le professeur plutôt que des images réelles externes comme échantillons réels pour l'entraînement GAN, offrant une cible antagoniste plus accessible et plus informative. Deuxièmement, nous adoptons une Paramétrisation Découplée par Étapes, attribuant des paramètres de modèle indépendants aux deux étapes de débruitage afin de mieux correspondre à leurs besoins de capacité distincts. Troisièmement, nous effectuons un Entraînement de Bout en Bout avec Régularisation Itérative, permettant à la première étape de recevoir des gradients provenant de la qualité finale de l'image tout en préservant une génération intermédiaire significative via une perte explicite de l'étape 1. Ensemble, ces conceptions réduisent considérablement l'écart de qualité entre la génération en 2 étapes et celle en 8 étapes, tant dans les évaluations qualitatives que quantitatives, soulignant le potentiel de stratégies de distillation soigneusement adaptées pour améliorer le compromis qualité-efficacité dans la génération en peu d'étapes.
La recherche approfondie nécessite que les agents répondent à des questions complexes via une recherche web multi-étapes, une navigation, une comparaison des preuves et une synthèse. Un défi central consiste à décider comment effectuer la recherche lorsque plusieurs directions semblent plausibles mais que seules certaines mèneront ultérieurement à des preuves fiables. Si un agent suit de manière gloutonne la direction la plus prometteuse à l'instant présent, il risque de prolonger une piste faible. S'il explore sans discipline, il peut gaspiller son budget sur des tentatives déconnectées. Nous proposons TreeSeeker, un cadre au moment de l'inférence pour un essai-erreur contrôlé dans la recherche approfondie. TreeSeeker organise la recherche comme une exploration par branchement et retour en arrière sur des états structurés en arbre, où chaque branche représente une direction provisoire pour un sous-objectif. À chaque tour, TreeSearch lit tous les arbres de sous-objectifs, identifie les objectifs actifs et utilise des signaux UCB textuels de valeur, d'incertitude et de risque pour choisir entre exploiter une branche prometteuse, explorer une alternative incertaine ou élaguer une continuation improductive et revenir à un point de branchement antérieur. TreeMem soutient cette boucle de contrôle en conservant les preuves, l'incertitude, les conflits, la progression et les indices d'échec attachés aux branches qui les ont produits, de sorte que les résultats des tentatives puissent guider les décisions ultérieures. Des expériences sur XBench-DeepSearch, BrowseComp et BrowseComp-ZH montrent que TreeSeeker surpasse systématiquement les références open-source robustes, suggérant qu'un contrôle explicite par branchement et retour en arrière complète un raisonnement et une exécution d'outils plus puissants.
Les évaluations de la robustesse adversarial des grands modèles de langage (LLM) rapportent généralement le taux de réussite des attaques (ASR) sous des budgets de requêtes fixes, en traitant implicitement toutes les attaques comme étant également coûteuses. En pratique, le coût computationnel des différentes stratégies d'attaque peut varier de plusieurs ordres de grandeur. Par conséquent, l'ASR à budget fixe peut masquer l'effort réel nécessaire pour déjouer un modèle, rendant ainsi difficile de déterminer si le coût d'une attaque justifie son gain pour l'attaquant. Nous proposons un cadre d'évaluation tenant compte du coût de calcul, basé sur la pression computationnelle mesurée en opérations en virgule flottante cumulées (FLOPs), comme proxy de l'effort adversarial. Nous introduisons des courbes risque-calcul, qui font correspondre les budgets de calcul au risque d'attaque, et dérivons deux métriques qui résument la pression moyenne nécessaire pour qu'une attaque donnée réussisse. Sur dix modèles couvrant trois familles et quatre étapes différentes de l'entraînement et de l'alignement des modèles de langage, évalués avec trois stratégies d'attaque (basée sur le gradient, raffinement itératif et basée sur un modèle) sur deux benchmarks de robustesse au jailbreak, nous constatons : (1) l'entraînement à l'alignement a des effets non monotones sur la robustesse dans l'espace de calcul ; (2) l'augmentation de la taille du modèle réduit l'efficacité des attaques basées sur le gradient mais a un impact limité sur les attaques moins coûteuses basées sur un modèle ; (3) les attaques basées sur le gradient optimisées sur un modèle substitut peuvent être transférées à un modèle cible distinct, offrant un moyen de réduire les coûts pour l'attaquant ; (4) le coût de calcul varie jusqu'à environ 5 fois entre les catégories de préjudice au sein d'un même modèle ; et (5) le RL aligné sur la sécurité augmente le coût global tout en laissant certaines catégories disproportionnellement accessibles. Nous publions notre cadre pour permettre une évaluation et une estimation des risques tenant compte du calcul.
Le raisonnement visuel nécessite d'intégrer des indices répartis entre régions, attributs et relations, ce qui rend le raisonnement à chaîne unique sujet à un engagement perceptif précoce et à des hallucinations. Nous proposons Visual Para-Thinker++, un cadre multi-agent à politique unique dans lequel une politique MLLM partagée est instanciée sous forme d'agents conditionnés par leur rôle : Principal, Travailleur et Résumé. L'Agent Principal décompose la tâche selon des schémas d'allocation fixes ; les Agents Travailleurs raisonnent en parallèle sous isolation de contexte ; et l'Agent Résumé concilie l'ensemble des traces de raisonnement des Travailleurs plutôt que de recourir à un vote majoritaire sur les étiquettes finales. La politique partagée est entraînée par injection de capacités multi-agents et optimisation multi-agent découplée par rôle, qui attribuent des récompenses et avantages spécifiques à chaque rôle aux segments de token correspondants, réduisant ainsi les conflits de gradient entre rôles collaboratifs. Un moteur d'inférence natif permet un déploiement multi-agent efficace via un préfixe visuel partagé et une réutilisation du cache KV. Sur V*, CountBench, la famille RefCOCO et HallusionBench, Visual Para-Thinker++ surpasse systématiquement les bases de référence à trajectoire unique et parallèle en temps d'inférence, avec des gains particulièrement marqués sur le raisonnement visuel sensible aux hallucinations.
Anticiper les tendances comportementales des LLM à partir de sondes psychométriques peu coûteuses est crucial pour un déploiement sûr, mais uniquement si les auto-rapports (SR) prédisent de manière fiable le comportement. De récents travaux ont documenté une dissociation substantielle entre auto-rapports et comportement chez les LLM, mais ils se sont appuyés sur des traits de personnalité larges (Big 5) qui prédisent faiblement des comportements spécifiques, même chez les humains. De plus, l'isolement des sessions conversationnelles combiné à un faible appariement contextuel a laissé ouverte la question de savoir si les LLM manquent réellement de cohérence ou si les conditions nécessaires pour détecter une telle cohérence n'étaient pas réunies. Nous opposons le Big 5 à la Théorie du Comportement Planifié (TCP), qui mesure l'intention ciblée sur un comportement spécifique et prédit le comportement humain de manière substantiellement meilleure que les traits larges. Nous menons des expériences sur quatre tâches comportementales et 11 LLM de pointe, tout en faisant varier le contexte de session et l'induction d'identité. Nous constatons que la cohérence entre auto-rapports et comportement existe mais est sélective. 1) Au sein d'une conversation partagée, la Théorie du Comportement Planifié atteint une cohérence de niveau humain ; le Big 5 non. 2) À travers des conversations séparées, la cohérence ne survit que pour des comportements ancrés en dehors de l'invite immédiate, comme le biais implicite façonné par l'entraînement, et s'effondre lorsque le comportement est fortement amorcé par le contexte, comme dans le cas du sycophantisme. 3) L'amorçage de persona rend les auto-rapports plus cohérents d'une conversation à l'autre, mais n'aligne pas le comportement. Ces résultats suggèrent que les cadres de personnalité grossiers, comme le Big 5, ne sont peut-être pas les meilleurs outils pour tester le comportement en déploiement. Des instruments plus spécifiques à la tâche et au comportement sont nécessaires, et même ceux-ci doivent être évalués à travers tâches et contextes.
La distillation sur politique (OPD) entraîne un étudiant sur ses propres trajectoires avec une supervision dense par jeton d'un enseignant plus fort, et surpasse souvent la distillation hors politique et l'apprentissage par renforcement standard. Cependant, nous constatons que son efficacité repose implicitement sur deux hypothèses qui sont souvent violées en pratique : l'alignement au niveau des trajectoires entre l'étudiant et l'enseignant, et la fiabilité uniforme au niveau des jetons des préférences de l'enseignant. Nous proposons donc la distillation sur politique à porte de signe (SG-OPD), qui utilise un vérificateur binaire comme signal de confiance pour l'enseignant à deux granularités complémentaires : un échantillonnage progressif de l'enseignant mélange les déploiements de l'enseignant approuvés par le vérificateur au démarrage à froid, et une porte de cohérence de signe extrapole la mise à jour de distillation sur les jetons où l'enseignant est d'accord avec la direction corrigée par le vérificateur et l'interpole là où il est en désaccord. Des expériences sur des benchmarks de raisonnement mathématique de niveau compétition montrent que SG-OPD surpasse systématiquement l'OPD standard, avec des gains moyens de 1,98 et 7,50 au niveau par échantillon et par question, respectivement.
Les modèles de langage compacts réduisent les coûts, la latence et les risques de déploiement pour les agents outillés. Cependant, l'utilisation d'outils de type MCP exige davantage qu'un simple appel de fonctions isolé : un agent doit découvrir des outils à partir de catalogues en direct, satisfaire leurs schémas, préserver les dépendances entre les sorties intermédiaires et ancrer les réponses finales dans des preuves d'exécution. Les petits planificateurs génèrent souvent des graphes de workflow plausibles qui échouent lors de la résolution d'outils, de la validation des paramètres, du suivi des dépendances ou de l'exécution. Nous soutenons que ce mode d'échec est mal traité par la distillation sur petits corpus. Quelques centaines de traces d'enseignant peuvent enseigner le format du workflow, mais elles couvrent rarement le comportement de récupération nécessaire pour réparer des plans défaillants face à des catalogues d'outils changeants. Nous introduisons Evoflux, une méthode de recherche évolutive en inférence qui traite l'utilisation compacte d'outils comme la réparation de workflows d'outils exécutables. Elle fait évoluer des graphes de workflow typés grâce à des modifications structurées, un retour d'exécution, une intensité adaptative, une reconception méta-guidée et un élagage par diversité. Sur des tâches de MCP-Bench non vues, couvrant des serveurs MCP en direct et 250 outils, Evoflux augmente la faisabilité d'exécution d'environ 3 % à 17-24 % pour les petits planificateurs. En revanche, le SFT et le SFT+DPO sur les mêmes données issues de recherche, soit correspondent, soit sous-performent, soit s'effondrent en dessous de la performance zéro-shot ; ReAct atteint des pics plus élevés, mais avec une variance et un coût en tokens plus importants. Ces résultats montrent que la recherche ancrée dans l'exécution est plus fiable sous des budgets de traces d'enseignant limités.
Les agents LLM interactifs deviennent partie intégrante du travail quotidien, mais ils ne deviennent pas systématiquement plus faciles à utiliser au fil du temps : une correction mémorisée dans une session peut encore être violée dans la suivante. Nous étudions cet écart entre l'accès aux préférences et leur respect. Dans des tâches dérivées de cas de friction réels anonymisés d'utilisateurs, la mémoire Mem0 laisse encore 57,5 % des vérifications de préférences applicables non respectées. Nous introduisons l'Acquisition de Règles au Moment du Test et l'Application Compilée (TRACE), un pipeline de couche de compétences enfichable pour les environnements d'exécution d'agents de codage qui extrait les corrections des utilisateurs, les reformule en règles atomiques et les compile en vérifications à l'exécution qui doivent être satisfaites avant qu'un agent n'achève les tâches futures. Contrairement aux vérifications à l'exécution écrites à l'avance par les développeurs, les compétences TRACE proviennent des corrections directes des utilisateurs dans le chat. Nous évaluons TRACE avec des expériences simulées avec intervention humaine sur les tâches d'agents de codage de ClawArena et les tâches à forte exigence mémoire dérivées de MemoryArena. Sur ClawArena, TRACE réduit la violation des préférences non observées de 100,0 % à 37,6 % sur les tâches intra-distribution et de 100,0 % à 2,0 % sur les tâches hors distribution. Sur les tâches dérivées de MemoryArena, TRACE réduit la violation intra-distribution de 100,0 % à 60,5 % tout en égalant ou dépassant la meilleure référence mémoire en taux de réussite des tâches. Ces résultats suggèrent que la compilation des corrections en une application à l'exécution peut remédier à un mode de défaillance par friction répétée que la mémoire seule ne résout pas de manière fiable, réduisant ainsi le besoin pour les utilisateurs de répéter la même correction dans des sessions futures. Le code des expériences est disponible à l'adresse https://github.com/YujunZhou/TRACE_exp, et la compétence déployable est disponible à l'adresse https://github.com/YujunZhou/tellonce.
Les agents de recherche — des modèles de langage de grande taille enrichis d'outils de recherche — ont renforcé la nécessité de disposer de référentiels d'évaluation pérennes. Les référentiels existants, tels que BrowseComp, reposent sur des connaissances statiques, ce qui les rend vulnérables à la contamination des ensembles de test et à la mémorisation paramétrique. Par conséquent, les modèles peuvent obtenir des scores élevés grâce au rappel de faits plutôt qu'à une récupération authentique, occultant ainsi la véritable compétence de navigation via des raccourcis de raisonnement. Dans cet article, nous présentons EvoBrowseComp, un référentiel évolutif de 400 questions complexes en anglais et 400 en chinois, exemptes de contamination, synthétisées via une navigation sur le web en direct. Pour collecter ces questions, nous concevons un cadre collaboratif à trois agents : (1) un agent de synthèse de questions-réponses qui récupère des connaissances fraîches sur le web en direct pour synthétiser des paires question-réponse ; (2) un agent de filtrage des informations qui filtre les connaissances récupérées en termes de crédibilité et de popularité afin de bloquer les raccourcis paramétriques ; et (3) un agent de guidage de haut niveau qui formalise les questions en graphes de raisonnement pour réduire la redondance logique et les raccourcis dans les paires question-réponse synthétisées. Étant donné que le cadre prend en charge une synthèse entièrement automatisée, EvoBrowseComp peut être régulièrement mis à jour pour prévenir la contamination des données et maintenir une fraîcheur temporelle. Des expériences approfondies confirment sa grande difficulté, nécessitant une large recherche horizontale. Il établit un paradigme évolutif pour un benchmarking auto-mis à jour et de haute difficulté, qui suit le rythme à la fois de l'évolution des connaissances mondiales et des capacités croissantes des agents.
La géométrie est invariante par rapport au point de vue, ce qui fait que toute collection d'images constitue un codage redondant d'un unique état 3D. Les modèles de reconstruction feed-forward existants ne parviennent pas à exploiter cela : les méthodes par vue émettent des cartes de points qui se chevauchent et ne sont pas alignées, dont la taille croît linéairement avec le nombre d'entrées, tandis que les méthodes à latent global s'engagent sur une sortie fixe et de basse résolution. Nous introduisons Surflo, qui compresse un nombre variable de vues RVB non positionnées en K tokens latents — un état global — et décode des points de surface 3D orientés en les transportant indépendamment du bruit vers la surface via un flow matching. Cela libère la sortie de toute grille fixe ou budget de tokens : le même latent produit de quelques milliers à un million de points en une seule passe avant. Pour supprimer les incohérences locales inhérentes au décodage indépendant point par point, un terme de guidance au moment de l'inférence corrèle les points proches en injectant un gradient photométrique pendant l'intégration ODE. Surflo atteint ou dépasse les références feed-forward sur les métriques de surface, est d'un ordre de grandeur plus rapide que les méthodes basées sur l'optimisation qui nécessitent des centaines de vues, et est la seule approche feed-forward à combiner un latent global avec un décodage à résolution arbitraire.
Nous présentons Flash-GMM, un noyau Triton fusionné conçu pour le calcul efficace de modèles de mélanges gaussiens (GMM) sur des données à grande échelle en un seul passage sur GPU. En évitant de matérialiser l'intégralité de la matrice des responsabilités dans la mémoire GPU, Flash-GMM atteint une accélération d'un facteur 20 par rapport aux implémentations existantes et permet l'entraînement sur des ensembles de données plus de 100 fois plus volumineux qu'auparavant sur un seul dispositif. Pour démontrer son impact, nous intégrons Flash-GMM dans le quantificateur grossier IVF pour la recherche approximative des plus proches voisins (ANN). Nous montrons que le clustering GMM doux constitue désormais un remplacement direct viable des k-moyennes, et que les responsabilités issues du GMM peuvent être exploitées pour affecter les vecteurs frontières à plusieurs clusters. Notre approche atteint des cibles de rappel fixes avec jusqu'à 1,7 fois moins de calculs de distance, ou, de manière équivalente, offre un rappel@10 amélioré de +2 à 12 pour un coût de calcul comparable. Nous publions le noyau en tant que projet open-source.
L'alignement des représentations avec des modèles de vision pré-entraînés a récemment montré un fort potentiel pour accélérer l'entraînement des transformers de diffusion. En alignant les caractéristiques intermédiaires de diffusion avec les représentations d'images propres issues d'encodeurs visuels auto-supervisés, les méthodes existantes améliorent la convergence et la qualité de génération. Cependant, un tel alignement introduit également une contrainte non triviale : les modèles de diffusion opèrent sur des entrées bruitées dont les informations utilisables varient selon les pas de temps, tandis que les caractéristiques de référence sont extraites d'images propres. Dans cet article, nous réexaminons ce décalage d'un point de vue au niveau des tokens. Nous constatons que, sous un alignement des représentations sur tous les tokens, les tokens présentant de grandes normes de gradient d'alignement affichent une préférence spatiale stable, ce qui suggère que l'objectif d'alignement n'affecte pas tous les tokens de manière uniforme et pourrait encourager le modèle à se fier à l'ensemble complet des tokens d'images propres. Pour résoudre ce problème, nous proposons MaskAlign, une méthode d'alignement des représentations sur un sous-ensemble de tokens, qui applique l'alignement à des sous-ensembles de tokens échantillonnés aléatoirement lors de l'entraînement. En exposant le modèle à différents sous-ensembles de tokens au fil des itérations, MaskAlign réduit la dépendance de l'alignement des représentations vis-à-vis de l'ensemble complet de tokens et encourage un comportement d'alignement plus stable face aux perturbations des sous-ensembles de tokens. Pour atténuer la perte d'information causée par la suppression directe de tokens, nous introduisons en outre un bloc léger de mélange de tokens avant masquage, qui partage l'information entre les tokens avant l'application du masque.
Les simulateurs robotiques constituent une pierre angulaire de la recherche moderne en robotique aérienne, servant à la fois de support pour le développement de nouveaux algorithmes de contrôle et de source de données pour l’entraînement de politiques d’apprentissage par renforcement (RL). Pourtant, les environnements d’apprentissage pour quadricoptères existants sont souvent confrontés à un compromis entre la fidélité physique, le support multi-agent et le débit nécessaire aux pipelines modernes de RL profond. Dans cet article, nous présentons MuJoCo-Drones-Gym, un environnement multi-drone open-source compatible avec Gymnasium, construit au-dessus du moteur physique MuJoCo. MuJoCo-Drones-Gym supporte un nombre arbitraire de nano-quadricoptères Bitcraze Crazyflie 2.x et expose une API modulaire permettant de choisir (i) le modèle physique (MuJoCo à corps rigide, dynamique Python explicite, ou tout sous-ensemble d’effet de sol, de traînée de pale et de downwash inter-drone), (ii) l’interface d’action (RPM par moteur, poussée normalisée collective, consignes de vitesse ou commandes de points de passage PID), et (iii) l’espace d’observation (vecteurs d’état cinématique, caméras RVB/profondeur/segmentation, ou informations d’adjacence de voisinage). Un wrapper PettingZoo ParallelEnv permet un apprentissage par renforcement multi-agent prêt à l’emploi, tandis qu’une suite de sept environnements de tâches — vol stationnaire, suivi de vitesse, vol stationnaire multi-drone, navigation par points de passage, vol en formation, course de portes et un modèle générique multi-agent — illustre l’étendue de l’interface. Nous décrivons la conception de l’environnement, la physique sous-jacente et la dynamique des quadricoptères, et illustrons son utilisation à travers des exemples de contrôle et d’apprentissage qui reflètent ceux du projet étroitement lié gym-pybullet-drones, tout en tirant parti de l’amélioration de la gestion des contacts, du rendu et de la parallélisabilité de MuJoCo.
Les systèmes multi-agents communiquent principalement par texte, ce qui implique un coût élevé de décodage et de ré-encodage avec perte d'information. La communication par cache KV constitue une alternative prometteuse, mais la plupart des travaux antérieurs sont homogènes, utilisant des copies identiques du même modèle, et évitent le défi central de l'alignement latent entre modèles ; les méthodes hétérogènes existantes sont également restrictives, supposant généralement une entrée partagée et utilisant les caches transférés principalement pour l'orientation. Nous étudions une question plus fondamentale : des agents hétérogènes peuvent-ils être suffisamment alignés pour effectuer une véritable « lecture de pensée » et transférer à la fois ce qu'un agent voit et comment il pense ? Notre analyse de la structure de l'information révèle une dualité : le transfert contextuel est piloté par des signaux de raisonnement épars, tandis que le transfert non contextuel, où le récepteur ne voit aucune entrée, nécessite une préservation dense des connaissances contextuelles. Motivés par cette observation, nous proposons un alignement dense pour la communication hétérogène par cache KV via une transformation légère de cache inter-modèles et un entraînement en deux phases : reconstruction suivie de génération. Sur l'ensemble des six directions de {Qwen3-4B, 8B, 14B} et six benchmarks intra-domaine et hors domaine, notre méthode surpasse les bases hétérogènes antérieures, atteint ou dépasse la communication textuelle dans les contextes contextuels avec un coût de calcul environ 2 à 3 fois inférieur, et reste efficace dans le transfert non contextuel où les méthodes précédentes échouent.
Les impacts potentiels des modèles du monde (WMs, c’est-à-dire des simulateurs appris) sur la robotique sont considérables — évaluation de politiques, amélioration de politiques et planification au moment du test — le tout avec une interaction limitée avec le monde réel. Pour débloquer ces capacités en aval, un modèle du monde doit satisfaire conjointement trois exigences : (i) la fidélité (produire des trajectoires simulées corrélées avec la réalité), (ii) la cohérence (produire des trajectoires simulées cohérentes sur de longs horizons) et (iii) l’efficacité (produire des trajectoires simulées rapidement). Nous proposons WEAVER (World Estimation Across Views for Embodied Reasoning) : une architecture de modèle du monde qui atteint simultanément ces trois exigences, obtenant des résultats de pointe sur des tâches de manipulation robotique. WEAVER est un modèle du monde multi-vue entraîné à prédire les latents futurs et les valeurs de récompense via une perte de flow-matching. Nous distillons les décisions de conception clés concernant l’architecture du modèle, la mémoire et les objectifs de prédiction nécessaires pour débloquer les tâches de manipulation dynamique à long horizon qui ont mis en échec les approches antérieures de modélisation du monde. Nous appliquons WEAVER sur du matériel robotique, démontrant son efficacité pour l’évaluation de politiques (corrélation ρ=0,870 avec le taux de succès réel), l’amélioration de politiques (amélioration du taux de succès réel de 38% par rapport au modèle fondation robotique π_{0.5}) et la planification au moment du test (amélioration du taux de succès réel de 14% avec une accélération de 5 à 10 fois par rapport aux WMs antérieurs). WEAVER montre également de meilleures performances que les WMs antérieurs lorsqu’il est évalué sur des scénarios hors distribution. Code, modèles et vidéos sur : https://arnavkj1995.github.io/WEAVER/ .
La navigation web autonome reste difficile pour les agents LLM, et les systèmes généralistes les plus performants reposent sur des modèles de raisonnement propriétaires dont le coût d'inférence est prohibitif pour les tâches répétitives où de tels agents seraient les plus utiles. Nous soutenons que cet écart ne provient pas d'une capacité insuffisante des modèles, mais d'architectures d'agents qui ne parviennent pas à reproduire trois avantages cognitifs humains : l'attention sélective portée aux zones pertinentes de la page, la mémoire persistante de la structure du site web, et la fluidité procédurale dans les schémas d'interaction courants. Nous présentons WebChallenger, un cadre d'agent web qui répond à chaque lacune par la conception architecturale plutôt que par l'échelle du modèle, construit autour de PageMem : une représentation structurée de page construite de manière déterministe à partir du DOM, qui expose chaque page comme une hiérarchie de sections sémantiques avec de courts résumés. Sur ce substrat commun, nous construisons trois mécanismes qui reflètent les trois avantages cognitifs : un pipeline d'observation par « diviser pour régner » qui permet à l'agent de parcourir les résumés de sections et d'extraire des détails uniquement des zones pertinentes pour la tâche ; un système léger d'exploration et de mémoire qui parcourt chaque site web une fois pour construire une carte réutilisable des pages et des comportements des éléments ; et des flux de travail d'actions composées qui regroupent des interactions multi-étapes courantes en une seule action d'agent, en gérant automatiquement les changements d'état partiels. Comme les trois mécanismes opèrent sur PageMem, le cadre se généralise à travers les sites web sans adaptateurs spécifiques. En utilisant des modèles à poids ouverts prêts à l'emploi sans ajustement fin, notre système atteint 56,3 % sur WebArena, 48,7 % sur VisualWebArena, 51,0 % sur Online-Mind2Web et 70,9 % sur WorkArena, approchant les systèmes propriétaires de pointe à une fraction du coût. Notre code est publié sur https://github.com/jayoohwang1/webchallenger.
Construits sur des modèles de base de vision (VFM) pré-entraînés, les autoencodeurs de représentation (RAE) sont récemment apparus comme une approche prometteuse pour créer des espaces latents sémantiquement riches pour la génération d'images. Cependant, leur qualité de reconstruction reste souvent sous-optimale, principalement parce que les représentations profondes des VFM ne préservent pas suffisamment les détails visuels fins. Cette limitation devient encore plus sévère après discrétisation, où les informations de bas niveau manquantes sont difficiles à récupérer. En fait, nous observons que les caractéristiques superficielles des VFM retiennent considérablement plus de détails locaux d'apparence et de structure, ce qui complète la sémantique de haut niveau portée par les caractéristiques profondes utilisées dans les RAE existants. Motivés par cette propriété complémentaire, nous proposons Ideal, un cadre d'alignement approfondi pour l'autoencodage discret de représentations. En alignant conjointement les tokens quantifiés avec les caractéristiques superficielles et profondes des VFM, Ideal permet aux tokens visuels discrets résultants de préserver à la fois la fidélité visuelle et une sémantique riche. Des expériences approfondies montrent qu'Ideal produit des performances de reconstruction supérieures, atteignant un rFID de 0,61 sur ImageNet et surpassant la meilleure méthode précédente de 0,28. Utilisé pour la génération d'images autorégressive, Ideal obtient en outre un gFID de 1,89, établissant un nouvel état de l'art pour la génération d'images autorégressive.
Les modèles de langage multimodaux de grande taille (MLLMs) démontrent des capacités de raisonnement prometteuses dans les domaines généraux, mais leurs performances restent limitées dans des contextes spécialisés tels que la santé, en particulier dans les scénarios multilingues et à faibles ressources. Ce fossé est critique dans des régions comme l'Inde rurale, où les patients expriment souvent des requêtes médicales complexes dans des langues indiennes natives et dépendent d'entrées multimodales telles que les images médicales. Les MLLMs existants, centrés sur l'anglais, peinent à soutenir de tels cas d'usage, limitant un accès équitable à une assistance médicale basée sur l'IA. Pour relever ce défi, nous présentons ArogyaBodha, un vaste jeu de données de questions-réponses médicales multilingues et multimodales construit à partir de huit sources hétérogènes, couvrant 31 systèmes corporels, six modalités d'imagerie et 21 domaines cliniques, en anglais et dans sept langues indiennes majeures. Nous proposons également ArogyaSutra, un cadre multi-agent basé sur l'actor-critic qui intègre un ancrage d'outils avec des mécanismes de double mémoire pour une prise de décision étape par étape et consciente du raisonnement, utilisant des trajectoires de simulation actor-critic stockées pour la distillation. Les expériences montrent que notre jeu de données et notre cadre améliorent la précision du raisonnement médical multilingue dans toutes les langues indiennes, avec des ablations validant la contribution de chaque composant. Le code source et le jeu de données sont disponibles à l'adresse : https://iitp-cse.github.io/ArogyaSutra/
Nous sommes entourés de divers objets dotés de parties mobiles et articulées, par exemple une boîte, une poignée, une porte. Une perception précise et généralisable des parties articulées est essentielle pour améliorer les capacités de manipulation des robots. Partant de ce besoin, les travaux récents sur la perception des parties articulées ont suivi deux directions principales : l'une utilise une représentation basée sur la pose, qui nécessite un coût manuel élevé ; parallèlement, les méthodes basées sur l'affordance extraient le mouvement futur des objets à partir du suivi de points sans effort manuel supplémentaire, mais souffrent d'une faible qualité des données. Dans cet article, nous proposons une nouvelle représentation des parties articulées, la Structure Géométrique Primaire (GPS), une abstraction de la structure géométrique des parties visant à équilibrer évolutivité et qualité. Pour une collecte de données efficace et évolutive, la GPS est intégrée à un dispositif portable de Réalité Virtuelle (VR) et ne nécessite qu'une minute pour annoter une séquence d'objets. Cette annotation humaine directe offre une qualité supérieure à celle de l'affordance estimée. Grâce à ce système efficace VR-GPS, nous collectons 41 000 images pour 234 objets répartis en six classes de parties, et entraînons un modèle GPS généralisable à partir d'une seule image RGB-D de l'objet en entrée. Pour la manipulation d'objets, nous déployons une politique heuristique basée sur les prédictions GPS. Sans aucun réglage fin dans le domaine, notre méthode atteint un taux de réussite de 73 %, couvrant 270 états initiaux pour 9 objets. Notre code, nos données et notre outil réutilisable sont disponibles à l'adresse https://enlighten0707.github.io/gps.
Les agents LLM capables d'appeler des outils sont-ils aussi sûrs tout au long d'une conversation ? Nous découvrons que non : les agents sont les plus vulnérables au tout début d'une session et deviennent considérablement plus sûrs après quelques tâches agentiques régulières — un phénomène que nous appelons le fossé de sécurité lié au démarrage à froid. Pour étudier cela systématiquement, nous introduisons Safety Over Depth for Agents (SODA), un banc d'essai qui contrôle le nombre de tâches agentiques régulières que l'agent accomplit avant de rencontrer une menace de sécurité, supportant jusqu'à 20 tâches préalables. En évaluant 7 modèles issus de 4 familles, la sécurité s'améliore de 9 à 52 % lorsque le nombre de tâches agentiques régulières préalables passe de zéro à vingt. L'analyse des représentations confirme que les états cachés du modèle se déplacent progressivement vers une région alignée sur la sécurité à mesure que le nombre de tâches préalables augmente. En étudiant systématiquement quelle partie de la conversation préalable importe le plus, nous constatons que les tâches agentiques régulières elles-mêmes sont le principal moteur de la sécurité, tandis que les réponses antérieures de l'agent ont moins d'effet sur la sécurité mais sont essentielles pour préserver l'utilité ultérieure. Cette conclusion est également étayée par une évaluation sur des bancs d'essai de sécurité open source (AgentHarm, Agent Safety Bench) et des bancs d'essai d'utilité (BFCL, API-Bank), confirmant que le fait d'échauffer l'agent avec des tâches agentiques régulières avant le déploiement le rend plus sûr et préserve toutes ses capacités. Sur la base de ces résultats, nous recommandons une stratégie de déploiement simple : faire accomplir à l'agent quelques tâches agentiques régulières avant une éventuelle exposition à des requêtes critiques pour la sécurité atténue le fossé de sécurité lié au démarrage à froid. Notre code est disponible à l'adresse https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap
Les grands modèles de langage déployés en tant qu'agents sur de vastes catalogues d'outils sont confrontés à un goulot d'étranglement critique dans la recherche d'outils. Alors que les approches de recherche par plongement vectoriel reposent sur des encodeurs compacts qui peuvent mal capturer les sémantiques spécialisées des outils, la recherche paramétrique d'outils résout ce problème en encodant chaque outil comme un jeton virtuel ajouté au vocabulaire du LLM, affiné en deux étapes (mémorisation puis SFT de recherche) pour utiliser le LLM comme moteur de recherche, atteignant des performances élevées sur les benchmarks standard de recherche ToolBench. Cependant, ces benchmarks utilisent des requêtes verbouses et entièrement spécifiées, et leur évaluation applique un décodage contraint qui limite les sorties à des chemins de jetons valides, sans révéler si le modèle comprend réellement ses outils. Nous présentons ToolSense, un cadre diagnostique open-source basé sur LLM qui prend n'importe quel catalogue d'outils en entrée et génère automatiquement trois benchmarks : un benchmark de recherche réaliste (RRB) avec des requêtes à trois niveaux d'ambiguïté, un benchmark de sondage par QCM et un benchmark de sondage par questions-réponses. En appliquant ToolSense à ToolBench (~47 000 outils) et en évaluant cinq configurations d'entraînement paramétrique de modèles, nous révélons une dissociation connaissance-recherche : sur les requêtes RRB, plusieurs configurations chutent d'environ 50 à 64 points de pourcentage par rapport aux benchmarks ToolBench entièrement spécifiés, tombant en dessous de la ligne de base du modèle de plongement vectoriel. De plus, malgré des performances élevées en recherche, certains modèles obtiennent des scores proches du hasard sur les sondages factuels, suggérant une dissociation connaissance-recherche. Nous publions en open source le cadre ToolSense et les benchmarks diagnostiques ToolBench à l'adresse https://github.com/SAP/toolsense.
L'interprétation expressive par rendu (EPR) vise à générer des performances réalistes contraintes par des séquences de notes. Cependant, les modèles d'édition audio par appariement de flux ne manipulent que des échantillons musicaux synchronisés de même durée, limitant ainsi leur compréhension du timing expressif. Nous présentons PianoKontext, un modèle de rendu par appariement de flux pour la musique classique pour piano, qui génère des performances de longueur variable dans l'espace latent d'un modèle Music2Latent pré-entraîné. Nous synthétisons des partitions MIDI en audio neutre et utilisons le Dynamic Time Warping (DTW) dans l'espace latent pour construire des données appariées destinées à l'entraînement. Les embeddings alignés sont concaténés dans des blocs DiT, permettant un apprentissage simple et efficace des dépendances entre la partition et les performances. Des échantillons audio sont disponibles sur notre page de démonstration : https://realfolkcode.github.io/pianokontext_demo/.
Les progrès de la reconnaissance de texte manuscrit ont permis la transcription à grande échelle de documents historiques, mais ils offrent encore un accès limité à des mesures visuelles interprétables pour la paléographie, l'étude des écritures anciennes. Dans cet article, notre principal apport est que l'analyse morphologique de l'écriture, en particulier la capacité d'apprendre des prototypes de caractères à partir de transcriptions au niveau de la ligne, permet de définir des mesures paléographiques évolutives, significatives et stables. Plus précisément, nous exploitons une architecture de détection basée sur les transformeurs, associée à un module de reconstruction de lignes fondé sur des prototypes, pour apprendre des caractères prototypiques ainsi que leur occurrence, leur déformation et leur positionnement. Nos contributions sont doubles. Premièrement, nous introduisons une architecture profonde et une méthodologie d'apprentissage qui permet une modélisation efficace des caractères avec une supervision uniquement au niveau de la transcription de lignes, améliorant significativement la base de référence du *Learnable Typewriter* et permettant une prédiction précise des boîtes englobantes des caractères, libérant ainsi son potentiel pour les mesures paléographiques. Deuxièmement, nous présentons et démontrons la pertinence paléographique de mesures automatiques rendues possibles par notre architecture pour les caractères, les bigrammes et les espaces entre unités graphiques. Pour cette démonstration, nous étendons les annotations du codex Paris, BnF, fr. 2813, commandé à la fin du XIVe siècle par Charles V et copié par quatre mains, à 160 pages. Nous visualisons nos mesures sur ces pages, montrant comment elles nous permettent non seulement de différencier les profils graphiques, mais aussi de découvrir et d'analyser des variations subtiles. Cette étude de cas illustre l'évolutivité de notre approche et sa frugalité en termes de données d'apprentissage requises, puisqu'une seule colonne de texte suffit pour calculer nos mesures sur chacune des 160 pages. Les données et le code sont disponibles publiquement à l'adresse : https://malamatenia.github.io/morphology4metrology-analysis.
L'apprentissage de représentations compatibles vise à apprendre des représentations de caractéristiques qui peuvent être utilisées de manière interchangeable au fil du temps lorsqu'un modèle subit des mises à jour. Dans cet article, nous démontrons que les représentations stationnaires apprises par des classifieurs fixes d-Simplex impliquent une compatibilité selon sa définition formelle. Ce résultat établit une base pour les travaux futurs et peut être directement exploité dans des scénarios d'apprentissage pratiques. Nous abordons le défi de l'apprentissage de la compatibilité en utilisant des classifieurs fixes d-Simplex lorsque le modèle est affiné séquentiellement. L'apprentissage selon un classifieur fixe d-Simplex avec la perte d'entropie croisée aligne les distributions de caractéristiques au niveau des statistiques de premier ordre. Par conséquent, il peut ne pas capturer pleinement les dépendances d'ordre supérieur dans la représentation entre les mises à jour du modèle. Pour résoudre ce problème, nous démontrons que l'entraînement du modèle en utilisant un classifieur fixe d-Simplex via une combinaison convexe de la perte d'entropie croisée et d'une perte contrastive capture non seulement les dépendances d'ordre supérieur, mais est également équivalent à l'apprentissage avec l'entropie croisée sous les contraintes de compatibilité. Nous confirmons nos résultats avec des expériences approfondies en considérant également un nouveau scénario où un modèle pré-entraîné est affiné séquentiellement et occasionnellement remplacé par un modèle amélioré. Nous montrons que les représentations stationnaires permettent des services de récupération ininterrompus (sans retraiter les images de la galerie) tout en améliorant les performances lors des mises à jour et des remplacements de modèles, atteignant un état de l'art. Code disponible à https://github.com/miccunifi/iamcl2r.
Les grands modèles de langage (LLM) sont de plus en plus utilisés pour l'annotation en zéro-shot et les tâches de jugement par LLM, mais leur fiabilité dépend de la manière dont les a priori internalisés par le modèle interagissent avec les instructions fournies par l'utilisateur. Nous étudions trois dimensions de cette interaction : (1) comment la familiarité d'un LLM avec les données et les définitions de tâches affecte sa performance, (2) dans quelle mesure des informations supplémentaires dans les invites peuvent corriger les erreurs en zéro-shot (« adhésion décisionnelle »), et (3) la susceptibilité du modèle à des définitions de tâches inappropriées. À travers des expériences de détection de toxicité sur divers ensembles de données (couvrant les réseaux sociaux, les jeux, l'actualité et les forums) utilisant à la fois des modèles denses et des modèles à mélange d'experts, nous constatons que près des deux tiers des erreurs en zéro-shot résistent à la correction, avec un taux de récupération global (fraction des erreurs initiales corrigées par l'invite) de seulement 34,8 %. Les erreurs à haute confiance s'avèrent particulièrement résistantes à la correction. Face à des définitions inappropriées, les LLM les suivent tout en maintenant des niveaux de confiance inchangés par rapport à la condition appropriée. Crucialement, nous introduisons la familiarité spécifique à la définition (DSF), qui mesure l'alignement entre le concept interne du modèle et la définition de la tâche. Après avoir contrôlé les facteurs de confusion au niveau de l'ensemble de données, la DSF montre une association positive avec la performance du modèle (r partiel = +0,41), tandis que trois métriques de mémorisation distinctes (ROUGE-L, BERTScore et similarité cosinusoïdale des plongements) ne parviennent pas à montrer une association positive. Ces résultats mettent en évidence les limites de la correction par invite dans les tâches d'annotation, soulignant l'importance de l'alignement des définitions par rapport à la mémorisation au niveau du texte.