Articles de recherche IA sélectionnés quotidiennement avec traductions
Les benchmarks de codage au niveau du dépôt, tels que SWE-bench, ont entraîné une progression rapide des capacités des agents de codage. Cependant, ils traitent généralement les tâches de codage comme un problème de prédiction binaire holistique (par exemple, résolu ou non résolu), négligeant les capacités fines des agents telles que la compréhension du dépôt, la récupération du contexte, la localisation du code et le diagnostic de bogues. Dans cet article, nous présentons SWE-Explore, un benchmark qui isole l'évaluation de l'exploration de dépôt, une capacité critique des agents de codage. Étant donné un dépôt et un problème, SWE-Explore demande à un explorateur de retourner une liste classée de régions de code pertinentes sous un budget de lignes fixe. SWE-Explore couvre 848 problèmes répartis sur 10 langages de programmation et 203 dépôts open-source. Pour chaque instance, nous dérivons une vérité de terrain au niveau des lignes à partir de trajectoires d'agents indépendants ayant résolu avec succès le même problème, en distillant les régions de code spécifiques que leurs chemins de solution ont effectivement consultées. Nous évaluons l'exploration selon les dimensions de couverture, de classement et d'efficacité contextuelle, montrant que ces métriques sont fortement corrélées au comportement de réparation ultérieur. À travers un large éventail de méthodes de récupération, d'agents de codage généraux et de localisateurs spécialisés, nous constatons que les explorateurs agentiques forment un palier nettement supérieur à la récupération classique. Bien que la localisation au niveau des fichiers soit déjà performante pour les méthodes modernes, la couverture au niveau des lignes et le classement efficace restent les axes clés qui différencient les explorateurs de pointe.
Les récents systèmes d’IA ont obtenu des résultats solides sur un large éventail de benchmarks, mais ces progrès ne se sont pas traduits par un déploiement économiquement significatif dans de nombreux domaines professionnels. Nous soutenons que cet écart est en grande partie un problème d’évaluation : les benchmarks largement utilisés manquent d’une mesure soutenue de la performance sur des flux de travail réels et économiquement précieux. Cet article présente Agents' Last Exam (ALE), un benchmark conçu pour évaluer les agents d’IA sur des tâches réelles, économiquement précieuses, à long horizon et dont les résultats sont vérifiables. Développé en collaboration avec plus de 250 experts de l’industrie, ALE couvre les secteurs non physiques définis par référence à O*NET / SOC 2018 (la taxonomie professionnelle fédérale américaine). Il s’organise autour d’une taxonomie de tâches comprenant 55 sous-domaines regroupés en 13 secteurs industriels, couvrant plus de 1 000 tâches. Les résultats actuels montrent que le niveau le plus difficile reste loin d’être saturé : pour les configurations standard de harnais et de modèle de base, le taux de réussite complet moyen est de 2,6 %. ALE est conçu comme un benchmark vivant : son ensemble de tâches s’accroît en continu à mesure que de nouveaux flux de travail et secteurs sont intégrés. Plus largement, ALE ne se veut pas seulement un autre classement, mais un instrument pour combler l’écart entre la réussite sur les benchmarks et l’impact pertinent pour le PIB.
La distillation sur politique (OPD) est de plus en plus utilisée pour améliorer le raisonnement des grands modèles de langage, mais ses dynamiques d’entraînement restent mal comprises. Nous caractérisons la trajectoire des mises à jour OPD dans l’espace des paramètres et la comparons à l’ajustement fin supervisé (SFT) et à l’apprentissage par renforcement avec récompenses vérifiables (RLVR). Un ensemble de diagnostics dans l’espace des paramètres place systématiquement l’OPD dans un régime relâché hors direction principale : par rapport au SFT, ses mises à jour affectent moins de poids et évitent plus fortement les directions principales, tandis que comparée au RLVR, elle reste moins étroitement contrainte. Au-delà de cette localisation statique, l’OPD présente un verrouillage de sous-espace : ses mises à jour cumulées pénètrent rapidement dans un canal étroit de faible dimension. Contraindre l’entraînement au sous-espace de mise à jour formé en début d’entraînement préserve les performances de l’OPD mais dégrade substantiellement le SFT, ce qui indique que le sous-espace verrouillé est fonctionnellement suffisant pour l’OPD. Des expériences de contrôle montrent en outre que l’éparpillement des jetons de mise à jour et le décalage de la génération de rouleaux hors politique préservent la dynamique de rang, tandis que le mélange de l’objectif OPD avec le RLVR la modifie. Globalement, ces résultats suggèrent que l’OPD n’est pas simplement un point intermédiaire entre le SFT et le RLVR, mais induit sa propre géométrie de mise à jour dans l’espace des paramètres.
Les systèmes d'agents utilisent de plus en plus des compétences textuelles pour coder des procédures de tâches réutilisables, mais injecter ces compétences dans l'invite à chaque étape engendre un surcoût contextuel important et expose le contenu des compétences sous forme de texte clair. Nous présentons LatentSkill, un cadre qui convertit les compétences textuelles en adaptateurs LoRA prêts à l'emploi via un hyperréseau pré-entraîné. LatentSkill stocke les connaissances des compétences dans l'espace des poids plutôt que dans l'espace contextuel, supprimant ainsi les jetons de compétence par étape tout en préservant le chargement, la mise à l'échelle et la composition modulaires. Sur ALFWorld et Search-QA, LatentSkill surpasse la baseline de compétence contextuelle correspondante tout en utilisant considérablement moins de jetons de préremplissage : il améliore le succès sur ALFWorld de 21,4 et 13,4 points sur les segments vus et non vus, avec 64,1 % de jetons de préremplissage en moins, et améliore la correspondance exacte sur Search-QA de 3,0 points avec une réduction de 72,2 % du surcoût en jetons de compétence. Des analyses supplémentaires montrent que les LoRA de compétence générés forment une géométrie sémantique structurée, peuvent être contrôlés précisément via le coefficient de mise à l'échelle LoRA, et peuvent être composés par une arithmétique dans l'espace des paramètres lorsque les composantes des compétences sont alignées. Ces résultats suggèrent que les compétences dans l'espace des poids offrent un substrat efficace, modulaire et moins exposé pour étendre les agents LLM.
Les modèles de monde vidéo qui maintiennent une cohérence spatiale 3D entre les images générées reposent généralement sur une mémoire explicite de nuages de points construite dans l'espace RVB. Cette conception est à la fois coûteuse en calcul, nécessitant un rendu répété et un encodage VAE, et intrinsèquement avec perte, car le passage par l'espace pixel élimine les caractéristiques riches de la représentation latente apprise. Dans cet article, nous introduisons la mémoire spatiale latente pour les modèles de monde vidéo, un cache 3D persistant qui stocke directement l'information de scène dans l'espace latent de diffusion, évitant ainsi la reconstruction dans l'espace pixel. En nous appuyant sur cela, nous proposons Mirage, un cadre de mémoire spatiale dans l'espace latent qui construit la mémoire en élevant les tokens latents en 3D via une rétroprojection guidée par la profondeur et l'interroge en synthétisant de nouvelles vues par un warping direct dans l'espace latent. Cette formulation unifiée élimine à la fois la perte d'information de la reconstruction dans l'espace pixel et la charge computationnelle du ré-encodage et du rendu répétés. Les expériences montrent que la mémoire spatiale latente atteint une génération vidéo de bout en bout jusqu'à 10,57 fois plus rapide et une réduction de l'empreinte mémoire de 55 fois par rapport aux références explicites en 3D. En exploitant le prior géométrique du modèle de diffusion, Mirage obtient des performances de pointe sur WorldScore et une qualité de reconstruction robuste sur RealEstate10K.
Bien que les récents modèles d'édition vidéo guidés par du texte excellent dans des tâches élémentaires (par exemple, le transfert de style, l'insertion d'objets), les demandes des utilisateurs dans le monde réel sont hautement compositionnelles. Une seule instruction nécessite souvent plusieurs modifications couplées, telles que la modification des sujets, des actions et des angles de caméra, tout en préservant strictement le contenu spatiotemporel non concerné. Les benchmarks existants, fortement contraints par des modifications isolées et des métriques globales grossières, ne parviennent pas à diagnostiquer comment les modèles gèrent de tels flux de travail complexes. Pour combler cette lacune, nous présentons CoVEBench, un benchmark d'édition vidéo compositionnelle comprenant 416 vidéos sources soigneusement sélectionnées, 626 instructions d'édition multipoints et 9 990 éléments de checklist détaillés. Couvrant diverses dimensions d'édition, CoVEBench évalue les modèles via la conformité aux instructions jugée par MLLM et la fidélité vidéo, ainsi que des métriques automatisées pour la qualité vidéo. Des expériences approfondies révèlent que l'édition compositionnelle reste un défi majeur : les modèles actuels omettent fréquemment des modifications, violent les contraintes de préservation ou introduisent des artefacts lorsqu'ils traitent plusieurs opérations simultanément. CoVEBench fournit un banc d'essai diagnostique et exigeant pour faire progresser l'édition vidéo vers des flux de travail utilisateur réalistes.
Les LLM conventionnels conservent l'intégralité du cache KV chargé en mémoire pendant le décodage, ce qui entraîne un goulot d'étranglement sévère de la mémoire GPU pour les contextes ultra-longs. Dans ce rapport, nous proposons l'Attention Éparse Anticipatrice (LSA), un nouveau paradigme d'inférence alimenté par un Indexeur de Mémoire Neuronal construit sur l'architecture DeepSeek-V4. Plutôt que de prêter passivement attention à tous les jetons historiques, LSA prédit de manière proactive les besoins futurs du contexte et ne conserve dans la mémoire GPU que les morceaux KV critiques pour la requête. Essentiellement, nous instancions cette architecture via une stratégie d'entraînement découplé sans backbone. En formulant l'indexeur comme une architecture standard à double encodeur, nous l'entraînons indépendamment en utilisant des cadres d'entraînement standard de recherche, sans jamais charger le modèle backbone massif dans la mémoire GPU. Nous démontrons que ce paradigme « moins c'est plus » maximise considérablement l'efficacité du service tout en agissant comme un débruitage attentionnel efficace dans les tâches reposant sur une mémoire globale à long terme. Sur les principales suites d'évaluation de contexte long (par exemple, LongBench-v2, LongMemEval et RULER), FM-DS-V4 comprime l'empreinte moyenne du cache KV physique à seulement 13,5 % de la ligne de base du contexte complet, tout en préservant ou en augmentant légèrement la précision en aval (marge absolue de +0,6 % en moyenne). Essentiellement, aux échelles extrêmes de 500K, FlashMemory réduit la surcharge du cache KV physique de plus de 90 % sans déstabiliser les capacités de raisonnement centrales du backbone.
Le raisonnement spatial est une capacité fondamentale pour les modèles de langage multimodaux de grande taille (MLLMs) afin de percevoir et d’opérer dans le monde physique. Cependant, les benchmarks existants reposent principalement sur une évaluation passive (p. ex., VQA statique) ou sur des pipelines spécifiques aux simulateurs, échouant à évaluer une compréhension spatiale interactive générale. Nous introduisons SpatialWorld, un benchmark unifié conçu spécifiquement pour évaluer la compréhension spatiale interactive des agents multimodaux dans des tâches complexes du monde réel. Intégrant huit backends de simulation hétérogènes sous un protocole partagé et agnostique vis-à-vis du simulateur, SpatialWorld propose 760 tâches annotées par des humains dans divers domaines (p. ex., routines domestiques, voyages, collaboration sociale). Les agents doivent résoudre des tâches sous observabilité partielle uniquement visuelle, en collectant activement des preuves visuelles égocentriques et en exprimant leurs décisions via une interface d'action textuelle unifiée et native aux MLLMs. Pour une évaluation fiable, chaque tâche inclut un état initial validé par des humains, une trajectoire de référence et un vérificateur d'état terminal. L'évaluation de 15 agents avancés révèle que la résolution robuste de tâches spatiales reste difficile : le modèle le plus performant, GPT-5, atteint un taux de succès moyen des tâches (TSR) de seulement 17,4 %, tandis que le principal modèle open-source, Qwen-3.5, atteint 14,1 %. Des analyses supplémentaires révèlent un décalage clair entre le succès des tâches et l'efficacité d'exécution, ainsi que des variations de performance substantielles selon les domaines. Ces goulets d'étranglement dans l'exploration active et la planification à long horizon positionnent SpatialWorld comme un banc d'essai rigoureux pour les futurs agents spatiaux.
Nous examinons si les questionnaires psychométriques humains peuvent servir d'outils fiables pour caractériser et prédire le comportement des modèles de langage de grande taille (LLM) dans les interactions quotidiennes avec les utilisateurs. Nous analysons huit LLM open source en comparant leurs profils de valeurs et de personnalité, dérivés de deux méthodes différentes : les auto-évaluations sur échelle de Likert issues de questionnaires établis (PVQ-40/21 et BFI-44/10) et les probabilités de génération de réponses chargées de valeurs à des requêtes utilisateur courantes. Les deux profils divergent considérablement. La cohérence intra-constructe des items, souvent citée comme preuve de dispositions stables des LLM, disparaît dans les probabilités de génération. Nous attribuons cet écart au fait que les indices lexicaux explicites présents dans les items des questionnaires établis permettent aux modèles de reconnaître le construit cible et de répondre de manière socialement désirable et conforme à l'alignement, alors que les requêtes utilisateur réalistes ne fournissent pas de tels indices. De plus, les prompts de personnalité démographique modifient les réponses des modèles aux questionnaires humains d'une manière cohérente avec les schémas humains réels, mais de tels changements n'apparaissent pas dans les probabilités de génération des réponses aux requêtes utilisateur réalistes, ce qui montre leur capacité limitée à simuler les comportements des groupes démographiques cibles dans les interactions utilisateur réelles. Dans l'ensemble, notre étude montre que les questionnaires psychométriques humains sont des outils insuffisants pour prédire le comportement des LLM et suggère que le profilage basé sur la génération constitue une mesure plus précise.
Nous présentons Echo-Memory, une étude contrôlée des mécanismes de mémoire dans les modèles de monde conditionnés par l'action. Ces modèles génèrent des vidéos multi-segments à partir d'une première image, d'une invite textuelle et d'une séquence caméra-action, mais leur défaillance centrale est souvent la mémoire plutôt que la synthèse locale d'image : après que la caméra s'éloigne puis revienne, la scène ou l'objet saillant peut silencieusement changer. Les conceptions de mémoire existantes sont difficiles à comparer car les gains sont entremêlés avec des différences d'architecture, d'entraînement, de récupération et d'évaluation. Echo-Memory fixe l'interface action-vers-vidéo et ne fait varier que la manière dont l'historique est stocké et lu par le générateur. Sous une architecture commune de diffusion vidéo, d'optimiseur, de représentation caméra-action, d'échantillonneur et de pipeline d'évaluation, nous comparons le contexte brut, la mémoire par compression, les résumés spatiaux avec différents chemins de lecture, et la récurrence espace-état. Cette matrice appariée sépare quatre axes autrement confondus : capacité, compression, lecture et récurrence. Nous évaluons également la mémoire via un protocole à trois branches : qualité de rejeu, revisite en boucle intra-domaine et sondes de retour hors domaine. Les branches sont souvent en désaccord, montrant que la fidélité du rejeu n'est pas un indicateur suffisant pour se souvenir d'un monde. Trois conclusions en découlent. Le contexte brut constitue une base de capacité solide et améliore le retour hors domaine bien plus que les métriques de rejeu. La compacité n'est pas un substitut gratuit à la capacité : les mémoires agressives par compression spatiale et hybride perdent les preuves saillantes nécessaires au retour. Enfin, la récurrence espace-état par blocs est le mécanisme de retour hors domaine le plus puissant de notre matrice, montrant que la structure de la mémoire implicite compte autant que la décision de l'utiliser. Ces résultats fournissent un protocole compact pour étudier la mémoire dans les modèles de monde d'action au-delà des métriques de rejeu isolées.
L'inférence des modèles de langage à long contexte est limitée par la mémoire, car le cache KV croît avec la longueur du contexte. Les techniques récentes de compression du cache KV présentent des lacunes : elles dégradent sensiblement la qualité du modèle ou nécessitent un temps et des ressources de calcul considérables pour compresser une seule requête longue. De plus, de nombreuses méthodes exigent que l'entrée tienne dans la fenêtre de contexte du modèle cible et sont généralement incompatibles avec les moteurs d'inférence de production modernes. Les compresseurs encodeur-décodeur, qui transforment une longue séquence de tokens en une séquence plus courte de représentations latentes consommées par un décodeur, constituent en principe une alternative attrayante. Cependant, les approches existantes ne sont pas compétitives avec la compression du cache KV sur le front du compromis précision-efficacité. Dans ce travail, nous réexaminons la compression encodeur-décodeur et comblons cet écart. Nous commençons par une recherche d'architecture, en pré-entraînant de nombreuses variantes à partir de zéro afin de déterminer la meilleure façon de concevoir et d'entraîner les compresseurs encodeur-décodeur. Guidés par nos résultats, nous pré-entraînons en continu une famille de modèles avec un encodeur de 0,6B et un décodeur de 4B sur plus de 350 milliards de tokens chacun, à des taux de compression de 1:4, 1:8 et 1:16. Nous introduisons les modèles de langage à contexte latent (LCLM), une famille de compresseurs qui améliorent la frontière de Pareto en termes de performance générale, de vitesse de compression et d'utilisation mémoire maximale. Nous démontrons que les LCLM servent de backbones efficaces pour les agents à long horizon, permettant à l'agent de parcourir un long contexte compressé et d'étendre de manière adaptative les segments pertinents à la demande.
Les agents basés sur des modèles vision-langage (VLM) sont de plus en plus déployés dans des environnements de jeu interactifs. Pourtant, les benchmarks de jeu pour les agents VLM rapportent généralement un score unique en première tentative par paire (agent, jeu), se concentrent sur le jeu solo à un seul agent, et manquent de protocoles unifiés pour évaluer des classes d'agents hétérogènes (VLM commerciaux, VLM à poids ouverts et politiques de jeu spécialisées) sur un pied d'égalité. Nous comblons ces lacunes avec OmniGameArena, un benchmark en temps réel composé de douze jeux nouvellement construits sous Unreal Engine 5, couvrant le solo (7), le PvP (3) et le coopératif (2) avec des interfaces d'action unifiées, et la courbe de dynamique d'amélioration (Improvement Dynamics Curve, IDC), un harnais de réflexion agentique dans lequel un LLM réflecteur utilisant des outils affine de manière autonome une invite de compétence limitée sur plusieurs tours. Au-delà des scores de leaderboard en démarrage à froid, l'IDC révèle deux observables supplémentaires pour chaque paire (agent, jeu) : comment le score évolue au fil des tours de réflexion, et comment la compétence apprise se comporte sur des variantes de tâches non vues. Nous rapportons ces observables pour douze agents VLM sur le leaderboard en démarrage à froid et pour quatre agents de premier plan sous IDC.
Le pilotage linéaire des activations a gagné en popularité en tant que méthode simple et empiriquement efficace pour contrôler le comportement des modèles de langage. Plus récemment, des paradigmes de pilotage sphérique ont été proposés pour remédier aux limites des interventions additives, souvent motivés par l'hypothèse selon laquelle la norme des états cachés ne transporte pas d'informations pertinentes pour le concept. Dans ce travail, nous réexaminons cette hypothèse à travers une étude empirique contrôlée conçue pour dissocier les rôles des composantes angulaire et radiale. Nous montrons que les méthodes de pilotage diffèrent principalement par la façon dont elles couplent deux effets géométriques : la modification de l'alignement angulaire d'un jeton avec une direction conceptuelle et la modification de sa norme d'état caché. À travers sept modèles de langage, nous constatons que les concepts sont principalement représentés dans la structure angulaire, ce qui soutient la motivation des méthodes sphériques, mais que la norme reste importante pour la stabilité et les effets en aval du pilotage. Nos résultats expliquent pourquoi des interventions ayant des effets similaires au niveau conceptuel peuvent se comporter différemment, et suggèrent que le pilotage des activations devrait être paramétré par des composantes angulaires et radiales interprétables de l'intervention, plutôt que par un unique coefficient additif qui entrelace ces deux effets.
Les agents LLM s'appuient de plus en plus sur des conditions d'inférence externes : prompts, outils, mémoire, SOP, compétences et retours du harnais. Ces actifs peuvent améliorer l'exécution des tâches sans modifier les poids du modèle, mais ils sont souvent révisés par réflexion heuristique ou en réutilisant les succès et échecs observés comme si les seuls comptages constituaient une croyance fiable. Nous introduisons Bayesian-Agent, un framework natif et inter-harnais qui traite les compétences réutilisables et les SOP comme des hypothèses sur la probabilité qu'un modèle figé réussisse sous un prompt, un contexte et un environnement de harnais particuliers. Bayesian-Agent enregistre les preuves de trajectoire vérifiées, maintient un postérieur catégoriel conditionné par les caractéristiques pour chaque compétence, et mappe l'état postérieur en actions inspectables telles que patch, split, compress, retire et explore. Les prompts destinés au modèle reçoivent des garde-fous exécutables et des correctifs de modes d'échec, tandis que les résumés postérieurs restent disponibles pour vérification. Avec deepseek-v4-flash, la réparation incrémentale améliore SOP-Bench de 80 % à 95 %, Lifelong AgentBench de 90 % à 100 % et RealFin-Bench de 45 % à 65 %. Nous évaluons également le backend natif de Bayesian-Agent et les backends optionnels GenericAgent, mini-swe-agent et Claude Code. Les résultats incluent des configurations positives, négatives, saturées et des études de cas, suggérant que l'évolution des compétences de l'agent est mieux comprise comme une optimisation du harnais guidée par le postérieur plutôt qu'une accumulation non calibrée de prompts. Le code source est disponible à l'adresse https://github.com/DataArcTech/Bayesian-Agent.
La restauration vidéo en temps réel (VR) pour les flux en direct nécessite des sorties haute résolution tout en respectant des contraintes strictes de latence par image. Les modèles de VR basés sur la diffusion en une étape restent difficiles à déployer sur des GPU grand public en raison de deux goulots d’étranglement principaux : l’attention spatiale quadratique à hautes résolutions et la surcharge de latence-mémoire liée aux grands autoencodeurs vidéo. Nous présentons SwiftVR, un framework de VR générative en une étape et en flux continu qui réduit ces deux goulots d’étranglement grâce à un protocole causal par segments. Pour l’attention, l’auto-attention à fenêtre décalée sans masque regroupe chaque fenêtre spatiale en un tenseur dense via une indexation déterministe, maintenant tous les appels d’attention sur le chemin de l’attention dense par produit scalaire sans masques, décalages cycliques, remplissage ou noyaux creux spécifiques au matériel. Étant donné que SwiftVR utilise uniquement des appels SDPA denses standards, le modèle entraîné se transfère sur des GPU grand public sans réentraînement ni noyaux personnalisés. Pour l’autoencodage, un autoencodeur léger sensible à la restauration permet un décodage rapide par segments tout en préservant la qualité de reconstruction. Sur un seul H100, SwiftVR maintient 31 FPS en 2560x1440 et 14 FPS en 3840x2160, tandis que tous les modèles de VR basés sur la diffusion comparés dépassent la limite mémoire en 4K. Sur un RTX 5090 grand public, SwiftVR atteint 26 FPS en 1920x1080. À notre connaissance, SwiftVR est le premier modèle de VR générative à atteindre un streaming 1080p en temps réel sur un GPU grand public, tout en offrant une qualité perceptuelle sans référence élevée avec un coût d’inférence réduit. Le projet est disponible à l’adresse https://h-oliday.github.io/SwiftVR.
Les modèles monde-action sont devenus un paradigme prometteur pour la manipulation robotique, modélisant conjointement la dynamique visuelle de la scène et les actions afin d’injecter des a priori physiques dans l’apprentissage des politiques. Cependant, les modèles monde-action existants couplent la prédiction du monde et l’exécution d’actions à la même résolution temporelle, forçant la branche monde à modéliser des variations d’images à court terme qui sont redondantes et faiblement informatives. Nous postulons que lier strictement la prédiction du monde et l’exécution d’actions au même rythme temporel pourrait sous-utiliser le potentiel de la branche vidéo pour le contrôle incarné. C’est pourquoi nous proposons AHA-WAM, un modèle monde-action asynchrone et adaptatif à l’horizon, construit sur une architecture double transformateur de diffusion (DiT) qui réorganise la modélisation monde-action autour de cette asymétrie temporelle. AHA-WAM instancie le DiT vidéo en tant que planificateur du monde à basse fréquence qui maintient une mémoire clé-valeur glissante sur les observations passées et expose un contexte latent réutilisable par couche encodant l’évolution de la scène à long horizon, tandis qu’un DiT d’actions à haute fréquence exécute de courts segments d’actions en boucle fermée en interrogeant ce contexte via une attention conjointe par couche. Pour soutenir l’exécution asynchrone, nous introduisons l’entraînement par décalage adaptatif à l’horizon et le routage de contexte vidéo guidé par l’observation (OVCR), qui ensemble permettent à l’expert d’actions d’exploiter le contexte monde à long horizon tout en restant réactif à l’état d’exécution en temps réel sans réexécuter le DiT vidéo. Les expériences sur RoboTwin et des tâches de manipulation réelles montrent qu’AHA-WAM atteint des performances de pointe sans aucun pré‑entraînement sur des données robotiques, obtenant un succès moyen de 92,80 % sur RoboTwin et de 78,3 % sur quatre tâches réelles, tout en atteignant un contrôle en boucle fermée à 24,17 Hz avec une accélération de 4,59× par rapport à Fast‑WAM.
Whisper, un modèle ASR largement adopté, est connu pour souffrir d'hallucinations — des transcriptions cohérentes générées pour un audio non vocal, entièrement déconnectées de l’entrée. Nous étudions si les hallucinations peuvent être détectées et atténuées via les représentations internes de Whisper. Nous extrayons les activations de l’encodeur audio et évaluons deux espaces de représentation : les activations brutes de Whisper et les latents d’un auto-encodeur sparse (SAE). Nous montrons que les deux espaces encodent des informations liées aux hallucinations linéairement séparables, avec un pouvoir discriminatif concentré dans un sous-ensemble de caractéristiques sparse et augmentant vers les couches plus profondes de l’encodeur. Nous proposons deux stratégies de guidage : le guidage dans l’espace des activations et le guidage dans l’espace latent du SAE. Le guidage basé sur le SAE réduit le taux d’hallucination de 72,63 % à 14,11 % pour Whisper small et de 86,88 % à 27,33 % pour Whisper large-v3 sur l’ensemble de test non vocal complet, avec une légère dégradation du WER sur les données vocales, se rapprochant des performances des méthodes basées sur le fine-tuning.
Nous présentons DEI (Diversity in Evolutionary Inference, soit Diversité dans l'Inférence Évolutionnaire), un cadre de recherche distribué de Qualité-Diversité (QD) qui attribue des modèles de langage de grande taille (LLMs) hétérogènes comme opérateurs de mutation entre nœuds pairs communiquant par opérations collectives non bloquantes. Contrairement à la recherche parallèle homogène, qui reproduit les biais inductifs d'un seul modèle sur tous les travailleurs, DEI traite chaque prior créatif distinct d'un LLM comme une source complémentaire de nouveauté comportementale. En étendant le cadre Digital Red Queen avec DEI, les nœuds partagent les solutions optimales locales à la fin de chaque cycle pour ensemencer la population du cycle suivant. Cela crée une pression antagoniste inter-modèles qui renforce la robustesse au-delà de l'auto-jeu intra-modèle. Évalué sur le domaine Core War, un banc d'essai de programmation compétitive où des programmes guerriers Redcode s'affrontent dans une machine simulée, un ensemble hétérogène de quatre nœuds (GPT-5.4-mini, Claude Sonnet 4.6, GPT-5.2 et Claude Haiku 4.5) atteint un score QD d'archive fusionnée supérieur de 124 % (45,90 contre 20,46) et une couverture supérieure de 28 % (80,6 % contre 63,0 % des cellules) par rapport à une référence à nœud unique à budget total d'appels LLM égal. L'ensemble hétérogène surpasse également un ensemble homogène de même budget en termes de score QD, de couverture et de généralité des solutions retenues pour l'ensemble des quatre familles de modèles. Ces résultats fournissent la première preuve empirique que la diversité des modèles, et non le simple parallélisme, est le moteur clé du gain dans la recherche QD distribuée basée sur les LLMs.
Les modèles de récompense (RM) fournissent des signaux de rétroaction critiques pour le post-entraînement des LLM, notamment dans les pipelines de réglage fin renforcé (RFT) et d'apprentissage par renforcement (RL). Cependant, l'évaluation actuelle des récompenses repose sur des critères hétérogènes tels que des vérificateurs basés sur des règles, des références de vérité terrain, des listes de contrôle procédurales et des grilles d'évaluation complexes, pour lesquels un mécanisme unifié intégrant tous les types de preuves reste inexploré. À cette fin, nous proposons le modèle de récompense par compétence (Skill-RM), un cadre unifié qui reformule la modélisation de la récompense comme l'exécution d'une compétence d'évaluation de récompense réutilisable. En traitant le calcul de la récompense comme une tâche agentique structurée, Skill-RM offre une interface cohérente pour orchestrer des ressources hétérogènes, en sélectionnant et en agrégeant dynamiquement les preuves adaptées aux exigences spécifiques de chaque entrée. Cette approche permet au modèle de récompense de dépasser l'évaluation statique, garantissant cohérence et transparence à travers diverses tâches. Des expériences approfondies sur des références de récompense et des applications en aval, notamment la sélection du meilleur parmi N et l'apprentissage par renforcement, montrent que Skill-RM surpasse systématiquement les références de juges traditionnelles. Nos résultats suggèrent que Skill-RM offre non seulement une solution unifiée pour la modélisation de la récompense, mais atteint également des performances supérieures grâce à une orchestration stratégique et dynamique des preuves. Le code est disponible à l'adresse https://github.com/Qwen-Applications/Skill-RM.
Alors que les modèles de langage omnimodaux (OLLMs) ont démontré des capacités impressionnantes pour traiter conjointement des flux audio et visuels, leur aptitude à respecter strictement des instructions utilisateur complexes et multidimensionnelles reste largement inexplorée. Les référentiels existants se concentrent principalement sur la compréhension holistique de la vidéo ou le suivi d'instructions purement textuelles, sans parvenir à capturer l'interaction subtile entre les modalités et les contraintes utilisateur. Pour combler cette lacune, nous présentons OmniCap-IF, le premier référentiel complet spécialement conçu pour évaluer les capacités de suivi d'instructions dans la génération de légendes omnimodales. OmniCap-IF intègre un cadre systématique qui évalue les légendes selon deux dimensions : la correction du format et la correction du contenu. Notre référentiel englobe 50 types de contraintes distincts couvrant les modalités purement visuelles, purement audio et audio-visuelles, tout en intégrant l'ancrage temporel pour évaluer la précision spatio-temporelle. Des évaluations approfondies de modèles de premier plan sur 1 920 échantillons de haute qualité révèlent des disparités de performance significatives. De plus, notre analyse met en lumière un « compromis format-contenu » critique, démontrant qu'une complexité accrue du format dégrade directement les capacités de raisonnement omnimodal des modèles. Enfin, pour faire avancer le domaine, nous constituons un ensemble de données d'ajustement d'instructions de 54 000 échantillons, OmniCap-IF-54K, et présentons OmniCaptioner-IF, qui atteint des améliorations notables à la fois dans le respect d'instructions complexes et dans la performance générale de génération de légendes omnimodales.
Muon améliore l'efficacité d'entraînement par rapport à Adam dans l'entraînement des grands modèles de langage d'environ deux fois, mais la source géométrique locale de cet avantage reste floue. Notre travail constitue un premier pas vers la démystification de la supériorité de Muon sur Adam d'un point de vue de la courbure. Premièrement, nous appliquons une approximation de Taylor du second ordre au paysage d'entraînement et montrons que Muon obtient une plus grande diminution de la perte en une étape qu'Adam à perte de validation appariée. Les deux optimiseurs ont des gains de premier ordre comparables, mais Muon encourt systématiquement une plus faible pénalité de courbure de second ordre. Deuxièmement, nous décomposons cette pénalité de courbure en la norme de mise à jour au carré et la Netteté Directionnelle Normalisée (NDS). Nous constatons que Muon et Adam ont des normes de mise à jour comparables, donc la plus faible pénalité de courbure de Muon est due à une NDS plus faible, et non à l'échelle de mise à jour. Troisièmement, nous étudions comment les données d'entraînement et la structure du modèle façonnent l'avantage de Muon en NDS. En utilisant des données Zipf-PCFG (grammaire hors-contexte probabiliste) avec déséquilibre contrôlé, nous montrons que le déséquilibre des données amplifie l'avantage de Muon en NDS par rapport à Adam. Une décomposition intra-/inter-couche montre en outre qu'aux stades intermédiaires et tardifs de l'entraînement, la NDS plus faible de Muon est principalement soutenue par une plus faible courbure intra-couche. Au-delà des preuves empiriques, nous analysons des problèmes quadratiques stylisés avec une courbure hétérogène et un alignement du gradient vers les modes de haute courbure. Nous prouvons que Muon atteint une NDS moyenne plus faible que GD (descente de gradient) en équilibrant l'énergie de mise à jour entre les groupes de courbure ; lorsque l'hétérogénéité de la courbure est suffisamment forte, cela produit également une perte quadratique locale plus faible après le même nombre d'étapes.
Les agents de recherche approfondie ont démontré des capacités remarquables dans les tâches complexes de recherche d'information, mais cette puissance s'accompagne d'un coût computationnel élevé. Guidés par des paradigmes d'entraînement centrés sur la précision, les modèles actuels adoptent des stratégies de force brute caractérisées par une dépendance aveugle aux outils et un raisonnement performatif — générant des trajectoires longues et redondantes, loin d'être nécessaires à la résolution de ces tâches, ce qui entraîne des appels d'outils superflus et une consommation excessive de jetons. Pour surmonter ce piège d'efficacité, nous proposons SlimSearcher, un cadre théorique qui repousse la frontière de Pareto entre précision et coût computationnel, à la fois dans l'étape de Supervised Fine-Tuning (SFT) et d'Apprentissage par Renforcement (RL). Dans l'étape SFT, SlimSearcher utilise un filtrage Pareto-efficace pour distiller les trajectoires à la fois réussies et économes, orientant le modèle vers des comportements de recherche intrinsèquement conscients de l'efficacité. Pendant le RL, nous introduisons Adaptive Reward Gating, un mécanisme dynamique de façonnage des récompenses qui évalue l'efficacité relative des outils et des jetons au sein d'une cohorte échantillonnée. En cascade avec un strict seuil de correction, ces métriques adaptatives d'efficacité évitent efficacement le biais de brièveté associé aux pénalités absolues et atténuent le piratage de récompense. Des expériences approfondies sur des benchmarks à long horizon, notamment GAIA, BrowseComp et XBenchDeepSearch, montrent que SlimSearcher réduit le nombre moyen de cycles d'appels d'outils de 17 % à 58 % tout en maintenant ou en améliorant la précision.
Les grands modèles de langage basés sur la parole sont généralement limités à des réponses orales, ce qui restreint leurs sorties accessibles à l'utilisateur à ce qui peut être verbalisé et supprime les capacités natives du texte, telles que la génération de code, l'analyse structurée et le raisonnement multi-étapes en interaction temps réel, pour des tâches nécessitant des sorties intermédiaires persistantes, structurées et inspectables. Les travaux existants améliorent le raisonnement oral ou la prise de tour en full-duplex, mais considèrent toujours le texte comme un état intermédiaire caché ou une modalité subordonnée plutôt qu'un canal de sortie de première classe. Nous proposons Listen-Write-Speak (LWS), un paradigme à trois canaux axé sur le texte dans lequel un unique LLM autorégressif écoute en continu l'audio utilisateur, écrit un texte libre visible comme sortie principale, et produit en parallèle une réponse orale en temps réel sous un contexte d'attention causal partagé. Ce comportement est entièrement implémenté via un Schéma de Jetons, ne nécessitant aucune modification architecturale, et appris via un pipeline de données en deux étapes qui synthétise des annotations cognitives par seconde cohérentes avec la chronologie des entrées révélées. Empiriquement, LWS démontre une forte interaction full-duplex sur Full-Duplex-Bench, atteint 4,72 sur VoiceBench AlpacaEval, obtient 92,6 % de cohérence écriture-parole, et surpasse systématiquement ses ablations internes sur URO-Bench. Ces résultats suggèrent que l'écriture visible peut servir de canal de sortie de première classe pour l'interaction vocale sans sacrifier la réactivité en temps réel. Le code et l'ensemble de données sont disponibles sur la page du projet : https://royalzhang.com/project/lws-page/.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme de référence pour améliorer la capacité de raisonnement des grands modèles de langage grâce à une supervision basée sur les résultats. Cependant, les récompenses vérifiables deviennent fréquemment non informatives au niveau du groupe : lorsque toutes les traces échantillonnées pour une requête donnée reçoivent des récompenses identiques, l'estimation d'avantage relatif au groupe ne fournit aucun signal de gradient, même si ces traces peuvent différer considérablement en termes de qualité de raisonnement. Nous proposons Reasoning Arena, un cadre d'apprentissage adaptatif qui oriente ces groupes de récompenses non diversifiés vers un système de juges plutôt que de les ignorer. Au-delà de l'examen de la réponse finale, Reasoning Arena construit des tournois de traces, où les traces de raisonnement sont comparées en tête-à-tête afin de révéler des préférences plus fines au sein du groupe, convertissant ainsi la qualité du raisonnement en signaux de récompense relatifs riches. Pour une estimation efficace des récompenses, plutôt que de comparer exhaustivement chaque paire, chaque nouvelle trace est évaluée par rapport à un petit ensemble dynamique de traces générées précédemment, servant d'ancres, afin d'établir efficacement un classement relatif. Nous ajustons ensuite un modèle de Bradley-Terry sur le graphe de comparaison incomplet, ce qui permet une intégration évolutive avec l'apprentissage par renforcement sans nécessiter de comparaisons par paires quadratiques. Les résultats empiriques montrent que Reasoning Arena surpasse systématiquement la référence RLVR de 7,6 % en moyenne dans les benchmarks de mathématiques de compétition et de codage. En convertissant les échantillons à avantage nul autrement gaspillés en mises à jour de gradient utiles, notre méthode accélère l'entraînement de 27 % à 41 %, économise près de 50 % du calcul de génération et améliore considérablement la performance globale de raisonnement.
Les World Action Models (WAMs) étendent l'apprentissage de politiques robotiques en intégrant la prédiction future comme objectif d'entraînement supplémentaire, ce qui encourage la politique à encoder la structure temporelle pertinente pour la tâche dans ses représentations. Les WAMs actuels reposent souvent sur des architectures génératives à grande échelle, entraînant des coûts d'entraînement élevés et une latence d'inférence importante, ce qui les rend difficiles à déployer en tant que politiques en boucle fermée efficaces. Nous proposons Light-WAM, un World Action Model léger pour la manipulation robotique efficace. Plus précisément, il est construit avec un backbone vidéo compact et effectue une supervision vidéo future dans un espace latent sous-échantillonné, réduisant ainsi le coût du co-entraînement vidéo tout en conservant ses avantages pour l'apprentissage de représentations. Pour la prédiction d'actions, Light-WAM introduit StateFusionActionExpert, qui lit les états adaptés depuis plusieurs couches du backbone, les fusionne via un pooling par requêtes apprises, et prédit directement des blocs d'actions en un seul passage avant. Cette conception fournit une interface efficace entre les représentations du backbone vidéo et les actions robotiques, évitant le recours à des experts d'action génératifs lourds. Les expériences montrent que Light-WAM maintient de bonnes performances sur LIBERO et atteint des performances multitâches utilisables sur RoboTwin 2.0, tout en n'utilisant que 0,44 milliard de paramètres entraînables. Il atteint également une latence d'inférence de 72,03 ms avec un pic de mémoire GPU de 4,1 Gio et un débit d'entraînement amélioré.
Les pipelines QA à augmentation par récupération acheminent souvent les passages récupérés via un réécrivain LLM avant un lecteur plus petit, augmentant le F1 de dizaines de points sur les bancs d'essai multi-sauts ; ce gain est généralement attribué à une meilleure qualité des preuves. Nous nous demandons si cette amélioration est causalement due à la présence de la chaîne de réponse de référence dans le contexte réécrit plutôt qu'à la curation en soi, en utilisant un audit d'intervention contrôlé. Pour chaque contexte réécrit, nous réexécutons le lecteur après l'une des quatre modifications contrôlées apportées à la sortie compilée : suppression du span de réponse de référence, remplacement par un span aléatoire non lié à la réponse de longueur appariée (placebo), ou injection de la réponse de référence dans les réécritures où elle était absente (au préfixe ou à une frontière de phrase médiane). À travers douze séries d'interventions (cellule, référence) couvrant trois familles de lecteurs (Qwen2.5-7B, Qwen3.5-35B, GLM-4.7), deux jeux de données (HotpotQA, 2WikiMultihopQA) et trois arrangements de compilateurs (MA-only, MB-only, MA+verify), la suppression de la réponse de référence réduit le F1 du lecteur de 28 à 64 points par rapport au placebo de longueur appariée sur les strates appariées de réponse-dans-compilation, et l'ajout de la réponse de référence au préfixe dans les réécritures qui en étaient dépourvues augmente le F1 de +0,7 à +9,7 points dans 10 des 12 combinaisons (cellule, référence). Un audit compagnon à cinq sentinelles montre que la sonde conventionnelle à [MASK] unique est elle-même fragile face aux sentinelles : sur 2Wiki, elle rapporte un « résidu de non-fuite » de +4,12 F1 qui se transforme en -3,33 à -7,81 F1 sous quatre sentinelles alternatives et échoue à un test d'équivalence pour trois de ces quatre (1/4 réussite). Nous ne proposons pas de nouveau réécrivain ni d'atténuation ; nous publions l'exécuteur d'intervention et le panel de sentinelles afin que d'autres affirmations de gain par réécrivain puissent être testées selon le même standard.
Deep Research (DR) est apparu comme un nouveau paradigme agentique pour aborder des tâches de recherche complexes et ouvertes, exigeant des systèmes capables de cadrer itérativement des problèmes, d'acquérir des preuves, de vérifier des sources et de synthétiser des rapports détaillés. En pratique, cependant, les systèmes DR actuels sont contraints par quatre limitations interdépendantes : une planification à long terme sur un périmètre sous-spécifié, le goulot d'étranglement que constitue la décomposition et l'ordonnancement de ces tâches au sein d'un seul agent, le risque d'hallucination dans la synthèse longue, et une auditabilité limitée du processus. Ce rapport technique présente DuMate-DeepResearch, un cadre multi-agent DR construit sur la Qianfan Agent Foundry. Ce cadre découple le Cœur Agent, chargé de la compréhension des tâches, de la planification et de l'ordonnancement, d'un Écosystème d'Outils extensible pour la recherche, l'acquisition de preuves et le rendu de rapports, rendant chaque décision intermédiaire et invocation d'outil explicitement traçable. S'appuyant sur cette infrastructure, DuMate-DeepResearch introduit en outre trois mécanismes : (i) une stratégie de planification dynamique basée sur un graphe qui élargit la feuille de route de recherche du grossier au fin et la révisie en continu via la réflexion, la replanification, le retour en arrière et le branchement parallèle ; (ii) une conception d'exécution récursive à deux niveaux qui délègue chaque sous-tâche de recherche complexe à un Agent de Recherche interne exécutant sa propre boucle de planification, isolant ainsi la recherche brutée et stabilisant l'exécution à long terme ; (iii) un mécanisme d'optimisation basé sur une grille d'évaluation en phase de test qui génère dynamiquement des critères de qualité spécifiques à la tâche et les utilise comme échafaudages de raisonnement en direct pour une synthèse ancrée sur les preuves et un arrêt adaptatif. Sur deux benchmarks de recherche approfondie, DuMate-DeepResearch établit de nouveaux résultats de pointe : le meilleur score global (58,03 %) sur DeepResearch Bench, et le meilleur score global (61,95 %) sur DeepResearch Bench II, tout en se classant premier en termes de rappel d'information et d'analyse.
Les modèles texte-image utilisent les invites textuelles comme principale interface avec l'intention humaine. Ces invites sont encodées par un encodeur de texte en plongements (embeddings) qui conditionnent le processus de génération d'images. Au-delà de la signification individuelle des tokens, les plongements textuels encodent des informations contextuelles sur l'ensemble de l'invite, telles que la compositionnalité et l'attribution d'attributs. Cependant, il reste sous-exploré de savoir si les modèles d'images exploitent réellement ces informations plus riches. Ici, nous abordons la question suivante : quels aspects de la représentation textuelle sont essentiels pour la génération d'images ? Nous montrons que les modèles de diffusion basés sur des transformateurs texte-image ne reposent généralement que sur deux aspects relativement simples des représentations textuelles : (i) la fusion de tokens adjacents en une représentation de mot, pour les mots s'étendant sur plusieurs tokens, et (ii) l'ordre des mots, imprégné par le plongement positionnel de l'encodeur de texte. Pour le démontrer, nous construisons un nouveau plongement textuel qui encode uniquement les significations individuelles des mots et leur ordre, mais sans aucune information contextuelle sur l'ensemble de l'invite. Nous constatons que cette représentation de sac de mots étiquetés par position suffit à guider avec succès la génération d'images, atteignant une qualité visuelle et une fidélité textuelle comparables à celles obtenues avec un plongement textuel complet. Cela montre que, contrairement à une idée reçue, les modèles texte-image n'utilisent souvent pas les informations riches encodées dans le plongement textuel au-delà des significations individuelles des mots et de leur ordre. Au lieu de cela, le décodage des structures linguistiques complexes est effectué par le modèle d'image lui-même. Page web du projet : https://nsping13.github.io/contextless-TTI/
Les modèles Vision-Langage-Action (VLA) émergent comme un paradigme prometteur pour la manipulation robotique, permettant des politiques à usage général entraînées à partir de vastes corpus de démonstrations et d'annotations d'actions. Cependant, l'adaptation de ces modèles à de nouvelles tâches nécessite encore généralement des démonstrations spécifiques à la tâche, des annotations d'actions et un ajustement fin supplémentaire, ce qui rend le déploiement coûteux et difficile à passer à l'échelle. Nous proposons WIZARD, un cadre d'apprentissage méta dans l'espace des poids qui contourne l'ajustement fin spécifique à la tâche en générant des paramètres LoRA spécifiques à la tâche pour une politique VLA gelée. Étant donné seulement une instruction en langage et une courte vidéo de démonstration, WIZARD prédit les poids d'adaptation correspondants en un seul passage avant, sans annotations d'actions pour la tâche cible ni optimisation au moment du test. Pendant l'apprentissage méta, WIZARD apprend à mapper directement les preuves de la tâche aux mises à jour LoRA expertes, capturant les relations entre les tâches dans l'espace des poids. Les expériences sur LIBERO montrent que WIZARD améliore les performances jusqu'à ~2x sur des collections de données non vues et jusqu'à ~14x sur des tâches non vues. Sur un Franka Emika Panda, WIZARD améliore constamment une ligne de base adaptée au domaine réel, montrant que les adaptateurs générés fournissent une spécialisation au niveau de la tâche au-delà de la simulation.
La distillation sur politique (on-policy distillation, OPD) est devenue un outil central de post-entraînement pour les grands modèles de langage (LLMs), offrant une supervision dense par token de l’enseignant le long des propres rollouts de l’étudiant. Dans ce travail, nous identifions une cause structurelle commune sous-jacente à l’OPD, que nous appelons défaillance du préfixe. En cas de défaillance du préfixe, la supervision dense par token induit un mélange bimodal de l’enseignant et des gradients fragmentés que la troncature ou la repondération de perte au niveau des tokens ne parviennent pas à résoudre. Cette observation nous incite à dépasser les interventions sur la perte au niveau des tokens pour aller vers des corrections de sortie au niveau de la trajectoire. Nous proposons ainsi la distillation affinée par trajectoire (Trajectory-Refined Distillation, TRD), une méthode de correction au niveau de la trajectoire qui révise le rollout de l’étudiant sous la guidance de l’enseignant tout en restant dans le support on-policy. En corrigeant les préfixes problématiques avant la distillation, TRD atténue la défaillance du préfixe à sa source. De plus, TRD améliore l’exploration en exposant l’étudiant à des dérivations valides alternatives sous la guidance de l’enseignant, même lorsque les rollouts originaux sont déjà corrects. TRD peut également être appliqué à l’auto-distillation sur politique (on-policy self-distillation, OPSD), une variante avec partage des paramètres qui utilise le modèle étudiant conditionné sur des informations privilégiées comme enseignant. À travers un large éventail de benchmarks et de modèles de base à plusieurs échelles, TRD surpasse systématiquement les références antérieures, améliorant la précision en un seul essai et élargissant la couverture de raisonnement. Le code est disponible à l’adresse https://github.com/louieworth/trd.
L'apprentissage par renforcement avec des récompenses vérifiables a considérablement amélioré le raisonnement dans les modèles vision-langage. Cependant, pour la génération de comptes rendus de radiographies thoraciques, les récompenses standard (c'est-à-dire la précision de correspondance exacte et les processus au niveau des étapes) sont incompatibles car les comptes rendus consistent en des observations non ordonnées et orthogonales, et non en une chaîne de raisonnement causal. Nous comblons cette lacune avec une approche par ensembles : chaque compte rendu est divisé en phrases et plongé par un transformeur de phrases figé, produisant des ensembles de plongements non ordonnés. Nous proposons d'utiliser les distances entre les ensembles de plongements générés et de référence comme récompenses continues et invariantes par permutation. Sur deux ensembles de données et trois modèles vision-langage (Qwen3-VL-2B/4B, Gemma3-4B), le post-entraînement avec des récompenses basées sur les distances entre ensembles via GRPO surpasse systématiquement l'ajustement fin supervisé et le GRPO par correspondance exacte sur toutes les métriques principales (BERTScore, RadGraph F1 et CheXbert F1 avec des améliorations relatives moyennes respectives de 6,80 %, 7,82 % et 4,45 %). Les mêmes distances entre ensembles permettent également la sélection du meilleur parmi N en phase de test : le classement des candidats par leur distance aux plongements des rapports d'entraînement surpasse la sélection aléatoire sur nos modèles entraînés ainsi que sur trois LLM propriétaires (Mistral-Small, Gemini-2.5 Flash-Lite, GPT-4o-mini) avec une amélioration relative moyenne de 16,4 % sur le BERTScore. Utilisées comme signal en continu, elles permettent une forme plus efficace de passage à l'échelle en phase de test : l'élagage des candidats à faible score en cours de génération réduit les jetons générés de plus de 50 % tout en préservant la qualité des Findings de la sélection complète du meilleur parmi N. Ensemble, ces résultats établissent les récompenses par distance entre ensembles comme un signal unifié pour le post-entraînement et le passage à l'échelle en phase de test dans la génération de comptes rendus de radiographies thoraciques. Notre code est disponible publiquement à l'adresse https://anonymous.4open.science/r/Set-Distance-Rewards-CXR-BFDA{available}.
Les Vision Transformers opèrent sur des grilles de patches fixes, ce qui peut introduire une instabilité dépendante de la phase pour la prédiction dense : changer la partition des patches peut modifier l’évidence des tokens disponible pour un pixel, en particulier près des frontières. Nous formalisons la phase de la grille de patches comme une variable de nuisance et proposons la Marginalisation de Phase, une méthode de marginalisation post-hoc qui évalue des phases structurées de grille de patches, réaligne inversement les sorties denses, et les agrège dans le système de coordonnées de l’image d’origine. La variante centrale, la Marginalisation de Phase Uniforme avec K = 4, ne nécessite pas d’entraînement et améliore les résultats par rapport à la référence canonique K = 1 dans les contextes mesurés de segmentation, de profondeur et d’appariement local. Dans une expérience contrôlée sur Cityscapes, la Marginalisation de Phase Uniforme offre un avantage modeste, à coût de calcul équivalent, par rapport à l’augmentation de test générique à quatre passes basée sur des décalages (+0,31 d’Intersection sur Union moyenne par rapport à la meilleure ligne générique testée). Une étude de passage à l’échelle montre en outre que K = 4 constitue un compromis coût-précision pratique : K = 8 est essentiellement inchangé et K = 16 n’apporte qu’un faible gain de précision pour une latence beaucoup plus élevée. Ces résultats positionnent la phase de grille de patches comme une variable de nuisance mesurable et la Marginalisation de Phase comme une référence de diagnostic simple et de marginalisation post-hoc pour la prédiction dense avec ViT.
L’entraînement d’agents web vision-langage avec RL multi-étapes est coûteux en calcul, avec deux formes dominantes d’inefficacité : les GPU inactifs dans la RL synchrone, et les trajectoires qui utilisent plus d’étapes et de jetons que nécessaire. Nous présentons AsyncWebRL, qui remédie à ces deux problèmes. Du côté système, une conception asynchrone chevauche le déploiement, la mise à jour des gradients et l’actualisation de la politique entre les itérations, associée à deux adaptations spécifiques aux agents web, à savoir un pool de déploiement permanent et un traitement léger des captures d’écran, qui ensemble offrent une accélération du débit d’entraînement de bout en bout allant jusqu’à 2,9 fois par rapport au pipeline synchrone ouvert le plus rapide auparavant (WebGym). Du côté algorithmique, nous identifions le normalisateur par trajectoire 1/|τ_i| dans le GRPO multi-étapes comme la cause profonde de l’inefficacité au niveau des trajectoires et des jetons : comme les échecs sont systématiquement plus longs que les réussites, il réduit le poids du gradient négatif sur les jetons échoués, de sorte que la politique continue de produire des schémas de mémoire verbeux. Remplacer 1/|τ_i| par une constante 1/k brise ce couplage, contractant les trajectoires tout en préservant le succès agrégé. Ensemble, ces contributions établissent un nouvel état de l’art open-source sur la partition de test hors distribution de WebGym (+5,8 % en relatif par rapport au meilleur précédent de 42,9 %), avec les plus grands gains sur les tranches les plus difficiles (+42 % en relatif sur Medium, +48 % en relatif sur Hard).
Les études sur la généralisation faible-à-forte examinent comment améliorer un étudiant fort à l'aide d'une supervision provenant d'un enseignant faible lorsque les étiquettes fiables sont rares. Nous considérons ce problème principalement comme un problème de sélection de données, dont le défi central est d'identifier les étiquettes faibles suffisamment fiables pour servir de signal d'apprentissage. Pour y remédier, nous introduisons des fonctions de confiance qui attribuent à chaque étiquette faible un score de confiance scalaire, et utilisons ces scores pour filtrer la supervision faible. Dans plusieurs domaines, notamment les connaissances générales, le raisonnement quantitatif et les jeux de stratégie, le filtrage par confiance produit des étudiants qui égalent, et parfois surpassent, la supervision vérité terrain, permettant une généralisation faible-à-forte quasi sans perte. De plus, les fonctions de confiance permettent une chaîne itérative faible-à-forte qui amplifie les gains en entraînant un étudiant et en le réutilisant comme enseignant suivant, ce qui renforce les améliorations. Plusieurs mécanismes peuvent expliquer l'avantage conféré par les fonctions de confiance.
Le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) améliore les performances des grands modèles de langage (Large Language Models, LLMs) et a été étendu aux grands modèles de langage multimodaux (Multimodal Large Language Models, MLLMs). Des travaux plus récents vont plus loin, passant du raisonnement multimodal textuel au raisonnement intermodal (interleaved-modal reasoning), où les étapes intermédiaires peuvent intégrer à la fois des justifications textuelles et des preuves visuelles. Dans ce travail, nous proposons une idée plus audacieuse et ambitieuse : les images seules pourraient-elles servir de support de raisonnement pour les tâches langagières et multimodales ? Pour explorer cela, nous proposons le raisonnement optique (optical reasoning), qui considère les images comme un support de raisonnement autonome. Nous concrétisons ce concept avec deux variantes : le raisonnement optique typographique (typographic-based optical reasoning), qui optimise les mises en page visuelles pour un rendu compact des justifications, et le raisonnement optique graphique (graphical-based optical reasoning), qui compose du texte et des éléments graphiques en justifications visuelles structurées. Sur des benchmarks de raisonnement mathématique, scientifique et intermodal, le raisonnement optique peut égaler, voire dépasser le raisonnement textuel traditionnel, tout en réduisant le nombre de jetons de raisonnement (reasoning tokens) de 28,57 % en moyenne sur les tâches langagières et de 16 % sur les tâches multimodales, atteignant ainsi 1,96 fois l'efficacité en jetons du raisonnement textuel. Ces résultats montrent que les images peuvent coder de manière efficace et efficiente les justifications tout en offrant une toile visuelle unifiée pour le raisonnement.
Les récents modèles de monde basés sur la vidéo ont rendu les environnements au niveau des pixels interactifs à l’échelle de la caméra : les utilisateurs peuvent naviguer dans les points de vue tandis que le modèle génère des continuations visuelles cohérentes. Pourtant, leurs espaces d’action restent incomplets : les utilisateurs peuvent déplacer la caméra, mais ne peuvent pas agir sur des objets individuels. Étant donné que l’interaction dans le monde réel est intrinsèquement centrée sur les objets, ces modèles s’apparentent davantage à des observateurs passifs de scènes qu’à des environnements véritablement manipulables. Nous présentons WorldCraft, un framework qui étend les modèles de monde vidéo interactifs de la navigation par caméra aux actions de trajectoire au niveau des objets. À partir d’un clic utilisateur et d’un chemin esquissé, WorldCraft génère des images futures dans lesquelles l’objet sélectionné suit la trajectoire prescrite tandis que la caméra continue de naviguer dans la scène. WorldCraft y parvient grâce à un pipeline de contrôle centré sur la trajectoire : d’abord, la Normalized World Trajectory (NWT) représente le mouvement tracé par l’utilisateur dans un système de coordonnées mondiales invariant par rapport à la caméra et le reprojette dynamiquement sous la pose actuelle de la caméra, séparant ainsi le mouvement de l’objet du déplacement dans l’écran induit par la caméra ; ensuite, Spatial-Pathway LoRA (SP-LoRA) injecte ce signal dans l’espace mondial via la voie de contrôle spatial du modèle, ajoutant une capacité de manipulation d’objets tout en préservant le contrôleur de caméra pré-entraîné ; enfin, Trajectory-Anchored State Persistence (TASP) traite la trajectoire mondiale comme un état spatial persistant et actualise la mémoire autorégressive après une génération conditionnée par la trajectoire, permettant aux objets déplacés de réapparaître à leurs positions mises à jour après avoir quitté le champ de la caméra. Les expériences montrent que WorldCraft permet un contrôle précis des objets, préserve la fidélité de la caméra du modèle de monde vidéo lors d’évaluations uniquement basées sur la caméra et maintient l’état des objets lors de longs déroulements autorégressifs avec des excursions hors champ.
Les résultats d'évaluation de l'IA sont produits à grande échelle mais rapportés de manière incohérente entre les classements, les fiches modèles, les articles de référence et les blogs d'entreprise. Le coût est interprétatif : les lecteurs ne peuvent pas comparer de manière fiable les résultats d'une source à l'autre, identifier ce qu'un rapport omet, ou relier une affirmation agrégée à ses preuves sous-jacentes. Les efforts récents abordent des composants isolés mais laissent trois lacunes : ils ne couvrent que des segments étroits du cycle de vie de l'évaluation et ne se composent pas en un enregistrement interprétable unique ; ils spécifient des représentations statiques qui ne différencient pas les questions que les différentes parties prenantes apportent aux mêmes preuves ; et ils restent des propositions sur papier, dépourvues de l'infrastructure d'extraction nécessaire pour une adoption à grande échelle. Nous présentons une couche opérationnelle de reporting qui compose les métadonnées de référence, les données d'exécution d'évaluation et les métadonnées du modèle en un enregistrement unifié. Nous (1) dérivons un schéma de reporting d'une revue structurée de 52 articles et 10 entretiens avec des parties prenantes, (2) implémentons quatre signaux interprétatifs (reproductibilité, exhaustivité de la documentation, provenance et risque, et comparabilité des scores), rendus via des modes de lecture calibrés pour les publics de recherche et non-recherche, et (3) déployons un outil de monitoring qui applique cette approche sur 5 816 modèles, 635 références et 101 843 résultats, révélant des lacunes systématiques dans les pratiques de reporting actuelles.
Les détecteurs d'injection de prompt sont hétérogènes : chacun est performant sur une tranche différente d'attaques, et aucun n'est toujours fiable. Pourtant, les systèmes existants traitent encore la détection comme un pipeline fixe à détecteur unique, exposant chaque requête aux angles morts d'un seul détecteur. Nous reformulons la défense comme une allocation de détecteurs : à partir d'un pool hétérogène, décider pour chaque requête quels détecteurs exécuter et s'il faut escalader vers un juge LLM. Notre cadre SCOUT (Scalable and Controllable Outcome-prediction for Uncertainty-aware Triage) rend cette décision dynamique en prédisant la fiabilité et la latence par échantillon de chaque détecteur à partir de son comportement sur des entrées passées similaires, et expose un seul seuil sécurité-utilité à l'opérateur (où l'utilité regroupe le taux de passage bénin et le temps réel). Pour évaluer ce cadre, nous construisons SCOUT-450, un benchmark qui capture les injections complexes, orientées agents, que les anciens ensembles d'injection de prompt sous-représentent. Sur SCOUT-450, un point de fonctionnement orienté sécurité réduit le taux de succès des attaques de 46 % et le temps réel total de 40 % par rapport à un juge GPT-4o toujours actif, avec une baisse de 5,1 points de l'utilité bénigne. SCOUT se transfère également à trois benchmarks externes (BIPIA, IPI et IHEval), améliorant la frontière sécurité-utilité.
Les benchmarks d'agents évaluent les soumissions à l'aide de vérificateurs de résultats généralement écrits à la main et fragiles, ce qui les rend vulnérables au détournement de récompense. Nous auditons 1 968 tâches issues de cinq benchmarks d'agents terminaux et constatons que 323 d'entre elles (16 %) peuvent être détournées par des modèles de pointe à partir de la seule description de la tâche. Cela corrompt à la fois les classements des tableaux de bord et le signal d'apprentissage par renforcement, pourtant la réponse standard est manuelle et réactive. Nous introduisons la boucle hacker-fixer, une méthode pour construire des vérificateurs résistants aux exploitations sans correction manuelle par tâche. La boucle alterne trois agents LLM : un hacker tente de passer le vérificateur sans résoudre la tâche, un fixer corrige le vérificateur pour rejeter chaque exploitation découverte, et un solver confirme que le vérificateur corrigé accepte toujours les solutions légitimes. La boucle itère : chaque correction remodèle ce que le vérificateur récompense, faisant émerger l'exploitation suivante. Nous ajoutons également l'accès au vérificateur et permettons aux corrections de se transférer entre les tâches, afin d'élargir les exploitations que la boucle découvre. Sur KernelBench, la boucle réduit le taux de succès des attaques de 62 % à 0 % sur un corpus réservé d'exploitations publiquement rapportées. Nous constatons également que des agents plus faibles dans la boucle peuvent se défendre contre des hackers bien plus forts : la boucle de Gemini 3 Flash réduit le taux de succès des attaques des plus forts Gemini 3.1 Pro et Claude Opus 4.7 de 76 % et 61 % à 0 % sur KernelBench, et celui de Gemini 3.1 Pro de 39 % à 17 % sur Terminal Bench pour 77 tâches. Nous publions Terminal Wrench (323 environnements piratables, 3 632 trajectoires de piratage) comme un instantané de la surface d'attaque actuelle, nos vérificateurs corrigés, les exploitations découvertes par la boucle, ainsi que notre implémentation comme base pour les travaux futurs.
Les benchmarks existants d'extraction de relations scientifiques ciblent principalement des domaines tels que l'informatique, où les entités sont des tâches, des méthodes, des jeux de données, des matériaux ou des métriques. Cela laisse un vide dans les domaines empiriques orientés vers les variables, comme la psychologie, où les résultats sont exprimés sous forme de relations entre construits, mesures, interventions et résultats. Nous introduisons l'extraction de graphes empiriques centrés sur les variables, une tâche consistant à mapper des résumés scientifiques en graphes typés dont les nœuds sont des variables normalisées et les arêtes représentent des relations empiriques et hiérarchiques. Pour soutenir cette tâche, nous construisons EmpiriGraph-Psy, un benchmark de 210 résumés en psychologie annotés par des annotateurs formés au domaine avec des variables normalisées, des hiérarchies de concepts, des types de relations empiriques et des états de validation. Nous évaluons les LLMs de pointe et à poids ouverts en utilisant à la fois une extraction directe et un pipeline de construction de graphes par étapes qui sépare l'extraction des variables, la normalisation, la construction des hiérarchies, la sélection des preuves, l'extraction des relations et la validation des arêtes. Le pipeline par étapes surpasse nettement l'extraction directe, la meilleure configuration atteignant un macro-F1 de 0,74. L'analyse des erreurs montre que les relations de modération et les hiérarchies de concepts restent les cas les plus difficiles, soulignant la difficulté d'extraire des affirmations empiriques d'ordre supérieur et des structures d'abstraction implicites à partir de résumés scientifiques.
Comprendre ce que les modèles génératifs retiennent des données d'entraînement reste un défi, avec des implications pour le droit d'auteur et la vie privée. Au-delà de la reproduction textuelle, les modèles peuvent encoder des traces plus subtiles de leurs données d'entraînement qui n'apparaissent jamais dans leurs résultats mais restent exploitables. Nous étudions ce régime pour les Flux rectifiés, de plus en plus utilisés dans les systèmes génératifs déployés. Nous analysons le chemin d'interpolation X_λ = (1-λ)X_0 + λX_1 qui définit l'entraînement des Flux rectifiés. Nous montrons qu'il existe un écart entre la reconstruction des données d'entraînement et de test, qui suit une courbe en cloche en fonction de λ, cet écart s'accumulant durant l'entraînement tandis que les métriques de validation restent stables. Le signal présente un maximum dont nous dérivons la localisation sous forme fermée sous des hypothèses gaussiennes. Nous validons ces prédictions à la fois sur de l'audio et des images, et montrons que la structure en cloche est universelle, tandis que la prédiction du pic tient lorsque nos hypothèses sont satisfaites. Comme preuve de concept, nous exploitons cette structure spécifique résolue en λ pour réaliser une attaque par inférence d'appartenance, distinguant les membres de l'ensemble d'entraînement des non-membres.
Les systèmes d'agents médicaux sont de plus en plus appelés à soutenir une prise de décision clinique interactive plutôt qu'un simple questionnement statique. Dans de tels contextes, des agents efficaces doivent réutiliser l'expérience antérieure à travers des cas en évolution, mais les mécanismes de mémoire existants conservent souvent des traces historiques brutes qui sont redondantes, bruyantes et difficiles à gouverner. Plus important encore, ils distinguent rarement quels souvenirs sont réellement utiles pour le raisonnement futur. Cela limite leur capacité à accumuler une expérience compacte et fiable pour un raisonnement clinique à long terme. Pour combler cette lacune, nous proposons SkeMex, un cadre d'auto-évolution post-déploiement qui améliore les agents médicaux via une mémoire basée sur les compétences sans mettre à jour les poids du modèle. SkeMex distille les trajectoires d'interaction informatives en compétences structurées qui encodent des connaissances procédurales réutilisables, et les organise dans un répertoire multi-branches couvrant l'expérience générale, spécifique à la tâche et au niveau des actions. Pour déterminer quels souvenirs doivent être réutilisés et conservés, SkeMex estime l'utilité dépendante du contexte à partir du retour d'information de l'environnement et l'utilise pour guider la récupération sensible à la valeur et la gouvernance du répertoire. Un cycle fermé « Lire–Écrire–Évaluer–Gouverner » soutient en outre l'évolution continue en écrivant de nouvelles compétences, en mettant à jour les utilités, en promouvant les souvenirs utiles et en supprimant les entrées nuisibles. Des expériences sur diverses tâches cliniques montrent que SkeMex surpasse systématiquement les agents basés sur la mémoire représentatifs, tant en contexte hors ligne qu'en ligne. Il se généralise également à différentes architectures de modèles et prend en charge une mémoire de compétences transférable. Toutes les données et tout le code seront rendus publics.
Nous présentons SigmaScale, une méthode d’apprentissage de matrices d’échelle auxiliaires S destinées à faciliter la compression de modèles de langage de grande taille (LLM) par décomposition en valeurs singulières (SVD) tronquée. Plutôt que de dériver analytiquement les matrices d’échelle, SigmaScale optimise deux ensembles de vecteurs définissant des transformations d’échelle diagonales par lignes et par colonnes, sous une perte de compression sensible aux activations. Nous montrons que l’échelle apprise réduit le rang intrinsèque effectif des matrices de poids, comme l’indique la diminution de l’entropie du rang effectif, et que cette réduction est fortement corrélée à la perte de compression. Des expériences sur Llama 3.1 8B Instruct et Qwen3-8B montrent que SigmaScale rivalise avec les méthodes de compression par SVD de pointe les plus proches, tant en termes de perplexité que de performances en contexte zero-shot. En utilisant des transformations apprises et conscientes des activations, SigmaScale explore une voie plus flexible vers la compression de type faible rang des LLM, en s’adaptant à la structure propre à chaque poids du modèle. L’avantage observé sur certaines tâches fait de notre approche une option valable pour les applications nécessitant un coût de calcul d’inférence réduit pour les LLM.
Les grands modèles de langage sont de plus en plus évalués par d'autres modèles, ce qui soulève une question naturelle : un modèle peut-il prédire comment un juge notera sa propre production ? Nous constatons que cette capacité est largement présente avant tout entraînement ciblé : avec une sollicitation few-shot, un modèle de base prédit déjà les scores de qualité multi-attributs d'un juge externe sur des réponses ouvertes, bien au-dessus du hasard, sur trois bancs d'essai. Nous introduisons l'Elicitation d'Auto-Évaluation (SEE), une méthode qui fait émerger cette capacité latente via un court cycle comprenant une phase d'apprentissage par renforcement couplée à la calibration, améliorant la réponse et prédisant le juge, suivie d'une phase de distillation masquée qui affine la prédiction sans modifier la réponse. À partir de 160 exemples uniques, soit environ 31 fois moins qu'une baseline d'apprentissage par renforcement, SEE améliore la calibration sur données non vues sur trois bancs d'essai tout en préservant la qualité des réponses. L'auto-évaluation ainsi elicité est nettement localisée dans la distribution de tokens propre au modèle et reste stable à travers des juges jamais rencontrés lors de l'entraînement, ce qui indique une notion de qualité transférable plutôt qu'une préférence d'un juge unique. Ces résultats reformulent l'auto-évaluation alignée sur le juge comme un problème d'élicitation plutôt que d'acquisition.
Le raisonnement visuel latent (RVL) insère des jetons latents supervisés entre la perception et la génération de réponses dans les modèles vision-langage (MVL). Ce domaine utilise l'alignement entre ces latents et leurs cibles visuelles, c'est-à-dire la similarité cosinus ou l'erreur quadratique moyenne (EQM), à la fois comme fonction de perte et comme métrique de qualité, en supposant qu'un meilleur alignement conduit à une meilleure réponse. Nous testons cette hypothèse avec une matrice conçue de cinq variantes de RVL et constatons que le postulat est inversé : l'alignement cosinus est corrélé négativement à la précision pour les cinq variantes (r = -0,94). Pour expliquer cela, nous introduisons PRISM, une paire de diagnostics en inférence : une sonde linéaire qui détermine où la réponse est décodeable, et un test de corruption qui évalue si le latent est porteur. Les latents supervisés sont largement contournés. Leur corruption modifie la précision d'au plus quatre points. La réponse est décodeable en aval du latent mais pas à son niveau, et l'ampleur de cet écart de décodeabilité prédit à quel point chaque variante dépend de son latent sous perturbation. Conformément à une lecture de la perte par le goulot d'étranglement informationnel, l'objectif auxiliaire remodèle le modèle de langage via des paramètres partagés plutôt que via la variable latente qu'il optimise nominalement.
Les transformateurs standards appliquent l'auto-attention de manière uniforme à chaque couche et chaque token, indépendamment du fait que l'entrée nécessite ou non une interaction dynamique entre tokens. Nous proposons CHIAR-Former (Chiaroscuro Attention), un transformateur hybride à 4 couches qui achemine chaque token vers l'un des trois opérateurs — mélange spectral par DCT, mélange par noyau RBF ou auto-attention complète — en fonction de l'entropie spectrale par token, un signal de complexité justifié théoriquement. Par une ablation systématique sur WikiText-103, nous découvrons un effondrement du routage : le routeur rejette systématiquement le RBF au profit de la DCT et de l'attention, révélant que le mélange spectral et l'attention dynamique sont complémentaires et suffisants. Une variante conçue spécialement, combinant uniquement DCT et Attention, atteint une PPL de validation de 36,54 sur WikiText-103 — soit une amélioration de 45% par rapport à une ligne de base avec attention complète (PPL 66,62) avec 62,5% de FLOPs d'attention en moins. Nous étendons l'évaluation à WikiText-2, à la classification de sentiments IMDB et aux opérations synthétiques ListOps, établissant un régime d'utilisation clair : CHIAR-Former excelle sur les textes naturalistes à grande échelle où la diversité des tokens favorise la spécialisation spectrale, tandis que l'attention complète conserve un avantage sur les petits jeux de données et les tâches synthétiques de correspondance de motifs. Ces résultats — à la fois les gains et les pertes — définissent ensemble quand et pourquoi le routage spectral justifie son utilisation.
Les tâches agentiques à long horizon posent un défi fondamental d'attribution de crédit pour l'apprentissage par renforcement basé sur les résultats : les récompenses au niveau de la trajectoire vérifient l'exactitude finale mais fournissent peu d'indications sur les étapes de raisonnement intermédiaires ou les interactions avec les outils qui contribuent au résultat. La difficulté est particulièrement prononcée dans les agents de recherche multi-tours, où les trajectoires réussies peuvent contenir des actions trompeuses et les trajectoires échouées peuvent contenir des étapes précieuses de collecte de preuves. Nous proposons PBSD (Privileged Bayesian Self-Distillation), une méthode d'auto-distillation calibrée par Bayes pour une attribution de crédit fine sous récompenses finales éparses. PBSD mesure la qualité de la trajectoire par le rapport de probabilité a posteriori sur a priori de la réponse vérifiée et applique la règle de Bayes pour convertir ce rapport côté réponse difficile à estimer en un rapport de vraisemblance tractable entre un modèle étudiant standard et un modèle enseignant privilégié conditionné par la réponse. Une décomposition autorégressive de ce score de preuve bayésien génère des signaux au niveau du tour qui identifient si chaque tour intermédiaire soutient ou nuit au résultat vérifié. Par conséquent, PBSD fournit un schéma de repondération élégant et fondé sur des principes qui transforme la supervision éparse des résultats en signaux de crédit au niveau du tour calibrés par Bayes, tout en restant pleinement compatible avec l'optimisation de politique standard. Les expériences démontrent que PBSD améliore systématiquement les performances dans des contextes intra-domaine et hors domaine, et transfère efficacement les connaissances d'un entraînement en contexte court à une inférence en contexte long, suggérant que son mécanisme d'attribution de crédit fine facilite un apprentissage de politique plus efficace et conduit à une meilleure généralisation.
Les progrès récents en manipulation robotique ont été largement motivés par l'apprentissage à partir de démonstrations à grande échelle. Pour les tâches de loco-manipulation des robots humanoïdes, cependant, les sources de données existantes imposent un compromis insatisfaisant entre la qualité des trajectoires et l'évolutivité. La téléopération dans le monde réel fournit les trajectoires de la plus haute qualité, mais nécessite un espace physique dédié et des réinitialisations de scène chronophages. La simulation offre une alternative pour sortir de ce dilemme : elle peut produire des données propres, alignées sur l'incarnation, à grande échelle sans aucun matériel physique. Dans cet article, nous proposons OASIS, un cadre basé sur les données de simulation pour la loco-manipulation humanoïde. OASIS reconstruit automatiquement des actifs d'objets réalistes à partir d'images du monde réel en utilisant un modèle génératif 3D. Sur la base de ces actifs, les trajectoires sont d'abord collectées par téléopération en simulation, puis augmentées sous diverses randomisations de domaine dans une étape de post-traitement. Avec les données de simulation résultantes, nous concevons en outre une politique visuomotrice hiérarchique pour la loco-manipulation humanoïde. Des expériences approfondies sur le robot humanoïde réel montrent que, lors d'un déploiement zero-shot, la politique entraînée sur nos données de simulation atteint des taux de succès plus élevés sur la plupart des tâches que celle entraînée sur les données de téléopération du robot réel, en grande partie grâce aux larges variations d'éclairage et d'environnement couvertes par notre rendu de simulation, que les données du robot réel ne parviennent pas à capturer. La page du projet est disponible à l'adresse https://oasis-humanoid.github.io/.
Cet article explore la compréhension spatiale 3D agentique, c'est-à-dire des agents MLLM effectuant un raisonnement 3D par l'utilisation d'outils. Les méthodes existantes abusent souvent des outils et présentent des préférences d'outils biaisées dans les scénarios 3D, ce qui confère au paradigme agentique des gains seulement marginaux par rapport aux stratégies non-agentiques. Nous révélons que les tâches de raisonnement spatial 3D sont hétérogènes selon les scènes, tandis que ces agents appliquent une stratégie uniforme d'utilisation d'outils à toutes les scènes plutôt que de sélectionner les outils en fonction de la scène et de la tâche spécifiques. Pour remédier à cela, nous proposons Skill-3D, un cadre qui apprend des compétences contextuelles auto-évolutives. Plus précisément, Skill-3D identifie la scène de la tâche et enregistre la trajectoire d'utilisation d'outils de l'agent dans une Mémoire de Scène, où les trajectoires réussies provenant de scènes similaires sont agrégées et distillées en une compétence contextuelle réutilisable, tandis que les trajectoires échouées sont attachées à la compétence en tant que leçons. Pendant l'entraînement, dès qu'une scène similaire se reproduit, la compétence correspondante est injectée pour guider l'agent, produisant de nouvelles trajectoires dont les réussites et les échecs affinent davantage la compétence, formant une boucle dans laquelle la mémoire et la bibliothèque de compétences co-évoluent. Les expériences montrent que Skill-3D améliore considérablement l'utilisation des outils dans le raisonnement spatial 3D (de 39 % à 78 % sur VSI-Bench), orientant l'agent vers une utilisation correcte et suffisante des outils. Par exemple, il améliore Gemini-3-Flash de 67 % sur MMSI-Bench. De plus, nous effectuons un post-entraînement agentique sur des trajectoires guidées par les compétences, ce qui améliore Qwen3-VL-8B de 43 % sur VSI-Bench.
Équiper les grands modèles de langage (LLMs) pour exécuter des flux de travail multi-étapes fiables est devenu un défi central en intelligence artificielle. Malgré les avancées récentes dans les capacités agentiques des LLMs, la plupart des systèmes agents manquent encore de méthodes formelles pour spécifier, vérifier et déboguer leurs flux de travail et leurs trajectoires d'exécution. Ce défi reflète un problème de longue date en mathématiques, où l'ambiguïté des langues naturelles (NLs) motive le développement de langages formels (FLs). Inspirés par ce paradigme, nous proposons **Lean4Agent**, à notre connaissance, le premier cadre qui utilise Lean4, un langage formel à types dépendants, pour modéliser et vérifier le comportement d'un agent. **Lean4Agent** lance **FormalAgentLib**, une bibliothèque Lean4 extensible pour modéliser et vérifier formellement la cohérence sémantique des flux de travail d'agents sous des hypothèses explicites, et permettre la localisation des défaillances lors de l'exécution révélées par les trajectoires. En nous appuyant sur **FormalAgentLib**, nous développons ensuite **LeanEvolve**, qui applique les résultats de **FormalAgentLib** pour réviser les flux de travail afin d'améliorer leurs capacités. Des expériences approfondies sur un sous-ensemble de problèmes difficiles de SWE-Bench-Verified et un sous-ensemble d'ELAIP-Bench avec 5 LLMs de premier plan indiquent que les flux de travail réussissant la vérification surpassent ceux qui échouent de **11,94 %** en moyenne, et **LeanEvolve** améliore encore les performances SWE de **7,47 %** en moyenne. De plus, **Lean4Agent** jette les bases d'un nouveau domaine utilisant un langage formel expressif à types dépendants pour modéliser et vérifier formellement le comportement des agents.
Le Mélange d’Experts (MoE) est désormais l’architecture dominante pour les modèles de langage de pointe, mais elle exige que tous les paramètres des experts soient chargés en mémoire, ce qui la rend moins adaptée aux déploiements contraints en mémoire. Les méthodes de compression existantes réduisent le nombre d’experts, mais le résultat reste un modèle MoE avec la même limitation fondamentale. Nous présentons le premier cadre systématique pour convertir un MoE entraîné en une architecture entièrement dense standard : les experts sont évalués, sélectionnés et regroupés, puis concaténés en un FFN dense et affinés par distillation de connaissances à partir du professeur MoE. Nous évaluons 7 méthodes d’évaluation, 5 méthodes de regroupement et 2 méthodes de mise à l’échelle de magnitude pour différents nombres d’experts sélectionnés sur Qwen3-30B-A3B, générant 350 configurations. Nous constatons que le choix de la méthode d’évaluation a le plus d’impact, notre nouvelle évaluation sensible à la diversité surpassant systématiquement les méthodes antérieures sur Qwen3-30B-A3B, DeepSeek-V2-Lite et GPT-OSS-20B. Dans une comparaison contrôlée à nombre de paramètres équivalent, la conversion MoE-vers-dense surpasse l’élagage dense-à-dense de +6,3 points de pourcentage en précision moyenne en aval après une distillation d’environ 4 milliards de tokens, avec une vitesse d’entraînement 1,6 fois plus rapide en temps réel.
Les agents de type Réflexion s'appuient sur des réflexions auto-générées comme mémoire, supposant implicitement que les agents peuvent diagnostiquer avec précision leurs propres échecs. Nous montrons que cette hypothèse peut échouer de manière systématique : dans ALFWorld et HumanEval, les agents stockent des interprétations confiantes mais incorrectes de la tâche et continuent d'agir en fonction de celles-ci à travers les essais, même si l'environnement se réinitialise à la tâche correcte à chaque fois. Nous appelons ce mode de défaillance la confabulation de mémoire et introduisons le taux de répétition des réflexions (RRR), une métrique basée sur les logs qui détecte une dépendance répétée à un contenu réflexif incorrect. En utilisant le RRR, nous identifions 16 environnements figés dans ALFWorld, où 0 réflexion sur 121 mentionne l'objet cible correct, et 4 cas analogues dans HumanEval. Notre atténuation remplace l'auto-diagnostic ouvert par une extraction programmatique des signaux d'échec au niveau de la trajectoire, augmentant la mention correcte de l'objet de 0 % à 86 %, réduisant le RRR de 0,64 à 0,10, et résolvant 3 des 16 environnements figés d'ALFWorld, suggérant que la mémoire réflexive peut renforcer des croyances erronées plutôt que les corriger.
L'imagerie hyperspectrale passive dans l'infrarouge lointain (LWIR) en configuration distante dépend de l'absorption et de l'émission atmosphériques, ainsi que de la radiance réfléchie, ce qui rend la compensation atmosphérique essentielle pour obtenir des informations sur une cible d'intérêt. Malgré son importance, cette compensation a été largement négligée en raison des difficultés pratiques et de modélisation qu'elle présente. Dans cet article, nous présentons un cadre d'apprentissage profond léger basé sur des ensembles, qui prend en entrée plusieurs mesures de radiance collectées à différentes distances de mesure, et estime conjointement la transmittance, la radiance du trajet atmosphérique et un spectre de rayonnement descendant partagé. Nous analysons la représentation apprise à l'aide d'un autoencodeur parcimonieux et observons que plusieurs caractéristiques latentes s'activent sur des sous-ensembles géographiquement cohérents des données de test, malgré l'absence de supervision spatiale. Des expériences sur un jeu de données LWIR distant généré par MODTRAN montrent une faible distorsion spectrale pour tous les produits estimés. Le jeu de données et le code sont disponibles publiquement à l'adresse : https://factral.co/SAE-LWIR/
La localisation géolocalisée inter-vue estime la localisation géographique d'une image au sol en la faisant correspondre à une base de données d'images aériennes. Les méthodes existantes abordent cela soit par une recherche à grande échelle, soit par une estimation précise de la pose, mais pas les deux : les méthodes basées sur la recherche permettent une recherche sur une vaste zone au détriment de la précision de la localisation, tandis que les méthodes d'estimation de pose atteignent une haute précision uniquement dans un espace de recherche restreint. L'enchaînement naïf de ces pipelines introduit une propagation d'erreurs et des représentations de caractéristiques incohérentes. Nous formulons la localisation géolocalisée inter-vue comme un problème unifié nécessitant à la fois une recherche à l'échelle de la ville et une estimation précise de la pose à 3 degrés de liberté (DoF). Nous proposons CIPER (Cross-view Image-retrieval and Pose-estimation transformER), une architecture unique qui effectue conjointement les deux tâches grâce à un apprentissage de caractéristiques mutuellement bénéfique. CIPER utilise un encodeur transformer partagé avec des jetons spécifiques aux tâches pour séparer les caractéristiques globales de recherche des indices de localisation spatiale. Afin de combler le grand fossé de domaine entre les vues au sol et aériennes, nous introduisons un décodeur de pose transformer bidirectionnel qui utilise les caractéristiques du sol comme requêtes spatiales pour une attention croisée bidirectionnelle. Une stratégie de prédiction d'ensemble permet en outre une régression stable à 3 degrés de liberté sous un objectif multitâche unifié. Des expériences sur VIGOR, KITTI et Ford Multi-AV démontrent des performances compétitives, en particulier sous un champ de vision limité et des conditions d'orientation arbitraires. Le code est disponible sur https://github.com/yurimjeon1892/CIPER.
Les métriques de fidélité sans référence vérifient chaque affirmation atomique d'un modèle par rapport à la vérité terrain et sont de plus en plus utilisées pour évaluer la génération contextualisée. Nous montrons qu'elles partagent un angle mort : elles ne mesurent que la précision – les affirmations énoncées sont-elles étayées ? – et récompensent donc l'abstention, puisqu'un modèle peut obtenir une fidélité quasi parfaite en ne disant presque rien. Nous rendons cela mesurable à l'aide de la télémétrie de Formule 1, un domaine où la vérité terrain stratégique est dérivée de manière déterministe et, surtout, complète : pour chaque décision, nous connaissons l'ensemble complet des faits qui ont compté. Cette complétude – absente des benchmarks de fidélité en domaine ouvert – nous permet de mesurer exactement le rappel (couverture des faits pertinents), parallèlement à la précision. Sur un benchmark multilingue (EN/ES/PT) de 7 253 décisions couvrant 150 courses, le modèle de pointe le plus précis couvre moins de la moitié des faits pertinents et se classe dernier en F1, de sorte que l'exigence de couverture réordonne les systèmes ; le même effet réapparaît dans un second domaine à oracle complet (prévisions météorologiques de la NOAA). Une ablation de l'invitation montre que la faible couverture n'est pas un artefact de sous-invitation : demander explicitement aux modèles d'être exhaustifs ne comble pas l'écart. Nous associons la fidélité et la couverture en un seul score, validons la métrique (perturbation contrôlée ; concordance entre un extracteur regex sans modèle et un extracteur LLM inter-familles, Spearman 1.0 au niveau système), et proposons une méthode de génération guidée par un vérificateur qui améliore la précision et le rappel sans référence. Nous publions le benchmark, les annotations structurées, la métrique, les bases de référence et une démo interactive.
Les grands modèles de langage (LLMs) offrent une approche prometteuse pour la traduction automatique (TA) de langues extrêmement peu dotées, en intégrant des ressources linguistiques via l'apprentissage contextuel. Cependant, les LLMs peinent souvent à appliquer efficacement les informations grammaticales lors de la traduction. Inspirés par les récents progrès du raisonnement en chaîne de pensée (chain-of-thought), nous étudions si la TA pour langues peu dotées peut tirer parti d'étapes intermédiaires structurées d'analyse linguistique et de raisonnement grammatical. Nous proposons un pipeline pour générer automatiquement des traces de raisonnement linguistique étape par étape à partir de banques d'arbres de dépendances universelles (Universal Dependencies treebanks), de dictionnaires et de banques de règles grammaticales. Nous évaluons ces traces dans trois contextes : l'apprentissage contextuel (ICL), l'ajustement supervisé (SFT) et l'ajustement par renforcement (RFT), en prenant le xibe et le chintang comme cas de test. Nos résultats montrent que les traces de raisonnement linguistique sont plus efficaces comme guidage au moment de l'inférence : en ICL, des traces fiables spécifiques aux phrases améliorent considérablement les performances de traduction pour la plupart des modèles, langues et métriques. En revanche, l'utilisation de ces traces comme données d'entraînement produit des gains plus faibles et moins cohérents, car les modèles apprennent le format des traces mais génèrent souvent un contenu erroné. Ces résultats suggèrent que les LLMs peuvent exploiter les informations grammaticales pour la TA de langues peu dotées lorsqu'ils disposent d'analyses linguistiques fiables, tandis que l'apprentissage de la génération de telles analyses reste un goulot d'étranglement majeur.
Les graphes de propriétés d'entreprise varient considérablement dans leur structure de schéma, leur terminologie interne, leurs hypothèses de domaine, leurs contraintes de gouvernance et leurs schémas d'interaction utilisateur. Un benchmark Text2Cypher pertinent pour le déploiement reflète donc les questions que les utilisateurs et les agents posent réellement à ce graphe. Créer un tel benchmark est difficile car les schémas et les valeurs sont uniques, et la structure du graphe évolue dans le temps. Chaque paire NL-requête doit également être exécutable, utiliser des entités réelles du graphe, préserver la diversité et rester équilibrée entre les types de requêtes et les niveaux de difficulté. Nous présentons PIPE-Cypher, un pipeline local de génération de benchmarks qui transforme un graphe de propriétés en direct et des requêtes seed optionnelles issues de questions clients, de journaux d'analyse ou d'appels d'outils agents en benchmarks équilibrés NL-vers-Cypher. PIPE-Cypher combine le profilage de schéma, l'ancrage par requête inverse, la génération sous contraintes, la gouvernance Cypher déterministe, la validation par exécution, la rédaction, les contrôles de diversité et un juge LLM local calibré. En utilisant la génération et l'évaluation locales avec Qwen3.5-9B, PIPE-Cypher exporte 3 000 exemples acceptés de FinBench/SNB, réalise trois suites d'ablation auditées, calibre le comportement du juge avec des étiquettes humaines et évalue 11 modèles locaux en aval. Le benchmark résultant est délibérément discriminant : le transfert zero-shot est faible, tandis qu'un contrôle few-shot montre que des banques d'exemples spécifiques au schéma peuvent aider les familles de modèles compatibles. Ensemble, PIPE-Cypher fait de l'évaluation Text2Cypher un processus reproductible qui évolue avec le graphe, ses utilisateurs et ses charges de travail cibles.
Nous présentons EMMA, un cadre multimodal informé par la physique qui retrouve tous les paramètres dynamiques identifiables d'un système directement à partir d'observations brutes de séries temporelles vidéo, audio et issues d'images. Contrairement aux approches antérieures basées uniquement sur la vidéo, qui peinent face aux états occultés, aux entrées d'actionnement cachées ou aux hypothèses sur les conditions initiales et les repères de coordonnées, EMMA effectue une inférence conjointe des paramètres explicites, des composantes dynamiques implicites et des invariants de calibration au sein d'un modèle unifié en temps continu. EMMA exploite un réseau à constante de temps liquide (LTC) pour apprendre les dynamiques latentes à partir de modalités hétérogènes, tandis qu'une perte contrainte par la physique assure la cohérence avec les équations différentielles régissantes. Un pipeline de caractéristiques unifié permet un alignement cohérent entre les trajectoires vidéo, les signatures acoustiques et les mesures extraites de graphiques, permettant à EMMA d'estimer les paramètres sous des dynamiques forcées, implicites et multivariées, sans nécessiter de masques de segmentation, de rendu différenciable ni de capteurs spécialisés. À travers plus de 100 scénarios, incluant cinq bancs d'essai dynamiques standard (75 vidéos Delfys), des systèmes réels de rover et de quadrirotor avec entrées cachées, ainsi que des études de cas de simulation-chart couvrant des systèmes biologiques et chaotiques, EMMA assure une récupération robuste de multiples paramètres et surpasse significativement les bases de référence unimodales et de découverte d'équations existantes. Nos résultats établissent EMMA comme une solution générale et évolutive pour l'extraction de modèles cohérents avec la physique à partir de données multimodales opportunistes. Le code et les données sont disponibles à l'adresse : https://github.com/ImpactLabASU/EMMA-CVPR2026