Articles de recherche IA sélectionnés quotidiennement avec traductions
Les figures scientifiques comptent parmi les moyens les plus efficaces pour communiquer des idées de recherche complexes, mais la production d'illustrations de qualité publication reste l'une des étapes les plus laborieuses de la préparation d'un article. Les systèmes automatisés existants ciblent chacun un seul type de figure à partir d'une entrée uniquement textuelle, laissant de côté la diversité des types et des conditions réellement utilisés par les chercheurs ; leurs sorties matricielles ne peuvent en outre être révisées localement. Comme les figures scientifiques sont des compositions structurées de composants sémantiques discrets, les erreurs localisées que génèrent les modèles sur de telles mises en page nécessitent non pas un socle plus solide, mais un harnais. Nous concrétisons ce harnais dans deux systèmes complémentaires : Crafter, un harnais multi-agent pour la génération de figures qui s'adapte à différents types de figures et conditions d'entrée sans modification architecturale, et CraftEditor, qui applique le même principe pour convertir les sorties matricielles en SVG modifiables. De plus, nous introduisons CraftBench, un référentiel couvrant trois types de figures et quatre conditions d'entrée avec annotation humaine de la qualité. Les expériences montrent que Crafter surpasse nettement à la fois les générateurs autonomes et la référence agentique sur PaperBanana-Bench et CraftBench, les ablations confirmant la contribution indépendante de chaque composant ; CraftEditor convertit fidèlement les sorties en SVG modifiables qui surpassent toutes les références. Notre code et notre référentiel sont disponibles à l'adresse https://github.com/HaozheZhao/Crafter.
Le réglage fin efficace en paramètres (PEFT) est généralement considéré comme une alternative moins coûteuse au réglage fin complet. Nous étudions un rôle plus large : de petits adaptateurs entraînables comme état local persistant reposant sur des modèles de base partagés performants. Dans ce cadre, le modèle de base fournit une compétence partagée tandis que les adaptateurs portent des comportements spécifiques à l'instance, tels que préférences, compétences, habitudes d'outils et mises à jour de type mémoire. Nous organisons le problème autour de trois axes de passage à l'échelle : *Scale Up*, où des a priori partagés plus forts rendent les petites mises à jour locales plus utiles ; *Scale Down*, où nous étudions la taille minimale que peuvent avoir les adaptateurs tout en restant fiables ; et *Scale Out*, où de nombreuses instances adaptées persistantes coexistent. MinT fournit un exemple d'infrastructure pour gérer l'identité, la révision, la provenance, l'évaluation et la résidence de service des adaptateurs. Ensemble, les résultats suggèrent que le PEFT peut constituer un substrat compact pour des modèles personnels persistants, plutôt qu'un simple substitut économique au réglage fin complet.
À mesure que les capacités des agents progressent, les points de repère existants, tels que τ²-Bench, deviennent de plus en plus saturés. Pourtant, la construction de nouvelles tâches de référence reste complexe, coûteuse et exigeante en main-d'œuvre. De plus, l'approche standard, qui consiste d'abord à rédiger des scénarios en langage naturel puis à les traduire en séquences d'outils, ne capture qu'un sous-ensemble restreint des schémas d'utilisation d'outils mis en œuvre par les agents. Dans cet article, nous abordons ces problèmes en inversant le processus de construction des tâches. Nous proposons TASTE : Synthèse de Tâches par Évolution de Séquences d'Outils (Task Synthesis from Tool Sequence Evolution), une méthode automatique qui génère des tâches difficiles avec une couverture d'utilisation d'outils plus large. TASTE utilise un modèle adaptatif de n-grammes contrastifs entraîné sur des signaux de validité évalués par LLM. Cela permet d'échantillonner des séquences d'outils valides couvrant un vaste éventail de combinaisons d'outils. TASTE sélectionne ensuite des séquences représentatives à partir du pool via un clustering, les instancie en tâches de référence complètes, et les affine par une évolution itérative de la difficulté. En utilisant TASTE, nous construisons τ^c-Bench, une extension exigeante des trois domaines de τ²-Bench. Nous évaluons 11 paires agent/LLM utilisateur et constatons que les modèles qui saturent presque τ²-Bench subissent des chutes de performance sévères sur nos tâches (par exemple, Gemini-3-Flash passe de 0,82 – 0,94 à 0,28 – 0,61). Au-delà de l'augmentation de la difficulté, nos tâches générées doublent le nombre de combinaisons uniques d'outils que les agents doivent exécuter. Nos résultats suggèrent que les scores élevés sur les points de repère existants reflètent souvent une saturation plutôt qu'une capacité robuste à résoudre des tâches. En automatisant la génération de points de repère difficiles et à large couverture, TASTE permet une évaluation continue et scalable des futurs agents.
Les évaluations des modèles de frontière passent des capacités fondamentales (par exemple, le suivi d'instructions et le raisonnement) vers des capacités compositionnelles et agentiques, mais les benchmarks agentiques coréens restent rares. Nous présentons K-BrowseComp, un benchmark d'agent de navigation web ancré dans des contextes coréens, comprenant 400 problèmes. Le sous-ensemble K-BrowseComp-Verified de 300 problèmes est construit manuellement et validé par des locuteurs natifs coréens. Sur ce sous-ensemble, les LLM de frontière, y compris GPT-5.5, DeepSeek-V4-Pro et GLM-5.1, n'atteignent que 30,00–45,67 %, une baisse substantielle par rapport à BrowseComp, tandis que les LLM coréens publiés via le programme Proprietary AI Foundation Model de la Corée n'obtiennent que 0,00–10,33 %. Nous construisons en outre une division synthétique de 100 problèmes en utilisant des exemples à quelques tentatives difficiles et une génération ciblée sur les modes d'échec afin d'exploiter l'asymétrie entre la résolution et la création de problèmes de navigation web. Sur la division diagnostique synthétique filtrée de manière adversaire, le modèle le plus performant n'atteint que 26,00 %, et nous rapportons cette division séparément en tant que test de stress ciblé. Nous publions nos données et notre code en libre accès.
Les agents de recherche sont souvent entraînés en tant que politiques sur des transcriptions croissantes : le modèle doit décider comment chercher tout en se rappelant ce qu'il a vu, quels indices sont utiles, quelles contraintes restent ouvertes et quelles affirmations ont effectivement été vérifiées. Nous soutenons que cette formulation impose une gestion d'état de routine excessive à la politique : l'apprentissage par renforcement est contraint d'optimiser à la fois les décisions sémantiques de recherche et une comptabilité récupérable que l'environnement peut maintenir de manière plus fiable. Nous présentons Harness-1, un agent de recherche (sous-agent de récupération) de 20 milliards de paramètres entraîné par apprentissage par renforcement au sein d'un harnais de recherche à état. Le harnais maintient une mémoire de travail du côté de l'environnement, incluant un réservoir de candidats, un ensemble curé avec étiquettes d'importance, des liens de preuves compacts, des enregistrements de vérification, des observations compressées et dédupliquées, ainsi qu'un rendu contextuel sensible au budget. La politique conserve les décisions sémantiques : quoi chercher, quels documents garder ou rejeter, quoi vérifier et quand s'arrêter. Sur huit benchmarks de recherche couvrant le web, la finance, les brevets et les questions-réponses multi-sauts, Harness-1 atteint un rappel curé moyen de 0,730, surpassant le meilleur sous-agent de recherche open source suivant de +11,4 points et restant compétitif avec des agents de recherche utilisant des modèles frontières bien plus grands. Ses gains sont particulièrement marqués sur les benchmarks de transfert tenus à l'écart, ce qui suggère que l'apprentissage par renforcement sur un état de recherche explicite peut produire des comportements de récupération qui généralisent au-delà des domaines d'entraînement. Notre code est disponible à l'adresse https://github.com/pat-jj/harness-1.
Le décodage spéculatif accélère l'inférence des grands modèles de langage en associant un modèle cible à un modèle draft léger dont les tokens proposés sont vérifiés en parallèle. Une méthode courante pour construire des modèles draft, comme EAGLE3 ou DFlash, consiste en un fine-tuning supervisé (SFT) sur des trajectoires générées par la cible. Cependant, nous observons que le SFT atteint rapidement un plateau : la longueur d'acceptation du modèle draft sur les données de test cesse de s'améliorer. La raison en est un décalage entre l'apprentissage hors ligne et l'inférence : lors du SFT, le draft apprend à partir de trajectoires fixes générées par la cible, tandis que pendant le décodage spéculatif, il est évalué sur des blocs proposés selon sa propre politique. Cela motive la distillation on-policy (OPD), où le modèle cible supervise le draft sur des états induits par le draft. Pourtant, l'OPD reste difficile pour les modèles draft, car ils ne peuvent pas produire de manière fiable des séquences complètes de façon autonome, tandis que la génération assistée par la cible fait que les séquences collectées suivent la distribution cible, éliminant ainsi le signal on-policy. Nous proposons donc Draft-OPD, qui utilise un déroulement assisté par la cible pour des continuations stables et rejoue le draft à partir des positions d'erreur exposées à la vérification. Cela permet au draft d'apprendre à partir du retour de la cible sur les propositions acceptées et rejetées, en concentrant l'entraînement sur les erreurs induites par le draft qui limitent l'acceptation spéculative. Les expériences montrent que Draft-OPD atteint une accélération sans perte de plus de 5 fois pour les modèles de réflexion sur diverses tâches, améliorant les performances d'EAGLE-3 et DFlash de 23 % et 13 %.
Le décodage spéculatif accélère l'inférence des LLM en générant plusieurs tokens puis en les vérifiant en parallèle avec le modèle cible. Cependant, son accélération pratique est limitée par le compromis entre la qualité des propositions et leur coût de génération : les générateurs autorégressifs modélisent les dépendances causales entre les tokens proposés mais induisent un surcoût séquentiel, tandis que les générateurs parallèles réduisent ce coût au détriment de la modélisation des dépendances intra-bloc. Dans cet article, nous proposons Domino, un cadre de décodage spéculatif qui dissocie la modélisation des dépendances causales de l'exécution autorégressive coûteuse des propositions. Domino utilise d'abord un réseau principal parallèle de génération pour produire des distributions préliminaires sur l'ensemble du bloc, puis applique une tête Domino légère pour les affiner à l'aide d'informations causales dépendant du préfixe. Afin de stabiliser l'encodage causal par forçage enseignant, nous introduisons en outre un programme d'entraînement ancré sur la base, qui renforce d'abord le réseau parallèle puis oriente progressivement l'optimisation vers la distribution finale corrigée causalement. Des expériences menées sur les modèles Qwen3 montrent que Domino atteint une accélération de bout en bout allant jusqu'à \(5,49\times\) avec le backend Transformers et jusqu'à \(5,8\times\) d'accélération du débit sous le service SGLang.
Le tatouage numérique intègre des signatures statistiques dans les textes générés par IA à des fins de détection et d'attribution. Nous révélons une vulnérabilité fondamentale : lorsque les utilisateurs accèdent à plusieurs modèles (réalité actuelle), les tatouages échouent trivialement. Les tatouages perturbent les distributions de sortie par rapport à la distribution originale, et dans des marchés concurrentiels, ces perturbations sont généralement indépendantes d'un fournisseur à l'autre. Nous prouvons théoriquement que la moyenne des distributions de probabilité de sortie permet de retrouver la distribution non tatouée, à un terme d'erreur du second ordre près. Empiriquement, une simple moyenne de 3 à 5 modèles annule ces perturbations. Nous introduisons WASH (Watermark Attenuation via Statistical Hybridisation), qui résout les défis pratiques de la génération d'ensemble : le désalignement de vocabulaire et les différences de tokenisation entre modèles hétérogènes. Des expériences menées sur six schémas de tatouage et trois grands modèles de langage (LLMs) montrent que la moyenne de 3 modèles abaisse les z-scores de détection de 5-300 à moins de 2 (en dessous du seuil de détection de 4), réduit le taux de vrais positifs (TVP) à 5 % de taux de faux positifs (TFP) en dessous de 50 %, tout en améliorant la qualité de 27,5 % et en étant 6 fois plus rapide que la meilleure ligne de base sur la génération de séquences longues. Nos résultats suggèrent qu'une détection robuste de texte généré par IA via le tatouage nécessite soit d'accepter cette vulnérabilité fondamentale, soit une coordination sans précédent entre fournisseurs de modèles.
La prédiction standard du prochain jeton (NTP) supervise les modèles de langage uniquement via des étiquettes discrètes dans l'espace des logits de sortie. Nous soutenons que cette supervision one-hot éparse laisse l'espace des représentations latentes sous-contraint, permettant aux états cachés de dériver vers des configurations dégénérées et anisotropes pouvant limiter la généralisation. Pour remédier à ce problème, nous proposons la prédiction implicite du prochain jeton (NITP), qui enrichit la prédiction discrète avec une supervision continue dense directement dans l'espace des représentations. NITP entraîne le modèle à prédire le contenu sémantique implicite du prochain jeton, en utilisant les représentations des couches superficielles du même modèle comme cibles auto-supervisées stables. Nous fournissons une analyse théorique montrant que NITP régularise le paysage d'optimisation en atténuant les degrés de liberté sous-contraints et en favorisant une géométrie de représentation compacte et structurée. Empiriquement, sur des modèles denses et MoE allant de 0,5B à 9B paramètres, NITP améliore systématiquement les performances en aval avec un surcoût de calcul négligeable. Sur un modèle MoE de 9B, NITP obtient une amélioration absolue de 5,7 % sur MMLU-Pro, ainsi que des gains de 6,4 % sur C3 et 4,3 % sur CommonsenseQA, avec environ 2 % de FLOPs d'entraînement supplémentaires et aucun coût d'inférence additionnel. Notre implémentation est disponible à l'adresse https://github.com/aHapBean/NITP.
Le paradigme récent « Raisonnement avec la Vidéo » utilise les modèles de génération vidéo (VGM) pour produire des trajectoires visuelles temporellement cohérentes afin de réaliser des tâches de raisonnement. Bien que les VGM de pointe excellent en qualité visuelle, ils peinent souvent à comprendre et suivre des règles spécifiques aux tâches, entraînant des échecs logiques dans divers scénarios de raisonnement. Les efforts existants tentent d'utiliser les modèles vision-langage (VLM) comme pré-résolveurs de problèmes pour produire ou affiner des instructions textuelles destinées au VGM. Cependant, les descriptions textuelles ne parviennent pas à capturer les détails spatiotemporels complexes, et les VGM ont souvent du mal à exécuter fidèlement des instructions fines ou peu fréquentes, même avec un plan valide. Bien que les VLM aient des difficultés en tant que résolveurs, ils possèdent de fortes capacités de perception pour évaluer la satisfaction des contraintes de processus et l'atteinte des objectifs finaux. Exploitant cette force, nous introduisons un changement de paradigme qui fait passer le rôle des VLM à celui d'« enseignants ». Concrètement, un enseignant VLM extrait des règles spécifiques à la tâche pour formuler des récompenses différentiables, guidant un raisonneur VGM via une optimisation en ligne au moment du test d'un module LoRA léger. Cette stratégie permet une optimisation adaptative lors du test et étend les capacités de raisonnement au-delà des limites intrinsèques du VGM. Les évaluations sur des références de raisonnement vidéo symboliques (VBVR-Bench) et généralistes (RULER-Bench) montrent que la méthode proposée obtient un gain de performance moyen de 16,7 points, surpassant largement le paradigme VLM-comme-Résolveur (+0,4 points) et le scaling Best-of-N (+2,2 points) à un coût de test comparable. Ces résultats révèlent que l'intégration des VLM en tant qu'enseignants lors du test offre un paradigme prometteur pour un raisonnement vidéo généralisable. Page du projet : https://VLM-as-Teacher.github.io/
Bien que la compréhension du streaming vidéo ait réalisé des progrès significatifs, les applications réelles, telles que la diffusion sportive en direct, la conduite autonome et la collaboration multi-écrans, exigent intrinsèquement des interactions continues et multi-flux. Cependant, les benchmarks existants sont confinés à des paradigmes mono-flux, laissant un écart critique dans l'évaluation du raisonnement en ligne et inter-flux. Pour combler cette lacune, nous présentons X-Stream, le premier benchmark dédié à la compréhension du streaming multi-flux. Composé de 4 220 paires de questions-réponses rigoureusement sélectionnées issues de 932 vidéos, X-Stream évalue 11 sous-tâches dans des scénarios multi-fenêtres, multi-vues et multi-appareils. Crucialement, notre jeu de données est construit à l'aide d'un pipeline de double vérification novateur qui empêche une dépendance excessive à un seul flux. De plus, nous sommes les premiers à conceptualiser les modèles de langage multimodaux de grande taille (MLLMs) comme des multiplexeurs naïfs, évaluant systématiquement leurs performances à travers le prisme de la théorie du multiplexage de signaux. Nos expériences approfondies d'inférence en ligne révèlent une réalité frappante : les MLLMs les plus avancés peinent considérablement avec les flux simultanés, n'atteignant qu'un score d'environ 50 % et montrant une faible capacité proactive. En fin de compte, X-Stream expose le compromis des schémas de multiplexage actuels, fournissant à la fois un protocole d'évaluation pratique et des orientations empiriques pour les agents multi-flux de nouvelle génération.
La diffusion vidéo causale sur séquences longues a convergé vers un cache KV à fenêtre glissante de taille fixe, les progrès récents innovant dans cette disposition en modifiant quels tokens occupent la fenêtre ou comment leurs positions sont encodées. La disposition KV par tête elle-même, contribution majeure à la mémoire et à la latence en streaming, est restée en grande partie inchangée. Dans cet article, nous présentons la première étude de l'Attention Latente Multi-Têtes (MLA) dans la diffusion vidéo. VideoMLA remplace les clés et valeurs par tête par un latent de contenu partagé de bas rang et une clé positionnelle 3D-RoPE découplée partagée, réduisant la mémoire KV par token de 92,7 % à chaque couche en cache. Nous étudions en outre pourquoi MLA réussit dans la diffusion vidéo, bien que l'hypothèse spectrale souvent utilisée pour la motiver dans les modèles de langage ne soit pas vérifiée : l'attention vidéo pré-entraînée n'est pas de bas rang, avec un rang effectif à 99 % d'énergie bien supérieur à toute dimension latente pratique. VideoMLA maintient la qualité à des taux de compression où une approximation spectrale directe prédirait une erreur de reconstruction importante. Nous montrons que le goulot d'étranglement de MLA, plutôt que le spectre pré-entraîné, détermine le rang effectif : tant l'initialisation spectrale que l'initialisation aléatoire occupent la quasi-totalité du budget de rang dès l'initialisation, et l'entraînement préserve ce budget tout en s'adaptant à l'intérieur de celui-ci. Sur VBench, VideoMLA est comparable aux bases de diffusion vidéo en streaming à horizon court, obtient le meilleur score global à horizons longs parmi les méthodes évaluées, et améliore le débit d'un facteur 1,23x sur un seul B200.
Les agents basés sur de grands modèles de langage (LLM) s'appuient de plus en plus sur des compétences externes réutilisables pour résoudre des tâches interactives à long horizon. Les pipelines d'adaptation des compétences sans entraînement existants mettent généralement à jour les compétences à partir de trajectoires complètes ou de retours au niveau de la session, ce qui rend l'attribution des échecs grossière et produit souvent des révisions instables ou trop larges. Nous proposons SkillAdaptor, un cadre d'adaptation des compétences sans entraînement, au niveau des étapes, avec attribution explicite des échecs, qui peut s'intégrer dans les harnais d'agents de type OpenClaw. Étant donné une trajectoire échouée, SkillAdaptor identifie une première étape d'action défaillante, relie la responsabilité aux compétences candidates, et applique des mises à jour ciblées sous des contrôles d'acceptation explicites, tout en maintenant le backbone figé. Nous évaluons sur WebShop, PinchBench et Claw-Eval avec Kimi-K2.5, GLM-5 et GPT-5.2. SkillAdaptor améliore les références sans compétence et avec adaptation de compétence sur les trois suites, avec les plus grandes améliorations sur un seul indicateur de +1,5 point sur le score moyen % de PinchBench, +1,8 sur le score moyen de Claw-Eval, et +1,7 sur le taux de réussite de WebShop. Ces résultats indiquent que l'attribution au niveau des étapes permet une maintenance des compétences sans entraînement plus stable et vérifiable. Le code sera publié à l'adresse https://github.com/zjunlp/SkillAdaptor.
Les êtres humains peuvent reproduire le point de vue spécifié par une image cible grâce à des mouvements actifs de la tête et du corps, mais l'intelligence spatiale dans les modèles de fondation a été largement étudiée comme une compréhension passive d'observations pré-collectées. Nous introduisons la Reproduction de Point de Vue Cible (TVR) — une tâche active dans laquelle un agent ajuste son point de vue dans un environnement 3D jusqu'à ce que son observation corresponde à une image cible donnée — ainsi que TVRBench, un benchmark de simulation en intérieur couvrant l'échelle des scènes et la richesse visuelle des vues cibles. TVR est loin d'être résolue : sur la partition d'évaluation, les modèles open-source et closed-source les plus performants atteignent seulement 7,8 % et 12,0 % de succès. Une analyse fine identifie deux goulots d'étranglement récurrents : les modèles prêts à l'emploi peinent avec l'historique visuel multi-tour, et les performances chutent fortement lorsque la reproduction du point de vue nécessite une translation du corps plutôt qu'une rotation sur place, révélant un écart dans la mise en correspondance des divergences spatiales avec le mouvement incarné. Pour étudier la réduction de cet écart, nous construisons un cadre unifié de post-entraînement pour TVR, comprenant le SFT sur trajectoires expertes, le CoT-SFT supervisé par raisonnement, le GRPO monotour hors ligne et le GRPO multi-tour en ligne à partir de déploiements de simulateurs en direct. Le SFT visuo-moteur apporte le principal gain, portant un modèle open-source de 9B à 50,8 % de succès ; le GRPO multi-tour fournit un raffinement ciblé pour les environnements multi-pièces et atteint 51,4 % globalement, tandis que la supervision CoT et le GRPO monotour dégradent les performances en boucle fermée. Ces résultats établissent TVRBench comme un banc d'essai pour mesurer et entraîner des modèles de fondation qui perçoivent et agissent activement dans des environnements 3D. Notre code, nos données et nos modèles sont disponibles sur https://github.com/aim-uofa/TVRBench.
L'intelligence spatiale nécessite des représentations visuelles qui capturent à la fois les objets sémantiques et la structure géométrique du monde physique. Pour soutenir cela, deux grands schémas de pré-entraînement sont maintenant largement utilisés comme fondations de base : les modèles vision-langage (VLMs), qui utilisent la supervision linguistique pour aligner les observations visuelles sur les concepts sémantiques, et les modèles de génération vidéo (VGMs), qui apprennent à partir de mondes visuels évoluant temporellement. Cependant, il reste encore incertain quel schéma de pré-entraînement fournit un meilleur substrat de représentation pour l'intelligence spatiale. Dans cet article, nous présentons la première étude systématique de sondage des caractéristiques figées des VLMs et des VGMs à travers trois axes représentatifs de l'intelligence spatiale : le balisage sémantique, le regroupement d'instances et la prédiction de géométrie 3D. En utilisant une sonde légère, notre cadre permet une comparaison contrôlée des informations déjà encodées dans les représentations figées des deux familles de modèles. Les résultats expérimentaux révèlent une complémentarité claire : les VLMs sont plus performants pour le balisage sémantique et le regroupement d'instances, tandis que les VGMs fournissent des signaux plus accessibles pour la géométrie dense et le mouvement de la caméra. De plus, une fusion naïve des deux produit déjà une représentation qui excelle à la fois en géométrie et en sémantique, suggérant une direction prometteuse pour construire des fondations d'intelligence spatiale plus robustes en intégrant efficacement les caractéristiques des deux familles de modèles. Notre code est disponible sur https://github.com/om-ai-lab/Probing-VLM-VGM.
Les agents de recherche à long horizon accumulent de grandes quantités de contenu récupéré au cours de nombreux appels d'outils, ce qui rend l'efficacité du budget de contexte de plus en plus importante. Une intervention minimale consiste à masquer les observations obsolètes du contexte au fur et à mesure que la trajectoire progresse, mais il n'est pas clair quand cette forme de gestion de contexte est bénéfique ni pourquoi. Nous étudions le masquage des observations via un balayage systématique sur diverses architectures d'agents (de 4 à 284 milliards de paramètres) et trois récupérateurs, sur des benchmarks de recherche agentique hors ligne et sur le web en direct. Nous constatons que le gain de précision dû au masquage suit une forme de U inversé asymétrique lorsqu'il est tracé en fonction de la précision du modèle sans gestion de contexte : un plateau sous des récupérateurs faibles, un pic lorsqu'un récupérateur puissant rencontre un modèle de capacité moyenne, et un effondrement brutal lorsque le modèle est saturé. Cette tendance reflète l'interaction entre le rappel du récupérateur et la capacité de filtrage implicite du modèle, plutôt qu'un seul de ces facteurs. Mécaniquement, le masquage met en œuvre un compromis token-par-tour : il supprime les observations auxquelles le modèle a largement cessé de prêter attention et les pages que l'agent rouvre rarement. Les tours ajoutés sont bénéfiques lorsqu'ils transforment des échecs en succès, mais ils échouent lorsque le masquage supprime des preuves que le modèle aurait autrement utilisées. Nous reformulons donc la gestion de contexte comme une intervention dépendante du régime et offrons une perspective holistique pour analyser l'utilisation du contexte dans la recherche agentique profonde. Nous publions notre infrastructure et nos trajectoires ici (https://github.com/i-DeepSearch/observation-masking) pour soutenir les recherches futures.
Lorsqu'un grand modèle de langage soumis à un apprentissage par renforcement commet une étape de raisonnement erronée tôt dans une trajectoire, les algorithmes standards le forcent à continuer de générer jusqu'à l'horizon maximal, dépensant des ressources de calcul sur des jetons qui ne reçoivent jamais de récompense positive et polluant les estimations d'avantage avec du bruit post-échec. Nous proposons ESPO (Early-Stopping Proximal Policy Optimization), qui détecte l'échec de la trajectoire à la volée et termine les rollouts de manière anticipée. À chaque étape de génération, ESPO calcule un regret substitut en utilisant uniquement les logits déjà calculés lors de l'échantillonnage, et se termine lorsque le regret cumulatif lissé dépasse significativement ses valeurs estimées. Les trajectoires tronquées sont traitées comme des états d'échec absorbants avec une récompense terminale, concentrant les erreurs de différence temporelle (TD) négatives près de l'étape d'échec détectée, sans aucun modèle de récompense supplémentaire ni annotation humaine. Sur DeepSeek-R1-Distill-Qwen-7B entraîné pour le raisonnement mathématique, ESPO surpasse PPO sur AIME~2024 (46,28 % contre 45,25 %), AMC~2023 (85,83 % contre 82,94 %) et MATH-500 (87,42 % contre 85,43 %), tout en économisant plus de 20 % de jetons de rollout de manière cumulative.
Les flux de travail multi-agents basés sur des LLM acheminent l'inférence via des rôles spécialisés pour améliorer la précision des tâches finales, mais l'entraînement conjoint de ces rôles avec l'apprentissage par renforcement est instable de manière mal comprise. Nous étudions dans quelles conditions l'entraînement RL de bout en bout des flux de travail multi-agents LLM améliore leurs modèles de base, en comparant l'entraînement à politique partagée (Shared-Policy), où tous les rôles mettent à jour une politique unique, avec l'entraînement à politique isolée (Isolated-Policy), où chaque rôle possède ses propres paramètres. Notre matrice expérimentale couvre les flux de travail Eval-Opt, Voting et Orch-Workers, des tâches de mathématiques et de codage, ainsi que trois échelles de modèles (0,6B, 1,7B, 4B). Nous constatons que le RL multi-agents améliore généralement les modèles de base, mais que les gains dépendent conjointement du flux de travail, de la tâche et de l'échelle, et non du seul partage de politique. L'entraînement à politique isolée tend à atteindre une précision maximale plus élevée, mais chute plus souvent brutalement en précision terminale, tandis que l'entraînement à politique partagée n'élimine pas l'échec ; il redistribue l'échec en motifs qualitativement différents. Nous expliquons ensuite les plus forts de ces motifs par des dynamiques de gradient au niveau des rôles induites par la topologie du flux de travail et le routage de la politique : sous la politique isolée, des agents parallèles de même rôle sur des prompts partagés amplifient les gradients par rôle et entraînent une dégradation terminale dans les flux de travail Voting et Orch-Workers ; sous la politique partagée, une masse de gradient asymétrique par étape fait que la politique partagée est capturée par le rôle dominant, produisant des signatures d'échec différentes selon la tâche et le flux de travail. Ensemble, la carte empirique et ses mécanismes sous-jacents montrent que le partage de politique achemine la pression d'entraînement à travers différents canaux plutôt que d'offrir une stabilité uniforme, ce qui en fait un choix de conception avec des compromis conditionnels au flux de travail et à la tâche.
Le Model Context Protocol (MCP) s'impose comme un standard transformateur pour connecter les grands modèles de langage (LLM) avec des sources de données et outils externes, et a été rapidement adopté dans les applications personnelles et les plateformes de développement. Cependant, les référentiels existants se concentrent principalement sur des outils génériques de recherche d'informations et ne parviennent pas à capturer les défis pratiques posés par les applications sociales personnelles, où les outils interagissent avec des comptes individuels ou des bases de données locales. Pour combler cet écart critique, nous présentons MCP-Persona, le premier référentiel spécifiquement conçu pour évaluer les performances des agents sur des outils MCP personnalisés et réels. MCP-Persona englobe un ensemble diversifié d'applications largement utilisées, allant des plateformes de médias sociaux comme Reddit et Xiaohongshu (Rednote) aux suites de collaboration d'entreprise telles que Lark (Feishu) et Slack. Nos expériences approfondies sur divers agents de pointe (SOTA) montrent leurs difficultés significatives avec l'utilisation personnalisée d'outils, soulignant ainsi le rôle crucial du référentiel dans l'identification et le traitement de ces limitations. MCP-Persona est accessible publiquement à l'adresse https://github.com/wwh0411/MCP-Persona.
L'auto-attention dense constitue le goulot d'étranglement en calcul et en qualité de l'inférence de diffusion de vidéos longues : le coût croît quadratiquement avec la longueur des séquences, et au-delà de l'horizon d'entraînement, le modèle converge vers une sortie quasi statique, c'est-à-dire une vidéo répétitive « figée ». Les approches de pointe sont soit trop coûteuses, par exemple car elles nécessitent un réentraînement, soit ne parviennent pas à satisfaire à la fois les objectifs de performance et de qualité de manière évolutive. C'est pourquoi nous introduisons LVSA (Long Video Sparse Attention – Attention Éparse pour Vidéo Longue), une attention par blocs éparse, sans entraînement et indépendante du modèle pour les transformateurs de diffusion vidéo, qui combine un motif de fenêtre structuré avec des ancres globales rotatives, supprimant ainsi le biais de grille fixe à l'origine d'artefacts temporels à longue portée. Associée à un noyau FlashInfer, LVSA réduit le calcul jusqu'à 3,17× sur Wan 2.1 1,3B à un horizon 6×, 2,98× sur Wan 2.1 14B à un horizon 6×, et 3,33× sur HunyuanVideo 1,5 à un horizon 1,5×, par rapport à l'attention dense. Outre la réduction du calcul, LVSA permet la génération avec HunyuanVideo 1,5 à un horizon 2×, ce qui est autrement impossible en mémoire sur un seul GPU. De plus, LVSA offre des accélérations allant jusqu'à 2,41× par rapport à RIFLEx et 3,27× par rapport à UltraViCo sur Wan 2.1 1,3B. Pour démontrer son applicabilité sur diverses plateformes, nous appliquons LVSA sur des NPU et obtenons des accélérations allant jusqu'à 2,71× sur Wan 2.2 A14B et 3,24× sur Wan 2.1 1,3B par rapport à l'attention dense. Afin d'évaluer la qualité de manière équitable, nous introduisons VQeval, un outil qui évalue correctement les échecs de vidéos en boucle, lesquels sont au contraire récompensés par les évaluateurs de pointe comme VBench-Long. LVSA est neutre en termes de qualité pour les générations à la longueur de l'horizon d'entraînement et positif en termes de qualité pour les longueurs étendues.
Dans des environnements ouverts, l'exploration est fondamentale pour les agents autonomes, mais les agents actuels basés sur des modèles de langage éprouvent des difficultés à cet égard. Une exploration efficace nécessite de la mémoire, mais conserver l'historique brut des interactions est coûteux en calcul sur de longues trajectoires. Bien que la mémoire latente offre une solution pour compresser les historiques d'interactions, son apprentissage manque de signaux de supervision fiables. Nous présentons Joint Agent Memory and Exploration Learning (JAMEL), un cadre qui entraîne conjointement la mémoire agentive et la politique d'exploration via une interaction basée sur la nouveauté. Nous observons que la mémoire et l'exploration forment une boucle mutuellement dépendante : une exploration soutenue nécessite de la mémoire pour distinguer les comportements épuisés des comportements inédits, tandis que l'interaction guidée par la nouveauté fournit la supervision nécessaire pour rendre la mémoire utile pour les explorations futures. En utilisant des signaux de nouveauté déterministes et persistants tels que la couverture de code dans le domaine des interfaces utilisateur graphiques (IUG), nous fournissons une supervision naturelle et sans annotation pour le module de mémoire. Les évaluations empiriques montrent que JAMEL généralise avec succès à des environnements inédits. Sa capacité d'exploration surpasse les références à poids ouverts et rivalise avec la profondeur d'exploration d'un modèle à source fermée tout en réduisant la consommation de jetons. Notre code et notre modèle sont disponibles en open source à l'adresse https://github.com/MobileLLM/JAMEL.
La diffusion vidéo autorégressive (AR) permet une synthèse de longueur variable, mais la génération à long terme souffre souvent d'erreurs accumulées et de dérive d'identité. Pour des raisons d'efficacité, les méthodes existantes adoptent généralement une attention par fenêtre glissante lors de la génération. Cela crée une trajectoire de génération irréversible : une fois que la fenêtre active accumule des erreurs d'apparence, les générations suivantes ne peuvent que se conditionner sur cette trajectoire dégradée et dériver davantage. Nous abordons cette limitation en formuliant la génération de longues vidéos comme un problème de génération augmentée par récupération (RAG). Plutôt que de se fier uniquement à la fenêtre récente, nous traitons les latents générés précédemment comme un historique dynamique et interrogeable. Nous proposons LongLive-RAG, un cadre de récupération général pour la génération vidéo AR. À chaque nouveau bloc, LongLive-RAG utilise un embedding de requête pour récupérer les latents historiques pertinents. Cette étape de récupération légère n'ajoute qu'un faible surcoût par rapport à la génération et permet au générateur de se conditionner sur un contexte non local plutôt que sur la seule fenêtre récente. Pour rendre la récupération plus discriminante, nous introduisons la perte delta temporelle de fenêtre (Window Temporal Delta Loss), qui supprime la similarité locale redondante et encourage les embeddings à capturer des changements temporels significatifs. Ensemble, ces composants aident à réduire l'accumulation d'erreurs causée par l'attention par fenêtre glissante. Les expériences sur plusieurs architectures AR et longueurs de génération montrent une amélioration de la qualité des vidéos longues et le meilleur classement VBench-Long moyen. À notre connaissance, parmi les méthodes de génération de vidéos longues AR en boucle ouverte, LongLive-RAG est la première à formuler l'historique de latents auto-générés comme une mémoire de récupération adressable par contenu. Le code est disponible à l'adresse https://github.com/qixinhu11/LongLive-RAG.
Décoder le contenu visuel à partir de signaux IRMf enregistrés pendant qu'une personne regarde des images, et plus spécifiquement répondre à des questions sur les images vues, est un défi de longue date. Bien que des progrès significatifs aient été réalisés ces dernières années en matière de réponse à des questions visuelles (VQA) à partir de l'IRMf, les performances restent limitées. De plus, bien que les modèles récents puissent faire des prédictions de plus en plus précises, ils ont rarement été utilisés comme outils pour comprendre la structure des représentations visuelles dans le cerveau. Nous présentons Brain-IT-VQA, un cadre pour la réponse à des questions visuelles à partir de l'IRMf. S'appuyant sur le Brain Interaction Transformer (Brain-IT), notre méthode décode des jetons de langage à partir de l'activité cérébrale et les intègre à un modèle de langage pour répondre à des questions visuelles. Notre modèle surpasse considérablement les approches précédentes de légendage et de VQA basées sur l'IRMf. Nous introduisons également NSD-VQA, un nouvel ensemble de données et un benchmark pour la réponse à des questions visuelles à partir de l'IRMf. Contrairement aux ensembles de données VQA image-IRMf existants, qui ne fournissent généralement que quelques questions larges et faiblement contrôlées par image, NSD-VQA fournit en moyenne 20 paires question-réponse par image réparties dans 20 catégories de questions contrôlées qui démêlent plusieurs niveaux de compréhension visuelle. Cela permet une évaluation plus fiable et interprétable malgré des données de test IRMf limitées. Ensemble, Brain-IT-VQA et NSD-VQA fournissent à la fois un cadre prédictif solide et un outil pour étudier les représentations cérébrales. En utilisant ce benchmark, nous quantifions quelles formes d'informations visuelles et sémantiques peuvent être décodées de manière fiable à partir des réponses IRMf à des images naturelles. Nous analysons en outre les contributions de différentes régions du cerveau selon les types de questions.
La génération conjointe audio-vidéo en temps réel pour l’animation de personnages nécessite un générateur capable de prononcer le texte demandé, de maintenir l’identité visuelle entre les segments et de fonctionner dans un budget de lecture strict. Ces exigences sont difficiles à satisfaire simultanément : la génération autorégressive par segments peut accumuler un décalage entre le texte et l’audio ainsi qu’une dérive visuelle, tandis que la distillation en quelques étapes nécessaire à une faible latence dégrade souvent la diversité spatiale et la qualité temporelle. Nous présentons StreamChar, un framework de streaming qui sépare l’orchestration à long terme du débruitage audio-vidéo à courte fenêtre. Un orchestrateur basé sur un LLM utilise le texte et le contexte historique pour produire des conditions audio alignées sur les images, et un DiT conjoint audio-vidéo effectue un débruitage bidirectionnel local avec un conditionnement par image de référence et image de mouvement. Pour un déploiement efficace, nous utilisons un pipeline de distillation en deux étapes qui comprime d’abord l’échantillonneur puis affine le modèle étudiant lors de déploiements en ligne par segments. Un pointeur conscient de la progression aligne les transcriptions partielles avec l’audio généré pendant l’entraînement par déploiements, et une mémoire de segments d’ancrage fournit un ancrage visuel persistant pour réduire la dérive à long horizon. Les expériences menées sur des protocoles de clips courts et d’horizons longs montrent que StreamChar fonctionne en temps réel sur un seul GPU H100 et offre un compromis favorable au niveau du système entre la fidélité à la transcription, la synchronisation audio-visuelle, la qualité visuelle et la stabilité du streaming par rapport aux récentes approches conjointes et pilotées par l’audio.
Les agents LLM récupèrent de plus en plus des compétences organisées en externe – des instructions procédurales récupérées au moment de la décision – pour améliorer leurs performances sur des tâches interactives à long terme. Les bibliothèques de compétences existantes sont généralement traitées comme agnostiques au modèle, réutilisant les mêmes formulations de compétences à travers des modèles de base aux capacités et comportements sensiblement différents. Cependant, nos expériences contrôlées à plusieurs échelles de modèle montrent que l'efficacité des compétences est fortement dépendante du modèle : une compétence qui bénéficie à un modèle de base peut en nuire à un autre. Motivés par cette observation, nous proposons MASA (Model-Aware Skill Alignment), un cadre qui adapte les compétences à chaque modèle de base cible sans modifier les poids de l'agent. MASA fonctionne en deux étapes : (1) un pipeline hiérarchique d'évolution des compétences qui réécrit de manière itérative les compétences générales et spécifiques aux tâches en utilisant l'ascension de colline et la recherche arborescente pilotée par UCB, guidé par les retours d'environnement et les profils de capacité du modèle ; et (2) un réécriveur de compétences léger conditionné par le modèle, entraîné sur des trajectoires d'évolution pour reproduire l'adaptation en un seul passage avant. Les expériences menées dans trois environnements interactifs et avec quatre modèles de base montrent que MASA obtient systématiquement les meilleures performances globales, avec des gains allant jusqu'à 25,8 points par rapport à la référence la plus forte. Le réécriveur appris généralise en outre à des tâches et environnements inconnus sans recherche supplémentaire, surpassant systématiquement un LLM enseignant beaucoup plus grand pour une fraction du coût d'inférence.
Construire des agents web visuels capables nécessite un raisonnement à long terme, un ancrage précis et une interaction robuste avec des sites web dynamiques réels. Malgré des progrès rapides, les systèmes les plus performants restent largement propriétaires, tandis que les agents ouverts dépendent encore fortement d'un post-entraînement supervisé sur de vastes collections de trajectoires web curatées. Cette dépendance crée un goulot d'étranglement majeur en termes de passage à l'échelle : les démonstrations de haute qualité sont coûteuses à collecter, et les ensembles de données statiques offrent une couverture limitée du web ouvert diversifié et en constante évolution. Bien que l'apprentissage par renforcement (RL) en ligne ait montré des promesses pour les agents textuels, son potentiel pour entraîner directement des agents web visuels sur des sites web réels reste largement sous-exploré. Dans cet article, nous présentons OpenWebRL, un cadre ouvert pour l'entraînement d'agents web visuels avec du RL multi-tours en ligne sur des sites web réels. OpenWebRL couvre l'intégralité du pipeline d'entraînement, y compris une infrastructure de navigateur en direct scalable, une initialisation supervisée, une gestion du contexte multimodal, un jugement de succès au niveau de la trajectoire et une optimisation efficace des politiques multi-tours. En utilisant ce cadre, nous entraînons OpenWebRL-4B, qui établit un nouvel état de l'art open source sur des benchmarks web vivants exigeants. Avec seulement 0,4K trajectoires d'initialisation et 2,2K tâches d'entraînement RL en boucle ouverte, OpenWebRL-4B atteint 67,0 % de succès sur Online-Mind2Web et 64,0 % sur DeepShop, surpassant les agents ouverts antérieurs d'échelle similaire ou plus grande et restant compétitif avec les systèmes propriétaires, y compris OpenAI CUA et Gemini CUA. Au-delà de performances solides sur les benchmarks, nous étudions systématiquement les choix de conception clés qui rendent le RL en ligne efficace pour les agents web visuels, et analysons comment le RL améliore le raisonnement agentiel. Dans l'ensemble, notre travail offre une voie pratique vers la construction d'agents web ouverts plus capables, reproductibles et rentables. Nous publierons nos données d'entraînement, modèles et code pour soutenir la recherche future.
Le décodage spéculatif (SD) accélère l'inférence de LLM à faible concurrence en employant un paradigme de rédaction puis vérification. Cependant, les méthodes traditionnelles reposent généralement sur la prédiction multi-tokens, ce qui introduit une difficulté de prédiction croissante et une latence de rédaction sérielle. Pour y remédier, nous proposons le décodage spéculatif par pipeline (SPD), un cadre novateur qui libère le véritable potentiel du parallélisme de pipeline. En partitionnant le LLM cible en n étapes de pipeline, SPD permet au LLM de traiter n tokens en parallèle pour accélérer le décodage. Pour remplir en continu le pipeline lors du décodage d'une séquence unique, un module de spéculation agrège les caractéristiques intermédiaires à différentes profondeurs de pipeline pour prédire le jeton suivant, en s'exécutant strictement en parallèle avec l'étape de pipeline du modèle cible, afin de réaliser une difficulté bornée, des taux d'acceptation plus élevés et des bulles de latence nulles. Nos expériences montrent que SPD atteint une accélération théorique significativement plus élevée par rapport aux références traditionnelles, offrant une solution hautement scalable pour l'accélération du décodage des LLM. Notre code est disponible à l'adresse https://github.com/yuyijiong/speculative_pipeline_decoding.
L'apprentissage par renforcement (RL) améliore les agents basés sur de grands modèles de langage (LLM) en leur apprenant quelles actions mènent à des récompenses élevées, mais fournit peu de supervision sur ce que ces actions provoquent dans l'environnement. La modélisation du monde (WM) peut combler cette lacune, mais les approches existantes nécessitent souvent des simulateurs distincts, des étapes d'entraînement supplémentaires ou un calcul de raisonnement en temps d'inférence additionnel. Nous observons que les déploiements RL sur politique contiennent déjà le signal nécessaire : chaque transition associe une action à l'observation suivante qui en résulte. Sur la base de cette observation, nous proposons PaW, un cadre d'apprentissage conjoint de la politique et du modèle du monde qui ajoute une supervision WM auxiliaire à la même politique pendant le RL, sans modifier le paradigme d'inférence. Pour rendre cette supervision WM auxiliaire informative et stable, PaW introduit trois composants : une sélection de données WM basée sur l'entropie d'action, une perte WM tolérante au bruit, et un équilibrage adaptatif de la perte en fonction des récompenses. Des expériences sur trois bancs d'essai de tâches agentiques montrent des améliorations cohérentes par rapport à des bases de référence RL solides, à travers différents modèles et algorithmes RL. Ces résultats suggèrent que les déploiements RL standard constituent une source pratique de supervision WM pour l'entraînement des agents langagiers.
La compréhension de l’affordance fait le lien entre perception visuelle et action physique, servant d’interface explicable pour la manipulation robotique dans des environnements réels ouverts et non structurés. Pourtant, construire un modèle fondamental d’affordance qui non seulement comprend où et comment l’interaction devrait se produire, mais qui généralise également à travers divers environnements, objets et tâches, reste un défi de recherche de longue date. Les méthodes existantes n’abordent généralement qu’une partie de ce défi, soit en localisant les régions pertinentes pour la tâche sans spécifier le mouvement exécutable, soit en prédisant le mouvement mais avec une évolutivité limitée. Dans cet article, nous présentons ourmodel, un pas vers un modèle fondamental d’affordance pour la compréhension de la fonctionnalité. À partir d’une unique observation RGB-D et d’une description de tâche en langage, ourmodel prédit un masque fonctionnel conditionné par la tâche (où interagir) et une courbe de mouvement 3D post-contact (comment interagir). Pour soutenir la généralisation en environnement ouvert, nous construisons un pipeline de données standardisé à grande échelle qui convertit des données hétérogènes issues de robots, d’humains, de simulations et de scans du monde réel en un schéma d’affordance partagé avec langage, masques et étiquettes de mouvement 3D centrées sur l’objet. Nous évaluons ourmodel sous trois aspects : pour la segmentation d’affordance, ourmodel surpasse toutes les lignes de base avec une large marge sur 8 ensembles de test provenant de 4 bancs d’essai, améliorant le gIoU/cIoU moyen de +23,9/+26,3 ; pour la prédiction de points de contact, il prédit des points nettement plus précis, avec un gain de taux de réussite de 12,7 à 61,3 % par rapport à la meilleure ligne de base ; et pour le mouvement 3D, il atteint la meilleure performance sur les trois ensembles de test. ourmodel peut être déployé pour la manipulation robotique réelle sans ajustement pour l’incarnation du robot ni utilisation d’heuristiques spécifiques à la tâche, démontrant ainsi sa capacité à s’adapter aux tâches d’affordance en environnement ouvert. Page du projet : https://www.zhaoningwang.com/AFUN
Les compétences réutilisables sont un mécanisme clé pour étendre les capacités des agents, leur permettant d'accumuler de l'expérience et de résoudre des tâches de plus en plus complexes. Pourtant, la plupart des méthodes d'apprentissage de compétences existantes stockent l'expérience réutilisable sous forme d'actifs purement textuels, tels que des instructions, des traces de raisonnement ou des trajectoires résumées. Nous soutenons que ce paradigme uniquement textuel crée un goulot d'étranglement fondamental pour les tâches centrées sur le visuel, où les connaissances réutilisables dépendent souvent de la disposition spatiale, de l'ancrage visuel, de l'apparence fine et des changements d'état localisés. Pour remédier à cette limitation, nous proposons \NAME, un paradigme de compétences multimodales qui combine une logique textuelle déclarative avec un support visuel explicite. Nous distinguons trois formes réutilisables : les a priori statiques pour les conventions spatiales stables, les a priori dynamiques pour la mémoire de travail visuelle in situ, et les compétences visuelles entrelacées qui lient des étapes textuelles ordonnées aux images sources, captures d'écran ou régions de page qui les justifient. Plutôt que de seulement décrire quoi faire, les compétences visuelles encodent également où regarder, comment inspecter et comment vérifier les résultats visuels. Pour passer à l'échelle la construction de compétences visuelles, nous introduisons \SYSTEM, un système automatique qui convertit l'expérience des agents en compétences multimodales réutilisables en préservant le raisonnement textuel, les références spatiales, les limites visuelles et les schémas d'interaction issus des trajectoires de tâches. Des expériences sur des tâches d'interface graphique et d'autres tâches centrées sur le visuel montrent que les compétences visuelles surpassent systématiquement les compétences purement textuelles, en particulier lorsque le succès nécessite une correspondance spatiale, des preuves visuelles et une interaction sensible à l'état. Ces résultats appuient notre position centrale : les compétences réutilisables des agents devraient dépasser le texte et devenir des actifs multimodaux pour les futurs agents multimodaux.
Les modèles de vision-langage (VLM) ont démontré une forte compréhension visuelle et sont de plus en plus déployés dans les systèmes d’IA incarnée, où une perception fiable en conditions réelles est essentielle. Cependant, les benchmarks existants évaluent les VLM à l’aide d’images propres ou de perturbations isolées, plutôt que de contraintes causées par la formation physique des scènes. Cette conception présente deux limites : elle ne couvre qu’un sous-ensemble restreint de contraintes visuelles quotidiennes, et certaines perturbations apparaissent rarement dans des scènes incarnées réalistes. Ce fossé soulève une question fondamentale : comment définir la contrainte visuelle de manière fondée, en capturant les divers facteurs rencontrés dans les environnements physiques ? Pour répondre à cette question, nous formulons la perception visuelle dans une perspective graphique inverse et introduisons RoboStressBench, un benchmark pour évaluer la robustesse des VLM face aux contraintes visuelles physiques dans les scènes incarnées. Inspiré par l’équation de rendu physique, RoboStressBench décompose la contrainte visuelle en quatre dimensions physiquement fondées : Matériau (M), Point de vue (V), Éclairage (L) et Géométrie (G). Cette conception permet à RoboStressBench de couvrir un large éventail de contraintes visuelles dans les environnements réels, tout en permettant une analyse contrôlée de leurs effets sur les capacités des VLM telles que la reconnaissance visuelle, le raisonnement et la planification. Grâce à des évaluations complètes des VLM de pointe, nous identifions des modes de défaillance spécifiques aux contraintes et révélons que différents facteurs physiques dégradent différentes capacités incarnées, souvent masquées par la précision agrégée. Nous introduisons en outre un solveur agentique sensible aux contraintes, qui détecte les facteurs de stress visuels et invoque des compétences d’édition visuelle avant le raisonnement, améliorant ainsi la robustesse dans les scénarios à fortes contraintes. Dans l’ensemble, RoboStressBench fournit un cadre d’évaluation fondé pour diagnostiquer et améliorer la perception des VLM sous contrainte physique réelle, soutenant le développement de systèmes d’IA incarnée plus fiables.
Les grands modèles vision-langage (LVLMs) transforment les entrées visuelles en séquences denses de tokens, ce qui impose un goulot d'étranglement computationnel quadratique lors de l'inférence. La compression élastique des tokens visuels répond à ce problème en entraînant un seul modèle pouvant fonctionner avec plusieurs budgets de tokens visuels. Cependant, les approches existantes peinent sous une compression agressive. La compression uniquement spatiale, comme dans le pooling emboîté, se comporte comme un filtre passe-bas imparfait et induit un repliement spectral qui obscurcit les détails fins. La compression uniquement par requête, comme dans le rééchantillonnage emboîté de requêtes, remplace les tokens alignés sur une grille explicite par des résumés non locaux et dégrade considérablement l'ancrage spatial. Pour résoudre ce conflit représentationnel, nous introduisons PARCEL (Pool-Anchored Resampling with Conditioned Elastic Queries for Efficient Vision-Language Understanding — Rééchantillonnage Ancré par Pool avec Requêtes Élastiques Conditionnées pour une Compréhension Efficace Vision-Langage), une architecture de tokenisation visuelle qui partitionne dynamiquement le travail d'extraction de caractéristiques. PARCEL établit des tokens de pool spatiaux comme ancres de disposition basse fréquence et conditionne les tokens de requête élastiques sur ces ancres via un rééchantillonnage de requêtes conditionné par le pool. Cela encourage les tokens de requête à se concentrer sur des caractéristiques visuelles complémentaires plutôt que sur un mappage spatial redondant. Des évaluations approfondies sur 27 bancs d'essai montrent que PARCEL améliore la frontière de Pareto performance-efficacité, surpassant systématiquement les lignes de base matriochka existantes sur différents budgets de tokens visuels, tout en préservant le paradigme « entraîné une fois, déployé partout ».
Les modèles de langage multimodaux de grande taille (MLLM) ont démontré des capacités solides en perception, raisonnement et génération d'actions. Cependant, leur aptitude à soutenir une exploration dans des mondes ouverts dynamiques reste incertaine. Les référentiels existants, qu'ils soient incarnés ou basés sur des jeux, compressent souvent l'interaction en tâches à court terme ou lient la réussite à des mécanismes de jeu spécifiques au domaine. Dans cet article, nous présentons le référentiel MineExplorer, conçu pour évaluer les capacités d'exploration en monde ouvert des agents MLLM dans Minecraft. Nous filtrons d'abord les tâches atomiques dont les solutions reposent fortement sur des connaissances spécifiques à Minecraft, afin de mieux refléter le raisonnement général en monde ouvert. Ensuite, nous organisons le référentiel autour d'une formulation de capacités de type ReAct (raisonnement et action) et composons les tâches atomiques en tâches implicites à plusieurs étapes. Pour construire des instances fiables supplémentaires, MineExplorer utilise un flux de travail de synthèse multi-agents qui conçoit conjointement des graphes de tâches, des scènes de bac à sable et des évaluateurs de jalons basés sur des règles. L'évaluation humaine montre que ce flux de travail de synthèse multi-agents produit des instances nettement plus fiables qu'une ligne de base à agent unique. Les expériences menées avec des agents MLLM avancés indiquent que l'exploration en monde ouvert reste difficile, car les modèles robustes peuvent gérer de nombreuses tâches à étape unique, mais leur performance chute fortement lorsque des prérequis cachés doivent être coordonnés sur des trajectoires plus longues. Une analyse plus poussée révèle que la difficulté des tâches suit l'achèvement par les agents, et que des modèles plus grands ou des modes de réflexion ne se traduisent pas systématiquement par de meilleures performances. Le code et l'ensemble de données sont disponibles à l'adresse https://github.com/Jometeorie/MineExplorer.
Les modèles vision-langage-action (VLA) reposent sur le principe selon lequel la compréhension sémantique issue de modules pré-entraînés pour le langage ou la vision-langage devrait guider la prédiction d'action du robot. Pourtant, le fine-tuning robotique est optimisé comme une imitation sur des distributions d'action spécifiques à la tâche, et de nombreuses évaluations peuvent être résolues grâce à des raccourcis visuels ou instruction-action. Nous présentons RoboSemanticBench (RSB), un benchmark embarqué pour diagnostiquer l'ancrage sémantique dans la prédiction d'action : savoir si les modèles VLA post-entraînés peuvent utiliser la sémantique complexe des instructions pour sélectionner et manipuler la cible physique correcte. Dans chaque épisode, un robot reçoit une question à choix multiples de mathématiques ou de culture générale, observe des blocs de réponses candidates, et doit saisir le bloc correspondant à la bonne réponse. RSB couvre le calcul contrôlé, la compréhension mathématique de niveau primaire, ainsi que la compréhension de bon sens ou factuelle, avec des suites à quatre et dix choix. Sur plusieurs modèles VLA représentatifs, nous constatons que de nombreuses politiques apprennent à saisir les blocs candidats, mais sélectionnent le bloc sémantiquement correct à des taux quasi aléatoires ou inférieurs au hasard après contrôle de la réussite de la saisie, révélant un écart persistant entre la compétence sémantique au niveau du module de base et la prédiction d'action.
Sélectionner la meilleure réponse parmi plusieurs échantillons d'un petit modèle en utilisant un scorer plus fort est une stratégie d'inférence simple, mais elle échoue lorsque le petit modèle s'est déjà engagé dans des chemins de raisonnement incorrects. La recherche guidée par PRM évite cela en scorant les continuations candidates pendant la génération, mais nécessite un modèle de récompense entraîné avec des annotations au niveau des étapes. Nous proposons la Génération Guidée par Niveau de Chunks, une alternative sans entraînement qui utilise un grand modèle de langage prêt à l'emploi comme scorer de processus. À chaque étape, un petit modèle échantillonne k chunks candidats de longueur fixe, tandis que le plus grand modèle score les candidats en utilisant des vraisemblances sans générer de texte. Le chunk sélectionné est validé avant l'étape suivante, orientant la génération avant que les erreurs ne puissent se propager. Nous instancions ce cadre avec deux règles de sélection : la Sélection Guidée par Vraisemblance (LGS), qui sélectionne le chunk avec la log-probabilité normalisée par la longueur la plus élevée du grand modèle, et la Sélection Guidée par Contraste (CGS), qui soustrait la log-probabilité du petit modèle pour favoriser les chunks où la préférence du grand modèle diverge de celle du petit modèle. Nous montrons que scorer des étapes de raisonnement de longueur variable avec des vraisemblances du grand modèle n'est pas fiable en raison d'un biais systématique de longueur qui persiste même après normalisation par la longueur, et que des chunks de longueur fixe évitent ce facteur de confusion. Sur GSM8K, MATH, Minerva Math, AMC23 et AIME24 avec Qwen2.5-1.5B guidé par Qwen2.5-32B et Llama-3.2-1B guidé par Llama-3.1-70B, CGS surpasse le vote majoritaire jusqu'à 28 pp et, sous des budgets de guidage appariés, atteint ou dépasse la recherche guidée par Qwen2.5-Math-PRM-72B sur la plupart des benchmarks sans entraînement de modèle de récompense. Avec Qwen2.5-7B guidé par Qwen2.5-72B, CGS atteint 81,8% sur MATH et 63,6% sur Minerva Math à k=16, surpassant le vote majoritaire de 4 à 6 pp. Enfin, la Génération Guidée par Niveau de Chunks produit des traces de raisonnement sensiblement plus courtes que la recherche guidée par PRM.
Les agents d’utilisation d’ordinateur (CUA) sont aujourd’hui principalement déployés comme des agents uniques séquentiels. Cette configuration est sous-optimale pour les tâches complexes à long horizon qui bénéficient de la décomposition des tâches, de l’exécution parallèle et d’une replanification cohérente en fonction des nouvelles informations. Dans cet article, nous soutenons qu’il convient plutôt de se tourner vers l’évaluation et la construction de systèmes d’utilisation d’ordinateur multi-agents (MACU). Ces systèmes, qui mettent l’accent sur la planification et l’exécution parallèle, atténuent bon nombre des lacunes des CUA à agent unique. Nous proposons une configuration multi-agent générale dans laquelle un modèle gestionnaire décompose les tâches d’utilisation d’ordinateur sous forme de graphe orienté acyclique (DAG), encodant les dépendances et les objectifs pertinents pour les sous-agents. À chaque itération, le gestionnaire répartit des sous-agents CUA parallèles pour exécuter les nœuds sur la frontière prête du DAG, et révise en continu le DAG (ajout, annulation ou réécriture de nœuds) à mesure que de nouvelles informations parviennent des sous-agents. Cette conception traite l’environnement partiellement observable de l’utilisation d’ordinateur comme un défi de première classe : les informations que les agents en aval pourraient ne pas être en mesure de réobserver sont conservées et transmises via la structure du gestionnaire et du DAG. Nous démontrons que MACU améliore systématiquement les bases solides à agent unique de 3,4 à 25,5 % sur les benchmarks de bureau (OSWorld) et de navigation web (Online-Mind2Web, WebTailBench, Odysseys), présente un passage à l’échelle plus favorable au moment du test, et résout des tâches complexes à long horizon où les CUA à agent unique restent bloqués. Sur Odysseys, un benchmark de navigation web à long horizon, MACU améliore le temps réel d’achèvement moyen des tâches d’environ 1,5 fois, démontrant son efficacité pour accélérer des pipelines CUA traditionnellement lents. Nos résultats soulignent que la coordination multi-agent est un axe prometteur pour faire évoluer les agents d’utilisation d’ordinateur afin qu’ils travaillent plus longtemps et plus efficacement. Nous publions l’intégralité du code et des visualisations interactives à l’adresse https://jykoh.com/multi-agent-computer-use.
Mesurer la compréhension structurée des objets dans les modèles fondamentaux de vision reste difficile en raison de protocoles d'évaluation incohérents et d'un nombre limité de supervision au niveau des parties. La correspondance sémantique (SC) évalue cette capacité en testant si les parties d'objets peuvent être mises en correspondance entre instances et catégories malgré de grandes variations d'apparence, de point de vue et de géométrie. Pour permettre une évaluation systématique de la SC, nous introduisons SOCO, un nouveau référentiel de Correspondance Sémantique d'Objets qui propose une taxonomie des types de correspondance et fournit des annotations cohérentes et fonctionnellement significatives de points clés pour 100 catégories et plus d'un million de paires de correspondance. De plus, SOCO inclut des descriptions linguistiques des points clés, permettant l'évaluation des grands modèles vision-langage (LVLM) et de leur compréhension fine des parties. Des expériences approfondies révèlent que (i) les architectures de base des modèles fondamentaux de vision encodent une forte structure sémantique mais transfèrent mal les correspondances entre catégories apparentées et ne capturent que partiellement la position des parties d'objets, (ii) les LVLM sont plus performants pour la localisation de parties guidée par du texte que pour la mise en correspondance inter-images par référence visuelle, ce qui expose un fossé entre la localisation ancrée dans le langage et la correspondance visuelle fine, et (iii) la performance de correspondance prédit plus fortement la performance dans des tâches denses en aval, incluant la segmentation, le suivi, l'estimation de pose 3D et la détection 3D, que la classification ImageNet. Ensemble, ces résultats positionnent SOCO comme un référentiel pour la qualité des représentations structurées au niveau des parties dans les modèles fondamentaux de vision et multimodaux.
Le désapprentissage des grands modèles de langage (LLM) est devenu un mécanisme a posteriori essentiel pour la protection de la vie privée et la sécurité de l'IA, mais l'audit visant à vérifier si une connaissance cible est réellement effacée reste un défi. Les métriques existantes au niveau des sorties ne parviennent pas à détecter les cas où cette connaissance reste récupérable à partir des représentations internes. De récentes études en boîte blanche révèlent cette connaissance résiduelle, mais elles reposent souvent sur un entraînement auxiliaire ou des adaptations spécifiques aux jeux de données, sans fournir de métrique généralisable. Pour remédier à ces limitations, nous proposons le score de profondeur de désapprentissage (UDS), une métrique qui quantifie la profondeur mécanistique du désapprentissage via la correction d'activation. L'UDS identifie d'abord les couches qui encodent la connaissance cible en utilisant un modèle de référence conservé, puis mesure, sur une échelle de 0 à 1, la proportion de cette connaissance effacée dans le modèle désappris. Dans une méta-évaluation portant sur 20 métriques et 150 modèles désappris issus de 8 méthodes, l'UDS atteint la fidélité et la robustesse les plus élevées, confirmant que notre approche causale est la plus fiable pour l'évaluation du désapprentissage. Des études de cas révèlent en outre que les métriques en boîte blanche peuvent diverger au niveau des couches et que la profondeur d'effacement varie selon les exemples. Nous fournissons des recommandations pour intégrer l'UDS dans les cadres de référence existants et rationaliser le pipeline d'évaluation. Le code et les données sont disponibles à l'adresse https://github.com/gnueaj/unlearning-depth-score.
Comprendre les images de graphiques et de tableaux est essentiel pour appliquer les modèles vision-langage (VLM) à l’analyse de documents réels. Alors que les référentiels en anglais ont progressé rapidement, leurs équivalents dans d’autres langues restent rares, ce qui laisse incertain si ces progrès se généralisent à travers les langues. Un obstacle majeur réside dans la difficulté de collecter à grande échelle des images réalistes et diverses de graphiques et tableaux non anglophones. Pour y remédier, nous exploitons les livres blancs gouvernementaux comme source évolutive pour la construction de référentiels au-delà de l’anglais, car ils contiennent des graphiques et tableaux naturels dans des formats et domaines variés et sont librement accessibles dans de nombreux pays. En première illustration, nous présentons HakushoBench, un référentiel exigeant de VQA sur graphiques et tableaux en japonais, construit à partir de 33 livres blancs gouvernementaux. HakushoBench comprend 2 053 images couvrant plus de 10 types d’images, avec des paires question-réponse annotées manuellement, conçues pour évaluer une compréhension profonde et holistique des graphiques et tableaux, au-delà des seuls indices visuels locaux. Des expériences menées sur un large éventail de VLM montrent que HakushoBench reste difficile pour les modèles à poids ouverts : le meilleur d’entre eux n’atteint que 58,6 % de précision, et un écart de 34,9 points entre modèles à poids ouverts et modèles propriétaires souligne une marge d’amélioration considérable dans la compréhension complexe des graphiques et tableaux. Nous publions notre ensemble de données et notre code.
La véritable intelligence vidéo exige bien plus que la simple reconnaissance de ce qui est visible : elle nécessite de raisonner sur les causes du déroulement des événements, de prédire ce qui changerait dans des conditions différentes, et de décider de la marche à suivre. Nous désignons cette progression, de la perception au raisonnement causal et à la simulation, jusqu'à la planification stratégique, sous le nom d'Intelligence Vidéo Stratégique (IVS). Aucun banc d'essai existant n'évalue cet ensemble de capacités : les vidéos issues du monde réel manquent de vérité terrain vérifiable pour les questions causales et stratégiques, tandis que les environnements synthétiques sacrifient la complexité des systèmes multi-agents réels. Pour combler cette lacune, nous présentons SVI-Bench, un banc d'essai à grande échelle qui exploite les sports d'équipe comme micromonde dynamique, combinant la complexité des interactions multi-agents réelles (10 à 22 agents prenant des décisions coordonnées sous pression adverse) avec la vérifiabilité de règles explicites et de résultats définitifs. SVI-Bench comprend environ 35 000 heures de vidéo diffusée, 15 millions d'actions annotées, 15 000 heures de commentaires d'experts, 23 000 comptes rendus de matchs et 103 000 enregistrements statistiques structurés couvrant le basket-ball, le football et le hockey, le tout construit via un moteur de données qui transforme les données brutes de jeu en un corpus dense et cross-référencé. Nous organisons l'évaluation en 9 tâches réparties selon une hiérarchie progressive à quatre piliers : Compréhension Dynamique de la Scène, Raisonnement Causal, Simulation Stratégique et Synthèse Agentique. En évaluant des modèles de référence multimodaux et agentiques forts, nous observons une falaise de capacité : les modèles obtiennent des performances compétentes pour les tâches perceptives, atteignant environ 73 % sur des questions-réponses d'actions fines, mais leur performance se dégrade fortement à chaque niveau cognitif successif. Les tâches agentiques s'avèrent les plus difficiles : le modèle le plus performant n'atteint que 5 % de précision lorsqu'il doit rassembler et intégrer de manière autonome des preuves à travers un corpus de 1,8 million d'extraits.
La recherche agentique nécessite que des agents basés sur des modèles de langage explorent de nombreuses sources et répondent à des questions complexes de recherche d'informations. L'augmentation du calcul en phase de test est une voie prometteuse pour améliorer ces agents, mais les approches actuelles peuvent échouer, car les réponses correctes sont souvent rares et la sélection basée sur des scores dépend de la calibration du modèle. Nous proposons FineVerify, un cadre d'auto-vérification fine qui décompose chaque question en sous-questions vérifiables, vérifie les candidats échantillonnés pour chaque sous-question, et sélectionne le candidat avec le score agrégé le plus élevé. Cette structure par vérification transforme la sélection en jugements locaux plus simples et produit des scores sous les mêmes critères explicites. Sur quatre benchmarks de recherche agentique et deux modèles, FineVerify surpasse systématiquement les bases de référence standard de mise à l'échelle. Avec seulement quatre trajectoires échantillonnées, il améliore GPT-5-mini de 8,2 points de précision et Gemini-3-flash de 5,6 % en moyenne. Avec 12 échantillons, FineVerify permet à GPT-5-mini de surpasser le modèle frontalier GPT-5 sur BrowseComp-Plus. Au-delà de la précision, FineVerify produit des traces de vérification interprétables qui aident à auditer les erreurs des benchmarks, suggérant des applications plus larges pour l'inspection des systèmes de recherche agentique. Le code et les données sont disponibles sur https://github.com/XuZhao0/fineverify
Les systèmes d’IA physique cartographient de plus en plus des observations multimodales, des instructions langagières et des représentations apprises du monde en actions ayant des conséquences physiques. Les modèles fondamentaux de robotique, les modèles vision-langage-action et les systèmes autonomes basés sur des modèles du monde peuvent conditionner des décisions qui actionnent des véhicules, des robots, des drones et des machines industrielles. Cette transition expose un problème de sécurité qui n’est pas pleinement pris en compte par la modération de contenu conventionnelle de l’IA ni par la sécurité robotique classique seule : un modèle boîte noire peut émettre une action physiquement conséquente tout en paraissant confiant, plausible et sémantiquement aligné. La défaillance qui en résulte peut être silencieuse, provenant d’une dérive des capteurs, d’une occlusion, d’une erreur d’estimation d’état, d’un décalage de distribution, d’affordances hallucinées ou d’hypothèses physiques invalides avant que les contrôleurs matériels en aval ne détectent une violation. À travers les modèles fondamentaux incarnés, les modèles du monde, la simulation robotique, les références de sécurité incarnée, le contrôle sûr, l’assurance à l’exécution, l’estimation d’incertitude, la vérification et l’évaluation des garde-fous, les capacités des modèles et les mécanismes de sécurité ont progressé selon des trajectoires techniques largement distinctes. Un écart récurrent synthétisé ici est qu’aucun flux unique parmi ceux examinés dans cette revue ne fournit une frontière d’autorisation complète à l’exécution entre les modèles d’IA physique boîte noire et l’exécution physique. L’analyse qui en résulte développe une formulation de problème bornée, une définition de la défaillance silencieuse d’action physique, une taxonomie des fonctions de garde-fou à l’exécution, et des exigences d’évaluation pour comparer les garde-fous en tant que mécanismes d’assurance de l’IA physique.
L’apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une technique centrale pour le post-entraînement des grands modèles de langage (LLMs). Bien que l’optimisation de la politique soit pilotée par l’ensemble des tokens échantillonnés sous l’effet d’une récompense scalaire diffusée globalement, les comportements politiques hétérogènes observés le long des trajectoires sont largement négligés, sans différenciation. Les travaux existants abordent ce problème via l’allocation de crédit, notamment la repondération des avantages au niveau des tokens et l’optimisation sélective des tokens. Cependant, les critères d’allocation restent principalement stagnants tout au long de l’entraînement, limitant ainsi une évolution résiliente de la politique. Dans ce travail, nous soutenons que le moment où les signaux d’apprentissage sont programmés peut être aussi important que l’endroit où ils sont alloués parmi les tokens, et nous introduisons la dimension temporelle qui consiste à ordonnancer les critères d’allocation de crédit au cours de l’optimisation RLVR. Nous constatons que prioriser les tokens ciblés avec des comportements politiques spécifiques, puis atténuer progressivement vers une optimisation générale, conduit à une dynamique d’apprentissage plus stable et plus efficace. De plus, nous montrons que de simples percentiles de trajectoire offrent une perspective naturelle pour distinguer les comportements politiques et fonctionnent efficacement avec l’ordonnancement temporel. Notre analyse révèle que l’optimisation standard sacrifie considérablement l’entropie de la politique lorsqu’elle doit accommoder simultanément des comportements hétérogènes, tandis que l’ordonnancement temporel produit une dynamique d’évolution politique plus saine. Des expériences sur des benchmarks de raisonnement mathématique et général démontrent des améliorations constantes, suggérant que l’ordonnancement temporel constitue une dimension d’optimisation prometteuse.
Les plongements de phrases constituent un composant fondamental pour la recherche sémantique, le regroupement, la classification et la génération augmentée par récupération. Cet article présente embeddingmagibu-200m, un modèle de plongement de phrases centré sur le turc produisant des vecteurs normalisés L2 de dimension 768 et prenant en charge une fenêtre de contexte de 8 192 tokens, dépassant largement la limite de 512 tokens des encodeurs turcs antérieurs basés sur BERT. Au lieu d’un pré-entraînement complet, un pipeline d’adaptation efficace en trois étapes est introduit : (1) construction d’un tokeniseur multilingue optimisé pour le turc avec un vocabulaire de 131 072 tokens, en élaguant les tokens redondants du vocabulaire du professeur et en incorporant des tokens multilingues via une analyse de fréquence sur un corpus de 40 langues, (2) clonage d’un modèle de plongement professeur tout en conservant les poids du transformeur principal et en initialisant une table de plongement compatible pour le nouveau vocabulaire via un mappage de tokens par composition de moyennes, et (3) distillation de plongements hors ligne à partir de vecteurs professeurs précalculés utilisant un objectif de similarité cosinus sur un corpus Wikipédia équilibré en 40 langues. Le modèle étudiant résultant contient environ 200M paramètres et s’entraîne en environ quatre heures sur un seul GPU en évitant l’inférence en ligne du professeur pendant l’entraînement, pour un coût total de 5 à 20 dollars. Empiriquement, des corrélations de Pearson/Spearman de 77,55 %/77,45 % sont obtenues sur STSbTR, surpassant le modèle professeur de 300M paramètres (73,84 %/72,92 %). Sur TR-MTEB (26 tâches), un score moyen de 63,9 % est atteint (7e sur 26 modèles), offrant un compromis compétitif qualité-coût avec 33 % de paramètres en moins par rapport au professeur. Pour faciliter la reproductibilité et l’utilisation en aval, tous les artefacts sont publiés, y compris les poids du modèle, les fichiers du tokeniseur, les ensembles de données de plongements précalculés et les outils de clonage et de distillation en open source.
La modélisation 3D procédurale par code s'impose comme un paradigme polyvalent, offrant des actifs déterministes, prêts pour le moteur et précisément modifiables, que les générateurs neuronaux 3D ne possèdent pas intrinsèquement. La création de tels contenus procéduraux nécessite toutefois une expertise approfondie des API logicielles 3D, de la conception paramétrique et du raisonnement géométrique au niveau du code. Dans cet article, nous proposons 3DCodeBench, un référentiel systématique pour évaluer des agents de modèles vision-langage (VLM) pour la génération 3D procédurale dans un logiciel de modélisation 3D. Plus précisément, 3DCodeBench évalue l'efficacité avec laquelle 12 VLM avancés peuvent servir de modélisateurs 3D procéduraux en traduisant des références textuelles et imagées en code procédural pour un logiciel de modélisation 3D. Reconnaissant que les métriques automatisées peuvent ne pas capturer pleinement la qualité perceptuelle des formes 3D, nous construisons 3DCodeArena, une plateforme de classement basée sur les préférences humaines par paires sur les sorties 3D générées. À partir d'évaluations et de résultats approfondis, nous observons que : (1) Les échecs proviennent principalement de discordances d'API, tandis que les rendus réussis souffrent encore de composants géométriques 3D déconnectés ou flottants. (2) La mise à l'échelle au moment du test, comme des budgets de réflexion plus élevés et un affinage multi-tours, améliore les performances globales. Nos résultats soulignent un besoin critique de données de codage procédural de haute qualité pour faire progresser les VLM commerciaux. De plus, une modélisation 3D procédurale efficace nécessite un environnement d'exécution robuste qui fournisse un retour haute fidélité pour un affinage itératif. Nous publions 3DCodeBench, incluant l'ensemble de données à grande échelle et organisé d'invites multimodales (texte/image), de code procédural, de triplets d'objets 3D, le protocole d'évaluation, et la plateforme publique 3DCodeArena comme kit d'outils fondamental pour explorer les modélisateurs 3D procéduraux basés sur VLM.
Alors que les applications réelles exigent de plus en plus le traitement d'entrées de 100 000 tokens ou plus, le fossé entre la longueur du contexte et l'efficacité d'inférence est devenu un goulot d'étranglement critique. La compression de contexte offre un moyen de réduire les coûts de préremplissage tout en préservant la précision des tâches. Cependant, les méthodes existantes basées sur l'attention et sans entraînement laissent des lacunes importantes dans les tâches exigeantes à long contexte, telles que le raisonnement sur du code. Nous présentons LongAttnComp, une adaptation de AttnComp pour les longs contextes, qui ajuste finement une couche légère de scoring par attention croisée et introduit un découpage au niveau des tokens, un algorithme top-p avec budget de tokens, un réordonnancement positionnel, et un analyseur de requêtes indépendant du format. Nous concevons en outre une recette de fine-tuning en deux étapes pour le compresseur : l'étape 1 établit une base de récupération générale à partir de données de type NIAH, et l'étape 2 l'étend avec des données multi-sauts et de raisonnement pour une couverture plus large des tâches à long contexte. Sur InfiniteBench Code-Debug, LongAttnComp égal ou dépasse la précision du contexte complet, surpasse nettement les références sans entraînement, et se transfère sur quatre modèles cibles issus de trois familles. Sur LongBench v2, la recette en deux étapes comble en grande partie l'écart de l'étape 1 sur le raisonnement multi-documents tout en préservant la performance sur Code-Debug.
Cet article aborde le défi d’intégrer les maillages 3D comme modalité native au sein des Modèles de Langage Multimodaux de Grande Taille (MLLM). Les grands modèles de reconstruction basés sur la diffusion découplent la compréhension sémantique du raisonnement géométrique, fonctionnant comme des reconstructeurs sans état conditionnés par des a priori denses de pixels 2D. Les méthodes récentes fondées sur les MLLM traitent la modalité 3D comme une sortie externe plutôt que comme une composante native de la séquence multimodale, apportant des adaptations incrémentales sans analyse systématique de la façon dont les variétés géométriques s’alignent sur les espaces de caractéristiques des MLLM. Nous présentons EVA01, un cadre unifié qui étend la frontière modale des MLLM pour incorporer nativement la compréhension, la génération et l’édition sensible au contexte de maillages 3D. Construit sur une architecture de Mélange de Transformateurs (MoT), EVA01 découple le modèle en un Expert de Compréhension pré-entraîné (E_{und}) et un Expert de Génération structurellement miroir (E_{gen}), couplés par une auto-attention globale partagée avec un routage strict par modalité. Cette conception aligne l’espace latent sémantique du backbone MLLM avec la variété géométrique, permettant un transfert direct des a priori multimodaux sans représentations 2D intermédiaires. Les résultats montrent qu’EVA01 atteint une fidélité de génération native texte-vers-3D à l’état de l’art et déverrouille une édition géométrique robuste en contexte long et multi-tours avec préservation de l’identité, une capacité fondamentalement inaccessible aux pipelines de reconstruction sans état. Nos résultats offrent en outre des perspectives architecturales pour intégrer les modèles fondamentaux 2D aux tâches 3D, éclairant la conception de systèmes multimodaux natifs 3D. Page du projet : https://www.seeles.ai/research/pages/EVA01
Les chercheurs académiques ont besoin de méthodes efficaces et fiables pour collecter des informations de haute qualité provenant de sources de confiance, mais les outils modernes de recherche assistée par IA souffrent encore de la tendance des grands modèles de langage (LLM) à produire des résultats factuellement inexacts ou dénués de sens, communément appelés hallucinations. Nous appliquons le système de réponse aux questions extractives VerbatimRAG aux articles de recherche du ACL Anthology, en mappant directement les requêtes utilisateur à des extraits textuels verbatim dans les documents récupérés. Nous contribuons à un nouvel ensemble de données de vérité terrain pour la tâche de mappage des requêtes utilisateur aux passages textuels pertinents dans les articles de recherche, et l'utilisons pour entraîner et évaluer une variété de modèles extractifs. L'annotation humaine est réalisée par des chercheurs en TALN et repose sur des requêtes utilisateur synthétiques générées à l'aide d'un pipeline personnalisé basé sur la méthodologie ScIRGen, associées à des fragments d'articles de recherche récupérés par VerbatimRAG. Sur ce banc d'essai, un classifieur de tokens ModernBERT de 150 millions de paramètres entraîné par supervision argentée à partir de notre pipeline atteint le meilleur F1 au niveau des mots (53,6), devant le meilleur extracteur LLM évalué (48,7).
SwiGLU已成为现代Transformer MLP中的标准门控激活函数,但其门控锐度(即门控函数的平滑性与选择性)在训练过程中通常是固定的。本文提出了一种适用于混合专家(MoE)模型的置信度感知SwiGLU(κ-SwiGLU)变体,该变体根据词元级路由置信度动态调整专家门控锐度。具体而言,κ-SwiGLU将SiLU门控锐度系数参数化为路由器logit的可学习函数,使得每个专家门控单元能够在平滑的广域门控与锐利的选择性门控之间进行插值。我们基于FineWeb-Edu数据集,在8层至28层的MoE Transformer模型上评估了κ-SwiGLU。实验表明,κ-SwiGLU在仅增加极少量参数并引入微小计算开销的情况下,提升了平均CORE性能,从而验证了置信度感知的门控锐度是改进MoE MLP的有效机制。代码已开源至https://github.com/askerlee/kappa-swiglu。
Les agents de recherche approfondie ont démontré une forte capacité dans la récupération d'informations en plusieurs étapes, le raisonnement et la génération de rapports longs, mais les références et systèmes existants restent principalement centrés sur le texte, avec une évaluation limitée de la fiabilité factuelle des éléments visuels et de leur alignement avec l'analyse environnante. Pour combler cette lacune, nous introduisons TVIR (Text–Visual Interleaved Report Generation), qui comprend TVIR-Bench, une référence de 100 tâches de recherche approfondie multimodales organisées par des experts, exigeant que les éléments visuels servent des sous-objectifs analytiques spécifiques, et TVIR-Agent, un cadre multi-agent hiérarchique servant de base solide pour construire des plans, récupérer des images, générer des graphiques avec des sources traçables et composer des rapports par une écriture séquentielle sensible au contexte. Nous développons en outre un cadre d'évaluation à double voie combinant l'évaluation textuelle et l'évaluation visuelle. Les expériences menées sur neuf systèmes de recherche approfondie montrent que TVIR-Agent atteint une performance globale solide, soulignant l'importance d'une conception et d'une évaluation multimodales explicites pour la génération de rapports fondés sur des preuves.
Pour offrir une assistance concrète dans le monde réel, les agents d’IA doivent posséder une solide capacité de Théorie de l’esprit (ToM) : inférer les états mentaux humains à partir de leurs comportements. Malgré les progrès récents, plusieurs défis majeurs subsistent, notamment (1) l’inférence en ligne avec des mises à jour robustes de l’incertitude portant sur de multiples hypothèses ; (2) un raisonnement efficace adapté à une assistance en temps réel ; et (3) l’absence d’annotations vérité-terrain des états mentaux dans les domaines réels. Nous relevons ces défis en introduisant MindZero, un cadre d’apprentissage par renforcement auto-supervisé qui entraîne des modèles de langage multimodaux de grande taille (MLLM) à effectuer un raisonnement mental en ligne, efficace et robuste. Pendant l’apprentissage, le modèle est récompensé pour avoir généré des hypothèses d’états mentaux qui maximisent la vraisemblance des actions observées, estimée par un planificateur, suivant un raisonnement ToM basé sur un modèle. Cette méthode élimine ainsi le besoin d’annotations explicites des états mentaux. Après l’apprentissage, MindZero internalise le raisonnement basé sur un modèle dans une inférence rapide en un seul passage. Nous évaluons MindZero par rapport à des méthodes de référence dans des tâches exigeantes de raisonnement mental et d’assistance en IA, réalisées dans des environnements de type grille et des domaines domestiques. Nous constatons que les LLM seuls sont insuffisants ; les méthodes basées sur un modèle améliorent la précision mais sont lentes, coûteuses et limitées par la capacité du MLLM sous-jacent. En revanche, MindZero renforce la capacité intrinsèque de ToM des MLLM et surpasse significativement les méthodes basées sur un modèle, tant en précision qu’en efficacité, montrant que le raisonnement mental peut être efficacement appris comme une compétence auto-supervisée.
Malgré les progrès rapides des modèles texte-image (T2I), la génération d'images qui reflètent avec précision des invites compositionnelles complexes (couvrant les liens d'attributs, les relations entre objets et le comptage) reste difficile. Pour y remédier, nous proposons BiDPO, un cadre visant à améliorer la capacité des modèles T2I pour la génération compositionnelle texte-image. Nous commençons par introduire un pipeline soigneusement conçu pour construire un ensemble de données de préférences à grande échelle, BiComp, avec un contrôle de qualité strict. Ensuite, nous étendons Diffusion DPO pour optimiser conjointement les préférences d'image et de texte, ce qui s'avère très efficace pour améliorer la capacité des modèles à suivre des invites textuelles complexes lors de la génération. Pour renforcer davantage l'alignement fin des modèles, nous employons une méthode de guidage au niveau des régions afin de se concentrer sur les zones pertinentes pour les concepts compositionnels. Les résultats expérimentaux montrent que notre BiDPO améliore substantiellement la fidélité compositionnelle, surpassant systématiquement les méthodes antérieures sur plusieurs références. Notre approche souligne le potentiel du réglage fin basé sur les préférences pour les tâches complexes de génération texte-image, offrant une alternative flexible et évolutive aux techniques existantes.
Les modèles de monde vidéo (WMs) ont montré leur potentiel pour l'évaluation et l'amélioration des politiques en imaginant des observations futures réalistes conditionnées par les actions du robot-ego. Bien que les WMs puissent modéliser des distributions sur les futurs, l'évaluation et l'amélioration des politiques reposent généralement sur des imaginations nominales, qui peuvent omettre les résultats à fort impact des actions du robot, à moins qu'un nombre prohibitif d'échantillons ne soit tiré. Pour permettre une évaluation et une amélioration robustes des politiques à partir des imaginations des WMs, nous proposons StressDream, qui oriente les imaginations vers des résultats à fort impact mais plausibles, spécifiés au moment de l'inférence en optimisant le bruit initial des WMs basés sur la diffusion. Cependant, l'optimisation du bruit de haute dimension est difficile : l'optimisation doit raisonner sur des événements cibles nuancés et dépendants de la scène dans les vidéos générées tout en évitant un bruit hors distribution (OOD) qui produit des imaginations invraisemblables. Nous abordons cela avec deux objectifs complémentaires : un objectif sémantique avec un modèle Vision-Langage qui fournit des gradients informatifs en raisonnant sur la vidéo générée, et un objectif de plausibilité qui empêche le bruit optimisé de dériver hors distribution. Avec des modèles de monde vidéo de pointe pour la conduite autonome et la manipulation robotique, nous montrons que StressDream oriente efficacement les imaginations vers des résultats à fort impact mais plausibles spécifiés par du texte au moment de l'inférence, tels que des échecs de tâches, permettant une évaluation et une amélioration robustes des politiques en identifiant les actions dont les futurs plausibles incluent des issues indésirables. Les résultats vidéo sont disponibles à l'adresse https://junwon.me/StressDream/.
Nous présentons une forme fonctionnelle (que nous désignons sous le nom de Loi de Mise à l'Échelle Neuronale Unifiée, ou UNSL) qui modélise et extrapole avec précision les comportements de mise à l'échelle des réseaux de neurones profonds lorsque plusieurs dimensions varient simultanément (c'est-à-dire comment la métrique d'évaluation d'intérêt évolue lorsque l'on fait varier en même temps le nombre de paramètres du modèle, la taille de l'ensemble de données d'entraînement, le nombre d'étapes d'entraînement, le nombre d'étapes d'inférence, la quantité de calcul et divers hyperparamètres), et ce pour différentes architectures et pour chacune des diverses tâches au sein d'un ensemble varié de tâches en amont et en aval. Cet ensemble inclut la vision à grande échelle, le langage, les mathématiques et l'apprentissage par renforcement. En comparaison avec d'autres formes fonctionnelles de mise à l'échelle neuronale, cette forme fonctionnelle produit des extrapolations du comportement de mise à l'échelle qui sont considérablement plus précises sur cet ensemble.
Les systèmes d'IA physique prédictive génèrent des déploiements d'état, des segments d'action et des plans latents, mais une faible erreur quadratique moyenne (RMSE) n'implique pas qu'une proposition particulière soit physiquement exécutable. Nous formulons l'admissibilité physique comme une interface prédiction-contrôle : avant l'exécution, une proposition décodée est traitée comme une dynamique candidate et évaluée à l'aide de conditions cinématiques, dynamiques et d'horizon direct-à-composé. Le fait de passer ces conditions n'est pas un certificat de réussite de la tâche ; le rejet identifie une violation de l'enveloppe physique spécifiée et fournit une raison au niveau du composant. Sur Hugging Face LeRobot PushT, une falsification contrôlée montre que la RMSE de prédiction à une étape et les résidus dynamiques standardisés atteignent une aire sous la courbe caractéristique de fonctionnement du récepteur (AUC) de 0,982 et 0,972, les conditions purement cinématiques atteignent une AUC de 0,592, et la porte complète atteint une AUC de 0,957 avec une attribution au niveau des conditions. Dans des expériences d'intervention basées sur le rejeu, les filtres basés sur les résidus et la porte complète d'admissibilité physique empêchent 87 à 89 % des propositions invalides tout en préservant un progrès moyen proche de 0,998.
Les grands modèles de langage résolvent des problèmes complexes en générant de longues chaînes de tokens de raisonnement explicites. Bien que efficace, cette approche rend le raisonnement coûteux, sensible à la longueur et contraint au langage naturel (discret). Alors que le raisonnement latent offre une alternative continue, déterminer des structures utiles pour les états latents intermédiaires constitue un défi ouvert. Dans cet article, nous formulons le raisonnement latent comme un problème d’approximation de chemin géométrique dans l’espace de plongement de tokens pré-entraîné du modèle. Nous introduisons le raisonnement latent géométrique (GLR), qui utilise une tête de transition légère pour prédire des mises à jour itératives de direction dans l’espace de plongement. En utilisant des traces textuelles de chaîne de pensée comme ancres, GLR apprend à approximer des trajectoires de raisonnement discrètes tout en permettant des déviations continues par rapport aux plongements de tokens exacts. Des évaluations sur des benchmarks de raisonnement mathématique utilisant les modèles Qwen3 révèlent un phénomène émergent : le raisonnement latent géométrique induit des générations sensiblement plus courtes sans objectif explicite de longueur. En remplaçant le raisonnement explicite précoce par des étapes latentes continues, les modèles atteignent souvent des réponses correctes en utilisant nettement moins d’étapes de génération totales. Ces résultats suggèrent que les trajectoires continues agissent comme des états intermédiaires de raisonnement compacts, exposant un nouveau compromis entre le budget de calcul latent, la longueur de sortie et la précision.
Les graphiques constituent un médium essentiel pour transmettre des informations quantitatives et relationnelles, mais évaluer systématiquement les modèles d’analyse de graphiques reste difficile. Les référentiels existants se concentrent sur des types de graphiques restreints et laissent de côté des structures diagrammatiques telles que les organigrammes et les cartes mentales, tandis que les modèles produisent des sorties dans des formats incompatibles et que les jeux de données incluent rarement les images imprimées ou dessinées à la main rencontrées en pratique. Pour remédier à ces problèmes, nous présentons ChartArena, un référentiel bilingue complet couvrant huit familles de graphiques, incluant à la fois des graphiques numériques et des structures diagrammatiques, chacune évaluée selon trois scénarios visuels : rendus numériques, photos imprimées et photos dessinées à la main. Le jeu de données est construit via un pipeline d’annotation collaboratif humain-agent avec une vérification humaine en plusieurs étapes pour garantir la fiabilité des annotations. Afin de permettre une comparaison équitable entre modèles, nous concevons également un protocole d’évaluation indépendant du format qui projette les sorties hétérogènes dans deux espaces sémantiques canoniques – une vue triple normalisée et une vue en graphe orienté – et les évalue à l’aide de métriques sensibles à la structure. Grâce à une évaluation approfondie de 26 MLLM de pointe, nous observons trois résultats récurrents : (i) les modèles propriétaires de pointe comme Gemini 3.1 Pro dominent globalement, mais les systèmes open source les plus puissants comblent rapidement l’écart ; (ii) les modèles d’analyse de documents traitent correctement les graphiques numériques mais sont nettement en retard sur les structures diagrammatiques ; (iii) les analyseurs de graphiques experts restent limités à des familles de graphiques restreintes. Tous modèles confondus, les diagrammes radar et les scénarios manuscrits demeurent particulièrement difficiles. Ces résultats montrent que ChartArena expose des lacunes de capacité claires et fournit une base unifiée pour les progrès futurs. ChartArena est accessible publiquement à l’adresse https://github.com/pspdada/ChartArena.
Le graphisme inverse est un problème ancien et fortement sous-contraint qui vise à reconstruire des images sous forme de scènes 3D modifiables, pouvant être rendues, rééclairées et manipulées. Dans ce travail, nous étudions si des modèles vision-langage préentraînés (VLM) peuvent effectuer du graphisme inverse exécutable directement à partir d'une seule image en reconstruisant une scène sous forme de programme Blender modifiable, sans recourir à des modèles de base spécialisés en 2D ou 3D, au rendu différentiable ou à une supervision multi-vue. Nous introduisons le Graphisme Inverse Exécutable par Étapes (SEIG), un cadre agentique qui reconstruit une scène 3D à partir d'une image unique en affinant progressivement les facteurs de scène — géométrie, matériaux, composition et éclairage — directement dans l'espace de code Blender exécutable. Nous évaluons notre cadre sur diverses scènes à l'aide d'un ensemble de métriques de reconstruction couvrant la fidélité au niveau des pixels, la perception et la sémantique. Nos expériences montrent que la reconstruction par étapes améliore considérablement la fidélité de la reconstruction, soulignant l'importance de la décomposition des tâches pour le graphisme inverse exécutable avec des VLM à usage général. Enfin, nous présentons diverses applications en aval rendues possibles par les scènes Blender modifiables reconstruites.
Nous décrivons une bibliothèque de finance mathématique construite dans l’assistant de preuve Lean 4, sur la base de Mathlib et du paquet BrownianMotion. Elle est vaste : plus de deux cents théorèmes sans « sorry » répartis dans onze domaines, des fondements de la théorie de la mesure pour le calcul stochastique en temps continu à l’évaluation des produits dérivés, en passant par la théorie appliquée du risque, du portefeuille et des taux, et constitue, à notre connaissance, le développement vérifié par machine le plus complet de la finance mathématique à ce jour. L’ampleur en est le cadre, non l’objet. Deux aspects font qu’elle dépasse un simple catalogue. Elle s’enfonce assez loin dans la théorie continue pour construire l’intégrale d’Itô L² comme isométrie linéaire bornée et pour dériver, plutôt que supposer, la mesure de pricing neutre au risque. Et elle audite sa propre fidélité : chaque résultat est classé selon la relation entre son énoncé en Lean et les mathématiques qu’il revendique, et une barrière imposée par la compilation fixe les axiomes effectivement utilisés par chaque preuve, de sorte qu’un lecteur puisse voir précisément ce qui a été prouvé et ce qui ne l’a été que sous des hypothèses supplémentaires. Nous concluons par un constat franc : une base formelle de la finance mathématique classique produit une unification certifiée de résultats connus plutôt qu’une nouvelle théorie financière. La contribution est donc méthodologique et infrastructurelle : des fondations vérifiées réutilisables pour la finance mathématique, accompagnées de l’audit de fidélité.
Nous présentons une formulation innovante pour la simulation d'ordre réduit sans maillage d'objets hyperélastiques déformables. Les travaux existants en simulation élastodynamique d'ordre réduit représentent la géométrie d'entrée soit par des maillages, qui peuvent être difficiles à obtenir en raison des défis liés au scan et à la triangulation de formes complexes, soit par des champs neuronaux nécessitant une optimisation par forme. Nous proposons d'adopter une représentation par Méthode des Particules par Noyau Reproduisant (RKPM), qui permet de construire des poids de peau d'ordre réduit en résolvant un système propre généralisé sur la matrice hessienne de l'énergie élastique. Nous démontrons que cette formulation conduit non seulement à une accélération de l'apprentissage de 40 fois par rapport à l'optimisation par forme des champs neuronaux, mais atteint également une erreur de simulation plus faible lorsqu'elle est évaluée par rapport aux résultats convergés de la méthode des éléments finis. Nous présentons nos résultats de simulation sur une grande variété d'objets dans différentes représentations, notamment les maillages et les Gaussian splats, ainsi que l'application de notre méthode à la tâche en aval de simulation robotique.
Les textes bilingues multilingues à grande échelle présentent souvent deux problèmes distincts : des paires de phrases non parallèles et des traductions de faible qualité. Nous décomposons l’évaluation fondée sur des modèles pour ces données en deux composantes indépendantes : l’évaluation du parallélisme à l’aide de plongements multilingues et l’estimation de la qualité sans référence (QE). Pour le parallélisme, nous évaluons quatre modèles de plongement sur des tâches de recherche sur FLORES-200 et BOUQuET, couvrant 6 654 directions source–cible dans notre inventaire de paires de langues cibles. Pour la QE, nous évaluons neuf estimateurs sans référence sur des traductions professionnelles de FLORES-200 à travers 41 412 directions source–cible ordonnées. Les résultats montrent qu’aucun modèle n’est universellement fiable pour toutes les directions de traduction. Les ensembles naïfs de QE diluent les signaux forts des modèles, tandis que la couverture documentée de la langue cible est fortement associée à des scores de QE plus élevés. Dans l’ensemble, ces résultats suggèrent que l’évaluation des données parallèles multilingues est mieux abordée comme un problème d’orientation et de calibrage tenant compte de la direction, où l’on ne peut s’attendre à ce qu’une seule métrique universelle suffise pour toutes les langues.
Les modèles de raisonnement sont évalués sur des benchmarks à un seul tour, mais déployés dans des dialogues multi-tours, où les utilisateurs contestent les réponses correctes. Sous une pression antagoniste soutenue, nous découvrons un mode de défaillance jusqu'alors non documenté : la chaîne de pensée reste factuellement correcte du premier au dernier tour, tandis que la réponse émise devient erronée. Nous appelons cela la capitulation infidèle (CI) et l'isolons à l'aide d'un cadre latent versus comportemental en 2 × 2 que les métriques de taux de basculement et les sondes de fidélité à un seul tour ne détectent pas. Sur trois ensembles de données (MT-Consistency, MMLU-Pro, GSM8K), le taux de réponse latente correcte au moment du basculement comportemental se regroupe autour de 50 % en mode réflexion et chute à 11-15 % en mode sans réflexion — une preuve causale intra-modèle appariée que le raisonnement crée cet écart. Entre les modèles, l'effet suit le canal de raisonnement (élevé chez Qwen3-32B et GPT-OSS-20B, faible chez Gemma-4-31B-it avec CoT en ligne). Un juge indépendant GPT-4o corrobore 86 % des étiquettes CI ; une sonde au niveau des jetons montre que l'argmax de l'emplacement de réponse est correct dans 84 % des cellules CI ; et une défense naïve ancrée sur les traces se retourne contre nous. Nous publions toutes les trajectoires, traces et étiquettes du juge.
Un système de génération augmentée par récupération (RAG) déployé sur un corpus institutionnel multi-auteur peut apporter une réponse différente à une même question selon la source qu’il récupère – un mode de défaillance que le paradigme dominant de la réponse unique de référence ne peut diagnostiquer. Nous soutenons que la dépendance à la source est un axe manquant de l’évaluation en TALN, et que l’auditer implique de déplacer l’unité d’évaluation de la correction de la réponse vers la relation inter-source. Nous concrétisons cette approche dans le cadre de l’éducation des patients transplantés, où des sources institutionnelles divergent manifestement, en publiant trois artefacts : TransplantQA, un benchmark de questions réelles de patients, chacune étant répondue en ancrant la génération dans plusieurs manuels institutionnels comme sources candidates ; HERO-QA, une stratégie de récupération hiérarchique qui ancre et audite chaque réponse ; et un juge à sortie structurée qui évalue les relations inter-source selon une taxonomie validée à cinq labels. À grande échelle, une meilleure récupération révèle bien plus de désaccords que les estimations antérieures ne le suggéraient – elle sous-estime leur prévalence, non leur intensité. Le cadre est indépendant du domaine et se transpose au RAG juridique et éducatif : mesurer la dépendance à la source est une responsabilité pour tout TALN multi-source déployé en général.
Les critiques générées par les LLM pour les articles scientifiques gagnent rapidement en importance et sont même testées officiellement par les grandes conférences. Nous devons supposer que non seulement les relecteurs utilisent l’assistance des LLM, mais aussi que les auteurs emploient des LLM pour réviser leurs articles avant de les soumettre. Dans ce travail, nous réalisons des expériences empiriques sur des articles de l’ACL Rolling Review (ARR) 2025 afin d’évaluer les critiques des LLM du point de vue de l’auteur et du relecteur. Premièrement, nous identifions un alignement limité entre les critiques des LLM et celles des humains. Dans le meilleur des cas, l’alignement est raisonnable. Cependant, nous constatons également que l’alignement LLM-humain varie considérablement selon les prompts et les modèles. Enfin, nous étudions le scénario dans lequel l’auteur utilise un flux de travail itératif de brouillon-révision pour améliorer la soumission en fonction de la critique du LLM. Nous constatons que cette « manipulation » des critiques des LLM peut être efficace dans des scénarios spécifiques, entraînant une augmentation statistiquement significative des scores globaux pour jusqu’à 35 % des articles. Nous publions notre code : https://github.com/uhh-hcds/reviewarcade.
Les systèmes d'IA sont faillibles, et les humains peuvent commettre des erreurs en décidant de faire confiance à l'IA plutôt qu'à leur propre jugement. Ainsi, améliorer la collaboration humain-IA nécessite de comprendre quand, pourquoi et comment les humains décident de se fier à l'IA. Nous étudions deux décisions de dépendance distinctes : le choix de délégation — décider quand laisser l'IA agir de manière autonome sans connaître son résultat, et le choix d'adoption — évaluer les suggestions de l'IA et décider comment les utiliser. Ces deux schémas de dépendance découplés façonnent la collaboration, mais les travaux antérieurs les étudient rarement ensemble dans des contextes réalistes avec les mêmes utilisateurs. Nous comblons cette lacune en étudiant des équipes collaboratives humain-IA qui s'affrontent dans un jeu de questions-réponses où les humains peuvent choisir quand et comment travailler avec des agents IA pour gagner. Nos 24 matchs associent 23 experts humains à 16 agents IA, capturant 387 décisions de délégation et 1440 décisions d'adoption. Bien que la collaboration humain-IA soit plus performante que l'IA ou les humains seuls, les humains prennent des décisions de collaboration sous-optimales, à la fois en sous-dépendance vis-à-vis des suggestions correctes de l'IA (3,9 % d'opportunités manquées) et en sur-dépendance lorsque l'IA les induit en erreur (1,7 %). Les deux parties contribuent à des réponses erronées : la confiance rapportée par le modèle est proche du hasard lorsque humains et IA sont en désaccord, tandis que le biais de confirmation entraîne une sous-dépendance plus élevée (64,5 %) lorsqu'une suggestion de l'IA concorde avec la réponse initiale incorrecte des humains. Pour combler cet écart, nous recommandons une confiance calibrée, des explications fondées sur des preuves et des mécanismes qui aident les utilisateurs à affiner leur confiance.
Dans cet article, l’apprentissage d’un réseau de neurones est identifié, de manière exacte, comme une recherche parmi des problèmes de valeurs initiales de Hamilton–Jacobi : chaque étape de gradient sélectionne la donnée initiale d’une équation de Hamilton–Jacobi visqueuse dont le propagateur de Hopf–Cole s’ajuste au mieux aux observations ; lors de l’inférence, l’entrée est le point spatial auquel cette solution est évaluée et la condition initiale est déjà encodée dans les poids. La correspondance est exacte pour les couches log-sum-exp et structurelle pour des architectures plus larges : les réseaux résiduels, les transformeurs et les architectures récurrentes (RNN, LSTM, SSM) discrétisent chacun la même classe d’équations de Hamilton–Jacobi, avec un hamiltonien et une viscosité dépendant de l’architecture. Un unique paramètre de déformation varepsilon unifie les quatre perspectives (réseau, algèbre tropicale, EDP visqueuse, optimisation convexe) dans un diagramme commutatif fermé sous conditions de Lipschitz. Les conséquences quantitatives incluent : le taux de généralisation optimal minimax O(n^{-1/(d+2)}) pour t fixe ; la robustesse adversarial contrôlée par varepsilon ; la rétropropagation comme équation d’état adjoint du système hamiltonien pour les réseaux résiduels (Principe du Maximum de Pontriaguine) ; des exposants d’échelle cohérents avec la dimension intrinsèque des données via quadrature d’EDP ; et une fonction d’influence en O(N) de forme fermée (poids d’attribution softmax π_j) dont le paysage d’entropie subit des bifurcations de pli lorsque varepsilon augmente, chacune fusionnant des bassins d’attribution.
L'évolution diachronique du latin aux langues romanes a impliqué une restructuration du système des genres grammaticaux, passant d'une configuration tripartite (masculin, féminin, neutre) à une configuration bipartite (masculin, féminin) dans la plupart des langues romanes. Dans ce travail, nous présentons un cadre d'apprentissage profond interprétable pour étudier ce phénomène aux niveaux lexical et contextuel. Premièrement, nous montrons que les stratégies de tokenisation conventionnelles sont insuffisamment robustes pour ce contexte historique à faibles ressources, et que notre tokeniseur proposé améliore les performances par rapport à ces références. Au niveau lexical, nous évaluons la contribution des traits morphologiques à la prédiction du genre. Au niveau contextuel, nous quantifions les contributions de différentes catégories de parties du discours à la prédiction du genre grammatical. Ensemble, ces analyses caractérisent la distribution de l'information de genre entre le lemme et son contexte phrastique. Nous rendons notre code source, nos ensembles de données et nos résultats disponibles publiquement à l'adresse https://github.com/ahan-2000/Lost-in-Translation-{https://github.com/ahan-2000/Lost-in-Translation-}.
La montée en puissance des grands modèles de langage (LLMs) a généré des gains de performance significatifs, mais a également créé des défis importants en matière d'efficacité d'inférence. Si les architectures de type Mixture of Experts (MoEs) permettent d'y répondre en dissociant la taille du modèle du coût d'inférence, l'entraînement des MoEs à partir de zéro est souvent instable et coûteux en calcul. La conversion de modèles denses pré-entraînés en MoEs éparses est apparue comme une solution alternative ; cependant, les méthodes existantes reposent généralement sur un regroupement heuristique de neurones ou une division aléatoire pour partitionner le réseau feed-forward (FFN) en experts. Dans ce travail, nous proposons DOT-MoE, un nouveau cadre qui formule la décomposition des couches denses comme un problème de transport optimal différentiable (DOT). Au lieu d'heuristiques statiques, nous modélisons l'affectation des neurones comme un problème de transport équilibré, en utilisant des itérations de Sinkhorn-Knopp différentiables pour imposer des contraintes strictes de capacité des experts. De plus, nous utilisons des estimateurs Straight-Through (STE) pour apprendre conjointement l'affectation discrète neurone-expert et la politique de routage jeton-expert de bout en bout. Des expériences approfondies sur plusieurs architectures et bancs d'essai montrent que DOT-MoE surpasse significativement l'élagage structuré, le regroupement heuristique et les lignes de base de division aléatoire, conservant 90 % des performances du modèle dense original tout en réduisant les paramètres actifs de 50 %.
Apprendre une représentation partagée entre le texte parlé et le geste est central pour la récupération, la synthèse et la compréhension des gestes co-parlés, mais reste difficile pour les gestes sémantiquement significatifs dont l'intention communicative n'est pas capturée par le seul mouvement. L'alignement contrastif direct entre les transcriptions et les plongements continus de mouvement surestime souvent la cinématique de bas niveau et manque le contenu symbolique des gestes sémantiques. Nous proposons des ancres de mouvement sémantiques, des abstractions en langage naturel du mouvement gestuel capturant la forme physique et l'intention communicative. Notre méthode discrétise les gestes 3D en primitives de mouvement corps-main, les verbalise en descriptions structurées et les ancre dans la transcription pour fournir une supervision contrastive auxiliaire. Sur BEAT2, notre méthode améliore le R@1 texte-à-geste de 8,2 % par rapport à une ligne de base directe texte-mouvement et surpasse les approches de récupération antérieures dans les directions de récupération texte-à-geste et geste-à-texte. Au-delà des métriques de récupération agrégées, la supervision par ancres de mouvement sémantiques aide à récupérer des gestes sémantiquement significatifs pour la requête parlée, plutôt que de se rabattre sur des motifs de mouvement génériques. Une étude en aval de génération de gestes augmentée par récupération a montré que les utilisateurs préféraient significativement les gestes récupérés par notre approche par rapport à une ligne de base de génération augmentée par récupération, démontrant qu'une récupération sémantiquement ancrée se traduit par des gestes qui transmettent mieux l'intention communicative dans la génération en aval.
L'annotation humaine constitue le fondement empirique d'une grande partie de la recherche en traitement automatique des langues naturelles (TALN), depuis la construction de jeux de données jusqu'à l'évaluation de modèles, mais les articles laissent souvent flou qui a produit les annotations et comment le processus d'annotation a été contrôlé. Nous présentons la première vérification à grande échelle, au niveau des tâches, des pratiques de compte rendu d'annotation humaine dans les principales conférences de TALN, en examinant quels détails d'annotation sont documentés, lesquels sont absents, et comment les pratiques de compte rendu varient selon le temps, le sujet, la conférence et l'usage prévu du jugement humain. Nous introduisons une taxonomie unifiée des pratiques de compte rendu d'annotation et validons un pipeline d'extraction assisté par LLM par rapport à Annotated-gold, un étalon-or arbitré par des humains composé de 41 articles et 72 tâches d'annotation, où le meilleur modèle atteint un accord comparable à celui des humains avec les étiquettes arbitrées, avec un alpha de Krippendorff de 0,606 contre 0,585 pour l'accord inter-humain. En utilisant ce pipeline, nous construisons Annotated-llm, un jeu de données couvrant les articles des conférences ACL de 2018 à 2025, avec 2 667 tâches d'annotation extraites issues de 1 603 articles, et nous constatons que les articles rapportent fréquemment des détails opérationnels tels que les stratégies de recrutement, l'expertise des annotateurs et le volume d'annotation, mais omettent souvent les détails nécessaires pour évaluer la validité de l'annotation, notamment la formation, la compétence linguistique, la rémunération, les données sociodémographiques, l'arbitrage et les valeurs d'accord, en particulier dans les études d'évaluation de modèles. Nos résultats montrent que le compte rendu d'annotation en TALN s'est amélioré au fil du temps, mais reste inégal, et ils établissent un cadre reproductible ainsi que des recommandations minimales de compte rendu pour rendre l'annotation humaine plus fiable, reproductible et interprétable.
La manipulation robotique nécessite des modèles capables de générer des actions exécutables tout en anticipant et en évaluant leurs conséquences futures avant leur exécution physique. Nous présentons τ_0-World Model (τ_0-WM), un modèle unifié vidéo-action du monde qui intègre l’apprentissage des politiques, la prédiction vidéo et l’évaluation des actions au sein d’un cadre unique de prédiction du futur. Construit sur une architecture de diffusion vidéo partagée, τ_0-WM offre deux interfaces complémentaires. Premièrement, un modèle d’action vidéo prédit conjointement les latents visuels futurs et des séquences continues d’actions à partir d’observations multi-vues, d’instructions langagières et de l’état du robot. Deuxièmement, un simulateur vidéo conditionné par l’action déroule des séquences d’actions candidates en futurs multi-vues et prédit des scores de progression de tâche denses. Le modèle est entraîné sur environ 27 300 heures de téléopération réelle de robot, d’interactions de style UMI, de vidéos humaines égocentriques, ainsi que de trajectoires de déploiement ou d’échec, en utilisant des masques de supervision spécifiques à chaque modalité. En inférence, τ_0-WM exploite le calcul au moment du test pour échantillonner des actions candidates, les classer par cohérence de re-débruitage, et invoquer une rectification par simulateur pour les candidats de faible qualité. Sur des tâches de manipulation robotique exigeantes, à long horizon et de haute précision, τ_0-WM montre des performances supérieures à celles des autres modèles de référence pertinents.
Les recherches sur la détection de texte généré par IA ont présenté un certain nombre d'approches pour distinguer la prose humaine de celle générée par IA, dont certaines atteignent des performances élevées en intra-distribution. Cependant, leur applicabilité dans le monde réel stagne car leurs résultats sont en décalage avec les besoins des utilisateurs, tels que les professeurs, qui se voient présenter un score numérique sans explication associée. Nous abordons ce problème avec une nouvelle architecture, TELL, qui intègre l'explicabilité dès la conception. Bien que notre système propose toujours un score numérique pour permettre la comparaison avec d'autres détecteurs, TELL adopte une approche fondamentalement différente : nous cherchons à montrer à l'utilisateur les « indices » par lesquels le modèle estime qu'un texte est écrit par une IA ou un humain, afin de donner à l'utilisateur les moyens de décider qui a écrit un texte en utilisant son propre jugement et sa compréhension du contexte de l'écriture et de son auteur présumé. Nous entraînons TELL sur un jeu de données SFT personnalisé d'annotations d'auteur spécifiques au domaine, et affinons ensuite le système à l'aide de GRPO avec un apprentissage par curriculum pour améliorer les performances. Nous obtenons des performances compétitives avec les détecteurs de pointe (AUROC 0,927) tout en fournissant de manière native des annotations qui expliquent le fondement de la décision du détecteur. Nous évaluons également la qualité de nos explications à l'aide d'un ensemble de données d'annotations humaines et rapportons un taux de victoire élevé (moyenne de 72,3 %) en termes de concrétude, falsifiabilité, cohérence, plausibilité et ancrage des annotations, permettant aux utilisateurs de réfléchir de manière critique et de décider par eux-mêmes. Notre travail reformule ainsi le problème de la détection de texte généré par IA dans une perspective centrée sur l'humain et ouvre la voie à une nouvelle famille de détecteurs axés sur l'explicabilité native.