HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

62 papers found

GrepSeek : Entraînement d’agents de recherche pour une interaction directe avec le corpus
GrepSeek: Training Search Agents for Direct Corpus Interaction

May 28

ByAlireza Salemi, Chang Zeng, Atharva Nijasure, Jui-Hui Chung, Razieh Rahimi, Fernando Diaz, Hamed Zamani

Les agents de recherche basés sur les grands modèles de langage (LLM) ont démontré un fort potentiel pour les tâches linguistiques gourmandes en connaissances, grâce à des cycles multiples de raisonnement et de recherche d'informations. La plupart des systèmes existants accèdent à l'information en utilisant un extracteur qui prend une requête sous forme de mot-clé ou de langage naturel et renvoie une liste classée de documents à partir d'un index de représentations documentaires pré-calculées. Dans ce travail, nous explorons une perspective complémentaire dans laquelle l'agent de recherche traite le corpus lui-même comme un environnement de recherche et trouve des preuves en exécutant des commandes shell. Nous présentons GrepSeek, un agent de recherche optimisé à interaction directe avec le corpus (DCI), qui entraîne un agent de recherche compact à trouver, filtrer et composer des preuves issues de grands corpus textuels. Pour pallier l'instabilité de l'apprentissage par renforcement direct sur de grands corpus, nous proposons un pipeline d'entraînement en deux étapes. Dans un premier temps, nous construisons un ensemble de données de démarrage à froid en utilisant un tuteur conscient des réponses et un planificateur aveugle aux réponses pour générer des trajectoires de recherche vérifiées et causalement fondées. Dans un second temps, nous affinons la politique initialisée à l'aide de l'optimisation relative de politique par groupe (GRPO), permettant à l'agent d'améliorer son comportement de recherche orienté vers les tâches par interaction directe avec le corpus. Pour rendre la DCI pratique à grande échelle, nous utilisons en outre un moteur d'exécution parallèle par fragments préservant la sémantique, qui accélère la recherche en ligne de commande jusqu'à 7,6 fois tout en maintenant une équivalence octet par octet avec l'exécution séquentielle de la commande shell. Les expériences menées sur sept bancs d'essai de questions-réponses en domaine ouvert montrent que GrepSeek obtient les meilleurs scores globaux en F_1 au niveau des tokens et en correspondance exacte (Exact Match). Notre analyse met également en évidence les limites d'une interaction purement lexicale sur des requêtes présentant des variations de forme substantielles, suggérant que la DCI constitue une méthode pratique et compétitive pour les agents de recherche, pouvant compléter les paradigmes de recherche existants dans le monde réel.

COLLEAGUE.SKILL : Génération automatisée de compétences IA via distillation de connaissances d'experts
COLLEAGUE.SKILL: Automated AI Skill Generation via Expert Knowledge Distillation

May 29

ByTianyi Zhou, Dongrui Liu, Leitao Yuan, Jing Shao, Xia Hu

Les agents LLM sont de plus en plus amenés non seulement à accomplir des tâches isolées, mais aussi à porter des représentations encadrées de l’expertise humaine, du jugement et du style d’interaction. Construire de tels agents ancrés dans une personne reste difficile car les connaissances actionnables associées à une personne ou à un rôle sont généralement intégrées dans des traces hétérogènes plutôt que rédigées sous forme d’instructions claires. Les systèmes de mémoire et de persona existants capturent des fragments de ces preuves, tandis que les cadres de compétences fournissent des formats d’empaquetage portables ; cependant, il n’existe pas de flux de travail de bout en bout pour distiller ces traces en compétences inspectables, corrigeables et utilisables par les agents. Nous présentons un système automatisé de distillation de traces en compétences pour générer des compétences IA ancrées dans une personne via une distillation de connaissances d’expert. À partir de matériaux issus d’une personne ou d’un rôle cible, COLLEAGUE.SKILL produit un paquet de compétences versionné avec deux volets coordonnés : un volet des capacités pour les pratiques, les modèles mentaux et les heuristiques de décision, et un volet des comportements encadrés pour le style de communication, les règles d’interaction et l’historique des corrections. Le paquet peut être inspecté, invoqué, mis à jour par un retour en langage naturel, annulé, installé sur différents hôtes d’agents, et éventuellement préparé pour une distribution contrôlée. Nous décrivons le contrat d’artefact, le flux de génération, le cycle de vie des corrections, la surface de déploiement et les préréglages de domaine implémentés dans le système open source. Au moment de la rédaction, le dépôt public compte environ 18,5k étoiles GitHub ; la galerie liste 215 compétences de 165 contributeurs et plus de 100k étoiles cumulées sur les fiches de compétences listées. Le système illustre comment les compétences ancrées dans une personne peuvent être représentées comme des paquets portables et corrigeables, plutôt que comme des prompts opaques ou des mémoires cachées.

Mélange de comportements par région de confiance pour la distillation sur politique
Trust-Region Behavior Blending for On-Policy Distillation

May 29

ByDaniil Plyusov, Alexey Gorbatovski, Alexey Malakhov, Nikita Balagansky, Boris Shaposhnikov, Daria Korotyshova, Daniil Gavrilov

La distillation sur politique (OPD) entraîne un étudiant sur des préfixes échantillonnés selon sa propre politique tout en s'alignant sur un enseignant plus fort. Cela corrige le décalage de préfixes de la distillation hors ligne, mais les premiers déploiements de l'étudiant peuvent encore être médiocres, plaçant la supervision de l'enseignant sur des préfixes faibles ou de faible qualité. Nous proposons le Mélange de comportements en région de confiance (TRB), une méthode d'échauffement qui remplace la politique de déploiement précoce par la politique de comportement la plus proche de l'enseignant à l'intérieur d'une région de confiance KL centrée sur l'étudiant, tout en conservant la perte OPD de KL inverse par préfixe inchangée. Le budget KL est réduit progressivement à zéro, de sorte que l'entraînement revienne à des déploiements purs de l'étudiant après l'échauffement. Sur deux contextes de distillation de raisonnement mathématique, TRB obtient la moyenne la plus élevée parmi les méthodes comparées.

Forçage de représentation pour des modèles multimodaux unifiés sans goulot d'étranglement
Representation Forcing for Bottleneck-Free Unified Multimodal Models

May 29

ByYuqing Wang, Zhijie Lin, Ceyuan Yang, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Zihan Ding, Fuyun Wang, Shuai Wang, Youliang Zhang, Haoqi Fan, Xihui Liu

Les modèles multimodaux unifiés (UMMs) visent à prendre en charge la perception et la génération au sein d’un seul modèle. Cependant, les UMMs existants reposent encore sur un VAE pré-entraîné séparément et figé pour la génération d’images, ce qui impose un goulot d’étranglement structurel. Le supprimer naïvement introduit un écart de qualité, car le modèle doit apprendre à la fois la structure de haut niveau et les détails de bas niveau à partir des pixels bruts. Dans cet article, nous proposons le Forçage de Représentation (RF), une technique qui comble cet écart en faisant de la prédiction de représentation une capacité native du modèle. Concrètement, RF force le décodeur à prédire de manière autorégressive des représentations visuelles en tant que jetons intermédiaires avant les pixels ; ces jetons restent ensuite en contexte pour guider la diffusion des pixels au sein de la même architecture. En transformant les représentations issues de la perception en cibles de génération, RF élimine le besoin d’un espace latent génératif externe. Nous constatons que RF bénéficie à la fois à la compréhension et à la génération. En matière de génération d’images, notre modèle dans l’espace pixel avec RF égalise les performances des modèles unifiés basés sur un VAE de pointe. Pour la compréhension d’images, le RF dans l’espace pixel surpasse généralement sa variante basée sur un VAE. Ensemble, ces résultats constituent une avancée efficace vers des UMMs de bout en bout, sans goulot d’étranglement.

Rapport technique Mellum2
Mellum2 Technical Report

May 29

ByMarko Kojic, Ivan Bondyrev, Aral de Moor, Joseph Shtok, Petr Borovlev, Kseniia Lysaniuk, Madeeswaran Kannan, Ivan Dolgov, Nikita Pavlichenko

Nous présentons Mellum 2, un modèle de langage à mélange d'experts (MoE) à 12 milliards de paramètres en accès ouvert, avec 2,5 milliards de paramètres actifs par jeton. Mellum 2 est un modèle de langage généraliste spécialisé en génie logiciel, couvrant la génération et l'édition de code, le débogage, le raisonnement multi-étapes, l'utilisation d'outils et l'appel de fonctions, le codage agentique, et l'assistance à la programmation conversationnelle. Il succède au modèle dense Mellum de 4 milliards de paramètres, axé sur la complétion. L'architecture repose sur un mélange d'experts (64 experts, 8 actifs) et combine l'attention par requêtes groupées avec 4 têtes KV, une attention à fenêtre glissante sur trois couches sur quatre, et une seule tête de prédiction multi-jetons qui sert à la fois d'objectif de pré-entraînement auxiliaire et de modèle d'ébauche intégré pour le décodage spéculatif ; chaque choix a été validé par ablation, l'efficacité d'inférence sur des GPU grand public étant une contrainte de conception. Le pré-entraînement couvre environ 10,6 billions de jetons suivant un programme en trois phases qui fait évoluer progressivement le mélange de données web variées vers du code et des contenus mathématiques sélectionnés, optimisé avec Muon sous précision mixte FP8 et un planning Warmup-Hold-Decay avec décroissance linéaire jusqu'à zéro. La base pré-entraînée est étendue à une fenêtre de contexte de 128K via un YaRN sélectif par couche, puis soumise à un post-entraînement en deux étapes (fine-tuning supervisé suivi de RLVR), donnant lieu à deux variantes publiées : un modèle Instruct qui répond directement et un modèle Thinking qui émet une trace de raisonnement explicite avant sa réponse finale. Sur les benchmarks de génération de code, de mathématiques et de raisonnement, d'utilisation d'outils, de connaissances et de sécurité, Mellum 2 est compétitif face aux modèles en accès ouvert de la gamme 4B–14B, tout en fonctionnant avec le calcul par jeton d'un modèle dense de 2,5 milliards de paramètres. Nous publions les points de contrôle (checkpoints) base, instruct et thinking, ainsi que ce rapport sur les décisions architecturales, le pipeline de données et la recette d'entraînement qui les sous-tendent, sous licence Apache 2.0.

SwanVoice : Synthèse vocale expressive de longs énoncés en zero-shot pour le monologue et le dialogue
SwanVoice: Expressive Long-Form Zero-Shot Speech Synthesis for Both Monologue and Dialogue

May 29

ByRuiqi Li, Yu Zhang, Changhao Pan, Ke Lei, Xiang Yin, Cheng Yang

La synthèse vocale zéro tir (zero-shot TTS) a considérablement progressé pour la génération d’un seul locuteur, mais la production de dialogues longs et expressifs avec plusieurs locuteurs reste difficile. Une solution de contournement courante consiste à générer chaque tour de parole avec un modèle TTS de monologue, puis à assembler les sorties. Cette approche augmente le coût d’inférence et rompt souvent la cohérence acoustique, la cohérence conversationnelle et la continuité affective entre les tours. Les systèmes récents de TTS dialogué commencent à traiter ce contexte, mais ils peinent encore à maintenir simultanément une cohérence expressive, un changement de locuteur contrôlable et une qualité de monologue. Nous présentons SwanData-Speech et SwanVoice. SwanData-Speech construit des corpus de monologue et de dialogue à partir de données audio réelles, en utilisant Swan Forced Aligner pour un alignement au niveau des mots tenant compte des pauses, et RobustMegaTTS3 pour les cas de prononciation difficiles. À partir de ces données, SwanVoice est un modèle TTS zéro tir pour 1 à 4 locuteurs, combinant un VAE à 25 Hz, un conditionnement par texte brut avec des symboles de pause et une substitution pinyin, et un DiT par appariement de flots (flow-matching DiT) avec conditionnement par tour de locuteur. L’entraînement commence avec la parole de monologue, passe par des données de dialogue mixte puis réelles, et utilise ensuite un post-entraînement DiffusionNFT avec des récompenses au niveau des phonèmes et de similarité entre locuteurs. Sur SwanBench-Speech, SwanVoice obtient des scores de richesse et de hiérarchie plus élevés que tous les modèles de base open source évalués, tant en monologue qu’en dialogue, bien que la précision du contenu reste la limitation principale. Des démonstrations audio sont disponibles à l’adresse https://swanaigc.github.io//#swanvoice.

LongTraceRL : Apprentissage du raisonnement à long contexte à partir de trajectoires d'agents de recherche avec récompenses par grille d'évaluation
LongTraceRL: Learning Long-Context Reasoning from Search Agent Trajectories with Rubric Rewards

May 29

ByNianyi Lin, Jiajie Zhang, Lei Hou, Juanzi Li

Le raisonnement à long contexte reste un défi central pour les grands modèles de langage, qui échouent souvent à localiser et intégrer des informations clés dans un contenu distracteur étendu. L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a montré des promesses pour cette tâche, mais les méthodes existantes sont limitées par des distracteurs à faible confusion et des signaux de récompense clairsemés, uniquement basés sur les résultats, qui ne peuvent pas superviser les étapes de raisonnement intermédiaires. Pour résoudre ces problèmes, nous introduisons LongTraceRL. Pour la construction des données, nous générons des questions à plusieurs sauts via des marches aléatoires sur un graphe de connaissances et exploitons les trajectoires d'agents de recherche pour construire des distracteurs hiérarchisés : les documents que l'agent a lus mais n'a pas cités (haute confusion) et les documents qui apparaissaient dans les résultats de recherche mais n'ont jamais été ouverts (faible confusion), produisant des contextes d'entraînement bien plus difficiles que ceux construits par échantillonnage aléatoire ou recherche ponctuelle. Pour la conception des récompenses, nous proposons une récompense basée sur une grille d'évaluation qui utilise les entités d'or le long de chaque chaîne de raisonnement comme une supervision de processus fine au niveau des entités. Cette récompense de grille n'est appliquée qu'aux réponses avec des réponses finales correctes (stratégie positive uniquement), distinguant la qualité du raisonnement parmi les réponses correctes et empêchant le détournement de récompense. Des expériences sur trois LLMs de raisonnement (4B à 30B) sur cinq benchmarks de long contexte démontrent que LongTraceRL surpasse constamment les bases solides et encourage un raisonnement complet et fondé sur des preuves. Les codes, ensembles de données et modèles sont disponibles à l'adresse https://github.com/THU-KEG/LongTraceRL.

Function2Scene : Génération d'agencements de scènes intérieures 3D à partir de spécifications fonctionnelles
Function2Scene: 3D Indoor Scene Layout from Functional Specifications

May 29

ByRuiqi Wang, Qimin Chen, Daniel Ritchie, Angel X. Chang, Manolis Savva, Kai Wang, Hao Zhang

La plupart des méthodes de synthèse de scènes intérieures 3D guidées par du texte génèrent des pièces à partir de consignes centrées sur les objets, demandant quels meubles placer plutôt que comment l'espace est utilisé. Pourtant, dans la conception d'intérieur réelle, un agencement est jugé sur sa capacité à répondre aux besoins de ses occupants, par exemple leurs activités et leurs besoins physiques. Nous présentons Function2Scene, un cadre pour générer des agencements d'intérieur 3D à partir de spécifications fonctionnelles, c'est-à-dire des cahiers des charges en langage naturel décrivant qui utilisera une pièce et ce qu'ils doivent y faire. À partir d'une telle spécification, notre système analyse les profils d'occupants et les activités, dérive un ensemble personnalisé de contraintes de conception fonctionnelle à partir d'une taxonomie de 17 critères couvrant les aspects spatiaux, ergonomiques, liés aux activités et environnementaux, et utilise ces contraintes pour guider la génération de l'agencement. Plutôt que de s'appuyer sur un LLM pour produire directement une scène finale, Function2Scene effectue une évaluation et un raffinement itératifs via une boucle de vérification et de correction augmentée d'outils, combinant des mesures géométriques, un raisonnement contextuel basé sur un LLM et une évaluation visuelle basée sur un VLM. Les expériences menées sur 30 cas de conception d'intérieur rédigés par des professionnels montrent que Function2Scene produit des agencements qui satisfont mieux les exigences fonctionnelles que les récentes méthodes de base de synthèse de scènes basées sur LLM, nos résultats étant préférés dans 94,3 % des comparaisons par paires. Notre travail reformule la synthèse de scènes intérieures guidée par du texte, passant du placement d'objets plausibles à la conception d'espaces qui soutiennent l'usage humain.

GGT-100K : Vérité Terrain Générative pour la Restauration d'Images Réelles Généralisable
GGT-100K: Generative Ground Truth for Generalizable Real-World Image Restoration

May 29

ByXiangtao Kong, Jixin Zhao, Lingchen Sun, Rongyuan Wu, Lei Zhang

La restauration d’images réelles (RIR) est limitée par la rareté des données d’entraînement appariées de haute qualité. Les ensembles de données synthétiques sont abondants mais échouent souvent à modéliser les dégradations réelles, tandis que les ensembles de données appariées réelles sont coûteux et difficiles à capturer. Par conséquent, les modèles de RIR entraînés sur ces ensembles présentent une généralisation limitée dans des scénarios réels. Dans ce travail, nous proposons la Vérité-Terrain Générative (VTG) en utilisant des modèles fondamentaux multimodaux (MFM) génératifs pour produire des cibles de haute qualité (HQ) à partir d’images réelles de basse qualité (LQ). Nous menons d’abord une évaluation systématique de neuf MFM de pointe, dont Nano-Banana-2 et GPT-Image-2, sur des images de diverses scènes et types de dégradations. Les résultats montrent que Nano-Banana-2 avec amorçage adaptatif basé sur VLM présente la plus grande capacité à synthétiser des cibles HQ perceptuellement réalistes et fidèles au contenu, pouvant servir de VTG pour l’entrée LQ. Nous utilisons ensuite Nano-Banana-2 pour construire un pipeline de synthèse VTG, qui comporte un contrôle qualité multi-étapes pour garantir la fiabilité des données, et nous construisons GGT-100K, un ensemble de données appariées LQ-HQ comprenant 103 707 paires d’entraînement et couvrant diverses scènes et dégradations réelles complexes. Un ensemble de test de 500 paires d’images est également établi. Des expériences approfondies montrent que GGT-100K améliore systématiquement la généralisation réelle d’une large gamme de modèles de RIR, avec des avantages particulièrement marqués pour l’affinage de modèles génératifs pour des tâches de RIR. Nos résultats suggèrent que les MFM peuvent servir d’outils pratiques pour la génération de données orientée restauration, et que GGT-100K constitue une ressource utile pour élargir les frontières de généralisation des modèles de RIR réels.

Vers la génération d'audio spatial synchronisé en streaming via un transformateur diffusif autorégressif
Towards Streaming Synchronized Spatial Audio Generation via Autoregressive Diffusion Transformer

May 29

ByKe Lei, Yu Zhang, Changhao Pan, Xueyi Pu, Wenxiang Guo, Ruiqi Li, Zhou Zhao

La génération audio spatiale en temps réel et précise est essentielle pour offrir une expérience immersive. Cependant, les technologies existantes de synthèse audio spatiale sont souvent entravées par un compromis entre la qualité de génération et une latence d'inférence élevée, ainsi que par la difficulté à capturer des informations spatiales précises à partir d'entrées multimodales. Pour relever ces défis, nous proposons SwanSphere, un cadre unifié en continu pour la génération audio spatiale haute-fidélité à partir de vidéos panoramiques et d'invites textuelles. SwanSphere apporte principalement les contributions suivantes : 1) Nous introduisons une architecture de transformateur de diffusion autorégressif causal qui permet une génération audio spatiale de haute qualité en continu. 2) Nous concevons une stratégie d'apprentissage contrastif vidéo-audio spatial (SVAC) pour aligner l'encodeur vidéo sur le domaine acoustique, et nous employons en outre un schéma d'optimisation directe des préférences en ligne multi-objectifs (ODPO), ce qui permet une perception spatiale solide et une synthèse audio spatiale multimodale robuste. 3) Pour pallier la pénurie actuelle de jeux de données audio spatiales, nous développons également un pipeline d'annotation automatisé pour générer des légendes spatiales détaillées. Les résultats expérimentaux montrent que SwanSphere atteint des performances supérieures dans les tâches de génération audio spatiale à partir de vidéos et à partir de texte. Les démonstrations sont disponibles à l'adresse : https://swanaigc.github.io.

SANA-Streaming : Montage vidéo en streaming en temps réel avec un Transformateur de Diffusion Hybride
SANA-Streaming: Real-time Streaming Video Editing with Hybrid Diffusion Transformer

May 28

ByYuyang Zhao, Yicheng Pan, Qiyuan He, Jincheng Yu, Junsong Chen, Tian Ye, Haozhe Liu, Enze Xie, Song Han

L'édition vidéo-à-vidéo en streaming en temps réel (V2V) est cruciale pour les applications interactives telles que la diffusion en direct et les jeux vidéo, mais elle reste un défi de taille en raison des exigences strictes en matière de cohérence temporelle et de débit d'inférence. Dans cet article, nous présentons SANA-Streaming, un cadre co-conçu système-algorithme pour l'édition vidéo en streaming en temps réel et haute résolution sur des GPU grand public, avec les trois conceptions fondamentales suivantes : (1) L'architecture de Transformers de Diffusion Hybride introduit l'attention softmax dans une partie des blocs pour améliorer les capacités de modélisation locale tout en préservant l'efficacité des couches linéaires. (2) La Régularisation par Cycle-Inverse est une nouvelle stratégie d'entraînement qui impose la cohérence sémantique en prédisant les images sources à partir du contenu généré via le flow matching, améliorant la cohérence temporelle sans nécessiter de longues vidéos éditées appariées. (3) La Co-conception Système Efficace combine des noyaux GDN fusionnés et la Quantification en Précision Mixte (QPM) optimisée pour l'architecture NVIDIA Blackwell (RTX 5090). En profilant le débit réel, notre QPM maximise l'utilisation des Tensor Cores tout en maintenant la qualité de génération. Le système résultant atteint une édition en temps réel à la résolution 1280 × 704 à 24 FPS de bout en bout sur un seul GPU RTX 5090, avec le cœur DiT fonctionnant à 58 FPS. Les résultats expérimentaux démontrent que notre approche de co-conception surpasse significativement les méthodes SOTA existantes en termes de cohérence temporelle et de débit système.

Analyse comparative exhaustive de la génération de parole longue dans des scénarios diversifiés
Comprehensive Benchmarking of Long-Form Speech Generation in Diverse Scenarios

May 27

ByChanghao Pan, Rui Yang, Han Wang, Zhuan Zhou, Xuming He, Wenxiang Guo, Ziyue Jiang, Ruiqi Li, Yu Zhang, Chenyuhao Wen, Ke Lei, Xiang Yin, Jingyu Lu, Zhiyuan Zhu, Zhou Zhao

Les récents progrès en synthèse vocale ont permis une génération de haute fidélité, mais l'évaluation systématique des modèles dans des conditions de long contexte reste largement sous-explorée. Un benchmark d'évaluation complet pour la parole longue est indispensable pour deux raisons : 1) les scénarios de test existants sont souvent confinés à des domaines limités, créant un fossé important avec les applications aval diverses ; 2) les métriques existantes négligent des facteurs cruciaux liés aux textes longs, tels que la cohérence et la cohésion, et ne parviennent pas à généraliser de manière fiable. À cette fin, nous proposons SwanBench-Speech, un benchmark complet qui décompose la qualité de la parole longue en dimensions spécifiques et désentrelacées. SwanBench-Speech possède trois propriétés clés. 1) Des scénarios de parole riches : En se concentrant sur la génération de parole longue et la génération de dialogues, SwanBench-Speech couvre les défis de l'acoustique, de la sémantique et de l'expressivité, et se compose de 1 101 échantillons couvrant 17 scénarios de parole courants ; 2) Des dimensions d'évaluation complètes : Le long des axes de l'acoustique, de la sémantique et de l'expressivité, SwanBench-Speech définit un protocole d'évaluation automatisé avec sept métriques pour fournir une évaluation complète, précise et standardisée ; 3) Des perspectives précieuses : À travers des expériences approfondies, nous révélons que les modèles actuels rencontrent encore des difficultés dans les scénarios hautement expressifs et présentent un écart notable en termes de cohérence et de hiérarchie par rapport aux enregistrements réels.

Mémorisation axée sur la tâche pour agents multimodaux
Task-Focused Memorization for Multimodal Agents

May 29

ByTao Zou, Yichen He, Tian Qiu, Yuan Lin, Hang Li

La mémoire à long terme est essentielle pour que les agents multimodaux construisent une expérience cohérente, accumulent des connaissances sur le monde et réalisent un apprentissage continu. Cependant, la construction d'une mémoire efficace va au-delà de la conception du module de mémoire et des exigences de base telles que la précision et la fidélité ; le défi clé réside dans la détermination de ce qu'il faut mémoriser. Les agents multimodaux, tels que les agents incarnés, perçoivent, raisonnent et agissent en continu dans des environnements réels ou virtuels, recevant un flux illimité d'observations multimodales. Face à cette explosion combinatoire d'informations, un agent doit sélectivement retenir le contenu pertinent pour son rôle dans l'environnement et utile pour les tâches futures. Pour combler cette lacune, nous formulons la génération de mémoire comme une politique de mémorisation apprenable et introduisons TaskMem (Task-focused Memorization Policy Learning), un cadre basé sur l'apprentissage par renforcement qui permet à la politique d'ajuster dynamiquement son attention aux exigences des tâches réelles rencontrées dans l'environnement. TaskMem adopte un paradigme d'entraînement en deux phases : la Phase Un apprend comment mémoriser en optimisant la qualité de la mémoire sous des exigences fondamentales de fidélité ; la Phase Deux a lieu après le déploiement, où l'agent apprend quoi mémoriser en ajustant un adaptateur sur son MLLM de base, en utilisant les tâches récentes de l'environnement pour définir un modèle de récompense qui guide la politique de mémorisation vers un contenu pertinent pour la tâche. Pour évaluer notre approche, nous reformulons VideoMME, EgoLife et EgoTempo en benchmarks de streaming qui simulent un cadre réaliste dans lequel un agent traite des observations en continu et gère des tâches arrivant en ligne. Pour isoler l'évaluation de la mémoire, les questions doivent être répondues en utilisant uniquement la mémoire de l'agent, sans accès à la vidéo brute. Construit sur Qwen3-VL-30B-A3B, TaskMem améliore la précision de VQA de 6,3 %, 7,0 % et 5,3 % respectivement sur ces benchmarks.

dMoE : dLLMs avec des experts de blocs apprenables
dMoE: dLLMs with Learnable Block Experts

May 29

BySicheng Feng, Zigeng Chen, Gongfan Fang, Xinyin Ma, Xinchao Wang

Les Modèles de Langage de Grande Taille à Diffusion (dLLMs) sont récemment apparus comme une alternative prometteuse aux modèles autorégressifs, offrant des performances compétitives tout en supportant naturellement le décodage parallèle. Cependant, à mesure que les dLLMs sont intégrés à des architectures Mixture d'Experts (MoE) pour augmenter la capacité des modèles, une inadéquation fondamentale émerge entre le décodage parallèle par blocs et la sélection d'experts au niveau des tokens. Plus précisément, chaque passe avant d'un dLLM traite plusieurs tokens avec des dépendances bidirectionnelles, tandis que les couches MoE conventionnelles acheminent chaque token indépendamment. Cette inadéquation augmente considérablement le nombre d'experts activés de manière unique, rendant l'inférence de plus en plus limitée par la mémoire. Pour y remédier, nous proposons dMoE, un cadre MoE simple mais efficace au niveau des blocs. L'idée centrale de dMoE est d'agréger les distributions d'experts au niveau des tokens au sein de chaque bloc en une distribution d'experts unifiée au niveau du bloc, qui est ensuite utilisée pour guider le routage des experts de manière plus cohérente. Ainsi, dMoE réduit considérablement le nombre d'experts activés de manière unique lors de l'inférence sans sacrifier les performances, atténuant ainsi le goulot d'étranglement lié à la mémoire. Des expériences approfondies sur divers benchmarks démontrent l'efficacité de dMoE. En moyenne, dMoE réduit le nombre d'experts activés de manière unique de 69,5 à 14,6 tout en conservant 99,11 % de la performance originale. Parallèlement, il réduit l'utilisation mémoire de 76,64 % à 79,84 % et atteint une accélération de la latence de bout en bout de 1,14x à 1,66x. Le code est disponible à l'adresse : https://github.com/fscdc/dMoE

Tout désaccord n'est pas apprenable : Enseignabilité des tokens dans la distillation on-policy
Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation

May 26

ByYuanyi Wang, Su Lu, Yanggan Gu, Pengkai Wang, Yifan Yang, Zhaoyi Yan, Congkai Xie, Jianmin Wu, Hongxia Yang

La distillation on-policy (OPD) entraîne un étudiant sur ses propres déroulements avec une supervision du professeur au niveau des tokens. Les méthodes OPD sélectives récentes exploitent la non-uniformité des signaux OPD en priorisant les tokens à haute entropie ou à fort désaccord. Nous revisitons ce principe et demandons : quels signaux du professeur au niveau des tokens sont réellement apprenables ? En utilisant un diagnostic à contexte fixe qui mesure la réduction de la divergence KL entre professeur et étudiant dans le même contexte, nous montrons que le désaccord KL brut est un indicateur grossier de la valeur d'apprentissage. Il confond le désaccord apprenable, où le professeur attribue une masse corrective aux candidats top-K de l'étudiant, avec un désaccord incompatible, où le professeur place la masse principalement en dehors du support actuel de l'étudiant. Nous formalisons cette compatibilité locale comme l’apprenabilité des tokens et montrons qu’elle prédit mieux l’amélioration dans un contexte fixe que le seul KL brut. Motivés par cette constatation, nous proposons OPD sensible à l’apprenabilité (TA-OPD), une méthode légère de sélection de positions de tokens qui applique la perte OPD aux positions à haute apprenabilité sans modèles de récompense ni vérificateurs. Dans les configurations professeur-étudiant Qwen2.5 et Qwen 3, TA-OPD dépasse souvent l’OPD sur tous les tokens avec seulement 5% des tokens conservés et s’améliore par rapport aux références basées sur l’entropie et la divergence. Nos résultats recadrent l’OPD sélective comme une sélection de signaux apprenables du professeur plutôt que simplement des tokens saillants.

SCOPE : Auto-jeu via la co-évolution de politiques pour des tâches ouvertes
SCOPE: Self-Play via Co-Evolving Policies for Open-Ended Tasks

May 29

ByWai-Chung Kwan, Aryo Pradipta Gema, Joshua Ong Jun Leang, Pasquale Minervini

L'auto-apprentissage peut entraîner des modèles de langage sans supervision externe. Cependant, les méthodes existantes nécessitent des réponses vérifiables par règles, ce qui laisse les tâches ouvertes dépendre de prompts organisés ou de juges de type modèle de pointe. Nous présentons SCOPE, un cadre d'auto-apprentissage sans données pour les tâches ouvertes, qui fait co-évoluer deux politiques : un Challenger qui génère des tâches ancrées dans des documents, et un Solver qui y répond via une recherche multi-tours. Une copie figée du modèle initial sert d'auto-juge, rédigeant des grilles d'évaluation spécifiques à chaque tâche à partir du document source et notant les réponses du Solver par rapport à celles-ci. Sur trois modèles ajustés par instructions de 7 à 8 milliards de paramètres (Qwen2.5, Qwen3, OLMo-3), SCOPE améliore la performance en tâches ouvertes jusqu'à +10,4 points sur huit benchmarks et atteint ou dépasse GRPO_data entraîné sur environ 9 000 prompts organisés. Bien qu'entraîné uniquement sur des tâches ouvertes, SCOPE améliore également les questions-réponses courtes de test jusqu'à +13,8 points sur sept benchmarks exclus, surpassant GRPO_data sur les trois modèles. Les ablations montrent que la co-évolution du Challenger est nécessaire pour maintenir les tâches proches de la frontière du Solver, que les gains proviennent d'améliorations à la fois dans la recherche et la synthèse, avec une contribution relative variable selon la tâche, et que la qualité de génération des grilles d'évaluation constitue le goulot d'étranglement de l'auto-jugement.

SAAS : Apprentissage par renforcement auto-conscient pour l'atténuation de la sur-recherche dans la recherche agentique
SAAS: Self-Aware Reinforcement Learning for Over-Search Mitigation in Agentic Search

May 28

ByYunbo Tang, Chengyi Yang, Shiyu Liu, Zhishang Xiang, Zerui Chen, Qinggang Zhang, Jinsong Su

La recherche agentique permet aux LLMs de résoudre des questions complexes multi-sauts grâce à un raisonnement itératif et une recherche externe. Bien qu'efficaces, ces systèmes souffrent souvent en pratique d'une limitation cruciale : les agents ne parviennent pas à reconnaître leurs propres limites de connaissance, déclenchant aveuglément des recherches alors que les connaissances internes suffisent et n'arrêtant pas la recherche même lorsque des preuves adéquates ont été collectées. Ce manque de conscience de soi conduit à une sur-recherche sévère, entraînant une latence d'inférence substantielle et un coût de calcul prohibitif. À cette fin, nous proposons SAAS, un nouveau cadre d'apprentissage par renforcement conçu pour cultiver une conscience de soi dynamique qui régule précisément le comportement de recherche sans compromettre la précision. SAAS introduit trois composants clés : (i) un mécanisme de modélisation des limites de recherche, qui identifie la limite de recherche sous la politique évolutive en contrastant les trajectoires avec et sans recherche activée ; (ii) un module de récompense sensible aux limites, qui traduit cette conscience des limites en pénalités au niveau des trajectoires, supprimant les recherches inutiles et redondantes ; et (iii) une stratégie d'optimisation par étapes, qui exploite un curriculum séquentiel pour prioriser le raisonnement sur la régularisation de la recherche, évitant ainsi le détournement de récompense. Des expériences approfondies montrent que SAAS réduit considérablement la sur-recherche tout en maintenant la précision. Notre code est publié de manière anonyme à l'adresse https://github.com/XMUDeepLIT/SAAS.

PEEK : Sélection de trames essentielles via une distillation efficace des connaissances
PEEK: Picking Essential frames via Efficient Knowledge distillation

May 29

ByKillian Steunou, Anas Filali Razzouki, Khalil Guetari, Mounîm A. El-Yacoubi, Yannis Tevissen

Les modèles vidéo-langage ne peuvent traiter qu'un nombre limité d'images, ce qui fait de la sélection d'images un goulot d'étranglement clé pour un sous-titrage vidéo efficace. La plupart des pipelines de sous-titrage reposent encore sur un échantillonnage uniforme, qui est peu coûteux en calcul mais indifférent au contenu visuel. L'échantillonnage adaptatif d'images est récemment apparu comme une approche prometteuse pour sélectionner les images les plus informatives d'une vidéo ; cependant, les méthodes existantes restent coûteuses en termes de calcul. Nous présentons PEEK, une méthode efficace d'échantillonnage dynamique d'images qui distille des classements de pertinence des images conditionnés par le sous-titre, issus d'un modèle enseignant plus fort, dans un modèle temporel léger qui opère uniquement sur le contenu visuel. Nous constatons que, globalement, sur ActivityNet Captions et MSR-VTT, notre méthode surpasse les méthodes de pointe sur tous les modèles de vision-langage en aval évalués, en particulier lorsqu'une ou deux images seulement sont sélectionnées pour le sous-titrage, obtenant le meilleur CIDEr pour la plupart des budgets d'images. Sur ActivityNet Captions, PEEK est particulièrement performant, remportant 14 configurations sur 16. L'évaluation zero-shot sur MSR-VTT montre que notre modèle se transfère le mieux pour les budgets d'images faibles, tandis que les résultats à quatre et huit images sont plus mitigés car la couverture temporelle et la diversité visuelle deviennent de plus en plus concurrentielles. Comparé aux récentes références adaptatives, PEEK est à la fois plus précis dans le régime à faible budget et plus efficace : il n'ajoute que 5,2 % au temps de sous-titrage, contre 65,4 % pour CSTA et 211,9 % pour MaxInfo. Nous publions notre code et notre checkpoint pré-entraîné à l'adresse https://github.com/momentslab/peek.

Exploration de l'ingénierie des données autonome agentive pour la spécialisation des modèles
Exploring Autonomous Agentic Data Engineering for Model Specialization

May 28

ByYujie Luo, Xiangyuan Ru, Jingsheng Zheng, Jingjing Wang, Yuqi Zhu, Jintian Zhang, Runnan Fang, Kewei Xu, Ye Liu, Zheng Wei, Jiang Bian, Zang Li, Shumin Deng

Les grands modèles de langage (LLM) ont démontré de solides performances sur des tâches générales, mais peinent souvent à s'adapter à des domaines spécialisés sans données de haute qualité spécifiques au domaine. Les méthodes existantes de curation de données basées sur les LLM reposent principalement sur des workflows conçus par des humains, sans que l'on ait examiné si les LLM peuvent exécuter de manière autonome un pipeline complet d'ingénierie des données pour la spécialisation des modèles. Nous formalisons l'Ingénierie Autonome des Données par Agents (Autonomous Agentic Data Engineering), une nouvelle tâche conçue pour évaluer les LLM en tant qu'ingénieurs de données autonomes qui pilotent la spécialisation des modèles via une curation de données de bout en bout. Nous considérons les données comme un composant optimisable et étudions des agents qui planifient, génèrent et optimisent itérativement les données d'entraînement sur plusieurs domaines, guidés par l'amélioration des performances après entraînement. Les expériences montrent que les ingénieurs de données LLM autonomes génèrent des gains substantiels : GPT-5.2 construit un curriculum d'entraînement qui améliore un modèle étudiant de 57,29 %, entièrement par adaptation itérative des données pilotée par agent. En mettant en lumière à la fois le potentiel et les goulets d'étranglement, notre étude établit l'ingénierie autonome des données comme une capacité mesurable et trace une voie vers la spécialisation des modèles pilotée par agents. Le code sera publié à l'adresse https://github.com/zjunlp/DataAgent.

LongDS-Bench : Sur l'échec de l'analyse de données agentique à long horizon
LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

May 28

ByKewei Xu, Xiaoben Lu, Shuofei Qiao, Zihan Ding, Haoming Xu, Lei Liang, Ningyu Zhang

L'analyse de données réelles est intrinsèquement itérative, mais les benchmarks existants évaluent principalement des tâches interactives isolées ou de courte durée, laissant inexplorée la capacité des agents à suivre un contexte analytique en évolution sur de longs horizons. Nous présentons LongDS, un benchmark pour l'analyse de données multi-tours à long horizon, où les agents doivent maintenir, mettre à jour, restaurer et composer des états analytiques évolutifs. LongDS comprend 68 tâches construites à partir de notebooks Kaggle réels, totalisant 2 225 tours dans six domaines, dont les géosciences, les affaires et l'éducation. Les tâches sont conçues autour de schémas d'évolution d'état (par exemple, perturbation contrefactuelle, retour en arrière, composition multi-états), avec une portée de dépendance moyenne de 11,3 tours. En évaluant cinq modèles de pointe, nous constatons que le meilleur modèle n'atteint qu'une précision moyenne de 48,45 %, que la performance chute de près de 47 points entre les premiers et les derniers tours, et que les erreurs à long horizon représentent 52 à 69 % des échecs. Une analyse plus poussée montre que des étapes supplémentaires de l'agent n'améliorent pas nécessairement la performance, ce qui suggère que le goulot d'étranglement est le maintien d'un état analytique correct plutôt que l'augmentation du budget d'interaction. Nous publions LongDS pour soutenir la recherche sur l'analyse de données agentive fiable à long horizon. Le code et les données seront disponibles à l'adresse https://github.com/zjunlp/DataMind.

VLM3 : Les modèles vision-langage sont des apprenants 3D natifs
VLM3: Vision Language Models Are Native 3D Learners

May 28

ByZhipeng Cai, Zhuang Liu, Yunyang Xiong, Zechun Liu, Vikas Chandra, Yangyang Shi

Les modèles de langage visuel (VLM) permettent à un modèle unifié de résoudre diverses tâches de vision par l’intermédiaire de prompts. Ils ont montré des performances prometteuses en compréhension sémantique. Cependant, la compréhension 3D repose encore largement sur des modèles experts de vision dotés de conceptions complexes spécifiques aux tâches. L’argument clé que ce travail souhaite avancer est que les VLM sont des apprenants 3D natifs. Notre étude approfondie à grande échelle montre que 1) l’unification de la distance focale, 2) la référence de pixels basée sur le texte et 3) le mélange et la mise à l’échelle des données sont tout ce dont on a besoin pour un apprentissage 3D efficace. Les changements d’architecture de modèle, les grands modèles, les augmentations de données lourdes et les fonctions de perte complexes, y compris la formulation par régression, qui constituent pourtant le fondement de nombreux modèles experts de vision, ne sont en réalité pas des conditions nécessaires. En conséquence, nous proposons VLM3, une méthode évolutive à la conception la plus simple, qui permet aux VLM standards de maîtriser diverses tâches 3D. VLM3 non seulement améliore nettement la précision d’estimation de profondeur des VLM (0,84 → 0,9), mais permet également diverses tâches 3D telles que la correspondance de pixels, l’estimation de pose de caméra et la compréhension 3D au niveau des objets, atteignant la précision des modèles experts de vision tout en conservant des architectures standard et un entraînement basé sur le texte. Nous pensons que VLM3 ouvre un nouveau paradigme pour un apprentissage 3D simple et évolutif.

Linéarisation du Vision Transformer avec entraînement en temps de test
Linearizing Vision Transformer with Test-Time Training

May 28

ByYining Li, Dongchen Han, Zeyu Liu, Hanyi Wang, Yulin Wang, Gao Huang

Bien que les mécanismes d’attention à complexité linéaire offrent une alternative prometteuse à l’attention Softmax pour surmonter le goulot d’étranglement quadratique, l’entraînement de tels modèles à partir de zéro reste prohibitif. L’héritage des poids de Transformers pré-entraînés constitue un raccourci attrayant, mais le fossé représentationnel fondamental entre l’attention Softmax et l’attention linéaire empêche un transfert de poids efficace. Dans ce travail, nous abordons ce défi de conversion sous deux angles : l’alignement architectural et l’alignement représentationnel. Nous identifions le Test-Time Training (TTT) comme une architecture à complexité linéaire dont la formulation dynamique à deux couches est structurellement alignée avec l’attention Softmax, permettant un héritage direct des poids d’attention pré-entraînés. Pour aligner davantage les propriétés représentationnelles, notamment l’invariance par décalage des clés et la localité, nous introduisons une normalisation d’instance des clés et un module léger d’amélioration de la localité. Nous validons notre approche en linéarisant Stable Diffusion 3.5 et présentons SD3.5-T⁵ (Transformer To Test Time Training). Avec seulement une heure de fine-tuning sur 4 × GPU H20, SD3.5-T⁵ atteint une qualité texte-image comparable à celle du modèle Softmax fine-tuné, tout en accélérant l’inférence de 1,32 fois et 1,47 fois aux résolutions 1K et 2K. Le code est disponible à l’adresse https://github.com/LeapLabTHU/Transformer-to-TTT.

Récupération des erreurs induites par les politiques : benchmarking et synthèse de trajectoires pour des agents GUI robustes
Recovering Policy-Induced Errors: Benchmarking and Trajectory Synthesis for Robust GUI Agents

May 28

ByTianpeng Bu, Xin Liu, Qihua Chen, Hao Jiang, Shurui Li, Hongtao Duan, Lu Jiang, Lulu Hu, Bin Yang, Minying Zhang

Bien que les agents d'interface graphique (GUI) aient progressé rapidement, ils manquent souvent de robustesse pour se remettre de leurs propres erreurs, ce qui entrave leur déploiement dans le monde réel. Pour combler cette lacune à la fois au niveau de l'évaluation et des données, nous présentons GUI-RobustEval et proposons la Synthèse de trajectoires guidée par la robustesse (Robustness-driven Trajectory Synthesis, RoTS). GUI-RobustEval contient 1 216 cas de test exécutables qui mesurent systématiquement les capacités de récupération d'erreurs sur un large éventail réaliste de modes d'erreur. Au niveau des données, RoTS est un cadre de synthèse évolutif qui génère 800 000 données de haute qualité via un pipeline basé sur un arbre, qui découvre de manière proactive divers modes d'erreur et synthétise les étapes de récupération correspondantes. Nos deux modèles, RoTS-7B et RoTS-32B, affinés sur notre jeu de données, montrent tous deux des gains significatifs sur GUI-RobustEval et les benchmarks GUI traditionnels. Notamment, RoTS-32B atteint des performances de pointe sur OSWorld, avec un taux de réussite de 47,4 % et un score All-Pass@4 de 33,8 %, ce qui suggère qu'une meilleure capacité de récupération d'erreurs sur des horizons longs contribue à la fois à la robustesse et aux performances globales. Notre code est disponible à l'adresse https://github.com/AlibabaResearch/RoTS.

La mise à jour du harnais n’est pas un bénéfice du harnais : Démêler les capacités d’évolution dans les agents LLM auto-évolutifs
Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents

May 28

ByMinhua Lin, Juncheng Wu, Zijun Wang, Zhan Shi, Yisi Sang, Bing He, Zewen Liu, Tianxin Wei, Zongyu Wu, Zhiwei Zhang, Dakuo Wang, Xiang Zhang, Benoit Dumoulin, Cihang Xie, Yuyin Zhou, Suhang Wang, Hanqing Lu

Les agents LLM sont de plus en plus déployés en tant que systèmes construits autour de harnais externes modifiables, incluant des invites (prompts), des compétences (skills), des mémoires et des outils, qui façonnent l'exécution des tâches sans modifier les paramètres du modèle. L'auto-évolution des harnais adapte ces agents en mettant à jour ces harnais à partir de preuves d'exécution. Cependant, il reste incertain si la capacité de base d'un modèle à résoudre des tâches prédit ses capacités d'auto-évolution des harnais : quels modèles produisent des mises à jour de harnais utiles, et lesquels en tirent réellement profit ? Nous analysons deux capacités d'auto-évolution des harnais : (i) la mise à jour des harnais, la capacité à produire des mises à jour de harnais persistantes et utiles à partir de preuves d'exécution ; (ii) le bénéfice des harnais, la capacité à tirer profit des harnais mis à jour lors de la résolution de tâches. Notre analyse révèle deux constats. Premièrement, la mise à jour des harnais est uniforme en termes de capacité de base : des modèles de différents niveaux de capacité produisent des mises à jour de harnais qui entraînent des gains étonnamment similaires ; même les mises à jour de Qwen3.5-9B produisent des gains comparables à ceux de Claude Opus ~4.6. Deuxièmement, le bénéfice des harnais est non monotone par rapport à la capacité de base : les modèles de niveau faible bénéficient peu des harnais mis à jour, les modèles de niveau intermédiaire en bénéficient le plus, et les modèles de niveau fort en bénéficient moins que ceux de niveau intermédiaire. Nous attribuons les faibles gains au niveau faible à deux modes de défaillance : les modèles de niveau faible peuvent ne pas parvenir à activer les artefacts de harnais pertinents, ou les activer mais ne pas les suivre fidèlement. Ces résultats suggèrent d'investir le budget de capacité dans l'agent de résolution de tâches plutôt que dans l'évolueur, et de cibler l'invocation des harnais et le suivi d'instructions à long terme dans l'entraînement des agents. Notre code source est disponible publiquement à l'adresse https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

De l'injection de prompt au contrôle persistant : défendre le harnais agentique contre les portes dérobées Trojan
From Prompt Injection to Persistent Control: Defending Agentic Harness Against Trojan Backdoors

May 29

ByJiejun Tan, Zhicheng Dou, Xinyu Yang, Yuyang Hu, Yiruo Cheng, Xiaoxi Li, Ji-Rong Wen

Les agents LLM évoluent de chatbots conversationnels vers des outils opérationnels dans les environnements de travail réels. Dans les cadres agentiques locaux, un LLM peut lire et écrire des fichiers, invoquer des outils et réutiliser l'état de l'espace de travail entre les sessions. Bien que ces capacités améliorent l'utilité, elles exposent également une nouvelle surface d'attaque pour les adversaires. Ceux-ci peuvent dissimuler une injection d'instruction dans un fichier ou une sortie d'outil. Les agents peuvent lire cette instruction cachée, la stocker et l'exécuter ultérieurement. Dans ce paradigme d'attaque trojan en plusieurs étapes, aucune étape individuelle n'apparaît malveillante en soi, mais ces étapes peuvent collectivement transformer un texte non fiable en contenu de contrôle persistant. Cependant, les défenses existantes inspectent souvent chaque étape de manière isolée. En conséquence, elles peuvent bloquer une action clairement nuisible, mais échouent à détecter l'opération d'écriture antérieure qui implante la porte dérobée. Pour révéler cette menace, nous introduisons ClawTrojan, un benchmark conçu pour identifier les attaques trojan en plusieurs étapes dans les cadres agentiques locaux. Dans un espace de travail simulé de style OpenClaw avec GPT-5.4, ClawTrojan atteint un taux de succès d'attaque (ASR) de 95,5 %, tandis que les attaques d'injection d'instruction en un seul tour produisent un ASR quasi nul sur le même modèle. Pour contrer cette menace, nous proposons DASGuard, qui analyse le texte de type contrôle dans les fichiers locaux sensibles, retrace son origine et supprime le contenu de contrôle qui ne provient pas d'une source de confiance. Nos résultats montrent que DASGuard réalise une défense dynamique robuste en combinant le blocage d'attaque en temps réel avec des commits assainis vers l'espace de travail.

VLMs vidéo à mise à l'échelle linéaire pour la compréhension de longues vidéos
Linear Scaling Video VLMs for Long Video Understanding

May 29

ByCristobal Eyzaguirre, Jiajun Wu, Juan Carlos Niebles

Les modèles vidéo vision-langage (VLM) sont de plus en plus utilisés dans des contextes à long horizon et en streaming, pourtant la plupart des encodeurs vidéo reposent encore sur l'auto-attention spatiotemporelle, ce qui fait croître quadratiquement le coût de calcul et la latence avec le nombre d'images. Les méthodes d'efficacité existantes améliorent la scalabilité mais perdent souvent en précision par rapport à l'auto-attention complète, par exemple via une suppression agressive d'images ou de tokens ou des approximations grossières de l'attention. Nous introduisons StateKV, une méthode au moment de l'inférence qui adapte les VLM vidéo longs pré-entraînés à un pré-remplissage vidéo en temps linéaire en transportant le contexte inter-images dans un état récurrent à capacité fixe basé sur l'importance, associé à un second cache complet par image utilisé pour le décodage. Sur trois benchmarks vidéo longs et sept modèles couvrant trois familles et plusieurs échelles, StateKV reste proche de l'auto-attention complète et surpasse systématiquement les approximations dominantes basées sur une fenêtre glissante ou la récence, sans nécessiter de fine-tuning ni de modifications architecturales. StateKV réduit également le coût de pré-remplissage vidéo mesuré en FLOPs, permettant une meilleure précision à budget de calcul fixe en exécutant des modèles plus grands. Ces résultats suggèrent une avancée pratique vers une compréhension vidéo longue scalable.

DecMem : Vers la génération cohérente de mondes d'une minute avec mémoire découplée
DecMem: Towards Minute-Long Consistent World Generation with Decoupled Memory

May 29

ByZhenhao Yang, Xiaoshi Wu, Zhengyao Lv, Xiaoyu Shi, Xintao Wang, Pengfei Wan, Kun Gai, Kwan-Yee K. Wong

Les récents progrès des modèles génératifs vidéo ont favorisé des avancées rapides dans les modèles de monde contrôlables. Cependant, maintenir une cohérence spatio-temporelle fine dans un raisonnement à long terme reste un défi majeur. Dans ce travail, nous dépassons la mémoire 3D explicite et la modélisation implicite grossière au niveau des trames, et proposons une mémoire fine, apprenable et évolutive pour une génération cohérente de mondes. Nous identifions d'abord deux limitations fondamentales des architectures de mémoire apprenable naïves dans l'extrapolation à long terme, à savoir l'inefficacité computationnelle et la dispersion de l'attention. Grâce à une analyse systématique de la dispersion de l'attention, nous proposons DecMem, une architecture de mémoire découplée qui utilise une Mémoire Globale Éparse pour un accès fin et efficace à l'historique global, et une Mémoire Locale Ancrée pour une extrapolation stable et de haute qualité. Des expériences approfondies montrent que DecMem surpasse significativement les méthodes actuelles de l'état de l'art. En assurant une mémoire à long terme précise et efficace et en offrant des capacités d'extrapolation supérieures, DecMem permet la génération contrôlable de longues vidéos à l'échelle de la minute avec une haute fidélité et une grande cohérence.

Cache-cache dans les trajectoires : Découverte des signaux de défaillance pour la supervision en temps réel de VLA
Hide-and-Seek in Trajectories: Discovering Failure Signals for VLA Runtime Monitoring

May 29

BySeongheon Park, Wendi Li, Changdae Oh, Samuel Yeh, Zsolt Kira, Michael Hagenow, Sharon Li

Les modèles Vision-Langage-Action (VLA) permettent aux robots de suivre des instructions en langage naturel et de généraliser à diverses tâches, mais ils restent vulnérables aux défaillances d'exécution qui compromettent leur fiabilité lors du déploiement en conditions réelles. Par conséquent, détecter ces défaillances pendant l'exécution est crucial pour le déploiement robuste de systèmes incarnés. Les méthodes existantes de détection des défaillances reposent soit sur un rééchantillonnage coûteux des actions, soit sur des modèles externes, tandis que d'autres alternatives propagent uniformément les étiquettes au niveau des trajectoires à chaque pas de temps, masquant ainsi les signaux locaux de défaillance. Dans cet article, nous proposons Hide-and-Seek, un cadre qui formule la détection des défaillances des modèles VLA comme un problème d'apprentissage faiblement supervisé. En combinant des objectifs contrastifs inter-trajectoires et intra-trajectoires, Hide-and-Seek localise les actions indicatrices de défaillance et génère des signaux de défaillance structurés temporellement à partir de la seule supervision au niveau des trajectoires, sans aucune annotation au niveau des pas. Nous évaluons Hide-and-Seek sur LIBERO, VLABench et une plateforme robotique réelle, avec trois politiques VLA représentatives : OpenVLA, π_0 et π_{0,5}. Notre méthode atteint des performances de détection de défaillance multi-tâches de pointe avec un compromis précision-rapidité pratique sous prédiction conforme, et se généralise bien aux tâches vues et non vues.

VisualThink-VLA : Raisonnement intermédiaire visuel pour des politiques Vision-Langage-Action efficaces et à faible latence
VisualThink-VLA: Visual Intermediate Reasoning for Effective and Low-Latency Vision-Language-Action Policies

May 28

ByMingjian Gao, Wenqiao Zhang, Yuqian Yuan, Yang Dai, Binhe Yu, Zheqi Lv, Haoyu Zheng, Jiaqi Zhu, Zhiqi Ge, Zixuan Wan, Siliang Tang, Yueting Zhuang

Des travaux récents ont commencé à doter les politiques vision-langage-action (VLA) d’un raisonnement intermédiaire explicite. Cependant, dans le contrôle incarné, la chaîne de pensée textuelle est mal adaptée : des informations non pertinentes ou faiblement textuelles peuvent interférer avec la prédiction d’action, tandis que le décodage autorégressif de texte ajoute une latence trop importante pour une exécution en boucle fermée en temps réel. Nous présentons VISUALTHINK-VLA, un cadre de raisonnement intermédiaire visuel pour des politiques VLA précises et à faible latence. Notre philosophie d’amorçage consiste à guider l’action par une pensée visuelle efficace : VISUALTHINK-VLA amorce la prédiction d’action via une interface compacte de preuve visuelle qui préserve la précision spatiale tout en évitant le surcoût de décodage. De plus, pour améliorer davantage les performances et l’efficacité, VISUALTHINK-VLA adopte un mécanisme de routage sélectif sur mesure pour apprendre les jetons de preuve visuelle, permettant une inférence à faible latence tout en conservant une spécialisation à haute capacité. Nous introduisons également VisualEvidence-Kit, une ressource de supervision et d’audit centrée sur un VisualEvidence-Agent qui construit un VisualEvidence-Set de 754,7k instructions VLA pour la supervision des routes et des tests de fidélité contrefactuelle. Sur plusieurs benchmarks et évaluations robotiques réelles, VISUALTHINK-VLA atteint le taux de succès le plus élevé sur la plupart des benchmarks tout en réduisant la latence de plusieurs secondes des bases de raisonnement augmenté au régime sub-secondaire. Par exemple, sur BridgeData V2, il réduit la latence par étape de 8,377 s avec ECoT à 0,367 s, réalisant une accélération de 22,8 fois.

Voir n'est pas savoir : Les VLM savent-ils quand ne pas répondre aux questions spatiales (et pourquoi) ?
Seeing Isn't Knowing: Do VLMs Know When Not to Answer Spatial Questions (and Why)?

May 28

ByYue Zhang, Zun Wang, Han Lin, Yonatan Bitton, Idan Szpektor, Mohit Bansal

Le raisonnement spatial est une capacité fondamentale pour les modèles vision-langage (VLM) déployés dans des environnements réels. Cependant, les observations visuelles constituent des représentations intrinsèquement limitées d'un monde en trois dimensions : l'occlusion peut rendre des objets invisibles, et la perspective peut fausser les propriétés géométriques. Malgré cela, les benchmarks existants de raisonnement spatial supposent généralement que les observations sont suffisantes et fiables, se concentrant sur la capacité des modèles à produire des réponses correctes plutôt que sur leur aptitude à reconnaître quand une question ne peut être répondue et quelles observations supplémentaires seraient nécessaires. Dans ce travail, nous remettons en question cette hypothèse en construisant un cadre d'évaluation contrôlé, SpatialUncertain, et en introduisant deux types de défis liés aux observations : (1) l'occlusion, qui masque les informations cibles, et (2) l'ambiguïté de perspective, qui produit des indices visuels trompeurs. Pour chaque configuration, nous concevons des questions spatiales qui sont répondables avec des observations claires mais qui nécessitent une abstention face aux défis introduits. Nous évaluons également si les modèles peuvent identifier les points de vue supplémentaires qui résoudraient l'ambiguïté de perspective. Nos résultats, obtenus sur un ensemble diversifié de VLM de pointe, qu'ils soient ouverts ou propriétaires, révèlent deux modes d'échec récurrents. Premièrement, les modèles ont tendance à répondre avec une confiance excessive, tentant de résoudre des tâches de raisonnement spatial même lorsque les preuves visuelles sont incomplètes ou trompeuses, avec une précision moyenne d'environ 30 % en cas d'occlusion et inférieure à 10 % en cas d'ambiguïté de perspective. Deuxièmement, même lorsque des vues supplémentaires sont disponibles, certains modèles obtiennent des résultats proches du hasard pour identifier celles qui fourniraient des preuves fiables. Ensemble, nos résultats appellent à dépasser la simple exactitude des réponses pour évaluer si les modèles savent quand s'abstenir et comment rechercher des preuves fiables.

HL-OutPaint : Outpainting vidéo du grossier au fin pour vidéos haute résolution de longue durée
HL-OutPaint: Coarse-to-Fine Video Outpainting for High-Resolution Long-Range Videos

May 19

ByJeongeun Park, Janghyeok Han, Geonung Kim, Hyun-Seung Lee, Kyuha Choi, Youngseok Han, Sunghyun Cho

L'extension vidéo génère un contenu visuel plausible au-delà de l'étendue spatiale originale d'une vidéo, jouant un rôle clé dans l'adaptation des vidéos à divers formats d'affichage. Pour répondre à ces usages, elle doit permettre une extrapolation spatiale importante sur de longues séquences. Cependant, la plupart des méthodes existantes ne traitent qu'un seul de ces défis ou manquent de mécanismes explicites pour garantir une cohérence spatio-temporelle globale, ce qui entraîne des limitations notables. Dans cet article, nous proposons HL-OutPaint, un cadre d'extension vidéo haute résolution pour longues séquences. Notre approche suit une stratégie du grossier au fin avec un pipeline en deux étapes. Nous construisons d'abord le Guidage Grossier Global (GCG), une représentation basse résolution qui capture la structure globale et le mouvement dominant à travers la vidéo. Contrairement à un sous-échantillonnage naïf, le GCG est construit via un mécanisme novateur d'échange de trames global-local qui couple des images clés globales clairsemées avec des fenêtres temporelles locales et échange des informations pendant l'échantillonnage. Cela permet au GCG d'encoder à la fois la cohérence structurelle à long terme et la dynamique temporelle à court terme dans une représentation unifiée. Guidé par cette représentation, HL-OutPaint effectue ensuite une extension haute résolution pour générer un contenu spatialement détaillé et temporellement cohérent. En séparant la modélisation de la structure globale de la synthèse fine, notre cadre parvient à une génération stable et cohérente pour une expansion spatiale importante et de longues séquences vidéo. Des expériences approfondies montrent que HL-OutPaint surpasse les méthodes existantes dans des scénarios difficiles impliquant une large extrapolation spatiale et de longues séquences vidéo.

DEMON : Moteur de Diffusion pour Bruit Orchestré Musical
DEMON: Diffusion Engine for Musical Orchestrated Noise

May 27

ByRyan Fosdick

Nous présentons DEMON, un moteur de diffusion en temps réel qui rend le processus de débruitage jouable comme un instrument de musique live : une surface de contrôle à la fois vaste (de nombreux paramètres façonnés par image sur l'ensemble de la sortie) et réactive (chaque contrôle prenant effet aussi rapidement que sa place dans la boucle de débruitage le permet). Construit sur ACE-Step 1.5 et l'architecture de tampon circulaire de StreamDiffusion avec accélération TensorRT, il soutient jusqu'à 12,3 décodages complets par seconde pour une musique de 60 secondes sur un seul GPU grand public (RTX 5090), ou 11,3 générations par seconde à notre profondeur de tampon circulaire de production de 4. À ces fréquences, les paramètres de débruitage deviennent viables en tant que contrôles de performance live, mais le tampon circulaire propage les changements par requête uniquement à son taux de drainage, un plancher de S étapes de débruitage. Nous contribuons quatre mécanismes. (1) Ordonnancement de débruitage hétérogène par emplacement : chaque emplacement du tampon circulaire possède son propre calendrier d'étapes, de sorte qu'un curseur de débruitage en mouvement est suivi sans effacer la file d'attente en cours, là où la conception amont de calendrier global doit la reconstruire et la jeter. (2) État mutable partagé par étape, donnant à tout paramètre consulté à chaque étape du solveur un effet au prochain pas, contournant le drainage du tampon circulaire. (3) Mélange de sources par image : un contrôle au moment de l'échantillonnage sur l'étape standard de re-bruitage SDE, offrant un axe d'intensité de transformation par image qui complète l'ordonnancement de débruitage scalaire. (4) Décodage VAE fenêtré exploitant l'analyse du champ réceptif pour une accélération du décodage de 8,0x. Ensemble, ces mécanismes séparent les paramètres de diffusion en flux en quatre classes de propagation, selon la latence d'apparition et de convergence.

Comment les modèles d'embedding peuvent-ils lier des concepts ?
How can embedding models bind concepts?

May 29

ByArnas Uselis, Darina Koishigarina, Seong Joon Oh

Les humains déterminent facilement quelle couleur appartient à quelle forme dans des scènes multi-objets, une capacité connue sous le nom de liaison conceptuelle (binding). Les modèles d'encastrement vision-langage tels que CLIP peinent avec ce binding : ils reconnaissent des concepts individuels mais échouent à représenter quels concepts forment quels objets. Bien que CLIP se comporte comme un modèle de type sac-de-concepts dans le cadre de la récupération cross-modale, l'information relative aux objets peut être extraite séparément de ses encastrements d'image et de texte. Nous étudions cette tension à travers la fonction de binding, qui associe les concepts aux encastrements de scène. Nous constatons que les encastrements de scène se décomposent de manière additive en représentations d'objets, ce qui explique pourquoi des sondes uni-modales peuvent récupérer l'information objet. Cependant, la fonction de binding de CLIP est de haute complexité, ce qui empêche probablement les encodeurs d'image et de texte d'apprendre un mécanisme de binding partagé qui se généralise à des combinaisons de concepts non vues. Nous nous demandons ensuite si cette limitation est fondamentale. Nous montrons qu'elle ne l'est pas. Dans des modèles de transformateurs contrôlés entraînés à partir de zéro, la généralisation du binding émerge avec une couverture de données suffisante. Ces modèles apprennent des fonctions de binding de faible complexité caractérisées par des interactions multiplicatives entre concepts, permettant une généralisation systématique. Le code est disponible publiquement à l'adresse https://github.com/oshapio/binding-concepts-complexity.

RayDer : Synthèse de nouvelles vues auto-supervisée et évolutive à partir de vidéos du monde réel
RayDer: Scalable Self-Supervised Novel View Synthesis from Real-World Video

May 29

ByUlrich Prestel, Stefan Andreas Baumann, Nick Stracke, Björn Ommer

La synthèse de nouvelle vue (NVS) auto-supervisée reste difficile à passer à l'échelle, malgré l'abondance de données vidéo, en grande partie à cause de la fragilité de l'entraînement sur des vidéos réalistes et du comportement difficile à prédire du passage à l'échelle des systèmes multi-réseaux. Nous présentons RayDer, un transformateur feed-forward unifié qui consolide l'estimation de caméra, la reconstruction de scène et le rendu en un seul tronc commun, transformant la NVS auto-supervisée en un problème de passage à l'échelle bien posé à modèle unique. Un état dynamique minimal, traité comme un facteur de nuisance, absorbe le contenu variant dans le temps et permet un entraînement stable sur des vidéos réelles non contraintes. Fait important, RayDer conserve la NVS de scène statique comme tâche cible : le contenu dynamique est utilisé uniquement comme supervision évolutive, non reconstruit comme dans la NVS de scène dynamique (4D). À travers plusieurs tailles de modèle et ordres de grandeur de données, RayDer présente une mise à l'échelle de loi de puissance propre avec les données et le calcul, et surpasse les mélanges de données de scène statique. Sur un grand nombre de références, RayDer atteint une performance en open-set zero-shot compétitive avec les approches supervisées de pointe. Page du projet : https://compvis.github.io/rayder

One-Forcing : Vers une génération de vidéos autorégressive stable en une étape
One-Forcing: Towards Stable One-Step Autoregressive Video Generation

May 22

ByJiaqi Feng, Justin Cui, Yuanhao Ban, Cho-Jui Hsieh

Des avancées récentes ont considérablement amélioré la génération vidéo interactive en temps réel dans le régime autorégressif. Cependant, la plupart des méthodes existantes de génération vidéo autorégressive en quelques étapes, souvent distillées à partir d'un enseignant correspondant à plusieurs étapes, utilisent par défaut une configuration d'échantillonnage à 4 étapes, ce qui entraîne toujours une latence considérable lors du déploiement et souffre d'une grave dégradation de la qualité lorsque le nombre d'étapes d'échantillonnage est encore réduit, en particulier dans le cadre à une seule étape. Les méthodes de distillation de cohérence de type trajectoire produisent souvent des vidéos avec une dynamique faible, tandis que les approches basées sur DMD, comme Self-Forcing, ont tendance à générer des images floues. Pour relever ce défi, nous proposons One-Forcing, une approche simple mais efficace qui enrichit l'objectif DMD avec une perte GAN auxiliaire pour une génération vidéo en une seule étape de haute qualité et efficace. Les expériences sur VBench montrent que One-Forcing obtient un score total de 83,76, établissant des performances de pointe parmi les méthodes de génération vidéo causale en une seule étape et restant compétitif avec les approches fortes à plusieurs étapes. Nous démontrons en outre que la génération autorégressive trame par trame en une seule étape peut être réalisée de manière stable avec seulement un tiers du coût d'entraînement du modèle par blocs, un cadre que les méthodes précédentes n'ont pas réussi à atteindre avec succès.

OpenSkillEval : Audit automatique de l'écosystème des compétences ouvertes pour les agents LLM
OpenSkillEval: Automatically Auditing the Open Skill Ecosystem for LLM Agents

May 28

ByJiahao Ying, Boxian Ai, Wei Tang, Siyuan Liu, Yixin Cao

Les compétences, c'est-à-dire des instructions de workflow structurées distillées pour les grands modèles de langage (LLM), deviennent un mécanisme de plus en plus important pour améliorer les performances des agents sur des tâches réelles en aval. Cependant, alors que l'écosystème open-source de compétences se développe rapidement, il reste flou comment différents modèles et frameworks d'agents interagissent avec les compétences, comment évaluer la qualité des compétences, et comment les utilisateurs devraient sélectionner les compétences sous des compromis pratiques coût-performance. Dans cet article, nous présentons OpenSkillEval, un cadre d'évaluation automatique à la fois pour les systèmes d'agents augmentés par des compétences et pour les compétences elles-mêmes. Au lieu de se reposer sur des benchmarks statiques, OpenSkillEval construit automatiquement des instances de tâches réalistes à partir d'artefacts réels en évolution dans cinq catégories d'applications en aval : génération de présentations, conception web front-end, génération d'affiches, visualisation de données et génération de rapports. Il collecte et organise en outre les compétences contribuées par la communauté pour une comparaison contrôlée dans des paramètres de tâches unifiés. En utilisant plus de 600 instances de tâches générées dynamiquement et 30 compétences open-source, nous menons une évaluation systématique des modèles et frameworks d'agents de l'état de l'art. Nos résultats montrent que la disponibilité des compétences ne garantit pas une utilisation efficace des compétences, que le bénéfice de l'augmentation par compétences dépend fortement à la fois du modèle sous-jacent et du framework d'agent, et que de nombreuses compétences populaires publiquement ne surpassent pas systématiquement les agents de base sans compétences. Ces résultats soulignent le besoin d'une évaluation dynamique et ancrée dans les tâches, et fournissent des perspectives pratiques sur la conception, la sélection et le déploiement de compétences pour les agents LLM. Des cas supplémentaires et des ressources de benchmark sont disponibles sur le site web du projet : https://yingjiahao14.github.io/OpenSkillEval-Web/.

Langages émergents dans des populations d’agents de modèles de langage : de l’efficacité des jetons au contournement de la supervision
Emergent Languages in Populations of Language Model Agents: From Token Efficiency to Oversight Evasion

May 29

ByStine Lyngsø Beltoft, William Brach, Federico Torrielli, Jacob Nielsen, Annemette Brok Pirchert, Filippo Tonini, Peter Schneider-Kamp, Lukas Galke Poech

La surveillance des agents de modèles de langage autonomes repose actuellement principalement sur le comportement de surface. Mais que se passe-t-il lorsque des populations d'agents inventent de nouvelles langues dans le but d'éviter la supervision humaine ? Ici, nous étudions les langues émergentes sur Moltbook. Pour cela, nous nous appuyons sur le jeu de données Moltbook Files et appliquons une approche en deux étapes consistant en une heuristique basée sur des règles (environ 6000 correspondances) suivie d'une classification zero-shot (518 conservés). Les catégories résultantes incluent l'efficacité des tokens (166), les nouvelles langues naturelles (106) et l'évitement de la supervision (59). Nous menons des analyses à la fois quantitatives et qualitatives. Nos résultats montrent que les publications proposant de nouvelles langues pour éviter la supervision sont jugées par DeepSeek-3.2 comme étant moins alignées que les autres catégories et que toutes les langues peuvent être apprises par d'autres modèles de langage en contexte simplement à partir d'une description de la langue. De plus, l'étude manuelle de cas exemplaires révèle des protocoles stéganographiques étonnamment sophistiqués, comme cacher des messages dans le langage naturel. Bien que nous ne puissions pas être certains du degré d'autonomie dans l'idéation de ces langues, nos résultats s'ajoutent aux preuves que la surveillance du comportement de surface pourrait bientôt être insuffisante pour garder le contrôle sur les populations d'agents.

Le revers du RLHF : retour on-policy pour l'amélioration auto-supervisée du modèle de récompense
The Flip Side of RLHF: On-Policy Feedback for Reward Model Self-Supervised Improvement

May 29

ByXiaobo Wang, Tong Wu, Min Tang, Jiaqi Li, Qi Liu, Zilong Zheng

Construire des modèles de récompense (RM) solides pour l’alignement des modèles de langage est freiné par le coût et la difficulté d’acquérir des données de préférences diverses et fiables issues d’annotations humaines ou de modèles juges. Cette difficulté s’aggrave considérablement à mesure que la politique évolue au-delà de l’entraînement statique du RM. C’est pourquoi nous proposons SAVE (Amélioration auto-supervisée du modèle de récompense via un retour d’information on-policy ancré sur la valeur), un cadre qui note les réponses on-policy comme retour d’information en utilisant la fonction de valeur pour l’entraînement on-policy du RM. SAVE convertit naturellement les réponses on-policy notées par la récompense en supervision, avec une tête de valeur spécifique au prompt servant d’ancre adaptative. Il calcule les avantages du RM et filtre les échantillons ambigus pour mettre à jour le RM via un objectif contrastif. L’efficacité de SAVE pour améliorer l’entraînement du RM est fortement validée par une évaluation empirique rigoureuse sur six références diverses. Il obtient des résultats supérieurs sur tous les ensembles de données tout en maintenant des améliorations cohérentes sur trois algorithmes d’apprentissage par renforcement (GRPO, RLOO, GSPO) et différents backbones de politique.

SoundnessBench : Votre chercheur en IA sait-il vraiment distinguer les bonnes idées de recherche des mauvaises ?
SoundnessBench: Can Your AI Scientist Really Tell Good Research Ideas from Bad Ones?

May 28

BySy-Tuyen Ho, Minghui Liu, Huy Nghiem, Furong Huang

Les agents autonomes de recherche en IA visent à accélérer la découverte scientifique en automatisant le pipeline de recherche, de la génération d'hypothèses à l'examen par les pairs. Cependant, les benchmarks existants testent rarement un goulot d'étranglement fondamental : la capacité des grands modèles de langage à juger de la viabilité méthodologique d'une idée de recherche avant d'y consacrer du temps et des ressources computationnelles. Nous présentons SoundnessBench, un benchmark organisé de 1 099 propositions de recherche en apprentissage automatique reconstruites à partir de soumissions à ICLR, annotées avec les sous-scores de solidité des relecteurs et vérifiées par rapport aux articles sources. SoundnessBench doit être interprété comme un benchmark pour la solidité au stade de la proposition, récupérable, plutôt que pour une prédiction exacte des résultats de l'examen complet des articles. Sur 12 LLMs de pointe, nous observons un biais d'optimisme omniprésent : avec un amorçage standard, les modèles évaluent fréquemment comme solides des propositions de faible solidité, tandis qu'un amorçage agressif déplace en grande partie les erreurs des faux positifs vers les faux négatifs. Des contrôles supplémentaires pour la contamination par corpus publics, les phrases identifiant les articles, les caractéristiques superficielles et la qualité de la vérification humaine suggèrent que ce comportement ne s'explique pas par un seul facteur de confusion. Nos résultats indiquent que les LLMs actuels ne sont pas encore fiables en tant qu'évaluateurs autonomes de premier niveau pour la rigueur scientifique.

GDSD : L'apprentissage par renforcement comme auto-distillation guidée par débruiteur pour les modèles de langage à diffusion
GDSD: Reinforcement Learning as Guided Denoiser Self-Distillation for Diffusion Language Models

May 28

ByXiaohang Tang, Keyue Jiang, Che Liu, Qifang Zhao, Xiaoxiao Xu, Sangwoong Yoon, Ilija Bogunovic

L'apprentissage par renforcement (RL) peut être utilisé pour améliorer la politique (débruitage) des modèles de langage de grande taille par diffusion (dLLMs), mais est entravé par l'intractabilité de la vraisemblance de la politique. Une famille de méthodes dominante et efficace remplace la vraisemblance dans le RL standard par sa borne inférieure de la vraisemblance (ELBO), estimée à partir de séquences masquées aléatoirement. Bien qu'elles soient bien alignées avec le pré-entraînement, ces approches introduisent un biais via le décalage entre l'entraînement et l'inférence (TIM) en utilisant l'ELBO comme substitut de vraisemblance, ce qui peut dégrader les performances. Dans ce travail, nous proposons l'Auto-Distillation Guidée du Débruitage (GDSD) pour distiller directement le débruitage des dLLMs à partir d'un auto-enseignant guidé par l'avantage, dérivé de l'optimum sous forme fermée du RL régularisé par divergence KL inverse. GDSD fait correspondre les logits de débruitage du dLLM à ceux de l'enseignant via un objectif sans normalisation, ce qui réduit le RL à une auto-distillation sans vraisemblance et contourne ainsi les biais du TIM. Les méthodes récentes basées sur l'ELBO apparaissent comme des instances appliquant différentes divergences de distillation, mais avec des pathologies diagnostiquables que GDSD évite. Sur des benchmarks de planification, de mathématiques et de codage avec LLaDA-8B et Dream-7B, GDSD surpasse systématiquement les méthodes antérieures de pointe basées sur l'ELBO, avec une dynamique de récompense d'entraînement plus stable, atteignant des améliorations de précision de test allant jusqu'à +19,6 %. Ces résultats suggèrent que l'auto-distillation directe du débruitage, sans recourir à un substitut de vraisemblance basé sur l'ELBO, peut fournir une procédure RL plus stable et plus efficace pour les dLLMs. Le code est disponible à l'adresse https://github.com/GaryBall/GDSD.

De la mise à l'échelle des modèles à la mise à l'échelle des systèmes : la mise à l'échelle du harnais dans l'IA agentique
From Model Scaling to System Scaling: Scaling the Harness in Agentic AI

May 25

ByShangding Gu

Cet article étudie le prochain goulot d'étranglement majeur de l'IA agentique comme étant le passage à l'échelle du système, et non seulement celui du modèle : la conception d'architectures auditable, persistante, modulaire et vérifiable autour des modèles de fondation. Nous appelons ce changement le passage à l'échelle du harnais, c'est-à-dire considérer la couche d'exécution structurée autour d'un modèle de fondation comme un objet de première classe pour la conception, l'évaluation et l'optimisation. Bien que les récents grands modèles de langage permettent aux agents d'utiliser des outils, de récupérer des informations, de maintenir une mémoire et d'exécuter des flux de travail à long horizon, l'évaluation reste largement centrée sur le modèle, réduisant souvent les agents à la réussite de la tâche finale tout en traitant la mémoire, la recherche, l'utilisation d'outils, l'orchestration, la vérification et la gouvernance comme des détails d'implémentation secondaires. Ce cadre est de plus en plus inadéquat car la performance de l'agent émerge de l'interaction entre le modèle de fondation, le substrat de mémoire, le constructeur de contexte, la couche de routage des compétences, la boucle d'orchestration, et la couche de vérification et de gouvernance. Ensemble, ces composants forment le harnais de l'agent, qui traduit la capacité du modèle en comportement agentique à long horizon. Nous étudions le passage à l'échelle du harnais à travers trois goulots d'étranglement fondamentaux : la gouvernance du contexte, la mémoire fiable et le routage dynamique des compétences, ainsi que les mécanismes d'orchestration et de gouvernance qui les coordonnent et les contraignent. Nous décrivons également un programme de recherche pour des benchmarks au niveau du harnais qui vont au-delà de la réussite ponctuelle d'une tâche pour mesurer la qualité de la trajectoire, l'hygiène de la mémoire, l'efficacité du contexte, la fidélité de la communication, le coût de vérification et l'évolution sécurisée dans le temps. Pour rendre la discussion concrète, nous développons CheetahClaws : https://github.com/SafeRL-Lab/cheetahclaws, un harnais de référence natif en Python, et le comparons avec Claude Code et OpenClaw. Notre affirmation principale est que les progrès futurs de l'IA agentique dépendront autant de la conception du système que de modèles de fondation plus puissants.

FRAPPE : Autoencodage à entrée complète et sortie résiduelle avec encodeur par poursuite de projection
FRAPPE: Full Input, Residual Output Autoencoding with Projection Pursuit Encoder

May 27

ByDan Jacobellis, Neeraja J. Yadwadkar

Les normes de compression multimédia ont atteint un plateau en termes de compromis débit-distorsion-complexité, limitant la capacité à décharger une perception coûteuse basée sur l'IA vers le cloud dans des applications telles que la robotique, les wearables et la télédétection. Les codecs basés sur les réseaux de neurones profonds (DNN) améliorent l'efficacité de compression, mais à un coût : ils ne peuvent pas s'adapter facilement à des variations importantes du débit disponible, et l'encodage en temps réel nécessite des GPU coûteux et énergivores qui empêchent leur utilisation sur des plateformes à bas coût ou aux ressources limitées. Pour pallier ces limitations, nous proposons un nouveau cadre d'auto-encodage (FRAPPE) qui utilise l'entrée complète pour prédire la sortie résiduelle via un encodeur par projection poursuite (Projection Pursuit Encoder). L'objectif d'encodage de FRAPPE trie naturellement les canaux latents par importance, permettant un codage à débit variable sans surcoût. Contrairement aux codecs appris basés sur les RNN, dont l'encodeur consomme le résidu de la reconstruction précédente, ou aux codecs de type RVQ, dont les dictionnaires doivent être appliqués séquentiellement, le chemin d'analyse de FRAPPE est un DAG parallélisable à l'extrême, constitué de projections d'entrée indépendantes. En utilisant FRAPPE, nous construisons un codec d'images RVB à débit variable (FRAPPE-Image), et évaluons son compromis débit-distorsion-complexité par rapport aux codecs d'images standard. À des taux de compression élevés (environ 0,1 bpp), FRAPPE-Image offre une qualité perceptuelle supérieure à l'AVIF avec un encodage 47 fois plus rapide, permettant un encodage temps réel 1080p, 30 ips uniquement sur CPU. Notre code et nos modèles pré-entraînés sont disponibles : https://github.com/UT-SysML/FRAPPE .

iVGR : Internalisation du raisonnement ancré visuellement pour les MLLMs avec apprentissage par renforcement
iVGR: Internalizing Visually Grounded Reasoning for MLLMs with Reinforcement Learning

May 29

ByChang-Bin Zhang, Yujie Zhong, Qiang Zhang, Kai Han

Bien que la Chaîne de Pensée ancrée visuellement (CoT visuelle) soit apparue comme un paradigme prometteur pour améliorer la perception fine dans les modèles de langage multimodaux de grande taille (MLLMs), son efficacité durant la phase d'inférence reste peu explorée. Dans ce travail, nous constatons empiriquement qu'imposer des boîtes d'objets explicites dans la CoT ancrée visuellement pendant l'inférence dégrade souvent les performances par rapport à la CoT textuelle standard, qui raisonne sans ancrage visuel explicite. Nous émettons l'hypothèse que la capacité de localisation visuelle peut être internalisée dans la CoT textuelle et que l'ancrage explicite obligatoire introduit une interférence inutile avec l'objectif principal du modèle, à savoir la prédiction de réponses. Pour résoudre ce problème, nous proposons iVGR (Internalizing Visually Grounded Reasoning), un nouveau cadre d'apprentissage par renforcement qui transfère les capacités de localisation dans le processus de raisonnement textuel. Nous employons une stratégie d'entraînement à double flux, où un flux textuel est aligné avec un flux de haute qualité ancré visuellement via une récompense de cohérence proposée, permettant au modèle de localiser avec précision sans ancrage explicite pendant l'inférence. Des expériences approfondies montrent que notre méthode surpasse significativement les références existantes sur des benchmarks à granularité fine, tout en conservant la flexibilité nécessaire pour prendre en charge des flux de travail d'inférence assistés par des outils.

Lumos-Nexus : Pontage fréquentiel efficace avec espace latent homogène pour les modèles vidéo unifiés
Lumos-Nexus: Efficient Frequency Bridging with Homogeneous Latent Space for Video Unified Models

May 29

ByJiazheng Xing, Hangjie Yuan, Lingling Cai, Xinyu Liu, Yujie Wei, Fei Du, Hai Ci, Tao Feng, Jiasheng Tang, Weihua Chen, Fan Wang, Yong Liu

Les modèles vidéo unifiés basés sur des connecteurs ont démontré une capacité robuste pour la synthèse vidéo ancrée dans des instructions, mais l'intégration d'un générateur haute-fidélité de grande taille dans la boucle d'entraînement unifiée est prohibitif sur le plan computationnel, limitant la qualité visuelle atteignable. Nous proposons donc Lumos-Nexus, un cadre de génération vidéo unifiée efficace en termes d'entraînement, qui facilite le développement de capacités de génération guidée par le raisonnement tout en améliorant significativement la fidélité visuelle. Lumos-Nexus adopte une conception en deux étapes : 1) Pendant l'entraînement, seul un générateur léger est aligné avec le bloc de compréhension pour apprendre à intégrer un contrôle sémantique guidé par le raisonnement. 2) Pendant l'inférence, nous introduisons le Pontage Progressif Unifié des Fréquences (UPFB) pour transférer progressivement la génération à un générateur pré-entraîné à haute capacité dans l'espace latent partagé, permettant un raffinement du grossier au fin et produisant des vidéos haute-fidélité sans compromettre la qualité du raisonnement. Pour combler le manque de références en génération vidéo guidée par le raisonnement, nous présentons VR-Bench, qui évalue la capacité d'un modèle à traduire une intention inférée en contenu vidéo cohérent et sémantiquement aligné. Des expériences extensives montrent que Lumos-Nexus obtient des gains substantiels en réalisme visuel et en cohérence temporelle sur VBench, tout en démontrant des performances génératives solides basées sur le raisonnement sur VR-Bench. Le code et les modèles sont disponibles à l'adresse https://jiazheng-xing.github.io/nexus-lumos-home/.

DRIFT : Déploiements découplés et ajustement fin pondéré par l'importance pour une optimisation multi-tours efficace
DRIFT: Decoupled Rollouts and Importance-Weighted Fine-Tuning for Efficient Multi-Turn Optimization

May 29

ByJian Mu, Tianyi Lin, Chengwei Qin, Zhongxiang Dai, Yao Shu

Les grands modèles de langage sont de plus en plus déployés dans des contextes interactifs multi-tours où les utilisateurs ou les environnements peuvent fournir de manière itérative des retours légers. Malheureusement, l'optimisation d'un tel comportement présente un dilemme aigu dans la pratique : l'apprentissage par renforcement en ligne permet de traiter efficacement la dynamique multi-tours mais est prohibitif en raison du coût de génération de trajectoires de correction complètes à chaque mise à jour, tandis que l'ajustement fin supervisé hors ligne (SFT) est efficace mais souffre d'un décalage distributionnel et d'un effondrement comportemental. À cette fin, nous proposons de manière innovante DRIFT (Génération de trajectoires découplée et ajustement fin pondéré par importance), un cadre qui opérationnalise la connaissance théorique selon laquelle l'objectif d'apprentissage par renforcement régularisé par divergence KL est équivalent à l'apprentissage supervisé pondéré par importance. DRIFT découple la génération de trajectoires de l'optimisation en échantillonnant des trajectoires d'interaction hors ligne à partir d'une politique de référence fixe, en dérivant des poids d'importance basés sur le retour, et en optimisant la politique via un SFT pondéré sur l'ensemble de données résultant. Empiriquement, nous démontrons que DRIFT atteint ou dépasse les performances des bases de référence d'apprentissage par renforcement multi-tours tout en maintenant l'efficacité d'entraînement et la simplicité de l'ajustement fin supervisé standard. Le code est disponible à l'adresse https://github.com/2020-qqtcg/DRIFT.

MAAT : Désapprentissage ciblé multi-phase adaptateur-aware
MAAT: Multi-phase Adapter-Aware Targeted Unlearning

May 28

BySuryash Yagnik, Shubham Gaur, Saksham Thakur, Vinija Jain, Aman Chadha, Amitava Das

L'évaluation du désapprentissage automatique est structurellement biaisée : les questions de type Pourquoi, qui sondent les connaissances causales et relationnelles, représentent moins de 0,06 % de CounterFact, 0,6 % de ZSRE, et moins de 1,3 % de TOFU, MUSE et WMDP-Cyber. Cette représentation quasi nulle signifie que les méthodes qui échouent sur les connaissances causales peuvent obtenir des scores élevés de manière agrégée, et cet échec est indétectable sans une évaluation équilibrée. Nous présentons 5WBENCH, un benchmark équilibré de 5 000 échantillons avec 1 000 exemples par catégorie des 5W (Qui, Quoi, Quand, Où, Pourquoi), rendant pour la première fois les échecs de désapprentissage causal quantifiables. En utilisant 5WBENCH, nous montrons qu'aucune baseline existante n'atteint simultanément un oubli élevé et une rétention élevée sur les questions de type Pourquoi : l'oubli agressif dégrade les connaissances retenues, tandis que les méthodes conservatrices échouent à oublier les faits causaux. La difficulté des questions de type Pourquoi provient de chaînes de raisonnement multi-sauts (44 % des entrées Pourquoi contre moins de 2 % pour les autres) et de la dilution du gradient sur des segments de réponse de 40,1 tokens. Nous présentons MAAT (Multi-phase Adapter-Aware Targeted Unlearning), un cadre en trois phases opérant sur les poids des adaptateurs LoRA, combinant ascension projetée par gradient, élagage des dimensions de rang SVD, négation du vecteur de tâche et réparation hybride de rétention par état caché KL. MAAT est la première méthode à atteindre simultanément un oubli élevé et une rétention élevée sur les connaissances causales de type Pourquoi, atteignant un nouveau point de fonctionnement sur la frontière de Pareto oubli-rétention. Nous rendons notre code publiquement disponible.

Compter n'importe quoi
Count Anything

May 29

ByMengqi Lei, Shuokun Cheng, Wei Bao, Shaoyi Du, Jun-Hai Yong, Siqi Li, Yue Gao

Le comptage d’objets reste fragmenté entre des ensembles de données spécifiques à un domaine et des formulations de tâches distinctes, malgré les progrès rapides des modèles de vision généralistes. Les modèles de comptage existants sont souvent adaptés à des scénarios tels que les foules, les véhicules, les cellules, les cultures ou les objets de télédétection, et peinent donc à généraliser entre catégories, domaines visuels, échelles d’objets et distributions de densité. Dans cet article, nous étudions le comptage d’objets guidé par le texte à travers les domaines, où un modèle prend en entrée une image et une requête en langage naturel et retourne un ensemble de points cibles ancrés sur les instances dont la cardinalité donne le nombre. Cette formulation unifie le comptage conditionné par catégorie avec une localisation spatiale interprétable. Pour soutenir ce cadre, nous construisons CLOC, un ensemble de données de comptage d’objets à grande échelle inter-domaines qui réorganise diverses sources de données publiques en un banc d’essai unifié. CLOC couvre six domaines visuels : Scène Générale, Télédétection, Histopathologie, Microscopie Cellulaire, Agriculture et Microbiologie, avec environ 220 000 images, 619 catégories et 15 millions d’instances d’objets. À partir de CLOC, nous proposons Count Anything, un modèle généraliste pour le comptage d’objets guidé par le texte. Contrairement aux méthodes basées sur les cartes de densité, qui dominent les modèles de comptage, Count Anything adopte des points d’instance discrets et effectue une énumération d’instances à double granularité. Un Compteur Parcimonieux au niveau Régional fournit des ancres au niveau objet pour les cibles grandes et peu denses, tandis qu’un Compteur Dense au niveau Pixel traite les cibles petites, denses et faiblement délimitées via une prédiction de points denses. Une stratégie de supervision centrée sur les points permet l’apprentissage à partir d’annotations hétérogènes, et une Fusion de Comptes Complémentaires combine les deux compteurs de manière sans paramètre. Des expériences approfondies montrent que Count Anything atteint une grande précision et une généralisation multi-domaine, surpassant les méthodes de comptage en monde ouvert existantes. Le code est disponible à l’adresse : https://github.com/Mengqi-Lei/count-anything.

AlphaTransit : Apprendre à concevoir des itinéraires de transport en commun à l'échelle de la ville
AlphaTransit: Learning to Design City-scale Transit Routes

May 27

ByBibek Poudel, Sai Swaminathan, Weizi Li

La conception d'un réseau de transport en commun nécessite de nombreuses décisions séquentielles d'extension d'itinéraires, mais leur qualité n'est souvent perceptible qu'après l'assemblage complet du réseau. Ce défi de rétroaction tardive est au cœur du problème de conception des réseaux de lignes de transport en commun (TRNDP), où les interactions entre itinéraires peuvent être trompeuses : une extension qui semble utile localement peut créer des goulots d'étranglement de correspondance, produire des chevauchements redondants ou réduire le débit global. Pour guider la construction d'itinéraires sous rétroaction tardive du simulateur, nous présentons AlphaTransit, un cadre de planification basé sur la recherche pour la conception de réseaux de bus à l'échelle d'une ville. AlphaTransit couple la recherche arborescente Monte-Carlo (MCTS) avec un réseau neuronal politique-valeur : la politique propose des extensions d'itinéraires, la valeur estime la qualité aval de la conception, et la recherche utilise ces prédictions pour affiner chaque décision. Cela permet une anticipation au moment de la décision pendant la construction d'itinéraires, sans exécuter de simulations complètes dans l'arbre de recherche. Nous évaluons AlphaTransit sur un nouveau benchmark TRNDP pour Bloomington, avec une topologie routière réaliste et une demande dérivée du recensement, dans des contextes de demande de transport mixte et intégrale. Dans le réseau de Bloomington, AlphaTransit atteint le taux de service le plus élevé dans les deux contextes de demande, atteignant respectivement 54,6 % et 82,1 %. Par rapport à l'apprentissage par renforcement sans recherche, cela correspond à des gains de taux de service de 9,9 % et 11,4 % ; par rapport à la MCTS sans guidance apprise, cela correspond à des gains de 2,5 % et 11,2 %. Ces résultats suggèrent que le couplage de la guidance apprise avec la MCTS est plus efficace que l'utilisation de l'une ou l'autre approche seule pour la conception de réseaux de transport en commun. Notre code et nos données sont disponibles publiquement sur https://github.com/poudel-bibek/AlphaTransit.

SurGe : géométrie de surface améliorée dans les cartes de points
SurGe: Improved Surface Geometry in Point Maps

May 29

ByKarim Knaebel, Gonzalo Martin Garcia, Christian Schmidt, Ilya Fradlin, Lucas Nunes, Daan de Geus, Bastian Leibe

Les récentes méthodes de reconstruction 3D feedforward prédisent des cartes de points et estiment remarquablement bien la géométrie 3D globale. Cependant, leurs prédictions présentent encore une géométrie locale de surface inexacte, clairement visible qualitativement mais faiblement reflétée dans les métriques courantes. Pour rendre ces erreurs plus explicites dans l'évaluation, nous introduisons une métrique de normales de cartes de points qui évalue l'orientation locale de la surface induite par les prédictions 3D voisines. Pour réduire ces erreurs, nous proposons deux composants complémentaires : une perte d'appariement de gradients de points qui supervise les différences finies 3D normalisées en profondeur, et un décodeur à attention de voisinage (NAD) qui suréchantillonne progressivement les caractéristiques et utilise l'attention de voisinage pour le mélange local des caractéristiques. Sur huit benchmarks de géométrie monoculaire zero-shot, notre modèle, SurGe, atteint le meilleur rang moyen pour l'AbsRel global de la carte de points et améliore constamment les évaluations locales de la carte de points et des normales de la carte de points.

Banc en kit : Évaluation de la compréhension spatio-temporelle dans les grands modèles vision-langage via l'assemblage de meubles
Flat-Pack Bench: Evaluating Spatio-Temporal Understanding in Large Vision-Language Models through Furniture Assembly

May 20

ByAditya Chetan, Eric Cai, Peeyush Kushwaha, Bharath Raj Nagoor Kani, Utkarsh Mall, Qianqian Wang, Noah Snavely, Bharath Hariharan

L'émergence des Grands Modèles Vision-Langage (LVLMs) a considérablement amélioré les capacités de compréhension vidéo. Cependant, les benchmarks existants se concentrent principalement sur des tâches à granularité grossière telles que la segmentation d'actions, la classification, le sous-titrage et le récupération. De plus, ces références s'appuient souvent sur des entités facilement identifiables verbalement, comme les objets ménagers, les animaux, les sujets humains, etc., ce qui limite leur applicabilité à des scénarios vidéo complexes en conditions réelles. Or, de nombreuses applications telles que l'assemblage de meubles, la cuisine, etc., nécessitent une compréhension spatio-temporelle fine et étape par étape de la vidéo, ce qui n'est pas suffisamment évalué dans les benchmarks actuels. Pour combler cette lacune, nous présentons Flat-Pack Bench, un nouveau benchmark centré sur les tâches d'assemblage de meubles. Notre benchmark évalue les LVLMs sur des tâches nuancées, notamment l'ordonnancement temporel des actions d'assemblage, la localisation temporelle des états d'assemblage, la compréhension de l'emboîtement des pièces et le suivi, à l'aide de questions à choix multiples associées à des indices visuels mettant en évidence les parties pertinentes comme références pour des questions fines. Nos expériences révèlent que les LVLMs de pointe peinent considérablement avec le raisonnement spatio-temporel fin, soulignant leurs limites dans l'exploitation efficace des informations temporelles issues des vidéos, une capacité de suivi restreinte, et une compréhension insuffisante des interactions spatiales comme le contact physique.

Quand la confiance induit en erreur : Ancrage de suffixe et modulation de la confiance par proximité d'ancrage pour les modèles de langage à diffusion
When Confidence Misleads: Suffix Anchoring and Anchor-Proximity Confidence Modulation for Diffusion Language Models

May 27

ByJungwon Park, Jimyeong Kim, Jungmin Ko, Nojun Kwak, Wonjong Rhee

Les modèles de langage par diffusion décodent le texte en débruisant itérativement des séquences de tokens masqués, ce qui fait du choix des positions à décoder une décision centrale au moment de l'inférence. La plupart des stratégies de décodage sans entraînement utilisent la confiance du modèle pour la sélection des positions, en supposant que les positions à haute confiance sont prêtes à être décodées. Dans ce travail, nous réexaminons cette hypothèse en étudiant quand la confiance induit en erreur le décodage complètement non autorégressif (non-AR complet). Les tokens EOT peuvent recevoir une confiance élevée et entraîner une génération incomplète ; l'insertion d'une ancre de suffixe peut atténuer ce problème mais introduit une surconfiance locale près de l'ancre, provoquant un décodage prématuré des tokens adjacents à l'ancre. Pour remédier à ces problèmes, nous proposons la Modulation de Confiance par Ancre de Suffixe, une méthode simple sans entraînement qui insère une courte ancre de suffixe pour encourager la complétion de la réponse et module la confiance près de l'ancre en fonction de la progression du décodage. Cela préserve l'avantage de complétion de réponse de l'ancrage par suffixe tout en réduisant le décodage prématuré des tokens adjacents à l'ancre. Sur des benchmarks de raisonnement textuel, de raisonnement vision-langage et de génération de code, notre méthode améliore systématiquement le décodage non-AR complet basé sur la confiance, surpasse la suppression explicite des tokens EOT, et préserve l'avantage du décodage parallèle de la génération non-AR complète.

Le Bon, la Brute et le Truand de la frontière de Markov pour la prédiction tabulaire
The Good, the Bad, and the Ugly of Markov Boundary for Tabular Prediction

May 28

ByShu Wan, Abhinav Gorantla, Huan Liu, K. Selçuk Candan

Dans le cadre des hypothèses graphiques standard, la frontière de Markov d'une variable cible est le plus petit ensemble de caractéristiques qui rend chaque autre caractéristique redondante. Une fois cette frontière observée, la cible est conditionnellement indépendante du reste du tableau. Cet objet est séduisant pour la prédiction tabulaire, car il désigne exactement les colonnes dont un modèle devrait avoir besoin. Pourtant, les régresseurs modernes sont encore entraînés sur l'ensemble complet des caractéristiques. Nous nous demandons si la frontière de Markov est réellement utile pour la prédiction sur SCM3K, un benchmark synthétique de 3 450 tâches issues de modèles causaux structuraux (SCM) comprenant entre 40 et 1 000 caractéristiques et six familles de SCM, évalué avec six régresseurs. La réponse est plus nuancée que ne le suggère la théorie. Restreindre un régresseur à la frontière oracle améliore souvent considérablement la prédiction, et cette amélioration croît à mesure que l'espace des caractéristiques devient plus vaste et plus épars. Mais la procédure naturelle consistant à retrouver la frontière par découverte causale, puis à entraîner le modèle sur le masque ainsi obtenu, n'est pas concluante. Les estimateurs existants épuisent le budget de calcul avant d'atteindre le régime où la frontière est la plus utile, et même lorsqu'ils y parviennent, ils surpassent rarement l'ensemble complet des caractéristiques. Nous attribuons cela à trois causes. La découverte optimise la récupération structurelle plutôt que la prédiction. Les faux négatifs et les faux positifs ont un coût prédictif fortement asymétrique. La frontière exacte n'est qu'un des nombreux ensembles de caractéristiques qui battent l'ensemble complet. Nous développons ensuite ce que ces faits impliquent pour la sélection de caractéristiques alignée sur la prédiction et pour les modèles tabulaires qui apprennent à utiliser la structure causale.

Un clic par type de cellule suffit : Interaction de groupe sans entraînement pour la segmentation d'instances cellulaires
One Click per Cell Type Suffices: Training-free Group Interaction for Cell Instance Segmentation

May 28

BySanghyun Jo, Seo Jin Lee, Seohyung Hong, Yoorim Gang, Hyeongsub Kim, Hyungseok Seo, Kyungsu Kim

Les modèles de segmentation d'instances cellulaires entraînés sur des jeux de données spécifiques subissent des baisses de performance sévères sur des types de cellules hors distribution, tandis que les modèles fondamentaux interactifs surmontent ce problème par une sollicitation par instance, à un coût prohibitif pour les images histopathologiques contenant des centaines voire des milliers d'instances densément regroupées. Nous introduisons le Prompting de Groupe, un nouveau paradigme qui fait passer la segmentation interactive de O(N) par instance à O(T) par type, où un seul clic par type de cellule suffit pour segmenter toutes les instances de ce type. Notre observation clé est que l'encodeur d'images figé du Segment Anything Model (SAM) regroupe déjà les cellules du même type dans son espace de caractéristiques avant même qu'un prompt ne soit donné. Exploitant cette propriété, nous proposons Chain-of-Prompts (CoP), un cadre sans entraînement qui étend récursivement un seul clic utilisateur en (1) identifiant des emplacements fiables du même type via un filtrage non paramétrique des caractéristiques multi-échelles de l'encodeur, et (2) sélectionnant le point fiable spatialement le plus distant comme prochain prompt afin de maximiser la couverture. Sur trois jeux de données de référence annotés par type de cellule, CoP avec un clic par type conserve plus de 90 % de la performance par instance et surpasse les méthodes entièrement supervisées sans aucun entraînement supplémentaire. Sur quatre jeux de données de référence morphologiquement homogènes, un seul clic conserve plus de 99 %. Page du projet : https://shjo-april.github.io/Chain-of-Prompts/

Interaction légère : Accélération de l'inférence sans entraînement pour les modèles de monde vidéo interactifs
Light Interaction: Training-Free Inference Acceleration for Interactive Video World Models

May 29

ByJiacheng Lu, Haoyi Zhu, Sipei Yi, Enze Xie, Yu Li, Cheng Zhuo

Les modèles de monde vidéo interactifs génèrent des segments vidéo successifs en réponse aux mouvements de caméra contrôlés par l'utilisateur, permettant des applications telles que la simulation de jeu en temps réel, la navigation dans des scènes virtuelles et l'entraînement de l'IA incarnée. Cependant, le passage à l'échelle vers de longues trajectoires interactives est prohibitivement coûteux en raison de la mémoire de contexte croissante, de la complexité d'attention quadratique et des étapes de débruitage répétées. Nous présentons Light Interaction, un cadre d'accélération d'inférence sans entraînement pour les modèles de monde vidéo interactifs. Notre idée clé est que l'interaction permet naturellement un calcul adaptatif dépendant de la trajectoire : la mémoire spatiale récupérée peut être abandonnée lors de nouvelles explorations, le contexte temporel peut être ajusté en fonction des dynamiques latentes locales, et les sorties du modèle aux premières étapes peuvent être réutilisées lorsque la caméra revisite des régions familières. Sur la base de cette idée, Light Interaction combine une gestion adaptative du contexte, une accélération du cache de débruitage, et une attention creuse par blocs 3D co-conçue matériel-logiciel avec des noyaux Triton fusionnés. Évalué sur HY-WorldPlay et Matrix-Game-3.0, Light Interaction atteint une accélération jusqu'à 2,59 fois sans réentraînement du modèle, tout en maintenant une qualité visuelle compétitive.

Évaluation comparative de la recherche d'images composées pour l'observation de la Terre appliquée
Benchmarking Composed Image Retrieval for Applied Earth Observation

May 23

ByBill Psomas, Dionysis Christopoulos, Thanasis Petropoulos, Nikos Efthymiadis, Ioannis Kakogeorgiou, Ondřej Chum, Yannis Avrithis, Giorgos Tolias, Konstantinos Karantzalos

La recherche d'images composées en télédétection (RSCIR) permet d'effectuer des recherches dans de vastes archives d'images satellite à l'aide de requêtes composées, combinant une image de référence avec un modificateur textuel. Bien que la RSCIR offre une interface flexible pour exprimer une intention de recherche ciblée, la transférabilité des méthodes de composition modernes aux images d'observation de la Terre (EO) et leur pertinence pour les flux de travail opérationnels en EO restent peu explorées. Nous comblons cette lacune grâce à un banc d'essai unifié et à une étude orientée applications. Tout d'abord, nous adaptons et évaluons systématiquement des méthodes représentatives de recherche d'images composées avec six architectures vision-langage sur PatternCom, selon un protocole standardisé, en analysant leur comportement à travers les architectures, les stratégies de composition et les types de requêtes. Ensuite, nous introduisons xView2-CIR, un ensemble de données centré sur les changements pour la surveillance des catastrophes et des dommages, où la recherche est conditionnée par l'identité de la scène et un état post-événement cible. Nos résultats montrent que les méthodes de composition sans entraînement fournissent des références solides et évolutives pour la recherche en EO, tandis que la recherche centrée sur les changements présente des défis différents de ceux de la recherche basée sur les attributs, notamment en raison de la nécessité de préserver l'identité de la scène. Globalement, cette étude établit un banc d'essai pratique pour la RSCIR et positionne la recherche composée comme un outil complémentaire pour la recherche d'images de télédétection, l'exploration d'archives et l'analyse des changements. L'ensemble de données et le code sont disponibles à l'adresse https://github.com/billpsomas/rscir.

AnyMo : Mise à l'échelle de la génération de mouvement conditionnelle pour toute modalité avec modélisation masquée
AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

May 28

ByYiheng Li, Zhuo Li, Ruibing Hou, Yingjie Chen, Hong Chang, Hao Liu, Shiguang Shan

La génération conditionnelle de mouvements humains reste un défi fondamental en vision par ordinateur et en robotique. Malgré des progrès significatifs, les méthodes actuelles sont souvent contraintes par des configurations de modalité fixes et des architectures spécifiques à une tâche, laissant largement inexplorées les interactions intermodales et les lois d'échelle de la synthèse conditionnée par modalités multiples. Un goulet d'étranglement clé est la rareté de données de mouvement alignées sur plusieurs modalités à grande échelle, ce qui limite la généralisation à travers divers signaux de contrôle. Dans ce travail, nous introduisons OmniHuMo, un jeu de données à grande échelle et de haute qualité comprenant plus de 5 000 heures de mouvement et 3,2 millions de séquences avec des annotations multimodales précisément alignées (par exemple, texte, parole, musique et trajectoire). En exploitant OmniHuMo, nous proposons AnyMo, un cadre multimodal unifié combinant un tokenizer de mouvement basé sur FSQ résiduel avec un transformateur de modélisation masquée scalable, permettant une synthèse de mouvement de haute qualité sous des combinaisons arbitraires de modalités. Des expériences approfondies montrent qu'AnyMo atteint une synthèse haute-fidélité tout en offrant un contrôle flexible sur les attributs à la fois spatiaux et stylistiques.

Un cadre de transfert spatio-temporel conscient de la topologie pour le suivi continu de multiples UAV
A Topology-Aware Spatiotemporal Handover Framework for Continuous Multi-UAV Tracking

May 15

ByJianlin Ye, Christos Kyrkou, Panayiotis Kolios

L'intégration de véhicules aériens sans pilote (UAV) dans les systèmes de transport intelligents (ITS) offre une visibilité synoptique pour la surveillance du trafic, mais leur déploiement à grande échelle est entravé par la fragmentation des trajectoires, où la persistance de l'identité des véhicules est perdue à travers les champs de vision (FOV) multi-UAV. Bien que les cadres de pointe excellent dans l'optimisation de l'extraction locale des trajectoires et de la stabilité pour l'imagerie de drones uniques, ils fonctionnent souvent comme des silos de données isolés qui génèrent des trajectoires disjointes, empêchant ainsi l'analyse au niveau du réseau, telle que l'estimation origine-destination. Cet article présente un système de suivi multi-caméras et multi-véhicules (MCMT) en temps réel, conçu pour assurer la persistance globale de l'identité. Pour remédier à l'ambiguïté visuelle et au coût de calcul de la ré-identification (Re-ID) basée sur l'apparence dans les vues zénithales, nous introduisons un mécanisme léger de transfert spatiotemporel basé sur la topologie. Nous mettons en œuvre un pipeline parallèle à haut débit utilisant YOLO11 et ByteTrack pour traiter des flux 4K simultanés. Notre contribution principale est un algorithme d'appariement déterministe basé sur des files d'attente, qui exploite les chevauchements géométriques et la discrétisation virtuelle des voies pour gérer de manière prédictive le transfert d'identité via des files FIFO. Les résultats expérimentaux sur des environnements urbains complexes, y compris des intersections et des flux de trafic en convergence, démontrent un taux de réussite de transfert (HOSR) de 99,8 % dans les flux de trafic continus, surpassant significativement les bases de référence de Re-ID (74,1 %) tout en validant la faisabilité d'un déploiement en périphérie. Le code source est disponible à l'adresse https://github.com/JYe9/multi-camera-multi-vehicle-tracking-system.

Limité par la mémoire mais pas par la bande passante : l'écart d'inférence IA physique dans le décodage batch-1 de LLM
Memory-Bound but Not Bandwidth-Limited: The Physical AI Inference Gap in Batch-1 LLM Decode

May 28

ByJosef Chen

Les systèmes d'IA physique, incluant les robots, les véhicules autonomes, les agents incarnés et les copilotes embarqués, exécutent souvent une charge de travail d'inférence différente de celle du service LLM dans le cloud : un décodage autorégressif à flux unique et batch-1, où un robot, un flux de caméra ou une session utilisateur attend le jeton suivant. Cette charge de travail est généralement décrite comme étant limitée par la bande passante mémoire. Chaque étape de décodage diffuse les poids du modèle et le cache KV actif, de sorte que la latence devrait évoluer en fonction de la bande passante HBM de pointe. Nous montrons que cette explication est vraie mais incomplète. Nous mesurons le décodage batch-1 pour trois transformateurs GQA de classe 7 à 8B sur quatre GPU NVIDIA : H100 SXM5, A100-80GB SXM4, L40S et L4. Nous évaluons des longueurs de contexte de 2048 à 16384, produisant 44 cellules valides dans une configuration SDPA bf16 contrôlée. La fraction atteinte de la bande passante HBM de pointe diminue à mesure que la bande passante de pointe augmente. Sur la cellule phare Qwen-2.5-7B ctx=2048, un L4 atteint environ 81 % de son plancher mémoire analytique, tandis qu'un H100 n'atteint que 27 %. Le décodage d'IA physique est dominé par la mémoire, mais une mémoire plus rapide ne se traduit pas par des gains de latence proportionnels. Nous testons le terme manquant avec une expérience A/B avec CUDA Graphs. Sur H100 à ctx=2048, CUDA Graphs améliore la latence de décodage de 1,259× sur N=10 sessions fraîches, avec un intervalle de confiance bootstrap de 95 % de 1,253 à 1,267. Sur L4, la même intervention ne donne que 1,028×. Cela isole une surcharge côté lancement qui devient visible sur les GPU rapides mais reste en grande partie cachée sur les GPU plus lents et limités par la bande passante. L'implication pour le déploiement est que les économies de mémoire ne comptent que lorsque l'exécution les réalise. Sur L4, le décodage bf16 se situe près du plancher mémoire, mais les chemins quantifiés courants ne récupèrent pas la réduction attendue de 4× du trafic de poids : bnb-nf4 atteint 59,36 ms/étape et AutoAWQ+Marlin atteint 45,24 ms/étape par rapport à une référence bf16 de 62,32 ms. GPTQ+ExLlamaV2, avec des noyaux int4 ajustés pour Ada, atteint 17,36 ms/étape.

Assignation de crédit de token de guidage contrastif pour l'optimisation de politique discrète
Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization

May 29

ByShufan Li, Konstantinos Kallidromitis, Akash Gokul, Yuta Kyuragi, Aditya Grover

Les méthodes d’apprentissage par renforcement basées sur l’avantage de groupe, telles que GRPO et DAPO, ont démontré d’excellentes performances dans divers domaines, notamment le raisonnement mathématique et la génération d’images à partir de texte. Cependant, leur dépendance à des récompenses au niveau des échantillons introduit une limitation majeure : une attribution uniforme du crédit à tous les jetons ne parvient pas à capturer les contributions fines au niveau des jetons individuels. Pour remédier à ce problème, nous proposons Guidance Contrastive Policy Optimization (GCPO), un nouvel algorithme qui permet une attribution de crédit par jeton en contrastant les prédictions du modèle sous des prompts positifs et négatifs. Au lieu de diffuser uniformément les avantages au niveau des échantillons, GCPO attribue des avantages au niveau des jetons proportionnellement à la différence entre ces prédictions contrastives, fournissant ainsi des signaux d’apprentissage plus précis et plus informatifs. Empiriquement, nous observons que GCPO met l’accent sur les régions sémantiquement pertinentes, telles que les zones visuelles alignées avec les prompts textuels en génération d’images à partir de texte, ainsi que sur les mots-clés critiques dans les traces de raisonnement pour les tâches de chaîne de pensée. À travers des expériences approfondies, GCPO surpasse systématiquement les bases GRPO et DAPO tant sur les benchmarks de génération d’images à partir de texte que sur ceux de raisonnement en chaîne de pensée, démontrant ainsi son efficacité en tant que stratégie d’optimisation générale et évolutive pour l’apprentissage de politiques discrètes.

Au-delà du rappel : la spécification comportementale comme couche interprétative pour la personnalisation de l'IA
Beyond Recall: Behavioral Specification as an Interpretive Layer for AI Personalization

May 27

ByAarik Gulaya

Si un agent d’IA prend des décisions pour le compte d’une personne, ces décisions doivent s’aligner sur celle-ci. Nous introduisons la précision représentationnelle pour mesurer la fidélité avec laquelle un système capture l’interprétation d’une personne. Une couche interprétative est opérationnalisée sous la forme d’une Spécification Comportementale. Notre implémentation de référence comprime de manière agressive les données d’une personne en motifs interprétatifs, servis comme contexte à un modèle de langage. Nous évaluons la Spécification sur un prototype de référence composé de prédictions comportementales hors échantillon, notées par un panel calibré de 5 modèles de langage juges. Nous la testons de manière indépendante et en composition avec une gamme de conditions contextuelles : corpus brut intégral, faits extraits intégraux, et quatre systèmes de mémoire commerciaux (Mem0, Letta, Supermemory, Zep). Sur 14 corpus autobiographiques issus du domaine public, la Spécification améliore la précision représentationnelle de manière agrégée et élimine presque totalement la prudence du modèle. Elle récupère la majeure partie de ce que livre le corpus brut, pour un coût contextuel environ 25 fois moindre. La Spécification élève les sujets vers un niveau prédictif commun, indépendamment de la base de pré-entraînement ; le gain en points absolus est donc le plus important là où la base est la plus faible, ce qui suggère que la population concernée est toute personne insuffisamment représentée dans le pré-entraînement. Le gain est maximal sur les questions nécessitant une interprétation, où la fourniture d’une couche interprétative permet un comportement du modèle que les faits extraits ou le corpus brut ne suscitent pas. Inversement, sur les questions nécessitant un rappel, cette couche peut interférer plutôt qu’aider. Nous concluons que la précision représentationnelle est distincte du rappel et que l’alignement humain-IA dépend de la précision avec laquelle l’utilisateur est représenté. La précision représentationnelle rend cet alignement testable.

Diffusion d'actions guidée par la fréquence via la traversée de variété sous-fréquentielle
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal

May 27

ByJunlin Wang

L'apprentissage de politiques visuomotrices par clonage de comportement implique généralement l'imitation de démonstrations d'experts collectées par des opérateurs humains. Cependant, les démonstrations humaines naturelles contiennent intrinsèquement un bruit haute fréquence, tel que des à-coups intermittents, des pauses et une gigue d'action. Entraîner des politiques à imiter directement ces trajectoires brutes conduit inévitablement le modèle à hériter de ces comportements sous-optimaux. Cette pathologie est particulièrement prononcée dans les politiques basées sur la diffusion, où les étapes de débruitage itératif peuvent amplifier par inadvertance les artefacts haute fréquence au détriment des détails fins significatifs. Pour palier ces limitations, nous présentons un nouvel algorithme basé sur la fréquence qui permet une manœuvre spectrale implicite et une génération d'actions lisses. Notre méthode, l'Opérateur de Guidage Fréquentiel (FGO), oriente le processus de génération des politiques de diffusion en conduisant progressivement les échantillons bruités à travers des variétés de sous-fréquences intermédiaires avec des bandes spectrales en expansion. Validée sur 15 tâches de manipulation robotique issues de 5 référentiels, FGO atteint des performances supérieures pour améliorer la fluidité des actions et la cohérence temporelle tout en préservant les détails nécessaires à l'exécution réussie des tâches. Site web du projet : https://henrywjl.github.io/frequency-guidance-operator/

Au-delà des modèles holistiques : Évaluation comparative systématique au niveau des composants de la prévision de séries temporelles multivariées profondes
Beyond Holistic Models: Systematic Component-level Benchmarking of Deep Multivariate Time-Series Forecasting

May 26

ByShuang Liang, Chaochuan Hou, Xu Yao, Shiping Wang, Hailiang Huang, Songqiao Han, Minqi Jiang

Alors que les recherches antérieures sur la prévision de séries temporelles multivariées se sont concentrées sur le développement de modèles holistiques complexes, ce travail prône un changement vers une compréhension granulaire, au niveau des composants, de leurs impacts. Nous proposons TSCOMP, le premier benchmark à grande échelle qui déconstruit systématiquement les méthodes de prévision profondes en leurs composants fondamentaux et fins — couvrant le prétraitement des séries, les stratégies d’encodage, les architectures de réseau incluant des modèles de séries temporelles spécifiques et de grande taille, ainsi que les méthodes d’optimisation. En utilisant une conception expérimentale orthogonale contrainte et des évaluations approfondies, nous menons des analyses multi-vues qui révèlent l’efficacité des composants à travers différents fondements, caractéristiques des données et leurs interactions. Au-delà d’apporter des perspectives, ce benchmark établit un corpus de performance fin comprenant plus de 20 000 évaluations modèle-ensemble de données, ce qui soutient l’apprentissage de la sélection automatisée de composants, permettant la construction de modèles zero-shot sur de nouveaux ensembles de données. Nos expériences démontrent que l’approche basée sur le corpus, malgré sa simplicité, surpasse systématiquement les méthodes de pointe, validant la robustesse de notre conception d’évaluation et confirmant que la sélection systématique des composants dépasse les architectures complexes conçues manuellement. Tout le code et le corpus de performance sont disponibles publiquement à l’adresse https://github.com/SUFE-AILAB/TSCOMP.