ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

1

Seedance 2.0 : Faire progresser la génération vidéo face à la complexité du monde
Seedance 2.0: Advancing Video Generation for World Complexity

Apr 15
ByTeam Seedance, De Chen, Liyang Chen, Xin Chen, Ying Chen, Zhuo Chen, Zhuowei Chen, Feng Cheng, Tianheng Cheng, Yufeng Cheng, Mojie Chi, Xuyan Chi, Jian Cong, Qinpeng Cui, Fei Ding, Qide Dong, Yujiao Du, Haojie Duanmu, Junliang Fan, Jiarui Fang, Jing Fang, Zetao Fang, Chengjian Feng, Yu Gao, Diandian Gu, Dong Guo, Hanzhong Guo, Qiushan Guo, Boyang Hao, Hongxiang Hao, Haoxun He, Jiaao He, Qian He, Tuyen Hoang, Heng Hu, Ruoqing Hu, Yuxiang Hu, Jiancheng Huang, Weilin Huang, Zhaoyang Huang, Zhongyi Huang, Jishuo Jin, Ming Jing, Ashley Kim, Shanshan Lao, Yichong Leng, Bingchuan Li, Gen Li, Haifeng Li, Huixia Li, Jiashi Li, Ming Li, Xiaojie Li, Xingxing Li, Yameng Li, Yiying Li, Yu Li, Yueyan Li, Chao Liang, Han Liang, Jianzhong Liang, Ying Liang, Wang Liao, J. H. Lien, Shanchuan Lin, Xi Lin, Feng Ling, Yue Ling, Fangfang Liu, Jiawei Liu, Jihao Liu, Jingtuo Liu, Shu Liu, Sichao Liu, Wei Liu, Xue Liu, Zuxi Liu, Ruijie Lu, Lecheng Lyu, Jingting Ma, Tianxiang Ma, Xiaonan Nie, Jingzhe Ning, Junjie Pan, Xitong Pan, Ronggui Peng, Xueqiong Qu, Yuxi Ren, Yuchen Shen, Guang Shi, Lei Shi, Yinglong Song, Fan Sun, Li Sun, Renfei Sun, Wenjing Tang, Boyang Tao, Zirui Tao, Dongliang Wang, Feng Wang, Hulin Wang, Ke Wang, Qingyi Wang, Rui Wang, Shuai Wang, Shulei Wang, Weichen Wang, Xuanda Wang, Yanhui Wang, Yue Wang, Yuping Wang, Yuxuan Wang, Zijie Wang, Ziyu Wang, Guoqiang Wei, Meng Wei, Di Wu, Guohong Wu, Hanjie Wu, Huachao Wu, Jian Wu, Jie Wu, Ruolan Wu, Shaojin Wu, Xiaohu Wu, Xinglong Wu, Yonghui Wu, Ruiqi Xia, Xin Xia, Xuefeng Xiao, Shuang Xu, Bangbang Yang, Jiaqi Yang, Runkai Yang, Tao Yang, Yihang Yang, Zhixian Yang, Ziyan Yang, Fulong Ye, Bingqian Yi, Xing Yin, Yongbin You, Linxiao Yuan, Weihong Zeng, Xuejiao Zeng, Yan Zeng, Siyu Zhai, Zhonghua Zhai, Bowen Zhang, Chenlin Zhang, Heng Zhang, Jun Zhang, Manlin Zhang, Peiyuan Zhang, Shuo Zhang, Xiaohe Zhang, Xiaoying Zhang, Xinyan Zhang, Xinyi Zhang, Yichi Zhang, Zixiang Zhang, Haiyu Zhao, Huating Zhao, Liming Zhao, Yian Zhao, Guangcong Zheng, Jianbin Zheng, Xiaozheng Zheng, Zerong Zheng, Kuan Zhu, Feilong Zuo
110
5

Seedance 2.0 est un nouveau modèle natif de génération multimodale audio-vidéo, officiellement publié en Chine début février 2026. Comparé à ses prédécesseurs Seedance 1.0 et 1.5 Pro, Seedance 2.0 adopte une architecture unifiée, hautement efficace et à grande échelle pour la génération conjointe audio-vidéo multimodale. Cela lui permet de prendre en charge quatre modalités d'entrée : texte, image, audio et vidéo, en intégrant l'une des suites les plus complètes à ce jour de fonctionnalités de référencement et d'édition de contenu multimodal disponibles dans l'industrie. Il offre des améliorations substantielles et équilibrées dans toutes les sous-dimensions clés de la génération vidéo et audio. Lors des évaluations d'experts et des tests utilisateurs publics, le modèle a démontré des performances équivalentes aux niveaux leaders dans le domaine. Seedance 2.0 prend en charge la génération directe de contenu audio-vidéo d'une durée de 4 à 15 secondes, avec des résolutions de sortie natives de 480p et 720p. Pour les entrées multimodales comme référence, sa plateforme ouverte actuelle prend en charge jusqu'à 3 clips vidéo, 9 images et 3 clips audio. De plus, nous proposons la version Seedance 2.0 Fast, une variante accélérée de Seedance 2.0 conçue pour augmenter la vitesse de génération dans les scénarios à faible latence. Seedance 2.0 a apporté des améliorations significatives à ses capacités de génération fondamentales et à ses performances de génération multimodale, offrant ainsi une expérience créative améliorée pour les utilisateurs finaux.

2

GameWorld : Vers une évaluation standardisée et vérifiable des agents de jeu multimodaux
GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Apr 8
ByMingyu Ouyang, Siyuan Hu, Kevin Qinghong Lin, Hwee Tou Ng, Mike Zheng Shou
105
3

Vers un agent généraliste incarné pour l'interaction en monde réel, les modèles de langage multimodaux (MLLM) souffrent encore de latence problématique, de retours d'information sporadiques et d'erreurs irréversibles. Les jeux vidéo constituent un banc d'essai idéal avec des observations visuelles riches et une interaction en boucle fermée, exigeant une perception fine, une planification à long terme et un contrôle précis. Cependant, l'évaluation systématique de ces capacités est actuellement entravée par des interfaces d'action hétérogènes et une vérification heuristique. Pour pallier cela, nous présentons GameWorld, un benchmark conçu pour l'évaluation standardisée et vérifiable des MLLMs en tant qu'agents généralistes dans des environnements de navigateur. Deux interfaces d'agents sont étudiées : (i) les agents d'utilisation informatique qui émettent directement des contrôles clavier/souris, et (ii) les agents multimodaux généralistes qui agissent dans un espace d'action sémantique via un Analyseur d'Actions Sémantiques déterministe. GameWorld contient 34 jeux variés et 170 tâches, chacune associée à des métriques vérifiables par l'état pour une évaluation basée sur les résultats. Les résultats obtenus sur 18 paires modèle-interface suggèrent que même l'agent le plus performant est loin d'égaler les capacités humaines dans les jeux vidéo. Des expériences approfondies avec des réexécutions complètes du benchmark démontrent la robustesse de ce dernier, tandis que des études complémentaires sur l'interaction en temps réel, la sensibilité à la mémoire contextuelle et la validité des actions révèlent d'autres défis pour les agents de jeu. En offrant un cadre d'évaluation standardisé, vérifiable et reproductible, GameWorld pose une base solide pour faire progresser la recherche sur les agents de jeu multimodaux et au-delà. La page du projet est disponible à l'adresse https://gameworld-bench.github.io.

3

RationalRewards : Les récompenses de raisonnement échelonnent la génération visuelle pendant l'entraînement et au moment du test
RationalRewards: Reasoning Rewards Scale Visual Generation Both Training and Test Time

Apr 13
ByHaozhe Wang, Cong Wei, Weiming Ren, Jiaming Liu, Fangzhen Lin, Wenhu Chen
95
2

La plupart des modèles de récompense pour la génération visuelle réduisent les jugements humains complexes à un score unique inexpliqué, écartant le raisonnement sous-jacent aux préférences. Nous démontrons qu’apprendre aux modèles de récompense à produire des critiques explicites et multidimensionnelles avant d’attribuer un score les transforme d’évaluateurs passifs en outils d’optimisation actifs, améliorant les générateurs de deux manières complémentaires : pendant l’entraînement, les justifications structurées fournissent des récompenses interprétables et granulaires pour l’apprentissage par renforcement ; lors des tests, une boucle Générer-Critiquer-Raffiner transforme les critiques en révisions ciblées des prompts qui améliorent les résultats sans mise à jour des paramètres. Pour entraîner un tel modèle de récompense sans annotations coûteuses de justifications, nous introduisons la Rationalisation Ancrée sur les Préférences (PARROT), un cadre principermé qui récupère des justifications de haute qualité à partir de données de préférence facilement disponibles via une génération ancrée, un filtrage de cohérence et une distillation. Le modèle résultant, RationalRewards (8B), atteint des performances de pointe en prédiction de préférences parmi les modèles de récompense open-source, rivalisant avec Gemini-2.5-Pro, tout en utilisant 10 à 20 fois moins de données d’entraînement que les modèles de référence comparables. En tant que récompense pour l’apprentissage par renforcement, il améliore constamment les générateurs texte-image et de retouche d’image au-delà des alternatives scalaires. Plus frappant encore, sa boucle de critique et de raffinement lors des tests égale ou dépasse le fine-tuning par apprentissage par renforcement sur plusieurs benchmarks, suggérant que le raisonnement structuré peut libérer des capacités latentes dans les générateurs existants que des prompts sous-optimaux ne parviennent pas à solliciter.

4

SpatialEvo : Intelligence spatiale auto-évolutive via des environnements géométriques déterministes
SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments

Apr 15
ByDinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
60
0

Le raisonnement spatial sur des scènes tridimensionnelles est une capacité fondamentale pour l'intelligence incarnée, mais l'amélioration continue des modèles reste limitée par le coût de l'annotation géométrique. Le paradigme d'auto-évolution offre une voie prometteuse, mais sa dépendance au consensus du modèle pour construire des pseudo-étiquettes entraîne un renforcement plutôt qu'une correction des erreurs géométriques du modèle. Nous identifions une propriété unique au raisonnement spatial 3D qui contourne cette limitation : la vérité terrain est une conséquence déterministe de la géométrie sous-jacente, calculable exactement à partir de nuages de points et de poses de caméra sans aucune intervention du modèle. Forts de cette intuition, nous présentons SpatialEvo, un cadre d'auto-évolution pour le raisonnement spatial 3D, centré sur l'Environnement Géométrique Déterministe (EGD). L'EGD formalise 16 catégories de tâches de raisonnement spatial sous des règles de validation géométrique explicites et convertit des scènes 3D non annotées en oracles interactifs sans bruit, remplaçant le consensus du modèle par un retour d'information physique objectif. Une politique unique à paramètres partagés co-évolue entre les rôles de questionneur et de solveur sous les contraintes de l'EGD : le questionneur génère des questions spatiales physiquement valides ancrées dans les observations de la scène, tandis que le solveur déduit des réponses précises par rapport à la vérité terrain vérifiée par l'EGD. Un planificateur adaptatif aux tâches concentre endogènement l'entraînement sur les catégories les plus faibles du modèle, produisant un curriculum dynamique sans conception manuelle. Les expériences sur neuf benchmarks démontrent que SpatialEvo atteint le score moyen le plus élevé aux échelles 3B et 7B, avec des gains constants sur les benchmarks de raisonnement spatial et sans dégradation sur la compréhension visuelle générale.

5

OccuBench : Évaluation des agents d'IA sur des tâches professionnelles réelles via des modèles de monde linguistique
OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language World Models

Apr 13
ByXiaomeng Hu, Yinger Zhang, Fei Huang, Jianhong Tu, Yang Su, Lianghao Deng, Yuxuan Liu, Yantao Liu, Dayiheng Liu, Tsung-Yi Ho
46
1

On s'attend à ce que les agents IA effectuent des travaux professionnels dans des centaines de domaines professionnels (du triage aux urgences à la surveillance de la sécurité des réacteurs nucléaires en passant par le traitement des importations douanières), pourtant les benchmarks existants ne peuvent évaluer les agents que dans les quelques domaines où des environnements publics existent. Nous présentons OccuBench, un benchmark couvrant 100 scénarios de tâches professionnelles réelles répartis dans 10 catégories industrielles et 65 domaines spécialisés, rendu possible par les Modèles de Monde Langagier (LWM) qui simulent des environnements spécifiques à un domaine via la génération de réponses d'outils pilotée par LLM. Notre pipeline de synthèse multi-agents produit automatiquement des instances d'évaluation avec une solvabilité garantie, une difficulté calibrée et une diversité ancrée dans des documents. OccuBench évalue les agents selon deux dimensions complémentaires : l'exécution des tâches à travers les domaines professionnels et la robustesse environnementale sous injection contrôlée de fautes (erreurs explicites, dégradation implicite des données et fautes mixtes). Nous évaluons 15 modèles de pointe issus de 8 familles de modèles et constatons que : (1) aucun modèle unique ne domine toutes les industries, chacun ayant un profil de compétence professionnelle distinct ; (2) les fautes implicites (données tronquées, champs manquants) sont plus difficiles que les erreurs explicites (timeouts, erreurs 500) et les fautes mixtes, car elles manquent de signaux d'erreur évidents et exigent que l'agent détecte indépendamment la dégradation des données ; (3) les modèles plus grands, les générations plus récentes et un effort de raisonnement plus élevé améliorent systématiquement les performances. GPT-5.2 s'améliore de 27,5 points entre un effort de raisonnement minimal et maximal ; et (4) les agents performants ne sont pas nécessairement de bons simulateurs d'environnement. La qualité du simulateur est cruciale pour la fiabilité de l'évaluation basée sur les LWM. OccuBench fournit la première évaluation systématique intersectorielle des agents IA sur des tâches professionnelles.

6

De P(y|x) à P(y) : Exploration de l'apprentissage par renforcement dans l'espace de pré-entraînement
From P(y|x) to P(y): Investigating Reinforcement Learning in Pre-train Space

Apr 15
ByYuqiao Tan, Minzheng Wang, Bo Liu, Zichen Liu, Tian Liang, Shizhu He, Jun Zhao, Kang Liu
23
1

Bien que l'apprentissage par renforcement avec récompenses vérifiables (RLVR) améliore significativement le raisonnement des LLM en optimisant la distribution conditionnelle P(y|x), son potentiel est fondamentalement limité par la distribution de sortie existante du modèle de base. L'optimisation de la distribution marginale P(y) dans l'Espace de Pré-entraînement résout ce goulot d'étranglement en encodant la capacité de raisonnement et en préservant une large capacité d'exploration. Pourtant, le pré-entraînement conventionnel repose sur des corpus statiques pour un apprentissage passif, conduisant à un décalage de distribution qui entrave l'amélioration ciblée du raisonnement. Dans cet article, nous introduisons PreRL (Pre-train Space RL), qui applique des mises à jour en ligne guidées par la récompense directement à P(y). Nous validons théoriquement et empiriquement le fort alignement des gradients entre log P(y) et log P(y|x), établissant PreRL comme un substitut viable au RL standard. De plus, nous découvrons un mécanisme critique : le Renforcement par Échantillons Négatifs (NSR) au sein de PreRL agit comme un moteur exceptionnellement efficace pour le raisonnement. NSR-PreRL élimine rapidement les espaces de raisonnement incorrects tout en stimulant des comportements réflexifs endogènes, augmentant respectivement les pensées de transition et de réflexion de 14,89x et 6,54x. En tirant parti de ces insights, nous proposons le Dual Space RL (DSRL), une stratégie de Réincarnation de Politique qui initialise les modèles avec NSR-PreRL pour élargir l'horizon de raisonnement avant de passer au RL standard pour une optimisation plus fine. Des expériences approfondies démontrent que DSRL surpasse constamment des bases de référence solides, prouvant que l'élagage dans l'espace de pré-entraînement oriente efficacement la politique vers un sous-espace raffiné de raisonnement correct.

7

Apprentissage par Transfert de Mémoire : Comment les Souvenirs sont Transférés entre Domaines chez les Agents de Codage
Memory Transfer Learning: How Memories are Transferred Across Domains in Coding Agents

Apr 15
ByKangsan Kim, Minki Kang, Taeil Kim, Yanlai Yang, Mengye Ren, Sung Ju Hwang
23
1

L'auto-évolution basée sur la mémoire est apparue comme un paradigme prometteur pour les agents de programmation. Cependant, les approches existantes limitent généralement l'utilisation de la mémoire à des domaines de tâches homogènes, ne parvenant pas à exploiter les fondations infrastructurelles partagées, telles que les environnements d'exécution et les langages de programmation, qui existent dans divers problèmes de programmation du monde réel. Pour remédier à cette limitation, nous étudions l'apprentissage par transfert de mémoire (MTL) en exploitant un pool de mémoire unifié provenant de domaines hétérogènes. Nous évaluons les performances sur 6 benchmarks de programmation en utilisant quatre représentations mémorielles, allant des traces concrètes aux insights abstraits. Nos expériences démontrent que la mémoire inter-domaines améliore les performances moyennes de 3,7 %, principalement en transférant des méta-connaissances, telles que des routines de validation, plutôt que du code spécifique à une tâche. Fait important, nous constatons que le niveau d'abstraction dicte la transférabilité ; les insights de haut niveau se généralisent bien, tandis que les traces de bas niveau induisent souvent un transfert négatif en raison d'une spécificité excessive. De plus, nous montrons que l'efficacité du transfert augmente avec la taille du pool de mémoire, et que la mémoire peut être transférée même entre différents modèles. Notre travail établit des principes de conception empiriques pour étendre l'utilisation de la mémoire au-delà des silos à domaine unique. Page du projet : https://memorytransfer.github.io/

8

Les erreurs d'exploration et d'exploitation sont mesurables pour les agents de modèles de langage
Exploration and Exploitation Errors Are Measurable for Language Model Agents

Apr 14
ByJaden Park, Jungtaek Kim, Jongwon Jeong, Robert D. Nowak, Kangwook Lee, Yong Jae Lee
21
2

Les agents de modèles de langage (LM) sont de plus en plus utilisés dans des tâches de prise de décision complexes et ouvertes, allant du codage IA à l'IA physique. Une exigence fondamentale dans ces contextes est la capacité à explorer l'espace problématique et à exploiter efficacement les connaissances acquises. Cependant, il reste difficile de distinguer systématiquement et de quantifier l'exploration et l'exploitation à partir des actions observées sans accéder à la politique interne de l'agent. Pour résoudre ce problème, nous concevons des environnements contrôlables inspirés de scénarios pratiques d'IA incarnée. Chaque environnement se compose d'une carte en grille 2D partiellement observable et d'un graphe acyclique orienté (DAG) de tâches inconnu. La génération de cartes peut être ajustée programmatiquement pour accentuer la difficulté d'exploration ou d'exploitation. Pour permettre une évaluation indépendante de la politique, nous concevons une métrique pour quantifier les erreurs d'exploration et d'exploitation à partir des actions de l'agent. Nous évaluons une variété d'agents LM de pointe et constatons que même les modèles les plus avancés éprouvent des difficultés sur notre tâche, différents modèles présentant des modes d'échec distincts. Nous observons en outre que les modèles de raisonnement résolvent la tâche plus efficacement et montrons que l'exploration et l'exploitation peuvent être considérablement améliorées par une ingénierie de harnais minimale. Nous publions notre code https://github.com/jjj-madison/measurable-explore-exploit{ici}.

9

Optimisation de la Politique Cible
Target Policy Optimization

Apr 7
ByJean Kaddour
19
1

En apprentissage par renforcement (RL), étant donné une invite, nous échantillonnons un ensemble de complétions à partir d'un modèle et les notons. Deux questions se posent : quelles complétions devraient gagner en masse de probabilité, et comment les paramètres doivent-ils se déplacer pour réaliser ce changement ? Les méthodes standards de type "policy gradient" répondent aux deux questions simultanément, de sorte que la mise à jour peut dépasser ou ne pas atteindre l'objectif selon le taux d'apprentissage, l'écrêtage et d'autres choix d'optimiseur. Nous présentons l'Optimisation de Politique Cible (TPO), qui sépare les deux questions. Étant donné des complétions notées, TPO construit une distribution cible q_i ∝ p_i^{,ancien} exp(u_i) et ajuste la politique à celle-ci par entropie croisée. Le gradient de la perte sur les logits des complétions échantillonnées est p^θ - q, qui s'annule une fois que la politique correspond à la cible. Sur des bandits tabulaires, des tâches de séquence avec transformeurs, et du RLVR avec des LLMs de milliards de paramètres, TTO égalise les performances de PG, PPO, GRPO et DG sur les tâches faciles et les surpasse substantiellement dans le cadre de récompenses éparses. Le code est disponible à l'adresse https://github.com/JeanKaddour/tpo.

10

Sema Code : Découpler les agents d'IA de codage en une infrastructure programmable et intégrable
Sema Code: Decoupling AI Coding Agents into Programmable, Embeddable Infrastructure

Apr 13
ByHuacan Wang, Jie Zhou, Ningyan Zhu, Shuo Zhang, Feiyu Chen, Jiarou Wu, Ge Chen, Chen Liu, Wangyi Chen, Xiaofeng Mou, Yi Xu
18
1

Les agents d'intelligence artificielle pour le codage sont devenus centraux dans les workflows des développeurs, pourtant chaque solution existante enferme ses capacités de raisonnement dans une forme de livraison spécifique, telle qu'une interface en ligne de commande, un plugin d'EDI ou une application web. Cette limitation crée des barrières systémiques lorsque les entreprises tentent de réutiliser ces capacités dans des environnements d'ingénierie hétérogènes. Pour relever ce défi, nous présentons Sema Code, un framework de codage IA ouvert construit sur le principe de l'embeddability, de la pluggability et d'une approche framework-first. Sema Code dissocie complètement le moteur de l'agent central de toutes les couches client, le publiant sous forme de bibliothèque npm autonome que n'importe quel runtime peut piloter programmativement. Autour de cette architecture, nous avons conçu huit mécanismes clés : l'isolation moteur multi-locataire, la mise en file d'attente FIFO des entrées avec reconstruction sécurisée des sessions, la compression de contexte adaptative, l'ordonnancement collaboratif multi-agents, la gestion intelligente des processus basée sur les Todo, le contrôle d'accès asynchrone à quatre niveaux, une intégration d'écosystème à trois niveaux couvrant MCP, les Compétences et les Plugins, et un framework de tâches en arrière-plan avec des privilèges d'exécution et d'observation séparés. Ces mécanismes abordent collectivement les défis d'ingénierie liés à la transformation d'un moteur d'agent complexe en un noyau partagé et programmable. Démontrant sa versatilité architecturale, le même moteur Sema Core alimente simultanément une extension VSCode et une passerelle de messagerie multi-canaux, que nous nommons SemaClaw, pour unifier les interactions avec l'agent sur des plateformes comme Telegram et Feishu. Ceux-ci représentent deux formes de produits fondamentalement différentes partageant un noyau de raisonnement identique, ne différant qu'au niveau de la couche client.

11

SemaClaw : Une étape vers des agents d'IA personnels polyvalents grâce à l'ingénierie du harnais
SemaClaw: A Step Towards General-Purpose Personal AI Agents through Harness Engineering

Apr 13
ByNingyan Zhu, Huacan Wang, Jie Zhou, Feiyu Chen, Shuo Zhang, Ge Chen, Chen Liu, Jiarou Wu, Wangyi Chen, Xiaofeng Mou, Yi Xu
15
1

L'émergence d'OpenClaw début 2026 marque le moment où des millions d'utilisateurs ont commencé à déployer des agents d'IA personnels dans leur vie quotidienne, en leur déléguant des tâches allant de la planification de voyages à la recherche en plusieurs étapes. Cette adoption à grande échelle indique que deux trajectoires de développement parallèles ont atteint un point d'inflexion. Premièrement, un changement de paradigme dans l'ingénierie de l'IA, évoluant de l'ingénierie des prompts et du contexte vers l'ingénierie du harnais - concevant l'infrastructure complète nécessaire pour transformer des agents non contraints en systèmes contrôlables, auditable et fiable pour la production. Alors que les capacités des modèles convergent, cette couche de harnais devient le principal lieu de différenciation architecturale. Deuxièmement, l'évolution de l'interaction humain-agent depuis des tâches discrètes vers une relation collaborative persistante et contextuellement consciente, qui exige une infrastructure de harnais ouverte, digne de confiance et extensible. Nous présentons SemaClaw, un framework d'application multi-agent open-source qui répond à ces changements en faisant un pas vers des agents d'IA personnels à usage général grâce à l'ingénierie du harnais. Nos contributions principales incluent une méthode d'orchestration d'équipe d'agents hybrides en deux phases basée sur des graphes orientés acycliques (DAG), un système de sécurité comportementale PermissionBridge, une architecture de gestion du contexte à trois niveaux et une compétence wiki agentielle pour la construction automatisée de bases de connaissances personnelles.

12

Géométrie libre : Raffinement de la reconstruction 3D à partir de versions plus longues d'elle-même
Free Geometry: Refining 3D Reconstruction from Longer Versions of Itself

Apr 15
ByYuhang Dai, Xingyi Yang
14
1

Les modèles de reconstruction 3D par propagation directe sont efficaces mais rigides : une fois entraînés, ils effectuent des inférences de manière zero-shot et ne peuvent pas s'adapter à la scène de test. En conséquence, les reconstructions visuellement plausibles contiennent souvent des erreurs, particulièrement sous les occlusions, les réflexions spéculaires et les indices ambigus. Pour résoudre ce problème, nous présentons Free Geometry, un cadre permettant aux modèles de reconstruction 3D par propagation directe de s'auto-évoluer au moment du test sans aucune vérité terrain 3D. Notre idée clé est que, lorsque le modèle reçoit plus de vues, il produit des reconstructions plus fiables et cohérentes entre les vues. En tirant parti de cette propriété, étant donné une séquence de test, nous masquons un sous-ensemble d'images pour construire une tâche auto-supervisée. Free Geometry impose une cohérence des caractéristiques inter-vues entre les représentations issues d'observations complètes et partielles, tout en préservant les relations par paires impliquées par les images retenues. Cette auto-supervision permet un recalibrage rapide via des mises à jour légères LoRA, prenant moins de 2 minutes par jeu de données sur un seul GPU. Notre approche améliore constamment les modèles de fond état-de-l'art, incluant Depth Anything 3 et VGGT, sur 4 bases de données de référence, produisant une amélioration moyenne de 3,73% en précision de pose caméra et de 2,88% en prédiction de carte de points. Le code est disponible à l'adresse https://github.com/hiteacherIamhumble/Free-Geometry.

13

LangFlow : La diffusion continue rivalise avec les méthodes discrètes en modélisation du langage
LangFlow: Continuous Diffusion Rivals Discrete in Language Modeling

Apr 15
ByYuxin Chen, Chumeng Liang, Hangke Sui, Ruihan Guo, Chaoran Cheng, Jiaxuan You, Ge Liu
11
1

La diffusion continue a constitué la base de la génération haute fidélité, contrôlable et à faible nombre d’étapes pour de nombreuses modalités de données telles que les images. Cependant, en modélisation du langage, les modèles de langage à diffusion continue (DLM) antérieurs restent inférieurs à leurs équivalents discrets en raison de l’espace de données sparse et du champ de conception encore peu exploré. Dans ce travail, nous comblons cet écart avec LangFlow, le premier DLM continu rivalisant avec la diffusion discrète, en connectant les DLM dans l’espace des plongements lexicaux au *Flow Matching* via la divergence de Bregman, accompagnés de trois innovations clés : (1) nous dérivons une nouvelle borne de vraisemblance négative (NLL) basée sur une EDO pour l’évaluation principlée des modèles de langage continus fondés sur les flux ; (2) nous proposons un principe d’uniformité informationnelle pour paramétrer le plan de bruit, qui motive un planificateur de bruit apprenable basé sur une distribution de Gumbel ; et (3) nous révisons les protocoles d’entraînement antérieurs en intégrant l’auto-conditionnement, car nous constatons qu’il améliore à la fois la vraisemblance et la qualité des échantillons des DLM dans l’espace des plongements, avec des effets substantiellement différents de la diffusion discrète. En combinant ces éléments, LangFlow rivalise avec les meilleurs DLM discrets à la fois en termes de perplexité (PPL) et de perplexité générative (Gen. PPL), atteignant une PPL de 30,0 sur LM1B et 24,6 sur OpenWebText. Il dépasse même les modèles autorégressifs de référence en transfert *zero-shot* sur 4 des 7 benchmarks. LangFlow fournit la première preuve claire que la diffusion continue est un paradigme prometteur pour la modélisation du langage. Page d’accueil : https://github.com/nealchen2003/LangFlow

14

ASTUCE : Importance des tokens dans la distillation en politique active
TIP: Token Importance in On-Policy Distillation

Apr 15
ByYuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang, Alborz Geramifard
10
1

La distillation de connaissances en mode « on-policy » (OPD) entraîne un étudiant sur ses propres déroulements (« rollouts ») sous la supervision au niveau des tokens d’un enseignant. Toutes les positions de token n’ont pas la même importance, mais les conceptions actuelles de l’importance des tokens sont incomplètes. Nous posons une question directe : quels tokens portent le signal d’apprentissage le plus utile dans l’OPD ? Notre réponse est que les tokens informatifs proviennent de deux régions : les positions à forte entropie de l’étudiant, et les positions à faible entropie de l’étudiant mais avec une forte divergence enseignant–étudiant, où l’étudiant est surconfiant et se trompe. Empiriquement, l’entropie de l’étudiant est un bon indicateur de premier ordre : conserver 50 % des tokens par un échantillonnage basé sur l’entropie égal ou dépasse l’entraînement sur tous les tokens tout en réduisant la mémoire maximale jusqu’à 47 %. Mais l’entropie seule néglige une deuxième région importante. Lorsque nous isolons les tokens à faible entropie et haute divergence, l’entraînement sur moins de 10 % de tous les tokens atteint presque les performances de base avec tous les tokens, montrant que les tokens surconfiants portent un signal correctif dense bien que quasi invisibles pour les règles basées uniquement sur l’entropie. Nous organisons ces résultats avec TIP (« Token Importance in on-Policy distillation »), une taxonomie à deux axes basée sur l’entropie de l’étudiant et la divergence enseignant–étudiant, et fournissons une explication théorique expliquant pourquoi l’entropie est utile mais structurellement incomplète. Cette perspective motive des règles de sélection de tokens « conscientes du type » qui combinent incertitude et désaccord. Nous validons cette vision sur trois paires enseignant–étudiant couvrant Qwen3, Llama et Qwen2.5 sur MATH-500 et AIME 2024/2025, ainsi que sur le benchmark DeepPlanning pour la planification agentique à long terme, où un entraînement Q3 uniquement sur <20 % des tokens surpasse l’OPD avec tous les tokens. Nos expériences sont implémentées en étendant le dépôt OPD https://github.com/HJSang/OPSD_OnPolicyDistillation, qui prend en charge la distillation efficace en mémoire de modèles plus grands avec des budgets GPU limités.

15

UI-Zoomer : Zoom adaptatif piloté par l'incertitude pour l'ancrage d'interface graphique
UI-Zoomer: Uncertainty-Driven Adaptive Zoom-In for GUI Grounding

Apr 15
ByFei Tang, Bofan Chen, Zhengxi Lu, Tongbo Chen, Songqin Nong, Tao Jiang, Wenhao Xu, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
9
0

La localisation d'éléments d'interface graphique (GUI grounding), qui consiste à localiser des éléments d'interface à partir de captures d'écran en réponse à des requêtes en langage naturel, reste difficile pour les petites icônes et les mises en page denses. Les méthodes de zoom au moment du test améliorent la localisation en recadrant et en réexécutant l'inférence à une résolution plus élevée, mais appliquent le recadrage uniformément à toutes les instances avec des tailles fixes, ignorant si le modèle est réellement incertain pour chaque cas. Nous proposons UI-Zoomer, un cadre de zoom adaptatif sans entraînement qui considère à la fois le déclenchement et l'échelle du zoom comme un problème de quantification de l'incertitude prédictive. Une porte de confiance fusionne le consensus spatial parmi des candidats stochastiques avec la confiance de génération au niveau des tokens pour déclencher sélectivement le zoom uniquement lorsque la localisation est incertaine. Lorsqu'il est déclenché, un module de dimensionnement de recadrage piloté par l'incertitude décompose la variance prédictive en dispersion positionnelle inter-échantillon et en étendue de boîte intra-échantillon, dérivant un rayon de recadrage par instance via la loi de la variance totale. Des expériences approfondies sur ScreenSpot-Pro, UI-Vision et ScreenSpot-v2 démontrent des améliorations constantes par rapport aux bases de référence solides sur plusieurs architectures de modèles, atteignant des gains allant jusqu'à +13,4 %, +10,3 % et +4,2 % respectivement, sans entraînement supplémentaire requis.

16

TREX : Automatisation du réglage fin des LLM via une exploration arborescente pilotée par agent
TREX: Automating LLM Fine-tuning via Agent-Driven Tree-based Exploration

Apr 15
ByZerun Ma, Guoqiang Wang, Xinchen Xie, Yicheng Chen, He Du, Bowen Li, Yanan Sun, Wenran Liu, Kai Chen, Yining Li
9
1

Si les grands modèles de langage (LLM) ont permis aux agents de recherche en IA d'accomplir des tâches scientifiques isolées, l'automatisation de workflows complexes et réalistes, tels que l'entraînement de LLM, reste un défi majeur. Dans cet article, nous présentons TREX, un système multi-agents qui automatise l'ensemble du cycle de vie de l'entraînement d'un LLM. En orchestrant la collaboration entre deux modules centraux – le Chercheur et l'Exécuteur – le système réalise de manière transparente l'analyse des besoins, la recherche documentaire et de données en domaine ouvert, la formulation de stratégies d'entraînement, la préparation de jeux de données, ainsi que l'entraînement et l'évaluation du modèle. Le processus expérimental itératif est modélisé sous forme d'arbre de recherche, permettant au système de planifier efficacement les chemins d'exploration, de réutiliser les résultats historiques et de distiller des connaissances de haut niveau à partir d'essais répétés. Pour évaluer la capacité d'automatisation de l'entraînement des LLM, nous construisons FT-Bench, un benchmark comprenant 10 tâches issues de scénarios réels, allant de l'optimisation des capacités fondamentales des modèles à l'amélioration des performances sur des tâches spécifiques à un domaine. Les résultats expérimentaux démontrent que l'agent TREX optimise systématiquement les performances du modèle sur les tâches cibles.

17

ReconPhys : Reconstruction de l'apparence et des attributs physiques à partir d'une vidéo unique
ReconPhys: Reconstruct Appearance and Physical Attributes from Single Video

Apr 9
ByBoyuan Wang, Xiaofeng Wang, Yongkang Li, Zheng Zhu, Yifan Chang, Angen Ye, Guosheng Zhao, Chaojun Ni, Guan Huang, Yijie Ren, Yueqi Duan, Xingang Wang
8
1

La reconstruction d'objets non rigides avec une plausibilité physique demeure un défi majeur. Les approches existantes exploitent le rendu différentiable pour une optimisation par scène, reconstruisant la géométrie et la dynamique mais nécessitant un réglage coûteux ou une annotation manuelle, ce qui limite la praticité et la généralisabilité. Pour y remédier, nous proposons ReconPhys, le premier cadre feedforward qui apprend conjointement l'estimation d'attributs physiques et la reconstruction par Gaussian Splatting 3D à partir d'une vidéo monoculaire unique. Notre méthode utilise une architecture à double branche entraînée via une stratégie auto-supervisée, éliminant le besoin d'annotations physiques de référence. Étant donné une séquence vidéo, ReconPhys infère simultanément la géométrie, l'apparence et les attributs physiques. Les expériences sur un jeu de données synthétique à grande échelle démontrent des performances supérieures : notre méthode atteint 21,64 PSNR en prédiction future contre 13,27 pour les méthodes d'optimisation de l'état de l'art, tout en réduisant la distance de Chamfer de 0,349 à 0,004. Surtout, ReconPhys permet une inférence rapide (<1 seconde) contre des heures pour les méthodes existantes, facilitant la génération rapide d'assets prêts pour la simulation en robotique et en infographie.

18

MERRIN : Un Benchmark pour la Récupération de Preuves Multimodales et le Raisonnement dans des Environnements Web Bruités
MERRIN: A Benchmark for Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments

Apr 15
ByHan Wang, David Wan, Hyunji Lee, Thinh Pham, Mikaela Cankosyan, Weiyuan Chen, Elias Stengel-Eskin, Tu Vu, Mohit Bansal
5
1

Motivés par le caractère sous-spécifié et multi-étapes des requêtes de recherche, ainsi que par la nature multimodale, hétérogène et souvent conflictuelle des résultats web du monde réel, nous présentons MERRIN (Multimodal Evidence Retrieval and Reasoning in Noisy Web Environments), un benchmark annoté manuellement pour évaluer les agents augmentés par la recherche. MERRIN mesure la capacité des agents d'IA à identifier les modalités pertinentes, à récupérer des preuves multimodales et à effectuer un raisonnement multi-étapes sur des sources web bruitées. Il se distingue des travaux antérieurs par trois aspects importants : (1) l'utilisation de requêtes en langage naturel sans indices explicites de modalité, (2) l'intégration de modalités peu explorées comme la vidéo et l'audio, et (3) l'exigence de récupération de preuves multimodales complexes, souvent bruitées ou conflictuelles, lors de la recherche web. Nous évaluons divers agents de recherche alimentés par dix modèles, incluant des modèles propriétaires performants (par exemple, GPT-5.4-mini, Gemini 3/3.1 Flash/Pro) et des modèles à poids ouverts (Qwen3-4B/30B/235B), dans trois contextes de recherche (sans recherche, recherche native et recherche agentique). Nos résultats montrent que MERRIN est très difficile : la précision moyenne de tous les agents est de 22,3 %, le meilleur agent n'atteignant que 40,1 %. Nous observons en outre que si des agents plus performants comme Gemini Deep Research obtiennent de meilleurs résultats, les gains sont modestes en raison d'une surexploration ; ils effectuent plus d'étapes et utilisent plus d'outils, mais sont souvent distraits par un contenu web conflictuel ou partiellement pertinent, conduisant à des réponses incorrectes. Comparés aux humains, ces agents consomment plus de ressources tout en obtenant une précision inférieure, principalement en raison d'une sélection inefficace des sources et d'une dépendance excessive aux modalités textuelles. Ces résultats soulignent la nécessité de développer des agents de recherche capables d'une recherche et d'un raisonnement robustes à travers des modalités diverses dans des environnements web bruités, faisant de MERRIN un banc d'essai précieux pour évaluer ces capacités.

19

Génération de diapositives à partir de documents pilotée par la narration via ArcDeck
Narrative-Driven Paper-to-Slide Generation via ArcDeck

Apr 13
ByTarik Can Ozden, Sachidanand VS, Furkan Horoz, Ozgur Kara, Junho Kim, James Matthew Rehg
5
1

Nous présentons ArcDeck, un cadre multi-agents qui formule la génération de diapositives à partir d'un article scientifique comme une tâche de reconstruction narrative structurée. Contrairement aux méthodes existantes qui résument directement le texte brut en diapositives, ArcDeck modélise explicitement le flux logique de l'article source. Il analyse d'abord l'entrée pour construire un arbre de discours et établir un document d'engagement global, garantissant que l'intention de haut niveau est préservée. Ces prémisses structurelles guident ensuite un processus itératif de raffinement multi-agents, où des agents spécialisés critiquent et révisent itérativement le plan de la présentation avant de générer les mises en page et les conceptions visuelles finales. Pour évaluer notre approche, nous introduisons également ArcBench, un nouveau benchmark constitué de paires article-diapositives académiques. Les résultats expérimentaux démontrent que la modélisation explicite du discours, combinée à une coordination d'agents aux rôles spécifiques, améliore significativement le flux narratif et la cohérence logique des présentations générées.

20

Auto-Distillation Zéro : L'Auto-Révision Transforme les Récompenses Binaires en Supervision Dense
Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision

Apr 13
ByYinghui He, Simran Kaur, Adithya Bhaskar, Yongjin Yang, Jiarui Liu, Narutatsu Ri, Liam Fowl, Abhishek Panigrahi, Danqi Chen, Sanjeev Arora
5
2

Les méthodes actuelles de post-formation en contexte vérifiable se divisent en deux catégories. L'apprentissage par renforcement (RLVR) repose sur des récompenses binaires, qui sont largement applicables et puissantes, mais ne fournissent qu'une supervision parcimonieuse pendant l'entraînement. La distillation offre une supervision dense au niveau des tokens, généralement obtenue auprès d'un enseignant externe ou en utilisant des démonstrations de haute qualité. La collecte d'une telle supervision peut être coûteuse ou indisponible. Nous proposons l'Auto-Distillation Zéro (SD-Zero), une méthode nettement plus efficace en termes d'échantillons d'entraînement que le RL et qui ne nécessite ni enseignant externe ni démonstrations de haute qualité. SD-Zero entraîne un modèle unique à jouer deux rôles : un Générateur, qui produit une réponse initiale, et un Réviseur, qui se base sur cette réponse et sa récompense binaire pour produire une réponse améliorée. Nous effectuons ensuite une auto-distillation sur la politique pour distiller le réviseur dans le générateur, en utilisant les distributions de tokens du réviseur conditionnées par la réponse du générateur et sa récompense comme supervision. En substance, SD-Zero entraîne le modèle à transformer des récompenses binaires en une auto-supervision dense au niveau des tokens. Sur des benchmarks de raisonnement mathématique et en programmation avec Qwen3-4B-Instruct et Olmo-3-7B-Instruct, SD-Zero améliore les performances d'au moins 10 % par rapport aux modèles de base et surpasse des bases de référence solides, incluant le Réglage Fin par Rejet (RFT), GRPO et le Réglage Fin par Auto-Distillation (SDFT), avec le même ensemble de questions et le même budget d'échantillons d'entraînement. Des études d'ablation approfondies révèlent deux caractéristiques novatrices de notre algorithme proposé : (a) l'auto-localisation au niveau des tokens, où le réviseur peut identifier les tokens clés nécessitant une révision dans la réponse du générateur en se basant sur la récompense, et (b) l'auto-évolution itérative, où la capacité croissante à réviser les réponses peut être distillée dans les performances de génération grâce à une synchronisation régulière de l'enseignant.

21

Adaptation régionale anthropique dans les modèles multimodaux vision-langage
Anthropogenic Regional Adaptation in Multimodal Vision-Language Model

Apr 13
BySamuel Cahyawijaya, Peerat Limkonchotiwat, Tack Hwa Wong, Hitesh Laxmichand Patel, Amit Agarwal, Manuel Antonio Rufino, Carlos Rafael Catalan, Muhammad Reza Qorib, Vicky Feliren, Holy Lovenia, Aye Hninn Khine, Frederikus Hudi, David Anugraha, Alham Fikri Aji, Romrawin Chumpu, Viet-Thanh Pham, Minghan Wang, Mohamed Fazli Imam, Ruochen Zhang, Joseph Marvin Imperial, Do Xuan Long, Musa Izzanardi Wijanarko, Joel Ruben Antony Moniz, Patrick Amadeus Irawan, Hanif Muhammad Zhafran, Isaiah Flores, Ira Salsabila, Jun Kevin, Jostin Jerico Rosal, Patricia Nicole Monderin, Kun Kerdthaisong, Ahmad Mustafid, My Chiffon Nguyen, Natchapon Jongwiriyanurak, Siva Worajitwannakul, Haochen Li, Adrian Xuan Wei Lim, Bin Wang, Muhammad Ravi Shulthan Habibi, Lynnette Hui Xian Ng, Mithil Bangera, Yeshil Bangera, Priyaranjan Pattnayak, Dun Li Chan, Sherissa Caren Djuniwar, Hee Ming Shan
4
1

Bien que le domaine de la vision et du langage (VL) ait connu un succès remarquable dans l'intégration des informations visuelles et textuelles à travers de multiples langues et domaines, il n'existe toujours pas de cadre dédié pour évaluer l'alignement centré sur l'humain dans les systèmes de vision et de langage. Nous proposons deux contributions pour combler cette lacune. Premièrement, nous introduisons l'**Adaptation Régionale Anthropogénique** : un nouveau paradigme qui vise à optimiser la pertinence des modèles pour des contextes régionaux spécifiques tout en garantissant la rétention des capacités de généralisation globale. Deuxièmement, nous présentons une méthode d'adaptation simple mais efficace nommée **Geographical-generalization-made-easy (GG-EZ)**, qui utilise le filtrage des données régionales et la fusion de modèles. Grâce à des expériences approfondies sur 3 architectures VL – les grands modèles de vision et de langage, les modèles de diffusion text-to-image et les modèles d'embedding vision-langage – et une étude de cas sur l'adaptation régionale en Asie du Sud-Est (ASE), nous démontrons l'importance de l'Adaptation Régionale Anthropogénique et l'efficacité de GG-EZ, avec des gains de 5 à 15 % sur les métriques de pertinence culturelle à travers l'ASE tout en maintenant plus de 98 % des performances globales, les surpassant même parfois. Nos résultats établissent l'Alignement Régional Anthropogénique comme un paradigme fondamental pour l'applicabilité des modèles multimodaux de vision et de langage dans diverses régions et démontrent une méthode de base simple mais efficace qui optimise l'alignement sur les valeurs régionales tout en préservant la généralisation globale.

22

UI-Copilot : Faire progresser l'automatisation d'interface graphique sur des horizons longs via l'optimisation de politique intégrant des outils
UI-Copilot: Advancing Long-Horizon GUI Automation via Tool-Integrated Policy Optimization

Apr 15
ByZhengxi Lu, Fei Tang, Guangyi Liu, Kaitao Song, Xu Tan, Jin Ma, Wenqi Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen
4
1

Les agents d'interface graphique basés sur MLLM ont démontré de solides capacités dans les tâches d'interaction complexes avec les interfaces utilisateur. Cependant, les scénarios à long terme restent difficiles, car ces agents sont chargés de tâches dépassant leurs capacités intrinsèques, souffrant de dégradation de la mémoire, de confusion dans la progression et d'hallucinations mathématiques. Pour relever ces défis, nous présentons UI-Copilot, un cadre collaboratif où l'agent d'interface se concentre sur l'exécution des tâches tandis qu'un copilote léger fournit une assistance à la demande pour la récupération de mémoire et le calcul numérique. Nous introduisons le découplage de la mémoire pour séparer les observations persistantes du contexte d'exécution transitoire, et formons l'agent de politique à invoquer sélectivement le copilote en tant que Retrieveur ou Calculateur selon les besoins de la tâche. Pour permettre un apprentissage efficace de l'invocation d'outils, nous proposons l'Optimisation de Politique à Outils Intégrés (TIPO), qui optimise séparément la sélection d'outils par prédiction mono-tour et l'exécution des tâches par déploiements multi-tours sur politique. Les résultats expérimentaux montrent que UI-Copilot-7B atteint des performances de pointe sur le benchmark difficile MemGUI-Bench, surpassant des agents d'interface graphique puissants à l'échelle 7B tels que GUI-Owl-7B et UI-TARS-1.5-7B. De plus, UI-Copilot-7B réalise une amélioration absolue de 17,1% sur AndroidWorld par rapport au modèle de base Qwen, soulignant la forte généralisation d'UI-Copilot aux tâches réelles d'interface graphique.

23

SkVM : Compilation de compétences pour une exécution efficace partout
SkVM: Compiling Skills for Efficient Execution Everywhere

Apr 6
ByLe Chen, Erhu Feng, Yubin Xia, Haibo Chen
3
1

Les agents LLM adoptent de plus en plus les compétences comme unité de composition réutilisable. Bien que les compétences soient partagées entre diverses plateformes d'agents, les systèmes actuels les traitent comme du contexte brut, ce qui entraîne un comportement incohérent de la même compétence pour différents agents. Cette fragilité compromet la portabilité des compétences et l'efficacité de l'exécution. Pour relever ce défi, nous analysons 118 000 compétences et nous inspirons de la conception traditionnelle des compilateurs. Nous traitons les compétences comme du code et les LLM comme des processeurs hétérogènes. Pour rendre la portabilité opérationnelle, nous décomposons les exigences d'une compétence en un ensemble de capacités primitives, et mesurons dans quelle mesure chaque paire modèle-harnais les prend en charge. Sur la base de ces profils de capacité, nous proposons SkVM, un système de compilation et d'exécution conçu pour une exécution portable et efficace des compétences. Au moment de la compilation, SkVM effectue une compilation basée sur les capacités, une liaison d'environnement et une extraction de concurrence. À l'exécution, SkVM applique une solidification de code JIT et une recompilation adaptative pour l'optimisation des performances. Nous évaluons SkVM sur huit LLM d'échelles variées et trois harnais d'agents, couvrant SkillsBench et des tâches de compétences représentatives. Les résultats démontrent que SkVM améliore significativement les taux de réussite des tâches across différents modèles et environnements tout en réduisant la consommation de tokens jusqu'à 40%. En termes de performances, SkVM atteint une accélération jusqu'à 3,2x grâce à un parallélisme accru, et une réduction de latence de 19 à 50x via la solidification de code.

24

Les agents d'intelligence artificielle pour le codage journalisent-ils comme les humains ? Une étude empirique
Do AI Coding Agents Log Like Humans? An Empirical Study

Apr 10
ByYoussef Esseddiq Ouatiti, Mohammed Sayagh, Hao Li, Ahmed E. Hassan
2
1

La journalisation logicielle est essentielle pour maintenir et déboguer des systèmes complexes, mais il reste incertain comment les agents de codage IA gèrent cette exigence non fonctionnelle. Si les travaux antérieurs caractérisent les pratiques de journalisation humaines, les comportements des agents de codage IA et l'efficacité des instructions en langage naturel pour les régir demeurent inexplorés. Pour combler cette lacune, nous menons une étude empirique de 4 550 demandes de tirage agentiques réparties sur 81 dépôts open source. Nous comparons les modèles de journalisation des agents à des bases de référence humaines et analysons l'impact des instructions explicites de journalisation. Nous constatons que les agents modifient moins souvent la journalisation que les humains dans 58,4 % des dépôts, bien qu'ils présentent une densité de journaux plus élevée lorsqu'ils le font. De plus, les instructions explicites de journalisation sont rares (4,7 %) et inefficaces, car les agents ne se conforment pas aux demandes constructives 67 % du temps. Enfin, nous observons que les humains effectuent 72,5 % des réparations de journaux post-génération, agissant comme des « concierges silencieux » qui corrigent les problèmes de journalisation et d'observabilité sans retour d'examen explicite. Ces résultats indiquent un double échec de l'instruction en langage naturel (c'est-à-dire la rareté des instructions de journalisation et la faible conformité des agents), suggérant que des garde-fous déterministes pourraient être nécessaires pour garantir des pratiques de journalisation cohérentes.

25

Génération de vidéo HDR par alignement latent avec codage logarithmique
HDR Video Generation via Latent Alignment with Logarithmic Encoding

Apr 13
ByNaomi Ken Korem, Mohamed Oumoumad, Harel Cain, Matan Ben Yosef, Urska Jelercic, Ofir Bibi, Yaron Inger, Or Patashnik, Daniel Cohen-Or
2
1

L'imagerie à grande plage dynamique (HDR) offre une représentation riche et fidèle de la radiance d'une scène, mais reste difficile à modéliser pour les modèles génératifs en raison de son inadéquation avec les données bornées et compressées perceptuellement sur lesquelles ces modèles sont entraînés. Une solution naturelle consiste à apprendre de nouvelles représentations pour le HDR, ce qui introduit une complexité et des besoins en données supplémentaires. Dans ce travail, nous montrons que la génération HDR peut être réalisée de manière beaucoup plus simple en exploitant les fortes connaissances a priori visuelles déjà capturées par des modèles génératifs pré-entraînés. Nous observons qu'un encodage logarithmique largement utilisé dans les pipelines cinématographiques transforme l'imagerie HDR en une distribution naturellement alignée avec l'espace latent de ces modèles, permettant une adaptation directe via un réglage fin léger sans avoir à réentraîner un encodeur. Pour restaurer les détails qui ne sont pas directement observables dans l'entrée, nous introduisons en outre une stratégie d'entraînement basée sur des dégradations mimant la caméra, qui encourage le modèle à déduire le contenu HDR manquant à partir de ses connaissances a priori apprises. En combinant ces idées, nous démontrons une génération vidéo HDR de haute qualité en utilisant un modèle vidéo pré-entraîné avec une adaptation minimale, obtenant des résultats solides sur des scènes diverses et des conditions d'éclairage difficiles. Nos résultats indiquent que le HDR, bien qu'il représente un régime de formation d'image fondamentalement différent, peut être traité efficacement sans reconcevoir les modèles génératifs, à condition que la représentation soit choisie pour s'aligner sur leurs connaissances a priori apprises.

26

Contexte Géométrique par Transformateur pour la Reconstruction 3D en Flux Continu
Geometric Context Transformer for Streaming 3D Reconstruction

Apr 15
ByLin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu
2
1

La reconstruction 3D en flux continu vise à reconstituer les informations tridimensionnelles, telles que les poses de caméra et les nuages de points, à partir d'un flux vidéo, ce qui nécessite une précision géométrique, une cohérence temporelle et une efficacité computationnelle. Motivés par les principes de la localisation et cartographie simultanées (SLAM), nous présentons LingBot-Map, un modèle de fond 3D à propagation avant pour la reconstruction de scènes à partir de données en flux continu, construit sur une architecture de transformeur à contexte géométrique (GCT). Un aspect déterminant de LingBot-Map réside dans son mécanisme d'attention soigneusement conçu, qui intègre un contexte d'ancrage, une fenêtre de référence de pose et une mémoire de trajectoire pour aborder respectivement l'ancrage des coordonnées, les indices géométriques denses et la correction de la dérive à long terme. Cette conception maintient l'état du flux compact tout en conservant un riche contexte géométrique, permettant une inférence stable et efficace à environ 20 images par seconde sur des entrées de résolution 518 x 378 sur de longues séquences dépassant 10 000 images. Des évaluations approfondies sur divers benchmarks démontrent que notre approche atteint des performances supérieures par rapport aux méthodes existantes, qu'elles soient basées sur le flux continu ou sur l'optimisation itérative.

27

ROSE : Amélioration de la Segmentation Orientée par la Récupération
ROSE: Retrieval-Oriented Segmentation Enhancement

Apr 15
BySong Tang, Guangquan Jie, Henghui Ding, Yu-Gang Jiang
1
0

Les modèles de segmentation existants basés sur les grands modèles de langage multimodaux (MLLM), tels que LISA, éprouvent souvent des difficultés avec les entités nouvelles ou émergentes en raison de leur incapacité à intégrer des connaissances actualisées. Pour relever ce défi, nous introduisons la tâche de segmentation des entités nouvelles et émergentes (NEST), qui se concentre sur la segmentation (i) des entités nouvelles que les MLLM ne parviennent pas à reconnaître en raison de leur absence des données d'entraînement, et (ii) des entités émergentes qui existent dans les connaissances du modèle mais nécessitent des informations externes actualisées pour une reconnaissance précise. Pour soutenir l'étude de NEST, nous construisons un benchmark NEST en utilisant un pipeline automatisé qui génère des échantillons de données liés à l'actualité pour une évaluation complète. De plus, nous proposons ROSE : Amélioration de la Segmentation par Récupération d'Information, un framework plug-and-play conçu pour augmenter tout modèle de segmentation basé sur les MLLM. ROSE comprend quatre composants clés. Premièrement, un module de Génération Augmentée par Récupération sur Internet est introduit pour employer les entrées multimodales fournies par l'utilisateur afin de récupérer des informations web en temps réel. Ensuite, un Améliorateur d'Invite Textuelle enrichit le modèle avec des informations actualisées et de riches connaissances contextuelles, améliorant la capacité de perception du modèle pour les entités émergentes. De plus, un Améliorateur d'Invite Visuelle est proposé pour compenser le manque d'exposition des MLLM aux entités nouvelles en exploitant des images provenant d'Internet. Pour maintenir l'efficacité, un module WebSense est introduit pour décider intelligemment du moment d'invoquer les mécanismes de récupération en fonction de la saisie de l'utilisateur. Les résultats expérimentaux démontrent que ROSE améliore significativement les performances sur le benchmark NEST, surpassant une base de référence forte basée sur la récupération avec Gemini-2.0 Flash de 19,2 points en gIoU.

28

InfiniteScienceGym : Un Benchmark Scientifique Illimité et Généré Procéduralement pour l'Analyse
InfiniteScienceGym: An Unbounded, Procedurally-Generated Benchmark for Scientific Analysis

Apr 14
ByOliver Bentham, Vivek Srikumar
1
0

Les grands modèles de langage émergent en tant qu'assistants scientifiques, mais évaluer leur capacité à raisonner à partir de données empiriques reste un défi. Les benchmarks dérivés d'études publiées et d'annotations humaines héritent de biais de publication, de biais de connaissances établies, de bruit dans les étiquettes et d'exigences de stockage substantielles. Nous présentons InfiniteScienceGym, un benchmark généré de manière procédurale de dépôts scientifiques couplé à une tâche vérifiable de question-réponse. À partir d'une graine, le simulateur génère de manière déterministe un dépôt autonome avec une structure de répertoires, des fichiers et des données tabulaires réalistes, et un générateur de questions privilégié produit à la fois des questions solubles et insolubles avec une vérité terrain exacte. Cela permet d'évaluer le raisonnement fondé sur des preuves, l'abstention et l'analyse médiée par des outils dans un cadre contrôlé sans distribuer un large corpus statique. InfiniteScienceGym complète les benchmarks scientifiques réels en ciblant les angles morts et les modes d'échec difficiles à évaluer en utilisant uniquement des jeux de données publiés. En évaluant à la fois des modèles propriétaires et à poids ouverts, nous constatons qu'aucun n'atteint plus de 45 % de précision globale, que la reconnaissance des questions insolubles reste une faiblesse majeure, et que les modèles plus performants tendent à utiliser les outils plus efficacement plutôt que de simplement consommer plus de tokens.

29

Agents d'interface graphique mobile face aux menaces du monde réel : en sommes-nous déjà là ?
Mobile GUI Agents under Real-world Threats: Are We There Yet?

Apr 14
ByGuohong Liu, Jialei Ye, Jiacheng Liu, Yuanchun Li, Wei Liu, Pengzhi Gao, Jian Luan, Yunxin Liu
1
1

Ces dernières années ont connu un développement rapide des agents d'interface graphique mobile (GUI) propulsés par les grands modèles de langage (LLM), capables d'exécuter de manière autonome diverses tâches de contrôle d'appareils sur la base d'instructions en langage naturel. La précision croissante de ces agents sur les bancs d'essai standards a suscité des attentes pour un déploiement à grande échelle dans le monde réel, et plusieurs agents commerciaux sont déjà disponibles et utilisés par des early adopters. Cependant, sommes-nous vraiment prêts à intégrer les agents GUI en tant que composants système dans nos appareils quotidiens ? Nous soutenons qu'une validation pré-déploiement cruciale fait défaut pour examiner si les agents peuvent maintenir leurs performances face à des menaces du monde réel. Concrètement, contrairement aux bancs d'essai existants qui reposent sur des contenus d'applications statiques et simples (une nécessité pour garantir la cohérence de l'environnement entre différents tests), les applications réelles sont remplies de contenus provenant de tiers non fiables, tels que des e-mails publicitaires, des publications et des médias générés par les utilisateurs, etc. ... Pour répondre à ce besoin, nous présentons un cadre d'instrumentation de contenu d'applications évolutif permettant des modifications de contenu flexibles et ciblées dans les applications existantes. En nous appuyant sur ce cadre, nous créons une suite de tests comprenant à la fois un environnement d'exécution dynamique de tâches et un jeu de données statique d'états GUI complexes. L'environnement dynamique comprend 122 tâches reproductibles, et le jeu de données statique se compose de plus de 3 000 scénarios construits à partir d'applications commerciales. Nous menons des expériences sur des agents GUI open-source et commerciaux. Nos résultats révèlent que tous les agents examinés peuvent voir leurs performances significativement dégradées par des contenus tiers, avec un taux d'induction en erreur moyen de 42,0 % et 36,1 % respectivement dans les environnements dynamique et statique. Le cadre et le benchmark ont été publiés à l'adresse https://agenthazard.github.io.

30

Que Apprennent les Modèles de Langage et Quand ? L’Hypothèse du Curriculum Implicite
What do Language Models Learn and When? The Implicit Curriculum Hypothesis

Apr 9
ByEmmy Liu, Kaiser Sun, Millicent Li, Isabelle Lee, Lindia Tjuatja, Jen-tse Huang, Graham Neubig
1
0

Les grands modèles de langage (LLM) peuvent accomplir des tâches remarquablement complexes, mais les détails fins de l'émergence de ces capacités durant le pré-entraînement restent mal compris. Les lois d'échelle sur la perte de validation nous indiquent comment un modèle s'améliore avec davantage de ressources computationnelles, mais pas quelles compétences il acquiert et dans quel ordre. Pour remédier à cela, nous proposons l'Hypothèse du Curriculum Implicite : le pré-entraînement suit un curriculum compositionnel et prévisible, quels que soient les modèles et les mélanges de données. Nous testons cette hypothèse en concevant une série de tâches simples et composables couvrant la recherche d'information, les transformations morphologiques, la coréférence, le raisonnement logique et les mathématiques. En utilisant ces tâches, nous suivons les points d'émergence à travers quatre familles de modèles, de tailles comprises entre 410 millions et 13 milliards de paramètres. Nous constatons que l'ordre d'émergence (le moment où les modèles atteignent des seuils de précision fixes) est remarquablement cohérent (ρ = 0,81 sur 45 paires de modèles), et que les tâches composites émergent le plus souvent après leurs tâches composantes. De plus, nous découvrons que cette structure est encodée dans les représentations du modèle : les tâches ayant des représentations vectorielles de fonction similaires tendent aussi à suivre des trajectoires d'apprentissage similaires. En utilisant l'espace des représentations issu de notre ensemble de tâches, nous pouvons prédire efficacement les trajectoires d'apprentissage de tâches compositionnelles simples non vues auparavant tout au long du pré-entraînement (R² = 0,68 - 0,84 selon les modèles), sans avoir besoin de les évaluer au préalable. Ensemble, ces résultats suggèrent que le pré-entraînement est plus structuré que ce que les courbes de perte ne le laissent paraître : les compétences émergent dans un ordre compositionnel qui est cohérent d'un modèle à l'autre et lisible depuis leurs représentations internes.

Apr 15
Apr 16
Apr 17