ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

1

MinerU-Diffusion : Repenser la reconnaissance optique de documents comme un rendu inverse via un décodage par diffusion
MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding

Mar 23
ByHejun Dong, Junbo Niu, Bin Wang, Weijun Zeng, Wentao Zhang, Conghui He
110
4

La reconnaissance optique de caractères (OCR) a évolué de la transcription au niveau des lignes vers l'analyse structurelle de documents, exigeant des modèles qu'ils reconstituent des séquences longues incluant la mise en page, les tableaux et les formules. Malgré les récents progrès des modèles vision-langage, la plupart des systèmes existants reposent sur un décodage autorégressif, qui introduit une latence séquentielle et amplifie la propagation des erreurs dans les documents longs. Dans ce travail, nous revisitons l'OCR documentaire sous l'angle du rendu inverse, en soutenant que la génération causale gauche-droite est un artefact de la sérialisation plutôt qu'une propriété intrinsèque de la tâche. Motivés par cette intuition, nous proposons MinerU-Diffusion, un framework unifié basé sur la diffusion qui remplace le décodage séquentiel autorégressif par un débruitage par diffusion parallèle sous conditionnement visuel. MinerU-Diffusion utilise un décodeur à diffusion par blocs et une stratégie d'apprentissage curriculum pilotée par l'incertitude pour permettre un entraînement stable et une inférence efficace sur les séquences longues. Des expériences approfondies démontrent que MinerU-Diffusion améliore constamment la robustesse tout en atteignant un décodage jusqu'à 3,2 fois plus rapide que les bases de référence autorégressives. Les évaluations sur le benchmark Semantic Shuffle proposé confirment en outre sa moindre dépendance aux prérequis linguistiques et sa capacité OCR visuelle renforcée.

2

WildWorld : Un vaste ensemble de données pour la modélisation dynamique du monde avec actions et état explicite vers les ARPG génératifs
WildWorld: A Large-Scale Dataset for Dynamic World Modeling with Actions and Explicit State toward Generative ARPG

Mar 24
ByZhen Li, Zian Meng, Shuwei Shi, Wenshuo Peng, Yuwei Wu, Bo Zheng, Chuanhao Li, Kaipeng Zhang
66
1

La théorie des systèmes dynamiques et l'apprentissage par renforcement considèrent l'évolution du monde comme une dynamique d'états latents pilotée par des actions, les observations visuelles fournissant une information partielle sur l'état. Les modèles vidéo du monde récents tentent d'apprendre cette dynamique conditionnée par les actions à partir de données. Cependant, les jeux de données existants correspondent rarement à cette exigence : ils manquent généralement d'espaces d'actions diversifiés et sémantiquement significatifs, et les actions sont directement liées aux observations visuelles plutôt que médiées par des états sous-jacents. Par conséquent, les actions sont souvent entremêlées avec des changements au niveau pixel, rendant difficile pour les modèles l'apprentissage d'une dynamique mondiale structurée et le maintien d'une évolution cohérente sur de longs horizons. Dans cet article, nous proposons WildWorld, un jeu de données à grande échelle pour la modélisation du monde conditionnée par les actions, avec des annotations explicites d'état, collecté automatiquement à partir d'un jeu de rôle d'action AAA photoréaliste (Monster Hunter: Wilds). WildWorld contient plus de 108 millions d'images et propose plus de 450 actions, incluant les déplacements, les attaques et l'utilisation de compétences, ainsi que des annotations synchronisées par image des squelettes des personnages, des états du monde, des poses de caméra et des cartes de profondeur. Nous dérivons en outre WildBench pour évaluer les modèles via le Suivi d'Actions et l'Alignement d'État. Des expériences approfondies révèlent des défis persistants dans la modélisation d'actions sémantiquement riches et le maintien de la cohérence de l'état sur de longs horizons, soulignant le besoin d'une génération vidéo consciente de l'état. La page du projet est https://shandaai.github.io/wildworld-project/.

3

SpecEyes : Accélération des LLMs multimodaux agentiques par perception et planification spéculatives
SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Mar 24
ByHaoyu Huang, Jinfa Huang, Zhongwei Wan, Xiawu Zheng, Rongrong Ji, Jiebo Luo
42
2

Les modèles de langue multimodaux agentiques (MLLMs) (par exemple, OpenAI o3 et Gemini Agentic Vision) atteignent des capacités de raisonnement remarquables grâce à l'invocation itérative d'outils visuels. Cependant, les boucles en cascade de perception, de raisonnement et d'appel d'outils introduisent une surcharge séquentielle significative. Cette surcharge, appelée profondeur agentique, entraîne une latence prohibitive et limite sérieusement la concurrence au niveau du système. À cette fin, nous proposons SpecEyes, un cadre d'accélération spéculatif de niveau agentique qui brise ce goulot d'étranglement séquentiel. Notre idée clé est qu'un MLLM léger, sans outil, peut servir de planificateur spéculatif pour prédire la trajectoire d'exécution, permettant une terminaison anticipée des chaînes d'outils coûteuses sans sacrifier la précision. Pour réguler cette planification spéculative, nous introduisons un mécanisme de porte cognitive basé sur la séparabilité des réponses, qui quantifie la confiance du modèle pour une auto-vérification sans nécessiter d'étiquettes de référence. De plus, nous concevons un entonnoir parallèle hétérogène qui exploite la concurrence sans état du petit modèle pour masquer l'exécution sérieuse avec état du grand modèle, maximisant ainsi le débit du système. Des expériences approfondies sur V* Bench, HR-Bench et POPE démontrent que SpecEyes atteint une accélération de 1,1 à 3,35x par rapport au système agentique de référence tout en préservant, voire en améliorant la précision (jusqu'à +6,7%), augmentant ainsi le débit de service sous des charges de travail concurrentes.

4

Des modèles statiques aux graphes d'exécution dynamiques : Une étude sur l'optimisation des flux de travail pour les agents LLM
From Static Templates to Dynamic Runtime Graphs: A Survey of Workflow Optimization for LLM Agents

Mar 23
ByLing Yue, Kushal Raj Bhandari, Ching-Yun Ko, Dhaval Patel, Shuxin Lin, Nianjun Zhou, Jianxi Gao, Pin-Yu Chen, Shaowu Pan
41
1

Les systèmes basés sur les grands modèles de langage (LLM) gagnent en popularité pour résoudre des tâches en construisant des workflows exécutables qui entrelacent des appels au LLM, la recherche d'information, l'utilisation d'outils, l'exécution de code, les mises à jour de mémoire et la vérification. Cette étude passe en revue les méthodes récentes pour concevoir et optimiser de tels workflows, que nous traitons comme des graphes de calcul agentiques (ACG). Nous organisons la littérature en fonction du moment où la structure du workflow est déterminée, la structure faisant référence aux composants ou agents présents, à leurs dépendances et au flux d'information entre eux. Cette perspective distingue les méthodes statiques, qui fixent une structure de workflow réutilisable avant le déploiement, des méthodes dynamiques, qui sélectionnent, génèrent ou révisent le workflow pour une exécution particulière avant ou pendant son déroulement. Nous organisons également les travaux antérieurs selon trois dimensions : le moment où la structure est déterminée, la partie du workflow optimisée et les signaux d'évaluation guidant l'optimisation (par exemple, les métriques de tâche, les signaux de vérification, les préférences ou les retours dérivés des traces). Nous distinguons aussi les modèles de workflow réutilisables, les graphes réalisés spécifiques à une exécution et les traces d'exécution, séparant ainsi les choix de conception réutilisables des structures réellement déployées lors d'une exécution donnée et du comportement d'exécution réalisé. Enfin, nous esquissons une perspective d'évaluation structurelle qui complète les métriques de tâche en aval par des propriétés au niveau du graphe, le coût d'exécution, la robustesse et la variation structurelle entre les entrées. Notre objectif est de fournir un vocabulaire clair, un cadre unifié pour positionner de nouvelles méthodes, une vision plus comparable de la littérature existante et un standard d'évaluation plus reproductible pour les travaux futurs sur l'optimisation des workflows pour les agents LLM.

5

PEARL : Modèle de Compréhension Personnalisée de la Vidéo en Flux
PEARL: Personalized Streaming Video Understanding Model

Mar 20
ByYuanhong Zheng, Ruichuan An, Xiaopeng Lin, Yuxing Liu, Sihan Yang, Huanyu Zhang, Haodong Li, Qintong Zhang, Renrui Zhang, Guopeng Li, Yifan Zhang, Yuheng Li, Wentao Zhang
36
3

La cognition humaine des nouveaux concepts est intrinsèquement un processus continu : nous reconnaissons continuellement de nouveaux objets ou identités et mettons à jour nos mémoires au fil du temps. Cependant, les méthodes actuelles de personnalisation multimodale se limitent largement aux images statiques ou aux vidéos hors ligne. Cette dissociation entre l'entrée visuelle continue et la rétroaction instantanée du monde réel limite leur capacité à fournir les réponses personnalisées interactives en temps réel, essentielles pour les futurs assistants IA. Pour combler cette lacune, nous proposons et définissons formellement la nouvelle tâche de Compréhension Personnalisée des Vidéos en Flux Continu (PSVU). Pour faciliter la recherche dans cette nouvelle direction, nous présentons PEARL-Bench, le premier benchmark complet conçu spécifiquement pour évaluer ce cadre exigeant. Il évalue la capacité d'un modèle à répondre à des concepts personnalisés à des horodatages précis selon deux modes : (1) Niveau image, centré sur une personne ou un objet spécifique dans des images discrètes, et (2) un nouveau Niveau vidéo, centré sur des actions personnalisées se déroulant sur des images continues. PEARL-Bench comprend 132 vidéos uniques et 2 173 annotations granulaires avec des horodatages précis. La diversité des concepts et la qualité des annotations sont strictement garanties par un pipeline combinant génération automatique et vérification humaine. Pour relever les défis de ce nouveau cadre, nous proposons en outre PEARL, une stratégie prête à l'emploi, sans apprentissage, qui constitue une base de référence solide. Des évaluations approfondies sur 8 modèles hors ligne et en ligne démontrent que PEARL atteint des performances de pointe. Notamment, elle apporte des améliorations PSVU constantes lorsqu'elle est appliquée à 3 architectures distinctes, prouvant son efficacité et sa robustesse. Nous espérons que ces travaux feront progresser la personnalisation des modèles vision-langage (VLM) et inspireront des recherches supplémentaires sur les assistants IA personnalisés en flux continu. Le code est disponible à l'adresse https://github.com/Yuanhong-Zheng/PEARL.

6

DA-Flow : Estimation du flux optique sensible à la dégradation avec les modèles de diffusion
DA-Flow: Degradation-Aware Optical Flow Estimation with Diffusion Models

Mar 24
ByJaewon Min, Jaeeun Lee, Yeji Choi, Paul Hyunbin Cho, Jin Hyeon Kim, Tae-Young Lee, Jongsik Ahn, Hwayeong Lee, Seonghyun Park, Seungryong Kim
35
1

Les modèles de flux optique entraînés sur des données de haute qualité subissent souvent une dégradation sévère lorsqu'ils sont confrontés à des altérations du monde réel telles que le flou, le bruit et les artefacts de compression. Pour surmonter cette limitation, nous formulons le Flux Optique Conscient de la Dégradation, une nouvelle tâche visant l'estimation précise de la correspondance dense à partir de vidéos dégradées du monde réel. Notre idée clé est que les représentations intermédiaires des modèles de diffusion de restauration d'image sont intrinsèquement conscientes des altérations mais manquent de conscience temporelle. Pour remédier à cette limitation, nous élevons le modèle pour qu'il puisse traiter plusieurs trames adjacentes via une attention spatio-temporelle complète, et démontrons empiriquement que les caractéristiques résultantes présentent des capacités de correspondance zero-shot. Sur la base de cette découverte, nous présentons DA-Flow, une architecture hybride qui fusionne ces caractéristiques de diffusion avec des caractéristiques convolutionnelles dans un cadre de raffinement itératif. DA-Flow surpasse substantiellement les méthodes de flux optique existantes sous dégradation sévère sur plusieurs benchmarks.

7

SIMART : Décomposition de maillages monolithiques en ressources articulées prêtes pour la simulation via MLLM
SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

Mar 24
ByChuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang
33
1

Les ressources 3D articulées de haute qualité sont indispensables à l'IA incarnée et à la simulation physique, pourtant la génération 3D se concentre encore sur des maillages statiques, laissant un vide concernant les objets interactifs "prêts pour la simulation". La plupart des méthodes récentes de création d'objets articulés reposent sur des pipelines multi-étapes qui accumulent des erreurs entre des modules découplés. Alternativement, les MLLM unifiés offrent une approche mono-étape pour une compréhension conjointe des assets statiques et une génération d'assets prêts pour la simulation. Cependant, la tokenisation 3D basée sur des voxels denses produit de longues séquences de tokens 3D et une surcharge mémoire élevée, limitant l'évolutivité vers des objets articulés complexes. Pour résoudre ce problème, nous proposons SIMART, un framework MLLM unifié qui réalise conjointement une décomposition au niveau des pièces et une prédiction cinématique. En introduisant un VQ-VAE 3D parcimonieux (Sparse 3D VQ-VAE), SIMART réduit le nombre de tokens de 70 % par rapport aux tokens de voxels denses, permettant des assemblages multi-pièces de haute fidélité. SIMART obtient des performances de pointe sur PartNet-Mobility et sur des ensembles de données AIGC en conditions réelles, et permet une simulation robotique basée sur la physique.

8

UniGRPO : Optimisation de Politique Unifiée pour la Génération Visuelle Guidée par le Raisonnement
UniGRPO: Unified Policy Optimization for Reasoning-Driven Visual Generation

Mar 24
ByJie Liu, Zilyu Ye, Linxiao Yuan, Shenhan Zhu, Yu Gao, Jie Wu, Kunchang Li, Xionghui Wang, Xiaonan Nie, Weilin Huang, Wanli Ouyang
29
1

Les modèles unifiés capables de génération entrelacée sont apparus comme un paradigme prometteur, la communauté convergeant de plus en plus vers la modélisation autorégressive pour le texte et le *flow matching* pour la génération d'images. Pour faire progresser cette direction, nous proposons un cadre d'apprentissage par renforcement unifié conçu pour la génération entrelacée. Nous validons notre approche sur son unité fondamentale : un seul cycle de génération d'image pilotée par un raisonnement, où le modèle commence par développer l'invite utilisateur via un raisonnement, suivi d'une synthèse d'image. En formulant ce processus de génération multimodale comme un Processus de Décision Markovien avec des récompenses terminales éparses, nous introduisons UniGRPO pour optimiser conjointement les politiques de génération de texte et d'image en utilisant GRPO. Adoptant une méthodologie minimaliste pour éviter la surconception, nous exploitons des recettes d'entraînement établies pour les deux modalités en intégrant de manière transparente le GRPO standard pour le raisonnement et FlowGRPO pour la synthèse visuelle. Pour garantir l'évolutivité vers une génération entrelacée multi-cycles, nous introduisons deux modifications critiques au FlowGRPO original : (1) l'élimination de l'orientation sans classifieur pour maintenir des déroulements linéaires et non branchés, ce qui est essentiel pour passer à des scénarios complexes impliquant des interactions multi-tours et une génération multi-conditions (par exemple, l'édition) ; et (2) le remplacement de la pénalité KL latente standard par une pénalité MSE directement sur les champs de vélocité, fournissant un signal de régularisation plus robuste et direct pour atténuer efficacement le *reward hacking*. Nos expériences démontrent que cette recette d'entraînement unifiée améliore significativement la qualité de la génération d'images grâce au raisonnement, fournissant une base de référence robuste et évolutive pour l'après-entraînement futur de modèles entièrement entrelacés.

9

RealMaster : Transformer des scènes rendues en vidéos photoréalistes
RealMaster: Lifting Rendered Scenes into Photorealistic Video

Mar 24
ByDana Cohen-Bar, Ido Sobol, Raphael Bensadoun, Shelly Sheynin, Oran Gafni, Or Patashnik, Daniel Cohen-Or, Amit Zohar
22
4

Les modèles de génération vidéo de pointe produisent un réalisme photographique remarquable, mais ils manquent du contrôle précis nécessaire pour aligner le contenu généré avec des exigences scéniques spécifiques. De plus, sans géométrie explicite sous-jacente, ces modèles ne peuvent garantir une cohérence 3D. À l'inverse, les moteurs 3D offrent un contrôle granulaire sur chaque élément de la scène et fournissent une cohérence 3D native par conception, mais leur résultat reste souvent prisonnier de la "vallée dérangeante". Combler cet écart entre simulation et réalité nécessite à la fois une précision structurelle, où la sortie doit préserver exactement la géométrie et la dynamique de l'entrée, et une transformation sémantique globale, où les matériaux, l'éclairage et les textures doivent être transformés de manière holistique pour atteindre le photoréalisme. Nous présentons RealMaster, une méthode qui exploite les modèles de diffusion vidéo pour élever une vidéo rendue vers une vidéo photoréaliste tout en maintenant un alignement complet avec la sortie du moteur 3D. Pour entraîner ce modèle, nous générons un jeu de données apparié via une stratégie de propagation par ancrage, où les première et dernière images sont améliorées en réalisme et propagées à travers les images intermédiaires à l'aide d'indices de conditionnement géométrique. Nous entraînons ensuite un IC-LoRA sur ces vidéos appariées pour distiller les résultats haute qualité de la pipeline en un modèle qui généralise au-delà des contraintes de celle-ci, gérant les objets et personnages apparaissant en milieu de séquence et permettant l'inférence sans nécessiter d'images d'ancrage. Évalué sur des séquences complexes de GTA-V, RealMaster surpasse significativement les méthodes de référence en édition vidéo, améliorant le photoréalisme tout en préservant la géométrie, la dynamique et l'identité spécifiées par le contrôle 3D original.

10

2Xplat : Deux experts valent mieux qu'un généraliste
2Xplat: Two Experts Are Better Than One Generalist

Mar 22
ByHwasik Jeong, Seungryong Lee, Gyeongjin Kang, Seungkwon Yang, Xiangyu Sun, Seungtae Nam, Eunbyung Park
19
3

La méthode de projection de gaussiennes 3D sans pose en passe avant (3DGS) a ouvert une nouvelle frontière pour la modélisation 3D rapide, permettant de générer des représentations gaussiennes de haute qualité à partir d'images multi-vues non calibrées en une seule passe avant. L'approche dominante dans ce domaine adopte des architectures monolithiques unifiées, souvent basées sur des modèles de fondation 3D centrés sur la géométrie, pour estimer conjointement les poses de caméra et synthétiser les représentations 3DGS au sein d'un seul réseau. Bien qu'architecturalement simplifiées, ces conceptions "tout-en-un" peuvent être sous-optimales pour la génération de 3DGS haute fidélité, car elles entremêlent le raisonnement géométrique et la modélisation de l'apparence dans une représentation partagée. Dans ce travail, nous présentons 2Xplat, un framework 3DGS sans pose en passe avant basé sur une conception à deux experts qui sépare explicitement l'estimation géométrique de la génération de gaussiennes. Un expert géométrie dédié prédit d'abord les poses de caméra, qui sont ensuite explicitement transmises à un puissant expert apparence qui synthétise les gaussiennes 3D. Malgré sa simplicité conceptuelle, largement inexplorée dans les travaux antérieurs, l'approche proposée s'avère très efficace. En moins de 5 000 itérations d'entraînement, notre pipeline à deux experts surpasse substantiellement les approches 3DGS sans pose en passe avant précédentes et atteint des performances comparables aux méthodes avec pose de pointe. Ces résultats remettent en question le paradigme unifié dominant et suggèrent les avantages potentiels des principes de conception modulaire pour les tâches complexes d'estimation géométrique 3D et de synthèse d'apparence.

11

Repenser l'optimisation de politique au niveau des tokens pour le raisonnement en chaîne multimodal
Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought

Mar 24
ByYunheng Li, Hangyi Kuang, Hengrui Zhang, Jiangxia Cao, Zhaojie Liu, Qibin Hou, Ming-Ming Cheng
17
1

Le raisonnement multimodal par chaîne de pensée (CoT) nécessite que les grands modèles vision-langage construisent des trajectoires de raisonnement qui entrelacent l'ancrage perceptif avec l'inférence multi-étapes. Cependant, les méthodes existantes d'Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR) optimisent généralement le raisonnement à un niveau de granularité grossier, traitant le CoT de manière uniforme sans distinguer leurs degrés variables d'ancrage visuel. Dans ce travail, nous menons une analyse au niveau token des trajectoires de raisonnement multimodal et montrons qu'un raisonnement réussi se caractérise par des dynamiques token structurées reflétant à la fois l'ancrage perceptif et l'inférence exploratoire. Sur la base de cette analyse, nous proposons l'Optimisation de Politique Perception-Exploration (PEPO), qui dérive un a priori de perception à partir de la similarité des états cachés et l'intègre à l'entropie token via un mécanisme de gating lisse pour produire des avantages au niveau token. PEPO s'intègre de manière transparente avec les frameworks RLVR existants tels que GRPO et DAPO, ne nécessitant ni supervision supplémentaire ni branches auxiliaires. Des expériences approfondies sur divers benchmarks multimodaux démontrent des améliorations constantes et robustes par rapport aux solides bases de référence par renforcement, couvrant le raisonnement géométrique, l'ancrage visuel, la résolution d'énigmes visuelles et la classification en few-shot, tout en maintenant une dynamique d'apprentissage stable. Code : https://github.com/xzxxntxdy/PEPO

12

Assister avant d'Attirer : Compréhension vidéo efficace et évolutive via un regard autorégressif
Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Mar 12
ByBaifeng Shi, Stephanie Fu, Long Lian, Hanrong Ye, David Eigen, Aaron Reite, Boyi Li, Jan Kautz, Song Han, David M. Chan, Pavlo Molchanov, Trevor Darrell, Hongxu Yin
14
1

Les modèles de grands langages multimodaux (MLLM) ont fait progresser la compréhension vidéo générale, mais peinent avec les vidéos longues et haute résolution : ils traitent chaque pixel de manière égale dans leurs transformeurs de vision (ViT) ou leurs LLM, malgré une redondance spatio-temporelle importante. Nous présentons AutoGaze, un module léger qui supprime les patches redondants avant qu'ils ne soient traités par un ViT ou un MLLM. Entraîné par prédiction du token suivant et apprentissage par renforcement, AutoGaze sélectionne de manière autorégressive un ensemble minimal de patches multi-échelles capable de reconstruire la vidéo dans un seuil d'erreur spécifié par l'utilisateur, éliminant ainsi la redondance tout en préservant l'information. Empiriquement, AutoGaze réduit les tokens visuels d'un facteur 4 à 100 et accélère les ViT et MLLM jusqu'à 19 fois, permettant de mettre à l'échelle les MLLM pour des vidéos de 1000 images en résolution 4K et obtenant des résultats supérieurs sur des benchmarks vidéo (par exemple, 67,0 % sur VideoMME). De plus, nous présentons HLVid : le premier benchmark de question-réponse (QA) pour vidéos longues et haute résolution, avec des vidéos de 5 minutes en 4K, où un MLLM mis à l'échelle avec AutoGaze améliore le résultat de base de 10,1 % et surpasse le meilleur MLLM précédent de 4,5 %. Page du projet : https://autogaze.github.io/.

13

VP-VLA : L'invite visuelle comme interface pour les modèles vision-langage-action
VP-VLA: Visual Prompting as an Interface for Vision-Language-Action Models

Mar 23
ByZixuan Wang, Yuxin Chen, Yuqi Liu, Jinhui Ye, Pengguang Chen, Changsheng Lu, Shu Liu, Jiaya Jia
9
1

Les modèles Vision-Langage-Action (VLA) mappent généralement les observations visuelles et les instructions linguistiques directement vers des signaux de contrôle robotiques. Ce mappage « boîte noire » contraint une seule passe avant à interpréter l'instruction, à l'ancrer spatialement et à générer le contrôle bas niveau simultanément, ce qui entraîne souvent une faible précision spatiale et une robustesse limitée dans des scénarios hors distribution. Pour résoudre ces limitations, nous proposons VP-VLA, un cadre à double système qui découple le raisonnement de haut niveau et l'exécution de bas niveau via une interface structurée d'invites visuelles. Concrètement, un « Planificateur Système 2 » décompose les instructions complexes en sous-tâches et identifie les objets cibles et les emplacements butoins pertinents. Ces ancres spatiales sont ensuite superposées directement aux observations visuelles sous forme d'invites visuelles structurées, telles que des réticules et des cadres de délimitation. Guidé par ces invites et renforcé par un nouvel objectif auxiliaire d'ancrage visuel durant l'entraînement, un « Contrôleur Système 1 » génère de manière fiable des mouvements d'exécution bas niveau précis. Les expériences sur le benchmark Robocasa-GR1-Tabletop et la simulation SimplerEnv démontrent que VP-VLA améliore les taux de réussite de 5 % et 8,3 %, surpassant des bases de référence compétitives incluant QwenOFT et GR00T-N1.6.

14

ThinkJEPA : Renforcer les modèles de monde latent avec un grand modèle de raisonnement vision-langage
ThinkJEPA: Empowering Latent World Models with Large Vision-Language Reasoning Model

Mar 23
ByHaichao Zhang, Yijiang Li, Shwai He, Tushar Nagarajan, Mingfei Chen, Jianglin Lu, Ang Li, Yun Fu
9
1

Les progrès récents des modèles de mondes latents (par exemple, V-JEPA2) ont démontré des capacités prometteuses pour prédire les états futurs du monde à partir d'observations vidéo. Néanmoins, la prédiction dense à partir d'une courte fenêtre d'observation limite le contexte temporel et peut biaiser les prédicteurs vers une extrapolation locale et de bas niveau, rendant difficile la capture de la sémantique à long terme et réduisant l'utilité en aval. Les modèles vision-langage (VLM), en revanche, offrent un ancrage sémantique solide et des connaissances générales en raisonnant sur des images échantillonnées uniformément, mais ils ne sont pas idéaux comme prédicteurs denses autonomes en raison d'un échantillonnage sparse dicté par le calcul, d'un goulot d'étranglement de sortie langagière qui comprime les états d'interaction fins en représentations orientées texte, et d'un décalage de régime de données lors de l'adaptation à de petits jeux de données conditionnés par l'action. Nous proposons un cadre de modélisation du monde latent de type JEPA guidé par VLM qui combine la modélisation de la dynamique des images denses avec un guidage sémantique à long terme via une voie temporelle duale : une branche JEPA dense pour les indices d'interaction et de mouvement fins, et une branche penseur VLM échantillonnée uniformément avec une grande cadence temporelle pour un guidage riche en connaissances. Pour transférer efficacement les signaux de raisonnement progressif du VLM, nous introduisons un module d'extraction de représentation pyramidale hiérarchique qui agrège les représentations multicouches du VLM en caractéristiques de guidage compatibles avec la prédiction latente. Les expériences sur la prédiction de trajectoire de manipulation manuelle montrent que notre méthode surpasse à la fois une base de référence forte uniquement basée sur VLM et une base de référence de prédicteur JEPA, et produit un comportement de déploiement à long terme plus robuste.

15

AgentSLR : Automatisation des revues systématiques de la littérature en épidémiologie grâce à l'IA agentique
AgentSLR: Automating Systematic Literature Reviews in Epidemiology with Agentic AI

Mar 20
ByShreyansh Padarha, Ryan Othniel Kearns, Tristan Naidoo, Lingyi Yang, Łukasz Borchmann, Piotr BŁaszczyk, Christian Morgenstern, Ruth McCabe, Sangeeta Bhatia, Philip H. Torr, Jakob Foerster, Scott A. Hale, Thomas Rawson, Anne Cori, Elizaveta Semenova, Adam Mahdi
8
1

Les revues systématiques de la littérature sont essentielles pour synthétiser les preuves scientifiques, mais elles sont coûteuses, difficiles à déployer à grande échelle et longues à réaliser, créant ainsi des goulots d'étranglement pour les politiques fondées sur des données probantes. Nous étudions si les grands modèles de langage peuvent automatiser l'intégralité du processus de revue systématique, allant de la recherche d'articles, de la sélection des articles et de l'extraction des données jusqu'à la synthèse du rapport. Appliquée à des revues épidémiologiques sur neuf pathogènes prioritaires désignés par l'OMS et validée par rapport à une référence établie par des experts, notre chaîne de traitement agentielle open source (AgentSLR) obtient des performances comparables à celles de chercheurs humains, tout en réduisant la durée d'une revue d'environ 7 semaines à 20 heures (soit une accélération d'un facteur 58). Notre comparaison de cinq modèles de pointe révèle que les performances sur les revues systématiques sont moins influencées par la taille du modèle ou le coût de l'inférence que par les capacités distinctives de chaque modèle. Grâce à une validation en boucle humaine, nous identifions les principaux modes d'échec. Nos résultats démontrent que l'intelligence artificielle agentielle peut accélérer considérablement la synthèse des preuves scientifiques dans des domaines spécialisés.

16

CanViT : Vers des modèles de fondation pour la vision active
CanViT: Toward Active-Vision Foundation Models

Mar 23
ByYohaï-Eliel Berreby, Sabrina Du, Audrey Durand, B. Suresh Krishna
7
1

La vision active promet une perception efficace et biologiquement plausible grâce à des aperçus séquentiels et localisés, mais elle manque d'architectures généralistes évolutives et de pipelines de pré-entraînement. En conséquence, les modèles de fondation en vision active (AVFM) sont restés inexplorés. Nous présentons CanViT, le premier AVFM agnostique à la tâche et à la politique. CanViT utilise un RoPE relatif à la scène pour lier un backbone Vision Transformer rétinotopique et un espace de travail latent spatiotopique à l'échelle de la scène, le canevas. Une interaction efficace avec cette mémoire de travail à haute capacité est supportée par Canvas Attention, un nouveau mécanisme d'attention croisée asymétrique. Nous découplons la pensée (niveau backbone) et la mémoire (niveau canevas), éliminant l'auto-attention et les couches entièrement connectées du côté du canevas pour obtenir une inférence séquentielle à faible latence et une évolutivité aux grandes scènes. Nous proposons un schéma de pré-entraînement en vision active sans étiquette, la distillation latente dense passive-vers-active agnostique à la politique : reconstruire des embeddings DINOv3 à l'échelle de la scène à partir de séquences d'aperçus basse résolution avec des emplacements, niveaux de zoom et longueurs aléatoires. Nous pré-entraînons CanViT-B à partir d'une initialisation aléatoire sur 13,2 millions de scènes ImageNet-21k — un ordre de grandeur de plus que les modèles actifs précédents — et 1 milliard d'aperçus aléatoires, en 166 heures sur un seul H100. Sur la segmentation ADE20K, un CanViT-B gelé atteint 38,5 % de mIoU avec un seul aperçu basse résolution, surpassant le meilleur modèle actif (27,6 %) avec 19,5 fois moins de FLOPs d'inférence et sans fine-tuning, ainsi que son enseignant DINOv3 à FLOPs ou entrées équivalents. Avec des aperçus supplémentaires, CanViT-B atteint 45,9 % de mIoU sur ADE20K. Sur la classification ImageNet-1k, CanViT-B atteint 81,2 % de précision top-1 avec des sondes d'enseignant gelées. CanViT généralise à des séquences plus longues, des scènes plus grandes et de nouvelles politiques. Notre travail comble le large fossé entre la vision passive et active sur la segmentation sémantique et démontre le potentiel des AVFM comme un nouvel axe de recherche.

17

Les répartitions équitables bouleversent le classement : CHANRG révèle une généralisation limitée dans la prédiction de la structure secondaire de l'ARN
Fair splits flip the leaderboard: CHANRG reveals limited generalization in RNA secondary-structure prediction

Mar 20
ByZhiyuan Chen, Zhenfeng Deng, Pan Deng, Yue Liao, Xiu Su, Peng Ye, Xihui Liu
6
1

La prédiction précise de la structure secondaire de l'ARN sous-tend l'annotation du transcriptome, l'analyse mécanistique des ARN non codants et la conception de thérapies à base d'ARN. Les récents progrès issus de l'apprentissage profond et des modèles de fondation pour l'ARN sont difficiles à interpréter car les benchmarks actuels pourraient surestimer la généralisation entre les familles d'ARN. Nous présentons CHANRG (Comprehensive Hierarchical Annotation of Non-coding RNA Groups), un benchmark de 170 083 ARN structurellement non redondants, constitué à partir de plus de 10 millions de séquences de Rfam 15.0 en utilisant une déduplication sensible à la structure, une séparation tenant compte du génome et une évaluation structurelle multi-échelle. Sur 29 prédicteurs évalués, les méthodes fondées sur les modèles de fondation ont atteint la plus haute précision sur les données retenues, mais ont perdu la majeure partie de cet avantage en dehors de leur distribution, tandis que les décodeurs structurés et les prédicteurs neuronaux directs sont restés nettement plus robustes. Cet écart a persisté après contrôle de la longueur des séquences et reflétait à la fois une perte de couverture structurelle et un câblage d'ordre supérieur incorrect. Ensemble, CHANRG et une pile d'évaluation exempte de bourrage et sensible à la symétrie fournissent un cadre plus strict et invariant par lot pour développer des prédicteurs de structure d'ARN avec une robustesse hors distribution démontrable.

18

MultiBind : Un benchmark pour l'erreur d'attribution dans la génération multi-sujets
MultiBind: A Benchmark for Attribute Misbinding in Multi-Subject Generation

Mar 23
ByWenqing Tian, Hanyi Mao, Zhaocheng Liu, Lihua Zhang, Qiang Liu, Jian Wu, Liang Wang
5
1

La génération d'images pilotée par sujet est de plus en plus censée permettre un contrôle granulaire sur plusieurs entités au sein d'une seule image. Dans les workflows multi-références, les utilisateurs peuvent fournir plusieurs images de sujets, une référence d'arrière-plan et des instructions textuelles longues et indexées par entité pour contrôler plusieurs personnes dans une même scène. Dans ce contexte, un mode d'échec majeur est le mauvais liage d'attributs inter-sujets : les attributs sont préservés, modifiés ou transférés vers le mauvais sujet. Les benchmarks et métriques existants mettent largement l'accent sur la fidélité holistique ou l'auto-similarité par sujet, rendant ces échecs difficiles à diagnostiquer. Nous présentons MultiBind, un benchmark construit à partir de photographies réelles de groupes de personnes. Chaque instance fournit des rognages de sujets ordonnés par emplacement avec masques et boîtes englobantes, des références de sujets canonisées, une référence d'arrière-plan inpaintée et une instruction textuelle dense indexée par entité, dérivée d'annotations structurées. Nous proposons également un protocole d'évaluation par confusion dimensionnelle qui apparie les sujets générés aux emplacements de vérité terrain et mesure la similarité d'emplacement à emplacement en utilisant des modèles spécialisés pour l'identité faciale, l'apparence, la pose et l'expression. En soustrayant les matrices de similarité de vérité terrain correspondantes, notre méthode distingue l'auto-dégradation de la véritable interférence inter-sujets et expose des schémas d'échec interprétables tels que la dérive, l'échange, la dominance et le mélange. Les expériences sur les générateurs multi-références modernes montrent que MultiBind révèle des échecs de liage que les métriques de reconstruction conventionnelles ne détectent pas.

19

VTAM : Modèles vidéo-tactile-action pour les interactions physiques complexes au-delà des VLA
VTAM: Video-Tactile-Action Models for Complex Physical Interaction Beyond VLAs

Mar 24
ByHaoran Yuan, Weigang Yi, Zhenyu Zhang, Wendi Chen, Yuchen Mo, Jiashi Yin, Xinzhuo Li, Xiangyu Zeng, Chuan Wen, Cewu Lu, Katherine Driggs-Campbell, Ismini Lourentzou
4
1

Les modèles vidéo-action (VAM) sont apparus comme un cadre prometteur pour l'intelligence incarnée, apprenant les dynamiques implicites du monde à partir de flux vidéo bruts pour produire des prédictions d'actions temporellement cohérentes. Bien que ces modèles démontrent de fortes performances sur des tâches à long horizon grâce au raisonnement visuel, ils restent limités dans les scénarios riches en contacts où les états d'interaction critiques ne sont que partiellement observables par la vision seule. En particulier, la modulation de force fine et les transitions de contact ne sont pas encodées de manière fiable dans les tokens visuels, conduisant à des comportements instables ou imprécis. Pour combler cette lacune, nous présentons le Modèle d'Action Vidéo-Tactile (VTAM), un cadre de modélisation du monde multimodal qui intègre la perception tactile comme signal d'ancrage complémentaire. VTAM augmente un transformeur vidéo pré-entraîné avec des flux tactiles via un réglage fin de transfert modalité léger, permettant un apprentissage de représentation cross-modal efficace sans données appariées tactile-langage ni pré-entraînement tactile indépendant. Pour stabiliser la fusion multimodale, nous introduisons une perte de régularisation tactile qui impose une attention cross-modal équilibrée, empêchant la dominance latente visuelle dans le modèle d'action. VTAM démontre des performances supérieures en manipulation riche en contacts, maintenant un taux de réussite robuste de 90 pour cent en moyenne. Dans des scénarios difficiles tels que la prise et pose de chips nécessitant une conscience de force à haute fidélité, VTAM surpasse la baseline de π 0.5 de 80 pour cent. Nos résultats démontrent que l'intégration de retours tactiles est essentielle pour corriger les erreurs d'estimation visuelle dans les modèles d'action du monde, fournissant une approche évolutive pour les modèles de fondation incarnés physiquement ancrés.

20

Sparse mais Critique : Une Analyse au Niveau des Tokens des Décalages Distributionnels lors du Fine-Tuning RLVR des LLMs
Sparse but Critical: A Token-Level Analysis of Distributional Shifts in RLVR Fine-Tuning of LLMs

Mar 23
ByHaoming Meng, Kexin Huang, Shaohang Wei, Chiyu Ma, Shuo Yang, Xue Wang, Guoyin Wang, Bolin Ding, Jingren Zhou
4
0

Le renforcement de l'apprentissage avec récompenses vérifiables (RLVR) a considérablement amélioré le raisonnement des grands modèles de langage (LLM), mais les mécanismes au niveau des tokens sous-tendant ces améliorations restent obscurs. Nous présentons une étude empirique systématique des effets distributionnels du RLVR organisée autour de trois analyses principales : (1) la caractérisation au niveau des tokens des changements distributionnels entre les modèles de base et les modèles RL, (2) l'impact des changements distributionnels au niveau des tokens sur la performance du raisonnement au niveau séquentiel via des interventions par échantillonnage croisé, et (3) les mécanismes fins de ces changements au niveau des tokens. Nous constatons que le réglage fin par RL induit des modifications très éparses et ciblées, seule une petite fraction des distributions de tokens présentant une divergence significative entre les politiques de base et RL. Nous caractérisons en outre la structure et l'évolution de ces changements par des analyses de l'entropie des tokens, de la concentration positionnelle et de la réallocation de la masse de probabilité. Pour évaluer l'importance fonctionnelle de ces changements épars, nous menons des expériences d'échantillonnage croisé qui échangent sélectivement les choix de tokens entre les modèles de base et RL avec différents budgets d'intervention. Nous montrons qu'insérer seulement une petite fraction de tokens échantillonnés par RL dans les générations de base permet de récupérer progressivement les gains de performance du RL, tandis qu'injecter un nombre similaire de choix de tokens de base dans des séquences autrement générées par RL fait chuter la performance aux niveaux de base, isolant ainsi un petit ensemble de décisions au niveau des tokens directement responsables des gains de performance du RLVR. Enfin, nous explorons des variantes pondérées par la divergence du signal d'avantage comme intervention diagnostique, constatant qu'elles peuvent produire des améliorations par rapport aux lignes de base. Ensemble, nos résultats éclairent les changements distributionnels induits par le RLVR et fournissent une perspective fine, au niveau des tokens, pour comprendre le réglage fin du RLVR comme un processus de raffinement ciblé.

21

TrajLoom : Génération dense de trajectoires futures à partir de vidéo
TrajLoom: Dense Future Trajectory Generation from Video

Mar 23
ByZewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao
4
1

La prédiction du mouvement futur est cruciale pour la compréhension vidéo et la génération de vidéos contrôlables. Les trajectoires de points denses constituent une représentation motrice compacte et expressive, mais modéliser leur évolution future à partir d'une vidéo observée reste un défi. Nous proposons un cadre qui prédit les trajectoires futures et leur visibilité à partir des trajectoires passées et du contexte vidéo. Notre méthode comporte trois composantes : (1) le Codage par Décalage de Grille-Ancre, qui réduit le biais dépendant de la localisation en représentant chaque point comme un décalage par rapport à son ancre au centre du pixel ; (2) le TrajLoom-VAE, qui apprend un espace latent spatiotemporel compact pour les trajectoires denses grâce à une reconstruction masquée et un régularisateur de cohérence spatiotemporelle ; et (3) le TrajLoom-Flow, qui génère les trajectoires futures dans l'espace latent via un appariement de flux, avec des indices de frontière et un réglage fin en K étapes sur politique pour un échantillonnage stable. Nous présentons également TrajLoomBench, un benchmark unifié couvrant des vidéos réelles et synthétiques avec une configuration standardisée alignée sur les benchmarks de génération vidéo. Comparée aux méthodes de l'état de l'art, notre approche étend l'horizon de prédiction de 24 à 81 images tout en améliorant le réalisme et la stabilité du mouvement sur divers ensembles de données. Les trajectoires prédites prennent directement en charge les tâches en aval de génération et d'édition vidéo. Le code, les points de contrôle des modèles et les jeux de données sont disponibles à l'adresse https://trajloom.github.io/.

22

L'abstraction comme biais inductif économe en mémoire pour l'apprentissage continu
Abstraction as a Memory-Efficient Inductive Bias for Continual Learning

Mar 17
ByElnaz Rahmati, Nona Ghazizadeh, Zhivar Sourati, Nina Rouhani, Morteza Dehghani
4
1

Le monde réel est non stationnaire et infiniment complexe, ce qui exige des agents intelligents qu'ils apprennent continuellement sans supporter le coût prohibitif d'un réapprentissage à partir de zéro. Bien que l'apprentissage continu en ligne offre un cadre pour ce contexte, l'acquisition de nouvelles informations interfère souvent avec les connaissances précédemment acquises, entraînant un oubli et une dégradation de la généralisation. Pour remédier à cela, nous proposons l'Entraînement Augmenté par l'Abstraction (AAT), une modification au niveau de la fonction de perte qui encourage les modèles à capturer la structure relationnelle latente partagée entre les exemples. En optimisant conjointement les instances concrètes et leurs représentations abstraites, l'AAT introduit un biais inductif économe en mémoire qui stabilise l'apprentissage dans des flux de données strictement en ligne, éliminant ainsi le besoin d'un tampon de rejeu. Pour capturer la nature multidimensionnelle de l'abstraction, nous introduisons et évaluons l'AAT sur deux benchmarks : un jeu de données relationnelles contrôlées où l'abstraction est réalisée par un masquage d'entités, et un jeu de données narratives où l'abstraction s'exprime par des proverbes partagés. Nos résultats montrent que l'AAT atteint des performances comparables ou supérieures à celles de fortes bases de rejeu d'expériences (ER), et ce, sans nécessiter de mémoire supplémentaire et avec seulement des modifications minimales de l'objectif d'entraînement. Ce travail met en lumière l'abstraction structurelle comme une alternative puissante et sans mémoire au rejeu d'expériences.

23

VISION À LA DEMANDE : Amélioration de l'efficacité des VLLM grâce à des interactions vision-langage éparses et dynamiquement sélectionnées
VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions

Mar 24
ByAdrian Bulat, Alberto Baldrati, Ioannis Maniadis Metaxas, Yassine Ouali, Georgios Tzimiropoulos
3
1

Les approches existantes pour améliorer l'efficacité des Grands Modèles Vision-Langage (LVLM) reposent largement sur le concept de réduction des tokens visuels. Cette approche crée cependant un goulot d'étranglement informationnel qui altère les performances, en particulier sur les tâches complexes nécessitant une compréhension et un raisonnement fins. Dans ce travail, nous remettons en cause ce paradigme en introduisant VISion On Request (VISOR), une méthode qui réduit le coût de l'inférence sans supprimer l'information visuelle. Au lieu de compresser l'image, VISOR améliore l'efficacité en éparsifiant l'interaction entre les tokens image et texte. Plus précisément, le modèle de langage accède à l'ensemble complet des tokens visuels haute résolution via un petit nombre de couches d'attention positionnées stratégiquement : le contexte visuel général est fourni par un mécanisme d'attention croisée efficace entre le texte et l'image, tandis que quelques couches d'auto-attention, bien placées et sélectionnées dynamiquement, affinent les représentations visuelles elles-mêmes, permettant un raisonnement complexe et haute résolution lorsque nécessaire. Sur ce principe, nous entraînons d'abord un réseau unique et universel sur une gamme de budgets computationnels en faisant varier le nombre de couches d'auto-attention, puis nous introduisons un mécanisme de décision léger qui alloue dynamiquement le calcul visuel en fonction de la complexité de chaque échantillon. Des expériences approfondies montrent que VISOR réduit considérablement le coût computationnel tout en égalant ou en dépassant les résultats de l'état de l'art sur un ensemble diversifié de benchmarks, et excelle dans les tâches difficiles nécessitant une compréhension visuelle détaillée.

24

Une seule vue suffit ! Entraînement monoculaire pour la génération de nouvelles vues en conditions réelles
One View Is Enough! Monocular Training for In-the-Wild Novel View Generation

Mar 24
ByAdrien Ramanana Rahary, Nicolas Dufour, Patrick Perez, David Picard
3
1

La synthèse de nouvelles vues à partir d'une seule image a longtemps nécessité des paires d'images multi-vues pour la supervision, limitant ainsi l'échelle et la diversité des données d'entraînement. Nous soutenons que cela n'est pas nécessaire : une seule vue suffit. Nous présentons OVIE, entraîné entièrement sur des images internet non appariées. Nous exploitons un estimateur de profondeur monoculaire comme échafaudage géométrique lors de l'entraînement : nous projetons une image source en 3D, appliquons une transformation de caméra échantillonnée, et projetons à nouveau pour obtenir une vue pseudo-cible. Pour gérer les disocclusions, nous introduisons une formulation d'entraînement masquée qui restreint les pertes géométriques, perceptuelles et texturales aux régions valides, permettant un entraînement sur 30 millions d'images non triées. Lors de l'inférence, OVIE est exempt de géométrie, ne nécessitant ni estimateur de profondeur ni représentation 3D. Entraîné exclusivement sur des images en conditions réelles, OVIE surpasse les méthodes antérieures dans un cadre de généralisation zero-shot, tout en étant 600 fois plus rapide que la deuxième meilleure méthode de référence. Le code et les modèles sont disponibles publiquement à l'adresse https://github.com/AdrienRR/ovie.

25

Ego2Web : Un benchmark d'agent web ancré dans des vidéos égocentriques
Ego2Web: A Web Agent Benchmark Grounded in Egocentric Videos

Mar 23
ByShoubin Yu, Lei Shu, Antoine Yang, Yao Fu, Srinivas Sunkara, Maria Wang, Jindong Chen, Mohit Bansal, Boqing Gong
3
1

Les agents d'IA multimodaux automatisent de plus en plus des flux de travail complexes du monde réel impliquant une exécution en ligne. Cependant, les benchmarks actuels pour agents web souffrent d'une limitation critique : ils se concentrent entièrement sur l'interaction et la perception basées sur le web, sans ancrage dans l'environnement physique réel de l'utilisateur. Cette limitation empêche l'évaluation dans des scénarios cruciaux, comme lorsqu'un agent doit utiliser une perception visuelle égocentrique (par exemple, via des lunettes de réalité augmentée) pour reconnaître un objet dans l'environnement de l'utilisateur, puis accomplir une tâche en ligne connexe. Pour combler cette lacune, nous présentons Ego2Web, le premier benchmark conçu pour faire le lien entre la perception vidéo égocentrique et l'exécution par un agent web. Ego2Web associe des enregistrements vidéo réels à la première personne à des tâches web qui nécessitent une compréhension visuelle, une planification de tâches web et une interaction dans un environnement en ligne pour être accomplies avec succès. Nous utilisons un pipeline de génération automatique de données combiné à une vérification et un affinage humains pour constituer des paires vidéo-tâche bien construites et de haute qualité, couvrant divers types de tâches web, notamment le commerce électronique, la récupération de médias, la recherche d'informations, etc. Pour faciliter une évaluation précise et évolutive de notre benchmark, nous développons également une nouvelle méthode d'évaluation automatique LLM-comme-Juge, Ego2WebJudge, qui atteint environ 84 % d'accord avec le jugement humain, un taux substantiellement plus élevé que les méthodes d'évaluation existantes. Les expériences menées avec divers agents SoTA sur notre benchmark Ego2Web montrent que leurs performances sont faibles, avec une marge d'amélioration substantielle dans toutes les catégories de tâches. Nous menons également une étude d'ablation complète sur la conception des tâches, mettant en lumière la nécessité d'une compréhension précise de la vidéo dans la tâche proposée et les limites des agents actuels. Nous espérons qu'Ego2Web pourra constituer une nouvelle ressource essentielle pour développer de véritables assistants IA capables de voir, de comprendre et d'agir de manière transparente à travers les mondes physique et numérique.

26

Alignement compositionnel guidé par l'incertitude avec représentativité sémantique partie-à-tout dans les modèles vision-langage hyperboliques
Uncertainty-guided Compositional Alignment with Part-to-Whole Semantic Representativeness in Hyperbolic Vision-Language Models

Mar 23
ByHayeon Kim, Ji Ha Jang, Junghun James Kim, Se Young Chun
3
1

Bien que les modèles vision-langage (VLM) aient atteint des performances remarquables, leurs plongements euclidiens restent limités pour capturer les relations hiérarchiques telles que les structures partie-à-tout ou parent-enfant, et rencontrent souvent des difficultés dans les scénarios compositionnels multi-objets. Les VLM hyperboliques atténuent ce problème en préservant mieux les structures hiérarchiques et en modélisant les relations partie-tout (c'est-à-dire la scène entière et ses images partielles) par inférence. Cependant, les approches existantes ne modélisent pas le fait que chaque partie possède un niveau différent de représentativité sémantique par rapport au tout. Nous proposons UNcertainty-guided Compositional Hyperbolic Alignment (UNCHA) pour améliorer les VLM hyperboliques. UNCHA modélise la représentativité sémantique partie-à-tout avec une incertitude hyperbolique, en attribuant une incertitude plus faible aux parties plus représentatives et une incertitude plus élevée aux parties moins représentatives pour la scène globale. Cette représentativité est ensuite incorporée dans l'objectif contrastif avec des pondérations guidées par l'incertitude. Enfin, l'incertitude est calibrée par une perte d'inférence régularisée par un terme basé sur l'entropie. Grâce aux pertes proposées, UNCHA apprend des plongements hyperboliques avec un ordonnancement partie-tout plus précis, capturant la structure compositionnelle sous-jacente d'une image et améliorant sa compréhension des scènes multi-objets complexes. UNCHA obtient des performances de pointe sur les benchmarks de classification zero-shot, de recherche et de classification multi-labels. Notre code et nos modèles sont disponibles à l'adresse : https://github.com/jeeit17/UNCHA.git.

27

ABot-PhysWorld : Modèle Fondamental de Monde Interactif pour la Manipulation Robotique avec Alignement Physique
ABot-PhysWorld: Interactive World Foundation Model for Robotic Manipulation with Physics Alignment

Mar 24
ByYuzhi Chen, Ronghan Chen, Dongjie Huo, Yandan Yang, Dekang Qi, Haoyun Liu, Tong Lin, Shuang Zeng, Junjin Xiao, Xinyuan Chang, Feng Xiong, Xing Wei, Zhiheng Ma, Mu Xu
2
0

Les modèles de monde basés sur la vidéo offrent un paradigme puissant pour la simulation et la planification incarnées. Cependant, les modèles de l'état de l'art génèrent souvent des manipulations physiquement improbables - telles que la pénétration d'objets et des mouvements anti-gravité - en raison de l'entraînement sur des données visuelles génériques et d'objectifs basés sur la vraisemblance qui ignorent les lois physiques. Nous présentons ABot-PhysWorld, un modèle Transformeur à Diffusion de 14B qui génère des vidéos visuellement réalistes, physiquement plausibles et contrôlables par l'action. Construit sur un jeu de données curé de trois millions de clips de manipulation avec une annotation consciente de la physique, il utilise un nouveau cadre de post-formation basé sur DPO avec des discriminateurs découplés pour supprimer les comportements non physiques tout en préservant la qualité visuelle. Un bloc de contexte parallèle permet une injection d'action spatiale précise pour un contrôle trans-embodiment. Pour mieux évaluer la généralisation, nous introduisons EZSbench, le premier benchmark de type "zéro-shot incarné" indépendant de l'entraînement, combinant des combinaisons réelles et synthétiques non vues de robot-tâche-scène. Il emploie un protocole découplé pour évaluer séparément le réalisme physique et l'alignement de l'action. ABot-PhysWorld atteint de nouvelles performances de pointe sur PBench et EZSbench, surpassant Veo 3.1 et Sora v2 Pro en plausibilité physique et en cohérence de trajectoire. Nous publierons EZSbench pour promouvoir une évaluation standardisée dans la génération de vidéos incarnées.

28

Raisonnement ou Rhétorique ? Une Analyse Empirique des Explications du Raisonnement Moral dans les Grands Modèles de Langage
Reasoning or Rhetoric? An Empirical Analysis of Moral Reasoning Explanations in Large Language Models

Mar 23
ByAryan Kasat, Smriti Singh, Aman Chadha, Vinija Jain
2
1

Les grands modèles de langage raisonnent-ils moralement, ou donnent-ils simplement l'impression de le faire ? Nous examinons si les réponses des LLM aux dilemmes moraux présentent une progression développementale authentique à travers les stades du développement moral de Kohlberg, ou si l'alignement produit plutôt des sorties similaires à un raisonnement qui ressemblent superficiellement à un jugement moral mature sans la trajectoire développementale sous-jacente. En utilisant un pipeline de notation par LLM-comme-juge validé sur trois modèles évaluateurs, nous classons plus de 600 réponses de 13 LLM couvrant une gamme d'architectures, d'échelles de paramètres et de régimes d'entraînement sur six dilemmes moraux classiques, et menons dix analyses complémentaires pour caractériser la nature et la cohérence interne des motifs obtenus. Nos résultats révèlent une inversion frappante : les réponses correspondent massivement à un raisonnement post-conventionnel (Stades 5-6), indépendamment de la taille, de l'architecture du modèle ou de la stratégie d'invite, soit l'inverse effectif des normes développementales humaines, où le Stade 4 domine. Plus frappant encore, un sous-ensemble de modèles présente un découplage moral : une incohérence systématique entre la justification morale énoncée et le choix d'action, une forme d'incohérence logique qui persiste quelle que soit l'échelle ou la stratégie d'invite et représente un échec direct de la cohérence du raisonnement, indépendant de la sophistication rhétorique. L'échelle du modèle a un effet statistiquement significatif mais pratiquement faible ; le type d'entraînement n'a pas d'effet principal indépendant significatif ; et les modèles présentent une cohérence quasi robotique entre les dilemmes, produisant des réponses logiquement indiscernables à travers des problèmes moraux sémantiquement distincts. Nous postulons que ces motifs constituent des preuves en faveur d'un ventriloquisme moral : l'acquisition, via l'alignement, des conventions rhétoriques du raisonnement moral mature sans la trajectoire développementale sous-jacente que ces conventions sont censées représenter.

29

Régulation des agents d'IA
Regulating AI Agents

Mar 24
ByKathrin Gardhouse, Amin Oueslati, Noam Kolt
2
1

Les agents IA – des systèmes capables d'entreprendre des actions de manière autonome pour poursuivre des objectifs complexes avec une supervision humaine limitée – sont entrés dans le courant dominant. Ces systèmes sont désormais largement utilisés pour produire des logiciels, mener des activités commerciales et automatiser les tâches personnelles quotidiennes. Bien que les agents IA concernent de nombreux domaines du droit, allant du droit des mandats et des contrats à la responsabilité civile délictuelle et au droit du travail, ils soulèvent des questions particulièrement pressantes pour la régulation de l'IA la plus importante à l'échelle mondiale : la Loi sur l'IA de l'Union européenne. Promulguée avant le développement et l'utilisation généralisée des agents IA, la Loi européenne sur l'IA rencontre des obstacles significatifs pour faire face aux défis de gouvernance découlant de cette technologie transformative, tels que les défaillances de performance dans l'exécution autonome des tâches, le risque de mauvaise utilisation des agents par des acteurs malveillants, et l'accès inégal aux opportunités économiques offertes par les agents IA. Nous analysons systématiquement la réponse de la Loi européenne sur l'IA à ces défis, en nous concentrant à la fois sur les dispositions substantielles de la réglementation et, crucialement, sur les cadres institutionnels qui visent à soutenir sa mise en œuvre. Notre analyse de la répartition des responsabilités de surveillance et d'exécution par la Loi, de son recours à l'autorégulation sectorielle et du niveau de ressources gouvernementales allouées, illustre comment un cadre réglementaire conçu pour les systèmes d'IA conventionnels peut être inadapté aux agents IA. Dans leur ensemble, nos conclusions suggèrent que les décideurs politiques de l'UE et d'ailleurs devront modifier leur approche, et rapidement, s'ils veulent régir efficacement la prochaine génération de technologie IA.

30

Mémoire de Risque de Session (SRM) : Autorisation Temporelle pour des Barrières de Sécurité Déterministes en Pré-exécution
Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates

Mar 22
ByFlorin Adrian Chitan
1
1

Les portiques de sécurité déterministes en pré-exécution évaluent si les actions individuelles d'un agent sont compatibles avec ses rôles assignés. Bien qu'efficaces pour l'autorisation action par action, ces systèmes sont structurellement aveugles aux attaques distribuées qui décomposent une intention malveillante en plusieurs étapes individuellement conformes. Cet article présente la Mémoire de Risque de Session (SRM), un module déterministe léger qui étend les portiques d'exécution sans état avec une autorisation au niveau de la trajectoire. SRM maintient un centroïde sémantique compact représentant le profil comportemental évolutif d'une session d'agent et accumule un signal de risque via une moyenne mobile exponentielle sur les sorties des portiques après soustraction de la ligne de base. Il opère sur la même représentation vectorielle sémantique que le portique sous-jacent, ne nécessitant aucun composant modèle supplémentaire, entraînement ou inférence probabiliste. Nous évaluons SRM sur un benchmark multi-tours de 80 sessions contenant des scénarios d'exfiltration lente, d'élévation de privilèges graduelle et de dérive de conformité. Les résultats montrent que ILION+SRM atteint F1 = 1,0000 avec 0% de taux de faux positifs, contre F1 = 0,9756 avec 5% de FPR pour ILION sans état, tout en maintenant un taux de détection de 100% pour les deux systèmes. Fait crucial, SRM élimine tous les faux positifs avec une surcharge par tour inférieure à 250 microsecondes. Le cadre introduit une distinction conceptuelle entre la cohérence d'autorisation spatiale (évaluée par action) et la cohérence d'autorisation temporelle (évaluée sur la trajectoire), fournissant une base principielle pour la sécurité au niveau session dans les systèmes agentiels.

31

Agent STEM : Une architecture auto-adaptative, équipée d'outils et extensible pour les systèmes d'agents IA multi-protocoles
STEM Agent: A Self-Adapting, Tool-Enabled, Extensible Architecture for Multi-Protocol AI Agent Systems

Mar 22
ByAlfred Shen, Aaron Shen
1
0

Les frameworks actuels d'agents IA s'engagent prématurément dans un protocole d'interaction unique, une stratégie d'intégration d'outils fixe et des modèles d'utilisateur statiques, limitant leur déploiement à travers les paradigmes d'interaction diversifiés. Pour résoudre ces contraintes, nous présentons STEM Agent (Self-adapting, Tool-enabled, Extensible, Multi-agent), une architecture modulaire inspirée par la pluripotence biologique dans laquelle un cœur d'agent indifférencié se différencie en gestionnaires de protocoles spécialisés, liaisons d'outils et sous-systèmes de mémoire qui se composent en un système d'IA pleinement fonctionnel. Le framework unifie cinq protocoles d'interopérabilité (A2A, AG-UI, A2UI, UCP et AP2) derrière une passerelle unique, introduit un Profileur d'Appelant qui apprend continuellement les préférences des utilisateurs sur plus de vingt dimensions comportementales, externalise toutes les capacités domaines via le Model Context Protocol (MCP), et implémente un système d'acquisition de compétences biologiquement inspiré où les schémas d'interaction récurrents se cristallisent en compétences d'agent réutilisables à travers un cycle de maturation analogue à la différenciation cellulaire. En complément de ces capacités, le système de mémoire intègre des mécanismes de consolidation, incluant l'élagage épisodique, la déduplication sémantique et l'extraction de motifs, conçus pour une croissance sous-linéaire sous interaction soutenue. Une suite exhaustive de 413 tests valide le comportement des gestionnaires de protocole et l'intégration des composants sur les cinq couches architecturales, s'exécutant en moins de trois secondes.

32

SHAMISA : Modélisation à Forme des Associations Structurelles Implicites pour l'Évaluation de la Qualité d'Image Sans Référence en Auto-supervision
SHAMISA: SHAped Modeling of Implicit Structural Associations for Self-supervised No-Reference Image Quality Assessment

Mar 14
ByMahdi Naseri, Zhou Wang
1
1

L'évaluation de la qualité d'image sans référence (NR-IQA) vise à estimer la qualité perceptuelle sans avoir accès à une image de référence de qualité parfaite. L'apprentissage d'un modèle NR-IQA se heurte à un goulot d'étranglement fondamental : son besoin d'un grand nombre d'annotations perceptuelles humaines, coûteuses à obtenir. Nous proposons SHAMISA, un cadre auto-supervisé non contrastif qui apprend à partir d'images dégradées non annotées en exploitant une supervision relationnelle explicitement structurée. Contrairement aux méthodes antérieures qui imposent des contraintes de similarité binaires et rigides, SHAMISA introduit des associations structurelles implicites, définies comme des relations douces et contrôlables qui sont à la fois sensibles à la distorsion et au contenu, inférées à partir de métadonnées synthétiques et de la structure intrinsèque des caractéristiques. Une innovation clé est notre moteur de distorsion compositionnel, qui génère une famille indénombrable de dégradations à partir d'espaces de paramètres continus, regroupées de telle sorte qu'un seul facteur de distorsion varie à la fois. Cela permet un contrôle fin de la similarité représentationnelle pendant l'entraînement : les images partageant des patterns de distorsion sont rapprochées dans l'espace d'incorporation, tandis que les variations de sévérité produisent des déplacements structurés et prévisibles. Nous intégrons ces concepts via des graphes relationnels à double source qui codent à la fois les profils de dégradation connus et les affinités structurelles émergentes pour guider le processus d'apprentissage tout au long de l'entraînement. Un encodeur convolutionnel est entraîné sous cette supervision puis gelé pour l'inférence, la prédiction de qualité étant effectuée par un régresseur linéaire sur ses caractéristiques. Des expériences approfondies sur des benchmarks NR-IQA synthétiques, authentiques et inter-jeux de données démontrent que SHAMISA atteint de solides performances globales avec une généralisation et une robustesse inter-jeux de données améliorées, le tout sans annotations de qualité humaines ni pertes contrastives.

33

Curriculum d'Emplacements Guidé par la Reconstruction : Résoudre la Sur-Fragmentation des Objets dans l'Apprentissage Vidéo Centré sur les Objets
Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

Mar 24
ByWonJun Moon, Hyun Seok Seong, Jae-Pil Heo
1
1

L'apprentissage centré sur les objets vidéo vise à décomposer les vidéos brutes en un petit ensemble d'emplacements d'objets (slots), mais les modèles existants basés sur l'attention par slots souffrent souvent d'une sur-fragmentation sévère. Cela s'explique par le fait que le modèle est implicitement incité à occuper tous les slots pour minimiser l'objectif de reconstruction, représentant ainsi un seul objet avec plusieurs slots redondants. Nous abordons cette limitation avec un curriculum de slots guidé par la reconstruction (SlotCurri). L'entraînement commence avec seulement quelques slots grossiers et alloue progressivement de nouveaux slots là où l'erreur de reconstruction reste élevée, étendant ainsi la capacité uniquement là où elle est nécessaire et empêchant la fragmentation dès le départ. Cependant, lors de l'expansion des slots, des sous-parties significatives ne peuvent émerger que si la sémantique de niveau grossier est déjà bien séparée ; or, avec un budget initial réduit de slots et un objectif d'erreur quadratique moyenne (MSE), les frontières sémantiques restent floues. Par conséquent, nous complétons le MSE par une fonction de loss sensible à la structure qui préserve le contraste local et les informations de contour pour encourager chaque slot à affiner ses frontières sémantiques. Enfin, nous proposons une inférence cyclique qui propage les slots vers l'avant puis vers l'arrière à travers la séquence d'images, produisant des représentations d'objets temporellement cohérentes, même dans les images les plus anciennes. Combiné, SlotCurri résout la sur-fragmentation des objets en allouant la capacité de représentation là où la reconstruction échoue, améliorée en outre par des indices structurels et l'inférence cyclique. Des gains notables de +6,8 en FG-ARI sur YouTube-VIS et de +8,3 sur MOVi-C valident l'efficacité de SlotCurri. Notre code est disponible sur github.com/wjun0830/SlotCurri.

34

Les agents d'IA peuvent-ils répondre à vos questions sur les données ? Un benchmark pour les agents de données
Can AI Agents Answer Your Data Questions? A Benchmark for Data Agents

Mar 21
ByRuiying Ma, Shreya Shankar, Ruiqi Chen, Yiming Lin, Sepanta Zeighami, Rajoshi Ghosh, Abhinav Gupta, Anushrut Gupta, Tanmai Gopal, Aditya G. Parameswaran
0
1

Les utilisateurs en entreprise dépendent de plus en plus d'agents d'IA pour interroger leurs données en langage naturel. Cependant, la création d'agents de données fiables reste difficile car les données du monde réel sont souvent fragmentées entre plusieurs systèmes de bases de données hétérogènes, avec des références incohérentes et des informations enfouies dans du texte non structuré. Les benchmarks existants ne traitent que des aspects isolés de ce problème – par exemple, la traduction de questions en langage naturel en requêtes SQL, ou la réponse à des questions sur de petites tables fournies en contexte – mais n'évaluent pas le pipeline complet d'intégration, de transformation et d'analyse des données à travers plusieurs systèmes de bases de données. Pour combler cette lacune, nous présentons le Data Agent Benchmark (DAB), fondé sur une étude formative des charges de travail des agents de données en entreprise dans six industries. Le DAB comprend 54 requêtes réparties sur 12 jeux de données, 9 domaines et 4 systèmes de gestion de bases de données. Sur le DAB, le meilleur modèle frontalier (Gemini-3-Pro) n'atteint qu'une précision pass@1 de 38 %. Nous évaluons cinq LLM frontaliers, analysons leurs modes d'échec et tirons des enseignements pour le développement futur des agents de données. Notre benchmark et notre code expérimental sont publiés sur github.com/ucbepic/DataAgentBench.

Mar 24
Mar 25
Mar 26