HuggingFace Daily Papers

Articles du Jour

Articles de recherche IA sélectionnés quotidiennement avec traductions

Sélectionner une date

33 papers found

Raisonnement efficace par une pensée équilibrée
Efficient Reasoning with Balanced Thinking

Mar 12

ByYulin Li, Tengyao Tu, Li Ding, Junjie Wang, Huiling Zhen, Yixin Chen, Yong Li, Zhuotao Tian

127

Les grands modèles de raisonnement (LRM) ont démontré des capacités de raisonnement remarquables, mais ils souffrent souvent de sur-réflexion, dépensant des étapes de calcul redondantes sur des problèmes simples, ou de sous-réflexion, échouant à explorer suffisamment de chemins de raisonnement malgré leurs capacités intrinsèques. Ces problèmes entraînent des inefficacités et des inexactitudes potentielles, limitant le déploiement pratique dans des contextes à ressources limitées. Les méthodes existantes pour atténuer la sur-réflexion, telles que la suppression de mots-clés réflexifs ou l'ajustement de la longueur du raisonnement, peuvent induire involontairement une sous-réflexion, compromettant la précision. Par conséquent, nous proposons ReBalance, un cadre sans entraînement qui permet un raisonnement efficace avec une réflexion équilibrée. ReBalance utilise la confiance comme indicateur continu de la dynamique du raisonnement, identifiant la sur-réflexion par une variance élevée de la confiance et la sous-réflexion via une surconfiance persistante. En agrégeant les états cachés d'un jeu de données à petite échelle en prototypes de modes de raisonnement, nous calculons un vecteur directeur pour guider les trajectoires de raisonnement des LRM. Une fonction de contrôle dynamique module la force et la direction de ce vecteur en fonction de la confiance en temps réel, élaguant la redondance pendant la sur-réflexion et favorisant l'exploration pendant la sous-réflexion. Des expériences approfondies menées sur quatre modèles allant de 0,5B à 32B paramètres, et sur neuf benchmarks couvrant le raisonnement mathématique, les questions-réponses générales et les tâches de programmation, démontrent que ReBalance réduit efficacement la redondance des sorties tout en améliorant la précision, offrant une stratégie générale, sans entraînement et plug-and-play pour un déploiement efficace et robuste des LRM. Le code est disponible à l'adresse https://github.com/yu-lin-li/ReBalance.

MetaClaw : Just Talk — Un agent qui méta-apprend et évolue en conditions réelles
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Mar 17

ByPeng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao

110

Les agents de modèles de langage de grande taille (LLM) sont de plus en plus utilisés pour des tâches complexes, mais les agents déployés restent souvent statiques, incapables de s'adapter à l'évolution des besoins des utilisateurs. Cela crée une tension entre la nécessité d'un service continu et celle de mettre à jour les capacités pour correspondre à des distributions de tâches changeantes. Sur des plateformes comme OpenClaw, qui gèrent des charges de travail diverses sur plus de 20 canaux, les méthodes existantes stockent soit des trajectoires brutes sans distillation des connaissances, maintiennent des bibliothèques de compétences statiques, ou nécessitent des interruptions de service perturbatrices pour le réentraînement. Nous présentons MetaClaw, un cadre de méta-apprentissage continu qui fait évoluer conjointement une politique de base de LLM et une bibliothèque de compétences comportementales réutilisables. MetaClaw emploie deux mécanismes complémentaires. L'adaptation rapide pilotée par les compétences analyse les trajectoires d'échec via un module d'évolution de LLM pour synthétiser de nouvelles compétences, permettant une amélioration immédiate sans temps d'arrêt. L'optimisation opportuniste des politiques effectue des mises à jour par gradient via un fine-tuning LoRA dans le cloud et un Apprentissage par Renforcement avec un Modèle de Récompense de Processus (RL-PRM). Ceci est déclenché pendant les fenêtres d'inactivité des utilisateurs par le Planificateur de Méta-Apprentissage Opportuniste (OMLS), qui surveille l'inactivité du système et les données calendaires. Ces mécanismes se renforcent mutuellement : une politique affinée génère de meilleures trajectoires pour la synthèse des compétences, tandis que des compétences plus riches fournissent des données de meilleure qualité pour l'optimisation des politiques. Pour éviter la contamination des données, un mécanisme de versionnement sépare les données de support et de requête. Construit sur une architecture à base de proxies, MetaClaw s'adapte à des LLM de taille production sans GPU locaux. Les expériences sur MetaClaw-Bench et AutoResearchClaw montrent que l'adaptation pilotée par les compétences améliore la précision jusqu'à 32% en valeur relative. Le pipeline complet fait progresser la précision de Kimi-K2.5 de 21,4% à 40,6% et augmente la robustesse composite de 18,3%. Le code est disponible à l'adresse https://github.com/aiming-lab/MetaClaw.

Video-CoE : Renforcement de la prédiction d'événements vidéo via une chaîne d'événements
Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Mar 16

ByQile Su, Jing Tang, Rui Chen, Lei Sun, Xiangxiang Chu

Malgré les progrès dans l'application des MLLM (Modèles de Langage Multimodaux) pour diverses tâches vidéo, la prédiction d'événements vidéo (VEP) reste relativement peu explorée. La VEP nécessite que le modèle effectue une modélisation temporelle fine des vidéos et établisse des relations logiques entre les vidéos et les événements futurs, ce avec quoi les MLLM actuels éprouvent encore des difficultés. Dans ce travail, nous présentons d'abord une évaluation complète des MLLM leaders actuels sur la tâche de VEP, révélant les raisons de leurs prédictions inexactes, notamment le manque de capacité de raisonnement logique pour la prédiction d'événements futurs et une utilisation insuffisante de l'information visuelle. Pour relever ces défis, nous proposons le paradigme de la Chaîne d'Événements (CoE), qui construit des chaînes d'événements temporelles pour contraindre implicitement le MLLM à se concentrer sur le contenu visuel et les connexions logiques entre les vidéos et les événements futurs, stimulant ainsi la capacité de raisonnement du modèle via plusieurs protocoles d'entraînement. Les résultats expérimentaux sur des benchmarks publics démontrent que notre méthode surpasse à la fois les MLLM open-source leaders et les MLLM commerciaux, établissant un nouvel état de l'art sur la tâche de VEP. Les codes et les modèles seront bientôt publiés.

MosaicMem : Mémoire spatiale hybride pour les modèles de monde vidéo contrôlables
MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Mar 17

ByWei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg

Les modèles de diffusion vidéo dépassent désormais la génération de courts clips plausibles pour évoluer vers des simulateurs mondiaux devant maintenir leur cohérence face aux mouvements de caméra, aux revisites et aux interventions. Pourtant, la mémoire spatiale reste un goulot d'étranglement majeur : les structures 3D explicites améliorent la cohérence par reprojection mais peinent à représenter les objets mobiles, tandis que la mémoire implicite produit souvent des mouvements de caméra inexacts même avec des poses correctes. Nous proposons Mosaic Memory (MosaicMem), une mémoire spatiale hybride qui projette des patches en 3D pour une localisation fiable et une récupération ciblée, tout en exploitant le conditionnement natif du modèle pour préserver la génération fidèle au prompt. MosaicMem compose des patches spatialement alignés dans la vue interrogée via une interface de patch-and-compose, préservant ce qui doit persister tout en permettant au modèle d'inpainter ce qui doit évoluer. Avec le conditionnement caméra PRoPE et deux nouvelles méthodes d'alignement mémoire, les expériences montrent une meilleure adhérence aux poses comparé à la mémoire implicite et une modélisation dynamique plus robuste que les approches explicites. MosaicMem permet en outre une navigation à l'échelle de la minute, l'édition de scènes basée sur la mémoire et le déploiement autorégressif.

L'alignement rend les modèles de langage normatifs, pas descriptifs
Alignment Makes Language Models Normative, Not Descriptive

Mar 17

ByEilam Shapira, Moshe Tennenholtz, Roi Reichart

L'alignement post-formation optimise les modèles de langage pour qu'ils correspondent aux signaux de préférence humaine, mais cet objectif n'est pas équivalent à la modélisation du comportement humain observé. Nous comparons 120 paires de modèles de base et alignés sur plus de 10 000 décisions réelles d'humains dans des jeux stratégiques à plusieurs tours – négociation, persuasion, marchandage et jeux matriciels répétés. Dans ces contextes, les modèles de base surpassent leurs homologues alignés dans la prédiction des choix humains par un ratio de près de 10 pour 1, de manière robuste quelles que soient les familles de modèles, les formulations des invites ou les configurations de jeu. Ce schéma s'inverse cependant dans les situations où le comportement humain est plus susceptible de suivre des prédictions normatives : les modèles alignés dominent sur les jeux universitaires en un seul tour (sur les 12 types testés) et sur les choix de loterie non stratégiques – et même au sein des jeux à plusieurs tours eux-mêmes, au premier tour, avant que l'historique d'interaction ne se développe. Ce schéma de condition limite suggère que l'alignement induit un biais normatif : il améliore la prédiction lorsque le comportement humain est relativement bien saisi par des solutions normatives, mais nuit à la prédiction dans les contextes stratégiques multi-tours, où le comportement est façonné par des dynamiques descriptives telles que la réciprocité, la riposte et l'adaptation dépendante de l'historique. Ces résultats révèlent un compromis fondamental entre l'optimisation des modèles pour une utilisation humaine et leur utilisation comme substituts du comportement humain.

Apprentissage par Renforcement Complémentaire
Complementary Reinforcement Learning

Mar 18

ByDilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng

L'apprentissage par renforcement (RL) est apparu comme un paradigme puissant pour entraîner des agents basés sur LLM, mais il reste limité par une faible efficacité d'échantillonnage, découlant non seulement de retours d'information épars sur les résultats, mais aussi de l'incapacité de l'agent à tirer parti de l'expérience antérieure à travers les épisodes. Bien que l'augmentation des agents avec une expérience historique offre une solution prometteuse, les approches existantes souffrent d'une faiblesse critique : l'expérience distillée à partir de l'histoire est soit stockée statiquement, soit ne parvient pas à co-évoluer avec l'acteur qui s'améliore, provoquant un désalignement progressif entre l'expérience et la capacité évolutive de l'acteur qui diminue son utilité au cours de l'entraînement. Inspiré par les systèmes d'apprentissage complémentaires en neurosciences, nous présentons le RL Complémentaire pour réaliser une co-évolution transparente d'un extracteur d'expérience et d'un acteur de politique dans la boucle d'optimisation du RL. Plus précisément, l'acteur est optimisé via des récompenses éparses basées sur les résultats, tandis que l'extracteur d'expérience est optimisé en fonction de si ses expériences distillées contribuent de manière démontrable au succès de l'acteur, faisant ainsi évoluer sa stratégie de gestion de l'expérience au même rythme que les capacités croissantes de l'acteur. Empiriquement, le RL Complémentaire surpasse les lignes de base de RL agentique basées sur les résultats qui n'apprennent pas de l'expérience, obtenant une amélioration des performances de 10 % dans des scénarios à tâche unique et présentant une scalabilité robuste dans des configurations multi-tâches. Ces résultats établissent le RL Complémentaire comme un paradigme pour un apprentissage agentique efficace guidé par l'expérience.

Quand l'IA navigue dans le brouillard de la guerre
When AI Navigates the Fog of War

Mar 17

ByMing Li, Xirui Li, Tianyi Zhou

L'IA peut-elle raisonner sur une guerre avant que sa trajectoire ne devienne historiquement évidente ? Analyser cette capacité est difficile car la prédiction géopolitique rétrospective est fortement biaisée par la fuite de données d'entraînement. Nous abordons ce défi grâce à une étude de cas temporellement ancrée sur les premières phases du conflit moyen-oriental de 2026, qui s'est déroulé après la date de coupure des données d'entraînement des modèles de pointe actuels. Nous construisons 11 nœuds temporels critiques, 42 questions vérifiables spécifiques à chaque nœud et 5 questions exploratoires générales, exigeant des modèles qu'ils raisonnent uniquement à partir des informations qui auraient été publiquement disponibles à chaque moment. Cette conception atténue substantiellement les problèmes de fuite des données d'entraînement, créant un cadre bien adapté pour étudier comment les modèles analysent une crise en développement sous le brouillard de la guerre, et fournit, à notre connaissance, la première analyse temporellement ancrée du raisonnement des LLM dans un conflit géopolitique en cours. Notre analyse révèle trois résultats principaux. Premièrement, les grands modèles de langage actuels font souvent preuve d'un degré frappant de réalisme stratégique, raisonnant au-delà de la rhétorique de surface vers des incitations structurelles plus profondes. Deuxièmement, cette capacité est inégale selon les domaines : les modèles sont plus fiables dans des contextes structurés sur les plans économique et logistique que dans des environnements politiquement ambigus à multiples acteurs. Enfin, les narratifs des modèles évoluent dans le temps, passant d'attentes précoces d'un confinement rapide à des explications plus systémiques d'enlisement régional et de désescalade attritionnelle. Comme le conflit est toujours en cours au moment de la rédaction, ce travail peut servir d'instantané archivistique du raisonnement des modèles lors d'une crise géopolitique en développement, permettant de futures études sans le biais de postériorité inhérent à l'analyse rétrospective.

GigaWorld-Policy : Un modèle monde-action efficace centré sur l'action
GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Mar 18

ByAngen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

Les modèles monde-action (WAM) initialisés à partir de modèles de génération vidéo pré-entraînés ont démontré un potentiel remarquable pour l'apprentissage de politiques robotiques. Cependant, les approches existantes rencontrent deux goulots d'étranglement critiques qui entravent les performances et le déploiement. Premièrement, le raisonnement conjoint sur la dynamique visuelle future et les actions correspondantes induit une surcharge computationnelle importante lors de l'inférence. Deuxièmement, la modélisation conjointe entremêle souvent les représentations visuelles et motrices, rendant la précision de la prédiction du mouvement fortement dépendante de la qualité des prévisions vidéo futures. Pour résoudre ces problèmes, nous présentons GigaWorld-Policy, un WAM centré sur l'action qui apprend la dynamique pixel-action 2D tout en permettant un décodage d'action efficace, avec une génération vidéo optionnelle. Concrètement, nous formulons l'entraînement de la politique en deux composantes couplées : le modèle prédit les séquences d'actions futures conditionnées par l'observation actuelle, et génère simultanément des vidéos futures conditionnées par les actions prédites et la même observation. La politique est supervisée à la fois par la prédiction d'actions et la génération vidéo, fournissant des signaux d'apprentissage plus riches et encourageant des actions physiquement plausibles grâce à des contraintes de dynamique visuelle. Grâce à une conception causale qui empêche les tokens vidéo futurs d'influencer les tokens d'action, la génération explicite de vidéos futures est optionnelle au moment de l'inférence, permettant une prédiction d'action plus rapide lors du déploiement. Pour soutenir ce paradigme, nous avons constitué un jeu de données robotique diversifié et à grande échelle pour pré-entraîner un modèle de génération vidéo centré sur l'action, qui est ensuite adapté comme backbone pour l'apprentissage de politiques robotiques. Les résultats expérimentaux sur des plateformes robotiques réelles montrent que GigaWorld-Policy fonctionne 9 fois plus vite que le principal modèle de référence WAM, Motus, tout en améliorant les taux de réussite des tâches de 7 %. De plus, par rapport à pi-0.5, GigaWorld-Policy ammente les performances de 95 % sur RoboTwin 2.0.

LoST : Niveau de Tokenisation Sémantique pour les Formes 3D
LoST: Level of Semantics Tokenization for 3D Shapes

Mar 18

ByNiladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen

La tokenisation est une technique fondamentale dans la modélisation générative de diverses modalités. Elle joue particulièrement un rôle crucial dans les modèles autorégressifs (AR), récemment apparus comme une option convaincante pour la génération 3D. Cependant, la tokenisation optimale des formes 3D reste une question ouverte. Les méthodes à l'état de l'art (SOTA) reposent principalement sur des hiérarchies de niveaux de détail (LoD) géométriques, conçues initialement pour le rendu et la compression. Ces hiérarchies spatiales sont souvent inefficaces en tokens et manquent de cohérence sémantique pour la modélisation AR. Nous proposons la Tokenisation par Niveau de Sémantique (LoST), qui ordonne les tokens par importance sémantique, de sorte que les préfixes initiaux se décodent en formes complètes et plausibles possédant la sémantique principale, tandis que les tokens suivants affinent les détails géométriques et sémantiques spécifiques à l'instance. Pour entraîner LoST, nous introduisons l'Alignement Relationnel des Inter-Distances (RIDA), une nouvelle fonction de perte d'alignement sémantique 3D qui aligne la structure relationnelle de l'espace latent des formes 3D avec celle de l'espace des caractéristiques sémantiques DINO. Les expériences montrent que LoST atteint une reconstruction SOTA, surpassant largement les tokenizers de formes 3D basés sur le LoD précédents, à la fois sur les métriques de reconstruction géométrique et sémantique. De plus, LoST permet une génération 3D AR efficace et de haute qualité, et autorise des tâches aval comme la recherche sémantique, tout en n'utilisant que 0,1 % à 10 % des tokens requis par les modèles AR antérieurs.

Regarder avant d'agir : Améliorer les représentations des fondations visuelles pour les modèles vision-langage-action
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Mar 16

ByYulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

Les modèles Vision-Langage-Action (VLA) ont récemment émergé comme un paradigme prometteur pour la manipulation robotique, où la prédiction d'actions fiables dépend de manière critique de l'interprétation et de l'intégration précises des observations visuelles conditionnées par des instructions langagières. Bien que des travaux récents aient cherché à améliorer les capacités visuelles des modèles VLA, la plupart des approches traitent le modèle de langage de base comme une boîte noire, offrant une compréhension limitée de la manière dont l'information visuelle est ancrée dans la génération d'actions. Par conséquent, nous réalisons une analyse systématique de plusieurs modèles VLA à travers différents paradigmes de génération d'actions et observons que la sensibilité aux tokens visuels diminue progressivement dans les couches plus profondes lors de la génération d'actions. Motivés par cette observation, nous proposons DeepVision-VLA, construit sur un cadre Vision-Langage Mixture-of-Transformers (VL-MoT). Ce cadre permet une attention partagée entre le modèle de fondation visuelle et le modèle de base VLA, injectant des caractéristiques visuelles multi-niveaux de l'expert visuel dans les couches plus profondes du modèle de base VLA pour améliorer les représentations visuelles en vue d'une manipulation précise et complexe. De plus, nous introduisons l'Élagage Visuel Guidé par l'Action (AGVP), qui exploite l'attention des couches superficielles pour élaguer les tokens visuels non pertinents tout en préservant ceux liés à la tâche, renforçant ainsi les indices visuels critiques pour la manipulation avec une surcharge computationnelle minimale. DeepVision-VLA surpasse les méthodes de l'état de l'art précédentes de 9,0 % et 7,5 % sur les tâches simulées et réelles, respectivement, offrant de nouvelles perspectives pour la conception de modèles VLA visuellement améliorés.

BenchPreS : un benchmark pour la sélectivité des préférences personnalisées en contexte des LLM à mémoire persistante
BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Mar 17

BySangyeon Yoon, Sunkyoung Kim, Hyesoo Hong, Wonje Jeung, Yongil Kim, Wooseok Seo, Heuiyeen Yeen, Albert No

Les grands modèles de langage (LLM) stockent de plus en plus les préférences des utilisateurs dans une mémoire persistante pour favoriser la personnalisation entre les interactions. Cependant, dans des contextes de communication tiers régis par des normes sociales et institutionnelles, certaines préférences utilisateur peuvent s'avérer inappropriées à appliquer. Nous présentons BenchPreS, un banc d'évaluation qui mesure si les préférences utilisateur issues de la mémoire sont correctement appliquées ou supprimées selon les contextes de communication. En utilisant deux métriques complémentaires, le Taux de Mauvaise Application (MR) et le Taux d'Application Appropriée (AAR), nous constatons que même les LLM les plus performants peinent à appliquer les préférences de manière sensible au contexte. Les modèles qui adhèrent plus fortement aux préférences présentent des taux plus élevés de surapplication, et ni les capacités de raisonnement ni les défenses basées sur l'invite ne résolvent entièrement ce problème. Ces résultats suggèrent que les LLM actuels traitent les préférences personnalisées comme des règles universellement applicables plutôt que comme des signaux normatifs dépendants du contexte.

Gains temporels, coûts spatiaux : Réexamen du fine-tuning vidéo dans les modèles de langage multimodaux de grande taille
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Mar 18

ByLinghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu

Les grands modèles de langage multimodaux (MLLM) sont généralement entraînés en plusieurs étapes, l'affinage supervisé basé sur la vidéo (Video-SFT) constituant une étape clé pour améliorer la compréhension visuelle. Pourtant, son effet sur l'évolution fine des capacités visuelles, en particulier l'équilibre entre la compréhension spatiale et temporelle, reste mal compris. Dans cet article, nous étudions systématiquement comment le Video-SFT reconfigure les capacités visuelles des MLLM. Quelles que soient les architectures, les échelles de paramètres et les stratégies d'échantillonnage de trames, nous observons un schéma constant : le Video-SFT améliore de manière fiable les performances vidéo, mais produit souvent des gains limités, voire une dégradation, sur les benchmarks d'images statiques. Nous montrons en outre que ce compromis est étroitement lié au budget temporel : augmenter le nombre de trames échantillonnées améliore généralement les performances vidéo, mais n'améliore pas de manière fiable les performances sur les images statiques. Motivés par cette observation, nous étudions une stratégie Hybride-Trames sensible aux instructions qui alloue de manière adaptative le nombre de trames et atténue partiellement le compromis image-vidéo. Nos résultats indiquent que le Video-SFT n'est pas une solution miracle pour les MLLM, et que la préservation de la compréhension spatiale reste un défi central dans l'entraînement conjoint image-vidéo.

ESPIRE : Un Benchmark Diagnostique pour le Raisonnement Spatial Incarné des Modèles Vision-Langage
ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Mar 13

ByYanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng

Une tendance récente dans les modèles vision-langage (VLM) consiste à améliorer leur cognition spatiale pour les domaines incarnés. Malgré les progrès réalisés, les évaluations existantes ont été limitées tant sur le plan du paradigme que de la couverture, entravant le développement rapide et itératif des modèles. Pour remédier à ces limitations, nous proposons ESPIRE, un benchmark diagnostique pour le raisonnement spatial incarné. ESPIRE offre un monde simulé qui ancre physiquement les VLM et les évalue sur des tâches robotiques centrées sur le raisonnement spatial, réduisant ainsi l'écart entre l'évaluation et le déploiement réel. Pour adapter les VLM aux tâches robotiques, nous décomposons chaque tâche en localisation et exécution, et formulons les deux comme des problèmes génératifs, en contraste marqué avec les évaluations discriminatives prédominantes (par exemple, via des questions-réponses visuelles) qui reposent sur des distracteurs et ignorent l'exécution. Cette décomposition permet en outre une analyse granulaire au-delà du raisonnement spatial passif, vers un raisonnement pour l'action. Nous concevons systématiquement ESPIRE à la fois au niveau des instructions et au niveau de l'environnement, garantissant une couverture étendue des scénarios de raisonnement spatial. Nous utilisons ESPIRE pour diagnostiquer une gamme de VLM de pointe et fournissons une analyse approfondie de leurs comportements de raisonnement spatial.

V-JEPA 2.1 : Libération des caractéristiques denses dans l'apprentissage auto-supervisé vidéo
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

Mar 15

ByLorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes

Nous présentons V-JEPA 2.1, une famille de modèles auto-supervisés qui apprennent des représentations visuelles denses et de haute qualité pour les images et les vidéos, tout en conservant une solide compréhension globale de la scène. L'approche combine quatre composants clés. Premièrement, une fonction de perte prédictive dense utilise un objectif basé sur le masquage où les tokens visibles et masqués contribuent tous deux au signal d'apprentissage, favorisant un ancrage spatial et temporel explicite. Deuxièmement, l'auto-supervision profonde applique l'objectif auto-supervisé de manière hiérarchique à travers plusieurs couches intermédiaires de l'encodeur pour améliorer la qualité de la représentation. Troisièmement, des tokenizers multi-modaux permettent un apprentissage unifié sur les images et les vidéos. Enfin, le modèle bénéficie d'une mise à l'échelle efficace à la fois de la capacité du modèle et des données d'apprentissage. Ensemble, ces choix de conception produisent des représentations spatialement structurées, sémantiquement cohérentes et temporellement stables. Empiriquement, V-JEPA 2.1 atteint des performances de pointe sur plusieurs benchmarks exigeants, notamment 7,71 mAP sur Ego4D pour l'anticipation à court terme des interactions avec les objets et 40,8 Recall@5 sur EPIC-KITCHENS pour l'anticipation d'actions de haut niveau, ainsi qu'une amélioration de 20 points du taux de réussite de la préhension robotique par rapport à V-JEPA-2 AC. Le modèle démontre également de solides performances en navigation robotique (5,687 ATE sur TartanDrive), en estimation de la profondeur (0,307 RMSE sur NYUv2 avec une sonde linéaire) et en reconnaissance globale (77,7 sur Something-Something-V2). Ces résultats montrent que V-JEPA 2.1 fait significativement progresser l'état de l'art dans la compréhension visuelle dense et la modélisation du monde.

Modèle de Monde Stéréo : Génération de Vidéos Stéréoscopiques Guidée par Caméra
Stereo World Model: Camera-Guided Stereo Video Generation

Mar 18

ByYang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi

Nous présentons StereoWorld, un modèle stéréoscopique conditionné par caméra qui apprend conjointement l'apparence et la géométrie binoculaire pour la génération stéréoscopique vidéo de bout en bout. Contrairement aux approches monoculaires RVB ou RVBD, StereoWorld fonctionne exclusivement dans la modalité RVB, tout en ancrant directement la géométrie à partir de la disparité. Pour réaliser efficacement une génération stéréoscopique cohérente, notre approche introduit deux conceptions clés : (1) un RoPE unifié dans le repère caméra qui enrichit les tokens latents avec un encodage positionnel rotatif conscient de la caméra, permettant un conditionnement relatif, cohérent en vue et dans le temps tout en préservant les pré-entraînements vidéo via une initialisation stable de l'attention ; et (2) une décomposition de l'attention stéréo-aware qui factorise l'attention 4D complète en une attention 3D intra-vue plus une attention horizontale par ligne, exploitant la contrainte épipolaire pour capturer des correspondances alignées sur la disparité avec une puissance de calcul substantiellement réduite. Sur divers benchmarks, StereoWorld améliore la cohérence stéréoscopique, la précision de la disparité et la fidélité du mouvement de caméra par rapport aux solides pipelines monoculaires puis convertis, réalisant une génération plus de 3 fois plus rapide avec un gain supplémentaire de 5 % en cohérence du point de vue. Au-delà des benchmarks, StereoWorld permet le rendu binoculaire RV de bout en bout sans estimation de profondeur ni inpainting, améliore l'apprentissage de politiques embodiées grâce à un ancrage métrique de la profondeur, et est compatible avec la distillation vidéo longue pour une synthèse stéréoscopique interactive étendue.

AdaMem : Mémoire adaptative centrée sur l'utilisateur pour les agents de dialogue à long terme
AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

Mar 17

ByShannan Yan, Jingchen Ni, Leqi Zheng, Jiajun Zhang, Peixi Wu, Dacheng Yin, Jing Lyu, Chun Yuan, Fengyun Rao

Les agents de modèles de langage de grande taille (LLM) s'appuient de plus en plus sur une mémoire externe pour prendre en charge les interactions à long terme, l'assistance personnalisée et le raisonnement à étapes multiples. Cependant, les systèmes de mémoire existants sont encore confrontés à trois défis fondamentaux : ils reposent souvent trop sur la similarité sémantique, ce qui peut omettre des preuves cruciales pour la compréhension centrée sur l'utilisateur ; ils stockent fréquemment des expériences connexes sous forme de fragments isolés, affaiblissant ainsi la cohérence temporelle et causale ; et ils utilisent généralement des granularités de mémoire statiques qui ne s'adaptent pas bien aux exigences des différentes questions. Nous proposons AdaMem, un framework de mémoire adaptatif et centré sur l'utilisateur pour les agents de dialogue à long terme. AdaMem organise l'historique des dialogues en mémoires de travail, épisodique, de persona et en graphes, permettant au système de préserver le contexte récent, les expériences structurées à long terme, les traits stables de l'utilisateur et les connexions sensibles aux relations dans un cadre unifié. Au moment de l'inférence, AdaMem résout d'abord le participant cible, puis construit une route de récupération conditionnée par la question qui combine la récupération sémantique avec l'expansion de graphe relationnelle uniquement lorsque nécessaire, et produit finalement la réponse grâce à un pipeline spécialisé par rôle pour la synthèse des preuves et la génération de réponses. Nous évaluons AdaMem sur les benchmarks LoCoMo et PERSONAMEM pour le raisonnement à long terme et la modélisation utilisateur. Les résultats expérimentaux montrent qu'AdaMem obtient des performances de pointe sur les deux benchmarks. Le code sera publié après acceptation.

Apprentissage de Politiques Robotiques Hors Ligne Conservateur par Repondération des Transitions Postérieures
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Mar 17

ByWanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu

L'adaptation hors ligne post-entraînement ajuste une politique de robot pré-entraînée à un jeu de données cible par régression supervisée sur les actions enregistrées. En pratique, les jeux de données robotiques sont hétérogènes : ils mélangent des embodiements, des configurations de caméras et des démonstrations de qualité variable, de sorte que de nombreuses trajectoires reflètent un comportement de rattrapage, une compétence incohérente de l'opérateur ou une supervision peu informative. L'adaptation post-entraînement uniforme accorde un crédit égal à tous les échantillons et peut donc moyenner des données conflictuelles ou à faible attribution. Nous proposons le Repondération par Transition Postérieure (PTR), une méthode post-entraînement conservative et sans récompense qui détermine l'influence de chaque échantillon d'entraînement sur la mise à jour supervisée. Pour chaque échantillon, PTR encode la conséquence post-action observée comme une cible latente, l'insère dans un pool candidat de cibles non appariées, et utilise un évaluateur de transition séparé pour estimer une postérieure d'identification softmax sur les indices des cibles. Le ratio postérieure-uniforme définit le score PTR, qui est converti en un poids mixte et tronqué puis appliqué à l'objectif d'action original via une régression pondérée auto-normalisée. Cette construction ne nécessite pas de vraisemblance de politique tractable et est compatible avec les têtes d'action par diffusion et par appariement de flux. Plutôt que de faire uniformément confiance à toute la supervision enregistrée, PTR réalloue le crédit selon l'attribuabilité de la conséquence post-action de chaque échantillon sous la représentation actuelle, améliorant l'adaptation hors ligne conservative aux données robotiques hétérogènes.

Exploration efficace à grande échelle
Efficient Exploration at Scale

Mar 18

BySeyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy

Nous développons un algorithme d'apprentissage en ligne qui améliore considérablement l'efficacité des données dans l'apprentissage par renforcement à partir de retours humains (RLHF). Notre algorithme met à jour de manière incrémentielle les modèles de récompense et de langage au fur et à mesure de la réception des données de choix. Le modèle de récompense est ajusté aux données de choix, tandis que le modèle de langage est mis à jour par une variante de l'algorithme REINFORCE, avec des signaux de renforcement fournis par le modèle de récompense. Plusieurs caractéristiques permettent ces gains d'efficacité : un petit coup de pouce affirmatif ajouté à chaque signal de renforcement, un réseau neuronal épistémique qui modélise l'incertitude de la récompense, et une exploration dirigée par l'information. Avec les grands modèles de langage (LLM) Gemma, notre algorithme atteint des performances équivalentes à celles du RLHF hors ligne entraîné sur 200 000 étiquettes en utilisant moins de 20 000 étiquettes, ce qui représente un gain d'efficacité des données de plus de 10 fois. En extrapolant nos résultats, nous estimons que notre algorithme entraîné sur 1 million d'étiquettes égalerait les performances du RLHF hors ligne entraîné sur 1 milliard d'étiquettes. Cela représente un gain de 1 000 fois. À notre connaissance, ce sont les premiers résultats à démontrer que de telles améliorations substantielles sont possibles.

Évaluation Unifiée des Tokens Spatio-Temporels pour des VLMs Vidéo Efficaces
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Mar 18

ByJianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee

L'élagage de tokens est essentiel pour améliorer l'efficacité computationnelle des modèles vision-langage (VLM), en particulier pour les tâches vidéo où la redondance temporelle est omniprésente. Les approches antérieures élaguent généralement les tokens soit (1) uniquement dans le transformeur de vision (ViT) pour des tâches de perception unimodale telles que la reconnaissance d'actions et la segmentation d'objets, sans adaptation aux tâches vision-langage en aval ; soit (2) uniquement dans le LLM tout en laissant la sortie du ViT intacte, nécessitant souvent des mécanismes complexes de sélection de tokens conditionnés par le texte. Dans cet article, nous présentons le *Spatio-Temporal Token Scoring* (STTS), un module simple et léger qui élagage les tokens visuels à la fois dans le ViT et le LLM sans conditionnement textuel ni fusion de tokens, et qui est entièrement compatible avec un apprentissage de bout en bout. En apprenant à noter temporellement via une perte auxiliaire et spatialement via les gradients du LLM en aval, aidé par notre algorithme de regroupement efficace, STTS élimine 50 % des tokens visuels dans l'ensemble de l'architecture, ce qui se traduit par une amélioration de 62 % de l'efficacité lors de l'entraînement et de l'inférence, avec seulement une baisse de 0,7 % des performances moyennes sur 13 tâches de question-réponse sur vidéos courtes et longues. Les gains d'efficacité augmentent avec un nombre d'images échantillonnées par vidéo plus élevé. L'application d'une mise à l'échelle au moment du test pour le QA sur vidéos longues permet en outre d'obtenir des gains de performance de 0,5 à 1 % par rapport à la ligne de base. Globalement, STTS représente une technique nouvelle, simple mais efficace pour un élagage unifié des tokens visuels à l'échelle de l'architecture.

Routage à Seuil Expert pour la Modélisation du Langage Autoregressif avec Allocation Dynamique de Calcul et Équilibrage de Charge
Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Mar 12

ByHanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun

Le Mixture-of-Experts à choix de token (TC-MoE) achemine chaque token vers un nombre fixe d'experts, limitant l'allocation dynamique des calculs et nécessitant des pertes auxiliaires pour maintenir l'équilibre de charge. Nous proposons un acheminement par seuil d'expert (ET), où chaque expert maintient un seuil de moyenne mobile exponentielle (EMA) estimé à partir de la distribution globale des tokens. Lors de l'entraînement et de l'inférence, chaque token est acheminé indépendamment vers un expert si son score dépasse le seuil de l'expert, permettant une allocation dynamique des calculs tout en atteignant l'équilibre de charge sans pertes auxiliaires. Ce mécanisme entièrement causal élimine la dépendance aux autres tokens du lot, le rendant bien adapté à la modélisation autoregressive du langage. Dans des expériences de pré-entraînement atteignant 2,4 milliards de paramètres sur FineWeb-Edu, ET obtient une perte d'entropie croisée inférieure de 0,067 par rapport au TC-MoE, ce qui équivaut à atteindre les mêmes performances avec 1,6 fois moins de tokens.

RAMP : Quantification Mixte de Précision Adaptative par Renforcement pour une Inférence Efficace des LLM sur Périphériques
RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Mar 18

ByArpit Singh Gautam, Saurabh Jha

La quantification post-entraînement est essentielle pour déployer les grands modèles de langage (LLM) sur du matériel à ressources limitées. Cependant, les méthodes actuelles imposent des largeurs de bits uniformes sur toutes les couches, ce qui conduit à des compromis précision-efficacité sous-optimaux. Nous présentons RAMP (Reinforcement Adaptive Mixed Precision), un cadre basé sur un acteur-critique souple (Soft Actor-Critic) hors politique qui apprend des assignations de largeur de bits par couche pour minimiser la perplexité sous une contrainte globale de bits. La politique se base sur un embedding en 11 dimensions de statistiques d'activation, de propriétés des poids et de descripteurs structurels, permettant un transfert zero-shot entre différentes familles et échelles de modèles. Pour permettre une quantification stable en dessous de 4 bits, nous introduisons Scale Folding, une technique de préconditionnement qui migre les valeurs aberrantes des activations dans les poids via une mise à l'échelle par canal et une compensation des couches de normalisation. Une récompense priorisant la qualité, avec des pénalités asymétriques et des "falaise" budgétaires, assure une convergence rapide. Sur Llama 2 7B, RAMP atteint une perplexité de 5,54 pour 3,68 Go (3,65 bits effectifs), surpassant l'AWQ uniforme 4 bits (5,60 à 3,90 Go) et GPTQ de 6 % en taille et de 1 % à 3 % en qualité. Fait crucial, une politique entraînée uniquement sur Llama 2 7B se généralise en zero-shot à Llama 2 13B et Mistral 7B, surpassant souvent un entraînement spécifique à la cible, ce qui étaye l'hypothèse que la sensibilité à la quantification est principalement architecturale. La pipeline HALO exporte les allocations au format GGUF pour une inférence sans noyau dédié sur les CPU, GPU et appareils embarqués, conservant 99,5 % des performances de raisonnement de bon sens en FP16.

LaDe : Génération et décomposition unifiées de médias graphiques multicouches
LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Mar 18

ByVlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu

La génération de calques de conception médiatique permet de créer des documents de conception entièrement éditables et superposés, tels que des affiches, des dépliants et des logos, en utilisant uniquement des invites en langage naturel. Les méthodes existantes limitent soit les sorties à un nombre fixe de calques, soit exigent que chaque calque ne contienne que des régions spatialement continues, ce qui entraîne une augmentation linéaire du nombre de calques avec la complexité de la conception. Nous proposons LaDe (Layered Media Design), un framework de diffusion latente qui génère un nombre flexible de calques sémantiquement significatifs. LaDe combine trois composants : un expanseur d'invites basé sur un LLM qui transforme une intention utilisateur concise en descriptions structurées par calque guidant la génération, un Transformer à Diffusion Latente avec un mécanisme d'encodage positionnel RoPE 4D qui génère conjointement la conception médiatique complète et ses calques RGBA constitutifs, et un VAE RGBA qui décode chaque calque avec une prise en charge complète du canal alpha. En se conditionnant sur des échantillons de calques pendant l'entraînement, notre framework unifié prend en charge trois tâches : la génération d'image à partir de texte, la génération de conception médiatique superposée à partir de texte, et la décomposition de conception médiatique. Nous comparons LaDe à Qwen-Image-Layered sur les tâches de génération texte-vers-calques et image-vers-calques sur l'ensemble de test Crello. LaDe surpasse Qwen-Image-Layered en génération texte-vers-calques en améliorant l'alignement entre le texte et les calques, comme le valident deux évaluateurs utilisant un VLM-comme-juge (GPT-4o mini et Qwen3-VL).

Prédiction multi-jetons efficace sans entraînement par sondage de l'espace d'embedding
Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Mar 18

ByRaghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott

Les grands modèles de langage (LLM) présentent des capacités latentes de prédiction multi-jetons (MTP) bien qu'ils soient entraînés uniquement pour la génération de jetons suivants. Nous proposons une approche MTP simple et sans entraînement qui sonde un LLM en utilisant des jetons de masque générés à la volée à partir de son espace d'embedding, permettant la prédiction parallèle de jetons futurs sans modifier les poids du modèle ni recourir à des modèles d'ébauche auxiliaires. Notre méthode construit un arbre spéculatif de jetons en échantillonnant les meilleurs candidats K à partir des logits des jetons de masque et applique une stratégie légère d'élagage pour conserver les suites à forte probabilité. Pendant le décodage, les prédictions candidates sont vérifiées en parallèle, ce qui génère une production sans perte tout en réduisant considérablement le nombre d'appels au modèle et en améliorant le débit de jetons. Sur divers benchmarks, notre MTP par sondage surpasse systématiquement les méthodes de référence sans entraînement existantes, augmentant la longueur d'acceptation d'environ 12\% sur LLaMA3 et de 8 à 12\% sur Qwen3, et obtenant des gains de débit allant jusqu'à 15-19\%. Enfin, nous fournissons des insights théoriques et des preuves empiriques montrant que les couches décodeurs alignent naturellement les représentations des jetons de masque avec les états des jetons suivants, permettant une prédiction multi-étapes précise sans réentraînement ni modèles auxiliaires.

ACE-LoRA : Amélioration contextuelle par graphes attentionnels pour l'adaptation efficace en paramètres des modèles vision-langage médicaux
ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Mar 17

ByM. Arda Aydın, Melih B. Yilmaz, Aykut Koç, Tolga Çukur

Le succès des modèles vision-langage (VLM) de type CLIP sur les images naturelles a inspiré leurs équivalents médicaux, mais les approches existantes se divisent largement en deux extrêmes : les modèles spécialistes entraînés sur des données mono-domaines, qui capturent les détails spécifiques au domaine mais généralisent mal, et les VLM médicaux généralistes entraînés sur des données multi-domaines, qui conservent une sémantique large mais diluent les indices diagnostiques fins. Combler ce compromis entre spécialisation et généralisation reste un défi. Pour résoudre ce problème, nous proposons ACE-LoRA, un cadre d'adaptation efficace en paramètres pour les VLM médicaux généralistes qui préserve une généralisation zero-shot robuste. ACE-LoRA intègre des modules d'adaptation bas rang (LoRA) dans des encodeurs image-texte gelés et introduit un module de réseau de neurones à hypergraphes avec enrichissement contextuel par attention (ACE-HGNN) qui capture des interactions contextuelles d'ordre supérieur au-delà de la similarité par paires pour enrichir les représentations globales avec des indices diagnostiques localisés, abordant une limitation clé des méthodes de réglage fin efficace en paramètres (PEFT) antérieures qui négligent les détails fins. Pour renforcer davantage l'alignement cross-modal, nous formulons une perte InfoNCE guidée par les étiquettes pour supprimer efficacement les faux négatifs entre des paires image-texte sémantiquement liées. Bien qu'ajoutant seulement 0,95 million de paramètres entraînables, ACE-LoRA surpasse constamment les VLM médicaux et les bases de référence PEFT de l'état de l'art dans des benchmarks zero-shot de classification, segmentation et détection couvrant multiples domaines. Notre code est disponible à l'adresse https://github.com/icon-lab/ACE-LoRA.

Du Débutant au Professionnel : Maîtrise Efficace des Compétences par Finetuning RL à Contraction de Distribution
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

Mar 10

ByZhanyi Sun, Shuran Song

Nous présentons DICE-RL (Distribution Contractive Reinforcement Learning), un cadre utilisant l'apprentissage par renforcement (RL) comme opérateur de "contraction distributionnelle" pour affiner des politiques génératives préentraînées en robotique. DICE-RL transforme un prior comportemental préentraîné en politique "experte" hautement performante en amplifiant les comportements à fort taux de succès via des retours en ligne. Nous préentraînons une politique basée sur des modèles de diffusion ou de flux pour une couverture comportementale étendue, puis nous la peaufinons avec un cadre RL résiduel hors politique, stable et économe en échantillons, combinant régularisation comportementale sélective et sélection d'actions guidée par la valeur. Des expérimentations et analyses approfondies montrent que DICE-RL améliore fièrement les performances avec une grande stabilité et efficacité d'échantillonnage. Il permet la maîtrise de compétences de manipulation complexes à long terme directement à partir d'entrées pixel de haute dimension, tant en simulation que sur un robot réel. Site du projet : https://zhanyisun.github.io/dice.rl.2026/.

VideoAtlas : Navigation dans les vidéos longues avec une complexité logarithmique
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mar 18

ByMohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan

L'extension des modèles de langage à la vidéo présente deux défis majeurs : la représentation, où les méthodes existantes reposent sur des approximations avec perte, et le contexte long, où les pipelines basés sur des légendes ou des agents réduisent la vidéo à du texte et altèrent la fidélité visuelle. Pour les surmonter, nous présentons VideoAtlas, un environnement agnostique aux tâches qui représente la vidéo sous forme de grille hiérarchique, simultanément sans perte, navigable, évolutive, et exempt de légendes et de prétraitement. Une vue d'ensemble de la vidéo est disponible immédiatement, et toute région peut être zoomée de manière récursive, la même représentation visuelle étant utilisée uniformément pour la vidéo, les investigations intermédiaires et la mémoire de l'agent, éliminant ainsi toute conversion textuelle avec perte de bout en bout. Cette structure hiérarchique garantit que la profondeur d'accès ne croît que logarithmiquement avec la durée de la vidéo. Pour le contexte long, les Modèles de Langage Récursifs (RLM) ont récemment offert une solution puissante pour le texte long, mais leur extension au domaine visuel nécessite un environnement structuré dans lequel récurser, que VideoAtlas fournit. En formalisant VideoAtlas comme un Processus de Décision Markovien, nous débloquons Video-RLM : une architecture parallèle Maître-Travailleurs où un Maître coordonne l'exploration globale tandis que des Travailleurs forent concurremment dans des régions assignées pour accumuler des preuves visuelles sans perte. Nous démontrons trois résultats clés : (1)~une croissance logarithmique du calcul avec la durée vidéo, amplifiée par un taux de succès du cache multimodal de 30 à 60 % résultant de la réutilisation structurelle de la grille. (2)~le budget d'exploration, où le fait de borner la profondeur d'exploration maximale fournit un hyperparamètre principé pour arbitrer entre calcul et précision. (3)~une allocation de calcul adaptive émergente qui s'ajuste à la granularité de la question. Lors du passage à l'échelle, de benchmarks d'1 heure à 10 heures, Video-RLM reste la méthode la plus robuste à la durée, avec une dégradation minimale de la précision, démontrant que la navigation dans un environnement structuré est un paradigme viable et évolutif pour la compréhension vidéo.

FINER : Les MLLM produisent des hallucinations face à des requêtes négatives à grain fin
FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Mar 18

ByRui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz

Les modèles de langage multimodaux (MLLM) peinent avec les hallucinations, particulièrement pour les requêtes fines, un défi sous-représenté par les benchmarks existants qui se concentrent sur des questions grossières liées à l'image. Nous présentons FIne-grained NEgative queRies (FINER), accompagné de deux benchmarks : FINER-CompreCap et FINER-DOCCI. En utilisant FINER, nous analysons les hallucinations dans quatre contextes : les questions multi-objets, multi-attributs, multi-relations et les questions « quoi ». Nos benchmarks révèlent que les MLLM hallucinent lorsque des incohérences fines coexistent avec des éléments authentiquement présents dans l'image. Pour y remédier, nous proposons FINER-Tuning, exploitant l'Optimisation de Préférence Directe (DPO) sur des données inspirées de FINER. Le fine-tuning de quatre MLLM de pointe avec FINER-Tuning permet des gains allant jusqu'à 24,2 % (InternVL3.5-14B) sur les hallucinations de nos benchmarks, tout en améliorant simultanément les performances sur huit suites d'hallucinations existantes et en renforçant les capacités multimodales générales sur six benchmarks. Le code, les benchmarks et les modèles sont disponibles à l'adresse https://explainableml.github.io/finer-project/.

HeBA : Adaptateurs à Goulot d'Étranglement Hétérogènes pour des Modèles Vision-Langage Robuste
HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Mar 17

ByMd Jahidul Islam

L'adaptation des modèles vision-langue (VLM) à grande échelle, comme CLIP, aux tâches en aval souffre souvent d'une approche architecturale « universelle », où les tokens visuels et textuels sont traités de manière uniforme par des adaptateurs larges et génériques. Nous soutenons que cette homogénéité ignore la nature structurelle distincte des modalités – la localité spatiale dans les images contre la densité sémantique dans le texte. Pour y remédier, nous proposons HeBA (Heterogeneous Bottleneck Adapter), un cadre architectural unifié qui introduit des biais inductifs structurels spécifiques aux modalités. HeBA s'écarte des conceptions conventionnelles grâce à trois innovations architecturales clés : (1) Hétérogénéité : Il traite les tokens visuels via des convolutions séparables en profondeur 2D pour préserver les corrélations spatiales, tandis qu'il traite distinctement les tokens textuels via des projections linéaires denses pour capturer les relations sémantiques ; (2) Régularisation par goulot d'étranglement : Contrairement aux adaptateurs à expansion standard, HeBA utilise un goulot d'étranglement de compression (D -> D/4) qui force explicitement le modèle à apprendre des caractéristiques compactes et robustes et agit comme un régulariseur structurel ; et (3) Initialisation active du gradient : Nous remettons en cause le paradigme restrictif de l'initialisation à zéro, en utilisant une stratégie d'initialisation de Kaiming qui assure un flux de gradient initial suffisant pour accélérer la convergence sans compromettre les connaissances pré-entraînées du backbone gelé. Des expériences approfondies démontrent que la conception architecturale spécialisée de HeBA atteint une stabilité et une précision supérieures, établissant un nouvel état de l'art sur 11 benchmarks en few-shot. Le code est disponible à l'adresse https://github.com/Jahid12012021/VLM-HeBA.

Scientifique en IA par mise à l'échelle synthétique des tâches
AI Scientist via Synthetic Task Scaling

Mar 17

ByZiyang Cai, Harkirat Behl

Avec l'avènement des agents IA, la découverte scientifique automatique est devenue un objectif réalisable. De nombreux travaux récents échafaudent des systèmes agentiques capables de réaliser des recherches en apprentissage automatique, mais sans proposer de méthode structurée pour entraîner ces agents – et les LLM actuels génèrent souvent des idées plausibles mais inefficaces. Pour progresser dans l'entraînement d'agents capables d'apprendre par la pratique, nous proposons un nouveau pipeline de génération d'environnements synthétiques ciblant les agents d'apprentissage automatique. Notre pipeline synthétise automatiquement des défis d'apprentissage automatique compatibles avec le framework SWE-agent, couvrant l'échantillonnage de sujets, la proposition de jeux de données et la génération de code. Les tâches synthétiques résultantes sont 1) ancrées dans de vrais jeux de données de ML, car les jeux de données proposés sont vérifiés via l'API Hugging Face, et 2) vérifiées pour une qualité supérieure grâce à une boucle d'auto-débogage. Pour valider l'efficacité de nos tâches synthétiques, nous utilisons MLGym, un benchmark pour les tâches d'apprentissage automatique. À partir des tâches synthétiques, nous échantillonnons des trajectoires depuis un modèle enseignant (GPT-5), puis utilisons ces trajectoires pour entraîner un modèle étudiant (Qwen3-4B et Qwen3-8B). Les modèles étudiants entraînés avec nos tâches synthétiques obtiennent de meilleures performances sur MLGym, augmentant la métrique AUP de 9% pour Qwen3-4B et de 12% pour Qwen3-8B.

AdapterTune : Adaptateurs à rang faible à initialisation nulle pour les Transformers de Vision figés
AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Mar 16

BySalim Khazem

Le transfert par colonne vertébrale gelée (Frozen-Backbone) avec les Vision Transformers se heurte à deux problèmes sous-estimés : l'instabilité de l'optimisation lorsque des adaptateurs sont insérés de manière naïve dans un extracteur de caractéristiques fixe, et l'absence de principes directeurs pour définir la capacité des adaptateurs. Nous présentons AdapterTune, qui enrichit chaque bloc de transformer avec un goulot d'étranglement résiduel de faible rang dont la projection ascendante est initialisée à zéro, garantissant ainsi que le réseau adapté démarre exactement à partir de la fonction pré-entraînée et élimine la dérive des représentations en début d'époque. Sur le plan analytique, nous formalisons le rang de l'adaptateur comme un budget de capacité pour approximer les décalages de tâche en aval dans l'espace des caractéristiques. La décomposition du risque excédentaire qui en résulte prédit des gains de précision monotones mais décroissants avec l'augmentation du rang, un comportement en « coude » que nous confirmons par des balayages contrôlés. Nous évaluons notre méthode sur 9 ensembles de données et 3 échelles de colonnes vertébrales avec un reporting multi-graines systématique. Sur une suite centrale de transfert de 5 ensembles de données, AdapterTune améliore la précision top-1 par rapport à un transfert par tête seule de +14,9 points en moyenne tout en n'entraînant que 0,92 % des paramètres requis par le réglage fin complet, et surpasse le réglage fin complet sur 10 des 15 paires ensemble de données-colonne vertébrale. Sur l'ensemble du benchmark, AdapterTune améliore le transfert par tête seule sur toutes les paires ensemble de données-colonne vertébrale testées. Des ablations sur le rang, le placement et l'initialisation permettent d'isoler chaque choix de conception. Le code est disponible à l'adresse : https://github.com/salimkhazem/adaptertune

Reconstruction cohérente de scènes humaines à partir de vidéos multi-vues multi-personnes en une seule passe
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Mar 13

BySangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park

Les progrès récents des modèles de fondation 3D ont suscité un intérêt croissant pour la reconstruction des humains et de leur environnement. Cependant, la plupart des approches existantes se concentrent sur des entrées monoculaires, et leur extension à des configurations multi-vues nécessite des modules supplémentaires ou des données prétraitées. À cette fin, nous présentons CHROMM, un cadre unifié qui estime conjointement les caméras, les nuages de points de la scène et les maillages humains à partir de vidéos multi-vues multi-personnes, sans recourir à des modules externes ou à un prétraitement. Nous intégrons des préconisations géométriques et humaines robustes issues de Pi3X et Multi-HMR dans une architecture de réseau neuronal unique et entraînable, et nous introduisons un module d'ajustement d'échelle pour résoudre la divergence d'échelle entre les humains et la scène. Nous présentons également une stratégie de fusion multi-vues pour agréger les estimations par vue en une représentation unique au moment du test. Enfin, nous proposons une méthode d'association multi-personnes basée sur la géométrie, plus robuste que les approches basées sur l'apparence. Les expériences sur EMDB, RICH, EgoHumans et EgoExo4D montrent que CHROMM atteint des performances compétitives en estimation de mouvement humain global et de pose multi-vues, tout en fonctionnant plus de 8 fois plus vite que les approches multi-vues antérieures basées sur l'optimisation. Page du projet : https://nstar1125.github.io/chromm.

PRISM : Démystifier la rétention et l'interaction en milieu d'entraînement
PRISM: Demystifying Retention and Interaction in Mid-Training

Mar 17

ByBharat Runwal, Ashish Agrawal, Anurag Roy, Rameswar Panda

Nous présentons PRISM, une étude empirique exhaustive des choix de conception en mi-entraînement pour les grands modèles de langage. Par des expériences contrôlées sur sept modèles de base couvrant quatre familles (Granite, LLaMA, Mistral, Nemotron-H), deux types d'architecture (Transformers dense et hybride attention-Mamba) et des échelles de 3 à 24 milliards de paramètres, nous montrons qu'un mi-entraînement sur environ 27 milliards de tokens de haute qualité produit des gains constants de +15 à +40 points en mathématiques, +5 à +12 points en code et +6 à +13 points sur des benchmarks scientifiques, tout en préservant les performances générales. Le pipeline complet PRISM vers RL améliore la moyenne macro sur six benchmarks de raisonnement de moins de 12 à 29-42 (une amélioration de 3 à 4x), tandis que le RL appliqué directement à la plupart des modèles de base reste nettement moins efficace, avec des scores AIME proches de zéro. La composition des données est plus déterminante lors du mi-entraînement que lors du RL : inclure des données scientifiques pendant le mi-entraînement permet des gains de +17 à +28 points sur GPQA-Diamond lors du RL, tandis que modifier le mélange de RL produit des différences inférieures à 2 points. Mécaniquement, le mi-entraînement restructure densément plus de 90 % des poids du modèle, tandis que le RL effectue des ajustements épars et frontaux sur environ 5 % des paramètres. L'analyse des représentations (CKA) confirme que le RL préserve systématiquement la géométrie représentationnelle du mi-entraînement (CKA supérieur à 0,998) across les architectures. Fait crucial, le RL applique des modifications de poids identiques quel que soit le point de départ, mais ne réussit que sur les modèles ayant subi un mi-entraînement, ce qui concorde avec l'hypothèse que le mi-entraînement place le modèle dans une configuration à partir de laquelle le RL peut efficacement améliorer les performances. Nos résultats démontrent que le mi-entraînement avec conservation des connaissances est très efficace pour l'amélioration fiable du raisonnement et fournissent des conseils pratiques pour concevoir des pipelines de mi-entraînement robustes.

Fanar-Sadiq : Une architecture multi-agents pour un système de questions-réponses islamiques ancré
Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Mar 9

ByUmmar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam

Les grands modèles de langage (LLM) peuvent répondre couramment à des questions sur les connaissances religieuses, mais ils produisent souvent des hallucinations et attribuent incorrectement leurs sources, ce qui est particulièrement problématique dans des contextes islamiques où les utilisateurs attendent un ancrage dans les textes canoniques (Coran et Hadith) et des nuances juridiques (fiqh). La génération augmentée par la récupération (RAG) réduit certaines de ces limitations en ancrant la génération dans des preuves externes. Cependant, un simple pipeline unique de type « récupérer puis générer » est limité face à la diversité des questions islamiques. Les utilisateurs peuvent demander des citations scripturaires textuelles, des conseils de type fatwa avec des références, ou des calculs sous contraintes de règles comme le zakat et l'héritage, qui nécessitent des invariants arithmétiques et juridiques stricts. Dans ce travail, nous présentons un assistant islamique bilingue (arabe/anglais) multi-agents, appelé Fanar-Sadiq, qui est un composant central de la plateforme Fanar AI. Fanar-Sadiq achemine les questions liées à l'islam vers des modules spécialisés au sein d'une architecture agentique utilisant des outils. Le système prend en charge le routage selon l'intention, des réponses en fiqh ancrées dans la récupération avec une normalisation déterministe des citations et des traces de vérification, une recherche exacte de versets avec validation des citations, et des calculateurs déterministes pour le zakat et l'héritage sunnites avec une branchement sensible au madhhab. Nous évaluons le système complet de bout en bout sur des benchmarks publics de questions-réponses islamiques et démontrons son efficacité et son efficience. Notre système est actuellement accessible publiquement et gratuitement via une API et une application Web, et a été sollicité environ 1,9 million de fois en moins d'un an.