HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

22 papers found

Sonder l'intelligence scientifique générale des LLM à travers des workflows alignés sur les pratiques des scientifiques
Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

Dec 18

ByWanghan Xu, Yuhao Zhou, Yifan Zhou, Qinglong Cao, Shuo Li, Jia Bu, Bo Liu, Yixin Chen, Xuming He, Xiangyu Zhao, Xiang Zhuang, Fengxiang Wang, Zhiwang Zhou, Qiantai Feng, Wenxuan Huang, Jiaqi Wei, Hao Wu, Yuejin Yang, Guangshuai Wang, Sheng Xu, Ziyan Huang, Xinyao Liu, Jiyao Liu, Cheng Tang, Wei Li, Ying Chen, Junzhi Ning, Pengfei Jiang, Chenglong Ma, Ye Du, Changkai Ji, Huihui Xu, Ming Hu, Jiangbin Zheng, Xin Chen, Yucheng Wu, Feifei Jiang, Xi Chen, Xiangru Tang, Yuchen Fu, Yingzhou Lu, Yuanyuan Zhang, Lihao Sun, Chengbo Li, Jinzhe Ma, Wanhao Liu, Yating Liu, Kuo-Cheng Wu, Shengdu Chai, Yizhou Wang, Ouwen Zhangjin, Chen Tang, Shufei Zhang, Wenbo Cao, Junjie Ren, Taoyong Cui, Zhouheng Yao, Juntao Deng, Yijie Sun, Feng Liu, Wangxu Wei, Jingyi Xu, Zhangrui Li, Junchao Gong, Zijie Guo, Zhiyu Yao, Zaoyu Chen, Tianhao Peng, Fangchen Yu, Bo Zhang, Dongzhan Zhou, Shixiang Tang, Jiaheng Liu, Fenghua Ling, Yan Lu, Yuchen Ren, Ben Fei, Zhen Zhao, Xinyu Gu, Rui Su, Xiao-Ming Wu, Weikang Si, Yang Liu, Hao Chen, Xiangchao Yan, Xue Yang, Junchi Yan, Jiamin Wu, Qihao Zheng, Chenhui Li, Zhiqiang Gao, Hao Kong, Junjun He, Mao Su, Tianfan Fu, Peng Ye, Chunfeng Song, Nanqing Dong, Yuqiang Li, Huazhu Fu, Siqi Sun, Lijing Cheng, Jintai Lin, Wanli Ouyang, Bowen Zhou, Wenlong Zhang, Lei Bai

119

Malgré les avancées de l'IA scientifique, un cadre cohérent pour l'Intelligence Générale Scientifique (IGS) – la capacité à concevoir, investiguer et raisonner de manière autonome à travers les domaines scientifiques – fait encore défaut. Nous présentons une définition opérationnelle de l'IGS fondée sur le Modèle d'Investigation Pratique (MIP : Délibération, Conception, Action, Perception) et l'opérationnalisons via quatre tâches alignées sur le travail du scientifique : recherche approfondie, génération d'idées, expériences *in silico*/*in vitro*, et raisonnement expérimental. SGI-Bench comprend plus de 1 000 échantillons interdisciplinaires, expertisés et inspirés par les 125 Grandes Questions de la revue *Science*, permettant l'évaluation systématique des modèles de langage les plus avancés. Les résultats révèlent des écarts : un faible taux de correspondance exacte (10-20%) dans la recherche approfondie malgré un alignement au niveau des étapes ; des idées manquant de faisabilité et de détail ; une haute exécutabilité du code mais une faible exactitude des résultats d'exécution dans les expériences *in silico* ; une faible fidélité séquentielle dans les protocoles *in vitro* ; et des défis persistants en raisonnement comparatif multimodal. Nous introduisons également le Renforcement Apprentissage au Moment du Test (TTRL), qui optimise à l'inférence des récompenses basées sur la nouveauté et augmentées par retrieval, améliorant la nouveauté des hypothèses sans nécessiter de réponse de référence. Ensemble, notre définition ancrée dans le MIP, notre benchmark centré sur le flux de travail et nos insights empiriques jettent les bases pour des systèmes d'IA qui participent véritablement à la découverte scientifique.

PhysBrain : Les données égocentriques humaines comme pont entre les modèles de vision et de langage vers l'intelligence physique
PhysBrain: Human Egocentric Data as a Bridge from Vision Language Models to Physical Intelligence

Dec 18

ByXiaopeng Lin, Shijie Lian, Bin Yu, Ruoqi Yang, Changti Wu, Yuzhuo Miao, Yurun Jin, Yukun Shi, Cong Huang, Bojun Cheng, Kai Chen

La généralisation robotique repose sur l'intelligence physique : la capacité à raisonner sur les changements d'état, les interactions riches en contacts et la planification à long horizon dans un cadre de perception et d'action égocentrique. Cependant, la plupart des modèles de langage visuel (VLM) sont principalement entraînés sur des données à la troisième personne, créant une inadéquation fondamentale de point de vue pour les robots humanoïdes. L'augmentation de la collecte de données égocentriques robotiques reste peu pratique en raison de son coût élevé et de sa diversité limitée, tandis que les vidéos égocentriques humaines à grande échelle offrent une alternative viable qui capture naturellement un riche contexte d'interaction et une structure causale. Le défi principal consiste à convertir des vidéos égocentriques brutes en une supervision d'entraînement à l'incarnation structurée et fiable. En conséquence, nous proposons un pipeline de traduction Egocentric2Embodiment qui transforme les vidéos à la première personne en une supervision de question-réponse visuelle (VQA) multi-niveaux, pilotée par des schémas, avec un ancage probatoire renforcé et une cohérence temporelle, permettant la construction à grande échelle du jeu de données Egocentric2Embodiment (E2E-3M). Un cerveau incarné conscient de l'égocentrisme, nommé PhysBrain, est obtenu par entraînement sur le jeu de données E2E-3M. PhysBrain démontre une compréhension égocentrique considérablement améliorée, particulièrement pour la planification sur EgoThink. Il fournit une initialisation consciente de l'égocentrisme qui permet un réglage fin des VLA plus efficace en termes d'échantillons et de meilleurs taux de réussite sur SimplerEnv (53,9 %), démontrant un transfert efficace de la supervision égocentrique humaine vers le contrôle robotique en aval.

Robust-R1 : Raisonnement tenant compte de la dégradation pour une compréhension visuelle robuste
Robust-R1: Degradation-Aware Reasoning for Robust Visual Understanding

Dec 19

ByJiaqi Tang, Jianmin Chen, Wei Wei, Xiaogang Xu, Runtao Liu, Xiangyu Wu, Qipeng Xie, Jiafei Wu, Lei Zhang, Qifeng Chen

Les modèles de langage multimodaux de grande taille peinent à maintenir des performances fiables face aux dégradations visuelles extrêmes du monde réel, ce qui compromet leur robustesse pratique. Les modèles robustes existants reposent principalement sur des approches d'entraînement/adaptation implicites qui se concentrent uniquement sur la généralisation de l'encodeur visuel, souffrant d'une interprétabilité limitée et d'une optimisation isolée. Pour surmonter ces limitations, nous proposons Robust-R1, un nouveau cadre qui modélise explicitement les dégradations visuelles par des chaînes de raisonnement structurées. Notre approche intègre : (i) un ajustement fin supervisé pour établir des bases de raisonnement sensibles aux dégradations, (ii) un alignement par récompense pour percevoir précisément les paramètres de dégradation, et (iii) une mise à l'échelle dynamique de la profondeur de raisonnement adaptée à l'intensité de la dégradation. Pour faciliter cette approche, nous présentons un jeu de données spécialisé de 11 000 éléments comportant des dégradations réalistes synthétisées selon quatre étapes critiques du traitement visuel réel, chacune annotée avec des chaînes structurées liant les paramètres de dégradation, l'influence perceptuelle, la chaîne de raisonnement sémantique originelle et la conclusion. Les évaluations exhaustives démontrent une robustesse de pointe : Robust-R1 surpasse toutes les bases de référence générales et robustes sur le benchmark de dégradation réaliste R-Bench, tout en maintenant des performances anti-dégradation supérieures sous des dégradations adverses multi-intensité sur MMMB, MMStar et RealWorldQA.

Quand le raisonnement rencontre ses lois
When Reasoning Meets Its Laws

Dec 19

ByJunyu Zhang, Yifan Sun, Tianang Leng, Jingyan Shen, Liu Ziyin, Paul Pu Liang, Huan Zhang

Malgré les performances supérieures des Grands Modèles de Raisonnement (LRMs), leurs comportements déductifs sont souvent contre-intuitifs, conduisant à des capacités de raisonnement sous-optimales. Pour formaliser théoriquement les comportements de raisonnement souhaités, cet article présente les Lois du Raisonnement (LoRe), un cadre unifié qui caractérise les schémas de raisonnement intrinsèques des LRMs. Nous proposons d'abord une loi de calcul, basée sur l'hypothèse que la puissance de calcul dédiée au raisonnement devrait augmenter linéairement avec la complexité de la question. Au-delà du calcul, nous étendons LoRe avec une loi de précision supplémentaire. Étant donné que la complexité des questions est difficile à quantifier en pratique, nous examinons ces hypothèses via deux propriétés des lois : la monotonie et la compositionnalité. Nous introduisons donc LoRe-Bench, un benchmark qui mesure systématiquement ces deux propriétés gérables pour les grands modèles de raisonnement. L'évaluation montre que la plupart des modèles de raisonnement présentent une monotonie raisonnable mais manquent de compositionnalité. En réponse, nous développons une méthode de fine-tuning efficace qui renforce la compositionnalité de la loi de calcul. Des études empiriques approfondies démontrent qu'une meilleure conformité aux lois de calcul entraîne une amélioration constante des performances de raisonnement sur plusieurs benchmarks, et révèle des effets synergiques entre les propriétés et les lois. Page du projet : https://lore-project.github.io/

Seed-Prover 1.5 : Maîtriser la démonstration de théorèmes de niveau licence par l'apprentissage à partir de l'expérience
Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience

Dec 19

ByJiangjie Chen, Wenxiang Chen, Jiacheng Du, Jinyi Hu, Zhicheng Jiang, Allan Jie, Xiaoran Jin, Xing Jin, Chenggang Li, Wenlei Shi, Zhihong Wang, Mingxuan Wang, Chenrui Wei, Shufa Wei, Huajian Xin, Fan Yang, Weihao Gao, Zheng Yuan, Tianyang Zhan, Zeyu Zheng, Tianxi Zhou, Thomas Hanwen Zhu

Les grands modèles linguistiques ont récemment accompli des progrès significatifs dans la génération de preuves mathématiques rigoureuses. En revanche, l'utilisation des LLM pour la démonstration de théorèmes dans des langages formels (comme Lean) reste difficile et coûteuse en calcul, particulièrement pour des problèmes de niveau licence et au-delà. Dans ce travail, nous présentons Seed-Prover 1.5, un modèle de démonstration de théorèmes formels entraîné par apprentissage par renforcement agentique à grande échelle, ainsi qu'un flux de travail efficace de mise à l'échelle au moment du test (TTS). Grâce à des interactions approfondies avec Lean et d'autres outils, le modèle accumule continuellement de l'expérience durant le processus d'apprentissage par renforcement, améliorant substantiellement la capacité et l'efficacité de la démonstration formelle. De plus, en tirant parti des avancées récentes en démonstration en langage naturel, notre flux de travail TTS comble efficacement le fossé entre les langages naturels et formels. Comparé aux méthodes de l'état de l'art, Seed-Prover 1.5 obtient des performances supérieures avec un budget de calcul réduit. Il résout 88 % des problèmes de PutnamBench (niveau licence), 80 % de ceux de Fate-H (niveau master) et 33 % de ceux de Fate-X (niveau doctorat). Fait notable, en utilisant notre système, nous avons résolu 11 des 12 problèmes du Putnam 2025 en moins de 9 heures. Nos résultats suggèrent que la mise à l'échelle de l'apprentissage par l'expérience, guidée par un retour formel de haute qualité, recèle un immense potentiel pour l'avenir du raisonnement mathématique formel.

4D-RGPT : Vers une compréhension 4D au niveau régional par distillation perceptuelle
4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Dec 18

ByChiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen

Malgré les progrès des modèles de langage multimodaux (MLLM), leur capacité à raisonner sur les structures 3D et la dynamique temporelle reste limitée, entravée par une perception 4D et une compréhension temporelle faibles. Les benchmarks existants pour la question-réponse sur vidéo 3D et 4D (VQA) privilégient également les scènes statiques et manquent d'invites au niveau régional. Nous abordons ces problèmes en introduisant : (a) 4D-RGPT, un MLLM spécialisé conçu pour capturer des représentations 4D à partir de vidéos avec une perception temporelle améliorée ; (b) la Distillation Perceptive 4D (P4D), un cadre d'entraînement qui transfère les représentations 4D d'un modèle expert figé vers 4D-RGPT pour une perception 4D complète ; et (c) R4D-Bench, un benchmark pour les scènes dynamiques avec conscience de la profondeur et des invites régionales, construit via un pipeline hybride automatisé et validé par des humains. Notre modèle 4D-RGPT obtient des améliorations notables à la fois sur les benchmarks 4D VQA existants et sur le benchmark R4D-Bench proposé.

Sémantique et reconstruction comptent : préparer les encodeurs de représentation pour la génération et l'édition texte-image
Both Semantics and Reconstruction Matter: Making Representation Encoders Ready for Text-to-Image Generation and Editing

Dec 19

ByShilong Zhang, He Zhang, Zhifei Zhang, Chongjian Ge, Shuchen Xue, Shaoteng Liu, Mengwei Ren, Soo Ye Kim, Yuqian Zhou, Qing Liu, Daniil Pakhomov, Kai Zhang, Zhe Lin, Ping Luo

Les modèles de diffusion latente (LDM) modernes opèrent généralement dans des espaces latents de type VAE de bas niveau, principalement optimisés pour la reconstruction au niveau pixel. Pour unifier la génération et la compréhension visuelles, une tendance émergente consiste à adopter des caractéristiques de haute dimension issues d'encodeurs de représentation comme latents génératifs. Cependant, nous identifions empiriquement deux obstacles fondamentaux dans ce paradigme : (1) l'espace de caractéristiques discriminatif manque de régularisation compacte, rendant les modèles de diffusion sensibles aux latents hors-variété qui produisent des structures d'objet inexactes ; et (2) la reconstruction au niveau pixel intrinsèquement faible de l'encodeur empêche le générateur d'apprendre une géométrie et une texture précises à grain fin. Dans cet article, nous proposons un cadre systématique pour adapter les caractéristiques d'encodeurs orientés compréhension à des tâches génératives. Nous introduisons un objectif de reconstruction sémantique-pixel pour régulariser l'espace latent, permettant la compression à la fois de l'information sémantique et des détails à grain fin en une représentation hautement compacte (96 canaux avec un sous-échantillonnage spatial de 16x16). Cette conception garantit que l'espace latent reste sémantiquement riche et atteint une reconstruction d'image à l'état de l'art, tout en restant suffisamment compact pour une génération précise. En tirant parti de cette représentation, nous concevons un modèle unifié de texte-à-image (T2I) et d'édition d'image. En comparant divers espaces de caractéristiques, nous démontrons que notre approche atteint une reconstruction à l'état de l'art, une convergence plus rapide et des gains de performance substantiels dans les tâches T2I et d'édition, validant que les encodeurs de représentation peuvent être efficacement adaptés en composants génératifs robustes.

Sommes-nous sur la bonne voie pour évaluer les LLM en tant qu'arbitres ?
Are We on the Right Way to Assessing LLM-as-a-Judge?

Dec 17

ByYuanning Feng, Sinan Wang, Zhengxiang Cheng, Yao Wan, Dongping Chen

L'évaluation par LLM (LLM-as-a-Judge) a été largement adoptée comme méthode d'évaluation et sert de récompense supervisée dans l'entraînement des modèles. Cependant, les benchmarks existants pour cette méthode reposent principalement sur une vérité terrain annotée par des humains, ce qui introduit un biais humain qui compromet l'évaluation de la fiabilité et impose des contraintes d'évolutivité. Pour surmonter ces limitations, nous présentons Sage, une nouvelle suite d'évaluation qui évalue la qualité des juges LLM sans nécessiter aucune annotation humaine. Inspiré par les axiomes de la théorie du choix rationnel, Sage introduit deux nouvelles perspectives pour mesurer l'évaluation par LLM : l'auto-cohérence locale (stabilité des préférences par paires) et la cohérence logique globale (transitivité sur un ensemble complet de préférences). Nous constituons un jeu de données de 650 questions en combinant des problèmes de benchmark structurés avec des requêtes d'utilisateurs réels. Nos expériences démontrent à la fois la stabilité de nos métriques et leur forte corrélation avec des benchmarks supervisés comme LLMBar et RewardBench2, confirmant la fiabilité de Sage en tant que suite d'évaluation pour la robustesse et la précision de l'évaluation par LLM. Sur la base de Sage, nous révélons que les LLM à l'état de l'art actuels présentent des problèmes de fiabilité significatifs lorsqu'ils agissent comme juges, que ce soit en attribution de scores ou par comparaison par paires ; même les modèles les plus performants, Gemini-2.5-Pro et GPT-5, échouent à maintenir des préférences cohérentes dans près d'un quart des cas difficiles. Nous attribuons cela à un nouveau phénomène appelé préférence situationnelle, qui explique pourquoi des grilles d'évaluation ou critères explicites peuvent aider le modèle à juger de manière cohérente entre les paires de réponses. Notre analyse approfondie montre qu'un LLM affiné en tant que juge est une méthode viable pour améliorer les performances, et qu'un juge collectif (panel-based) ainsi qu'un raisonnement profond peuvent renforcer la cohérence du jugement. Nous constatons également une incohérence substantielle dans les jugements humains, ce qui indique que l'annotation humaine pourrait ne pas être un étalon-or fiable.

Physique des modèles de langage : Partie 4.1, Conception architecturale et magie des couches canoniques
Physics of Language Models: Part 4.1, Architecture Design and the Magic of Canon Layers

Dec 19

ByZeyuan Allen-Zhu

Comprendre les différences architecturales des modèles de langage est complexe, particulièrement à l'échelle académique du pré-entraînement (par ex., 1,3 milliard de paramètres, 100 milliards de tokens), où les résultats sont souvent dominés par le bruit et l'aléatoire. Pour surmonter cela, nous introduisons des tâches de pré-entraînement synthétiques et contrôlées qui isolent et évaluent les capacités fondamentales des modèles. Dans ce cadre, nous découvrons les COUCHES CANON : des composants architecturaux légers — nommés d'après le terme musical « canon » — qui favorisent le flux d'information horizontal entre les tokens voisins. Les couches canon calculent des sommes pondérées des représentations des tokens proches et s'intègrent de manière transparente dans les Transformers, l'attention linéaire, les modèles à espace d'états, ou toute architecture séquentielle. Nous présentons 12 résultats clés. Ceux-ci incluent la manière dont les couches canon améliorent la profondeur de raisonnement (par ex., par un facteur 2), l'étendue du raisonnement, la manipulation des connaissances, etc. Elles permettent à des architectures faibles comme NoPE d'égaler RoPE, et à l'attention linéaire de rivaliser avec des modèles linéaires de pointe comme Mamba2/GDN — validé à la fois par des tâches synthétiques et un pré-entraînement réel à l'échelle académique. Ce terrain de jeu synthétique offre une voie économique et princiée pour isoler les capacités fondamentales des modèles, souvent masquées aux échelles académiques. Équipé de données de haute qualité en quantité infinie, il pourrait même PRÉDIRE comment les futures architectures se comporteront à mesure que les pipelines d'entraînement s'améliorent — par exemple via une meilleure curation des données ou un post-traitement par apprentissage par renforcement — déverrouillant un raisonnement plus profond et une inférence hiérarchique.

Anatomie des modèles vision-langage-action : des modules aux jalons et défis
An Anatomy of Vision-Language-Action Models: From Modules to Milestones and Challenges

Dec 12

ByChao Xu, Suyu Zhang, Yang Liu, Baigui Sun, Weihong Chen, Bo Xu, Qi Liu, Juncheng Wang, Shujun Wang, Shan Luo, Jan Peters, Athanasios V. Vasilakos, Stefanos Zafeiriou, Jiankang Deng

Les modèles Vision-Langage-Action (VLA) sont à l'origine d'une révolution en robotique, permettant aux machines de comprendre des instructions et d'interagir avec le monde physique. Ce domaine connaît une explosion de nouveaux modèles et jeux de données, rendant à la fois passionnant et difficile de suivre le rythme. Cette étude offre un guide clair et structuré du paysage des VLA. Nous l'avons conçue pour suivre le parcours d'apprentissage naturel d'un chercheur : nous commençons par les Modules de base de tout modèle VLA, retraçons l'histoire à travers les Jalons clés, puis plongeons au cœur des Défis fondamentaux qui définissent la frontière récente de la recherche. Notre principale contribution est une analyse détaillée des cinq plus grands défis dans les domaines : (1) Représentation, (2) Exécution, (3) Généralisation, (4) Sécurité, et (5) Jeux de données et Évaluation. Cette structure reflète la feuille de route développementale d'un agent généraliste : établir la boucle perception-action fondamentale, étendre les capacités à travers des incarnations et environnements divers, et enfin assurer un déploiement fiable – le tout soutenu par l'infrastructure de données essentielle. Pour chacun d'eux, nous passons en revue les approches existantes et soulignons les opportunités futures. Nous positionnons cet article à la fois comme un guide fondamental pour les nouveaux arrivants et comme une feuille de route stratégique pour les chercheurs expérimentés, avec le double objectif d'accélérer l'apprentissage et d'inspirer de nouvelles idées dans l'intelligence incarnée. Une version vivante de cette étude, avec des mises à jour continues, est maintenue sur notre {page du projet} https://suyuz1.github.io/Survery/.

GroundingME : Mettre en lumière l'écart de repérage visuel dans les MLLM grâce à une évaluation multidimensionnelle
GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

Dec 19

ByRang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo

L'ancrage visuel, qui consiste à localiser des objets à partir de descriptions en langage naturel, représente un pont essentiel entre la compréhension du langage et de la vision. Bien que les modèles de langage multimodaux (MLLM) obtiennent des scores impressionnants sur les benchmarks existants, une question fondamentale subsiste : les MLLM peuvent-ils véritablement ancrer le langage dans la vision avec la sophistication humaine, ou se contentent-ils de faire de l'appariement de motifs sur des jeux de données simplifiés ? Les benchmarks actuels ne capturent pas la complexité du monde réel où les humains naviguent sans effort parmi des références ambiguës et reconnaissent quand l'ancrage est impossible. Pour évaluer rigoureusement les véritables capacités des MLLM, nous présentons GroundingME, un benchmark qui met systématiquement les modèles au défi selon quatre dimensions critiques : (1) Discriminatoire, pour distinguer des objets très similaires, (2) Spatiale, pour comprendre les descriptions relationnelles complexes, (3) Limitée, pour gérer les occlusions ou les objets minuscules, et (4) Rejet, pour reconnaître les requêtes non ancrables. Grâce à une curation minutieuse combinant génération automatisée et vérification humaine, nous avons créé 1 005 exemples difficiles reflétant la complexité du monde réel. L'évaluation de 25 MLLM de pointe révèle un écart de capacité profond : le meilleur modèle n'atteint que 45,1 % de précision, tandis que la plupart obtiennent 0 % sur les tâches de rejet, produisant de manière réflexive des hallucinations d'objets plutôt que de reconnaître leur absence, ce qui soulève des préoccupations critiques pour le déploiement en termes de sécurité. Nous explorons deux stratégies d'amélioration : (1) la mise à l'échelle au moment du test, qui sélectionne la réponse optimale en utilisant la trajectoire de raisonnement pour améliorer l'ancrage complexe jusqu'à 2,9 %, et (2) l'entraînement par mélange de données, qui apprend aux modèles à reconnaître les requêtes non ancrables, augmentant la précision du rejet de 0 % à 27,9 %. GroundingME sert ainsi à la fois d'outil de diagnostic révélant les limitations actuelles des MLLM et de feuille de route vers un ancrage visuel de niveau humain.

RadarGen : Génération de nuages de points radar automobiles à partir de caméras
RadarGen: Automotive Radar Point Cloud Generation from Cameras

Dec 19

ByTomer Borreda, Fangqiang Ding, Sanja Fidler, Shengyu Huang, Or Litany

Nous présentons RadarGen, un modèle de diffusion pour la synthèse de nuages de points radar automobiles réalistes à partir d'imagerie multicaméra. RadarGen adapte la diffusion efficace en espace latent d'image au domaine radar en représentant les mesures radar sous forme de vue de dessus (bird's-eye-view) qui encode la structure spatiale ainsi que la section efficace radar (SER) et les attributs Doppler. Une étape légère de reconstruction permet de retrouver les nuages de points à partir des cartes générées. Pour mieux aligner la génération avec la scène visuelle, RadarGen intègre des indices de profondeur, sémantiques et de mouvement, alignés en vue de dessus et extraits de modèles de fondation pré-entraînés, qui guident le processus de génération stochastique vers des motifs radar physiquement plausibles. Le conditionnement par les images rend l'approche largement compatible, en principe, avec les jeux de données visuels existants et les cadres de simulation, offrant une direction évolutive pour la simulation générative multimodale. Les évaluations sur des données de conduite à grande échelle montrent que RadarGen capture les distributions caractéristiques des mesures radar et réduit l'écart avec les modèles de perception entraînés sur des données réelles, marquant une étape vers une simulation générative unifiée à travers les modalités de détection.

Bolmo : La conversion en octets de la nouvelle génération de modèles de langage
Bolmo: Byteifying the Next Generation of Language Models

Dec 17

ByBenjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann

Nous présentons Bolmo, la première famille de modèles de langage (ML) compétitifs entièrement ouverts au niveau des octets, aux échelles de 1 et 7 milliards de paramètres. Contrairement aux recherches antérieures sur les ML au niveau des octets, qui se concentrent principalement sur l'entraînement à partir de zéro, nous entraînons Bolmo en « octetifiant » des ML existants au niveau des sous-mots. L'octétification permet de surmonter les limitations de la tokenisation par sous-mots – telles que la compréhension insuffisante des caractères et les contraintes d'efficacité dues au vocabulaire fixe de sous-mots – tout en performant au niveau des meilleurs ML au niveau des sous-mots. Bolmo est spécifiquement conçu pour l'octétification : notre architecture résout un décalage entre l'expressivité des architectures antérieures au niveau des octets et celle des ML au niveau des sous-mots, ce qui permet d'employer un objectif de distillation exacte efficace entre Bolmo et le modèle source à sous-mots. Cela permet de convertir un ML au niveau des sous-mots en un ML au niveau des octets en investissant moins de 1 % du budget typique en tokens de pré-entraînement. Bolmo surpasse substantiellement tous les ML antérieurs au niveau des octets de taille comparable, et surpasse les ML sources au niveau des sous-mots dans la compréhension des caractères et, dans certains cas, en programmation, tout en approchant les performances des ML originaux sur d'autres tâches. De plus, nous montrons que Bolmo peut atteindre des vitesses d'inférence compétitives avec les ML au niveau des sous-mots en s'entraînant avec des taux de compression de tokens plus élevés, et peut être post-entraîné de manière économique et efficace en tirant parti de l'écosystème existant autour du modèle source à sous-mots. Nos résultats font enfin des ML au niveau des octets un choix pratique et compétitif face aux ML au niveau des sous-mots pour un large éventail de cas d'usage.

HERBench : Un Benchmark pour l'Intégration de Preuves Multiples dans la Réponse à des Questions sur des Vidéos
HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering

Dec 16

ByDan Ben-Ami, Gabriele Serussi, Kobi Cohen, Chaim Baskin

Les modèles de langage de grande taille pour la vidéo (Video-LLMs) progressent rapidement, mais les benchmarks actuels de question-réponse vidéo (VideoQA) permettent souvent de répondre aux questions à partir d'un seul indice saillant, sous-évaluant ainsi le raisonnement qui nécessite l'agrégation de multiples preuves visuelles temporellement séparées. Nous présentons HERBench, un benchmark VideoQA conçu spécifiquement pour évaluer l'intégration de preuves multiples dans le temps. Chaque question nécessite l'agrégation d'au moins trois indices probants non chevauchants répartis sur des segments vidéo distincts, de sorte que ni les prérequis linguistiques ni un instantané unique ne suffisent. HERBench comprend 26 000 questions à choix multiples (cinq options) organisées en douze tâches compositionnelles qui sondent la liaison d'identité, les relations inter-entités, l'ordonnancement temporel, la vérification de co-occurrence et le décompte. Pour rendre la demande probante mesurable, nous introduisons l'Ensemble Minimal d'Images Requises (MRFS), soit le nombre minimal d'images qu'un modèle doit fusionner pour répondre correctement, et montrons qu'HERBench impose une exigence nettement plus élevée que les jeux de données antérieurs (MRFS moyen de 5,5 contre 2,6-4,2). L'évaluation de 13 Video-LLMs de pointe sur HERBench révèle des échecs généralisés : les précisions de 31 à 42 % ne dépassent que légèrement le taux de réussite aléatoire de base de 20 %. Nous décomposons cet échec en deux goulots d'étranglement critiques : (1) un déficit de récupération, où les sélecteurs d'images négligent des preuves clés, et (2) un déficit de fusion, où les modèles échouent à intégrer l'information même lorsque toutes les preuves nécessaires sont fournies. En rendant les preuves temporelles à la fois incontournables et quantifiables, HERBench établit une cible principielle pour faire progresser la compréhension vidéo compositionnelle et robuste.

3D-RE-GEN : Reconstruction 3D de scènes intérieures avec un cadre génératif
3D-RE-GEN: 3D Reconstruction of Indoor Scenes with a Generative Framework

Dec 19

ByTobias Sautter, Jan-Niklas Dihlmann, Hendrik P. A. Lensch

Les progrès récents en génération de scènes 3D produisent des résultats visuellement attrayants, mais les représentations actuelles entravent les flux de travail des artistes qui nécessitent des scènes modifiables de maillages 3D texturés pour les effets visuels et le développement de jeux. Malgré des avancées significatives, les méthodes actuelles de reconstruction de scènes par maillages texturés sont loin d'être prêtes pour les artistes, souffrant d'une décomposition incorrecte des objets, de relations spatiales imprécises et d'absences d'arrière-plans. Nous présentons 3D-RE-GEN, un cadre compositionnel qui reconstruit une image unique en objets 3D texturés et un arrière-plan. Nous montrons que la combinaison de modèles de pointe issus de domaines spécifiques permet d'atteindre des performances de pointe en reconstruction de scènes, répondant aux exigences des artistes. Notre pipeline de reconstruction intègre des modèles pour la détection d'assets, la reconstruction et le placement, poussant certains modèles au-delà de leurs domaines d'origine. L'obtention d'objets occlus est traitée comme une tâche de retouche d'image avec des modèles génératifs pour déduire et reconstruire avec un raisonnement au niveau de la scène sous un éclairage et une géométrie cohérents. Contrairement aux méthodes actuelles, 3D-RE-GEN génère un arrière-plan complet qui contraint spatialement les objets lors de l'optimisation et fournit une base pour des tâches réalistes d'éclairage et de simulation dans les effets visuels et les jeux. Pour obtenir des agencements physiquement réalistes, nous utilisons une nouvelle optimisation différentiable à 4 degrés de liberté qui aligne les objets reconstruits avec le plan de sol estimé. 3D-RE-GEN atteint des performances de pointe en reconstruction de scènes 3D à partir d'une seule image, produisant des scènes cohérentes et modifiables grâce à une génération compositionnelle guidée par une récupération précise de la caméra et une optimisation spatiale.

La méta-apprentissage par renforcement induit l'exploration chez les agents linguistiques
Meta-RL Induces Exploration in Language Agents

Dec 18

ByYulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic

L'apprentissage par renforcement (RL) a permis d'entraîner des agents basés sur de grands modèles de langage (LLM) à interagir avec l'environnement pour résoudre des tâches séquentielles à long horizon. Cependant, ces agents entraînés par RL éprouvent souvent des difficultés dans les tâches nécessitant une exploration active et peinent à s'adapter efficacement à partir d'expériences par essais et erreurs. Dans cet article, nous présentons LaMer, un cadre Méta-RL général qui permet aux agents LLM d'explorer activement et d'apprendre des retours de l'environnement lors de la phase de test. LaMer comprend deux composants clés : (i) un cadre d'entraînement inter-épisodes pour encourager l'exploration et l'optimisation des récompenses à long terme ; et (ii) une adaptation de politique contextuelle par réflexion, permettant à l'agent d'adapter sa politique à partir du signal de retour de la tâche sans mise à jour par gradient. Les expériences menées dans divers environnements montrent que LaMer améliore significativement les performances par rapport aux méthodes de RL de référence, avec des gains de performances de 11 %, 14 % et 19 % sur Sokoban, MineSweeper et Webshop, respectivement. De plus, LaMer démontre également une meilleure généralisation pour des tâches plus difficiles ou non rencontrées précédemment par rapport aux agents entraînés par RL. Globalement, nos résultats démontrent que le Méta-RL offre une approche principée pour induire l'exploration chez les agents langagiers, permettant une adaptation plus robuste à de nouveaux environnements grâce à des stratégies d'exploration apprises.

Turn-PPO : Estimation de l'avantage par tour avec PPO pour une amélioration du RL multi-tours dans les LLMs agentiels
Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs

Dec 18

ByJunbo Li, Peng Zhou, Rui Meng, Meet P. Vadera, Lihong Li, Yang Li

L'apprentissage par renforcement (RL) réémerge comme une approche naturelle pour entraîner des agents LLM interactifs dans des environnements réels. Cependant, l'application directe de l'algorithme largement utilisé qu'est l'Optimisation de Politique par Groupe Relatif (GRPO) à des tâches multi-tours révèle des limitations notables, particulièrement dans les scénarios nécessitant un raisonnement à long terme. Pour relever ces défis, nous étudions des stratégies d'estimation de l'avantage plus stables et efficaces, spécialement pour les configurations multi-tours. Nous explorons d'abord l'Optimisation de Politique Proximale (PPO) comme alternative et constatons qu'elle est plus robuste que le GRPO. Pour améliorer encore les performances du PPO dans les scénarios multi-tours, nous présentons le turn-PPO, une variante qui opère sur une formulation MDP au niveau du tour, par opposition au MDP au niveau du token couramment utilisé. Nos résultats sur les jeux de données WebShop et Sokoban démontrent l'efficacité du turn-PPO, à la fois avec et sans composantes de raisonnement long.

Animez n'importe quel personnage dans n'importe quel monde
Animate Any Character in Any World

Dec 18

ByYitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu

Les récents progrès en modèles du monde ont considérablement amélioré la simulation interactive d'environnements. Les méthodes existantes se divisent principalement en deux catégories : (1) les modèles de génération de mondes statiques, qui construisent des environnements 3D sans agents actifs, et (2) les modèles à entités contrôlables, qui permettent à une seule entité d'effectuer des actions limitées dans un environnement autrement non contrôlable. Dans ce travail, nous présentons AniX, qui exploite le réalisme et l'ancrage structurel de la génération de mondes statiques tout en étendant les modèles à entités contrôlables pour prendre en charge des personnages spécifiés par l'utilisateur capables d'effectuer des actions ouvertes. Les utilisateurs peuvent fournir une scène 3DGS et un personnage, puis guider le personnage par langage naturel pour exécuter des comportements divers allant de la locomotion de base aux interactions centrées sur les objets tout en explorant librement l'environnement. AniX synthétise des clips vidéo temporellement cohérents qui préservent la fidélité visuelle avec la scène et le personnage fournis, formulés comme un problème de génération vidéo autogressive conditionnelle. Construite sur un générateur vidéo pré-entraîné, notre stratégie d'entraînement améliore significativement la dynamique du mouvement tout en maintenant la généralisation entre les actions et les personnages. Notre évaluation couvre un large éventail d'aspects, incluant la qualité visuelle, la cohérence des personnages, la contrôlabilité des actions et la cohérence à long terme.

SWE-Bench++ : Un cadre pour la génération évolutive de benchmarks en génie logiciel à partir de dépôts open source
SWE-Bench++: A Framework for the Scalable Generation of Software Engineering Benchmarks from Open-Source Repositories

Dec 19

ByLilin Wang, Lucas Ramalho, Alan Celestino, Phuc Anthony Pham, Yu Liu, Umang Kumar Sinha, Andres Portillo, Onassis Osunwa, Gabriel Maduekwe

Des benchmarks comme SWE-bench ont standardisé l'évaluation des grands modèles de langage (LLM) sur des tâches de génie logiciel au niveau du dépôt de code. Cependant, ces efforts restent limités par une curation manuelle, des jeux de données statiques et une focalisation sur les corrections de bogues en Python. Nous présentons SWE-Bench++, un cadre automatisé qui génère des tâches de codage au niveau du dépôt à partir de projets GitHub open source. Contrairement aux approches synthétiques, notre pipeline collecte des demandes de tirage (pull requests) en direct pour couvrir à la fois les corrections de bogues et les demandes de fonctionnalités dans 11 langages. SWE-Bench++ transforme les demandes de tirage GitHub en tâches reproductibles et basées sur l'exécution via quatre étapes : l'approvisionnement programmatique, la synthèse de l'environnement, l'extraction d'oracles de test et l'assurance qualité. Une étape finale de synthèse de trajectoire guidée par des indices convertit les instances sur lesquelles les modèles performants échouent en trajectoires d'apprentissage. Notre benchmark initial se compose de 11 133 instances provenant de 3 971 dépôts couvrant 11 langages. Sur un sous-ensemble de 1 782 instances de ce benchmark, les modèles les plus performants d'aujourd'hui obtiennent les résultats suivants : claude-sonnet-4.5 atteint 36,20 % de pass@10, gpt-5-2025-08-07 34,57 %, gemini/gemini-2.5-pro 24,92 % et gpt-4o 16,89 %. Nous démontrons en outre l'utilité de notre jeu de données en montrant qu'un affinage (fine-tuning) sur les instances de SWE-Bench++ produit des améliorations mesurables sur le benchmark multilingue SWE-bench. SWE-Bench++ fournit un benchmark évolutif et multilingue pour évaluer et améliorer la génération de code au niveau du dépôt.

StageVAR : Accélération adaptative par stade pour les modèles visuels autorégressifs
StageVAR: Stage-Aware Acceleration for Visual Autoregressive Models

Dec 18

BySenmao Li, Kai Wang, Salman Khan, Fahad Shahbaz Khan, Jian Yang, Yaxing Wang

La modélisation visuelle autorégressive (VAR) s'écarte du paradigme de prédiction de token suivant des modèles autorégressifs (AR) traditionnels grâce à la prédiction d'échelle suivante, permettant une génération d'images de haute qualité. Cependant, le paradigme VAR souffre d'une complexité computationnelle et d'un temps d'exécution fortement accrus à grande échelle. Bien que les méthodes d'accélération existantes réduisent le temps d'exécution pour les étapes à grande échelle, elles reposent sur une sélection manuelle des étapes et négligent l'importance variable des différentes phases du processus de génération. Pour relever ce défi, nous présentons StageVAR, une étude systématique et un cadre d'accélération conscient des phases pour les modèles VAR. Notre analyse montre que les premières étapes sont cruciales pour préserver la cohérence sémantique et structurelle et doivent rester intactes, tandis que les étapes ultérieures affinent principalement les détails et peuvent être élaguées ou approximées pour l'accélération. Sur la base de ces observations, StageVAR introduit une stratégie d'accélération plug-and-play qui exploite l'irrévérence sémantique et les propriétés de faible rang dans les calculs des phases tardives, sans nécessiter d'entraînement supplémentaire. Notre StageVAR proposé atteint une accélération jusqu'à 3,4x avec seulement une baisse de 0,01 sur GenEval et une diminution de 0,26 sur DPG, surpassant constamment les méthodes d'accélération de référence existantes. Ces résultats soulignent la conception consciente des phases comme un principe puissant pour une génération d'images visuelles autorégressives efficace.

Un Référentiel et un Cadre Agentique pour le Raisonnement Omni-Modal et l'Utilisation d'Outils dans les Vidéos Longues
A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos

Dec 18

ByMohammed Irfan Kurpath, Jaseel Muhammad Kaithakkodan, Jinxing Zhou, Sahal Shaji Mullappilly, Mohammad Almansoori, Noor Ahsan, Beknur Kalmakhanbet, Sambal Shikhar, Rishabh Lalla, Jean Lahoud, Mariette Awad, Fahad Shahbaz Khan, Salman Khan, Rao Muhammad Anwer, Hisham Cholakkal

La compréhension multimodale de vidéos long-form nécessite l'intégration de la vision, de la parole et de l'audio ambiant avec un raisonnement cohérent à long terme. Les benchmarks existants privilégient soit la durée temporelle, soit la richesse multimodale, mais rarement les deux. Bien que certains intègrent des questions ouvertes et des métriques avancées, ils reposent principalement sur une précision à score unique, ce qui occulte les modes d'échec. Nous présentons LongShOTBench, un benchmark diagnostique comprenant des questions ouvertes et intentionnelles, des dialogues en un tour et plusieurs tours, ainsi que des tâches nécessitant un raisonnement multimodal et l'utilisation d'outils agentiques à travers la vidéo, l'audio et la parole. Chaque élément inclut une réponse de référence et une grille d'évaluation notée pour une évaluation interprétable et traçable. LongShOTBench est produit via un pipeline évolutif et validé par des humains pour garantir la couverture et la reproductibilité. Tous les échantillons de notre LongShOTBench sont vérifiés et corrigés manuellement. De plus, nous présentons LongShOTAgent, un système agentique qui analyse les vidéos longues via un prétraitement, une recherche et un raffinement itératif. Sur LongShOTBench, les MLLM de pointe affichent des écarts importants : Gemini-2.5-Flash atteint 52,95 %, les modèles open source restent en dessous de 30 %, et LongShOTAgent obtient 44,66 %. Ces résultats soulignent la difficulté de la compréhension réaliste des vidéos long-form. LongShOTBench fournit une base pratique et reproductible pour évaluer et améliorer les MLLM. Toutes les ressources sont disponibles sur GitHub : https://github.com/mbzuai-oryx/longshot.

MineTheGap : Extraction automatique des biais dans les modèles texte-image
MineTheGap: Automatic Mining of Biases in Text-to-Image Models

Dec 15

ByNoa Cohen, Nurit Spingarn-Eliezer, Inbar Huberman-Spiegelglas, Tomer Michaeli

Les modèles de génération d'images à partir de texte (TTI) produisent des images basées sur des invites textuelles, qui laissent souvent certains aspects de l'image souhaitée ambigus. Face à ces ambiguïtés, il a été démontré que les modèles TTI présentent des biais dans leurs interprétations. Ces biais peuvent avoir des impacts sociétaux, par exemple en ne montrant qu'une certaine ethnie pour une profession donnée. Ils peuvent également affecter l'expérience utilisateur en créant des redondances dans un ensemble d'images générées au lieu d'explorer des possibilités diverses. Nous présentons ici MineTheGap - une méthode pour extraire automatiquement les invites qui amènent un modèle TTI à produire des sorties biaisées. Notre méthode va au-delà de la simple détection des biais pour une invite donnée. Elle exploite plutôt un algorithme génétique pour affiner itérativement un pool d'invites, cherchant celles qui révèlent des biais. Ce processus d'optimisation est piloté par un nouveau score de biais, qui classe les biais selon leur gravité, comme nous le validons sur un jeu de données contenant des biais connus. Pour une invite donnée, ce score est obtenu en comparant la distribution des images générées à la distribution des textes générés par un LLM qui constituent des variations de l'invite. Le code et des exemples sont disponibles sur la page web du projet.