HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

31 papers found

Rapport Technique de Step-GUI
Step-GUI Technical Report

Dec 17

ByHaolong Yan, Jia Wang, Xin Huang, Yeqing Shen, Ziyang Meng, Zhimin Fan, Kaijun Tan, Jin Gao, Lieyu Shi, Mi Yang, Shiliang Yang, Zhirui Wang, Brian Li, Kang An, Chenyang Li, Lei Lei, Mengmeng Duan, Danxun Liang, Guodong Liu, Hang Cheng, Hao Wu, Jie Dong, Junhao Huang, Mei Chen, Renjie Yu, Shunshan Li, Xu Zhou, Yiting Dai, Yineng Deng, Yingdan Liang, Zelin Chen, Wen Sun, Chengxu Yan, Chunqin Xu, Dong Li, Fengqiong Xiao, Guanghao Fan, Guopeng Li, Guozhen Peng, Hongbing Li, Hang Li, Hongming Chen, Jingjing Xie, Jianyong Li, Jingyang Zhang, Jiaju Ren, Jiayu Yuan, Jianpeng Yin, Kai Cao, Liang Zhao, Liguo Tan, Liying Shi, Mengqiang Ren, Min Xu, Manjiao Liu, Mao Luo, Mingxin Wan, Na Wang, Nan Wu, Ning Wang, Peiyao Ma, Qingzhou Zhang, Qiao Wang, Qinlin Zeng, Qiong Gao, Qiongyao Li, Shangwu Zhong, Shuli Gao, Shaofan Liu, Shisi Gao, Shuang Luo, Xingbin Liu, Xiaojia Liu, Xiaojie Hou, Xin Liu, Xuanti Feng, Xuedan Cai, Xuan Wen, Xianwei Zhu, Xin Liang, Xin Liu, Xin Zhou, Yingxiu Zhao, Yukang Shi, Yunfang Xu, Yuqing Zeng, Yixun Zhang, Zejia Weng, Zhonghao Yan, Zhiguo Huang, Zhuoyu Wang, Zheng Ge, Jing Li, Yibo Zhu, Binxing Jiao, Xiangyu Zhang, Daxin Jiang

132

Les récentes avancées des modèles de langage multimodaux ouvrent des perspectives inédites pour l'automatisation des interfaces graphiques. Cependant, un défi fondamental persiste : comment acquérir efficacement des données d'entraînement de haute qualité tout en garantissant la fiabilité des annotations ? Nous présentons un pipeline d'entraînement auto-évolutif propulsé par le Système de Récompense Étalonné par Étapes, qui transforme les trajectoires générées par le modèle en signaux d'entraînement fiables grâce à un étalonnage au niveau trajectoire, atteignant une précision d'annotation >90 % pour un coût 10 à 100 fois inférieur. En capitalisant sur ce pipeline, nous présentons Step-GUI, une famille de modèles (4B/8B) qui obtient des performances de pointe sur les interfaces graphiques (8B : 80,2 % AndroidWorld, 48,5 % OSWorld, 62,6 % ScreenShot-Pro) tout en conservant des capacités générales robustes. Alors que les capacités des agents d'interface graphique s'améliorent, leur déploiement pratique exige des interfaces standardisées sur des appareils hétérogènes tout en protégeant la vie privée des utilisateurs. À cette fin, nous proposons GUI-MCP, le premier Protocole de Contexte de Modèle dédié à l'automatisation des interfaces graphiques, doté d'une architecture hiérarchique combinant des opérations atomiques de bas niveau et une délégation de tâches de haut niveau à des modèles spécialisés locaux, permettant une exécution à haute confidentialité où les données sensibles restent sur l'appareil. Enfin, pour évaluer si les agents peuvent gérer des usages quotidiens authentiques, nous introduisons AndroidDaily, un benchmark ancré dans des schémas d'utilisation mobiles réels comprenant 3146 actions statiques et 235 tâches de bout en bout couvrant des scénarios quotidiens à haute fréquence (8B : statique 89,91 %, bout en bout 52,50 %). Notre travail fait progresser le développement d'agents d'interface graphique pratiques et démontre un fort potentiel de déploiement réel dans les interactions numériques quotidiennes.

Qwen-Image-Layered : Vers une éditiabilité inhérente via la décomposition en couches
Qwen-Image-Layered: Towards Inherent Editability via Layer Decomposition

Dec 17

ByShengming Yin, Zekai Zhang, Zecheng Tang, Kaiyuan Gao, Xiao Xu, Kun Yan, Jiahao Li, Yilei Chen, Yuxiang Chen, Heung-Yeung Shum, Lionel M. Ni, Jingren Zhou, Junyang Lin, Chenfei Wu

Les modèles génératifs visuels récents éprouvent souvent des difficultés à maintenir la cohérence lors de l'édition d'images en raison de la nature entrelacée des images matricielles, où tout le contenu visuel est fusionné en une seule toile. En revanche, les outils de conception professionnels utilisent des représentations en calques, permettant des modifications isolées tout en préservant la cohérence. Motivés par cela, nous proposons Qwen-Image-Layered, un modèle de diffusion de bout en bout qui décompose une image RVB unique en plusieurs calques RVBA sémantiquement désentrelacés, permettant une éditation inhérente, où chaque calque RVBA peut être manipulé indépendamment sans affecter les autres contenus. Pour prendre en charge la décomposition à longueur variable, nous introduisons trois composants clés : (1) un RVBA-VAE pour unifier les représentations latentes des images RVB et RVBA ; (2) une architecture VLD-MMDiT (Variable Layers Decomposition MMDiT) capable de décomposer un nombre variable de calques d'image ; et (3) une stratégie d'Entraînement Multi-étapes pour adapter un modèle préentraîné de génération d'image en un décomposeur d'images multicouches. De plus, pour pallier la rareté des images multicouches de haute qualité pour l'entraînement, nous avons construit un pipeline pour extraire et annoter des images multicouches à partir de documents Photoshop (PSD). Les expériences démontrent que notre méthode surpasse significativement les approches existantes en qualité de décomposition et établit un nouveau paradigme pour l'édition d'images cohérente. Notre code et nos modèles sont publiés sur https://github.com/QwenLM/Qwen-Image-Layered.

DEER: Ébauche par Diffusion, Vérification par Modèles Autorégressifs
DEER: Draft with Diffusion, Verify with Autoregressive Models

Dec 17

ByZicong Cheng, Guo-Wei Yang, Jia Li, Zhijie Deng, Meng-Hao Guo, Shi-Min Hu

L'efficacité, en tant que défi pratique crucial pour les systèmes agentiels et de raisonnement pilotés par les LLM, est de plus en plus contrainte par la latence inhérente au décodage autorégressif (AR). Le décodage spéculatif atténue ce coût grâce à un schéma de brouillon-vérification, mais les approches existantes reposent sur des modèles de brouillon AR (ou « drafters »), qui introduisent deux problèmes fondamentaux : (1) l'accumulation pas à pas de l'incertitude conduit à un effondrement progressif de la confiance entre le modèle cible et le drafter, et (2) le décodage séquentiel inhérent des drafters AR. Ensemble, ces facteurs entraînent des accélérations limitées. Dans cet article, nous montrons qu'un drafter basé sur un modèle de langage de grande taille à diffusion (dLLM) peut naturellement surmonter ces problèmes grâce à sa modélisation probabiliste fondamentalement différente et à sa stratégie de décodage parallèle efficace. En nous appuyant sur cette idée, nous présentons DEER, un cadre de décodage spéculatif efficace qui élabore des brouillons par diffusion et les vérifie avec des modèles AR. Pour permettre une génération de brouillons de haute qualité, DEER utilise un pipeline d'entraînement en deux étapes pour aligner les drafters basés sur dLLM avec le modèle AR cible, et adopte en outre un décodage en une seule étape pour générer de longs segments de brouillon. Les expériences montrent que DEER atteint des longueurs d'acceptation de brouillon allant jusqu'à 32 jetons, dépassant largement les 10 jetons atteints par EAGLE-3. De plus, sur HumanEval avec Qwen3-30B-A3B, DEER atteint une accélération de 5,54x, tandis qu'EAGLE-3 n'atteint que 2,41x. Le code, les modèles, les démos, etc., seront disponibles à l'adresse https://czc726.github.io/DEER/

Modèle de Raisonnement Universel
Universal Reasoning Model

Dec 16

ByZitian Gao, Lynx Chen, Yihao Xiao, He Xing, Ran Tao, Haoming Luo, Joey Zhou, Bryan Dai

Les transformateurs universels (UT) sont largement utilisés pour des tâches de raisonnement complexe comme ARC-AGI et le Sudoku, mais les sources spécifiques de leurs gains de performance restent peu explorées. Dans ce travail, nous analysons systématiquement les variantes d'UT et montrons que les améliorations sur ARC-AGI proviennent principalement du biais inductif récurrent et des fortes composantes non linéaires du Transformer, plutôt que de conceptions architecturales élaborées. Motivés par cette observation, nous proposons le Modèle de Raisonnement Universel (URM), qui améliore l'UT en y intégrant des convolutions courtes et une rétropropagation tronquée. Notre approche améliore considérablement les performances en raisonnement, atteignant un état de l'art de 53,8% pass@1 sur ARC-AGI 1 et 16,0% pass@1 sur ARC-AGI 2. Notre code est disponible à l'adresse https://github.com/zitian-gao/URM.

HyperVL : Un modèle de langage multimodal efficace et dynamique pour les dispositifs périphériques
HyperVL: An Efficient and Dynamic Multimodal Large Language Model for Edge Devices

Dec 16

ByHyperAI Team, Yuchen Liu, Kaiyang Han, Zhiqiang Xia, Yuhang Dong, Chen Song, Kangyu Tang, Jiaming Xu, Xiushi Feng, WenXuan Yu, Li Peng, Mingyang Wang, Kai Wang, Changpeng Yang, Yang Li, Haoyu Lu, Hao Wang, Bingna Xu, Guangyao Liu, Long Huang, Kaibin Guo, Jinyang Wu, Dan Wu, Hongzhen Wang, Peng Zhou, Shuai Nie, Shande Wang, Runyu Shi, Ying Huang

Les modèles multimodaux de grande taille actuels possèdent d'excellentes capacités perceptives et de raisonnement, mais leurs exigences élevées en calcul et en mémoire rendent leur déploiement direct sur des environnements embarqués difficile. Bien que les modèles à petit nombre de paramètres acquièrent progressivement de solides capacités générales, les encodeurs Vision Transformer (ViT) standard restent un goulot d'étranglement critique, souffrant d'une latence excessive et d'une consommation mémoire élevée lors du traitement d'entrées haute résolution. Pour relever ces défis, nous présentons HyperVL, un modèle multimodal de grande langue efficace spécialement conçu pour l'inférence embarquée. HyperVL adopte une stratégie de découpage d'image pour plafonner l'utilisation mémoire maximale et intègre deux techniques novatrices : (1) un Compresseur de Résolution Visuelle (VRC) qui prédit adaptativement les résolutions d'encodage optimales pour éliminer les calculs redondants, et (2) l'Apprentissage de Double Cohérence (DCL), qui aligne les encodeurs ViT multi-échelles dans un cadre unifié, permettant une commutation dynamique entre les branches visuelles sous un même LLM partagé. Des expériences approfondies démontrent qu'HyperVL atteint des performances à la pointe parmi les modèles de taille comparable sur plusieurs benchmarks. De plus, il réduit significativement la latence et la consommation énergétique sur des appareils mobiles réels, démontrant son utilité pratique pour l'inférence multimodale embarquée.

Décodage Causal Parallèle Rapide et Précis par Forçage de Jacobi
Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Dec 16

ByLanxiang Hu, Siqi Kou, Yichao Fu, Samyam Rajbhandari, Tajana Rosing, Yuxiong He, Zhijie Deng, Hao Zhang

La génération multi-jetons est apparue comme un paradigme prometteur pour accélérer l'inférence des grands modèles basés sur les transformers. Les travaux récents explorent principalement les modèles de langage de grande taille à diffusion (dLLM) pour le décodage parallèle afin de réduire la latence d'inférence. Pour atteindre une qualité de génération équivalente aux modèles autorégressifs (AR), de nombreuses techniques adaptent les modèles AR en dLLM pour permettre le décodage parallèle. Cependant, ils souffrent d'une accélération limitée par rapport aux modèles AR en raison d'une inadéquation entre le pré-entraînement et le post-entraînement. Concrètement, la distribution de données masquées lors du post-entraînement s'écarte significativement de la distribution de données réelles observée pendant le pré-entraînement, et les dLLM s'appuient sur une attention bidirectionnelle, ce qui entre en conflit avec l'a priori causal appris lors du pré-entraînement et entrave l'intégration de la réutilisation exacte du cache KV. Pour résoudre ce problème, nous introduisons Jacobi Forcing, un paradigme de distillation progressive où les modèles sont entraînés sur leurs propres trajectoires de décodage parallèle générées, transformant progressivement les modèles AR en décodeurs parallèles efficaces tout en préservant leur propriété d'inférence causale pré-entraînée. Les modèles entraînés selon ce paradigme, Jacobi Forcing Model, atteignent une accélération en temps réel de 3,8x sur des benchmarks de codage et de mathématiques avec une perte de performance minimale. Sur la base des caractéristiques de trajectoire des modèles Jacobi Forcing, nous introduisons le décodage multi-bloc avec recyclage par rejet, qui permet jusqu'à 4,5x plus de jetons acceptés par itération et une accélération en temps réel de près de 4,0x, échangeant efficacement un calcul supplémentaire contre une latence d'inférence réduite. Notre code est disponible à l'adresse https://github.com/hao-ai-lab/JacobiForcing.

Curriculum Puzzle GRPO pour le Raisonnement Centré sur la Vision
Puzzle Curriculum GRPO for Vision-Centric Reasoning

Dec 16

ByAhmadreza Jeddi, Hakki Can Karaimer, Hue Nguyen, Zhongling Wang, Ke Zhao, Javad Rajabi, Ran Zhang, Raghav Goyal, Babak Taati, Radek Grzeszczuk

Les approches récentes d'apprentissage par renforcement (RL) comme le GRPO supervisé par les résultats ont fait progresser le raisonnement par enchaînement de pensées dans les modèles de vision et de langage (VLM), mais des problèmes clés persistent : (i) la dépendance à des annotations manuelles coûteuses et bruitées ou à des vérificateurs externes ; (ii) les schémas de récompense plats et clairsemés dans le GRPO ; et (iii) l'incohérence logique entre le raisonnement d'une chaîne et sa réponse finale. Nous présentons Puzzle Curriculum GRPO (PC-GRPO), une méthode sans supervision pour le RL avec Récompenses Vérifiables (RLVR) qui renforce le raisonnement visuel dans les VLM sans annotations ni vérificateurs externes. PC-GRPO remplace les étiquettes par trois environnements d'énigmes auto-supervisés : PatchFit, Rotation (avec récompenses binaires) et Jigsaw (avec un crédit partiel gradué atténuant la parcimonie des récompenses). Pour contrer les récompenses plates et la disparition des avantages relatifs au groupe, nous introduisons un curriculum adaptatif à la difficulté qui pondère dynamiquement les échantillons et culmine à une difficulté moyenne. Nous surveillons en outre la Cohérence Raisonnement-Réponse (RAC) pendant le post-entraînement : conformément aux rapports sur le GRPO standard dans les LLM, la RAC augmente généralement tôt puis se dégrade ; notre curriculum retarde ce déclin, et les schémas de récompense renforçant la cohérence améliorent encore la RAC. La RAC est corrélée avec la précision en aval. Sur divers benchmarks et avec des architectures Qwen-7B et Qwen-3B, PC-GRPO améliore la qualité du raisonnement, la stabilité de l'entraînement et la précision sur la tâche finale, offrant une voie pratique vers un post-entraînement par RL scalable, vérifiable et interprétable pour les VLM.

MMSI-Video-Bench : Un benchmark holistique pour l'intelligence spatiale basée sur la vidéo
MMSI-Video-Bench: A Holistic Benchmark for Video-Based Spatial Intelligence

Dec 11

ByJingli Lin, Runsen Xu, Shaohao Zhu, Sihan Yang, Peizhou Cao, Yunlong Ran, Miao Hu, Chenming Zhu, Yiman Xie, Yilin Long, Wenbo Hu, Dahua Lin, Tai Wang, Jiangmiao Pang

La compréhension spatiale à partir d'entrées visuelles continues est cruciale pour que les MLLM évoluent vers des assistants polyvalents dans les environnements physiques. Pourtant, il n'existe toujours pas de benchmark complet évaluant de manière holistique les progrès vers cet objectif. Dans ce travail, nous présentons MMSI-Video-Bench, un benchmark entièrement annoté manuellement pour l'intelligence spatiale basée sur la vidéo dans les MLLM. Il opérationnalise un cadre à quatre niveaux – Perception, Planification, Prédiction et Raisonnement Inter-Vidéos – au travers de 1 106 questions ancrées dans 1 278 clips issus de 25 jeux de données et de vidéos internes. Chaque élément est soigneusement conçu et relu par des experts en vision 3D, avec des justifications explicatives, pour garantir un ancrage précis et non ambigu. Tirant parti de la diversité de ses sources de données et de sa couverture holistique des tâches, MMSI-Video-Bench prend également en charge trois sous-benchmarks orientés domaine (Benchmark de Perception de Scènes Intérieures, Benchmark Robotique et Benchmark d'Ancrage) pour une évaluation ciblée des capacités. Nous évaluons 25 MLLM open-source et propriétaires performants, révélant un écart frappant entre l'homme et l'IA : de nombreux modèles obtiennent des résultats proches du hasard, et le meilleur modèle de raisonnement accuse un retard de près de 60 % par rapport aux humains. Nous constatons en outre que les modèles affinés spatialement échouent encore à généraliser efficacement sur notre benchmark. Une analyse fine des erreurs révèle des échecs systématiques dans le raisonnement géométrique, l'ancrage du mouvement, la prédiction à long terme et la correspondance inter-vidéos. Nous montrons également que les stratégies d'échantillonnage d'images typiques se transfèrent mal à notre benchmark intensif en raisonnement, et que ni les indices spatiaux 3D ni l'incitation par raisonnement en chaîne ne procurent d'améliorations significatives. Nous espérons que notre benchmark établira un banc d'essai solide pour faire progresser l'intelligence spatiale basée sur la vidéo.

IC-Effect : Édition précise et efficace d'effets vidéo par apprentissage en contexte
IC-Effect: Precise and Efficient Video Effects Editing via In-Context Learning

Dec 17

ByYuanhang Li, Yiren Song, Junzhe Bai, Xinran Liang, Hu Yang, Libiao Jin, Qi Mao

Nous proposons IC-Effect, un cadre basé sur DiT et guidé par des instructions pour l'édition vidéo d'effets visuels (VFX) en few-shot, qui synthétise des effets complexes (par exemple, des flammes, des particules et des personnages de dessin animé) tout en préservant strictement la cohérence spatiale et temporelle. L'édition vidéo VFX est très difficile car les effets injectés doivent s'intégrer parfaitement à l'arrière-plan, ce dernier doit rester entièrement inchangé, et les motifs des effets doivent être appris efficacement à partir de données appariées limitées. Cependant, les modèles d'édition vidéo existants ne satisfont pas à ces exigences. IC-Effect exploite la vidéo source comme condition contextuelle propre, en utilisant la capacité d'apprentissage contextuel des modèles DiT pour réaliser une préservation précise de l'arrière-plan et une injection naturelle des effets. Une stratégie d'entraînement en deux étapes, consistant en une adaptation générale à l'édition suivie d'un apprentissage spécifique aux effets via Effect-LoRA, garantit un suivi rigoureux des instructions et une modélisation robuste des effets. Pour améliorer encore l'efficacité, nous introduisons une tokenisation parcimonieuse spatio-temporelle, permettant une haute fidélité avec une réduction substantielle des calculs. Nous publions également un jeu de données apparié pour l'édition VFX couvrant 15 styles visuels de haute qualité. Des expériences approfondies montrent qu'IC-Effect offre une édition VFX de haute qualité, contrôlable et temporellement cohérente, ouvrant de nouvelles possibilités pour la création vidéo.

Les LLM peuvent-ils guider leur propre exploration ? Apprentissage par renforcement à guidage par gradient pour le raisonnement des LLM
Can LLMs Guide Their Own Exploration? Gradient-Guided Reinforcement Learning for LLM Reasoning

Dec 17

ByZhenwen Liang, Sidi Lu, Wenhao Yu, Kishan Panaganti, Yujun Zhou, Haitao Mi, Dong Yu

L'apprentissage par renforcement est devenu essentiel pour renforcer les capacités de raisonnement des grands modèles de langage, mais les mécanismes d'exploration actuels restent fondamentalement inadaptés à la manière dont ces modèles apprennent réellement. Les primes d'entropie et les comparateurs sémantiques externes encouragent une variation superficielle, mais n'offrent aucune garantie que les trajectoires échantillonnées diffèrent dans les directions de mise à jour qui façonnent l'optimisation. Nous proposons G2RL, un cadre d'apprentissage par renforcement à guidage par gradient dans lequel l'exploration est pilotée non pas par des heuristiques externes, mais par la géométrie de mise à jour du premier ordre du modèle lui-même. Pour chaque réponse, G2RL construit une caractéristique au niveau de la séquence à partir de la sensibilité de la couche finale du modèle, obtenable à un coût négligeable lors d'une passe avant standard, et mesure comment chaque trajectoire remodelerait la politique en comparant ces caractéristiques au sein d'un groupe échantillonné. Les trajectoires qui introduisent des directions de gradient nouvelles reçoivent un facteur de récompense multiplicatif borné, tandis que les mises à jour redondantes ou hors variété sont atténuées, produisant un signal d'exploration autoréférentiel naturellement aligné avec la stabilité de type PPO et le contrôle KL. Sur des benchmarks de raisonnement mathématique et général (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) avec les modèles de base Qwen3 1.7B et 4B, G2RL améliore constamment les métriques pass@1, maj@16 et pass@k par rapport aux méthodes GRPO basées sur l'entropie et celles utilisant des embeddings externes. En analysant la géométrie induite, nous constatons que G2RL étend l'exploration vers des directions de gradient substantiellement plus orthogonales et souvent opposées, tout en maintenant la cohérence sémantique, révélant que l'espace de mise à jour propre à une politique constitue une base bien plus fidèle et efficace pour guider l'exploration dans l'apprentissage par renforcement des grands modèles de langage.

VOYAGER : Une approche sans entraînement pour générer des ensembles de données diversifiés à l'aide de modèles de langage
VOYAGER: A Training Free Approach for Generating Diverse Datasets using LLMs

Dec 12

ByAvinash Amballa, Yashas Malur Saidutta, Chi-Heng Lin, Vivek Kulkarni, Srinivas Chappidi

Les grands modèles de langage (LLM) sont de plus en plus utilisés pour générer des ensembles de données synthétiques destinés à l'évaluation et à l'entraînement de modèles en aval. Cependant, des travaux antérieurs ont constaté que ces données générées manquent de diversité. Dans cet article, nous proposons Voyager, une nouvelle approche fondée sur des principes pour générer des ensembles de données diversifiés. Notre approche est itérative et optimise directement une quantité mathématique qui maximise la diversité de l'ensemble de données en utilisant le formalisme des processus ponctuels déterminantaux. De plus, notre méthode ne nécessite pas d'entraînement, est applicable aux modèles propriétaires et est évolutive. Outre la justification théorique du fonctionnement de notre méthode, nous démontrons également par des expériences approfondies que Voyager surpasse significativement les approches de référence populaires en offrant une amélioration de la diversité d'un facteur 1,5 à 3.

Skyra : Détection de vidéos générées par IA via un raisonnement fondé sur les artefacts
Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning

Dec 17

ByYifei Li, Wenzhao Zheng, Yanran Zhang, Runze Sun, Yu Zheng, Lei Chen, Jie Zhou, Jiwen Lu

L'utilisation abusive des technologies de génération vidéo pilotées par l'IA a soulevé de sérieuses préoccupations sociétales, soulignant le besoin urgent de détecteurs fiables de vidéos générées par l'IA. Cependant, la plupart des méthodes existantes se limitent à une classification binaire et manquent des explications nécessaires à l'interprétation humaine. Dans cet article, nous présentons Skyra, un modèle de langage multimodal (MLLM) spécialisé qui identifie les artefacts visuels perceptibles par l'homme dans les vidéos générées par l'IA et les utilise comme preuves tangibles pour la détection et l'explication. Pour soutenir cet objectif, nous avons constitué ViF-CoT-4K pour le réglage fin supervisé (SFT), qui représente la première base de données à grande échelle d'artefacts de vidéos générées par l'IA avec des annotations humaines granulaires. Nous avons ensuite développé une stratégie d'entraînement en deux étapes qui améliore systématiquement la perception spatio-temporelle des artefacts, la capacité d'explication et la précision de détection de notre modèle. Pour évaluer Skyra de manière exhaustive, nous introduisons ViF-Bench, un benchmark comprenant 3 000 échantillons de haute qualité générés par plus de dix générateurs vidéo de pointe. Des expériences approfondies démontrent que Skyra surpasse les méthodes existantes sur plusieurs benchmarks, tandis que notre évaluation fournit des insights précieux pour faire progresser la détection explicable des vidéos générées par l'IA.

SAGE : Entraînement d'Agents Intelligents à Horizon Variable pour le Raisonnement sur de Longues Vidéos par Apprentissage par Renforcement
SAGE: Training Smart Any-Horizon Agents for Long Video Reasoning with Reinforcement Learning

Dec 15

ByJitesh Jain, Jialuo Li, Zixian Ma, Jieyu Zhang, Chris Dongjoo Kim, Sangho Lee, Rohun Tripathi, Tanmay Gupta, Christopher Clark, Humphrey Shi

En tant qu'êtres humains, nous raisonnons naturellement sur des horizons temporels variables, c'est-à-dire que nous pouvons décider de parcourir itérativement de longues vidéos ou de regarder des vidéos courtes en entier lorsque cela est nécessaire pour une tâche donnée. Dans cette optique, on s'attendrait à ce que les modèles de raisonnement vidéo raisonnent de manière flexible sur différentes durées. Cependant, les modèles de l'état de l'art sont toujours entraînés à prédire des réponses en un seul tour tout en traitant un grand nombre de trames, ce qui revient à regarder une longue vidéo en entier et nécessite des ressources importantes. Cela soulève la question : est-il possible de développer des systèmes de raisonnement vidéo performants sur tous horizons ? Inspirés par le comportement humain, nous proposons d'abord SAGE, un système d'agent effectuant un raisonnement en plusieurs tours sur de longues vidéos tout en traitant les problèmes plus simples en un seul tour. Deuxièmement, nous présentons un pipeline simple de génération de données synthétiques utilisant Gemini-2.5-Flash pour entraîner l'orchestrateur, SAGE-MM, qui est au cœur de SAGE. Nous proposons en outre une recette efficace de post-entraînement par apprentissage par renforcement essentielle pour inculquer la capacité de raisonnement multi-horizon à SAGE-MM. Troisièmement, nous constituons SAGE-Bench, dont la durée moyenne est supérieure à 700 secondes, pour évaluer la capacité de raisonnement vidéo dans des cas d'usage réels de divertissement. Enfin, nous validons empiriquement l'efficacité de notre système, de nos données et de notre recette d'apprentissage par renforcement, en observant des améliorations notables allant jusqu'à 6,1 % sur les tâches de raisonnement vidéo à réponse libre, ainsi qu'une amélioration impressionnante de 8,2 % sur les vidéos de plus de 10 minutes.

Détection robuste et calibrée de contenu multimédia authentique
Robust and Calibrated Detection of Authentic Multimedia Content

Dec 17

BySarim Hashmi, Abdelrahman Elsayed, Mohammed Talha Alam, Samuele Poppi, Nils Lukas

Les modèles génératifs peuvent synthétiser des contenus très réalistes, appelés deepfakes, qui sont déjà utilisés abusivement à grande échelle pour compromettre l'authenticité des médias numériques. Les méthodes actuelles de détection des deepfakes sont peu fiables pour deux raisons : (i) distinguer a posteriori un contenu non authentique est souvent impossible (par exemple, avec des échantillons mémorisés), ce qui conduit à un taux de faux positifs (TFP) non borné ; et (ii) la détection manque de robustesse, car des adversaires peuvent s'adapter aux détecteurs connus avec une précision quasi parfaite en utilisant des ressources computationnelles minimales. Pour résoudre ces limitations, nous proposons un cadre de resynthèse permettant de déterminer si un échantillon est authentique ou si son authenticité peut être plausiblement niée. Nous apportons deux contributions principales en nous concentrant sur un régime à haute précision et faible rappel contre des adversaires efficaces (c'est-à-dire à capacité de calcul limitée). Premièrement, nous démontrons que notre méthode de resynthèse calibrée est l'approche la plus fiable pour vérifier les échantillons authentiques tout en maintenant des TFP faibles et contrôlables. Deuxièmement, nous montrons que notre méthode atteint une robustesse adversarial contre des adversaires efficaces, alors que les méthodes antérieures sont facilement contournées sous des budgets de calcul identiques. Notre approche prend en charge plusieurs modalités et s'appuie sur des techniques d'inversion de pointe.

DiffusionVL : Transformer tout modèle autorégressif en modèle de diffusion vision-langage
DiffusionVL: Translating Any Autoregressive Models into Diffusion Vision Language Models

Dec 17

ByLunbin Zeng, Jingfeng Yao, Bencheng Liao, Hongyuan Tao, Wenyu Liu, Xinggang Wang

Dans les recherches multimodales récentes, le paradigme de diffusion s'est imposé comme une alternative prometteuse au paradigme autorégressif (AR), en raison de ses avantages uniques en décodage. Cependant, en raison des limitations capacitives du modèle de langage de diffusion de base, les performances du modèle de vision et langage par diffusion (dVLM) restent encore significativement inférieures à celles des modèles dominants. Cela soulève une question simple mais fondamentale : Est-il possible de construire des dVLMs à partir de modèles AR puissants existants ? En réponse, nous proposons DiffusionVL, une famille de dVLMs pouvant être traduite à partir de n'importe quel modèle AR performant. Par un simple fine-tuning, nous adaptons avec succès des modèles pré-entraînés AR au paradigme de diffusion. Cette approche révèle deux observations clés : (1) La transition du paradigme des modèles multimodaux basés sur l'AR vers la diffusion est remarquablement efficace. (2) La conversion directe d'un modèle de langage AR en un dVLM est également réalisable, atteignant des performances compétitives avec l'ajustement par instructions visuelles de type LLaVA. De plus, nous introduisons une conception de décodage par blocs dans les dVLMs qui prend en charge une génération de longueur arbitraire et la réutilisation du cache KV, permettant une accélération significative de l'inférence. Nous avons mené de nombreuses expériences. Bien qu'entraîné avec moins de 5 % des données requises par les méthodes antérieures, DiffusionVL obtient une amélioration complète des performances - un gain de 34,4 % sur le benchmark MMMU-Pro (vision) et de 37,5 % sur le benchmark MME (Cog.) - ainsi qu'une accélération de l'inférence par 2x. Le modèle et le code sont disponibles à l'adresse https://github.com/hustvl/DiffusionVL.

Entraînement de bout en bout pour la diffusion vidéo autorégressive via un rééchantillonnage automatique
End-to-End Training for Autoregressive Video Diffusion via Self-Resampling

Dec 17

ByYuwei Guo, Ceyuan Yang, Hao He, Yang Zhao, Meng Wei, Zhenheng Yang, Weilin Huang, Dahua Lin

Les modèles de diffusion vidéo autorégressifs offrent des perspectives prometteuses pour la simulation du monde, mais sont vulnérables au biais d'exposition découlant du décalage entraînement-test. Si des travaux récents abordent ce problème par un post-entraînement, ils reposent généralement sur un modèle enseignant bidirectionnel ou un discriminateur en ligne. Pour parvenir à une solution de bout en bout, nous introduisons le Forçage par Rééchantillonnage, un cadre sans enseignant permettant l'entraînement de modèles vidéo autorégressifs à partir de zéro et à grande échelle. Au cœur de notre approche se trouve un mécanisme d'auto-rééchantillonnage qui simule les erreurs du modèle en inférence sur les images d'historique durant l'entraînement. Conditionné par ces historiques dégradés, un masque causal parcimonieux impose la causalité temporelle tout en permettant un entraînement parallèle avec une perte de diffusion au niveau de l'image. Pour faciliter une génération efficace à long horizon, nous introduisons en outre le routage d'historique, un mécanisme non paramétrique qui récupère dynamiquement les k images d'historique les plus pertinentes pour chaque requête. Les expériences démontrent que notre approche atteint des performances comparables aux méthodes de référence par distillation, tout en présentant une cohérence temporelle supérieure sur les vidéos plus longues grâce à un entraînement à longueur native.

FiNERweb : Jeux de données et artefacts pour la reconnaissance d'entités nommées multilingue et évolutive
FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition

Dec 15

ByJonas Golde, Patrick Haller, Alan Akbik

Les travaux récents sur la reconnaissance d'entités nommées (NER) multilingue ont montré que les grands modèles de langage (LLM) peuvent fournir une supervision synthétique efficace, mais ces ensembles de données sont souvent apparus comme des sous-produits d'expériences plus larges plutôt que comme des ressources systématiques et réutilisables. Nous présentons FiNERweb, un pipeline de création d'ensembles de données qui étend le paradigme enseignant-élève à 91 langues et 25 systèmes d'écriture. S'appuyant sur FineWeb-Edu, notre approche entraîne des modèles de régression pour identifier les passages pertinents pour la NER et les annote avec des LLM multilingues, produisant environ 225 000 passages avec 235 000 étiquettes d'entités distinctes. Nos expériences montrent que le modèle de régression atteint un score F1 supérieur à 84, et que les modèles entraînés sur FiNERweb obtiennent des performances comparables ou améliorées en transfert zero shot sur l'anglais, le thaï et le swahili, malgré un entraînement sur 19 fois moins de données que les bases de référence solides. De plus, nous évaluons la qualité des annotations par LLM-comme-juge et observons des scores constamment élevés pour la fidélité (3,99 sur 5) et l'exhaustivité (4,05 sur 5), indiquant des annotations fiables et informatives. Nous publions également l'ensemble de données avec les étiquettes en anglais et leurs traductions dans les langues cibles, car nous observons que les performances des modèles state-of-the-art actuels chutent de 0,02 à 0,09 point F1 lorsqu'elles sont évaluées avec des étiquettes dans la langue cible plutôt qu'en anglais. Nous mettons FiNERweb et tous les artefacts associés à la disposition de la communauté scientifique pour faciliter un entraînement enseignant-élève plus efficace pour la reconnaissance d'entités nommées multilingues.

Modèles Vision-Langage-Action pour la Conduite Autonome : Passé, Présent et Avenir
Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future

Dec 18

ByTianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang

La conduite autonome a longtemps reposé sur des architectures modulaires de type « Perception-Décision-Action », où les interfaces conçues manuellement et les composants basés sur des règles échouent souvent dans des scénarios complexes ou à longue traîne. Leur conception en cascade propage en outre les erreurs de perception, dégradant la planification et le contrôle en aval. Les modèles Vision-Action (VA) abordent certaines limitations en apprenant des mappages directs des entrées visuelles aux actions, mais ils restent opaques, sensibles aux décalages de distribution et manquent de capacités de raisonnement structuré ou de suivi d'instructions. Les progrès récents des grands modèles de langage (LLM) et de l'apprentissage multimodal ont motivé l'émergence de cadres Vision-Langage-Action (VLA), qui intègrent la perception à une prise de décision ancrée dans le langage. En unifiant la compréhension visuelle, le raisonnement linguistique et les sorties actionnables, les VLA offrent une voie vers des politiques de conduite plus interprétables, généralisables et alignées avec l'humain. Ce travail propose une caractérisation structurée du paysage émergent des VLA pour la conduite autonome. Nous retraçons l'évolution des premières approches VA aux cadres VLA modernes et organisons les méthodes existantes en deux paradigmes principaux : les VLA de bout en bout, qui intègrent perception, raisonnement et planification dans un modèle unique, et les VLA à double système, qui séparent la délibération lente (via des modèles de langage visuel) de l'exécution rapide et critique pour la sécurité (via des planificateurs). Au sein de ces paradigmes, nous distinguons en outre des sous-classes telles que les générateurs d'actions textuels vs. numériques et les mécanismes de guidage explicites vs. implicites. Nous résumons également les ensembles de données et benchmarks représentatifs pour évaluer les systèmes de conduite basés sur les VLA, et soulignons les défis clés et les directions ouvertes, notamment la robustesse, l'interprétabilité et la fidélité aux instructions. Globalement, ce travail vise à établir une base cohérente pour faire progresser les systèmes de conduite autonome compatibles avec l'humain.

À la recherche de la supervision par pixels pour le pré-entraînement visuel
In Pursuit of Pixel Supervision for Visual Pre-training

Dec 17

ByLihe Yang, Shang-Wen Li, Yang Li, Xinjie Lei, Dong Wang, Abdelrahman Mohamed, Hengshuang Zhao, Hu Xu

Au niveau le plus fondamental, les pixels constituent la source de l'information visuelle par laquelle nous percevons le monde. Les pixels contiennent des informations à tous les niveaux, allant des attributs de bas niveau aux concepts de haut niveau. Les autoencodeurs représentent un paradigme classique et de longue date pour l'apprentissage de représentations à partir de pixels ou d'autres entrées brutes. Dans ce travail, nous démontrons que l'apprentissage auto-supervisé basé sur les autoencodeurs reste compétitif aujourd'hui et peut produire des représentations solides pour des tâches en aval, tout en restant simple, stable et efficace. Notre modèle, nommé de code « Pixio », est un autoencodeur masqué amélioré (MAE) doté de tâches de pré-entraînement plus exigeantes et d'architectures plus performantes. Le modèle est entraîné sur 2 milliards d'images collectées sur le web avec une stratégie d'auto-curation nécessitant une curation humaine minimale. Pixio affiche des performances compétitives sur un large éventail de tâches en aval en conditions réelles, incluant l'estimation de profondeur monoculaire (par exemple, Depth Anything), la reconstruction 3D par propagation avant (c'est-à-dire, MapAnything), la segmentation sémantique et l'apprentissage par robot, surpassant ou égalant DINOv3 entraîné à des échelles similaires. Nos résultats suggèrent que l'apprentissage auto-supervisé dans l'espace pixel peut constituer une alternative prometteuse et un complément aux approches dans l'espace latent.

Le Nano Banana Pro est-il un couteau suisse de la vision bas niveau ? Une évaluation complète sur 14 tâches et 40 jeux de données
Is Nano Banana Pro a Low-Level Vision All-Rounder? A Comprehensive Evaluation on 14 Tasks and 40 Datasets

Dec 17

ByJialong Zuo, Haoyou Deng, Hanyu Zhou, Jiaxin Zhu, Yicheng Zhang, Yiwei Zhang, Yongxin Yan, Kaixing Huang, Weisen Chen, Yongtai Deng, Rui Jin, Nong Sang, Changxin Gao

L'évolution rapide des modèles de génération texte-image a révolutionné la création de contenu visuel. Bien que des produits commerciaux comme le Nano Banana Pro aient retenu une attention considérable, leur potentiel en tant que solutions généralistes pour les défis traditionnels de la vision bas-niveau reste largement inexploré. Dans cette étude, nous investiguons la question cruciale : Le Nano Banana Pro est-il un couteau suisse de la vision bas-niveau ? Nous avons mené une évaluation zero-shot complète sur 14 tâches bas-niveau distinctes couvrant 40 jeux de données variés. En utilisant de simples invites textuelles sans affinage, nous avons comparé le Nano Banana Pro à des modèles spécialistes de pointe. Notre analyse approfondie révèle une dichotomie de performance nette : si le Nano Banana Pro démontre une qualité visuelle subjective supérieure, en hallucinant souvent des détails haute fréquence plausibles qui surpassent les modèles spécialistes, il accuse un retard dans les métriques quantitatives traditionnelles basées sur des références. Nous attribuons cet écart à la stochasticité inhérente des modèles génératifs, qui peinent à maintenir la cohérence pixelique stricte exigée par les métriques conventionnelles. Ce rapport identifie le Nano Banana Pro comme un candidat zero-shot compétent pour les tâches de vision bas-niveau, tout en soulignant qu'atteindre la haute fidélité des spécialistes de domaine reste un défi significatif.

SonicMoE : Accélération des MoE par des optimisations tenant compte des E/S et des tuiles
SonicMoE: Accelerating MoE with IO and Tile-aware Optimizations

Dec 16

ByWentao Guo, Mayank Mishra, Xinle Cheng, Ion Stoica, Tri Dao

Les modèles Mixture of Experts (MoE) sont devenus l'architecture de facto pour augmenter l'échelle des modèles de langage sans accroître significativement le coût computationnel. Les modèles MoE récents montrent une tendance nette vers une granularité d'experts élevée (dimension intermédiaire des experts plus réduite) et une plus grande parcimonie (nombre constant d'experts activés avec un nombre total d'experts plus important), ce qui améliore la qualité du modèle par FLOP. Cependant, les MoE à granularité fine souffrent d'une empreinte mémoire d'activation accrue et d'une efficacité matérielle réduite en raison de coûts d'E/S plus élevés, tandis que les MoE plus parcimonieux souffrent de calculs gaspillés dus au remplissage (padding) dans les noyaux Grouped GEMM. En réponse, nous proposons un algorithme efficace en mémoire pour calculer les passes avant et arrière des MoE avec une mise en cache minimale des activations pour la passe arrière. Nous concevons également des noyaux GPU qui chevauchent les E/S mémoire avec le calcul, profitant à toutes les architectures MoE. Enfin, nous proposons une nouvelle méthode d'« arrondi des tokens » (token rounding) qui minimise le calcul gaspillé dû au remplissage dans les noyaux Grouped GEMM. En conséquence, notre méthode SonicMoE réduit la mémoire d'activation de 45 % et atteint une amélioration du débit de calcul de 1,86x sur les GPU Hopper par rapport au noyau MoE BF16 de ScatterMoE pour un MoE à granularité fine de 7B. Concrètement, SonicMoE sur 64 H100 atteint un débit d'entraînement de 213 milliards de tokens par jour, comparable aux 225 milliards de tokens par jour de ScatterMoE sur 96 H100 pour l'entraînement d'un modèle MoE 7B avec FSDP-2 en utilisant la base de code lm-engine. Dans des configurations de haute parcimonie MoE, notre algorithme d'arrondi des tokens tenant compte des tuiles (tile-aware) procure une accélération supplémentaire de 1,16x sur le temps d'exécution du noyau par rapport au routage top-K classique, tout en maintenant des performances en aval similaires. Nous ouvrons en libre accès tous nos noyaux pour permettre un entraînement plus rapide des modèles MoE.

VABench : Un banc d'essai complet pour la génération audio-vidéo
VABench: A Comprehensive Benchmark for Audio-Video Generation

Dec 10

ByDaili Hua, Xizhi Wang, Bohan Zeng, Xinyi Huang, Hao Liang, Junbo Niu, Xinlong Chen, Quanqing Xu, Wentao Zhang

Les progrès récents en génération vidéo sont remarquables, permettant aux modèles de produire des vidéos visuellement convaincantes avec un audio synchronisé. Si les benchmarks existants en génération vidéo fournissent des métriques complètes sur la qualité visuelle, ils manquent d'évaluations convaincantes pour la génération audio-vidéo, particulièrement pour les modèles visant à produire des sorties synchronisées. Pour combler cette lacune, nous présentons VABench, un cadre de benchmark complet et multidimensionnel conçu pour évaluer systématiquement les capacités de génération audio-vidéo synchrone. VABench englobe trois types de tâches principales : texte-vers-audio-vidéo (T2AV), image-vers-audio-vidéo (I2AV) et génération audio-vidéo stéréo. Il établit en outre deux modules d'évaluation majeurs couvrant 15 dimensions. Ces dimensions évaluent spécifiquement les similarités par paires (texte-vidéo, texte-audio, vidéo-audio), la synchronisation audio-vidéo, la cohérence labiale-parole, ainsi que des paires de questions-réponses (QR) audio et vidéo soigneusement élaborées, entre autres. De plus, VABench couvre sept catégories de contenu principales : animaux, sons humains, musique, sons environnementaux, sons physiques synchrones, scènes complexes et mondes virtuels. Nous fournissons une analyse systématique et une visualisation des résultats d'évaluation, visant à établir un nouveau standard pour l'évaluation des modèles de génération vidéo dotés de capacités audio synchrones et à promouvoir l'avancement complet du domaine.

VTCBench : Les modèles vision-langage peuvent-ils comprendre le contexte long avec la compression vision-texte ?
VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?

Dec 17

ByHongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang

Les surcharges computationnelles et mémoire associées à l'extension de la fenêtre contextuelle des LLM limitent sévèrement leur extensibilité. Une solution notable est la compression visuo-textuelle (VTC), illustrée par des frameworks comme DeepSeek-OCR et Glyph, qui convertissent de longs textes en représentations visuelles 2D denses, permettant ainsi d'atteindre des taux de compression de 3x à 20x. Cependant, l'impact de cette haute densité informationnelle sur les capacités fondamentales de compréhension de contexte long des modèles vision-langage (VLM) reste insuffisamment étudié. Pour combler cette lacune, nous introduisons le premier benchmark dédié à la VTC et évaluons systématiquement les performances des VLM selon trois axes de compréhension contextuelle longue : VTC-Retrieval, qui évalue la capacité du modèle à récupérer et agréger l'information ; VTC-Reasoning, qui requiert des inférences sur des associations latentes pour localiser des faits avec un chevauchement lexical minimal ; et VTC-Memory, qui mesure la compréhension globale via des questions-réponses dans une mémoire dialogique étendue. Nous établissons également VTCBench-Wild pour simuler divers scénarios d'entrée. Une évaluation exhaustive des modèles open-source et propriétaires leaders sur nos benchmarks révèle que, bien que capables de décoder correctement l'information textuelle (ex: OCR), la plupart des VLM présentent une capacité étonnamment faible à comprendre les contextes longs compressés par VTC, échouant à capturer les associations ou dépendances distantes. Cette étude offre une compréhension approfondie de la VTC et jette les bases pour concevoir des VLM plus efficaces et évolutifs.

WAY : Estimation de la destination des navires dans les trajectoires AIS mondiales
WAY: Estimation of Vessel Destination in Worldwide AIS Trajectory

Dec 15

ByJin Sob Kim, Hyun Joon Park, Wooseok Shin, Dongil Park, Sung Won Han

Le système d'identification automatique (AIS) permet une surveillance maritime fondée sur les données mais souffre de problèmes de fiabilité et d'intervalles irréguliers. Nous abordons l'estimation de la destination des navires à l'aide de données AIS à l'échelle mondiale en proposant une approche différenciée qui reformule les longues trajectoires port-à-port comme une structure de séquence imbriquée. En utilisant des grilles spatiales, cette méthode atténue le biais spatio-temporel tout en préservant une résolution détaillée. Nous introduisons une nouvelle architecture d'apprentissage profond, WAY, conçue pour traiter ces trajectoires reformulées afin d'estimer la destination à long terme plusieurs jours, voire semaines, à l'avance. WAY comprend une couche de représentation de trajectoire et des blocs de traitement séquentiel par agrégation de canaux (CASP). La couche de représentation génère des séquences vectorielles multi-canaux à partir de caractéristiques cinématiques et non cinématiques. Les blocs CASP utilisent une attention multi-têtes par canal et une auto-attention pour l'agrégation et le traitement de l'information séquentielle. De plus, nous proposons une technique spécialisée d'abandon de gradient (GD) permettant un entraînement many-to-many sur des étiquettes uniques, empêchant les pics de rétroaction biaisés en bloquant stochastiquement le flux de gradient en fonction de la longueur de l'échantillon. Les expériences sur des données AIS couvrant 5 ans démontrent la supériorité de WAY par rapport aux approches conventionnelles basées sur des grilles spatiales, quel que soit le stade de la trajectoire. Les résultats confirment en outre que l'adoption de GD entraîne des gains de performance. Enfin, nous explorons le potentiel d'application en conditions réelles de WAY via un apprentissage multitâche pour l'estimation de l'heure d'arrivée prévue (ETA).

PORTÉE : Évolution des Prompts pour Améliorer l'Efficacité des Agents
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

Dec 17

ByZehua Pei, Hui-Ling Zhen, Shixiong Kai, Sinno Jialin Pan, Yunhe Wang, Mingxuan Yuan, Bei Yu

Les agents de modèles de langage de grande taille (LLM) sont de plus en plus déployés dans des environnements générant des contextes massifs et dynamiques. Cependant, un goulot d'étranglement critique persiste : bien que les agents aient accès à ce contexte, leurs prompts statiques manquent des mécanismes nécessaires pour le gérer efficacement, entraînant des échecs récurrents de Correction et d'Amélioration. Pour combler cette lacune capacitaire, nous présentons SCOPE (Optimisation Autonome du Contexte par Évolution des Prompts). SCOPE formule la gestion du contexte comme un problème d'optimisation en ligne, synthétisant des directives à partir des traces d'exécution pour faire évoluer automatiquement le prompt de l'agent. Nous proposons un mécanisme à Double Flux qui équilibre la spécificité tactique (résoudre les erreurs immédiates) avec la généralité stratégique (faire évoluer les principes à long terme). De plus, nous introduisons l'Exploration Guidée par la Perspective pour maximiser la couverture stratégique, augmentant la probabilité que l'agent dispose de la bonne stratégie pour toute tâche donnée. Les expériences sur le benchmark HLE montrent que SCOPE améliore les taux de réussite des tâches de 14,23 % à 38,64 % sans intervention humaine. Nous rendons notre code public à l'adresse https://github.com/JarvisPei/SCOPE.

Comprendre et améliorer l'apprentissage par renforcement profond hyperbolique
Understanding and Improving Hyperbolic Deep Reinforcement Learning

Dec 16

ByTimo Klein, Thomas Lang, Andrii Shkabrii, Alexander Sturm, Kevin Sidak, Lukas Miklautz, Claudia Plant, Yllka Velaj, Sebastian Tschiatschek

La performance des agents d'apprentissage par renforcement (RL) dépend de manière cruciale de la qualité des représentations de caractéristiques sous-jacentes. Les espaces de caractéristiques hyperboliques sont bien adaptés à cet effet, car ils capturent naturellement la structure hiérarchique et relationnelle souvent présente dans les environnements RL complexes. Cependant, leur exploitation se heurte généralement à des défis d'optimisation dus à la non-stationnarité du RL. Dans ce travail, nous identifions les facteurs clés qui déterminent le succès et l'échec de l'entraînement d'agents RL profonds hyperboliques. En analysant les gradients des opérations fondamentales dans les modèles de la boule de Poincaré et de l'hyperboloïde en géométrie hyperbolique, nous montrons que les plongements de grande norme déstabilisent l'entraînement par gradient, conduisant à des violations de la région de confiance dans l'optimisation de politique proximale (PPO). Sur la base de ces observations, nous présentons Hyper++, un nouvel agent PPO hyperbolique qui comporte trois composantes : (i) un entraînement stable du critique via une perte de valeur catégorielle au lieu d'une régression ; (ii) une régularisation des caractéristiques garantissant des normes bornées tout en évitant la malédiction de la dimension liée à l'écrêtage ; et (iii) l'utilisation d'une formulation plus adaptée à l'optimisation des couches de réseaux hyperboliques. Dans les expériences sur ProcGen, nous montrons qu'Hyper++ garantit un apprentissage stable, surpasse les agents hyperboliques antérieurs et réduit le temps d'exécution d'environ 30 %. Sur Atari-5 avec Double DQN, Hyper++ surpasse largement les lignes de base euclidiennes et hyperboliques. Nous publions notre code à l'adresse https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.

FrontierCS : Des défis en évolution pour une intelligence en évolution
FrontierCS: Evolving Challenges for Evolving Intelligence

Dec 17

ByQiuyang Mang, Wenhao Chai, Zhifei Li, Huanzhi Mao, Shang Zhou, Alexander Du, Hanchen Li, Shu Liu, Edwin Chen, Yichuan Wang, Xieting Chu, Zerui Cheng, Yuan Xu, Tian Xia, Zirui Wang, Tianneng Shi, Jianzhu Yao, Yilong Zhao, Qizheng Zhang, Charlie Ruan, Zeyu Shen, Kaiyuan Liu, Runyuan He, Dong Xing, Zerui Li, Zirong Zeng, Yige Jiang, Lufeng Cheng, Ziyi Zhao, Youran Sun, Wesley Zheng, Meiyuwang Zhang, Ruyi Ji, Xuechang Tu, Zihan Zheng, Zexing Chen, Kangyang Zhou, Zhaozi Wang, Jingbang Chen, Aleksandra Korolova, Peter Henderson, Pramod Viswanath, Vijay Ganesh, Saining Xie, Zhuang Liu, Dawn Song, Sewon Min, Ion Stoica, Joseph E. Gonzalez, Jingbo Shang, Alvin Cheung

Nous présentons FrontierCS, un benchmark de 156 problèmes ouverts couvrant divers domaines de l'informatique, conçu et examiné par des experts, incluant des doctorants en informatique ainsi que des participants et concepteurs de problèmes d'élite en programmation compétitive. Contrairement aux benchmarks existants qui se concentrent sur des tâches ayant des solutions optimales connues, FrontierCS cible des problèmes pour lesquels la solution optimale est inconnue, mais dont la qualité d'une solution peut être évaluée objectivement. Les modèles résolvent ces tâches en implémentant des programmes exécutables plutôt qu'en fournissant une réponse directe. FrontierCS inclut des problèmes algorithmiques, souvent des variantes NP-difficiles de problèmes de programmation compétitive avec un système de notation partielle objective, ainsi que des problèmes de recherche partageant la même propriété. Pour chaque problème, nous fournissons une solution de référence experte et un évaluateur automatique. Alliant conception ouverte, progrès mesurable et curation experte, FrontierCS offre un benchmark à la frontière de la difficulté en informatique. Empiriquement, nous constatons que les modèles de raisonnement de pointe restent très en deçà des experts humains sur les volets algorithmique et recherche, que l'augmentation seule des budgets de raisonnement ne comble pas cet écart, et que les modèles surestiment souvent la génération de code simplement fonctionnel au détriment de la découverte d'algorithmes et de conceptions système de haute qualité.

LikeBench : Évaluation de l'appréciation subjective dans les LLM pour la personnalisation
LikeBench: Evaluating Subjective Likability in LLMs for Personalization

Dec 15

ByMd Awsafur Rahman, Adam Gabrys, Doug Kang, Jingjing Sun, Tian Tan, Ashwin Chandramouli

Un LLM personnalisé doit mémoriser les informations utilisateur, les appliquer correctement et s'adapter dans le temps pour fournir des réponses correspondant aux préférences de l'utilisateur. Les benchmarks existants pour la personnalisation des LLM se concentrent principalement sur deux axes : le rappel précis des informations utilisateur et l'application correcte des informations mémorisées dans des tâches en aval. Nous soutenons qu'un troisième axe, l'agrément (likability), à la fois subjectif et central pour l'expérience utilisateur, est sous-mesuré par les benchmarks actuels. Pour mesurer l'agrément de manière holistique, nous présentons LikeBench, un cadre d'évaluation dynamique et multi-sessions qui mesure l'agrément selon plusieurs dimensions en évaluant dans quelle mesure un LLM peut s'adapter au fil du temps aux préférences d'un utilisateur pour fournir des réponses plus appréciables. Dans LikeBench, les LLM conversent avec un utilisateur simulé et n'apprennent les préférences qu'à partir du dialogue en cours. Au fur et à mesure que l'interaction progresse, les modèles tentent de s'adapter, et après chaque tour de parole, leur niveau d'agrément est évalué par le même utilisateur simulé selon sept dimensions. À notre connaissance, nous sommes les premiers à décomposer l'agrément en plusieurs métriques diagnostiques : l'adaptation émotionnelle, l'ajustement du niveau de formalité, l'adaptation des connaissances, la compréhension des références, l'adéquation de la longueur des réponses, l'adéquation de l'humour et l'utilisation de rappels (callbacks), ce qui facilite l'identification des points faibles d'un modèle. Pour rendre l'utilisateur simulé plus réaliste et discriminant, LikeBench utilise des personas descriptifs, fins et fondés sur des principes psychologiques, plutôt que les personas basés sur des évaluations de traits grossiers (élevé/faible) utilisés dans les travaux antérieurs. Notre benchmark montre qu'une forte performance mnésique ne garantit pas un haut niveau d'agrément : DeepSeek R1, avec une précision de mémorisation inférieure (86%, 17 faits/profil), a surpassé Qwen3 de 28% sur le score d'agrément, bien que Qwen3 ait une meilleure précision mnésique (93%, 43 faits/profil). Même les modèles à la pointe (SOTA) comme GPT-5 s'adaptent bien dans de courts échanges mais ne montrent qu'une robustesse limitée dans des interactions plus longues et bruitées.

Priors d'attribution hybride pour un entraînement de modèles explicable et robuste
Hybrid Attribution Priors for Explainable and Robust Model Training

Dec 9

ByZhuoran Zhang, Feng Zhang, Shangyuan Li, Yang Shi, Yuanxing Zhang, Wei Chen, Tengjiao Wang, Kam-Fai Wong

Les petits modèles de langage (SLM) sont largement utilisés dans les tâches nécessitant une faible latence et un déploiement léger, particulièrement pour la classification. Alors que l'interprétabilité et la robustesse gagnent en importance, l'apprentissage guidé par les explications est apparu comme un cadre efficace en introduisant une supervision basée sur l'attribution durant l'entraînement ; cependant, dériver des préalables d'attribution généraux et fiables reste un défi significatif. Par une analyse des méthodes d'attribution représentatives en contexte de classification, nous constatons que bien que ces méthodes puissent mettre en évidence de manière fiable les tokens pertinents pour la classe, elles se concentrent souvent sur des mots-clés communs partagés par des classes sémantiquement similaires. Parce que ces classes sont déjà difficiles à distinguer avec un entraînement standard, ces attributions fournissent des indices discriminatifs insuffisants, limitant leur capacité à améliorer la différenciation des modèles. Pour surmonter cette limitation, nous proposons Class-Aware Attribution Prior (CAP), un nouveau cadre d'extraction de préalable d'attribution qui guide les modèles de langage vers la capture de distinctions fines entre les classes et produit des préalables d'attribution plus saillants et discriminatifs. Sur cette base, nous introduisons ensuite CAP Hybrid, qui combine les préalables de CAP avec ceux des techniques d'attribution existantes pour former un signal de supervision plus complet et équilibré. En alignant l'auto-attribution d'un modèle avec ces préalables enrichis, notre approche encourage l'apprentissage de caractéristiques diverses et pertinentes pour la décision. Des expériences approfondies dans des scénarios avec données complètes, few-shot et adversariaux démontrent que notre méthode améliore constamment à la fois l'interprétabilité et la robustesse.

Vers une interaction transparente : Modélisation causale au niveau des tours de parole de la dynamique conversationnelle des têtes 3D interactives
Towards Seamless Interaction: Causal Turn-Level Modeling of Interactive 3D Conversational Head Dynamics

Dec 17

ByJunjie Chen, Fei Wang, Zhihao Huang, Qing Zhou, Kun Li, Dan Guo, Linfeng Zhang, Xun Yang

La conversation humaine implique des échanges continus de parole et de signes non verbaux tels que les hochements de tête, les changements de regard et les expressions faciales qui transmettent l'attention et l'émotion. Modéliser ces dynamiques bidirectionnelles en 3D est essentiel pour créer des avatars expressifs et des robots interactifs. Cependant, les cadres existants traitent souvent la parole et l'écoute comme des processus indépendants ou reposent sur une modélisation non causale de séquences complètes, ce qui nuit à la cohérence temporelle entre les tours de parole. Nous présentons TIMAR (Régression AutoMasquée Entrelacée au Niveau du Tour), un cadre causal pour la génération de têtes conversationnelles 3D qui modélise le dialogue comme des contextes audiovisuels entrelacés. Il fusionne les informations multimodales au sein de chaque tour et applique une attention causale au niveau du tour pour accumuler l'historique conversationnel, tandis qu'une tête de diffusion légère prédit une dynamique continue de la tête en 3D qui capture à la fois la coordination et la variabilité expressive. Les expériences sur le benchmark DualTalk montrent que TIMAR réduit la Distance de Fréchet et l'erreur quadratique moyenne de 15 à 30 % sur l'ensemble de test, et obtient des gains similaires sur des données hors distribution. Le code source sera publié dans le dépôt GitHub https://github.com/CoderChen01/towards-seamleass-interaction.

Perception tactile et visuelle simultanée pour l'apprentissage de la manipulation robotique multimodale
Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Dec 10

ByYuyang Li, Yinghan Chen, Zihang Zhao, Puhao Li, Tengyu Liu, Siyuan Huang, Yixin Zhu

La manipulation robotique nécessite à la fois une perception multimodale riche et des cadres d'apprentissage efficaces pour gérer des tâches complexes du monde réel. Les capteurs "see-through-skin" (STS), qui combinent la perception tactile et visuelle, offrent des capacités de détection prometteuses, tandis que l'apprentissage par imitation moderne fournit des outils puissants pour l'acquisition de politiques. Cependant, les conceptions STS existantes manquent de perception multimodale simultanée et souffrent d'un suivi tactile peu fiable. De plus, l'intégration de ces signaux multimodaux riches dans des pipelines de manipulation basés sur l'apprentissage reste un défi ouvert. Nous présentons TacThru, un capteur STS permettant une perception visuelle simultanée et une extraction robuste de signaux tactiles, et TacThru-UMI, un cadre d'apprentissage par imitation qui exploite ces signaux multimodaux pour la manipulation. Notre capteur intègre un élastomère entièrement transparent, un éclairage persistant, des marqueurs à lignes clés novateurs et un suivi efficace, tandis que notre système d'apprentissage intègre ces signaux via une politique de diffusion basée sur un Transformer. Des expériences sur cinq tâches réelles complexes montrent que TacThru-UMI atteint un taux de réussite moyen de 85,5 %, surpassant significativement les bases de référence que sont l'alternance tactile-visuel (66,3 %) et la vision seule (55,4 %). Le système excelle dans des scénarios critiques, incluant la détection de contact avec des objets fins et mous et la manipulation de précision nécessitant une coordination multimodale. Ce travail démontre que la combinaison d'une perception multimodale simultanée avec des cadres d'apprentissage modernes permet une manipulation robotique plus précise et adaptable.