HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

19 papers found

SemanticGen : Génération vidéo dans l'espace sémantique
SemanticGen: Video Generation in Semantic Space

Dec 23

ByJianhong Bai, Xiaoshi Wu, Xintao Wang, Fu Xiao, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai

Les modèles génératifs vidéo de pointe apprennent généralement la distribution des latents vidéo dans l'espace VAE et les mappent aux pixels à l'aide d'un décodeur VAE. Bien que cette approche puisse générer des vidéos de haute qualité, elle souffre d'une convergence lente et est coûteuse en calculs pour générer de longues vidéos. Dans cet article, nous présentons SemanticGen, une nouvelle solution pour résoudre ces limitations en générant des vidéos dans l'espace sémantique. Notre idée principale est que, en raison de la redondance inhérente aux vidéos, le processus de génération devrait commencer dans un espace sémantique compact et de haut niveau pour la planification globale, suivi par l'ajout de détails haute fréquence, plutôt que de modéliser directement un vaste ensemble de tokens vidéo de bas niveau en utilisant l'attention bidirectionnelle. SemanticGen adopte un processus de génération en deux étapes. Dans la première étape, un modèle de diffusion génère des caractéristiques vidéo sémantiques compactes, qui définissent la structure globale de la vidéo. Dans la deuxième étape, un autre modèle de diffusion génère les latents VAE conditionnés sur ces caractéristiques sémantiques pour produire le résultat final. Nous observons que la génération dans l'espace sémantique conduit à une convergence plus rapide par rapport à l'espace latent VAE. Notre méthode est également efficace et efficiente en calculs lorsqu'elle est étendue à la génération de vidéos longues. Des expériences approfondies démontrent que SemanticGen produit des vidéos de haute qualité et surpasse les approches de pointe ainsi que des bases de référence solides.

Rapport Technique de Step-DeepResearch
Step-DeepResearch Technical Report

Dec 23

ByChen Hu, Haikuo Du, Heng Wang, Lin Lin, Mingrui Chen, Peng Liu, Ruihang Miao, Tianchi Yue, Wang You, Wei Ji, Wei Yuan, Wenjin Deng, Xiaojian Yuan, Xiaoyun Zhang, Xiangyu Liu, Xikai Liu, Yanming Xu, Yicheng Cao, Yifei Zhang, Yongyao Wang, Yubo Shu, Yurong Zhang, Yuxiang Zhang, Zheng Gong, Zhichao Chang, Binyan Li, Dan Ma, Furong Jia, Hongyuan Wang, Jiayu Liu, Jing Bai, Junlan Liu, Manjiao Liu, Na Wang, Qiuping Wu, Qinxin Du, Shiwei Li, Wen Sun, Yifeng Gong, Yonglin Chen, Yuling Zhao, Yuxuan Lin, Ziqi Ren, Zixuan Wang, Aihu Zhang, Brian Li, Buyun Ma, Kang An, Li Xie, Mingliang Li, Pan Li, Shidong Yang, Xi Chen, Xiaojia Liu, Yuchu Luo, Yuan Song, YuanHao Ding, Yuanwei Liang, Zexi Li, Zhaoning Zhang, Zixin Zhang, Binxing Jiao, Daxin Jiang, Jiansheng Chen, Jing Li, Xiangyu Zhang, Yibo Zhu

Alors que les LLM évoluent vers des agents autonomes, la Recherche Approfondie est devenue une métrique pivot. Cependant, les benchmarks académiques existants comme BrowseComp répondent souvent mal aux exigences du monde réel pour la recherche ouverte, qui nécessite des compétences robustes en reconnaissance de l'intention, prise de décision à long terme et vérification multi-sources. Pour y remédier, nous présentons Step-DeepResearch, un agent end-to-end économique. Nous proposons une Stratégie de Synthèse de Données Basée sur des Capacités Atomiques pour renforcer la planification et la rédaction de rapports, combinée à un parcours d'entraînement progressif allant du mid-training agentique au SFT et RL. Renforcée par un Évaluateur de type Checklist, cette approche améliore significativement la robustesse. De plus, pour combler le déficit d'évaluation dans le domaine chinois, nous établissons ADR-Bench pour des scénarios réalistes de recherche approfondie. Les résultats expérimentaux montrent que Step-DeepResearch (32B) obtient un score de 61,4% sur les Scale AI Research Rubrics. Sur ADR-Bench, il surpasse significativement les modèles comparables et rivalise avec les modèles propriétaires SOTA comme OpenAI et Gemini DeepResearch. Ces résultats prouvent qu'un entraînement raffiné permet aux modèles de taille moyenne d'atteindre des capacités expertes avec une efficacité économique leader dans l'industrie.

Optimisation de politiques ascendante : votre modèle de langage contient secrètement des politiques internes
Bottom-up Policy Optimization: Your Language Model Policy Secretly Contains Internal Policies

Dec 22

ByYuqiao Tan, Minzheng Wang, Shizhu He, Huanxuan Liao, Chengfeng Zhao, Qiunan Lu, Tian Liang, Jun Zhao, Kang Liu

Les approches existantes d'apprentissage par renforcement (RL) traitent les grands modèles de langage (LLM) comme une politique unique et unifiée, négligeant leurs mécanismes internes. Comprendre comment la politique évolue à travers les couches et les modules est donc crucial pour permettre une optimisation plus ciblée et démêler les mécanismes de raisonnement complexes. Dans cet article, nous décomposons la politique du modèle de langage en exploitant la séparation intrinsèque du flux résiduel du Transformer et l'équivalence entre la composition des états cachés avec la matrice de dé-embedding et la politique échantillonnable résultante. Cette décomposition révèle des Politiques Internes par Couche, correspondant aux contributions des couches individuelles, et des Politiques Internes Modulaires, qui s'alignent sur les composantes d'auto-attention et de réseau feed-forward (FFN) au sein de chaque couche. En analysant l'entropie de la politique interne, nous constatons que : (a) Les premières couches maintiennent une entropie élevée pour l'exploration, tandis que les couches supérieures convergent vers une entropie proche de zéro pour l'affinement, les patterns de convergence variant selon les séries de modèles. (b) L'espace de prédiction de LLama converge rapidement dans la dernière couche, alors que les modèles de la série Qwen, en particulier Qwen3, présentent un pattern de raisonnement plus humain, progressivement structuré. Motivés par ces résultats, nous proposons l'Optimisation de Politique Ascendante (BuPO), un nouveau paradigme de RL qui optimise directement la politique interne des couches durant les premières phases de l'entraînement. En alignant l'objectif d'entraînement sur les couches inférieures, BuPO reconstruit les capacités de raisonnement fondamentales et obtient des performances supérieures. Des expériences approfondies sur des benchmarks de raisonnement complexe démontrent l'efficacité de notre méthode. Notre code est disponible à l'adresse https://github.com/Trae1ounG/BuPO.

LongVideoAgent : Raisonnement multi-agent avec des vidéos longues
LongVideoAgent: Multi-Agent Reasoning with Long Videos

Dec 23

ByRuntao Liu, Ziyi Liu, Jiaqi Tang, Yue Ma, Renjie Pi, Jipeng Zhang, Qifeng Chen

Les récentes avancées des modèles de langage multimodaux et des systèmes utilisant des outils pour la réponse à des questions sur de longues vidéos montrent le potentiel du raisonnement sur des épisodes d'une heure. Cependant, de nombreuses méthodes compressent encore le contenu en résumés avec perte ou s'appuient sur des ensembles d'outils limités, affaiblissant l'ancrage temporel et négligeant les indices fins. Nous proposons un cadre multi-agents dans lequel un modèle de langage maître coordonne un agent d'ancrage pour localiser les segments pertinents pour la question et un agent visuel pour extraire des observations textuelles ciblées. L'agent maître planifie avec une limite d'étapes et est entraîné par apprentissage par renforcement pour favoriser une coopération multi-agents concise, correcte et efficace. Cette conception aide l'agent maître à se concentrer sur les extraits pertinents via l'ancrage, complète les sous-titres par des détails visuels et produit des trajectoires interprétables. Sur nos ensembles de données LongTVQA et LongTVQA+, agrégés au niveau des épisodes à partir de TVQA/TVQA+, notre système multi-agents surpasse significativement des bases solides non-agent. Les expériences montrent également que l'apprentissage par renforcement renforce davantage le raisonnement et la planification de l'agent entraîné. Le code et les données seront partagés sur https://longvideoagent.github.io/.

SpatialTree : Comment les capacités spatiales se ramifient dans les MLLM
SpatialTree: How Spatial Abilities Branch Out in MLLMs

Dec 23

ByYuxi Xiao, Longfei Li, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang

Les sciences cognitives suggèrent que la capacité spatiale se développe progressivement - de la perception au raisonnement et à l'interaction. Pourtant, dans les modèles de langage multimodaux (MLLM), cette hiérarchie reste mal comprise, la plupart des études se concentrant sur un ensemble restreint de tâches. Nous présentons SpatialTree, une hiérarchie inspirée des sciences cognitives qui organise les capacités spatiales en quatre niveaux : perception de bas niveau (L1), cartographie mentale (L2), simulation (L3) et compétence agentique (L4). Sur la base de cette taxonomie, nous construisons le premier benchmark hiérarchique centré sur les capacités, évaluant minutieusement les MLLM grand public à travers 27 sous-capacités. Les résultats de l'évaluation révèlent une structure claire : les compétences de L1 sont largement orthogonales, tandis que les compétences de niveau supérieur sont fortement corrélées, indiquant une interdépendance croissante. Grâce à un fine-tuning supervisé ciblé, nous découvrons une dynamique de transfert surprenante : un transfert négatif au sein de L1, mais un fort transfert trans-niveaux des capacités de bas niveau vers les capacités de haut niveau, avec une synergie notable. Enfin, nous explorons comment améliorer l'ensemble de la hiérarchie. Nous constatons qu'un apprentissage par renforcement (RL) naïf qui encourage une « réflexion » extensive est peu fiable : il aide le raisonnement complexe mais nuit à la perception intuitive. Nous proposons une stratégie simple d'auto-réflexion qui supprime les délibérations inutiles, permettant au RL d'améliorer constamment les performances à tous les niveaux. En construisant SpatialTree, nous fournissons un cadre de preuve de concept pour comprendre et développer systématiquement les capacités spatiales dans les MLLM.

Apprentissage par Renforcement pour un Agent Auto-Améliorant avec une Bibliothèque de Compétences
Reinforcement Learning for Self-Improving Agent with Skill Library

Dec 18

ByJiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong

Les agents basés sur des modèles de langage de grande taille (LLM) ont démontré des capacités remarquables en matière de raisonnement complexe et d'interactions multi-tours, mais ils peinent à s'améliorer et à s'adapter de manière continue lorsqu'ils sont déployés dans de nouveaux environnements. Une approche prometteuse consiste à mettre en œuvre des bibliothèques de compétences qui permettent aux agents d'apprendre, de valider et d'appliquer de nouvelles compétences. Cependant, les approches actuelles de bibliothèques de compétences reposent principalement sur l'incitation des LLM, ce qui rend difficile la mise en œuvre cohérente de ces bibliothèques. Pour surmonter ces défis, nous proposons une approche basée sur l'apprentissage par renforcement (RL) pour améliorer les capacités d'auto-amélioration des agents avec une bibliothèque de compétences. Plus précisément, nous présentons SAGE (Skill Augmented GRPO for self-Evolution), un nouveau cadre RL qui intègre systématiquement les compétences dans l'apprentissage. Le composant clé de ce cadre, le « Sequential Rollout », déploie itérativement des agents à travers une chaîne de tâches similaires pour chaque déploiement. Lorsque les agents naviguent dans la chaîne de tâches, les compétences générées lors des tâches précédentes s'accumulent dans la bibliothèque et deviennent disponibles pour les tâches suivantes. De plus, le cadre améliore la génération et l'utilisation des compétences grâce à une Récompense Intégrée aux Compétences qui complète les récompenses initiales basées sur les résultats. Les résultats expérimentaux sur AppWorld démontrent que SAGE, appliqué à un modèle supervisé fine-tuné avec une expérience experte, atteint un taux d'Achèvement des Objectifs du Scénario supérieur de 8,9 % tout en nécessitant 26 % d'étapes d'interaction en moins et en générant 59 % de tokens en moins, surpassant ainsi substantiellement les approches existantes en termes de précision et d'efficacité.

MemEvolve : Méta-évolution des systèmes de mémoire des agents
MemEvolve: Meta-Evolution of Agent Memory Systems

Dec 21

ByGuibin Zhang, Haotian Ren, Chong Zhan, Zhenhong Zhou, Junhao Wang, He Zhu, Wangchunshu Zhou, Shuicheng Yan

Les systèmes de mémoire auto-évolutifs redéfinissent de manière inédite le paradigme évolutif des agents basés sur les grands modèles de langage (LLM). Les travaux antérieurs reposaient principalement sur des architectures de mémoire conçues manuellement pour stocker les trajectoires, distiller l'expérience et synthétiser des outils réutilisables, permettant aux agents d'évoluer dynamiquement lors des interactions avec leur environnement. Cependant, ce paradigme est fondamentalement limité par la staticité du système de mémoire lui-même : si la mémoire facilite l'évolution au niveau de l'agent, l'architecture de mémoire sous-jacente ne peut pas être méta-adaptée à des contextes de tâches diversifiés. Pour combler cette lacune, nous proposons MemEvolve, un cadre méta-évolutif qui fait évoluer conjointement les connaissances expérientielles des agents et leur architecture de mémoire, permettant aux systèmes d'agents non seulement d'accumuler de l'expérience mais aussi d'affiner progressivement la manière dont ils apprennent de celle-ci. Pour ancrer MemEvolve dans la recherche antérieure et favoriser l'ouverture des futurs systèmes auto-évolutifs, nous présentons EvolveLab, une base de code unifiée de mémoire auto-évolutive qui condense douze systèmes de mémoire représentatifs en un espace de conception modulaire (encoder, stocker, récupérer, gérer), offrant à la fois un substrat de mise en œuvre standardisé et une arène expérimentale équitable. Des évaluations approfondies sur quatre benchmarks exigeants pour agents démontrent que MemEvolve atteint (I) des gains de performance substantiels, améliorant des frameworks tels que SmolAgent et Flash-Searcher jusqu'à 17,06 % ; et (II) une forte généralisation inter-tâches et inter-LLM, concevant des architectures de mémoire qui se transfèrent efficacement à travers divers benchmarks et modèles de base.

SAM Audio : Segmenter n'importe quoi dans l'audio
SAM Audio: Segment Anything in Audio

Dec 19

ByBowen Shi, Andros Tjandra, John Hoffman, Helin Wang, Yi-Chiao Wu, Luya Gao, Julius Richter, Matt Le, Apoorv Vyas, Sanyuan Chen, Christoph Feichtenhofer, Piotr Dollár, Wei-Ning Hsu, Ann Lee

La séparation générale de sources audio est une capacité clé pour les systèmes d'IA multimodaux capables de percevoir et de raisonner sur le son. Malgré des progrès substantiels ces dernières années, les modèles de séparation existants sont soit spécifiques à un domaine, conçus pour des catégories fixes comme la parole ou la musique, soit limités en termes de contrôlabilité, ne supportant qu'une seule modalité d'invite telle que le texte. Dans ce travail, nous présentons SAM Audio, un modèle fondateur pour la séparation audio générale qui unifie l'invite textuelle, visuelle et temporelle au sein d'un même cadre. Construit sur une architecture de transformateur à diffusion, SAM Audio est entraîné par appariement de flux sur de vastes données audio couvrant la parole, la musique et les sons généraux, et peut séparer flexiblement les sources cibles décrites par le langage, des masques visuels ou des intervalles temporels. Le modèle atteint des performances de pointe sur un ensemble diversifié de benchmarks, incluant la séparation de sons généraux, de parole, de musique et d'instruments de musique, que ce soit dans des audios issus de conditions réelles ou de productions professionnelles, surpassant substantiellement les systèmes spécialisés et polyvalents antérieurs. De plus, nous introduisons un nouveau benchmark de séparation en conditions réelles avec des invites multimodales étiquetées manuellement et un modèle d'évaluation sans référence qui corrèle fortement avec le jugement humain.

INTELLECT-3 : Rapport Technique
INTELLECT-3: Technical Report

Dec 18

ByPrime Intellect Team, Mika Senghaas, Fares Obeid, Sami Jaghouar, William Brown, Jack Min Ong, Daniel Auras, Matej Sirovatka, Jannik Straube, Andrew Baker, Sebastian Müller, Justus Mattern, Manveer Basra, Aiman Ismail, Dominik Scherm, Cooper Miller, Ameen Patel, Simon Kirsten, Mario Sieg, Christian Reetz, Kemal Erdem, Vincent Weisser, Johannes Hagemann

Nous présentons INTELLECT-3, un modèle à mélange d'experts de 106 milliards de paramètres (12 milliards actifs) entraîné par apprentissage par renforcement à grande échelle sur notre pile d'infrastructure RL de bout en bout. INTELLECT-3 atteint des performances de pointe pour sa taille sur des benchmarks de mathématiques, de code, de sciences et de raisonnement, surpassant de nombreux modèles frontaliers plus volumineux. Nous ouvrons en open-source le modèle ainsi que la pile d'infrastructure complète utilisée pour le créer, incluant des cadres de RL, la recette complète, et une vaste collection d'environnements, construits avec la bibliothèque de vérificateurs, pour l'entraînement et l'évaluation provenant de notre plateforme communautaire Environments Hub. Développé pour cet effort, nous introduisons prime-rl, un cadre ouvert pour l'apprentissage par renforcement asynchrone à grande échelle, qui s'adapte de manière transparente d'un nœud unique à des milliers de GPU, et est conçu pour le RL agentique avec un support de première classe pour les interactions multi-tours et l'utilisation d'outils. En utilisant cette pile, nous avons exécuté un entraînement SFT et RL à partir du modèle de base GLM-4.5-Air, en faisant monter l'entraînement RL jusqu'à 512 H200 avec une haute efficacité d'entraînement.

C2LLM Technical Report: A New Frontier in Code Retrieval via Adaptive Cross-Attention Pooling

Dec 24

ByJin Qin, Zihan Liao, Ziyin Zhang, Hang Yu, Peng Di, Rui Wang

We present C2LLM - Contrastive Code Large Language Models, a family of code embedding models in both 0.5B and 7B sizes. Building upon Qwen-2.5-Coder backbones, C2LLM adopts a Pooling by Multihead Attention (PMA) module for generating sequence embedding from token embeddings, effectively 1) utilizing the LLM's causal representations acquired during pretraining, while also 2) being able to aggregate information from all tokens in the sequence, breaking the information bottleneck in EOS-based sequence embeddings, and 3) supporting flexible adaptation of embedding dimension, serving as an alternative to MRL. Trained on three million publicly available data, C2LLM models set new records on MTEB-Code among models of similar sizes, with C2LLM-7B ranking 1st on the overall leaderboard.

Lois d'échelle pour le code : chaque langage de programmation compte
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai

Les modèles de grands langages de code (Code LLMs) sont puissants mais coûteux à entraîner, les lois d'échelle prédisant traditionnellement les performances à partir de la taille du modèle, des données et de la puissance de calcul. Cependant, différents langages de programmation (PLs) ont des impacts variables lors du pré-entraînement qui affectent significativement les performances du modèle de base, conduisant à des prédictions inexactes. De plus, les travaux existants se concentrent sur des cadres agnostiques au langage, négligeant la nature intrinsèquement multilingue du développement logiciel moderne. Il est donc nécessaire d'étudier d'abord les lois d'échelle des différents PLs, puis de considérer leurs influences mutuelles pour aboutir à la loi d'échelle multilingue finale. Dans cet article, nous présentons la première exploration systématique des lois d'échelle pour le pré-entraînement multilingue de code, menant plus de 1000 expériences (équivalant à plus de 336 000 heures H800) couvrant plusieurs PLs, tailles de modèles (0,2 à 14 milliards de paramètres) et volumes de données (1 000 milliards de tokens). Nous établissons des lois d'échelle complètes pour les Code LLMs sur plusieurs PLs, révélant que les langages interprétés (ex: Python) bénéficient davantage de l'augmentation de taille de modèle et de données que les langages compilés (ex: Rust). L'étude démontre que le pré-entraînement multilingue offre des bénéfices synergiques, particulièrement entre les PLs syntaxiquement similaires. De plus, la stratégie de pré-entraînement par appariement parallèle (concaténation d'extraits de code avec leurs traductions) améliore significativement les capacités translinguistiques avec des propriétés d'échelle favorables. Enfin, une loi d'échelle multilingue proportionnelle est proposée pour allouer optimalement les tokens d'entraînement en priorisant les PLs à haute utilité (ex: Python), en équilibrant les paires à forte synergie (ex: JavaScript-TypeScript), et en réduisant l'allocation aux langages à saturation rapide (Rust), permettant d'atteindre des performances moyennes supérieures sur tous les PLs comparé à une distribution uniforme sous le même budget de calcul.

QuantiPhy : Un Benchmark Quantitatif Évaluant les Capacités de Raisonnement Physique des Modèles Vision-Langage
QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

Dec 22

ByLi Puyin, Tiange Xiang, Ella Mao, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-fei, Ehsan Adeli

Comprendre le monde physique est essentiel pour les agents d'IA généralistes. Cependant, il reste incertain si les modèles de perception visuelle les plus avancés (par exemple, les grands modèles de langage visuel ou MLV) peuvent raisonner sur les propriétés physiques de manière quantitative. Les évaluations existantes sont principalement basées sur des questions-réponses visuelles (VQA) et qualitatives, offrant un aperçu limité de la capacité de ces modèles à inférer les quantités cinématiques d'objets en mouvement à partir d'observations vidéo. Pour remédier à cela, nous présentons QuantiPhy, le premier benchmark conçu pour mesurer quantitativement la capacité de raisonnement physique d'un MLV. Comptant plus de 3 300 instances vidéo-texte avec une vérité terrain numérique, QuantiPhy évalue la performance d'un MLV à estimer la taille, la vitesse et l'accélération d'un objet à un instant donné, en utilisant l'une de ces propriétés comme information préalable en entrée. Le benchmark standardise les invites et le système de notation pour évaluer la précision numérique, permettant des comparaisons équitables entre les modèles. Nos expériences sur les MLV les plus performants révèlent un écart constant entre leur plausibilité qualitative et leur exactitude numérique réelle. Nous fournissons en outre une analyse approfondie de facteurs clés tels que le bruit de fond, les informations préalables contrefactuelles et l'utilisation stratégique des invites, et constatons que les MLV de pointe s'appuient fortement sur des connaissances pré-entraînées du monde plutôt que d'utiliser fidèlement les entrées visuelles et textuelles fournies comme références lors du raisonnement quantitatif sur les propriétés cinématiques. QuantiPhy offre le premier banc d'essai rigoureux et évolutif pour faire passer les MLV au-delà de la simple plausibilité verbale vers une compréhension physique ancrée numériquement.

Intelligence active dans les avatars vidéo via la modélisation en boucle fermée du monde
Active Intelligence in Video Avatars via Closed-loop World Modeling

Dec 23

ByXuanhua He, Tianyu Yang, Ke Cao, Ruiqi Wu, Cheng Meng, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Qifeng Chen

Les méthodes actuelles de génération d'avatars vidéo excellent dans la préservation de l'identité et l'alignement du mouvement, mais manquent d'une véritable agentivité : elles ne peuvent pas poursuivre de manière autonome des objectifs à long terme via une interaction adaptative avec l'environnement. Pour résoudre ce problème, nous présentons L-IVA (Long-horizon Interactive Visual Avatar), une tâche et un benchmark pour évaluer la planification orientée objectifs dans des environnements génératifs stochastiques, ainsi qu'ORCA (Online Reasoning and Cognitive Architecture), le premier cadre permettant une intelligence active dans les avatars vidéo. ORCA intègre des capacités de Modèle Interne du Monde (IWM) grâce à deux innovations clés : (1) un cycle fermé OTAR (Observer-Penser-Agir-Réfléchir) qui maintient un suivi d'état robuste sous incertitude générative en vérifiant continuellement les résultats prédits par rapport aux générations réelles, et (2) une architecture hiérarchique à double système où le Système 2 effectue un raisonnement stratégique avec prédiction d'état tandis que le Système 1 traduit les plans abstraits en légendes d'action précises et spécifiques au modèle. En formulant le contrôle de l'avatar comme un POMDP et en mettant en œuvre une mise à jour continue des croyances avec vérification des résultats, ORCA permet l'accomplissement autonome de tâches multi-étapes dans des scénarios en domaine ouvert. Des expériences approfondies démontrent qu'ORCA surpasse significativement les méthodes de référence en boucle ouverte et non réflexives en termes de taux de réussite des tâches et de cohérence comportementale, validant notre conception inspirée de l'IWM pour faire évoluer l'intelligence des avatars vidéo d'une animation passive vers un comportement actif et orienté objectifs.

FaithLens : Détection et Explication des Hallucinations de Fidélité
FaithLens: Detecting and Explaining Faithfulness Hallucination

Dec 23

ByShuzheng Si, Qingyi Wang, Haozhe Zhao, Yuzhuo Bai, Guanqiao Chen, Kangyang Luo, Gang Chen, Fanchao Qi, Minjia Zhang, Baobao Chang, Maosong Sun

La détection des hallucinations de fidélité dans les sorties des grands modèles de langage (LLM) est cruciale pour les applications réelles, telles que la génération augmentée par retrieval et la synthèse de texte. Dans cet article, nous présentons FaithLens, un modèle de détection des hallucinations de fidélité économique et efficace, capable de fournir conjointement des prédictions binaires et les explications correspondantes pour améliorer la fiabilité. Pour y parvenir, nous synthétisons d'abord des données d'entraînement avec explications via des LLM avancés, et appliquons une stratégie de filtrage rigoureuse pour garantir l'exactitude des étiquettes, la qualité des explications et la diversité des données. Ensuite, nous affinons le modèle sur ces données soigneusement préparées pour un démarrage à froid, puis l'optimisons davantage par apprentissage par renforcement basé sur des règles, en utilisant des récompenses pour la justesse des prédictions et la qualité des explications. Les résultats sur 12 tâches variées montrent que FaithLens (8B paramètres) surpasse des modèles avancés comme GPT-4 et o3. De plus, FaithLens produit des explications de haute qualité, offrant un équilibre distinct entre fiabilité, efficacité et performance.

Mémoire-T1 : Apprentissage par Renforcement pour le Raisonnement Temporel dans les Agents Multi-sessions
Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents

Dec 23

ByYiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong

Le raisonnement temporel sur des dialogues longs et multi-sessions est une capacité essentielle pour les agents conversationnels. Cependant, les travaux existants et notre étude pilote montrent qu'à mesure que les historiques de dialogue s'allongent et accumulent du bruit, les modèles à contexte long actuels peinent à identifier précisément les informations temporellement pertinentes, ce qui altère significativement les performances de raisonnement. Pour résoudre ce problème, nous présentons Memory-T1, un cadre d'apprentissage qui acquiert une politique de sélection de mémoire sensible au temps en utilisant l'apprentissage par renforcement (RL). Il emploie une stratégie grossière-puis-fine, élaguant d'abord l'historique du dialogue en un ensemble de candidats à l'aide de filtres temporels et de pertinence, puis un agent RL sélectionne les sessions de preuves précises. L'entraînement RL est guidé par une fonction de récompense multi-niveaux optimisant (i) la précision de la réponse, (ii) l'ancrage des preuves, et (iii) la cohérence temporelle. En particulier, la récompense de cohérence temporelle fournit un signal dense en évaluant l'alignement avec la portée temporelle de la requête au niveau de la session (proximité chronologique) et au niveau de l'énoncé (fidélité chronologique), permettant à l'agent de résoudre des ambiguïtés chronologiques subtiles. Sur le benchmark Time-Dialog, Memory-T1 propulse un modèle de 7B à un score global de 67,0 %, établissant une nouvelle performance de pointe pour les modèles open source et surpassant un modèle de référence de 14B de 10,2 %. Les études d'ablation montrent que les récompenses de cohérence temporelle et d'ancrage des preuves contribuent conjointement à un gain de performance de 15,0 %. De plus, Memory-T1 maintient sa robustesse jusqu'à 128k tokens, seuil auquel les modèles de référence s'effondrent, prouvant son efficacité contre le bruit dans les historiques de dialogue étendus. Le code et les jeux de données sont disponibles publiquement à l'adresse https://github.com/Elvin-Yiming-Du/Memory-T1/

Simulstream : Boîte à outils open-source pour l'évaluation et la démonstration de systèmes de traduction vocale en flux continu
Simulstream: Open-Source Toolkit for Evaluation and Demonstration of Streaming Speech-to-Text Translation Systems

Dec 19

ByMarco Gaido, Sara Papi, Mauro Cettolo, Matteo Negri, Luisa Bentivogli

La traduction de parole en texte en flux continu (StreamST) nécessite de produire des traductions simultanément à la réception de la parole, imposant des contraintes de latence strictes et exigeant des modèles qui équilibrent la prise de décision sur information partielle avec une haute qualité de traduction. Les travaux de recherche sur le sujet ont jusqu'à présent reposé sur le dépôt SimulEval, qui n'est plus maintenu et ne prend pas en charge les systèmes révisant leurs sorties. De plus, il a été conçu pour simuler le traitement de segments courts plutôt que de flux audio longs, et il ne fournit pas de méthode simple pour présenter les systèmes en démonstration. Comme solution, nous présentons simulstream, le premier cadre open-source dédié à l'évaluation unifiée et à la démonstration des systèmes StreamST. Conçu pour le traitement de parole longue, il prend en charge non seulement les approches de décodage incrémental, mais aussi les méthodes de retraduction, permettant leur comparaison au sein du même cadre à la fois en termes de qualité et de latence. De plus, il offre également une interface web interactive pour démontrer tout système construit avec l'outil.

Analyse thématique multi-LLM avec métriques de fiabilité duales : Combinaison du Kappa de Cohen et de la similarité sémantique pour la validation en recherche qualitative
Multi-LLM Thematic Analysis with Dual Reliability Metrics: Combining Cohen's Kappa and Semantic Similarity for Qualitative Research Validation

Dec 23

ByNilesh Jain, Seyi Adeyinka, Leor Roseman, Aza Allsop

La recherche qualitative est confrontée à un défi crucial de fiabilité : les méthodes traditionnelles d'accord inter-codeurs nécessitent plusieurs évaluateurs humains, sont chronophages et produisent souvent une cohérence modérée. Nous présentons un cadre de validation multi-perspectives pour l'analyse thématique basée sur les LLM qui combine une validation par ensemble avec deux métriques de fiabilité : le Kappa de Cohen (κ) pour l'accord inter-juge et la similarité cosinus pour la cohérence sémantique. Notre cadre permet des paramètres d'analyse configurables (1-6 *seeds*, température 0.0-2.0), prend en charge des structures d'invite personnalisables avec substitution de variables et fournit une extraction de thèmes consensuels à partir de n'importe quel format JSON. À titre de preuve de concept, nous évaluons trois LLM leaders (Gemini 2.5 Pro, GPT-4o, Claude 3.5 Sonnet) sur une transcription d'entretien de thérapie par l'art psychédélique, en réalisant six exécutions indépendantes par modèle. Les résultats démontrent que Gemini atteint la fiabilité la plus élevée (κ= 0,907, cosinus=95,3 %), suivi par GPT-4o (κ= 0,853, cosinus=92,6 %) et Claude (κ= 0,842, cosinus=92,1 %). Les trois modèles atteignent un accord élevé (κ> 0,80), validant l'approche d'ensemble multi-exécutions. Le cadre permet avec succès l'extraction de thèmes consensuels entre les exécutions, Gemini identifiant 6 thèmes consensuels (cohérence de 50 à 83 %), GPT-4o en identifiant 5 et Claude 4. Notre implémentation open-source offre aux chercheurs des métriques de fiabilité transparentes, une configuration flexible et une extraction de consensus indépendante de la structure, établissant des fondements méthodologiques pour une recherche qualitative assistée par IA fiable.

Toxicité à l'horizon : Prédire le déraillement des conversations sur GitHub
Toxicity Ahead: Forecasting Conversational Derailment on GitHub

Dec 17

ByMia Mohammad Imran, Robert Zita, Rahat Rizvi Rahman, Preetha Chatterjee, Kostadin Damevski

Les interactions toxiques au sein des communautés de logiciels libres réduisent l'engagement des contributeurs et menacent la pérennité des projets. Pour prévenir cette toxicité avant qu'elle n'émerge, il est essentiel de comprendre comment les conversations nuisibles se développent. Cependant, la plupart des stratégies de modération proactive sont manuelles, exigeant un temps et des efforts considérables de la part des mainteneurs de la communauté. Pour favoriser des approches plus évolutives, nous avons constitué un jeu de données de 159 fils de discussion toxiques et déviants et de 207 fils non toxiques issus des discussions GitHub. Notre analyse révèle que la toxicité peut être anticipée par des déclencheurs de tension, des changements de sentiment et des schémas conversationnels spécifiques. Nous présentons un nouveau cadre basé sur un grand modèle de langage pour prédire la déviation conversationnelle sur GitHub en utilisant un pipeline d'invitation en deux étapes. Premièrement, nous générons des résumés de la dynamique des conversations via l'invitation du Moins-au-Plus ; ensuite, nous utilisons ces résumés pour estimer la probabilité de déviation. Évaluée sur les modèles Qwen et Llama, notre stratégie LtM atteint des scores F1 de 0,901 et 0,852 respectivement, à un seuil de décision de 0,3, surpassant les méthodes de référence établies en TAL pour la déviation conversationnelle. Une validation externe sur un jeu de données de 308 fils de discussion GitHub (65 toxiques, 243 non toxiques) produit un score F1 allant jusqu'à 0,797. Nos résultats démontrent l'efficacité de l'invitation structurée des LLM pour la détection précoce de la déviation conversationnelle dans les logiciels libres, permettant une modération proactive et explicable.

Apprendre à refocaliser avec les modèles de diffusion vidéo
Learning to Refocus with Video Diffusion Models

Dec 22

BySaiKiran Tedla, Zhoutong Zhang, Xuaner Zhang, Shumian Xin

La mise au point est un pilier de la photographie, pourtant les systèmes autofocus échouent souvent à capturer le sujet souhaité, et les utilisateurs souhaitent fréquemment ajuster la mise au point après la capture. Nous présentons une méthode novatrice pour une remise au point post-capture réaliste en utilisant des modèles de diffusion vidéo. À partir d'une seule image floue, notre approche génère une pile focale de précision perceptuelle, représentée sous forme de séquence vidéo, permettant une remise au point interactive et ouvrant la voie à une gamme d'applications en aval. Nous publions un jeu de données à grande échelle de piles focales acquises dans diverses conditions réelles de smartphones pour soutenir ces travaux et les recherches futures. Notre méthode surpasse constamment les approches existantes tant en qualité perceptuelle qu'en robustesse dans des scénarios difficiles, ouvrant la voie à des capacités de retouche de la mise au point plus avancées dans la photographie quotidienne. Le code et les données sont disponibles sur www.learn2refocus.github.io.

Lois d'échelle pour le code : chaque langage de programmation compte
Scaling Laws for Code: Every Programming Language Matters

Dec 15

ByJian Yang, Shawn Guo, Lin Jing, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Wayne Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai