HuggingFace Daily Papers

papers.dailyPapers

papers.description

papers.selectDate

18 papers found

Rapport Technique LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

ByMeituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang

175

Nous présentons LongCat-Flash-Thinking-2601, un modèle de raisonnement open-source à architecture Mixture-of-Experts (MoE) de 560 milliards de paramètres, doté de capacités supérieures de raisonnement agentique. LongCat-Flash-Thinking-2601 obtient des performances de pointe parmi les modèles open-source sur un large éventail de benchmarks agentiques, incluant la recherche agentique, l'utilisation d'outils par des agents et le raisonnement intégrant des outils. Au-delà des performances sur les benchmarks, le modèle démontre une forte généralisation aux interactions complexes avec les outils et un comportement robuste dans des environnements réels bruités. Ses capacités avancées proviennent d'un cadre d'apprentissage unifié qui combine un entraînement parallèle par domaine des experts avec une fusion ultérieure, ainsi qu'une co-conception de bout en bout de la construction des données, des environnements, des algorithmes et de l'infrastructure, couvrant toute la chaîne du pré-entraînement au post-entraînement. En particulier, la forte capacité de généralisation du modèle dans l'utilisation complexe d'outils est motivée par notre exploration approfondie de la mise à l'échelle des environnements et de la construction de tâches fondée sur des principes. Pour optimiser la génération à distribution longue traîne et asymétrique et les interactions agentiques multi-tours, et pour permettre un entraînement stable à travers plus de 10 000 environnements couvrant plus de 20 domaines, nous étendons systématiquement notre cadre d'apprentissage par renforcement asynchrone, DORA, pour un entraînement à grande échelle multi-environnements stable et efficace. De plus, reconnaissant que les tâches du monde réel sont intrinsèquement bruitées, nous menons une analyse et une décomposition systématiques des modèles de bruit réels, et concevons des procédures d'entraînement ciblées pour incorporer explicitement ces imperfections dans le processus d'apprentissage, ce qui se traduit par une robustesse accrue pour les applications réelles. Pour améliorer encore les performances sur les tâches de raisonnement complexes, nous introduisons un mode « Heavy Thinking » (Raisonnement Lourd) qui permet une mise à l'échelle efficace au moment du test en élargissant conjointement la profondeur et la largeur du raisonnement via une pensée parallèle intensive.

SWE-Pruner : Élagage contextuel auto-adaptatif pour agents de programmation
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Jan 23

ByYuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He, Heng Lian, Yuting Chen, Siyu Ye, Kai Cai, Xiaodong Gu

Les agents LLM ont démontré des capacités remarquables en développement logiciel, mais leurs performances sont entravées par des contextes d'interaction longs, qui engendrent des coûts d'API élevés et une latence importante. Bien que diverses approches de compression de contexte comme LongLLMLingua aient émergé pour relever ce défi, elles reposent généralement sur des métriques fixes telles que le PPL, ignorant la nature spécifique à la tâche de la compréhension du code. En conséquence, elles perturbent fréquemment la structure syntaxique et logique et échouent à conserver les détails d'implémentation critiques. Dans cet article, nous proposons SWE-Pruner, un framework de compression de contexte auto-adaptatif conçu pour les agents de programmation. S'inspirant de la façon dont les programmeurs humains « parcourent sélectivement » le code source lors du développement et du débogage, SWE-Pruner effectue une compression adaptative consciente de la tâche pour les contextes longs. Étant donné la tâche courante, l'agent formule un objectif explicite (par exemple, « se concentrer sur la gestion des erreurs ») comme indice pour guider les cibles de compression. Un skimmer neuronal léger (0,6 milliard de paramètres) est entraîné pour sélectionner dynamiquement les lignes pertinentes du contexte environnant en fonction de l'objectif. Les évaluations sur quatre benchmarks et plusieurs modèles valident l'efficacité de SWE-Pruner dans divers scénarios, atteignant une réduction de 23 à 54 % des tokens sur des tâches d'agents comme SWE-Bench Verified et jusqu'à 14,84x de compression sur des tâches en un tour comme LongCodeQA avec un impact minimal sur les performances.

TwinBrainVLA : Libérer le potentiel des modèles de langage visuel généralistes pour les tâches incarnées via un mélange asymétrique de transformateurs
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Jan 20

ByBin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen

Les modèles standard Vision-Langage-Action (VLA) ajustent généralement de manière fine un modèle de base Vision-Langage (VLM) monolithique explicitement pour le contrôle robotique. Cependant, cette approche crée une tension critique entre le maintien d'une compréhension sémantique générale de haut niveau et l'apprentissage de compétences sensori-motrices fines et de bas niveau, conduisant souvent à un « oubli catastrophique » des capacités généralistes du modèle. Pour résoudre ce conflit, nous présentons TwinBrainVLA, une architecture novatrice qui coordonne un VLM généraliste conservant une compréhension sémantique universelle et un VLM spécialisé dédié à la proprioception incarnée pour un contrôle robotique conjoint. TwinBrainVLA synergise un « Cerveau Gauche » gelé, qui conserve un raisonnement visuel général robuste, avec un « Cerveau Droit » entraînable, spécialisé dans la perception incarnée, via un nouveau mécanisme de Mélange Asymétrique de Transformers (AsyMoT). Cette conception permet au Cerveau Droit d'interroger dynamiquement les connaissances sémantiques du Cerveau Gauche gelé et de les fusionner avec les états proprioceptifs, fournissant un conditionnement riche à un Expert d'Action par Appariement de Flux pour générer des contrôles continus précis. Des expériences approfondies sur les benchmarks SimplerEnv et RoboCasa démontrent que TwinBrainVLA atteint une performance de manipulation supérieure par rapport aux meilleures méthodes de référence tout en préservant explicitement les capacités complètes de compréhension visuelle du VLM pré-entraîné, offrant une voie prometteuse pour construire des robots à usage général qui réalisent simultanément une compréhension sémantique de haut niveau et une dextérité physique de bas niveau.

VisGym : Des environnements d'apprentissage diversifiés, personnalisables et évolutifs pour agents multimodaux
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Jan 23

ByZirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez

Les modèles vision-langage (VLM) modernes restent mal caractérisés dans les interactions visuelles multi-étapes, particulièrement dans leur capacité à intégrer perception, mémoire et action sur de longs horizons. Nous présentons VisGym, un gymnase de 17 environnements pour évaluer et entraîner les VLM. Cette suite couvre des puzzles symboliques, la compréhension d'images réelles, la navigation et la manipulation, tout en offrant un contrôle flexible sur la difficulté, la représentation des entrées, l'horizon de planification et le retour d'information. Nous fournissons également des solveurs multi-étapes qui génèrent des démonstrations structurées, permettant un finetuning supervisé. Nos évaluations montrent que tous les modèles de pointe éprouvent des difficultés dans des contextes interactifs, avec des taux de réussite faibles dans les configurations faciles (46,6%) et difficiles (26,0%). Nos expériences révèlent des limitations notables : les modèles peinent à exploiter efficacement un contexte long, obtenant de moins bonnes performances avec un historique illimité qu'avec des fenêtres tronquées. De plus, nous constatons que plusieurs tâches symboliques basées sur le texte deviennent substantiellement plus difficiles une fois rendues visuellement. Cependant, l'observation explicite des objectifs, le retour textuel et les démonstrations exploratoires dans des environnements partiellement observables ou à dynamique inconnue pour le finetuning supervisé produisent des gains constants, mettant en lumière des modes d'échec concrets et des voies d'amélioration pour la prise de décision visuelle multi-étapes. Le code, les données et les modèles sont disponibles à l'adresse : https://visgym.github.io/.

Memory-V2V : Augmentation des modèles de diffusion vidéo-à-vidéo par une mémoire
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Jan 22

ByDohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong

Les modèles de diffusion vidéo-à-vidéo récents ont obtenu des résultats impressionnants dans l'édition de vidéos fournies par l'utilisateur en modifiant l'apparence, le mouvement ou le mouvement de la caméra. Cependant, l'édition vidéo dans le monde réel est souvent un processus itératif, où les utilisateurs affinent les résultats sur plusieurs rounds d'interaction. Dans ce cadre multi-tours, les éditeurs vidéo actuels peinent à maintenir une cohérence transversale entre les modifications séquentielles. Dans ce travail, nous abordons pour la première fois le problème de la cohérence transversale dans l'édition vidéo multi-tours et présentons Memory-V2V, un cadre simple mais efficace qui augmente les modèles vidéo-à-vidéo existants avec une mémoire explicite. Étant donné un cache externe de vidéos précédemment éditées, Memory-V2V utilise des stratégies de récupération précise et de tokenisation dynamique pour conditionner l'étape d'édition actuelle sur les résultats antérieurs. Pour further atténuer la redondance et la surcharge computationnelle, nous proposons un compresseur de tokens apprenable intégré à l'architecture DiT qui compresse les tokens de conditionnement redondants tout en préservant les indices visuels essentiels, obtenant une accélération globale de 30 %. Nous validons Memory-V2V sur des tâches complexes incluant la synthèse de nouvelles vues vidéo et l'édition de vidéos longues conditionnées par texte. Des expériences approfondies montrent que Memory-V2V produit des vidéos significativement plus cohérentes transversalement avec une surcharge computationnelle minimale, tout en maintenant ou même en améliorant les performances spécifiques aux tâches par rapport aux meilleures méthodes de référence. Page du projet : https://dohunlee1.github.io/MemoryV2V

Jet-RL : Activation de l'Apprentissage par Renforcement FP8 sur Politique avec un Flux de Précision Unifié pour l'Entraînement et le Déploiement
Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

Jan 20

ByHaocheng Xi, Charlie Ruan, Peiyuan Liao, Yujun Lin, Han Cai, Yilong Zhao, Shuo Yang, Kurt Keutzer, Song Han, Ligeng Zhu

L'apprentissage par renforcement (RL) est essentiel pour améliorer les capacités de raisonnement complexe des grands modèles de langage (LLM). Cependant, les pipelines d'entraînement par RL existants sont inefficaces en calcul et gourmands en ressources, la phase de déploiement (« rollout ») représentant plus de 70 % du temps d'entraînement total. L'entraînement par RL quantifié, en particulier avec la précision FP8, offre une approche prometteuse pour atténuer ce goulot d'étranglement. Une stratégie couramment adoptée applique la précision FP8 pendant le déploiement tout en conservant la précision BF16 pour l'entraînement. Dans ce travail, nous présentons la première étude complète sur l'entraînement RL en FP8 et démontrons que la stratégie largement utilisée « entraînement-BF16 + déploiement-FP8 » souffre d'une instabilité d'entraînement sévère et d'un effondrement catastrophique de la précision dans des scénarios de déploiement à long horizon et sur des tâches difficiles. Notre analyse montre que ces échecs découlent de la nature hors politique (« off-policy ») de l'approche, qui introduit un décalage numérique substantiel entre l'entraînement et l'inférence. Motivés par ces observations, nous proposons Jet-RL, un cadre d'entraînement RL en FP8 qui permet une optimisation RL robuste et stable. L'idée clé est d'adopter un flux de précision FP8 unifié à la fois pour l'entraînement et le déploiement, minimisant ainsi les écarts numériques et éliminant le besoin d'une calibration inter-étapes inefficace. Des expériences approfondies valident l'efficacité de Jet-RL : notre méthode permet d'atteindre jusqu'à 33 % d'accélération dans la phase de déploiement, jusqu'à 41 % d'accélération dans la phase d'entraînement, et une accélération de bout en bout de 16 % par rapport à l'entraînement BF16, tout en maintenant une convergence stable dans tous les paramètres et en n'entraînant qu'une dégradation de précision négligeable.

Mise à l'échelle temporelle de la vérification par inférence : Agents de recherche profonds auto-évolutifs via la vérification guidée par rubrique en temps de test
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Jan 22

ByYuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu

Les récents progrès des Agents de Recherche Profonde (DRAs) transforment la découverte automatisée de connaissances et la résolution de problèmes. Alors que la majorité des travaux existants se concentrent sur l'amélioration des capacités décisionnelles via le post-entraînement, nous proposons un paradigme alternatif : l'auto-évolution de la capacité de l'agent en vérifiant itérativement les sorties du modèle de décision, guidé par des grilles d'évaluation méticuleusement conçues. Cette approche donne naissance à la mise à l'échelle temporelle de l'inférence de la vérification, dans laquelle un agent s'auto-améliore en évaluant ses réponses générées pour produire des retours et des affinages itératifs. Nous dérivons les grilles d'évaluation sur la base d'une Taxonomie des Échecs des DRA construite automatiquement, qui classe systématiquement les échecs des agents en cinq catégories principales et treize sous-catégories. Nous présentons DeepVerifier, un vérificateur de récompense basé sur les résultats qui exploite l'asymétrie de la vérification et surpasse les lignes de base de l'agent-en-tant-que-juge standard et du juge LLM de 12 % à 48 % en score F1 de méta-évaluation. Pour permettre une auto-évolution pratique, DeepVerifier s'intègre comme un module plug-and-play pendant l'inférence au moment du test. Le vérificateur produit un retour détaillé basé sur les grilles, qui est réinjecté à l'agent pour un amorçage itératif, affinant les réponses sans entraînement supplémentaire. Cette mise à l'échelle au moment du test offre des gains de précision de 8 % à 11 % sur des sous-ensembles difficiles de GAIA et XBench-DeepResearch lorsqu'elle est alimentée par des LLM propriétaires performants. Enfin, pour soutenir l'avancement des modèles open-source, nous publions DeepVerifier-4K, un jeu de données d'apprentissage supervisé de 4 646 étapes d'agents de haute qualité axé sur la vérification des DRA. Ces exemples mettent l'accent sur la réflexion et l'autocritique, permettant aux modèles ouverts de développer des capacités de vérification robustes.

Terminaux Infinis : Mise à l'échelle des environnements d'apprentissage par renforcement pour agents terminaux
Endless Terminals: Scaling RL Environments for Terminal Agents

Jan 23

ByKanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos

Les environnements constituent le goulot d'étranglement pour les agents auto-améliorants. Les benchmarks de terminal actuels ont été conçus pour l'évaluation, non pour l'entraînement ; l'apprentissage par renforcement nécessite un pipeline évolutif, pas seulement un jeu de données. Nous présentons Endless Terminals, un pipeline entièrement autonome qui génère de manière procédurale des tâches d'utilisation du terminal sans annotation humaine. Le pipeline comporte quatre étapes : la génération de descriptions de tâches diversifiées, la construction et la validation d'environnement conteneurisés, la production de tests de complétion et le filtrage selon la solvabilité. Grâce à ce pipeline, nous obtenons 3255 tâches couvrant les opérations sur fichiers, la gestion de logs, le traitement de données, les scripts et les opérations sur bases de données. Nous entraînons des agents en utilisant l'algorithme PPO standard avec des récompenses binaires au niveau de l'épisode et une boucle d'interaction minimale : pas de recherche d'information, pas de coordination multi-agents ni d'outils spécialisés. Malgré cette simplicité, les modèles entraînés sur Endless Terminals montrent des gains substantiels : sur notre ensemble de développement réservé, Llama-3.2-3B passe de 4,0 % à 18,2 %, Qwen2.5-7B de 10,7 % à 53,3 % et Qwen3-8B-openthinker-sft de 42,6 % à 59,0 %. Ces améliorations se transfèrent aux benchmarks organisés par des humains : les modèles entraînés sur Endless Terminals montrent des gains substantiels sur des benchmarks de référence organisés par des humains et réservés : sur TerminalBench 2.0, Llama-3.2-3B passe de 0,0 % à 2,2 %, Qwen2.5-7B de 2,2 % à 3,4 % et Qwen3-8B-openthinker-sft de 1,1 % à 6,7 %, surpassant à chaque fois les approches alternatives, y compris les modèles dotés d'échafaudages agentiques plus complexes. Ces résultats démontrent qu'un apprentissage par renforcement simple réussit lorsque les environnements sont mis à l'échelle.

SALAD : Atteindre une Attention Hautement Creuse via un Réglage Efficace de l'Attention Linéaire pour les Transformers de Diffusion Vidéo
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Jan 23

ByTongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang

Les Transformers à diffusion ont récemment démontré des performances remarquables en génération vidéo. Cependant, les longues séquences d'entrée entraînent une latence computationnelle élevée en raison de la complexité quadratique de l'attention complète. Divers mécanismes d'attention parcimonieuse ont été proposés. L'attention parcimonieuse sans entraînement est limitée par une parcimonie réduite et n'offre qu'une accélération modeste, tandis que les méthodes nécessitant un entraînement peuvent atteindre une bien plus grande parcimonie mais exigent des données et des calculs substantiels. Dans ce travail, nous proposons SALAD, introduisant une branche d'attention linéaire légère en parallèle de l'attention parcimonieuse. En incorporant un mécanisme de gating dépendant de l'entrée pour équilibrer finement les deux branches, notre méthode atteint 90 % de parcimonie et une accélération de l'inférence de 1,72×, tout en maintenant une qualité de génération comparable à la baseline en attention complète. De plus, notre processus de réglage fin est très efficace, nécessitant seulement 2 000 échantillons vidéo et 1 600 étapes d'entraînement avec une taille de lot de 8.

Danser dans les chaînes : La persuasion stratégique dans la réfutation académique via la théorie de l'esprit
Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Jan 22

ByZhitao He, Zongwei Lyu, Yi R Fung

Bien que l'intelligence artificielle (IA) se soit profondément intégrée dans diverses étapes du processus de recherche et ait réalisé des avancées remarquables, la rédaction de réponses aux relecteurs (rebuttal académique) reste un défi important et sous-exploré. Ceci s'explique par le fait que le rebuttal constitue un processus complexe de communication stratégique sous forte asymétrie d'information, et non un simple débat technique. Par conséquent, les approches actuelles peinent à être efficaces car elles imitent largement des aspects linguistiques superficiels, omettant l'élément essentiel de la prise de perspective nécessaire à une persuasion efficace. Dans cet article, nous présentons RebuttalAgent, le premier cadre qui ancre le rebuttal académique dans la Théorie de l'Esprit (ToM), opérationnalisée via un pipeline ToM-Stratégie-Réponse (TSR) qui modélise l'état mental du relecteur, formule une stratégie de persuasion et génère une réponse fondée sur cette stratégie. Pour entraîner notre agent, nous avons constitué RebuttalBench, un jeu de données à grande échelle synthétisé via une nouvelle approche de critique et d'affinage. Notre processus d'entraînement comporte deux étapes : une phase de fine-tuning supervisé pour doter l'agent de capacités d'analyse basées sur la ToM et de planification stratégique, suivie d'une phase d'apprentissage par renforcement exploitant un mécanisme d'auto-récompense pour une amélioration auto-supervisée évolutive. Pour une évaluation automatisée fiable et efficace, nous avons développé Rebuttal-RM, un évaluateur spécialisé entraîné sur plus de 100 000 échantillons de données de rebuttal multi-sources, qui atteint une cohérence de notation avec les préférences humaines dépassant celle du puissant modèle GPT-4.1. Des expériences approfondies montrent que RebuttalAgent surpasse significativement le modèle de base de 18,3 % en moyenne sur les métriques automatisées, tout en surpassant également les modèles propriétaires avancés dans les évaluations automatisées et humaines. Avertissement : le contenu de rebuttal généré est fourni uniquement à titre de référence pour inspirer les auteurs et aider à la rédaction. Il n'est pas destiné à remplacer l'analyse critique et la réponse propres à l'auteur.

GameTalk : Former des modèles de langage étendus à la conversation stratégique
GameTalk: Training LLMs for Strategic Conversation

Jan 22

ByVictor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar

La prise de décision stratégique dans des environnements multi-agents représente un défi majeur pour les grands modèles de langage (LLM), particulièrement lorsque la coordination et la négociation doivent se dérouler sur des conversations prolongées. Si des travaux récents ont exploré l'utilisation des LLM pour des tâches de décision isolées, peu d'attention a été accordée à l'optimisation d'objectifs à long terme par le dialogue. Nous présentons GameTalk, un cadre pour entraîner les LLM à prendre des décisions stratégiques via des interactions multi-tours. Contrairement aux approches antérieures axées sur des objectifs en un seul tour ou la prédiction d'actions statiques, nous entraînons les LLM à optimiser un objectif global sur la totalité des conversations. Nous y parvenons en adaptant des méthodes de fine-tuning comme GRPO, DPO et STaR pour incorporer des signaux de récompense dépendants de l'intégralité de l'interaction. Nous évaluons cette approche sur une série de jeux de complexité croissante, conçus pour solliciter différents aspects du raisonnement, de la coordination et de la modélisation de l'adversaire. Nos résultats montrent que GameTalk surpasse significativement les modèles non entraînés, surtout avec un façonnage des récompenses, DPO produisant systématiquement les gains les plus importants. Ces résultats positionnent le fine-tuning conversationnel comme une voie prometteuse pour permettre aux LLM de raisonner, négocier et agir dans des environnements interactifs.

MeepleLM : Un Testeur Virtuel Simulant des Expériences Subjectives Diverses
MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Jan 12

ByZizhen Li, Chuanhao Li, Yibin Wang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Yifei Huang, Kaipeng Zhang

Les avancées récentes ont élargi le rôle des grands modèles de langage dans les jeux de société, les faisant passer d'agents joueurs à des co-concepteurs créatifs. Cependant, une lacune critique persiste : les systèmes actuels sont incapables d'offrir une critique constructive fondée sur l'expérience utilisateur émergente. Combler cette lacune est fondamental pour harmoniser la collaboration Humain-IA, car elle permet aux concepteurs d'affiner leurs créations via des perspectives externes tout en éloignant les modèles de résultats biaisés ou imprévisibles. L'automatisation de la critique pour les jeux de société présente deux défis : inférer la dynamique latente reliant les règles au gameplay sans moteur explicite, et modéliser l'hétérogénéité subjective des différents groupes de joueurs. Pour y remédier, nous constituons un jeu de données de 1 727 règles structurellement corrigées et 150 000 avis sélectionnés via un score de qualité et un échantillonnage tenant compte des facettes. Nous enrichissons ces données avec un raisonnement Mécaniques-Dynamiques-Expérience (MDA) pour explicitement combler le fossé causal entre les règles écrites et l'expérience du joueur. Nous distillons ensuite des personnages de joueurs et présentons MeepleLM, un modèle spécialisé qui internalise des schémas de raisonnement spécifiques à chaque personnage pour simuler avec précision les retours subjectifs de diverses archétypes de joueurs. Les expériences démontrent que MeepleLM surpasse significativement les derniers modèles commerciaux (par exemple, GPT-5.1, Gemini3-Pro) en alignement communautaire et en qualité de critique, atteignant un taux de préférence de 70 % dans les études utilisateurs évaluant l'utilité. MeepleLM sert de testeur virtuel fiable pour les systèmes interactifs généraux, marquant une étape cruciale vers une collaboration Humain-IA alignée sur le public et consciente de l'expérience.

ChartVerse : Mise à l'échelle du raisonnement sur les graphiques par une synthèse programmatique fiable à partir de zéro
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Jan 20

ByZheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu

Le raisonnement graphique est une capacité essentielle pour les modèles vision-langage (VLM). Cependant, le développement de modèles open-source est sévèrement entravé par le manque de données d’entraînement de haute qualité. Les jeux de données existants souffrent d’un double défi : les graphiques synthétiques sont souvent simplistes et répétitifs, tandis que les paires question-réponse associées sont sujettes aux hallucinations et manquent de la profondeur de raisonnement nécessaire pour les tâches complexes. Pour combler cette lacune, nous proposons ChartVerse, un cadre évolutif conçu pour synthétiser des graphiques complexes et des données de raisonnement fiables à partir de zéro. (1) Pour résoudre le problème des motifs simples, nous introduisons d’abord l’entropie postérieure de déploiement (RPE), une nouvelle métrique qui quantifie la complexité des graphiques. Guidé par la RPE, nous développons un codeur de graphiques sensible à la complexité pour synthétiser de manière autonome des graphiques diversifiés et de haute complexité via des programmes exécutables. (2) Pour garantir la rigueur du raisonnement, nous développons une synthèse inverse de questions-réponses ancrée dans la vérité. Contrairement à la génération standard, nous adoptons un paradigme réponse d’abord : nous extrayons des réponses déterministes directement du code source, générons des questions conditionnellement à ces ancres, et imposons une vérification stricte de la cohérence. Pour augmenter davantage la difficulté et la profondeur du raisonnement, nous filtrons les échantillons en fonction du taux d’échec du modèle et distillons un raisonnement de haute qualité en chaîne de pensée (CoT). Nous avons constitué ChartVerse-SFT-600K et ChartVerse-RL-40K en utilisant Qwen3-VL-30B-A3B-Thinking comme modèle enseignant. Les résultats expérimentaux démontrent que ChartVerse-8B atteint des performances de pointe, surpassant notablement son enseignant et rivalisant avec le modèle plus puissant Qwen3-VL-32B-Thinking.

DSGym : Un cadre holistique pour l'évaluation et l'entraînement des agents en science des données
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Jan 22

ByFan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou

Les agents de science des données promettent d'accélérer la découverte et la génération d'informations en transformant les données en analyses et résultats exécutables. Pourtant, les benchmarks existants en science des données présentent des lacunes en raison d'interfaces d'évaluation fragmentées qui rendent les comparaisons inter-banques difficiles, d'une couverture étroite des tâches et d'un manque de fondation rigoureuse sur les données. Nous montrons en particulier qu'une part substantielle des tâches des benchmarks actuels peut être résolue sans utiliser les données réelles. Pour pallier ces limitations, nous présentons DSGym, un cadre standardisé pour évaluer et entraîner des agents de science des données dans des environnements d'exécution autonomes. Contrairement aux benchmarks statiques, DSGym offre une architecture modulaire qui facilite l'ajout de tâches, de squelettes d'agents et d'outils, le positionnant comme un banc d'essai vivant et extensible. Nous avons constitué DSGym-Tasks, une suite de tâches holistique qui standardise et affine les benchmarks existants via un filtrage qualité et de résolvabilité par raccourcis. Nous élargissons davantage la couverture avec (1) DSBio : des tâches de bio-informatique dérivées d'experts et ancrées dans la littérature, et (2) DSPredict : des tâches de prédiction difficiles couvrant des domaines comme la vision par ordinateur, la prédiction moléculaire et la perturbation unicellulaire. Au-delà de l'évaluation, DSGym permet l'entraînement d'agents via un pipeline de synthèse de données vérifié par exécution. Comme étude de cas, nous avons construit un jeu d'entraînement de 2 000 exemples et entraîné un modèle de 4B dans DSGym qui surpasse GPT-4o sur des benchmarks d'analyse standardisés. Globalement, DSGym permet une mesure rigoureuse de bout en bout de la capacité des agents à planifier, implémenter et valider des analyses de données dans un contexte scientifique réaliste.

Le Savoir Ne Suffit Pas : Injecter des Compétences d’Apprentissage par Renforcement pour une Adaptation Continue
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Jan 16

ByPingzhi Tang, Yiding Wang, Muhan Zhang

Les modèles de langage de grande taille (LLM) sont confrontés au défi de "l'arrêt des connaissances", où leur mémoire paramétrique figée empêche l'intériorisation directe de nouvelles informations. Bien que le réglage fin supervisé (SFT) soit couramment utilisé pour actualiser les connaissances du modèle, il met souvent à jour le contenu factuel sans améliorer de manière fiable la capacité du modèle à utiliser les nouvelles informations intégrées pour répondre à des questions ou prendre des décisions. L'apprentissage par renforcement (RL) est essentiel pour acquérir des compétences de raisonnement ; cependant, son coût computationnel élevé le rend peu pratique pour une adaptation en ligne efficace. Nous observons empiriquement que les mises à jour des paramètres induites par le SFT et le RL sont quasi orthogonales. Sur la base de cette observation, nous proposons le Transfert Paramétrique de Compétences (PaST), un cadre qui prend en charge le transfert modulaire de compétences pour une adaptation des connaissances efficace et efficiente. En extrayant un Vecteur de Compétences indépendant du domaine à partir d'un domaine source, nous pouvons injecter linéairement des compétences de manipulation des connaissances dans un modèle cible après qu'il ait subi un SFT léger sur de nouvelles données. Les expériences sur l'incorporation de connaissances en QA (SQuAD, LooGLE) et les benchmarks d'utilisation d'outils agentiques (ToolBench) démontrent l'efficacité de notre méthode. Sur SQuAD, PaST surpasse la référence SFT d'auto-édition de pointe jusqu'à 9,9 points. PaST s'étend en outre au QA à contexte long sur LooGLE avec un gain de précision absolu de 8,0 points, et améliore les taux de réussite zero-shot sur ToolBench de +10,3 points en moyenne avec des gains constants across les catégories d'outils, indiquant une forte scalabilité et transférabilité inter-domaines du Vecteur de Compétences.

Mecellem Modelleri : Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türk Modelleri
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Jan 22

ByÖzgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş

Ce document présente les modèles Mecellem, un cadre pour développer des modèles de langage spécialisés pour le domaine juridique turc grâce à des stratégies d'adaptation de domaine. Nous apportons deux contributions principales : (1) Un modèle encodeur pré-entraîné à partir de zéro : des encodeurs bidirectionnels basés sur ModernBERT, pré-entraînés sur un corpus majoritairement turc de 112,7 milliards de tokens. Nous mettons en œuvre une stratégie de sélection de points de contrôle qui évalue les performances en retrieval en aval tout au long de l'entraînement, révélant que les points de contrôle optimaux atteignent les meilleurs scores de retrieval avant que la perte de pré-entraînement n'atteigne son minimum. Nos modèles encodeurs se classent dans le top 3 du classement turc en retrieval, les modèles plus petits (155 millions de paramètres) obtenant des performances comparables à des modèles de référence plus grands (307 à 567 millions de paramètres). Notre approche atteint une efficacité de production de 92,36 % par rapport aux modèles de l'état de l'art (embeddinggemma-300m : 100,00 %, BAAI/bge-m3 : 99,54 %, newmindai/bge-m3-stsb : 94,38 %), se classant quatrième au global malgré des besoins en ressources computationnelles moindres. Les modèles SOTA reposent sur des pipelines d'entraînement multi-étapes et intensifs en calcul, faisant de notre approche en une seule étape de pré-entraînement suivie d'un post-entraînement efficace une alternative économique ; (2) Un modèle décodeur avec pré-entraînement continu (CPT) : les modèles Qwen3-1.7B et Qwen3-4B adaptés au domaine juridique turc via un apprentissage curriculaire contrôlé. Un CPT en quatre phases avec des ratios d'échantillonnage optimaux permet une transition progressive des connaissances linguistiques générales vers la terminologie juridique spécialisée et le raisonnement en contexte long. Cette approche permet une réduction de 36,2 % de la perplexité sur le texte juridique turc, démontrant les gains de l'adaptation de domaine.

VISTA-PATH : Un modèle fondateur interactif pour la segmentation d'images pathologiques et l'analyse quantitative en pathologie computationnelle
VISTA-PATH: An interactive foundation model for pathology image segmentation and quantitative analysis in computational pathology

Jan 23

ByPeixian Liang, Songhao Li, Shunsuke Koga, Yutong Li, Zahra Alipour, Yucheng Tang, Daguang Xu, Zhi Huang

La segmentation sémantique précise des images histopathologiques est cruciale pour l'analyse quantitative des tissus et la modélisation clinique subséquente. Les modèles de fondation récents pour la segmentation ont amélioré la généralisation grâce à un pré-entraînement à grande échelle, mais restent mal alignés avec la pathologie car ils traitent la segmentation comme une tâche de prédiction visuelle statique. Nous présentons ici VISTA-PATH, un modèle de fondation interactif et conscient des classes pour la segmentation pathologique, conçu pour résoudre des structures hétérogènes, intégrer les retours d'experts et produire des segmentations au niveau pixel directement significatives pour l'interprétation clinique. VISTA-PATH conditionne conjointement la segmentation sur le contexte visuel, les descriptions sémantiques des tissus et des invites spatiales optionnelles fournies par des experts, permettant une segmentation multi-classes précise sur des images pathologiques hétérogènes. Pour soutenir ce paradigme, nous avons constitué VISTA-PATH Data, un corpus de segmentation pathologique à grande échelle comprenant plus de 1,6 million de triplets image-masque-texte couvrant 9 organes et 93 classes de tissus. Sur de nombreux benchmarks externes et de validation rigoureux, VISTA-PATH surpasse constamment les modèles de fondation existants pour la segmentation. Fait important, VISTA-PATH prend en charge un affinage dynamique avec intervention humaine en propageant les retours d'annotation par boîtes englobantes éparses au niveau de patchs dans la segmentation de lames entières. Enfin, nous montrons que la segmentation haute fidélité et consciente des classes produite par VISTA-PATH est un modèle privilégié pour la pathologie computationnelle. Elle améliore l'analyse du microenvironnement tumoral grâce au Score d'Interaction Tumorale (SIT) proposé, qui présente des associations fortes et significatives avec la survie des patients. Ensemble, ces résultats établissent VISTA-PATH comme un modèle de fondation qui élève la segmentation d'images pathologiques d'une prédiction statique à une représentation interactive et ancrée cliniquement pour la pathologie numérique. Le code source et une démonstration sont disponibles à l'adresse https://github.com/zhihuanglab/VISTA-PATH.

Guide pour solliciter les grands modèles de langage en génération de code : une caractérisation empirique
Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Jan 19

ByAlessandro Midolo, Alessandro Giagnorio, Fiorella Zampetti, Rosalia Tufano, Gabriele Bavota, Massimiliano Di Penta

Les modèles de langage de grande taille (LLM) sont aujourd'hui largement utilisés pour diverses tâches de génie logiciel, principalement la génération de code. Des recherches antérieures ont montré qu'une ingénierie des prompts adaptée pouvait aider les développeurs à améliorer leurs prompts de génération de code. Cependant, jusqu'à présent, il n'existe pas de lignes directrices spécifiques orientant les développeurs vers la rédaction de prompts appropriés pour la génération de code. Dans ce travail, nous dérivons et évaluons des lignes directrices spécifiques au développement pour l'optimisation des prompts. Premièrement, nous utilisons une approche itérative et pilotée par les tests pour affiner automatiquement les prompts de génération de code, et nous analysons les résultats de ce processus pour identifier les éléments d'amélioration des prompts qui conduisent à la réussite des tests. Nous utilisons ces éléments pour formuler 10 lignes directrices pour l'amélioration des prompts, concernant une meilleure spécification des entrées/sorties, des pré/post-conditions, la fourniture d'exemples, divers types de détails ou la clarification des ambiguïtés. Nous menons une évaluation avec 50 praticiens, qui rapportent leur utilisation des modèles d'amélioration des prompts identifiés, ainsi que leur perception de l'utilité, qui ne correspond pas toujours à l'utilisation réelle avant la connaissance de nos lignes directrices. Nos résultats ont des implications non seulement pour les praticiens et les éducateurs, mais aussi pour ceux qui visent à créer de meilleurs outils de développement logiciel assistés par LLM.

Rapport Technique LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

175