ChatPaper.aiChatPaper.ai
Accueil

arXiv

HuggingFace

TarifsCompteEspace de travail

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articles de Recherche IA Quotidiens

Articles de recherche IA sélectionnés quotidiennement avec traductions

1

Compétence1 : Évolution unifiée d'agents augmentés par compétences via l'apprentissage par renforcement
Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

May 7
ByYaorui Shi, Yuxin Chen, Zhengxi Lu, Yuchun Miao, Shugui Liu, Qi GU, Xunliang Cai, Xiang Wang, An Zhang
53
1

Une bibliothèque de compétences persistantes permet aux agents de modèles linguistiques de réutiliser des stratégies efficaces sur diverses tâches. Le maintien d'une telle bibliothèque nécessite trois capacités couplées. L'agent sélectionne une compétence pertinente, l'utilise lors de l'exécution et distille de nouvelles compétences à partir de l'expérience. Les méthodes existantes optimisent ces capacités de manière isolée ou avec des sources de récompense distinctes, ce qui entraîne une évolution partielle et conflictuelle. Nous proposons Skill1, un cadre qui entraîne une politique unique à faire co-évoluer la sélection, l'utilisation et la distillation des compétences vers un objectif commun lié au résultat de la tâche. La politique génère une requête pour interroger la bibliothèque de compétences, reclasse les candidats pour en sélectionner une, résout la tâche en se basant sur celle-ci et distille une nouvelle compétence à partir de la trajectoire. Tout apprentissage découle d'un seul signal de résultat de tâche. Sa tendance basse fréquence crédite la sélection et sa variation haute fréquence crédite la distillation. Les expériences sur ALFWorld et WebShop montrent que Skill1 surpasse les méthodes antérieures basées sur les compétences et les approches par apprentissage par renforcement. La dynamique d'entraînement confirme la co-évolution des trois capacités, et les études d'ablation montrent que supprimer l'un ou l'autre signal de crédit dégrade l'évolution.

2

Au-delà de la similarité sémantique : Repenser la recherche par interaction directe avec le corpus pour les agents de recherche
Beyond Semantic Similarity: Rethinking Retrieval for Agentic Search via Direct Corpus Interaction

May 3
ByZhuofeng Li, Haoxiang Zhang, Cong Wei, Pan Lu, Ping Nie, Yi Lu, Yuyang Bai, Shangbin Feng, Hangxiao Zhu, Ming Zhong, Yuyu Zhang, Jianwen Xie, Yejin Choi, James Zou, Jiawei Han, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang
45
2

Les systèmes de recherche modernes, qu'ils soient lexicaux ou sémantiques, donnent accès à un corpus via une interface de similarité fixe qui comprime l'accès en une seule étape de récupération top-k avant le raisonnement. Cette abstraction est efficace, mais pour la recherche agentielle, elle devient un goulot d'étranglement : les contraintes lexicales exactes, les conjonctions d'indices épars, les vérifications de contexte local et l'affinement d'hypothèses en plusieurs étapes sont difficiles à mettre en œuvre en utilisant un récupérateur conventionnel standard, et les éléments de preuve éliminés précocement ne peuvent pas être récupérés par un raisonnement en aval plus puissant. Les tâches agentielles exacerbent davantage cette limitation car elles exigent que les agents orchestrent de multiples étapes, incluant la découverte d'entités intermédiaires, la combinaison d'indices faibles et la révision du plan après l'observation de preuves partielles. Pour contourner cette limitation, nous étudions l'interaction directe avec le corpus (DCI), où un agent recherche directement dans le corpus brut à l'aide d'outils génériques de terminal (par exemple, grep, lectures de fichiers, commandes shell, scripts légers), sans aucun modèle d'embedding, index vectoriel ou API de récupération. Cette approche ne nécessite aucun indexation préalable et s'adapte naturellement à des corpus locaux évolutifs. Sur divers benchmarks de RI et des tâches de recherche agentielle de bout en bout, cette configuration simple surpasse substantiellement des bases de référence solides de recherche éparse, dense et de reranking sur plusieurs jeux de données BRIGHT et BEIR, et atteint une forte précision sur BrowseComp-Plus et le QA multi-sauts sans s'appuyer sur aucun récupérateur sémantique conventionnel. Nos résultats indiquent qu'à mesure que les agents linguistiques deviennent plus performants, la qualité de la récupération dépend non seulement de la capacité de raisonnement, mais aussi de la résolution de l'interface via laquelle le modèle interagit avec le corpus. La DCI ouvre ainsi un espace de conception d'interface plus large pour la recherche agentielle.

3

Modèle de Langage à Diffusion Latente Continue
Continuous Latent Diffusion Language Model

May 7
ByHongcan Guo, Qinyu Zhao, Yian Zhao, Shen Nie, Rui Zhu, Qiushan Guo, Feng Wang, Tao Yang, Hengshuang Zhao, Guoqiang Wei, Yan Zeng
43
4

Les grands modèles de langage ont connu un succès remarquable sous le paradigme autorégressif, pourtant la génération de texte de haute qualité ne doit pas nécessairement être liée à un ordre fixe gauche-droite. Les alternatives existantes peinent encore à concilier efficacité de génération, apprentissage de représentations évolutif et modélisation sémantique globale efficace. Nous proposons Cola DLM, un modèle de langage à diffusion latente hiérarchique qui aborde la génération de texte par une décomposition hiérarchique de l'information. Cola DLM apprend d'abord une cartographie stable texte-vers-latent avec un VAE de texte, modélise ensuite un prior sémantique global dans un espace latent continu avec un DiT à causalité par blocs, et génère enfin le texte par décodage conditionnel. D'un point de vue unifié des chaînes de Markov, son processus de diffusion effectue un transport de prior latent plutôt qu'une récupération d'observations au niveau token, séparant ainsi l'organisation sémantique globale de la réalisation textuelle locale. Cette conception produit un biais inductif non autorégressif plus flexible, supporte la compression sémantique et l'ajustement de prior dans l'espace continu, et s'étend naturellement à d'autres modalités continues. À travers des expériences couvrant 4 questions de recherche, 8 benchmarks, des modèles de référence autorégressifs et LLaDA strictement appariés d'environ 2B paramètres, et des courbes de mise à l'échelle jusqu'à environ 2000 EFLOPs, nous identifions une configuration globale efficace de Cola DLM et vérifions son fort potentiel de mise à l'échelle pour la génération de texte. Dans leur ensemble, ces résultats établissent la modélisation hiérarchique de prior latent continu comme une alternative fondée à la modélisation strictement token-level du langage, où la qualité de génération et le comportement à l'échelle pourraient mieux refléter la capacité du modèle que la vraisemblance, tout en suggérant une voie concrète vers une modélisation unifiée des modalités textuelles discrètes et continues.

4

MiA-Signature : approximation de l'activation globale pour la compréhension de contextes longs
MiA-Signature: Approximating Global Activation for Long-Context Understanding

May 7
ByYuqing Li, Jiangnan Li, Mo Yu, Zheng Lin, Weiping Wang, Jie Zhou
37
2

Un nombre croissant de travaux en sciences cognitives suggèrent que l'accès conscient rapportable est associé à une ignition globale au sein des systèmes de mémoire distribués, tandis que cette activation n'est que partiellement accessible car les individus ne peuvent accéder directement ou énumérer tous les contenus activés. Cette tension suggère un mécanisme plausible selon lequel la cognition pourrait s'appuyer sur une représentation compacte qui approxime l'influence globale de l'activation sur le traitement en aval. Inspirés par cette idée, nous introduisons le concept de Signature d'Activation du Paysage Mental (MiA-Signature), une représentation compressée du schéma d'activation globale induit par une requête. Dans les systèmes de LLM, celle-ci est instanciée via une sélection basée sur la sous-modularité de concepts de haut niveau qui couvrent l'espace contextuel activé, optionnellement affinée par des mises à jour itératives légères utilisant la mémoire de travail. La MiA-Signature qui en résulte sert de signal de conditionnement qui approxime l'effet de l'état d'activation complet tout en restant computationnellement traitable. L'intégration des MiA-Signatures dans les systèmes de RAG et les systèmes agentiels entraîne des gains de performance constants sur de multiples tâches de compréhension en contexte long.

5

RaguTeam à SemEval-2026 Tâche 8 : Meno et ses Amis dans un Ensemble de LLM Orchestré par un Juge pour une Génération de Réponses Fidèles en Conversation Multi-Tours
RaguTeam at SemEval-2026 Task 8: Meno and Friends in a Judge-Orchestrated LLM Ensemble for Faithful Multi-Turn Response Generation

May 6
ByIvan Bondarenko, Roman Derunets, Oleg Sedukhin, Mikhail Komarov, Ivan Chernov, Mikhail Kulakov
35
4

Nous présentons notre système vainqueur pour la Tâche~B (génération avec passages de référence) de SemEval-2026 Tâche~8 : MTRAGEval. Notre méthode est un ensemble hétérogène de sept LLMs utilisant deux variantes de prompt, où un juge GPT-4o-mini sélectionne le meilleur candidat par instance. Nous avons terminé au 1er rang sur 26 équipes, atteignant une moyenne harmonique conditionnelle de 0,7827 et surpassant le plus solide des modèles de référence (gpt-oss-120b, 0,6390). Les études d'ablation montrent que la diversité des familles de modèles, des échelles et des stratégies de prompt est essentielle, l'ensemble surpassant systématiquement tout modèle individuel. Nous présentons également Meno-Lite-0.1, un modèle de 7B adapté au domaine offrant un bon compromis coût--performance, et nous analysons MTRAGEval en mettant en lumière les limitations de l'annotation et des pistes d'amélioration. Notre code est public : https://github.com/RaguTeam/ragu_mtrag_semeval

6

MARBLE : Équilibrage de Récompense Multi-Aspect pour l'Apprentissage par Renforcement avec Diffusion
MARBLE: Multi-Aspect Reward Balance for Diffusion RL

May 7
ByCanyu Zhao, Hao Chen, Yunze Tong, Yu Qiao, Jiacheng Li, Chunhua Shen
33
2

Le fine-tuning par apprentissage par renforcement est devenu l'approche dominante pour aligner les modèles de diffusion sur les préférences humaines. Cependant, l'évaluation d'images est intrinsèquement une tâche multidimensionnelle, nécessitant l'optimisation simultanée de multiples critères d'évaluation. Les pratiques existantes traitent les récompenses multiples en entraînant un modèle spécialiste par récompense, en optimisant une récompense par somme pondérée R(x)=∑k wk Rk(x), ou en effectuant un fine-tuning séquentiel avec un calendrier d'étapes défini manuellement. Ces approches échouent soit à produire un modèle unifié pouvant être entraîné conjointement sur toutes les récompenses, soit nécessitent un entraînement séquentiel intensif et manuellement réglé. Nous constatons que cet échec provient de l'utilisation d'une agrégation naïve des récompenses par somme pondérée. Cette approche souffre d'un décalage au niveau des échantillons car la plupart des épisodes sont des échantillons spécialistes, très informatifs pour certaines dimensions de récompense mais non pertinents pour d'autres ; par conséquent, la sommation pondérée dilue leur supervision. Pour résoudre ce problème, nous proposons MARBLE (Multi-Aspect Reward BaLancE), un cadre d'optimisation dans l'espace des gradients qui maintient des estimateurs d'avantage indépendants pour chaque récompense, calcule les gradients de politique par récompense, et les harmonise en une seule direction de mise à jour sans pondération manuelle des récompenses, en résolvant un problème de programmation quadratique. Nous proposons en outre une formulation amortie qui exploite la structure affine de la perte utilisée dans DiffusionNFT, pour réduire le coût par étape de K+1 passes arrière à un coût proche de celui de base à récompense unique, couplée à un lissage EMA sur les coefficients d'équilibrage pour stabiliser les mises à jour contre les fluctuations transitoires par lot. Sur SD3.5 Medium avec cinq récompenses, MARBLE améliore simultanément les cinq dimensions de récompense, transforme le cosinus du gradient de la récompense la moins alignée (négatif sous somme pondérée dans 80 % des mini-lots) en une valeur constamment positive, et s'exécute à une vitesse d'entraînement équivalente à 0,97 fois celle de l'entraînement de base.

7

Quand se fier à l'imagination : exécution adaptative des actions pour les modèles d'action du monde
When to Trust Imagination: Adaptive Action Execution for World Action Models

May 7
ByRui Wang, Yue Zhang, Jiehong Lin, Kuncheng Luo, Jianan Wang, Zhongrui Wang, Xiaojuan Qi
33
2

Les Modèles d'Action Mondiaux (WAMs) sont récemment apparus comme un paradigme prometteur pour la manipulation robotique en prédisant conjointement les observations visuelles futures et les actions futures. Cependant, les WAMs actuels exécutent typiquement un nombre fixe d'actions prédites après chaque inférence du modèle, laissant le robot ignorant de la cohérence entre l'avenir imaginé et le déroulement physique réel. Dans ce travail, nous formulons l'exécution adaptative des WAMs comme un problème de vérification futur-réalité : le robot doit exécuter plus longtemps lorsque le futur prédit par le WAM reste fiable, et replanifier plus tôt lorsque la réalité dévie de l'imagination. À cette fin, nous proposons Future Forward Dynamics Causal Attention (FFDC), un vérificateur léger qui raisonne conjointement sur les actions futures prédites, la dynamique visuelle prédite, les observations réelles et les instructions langagières pour estimer si le déploiement des actions restantes peut encore être considéré comme fiable. FFDC permet des tailles de blocs d'action adaptatives comme une conséquence émergente de la cohérence prédiction-observation, préservant l'efficacité de l'exécution à long terme tout en restaurant la réactivité dans les phases riches en contacts ou difficiles. Nous introduisons également l'Entraînement par Mélange d'Horizons pour améliorer la couverture des trajectoires à long horizon pour une exécution adaptative. Les expériences sur le benchmark RoboTwin et dans le monde réel démontrent que notre méthode atteint un fort compromis robustesse-efficacité : sur RoboTwin, elle réduit les passes avant des WAMs de 69,10 % et le temps d'exécution de 34,02 %, tout en améliorant le taux de réussite de 2,54 % par rapport à la baseline à blocs courts ; dans les expériences en monde réel, elle améliore le taux de réussite de 35 %.

8

Appariement de distribution en temps continu pour la distillation de diffusion en peu d'étapes
Continuous-Time Distribution Matching for Few-Step Diffusion Distillation

May 7
ByTao Liu, Hao Yan, Mengting Chen, Taihang Hu, Zhengrong Yue, Zihao Pan, Jinsong Lan, Xiaoyong Zhu, Ming-Ming Cheng, Bo Zheng, Yaxing Wang
22
3

La distillation en une étape est devenue une technique phare pour accélérer les modèles de diffusion, parmi lesquels la Distillation par Appariement de Distributions (DMD) et la Distillation de Cohérence sont deux paradigmes représentatifs. Alors que les méthodes de cohérence imposent une auto-consistance le long de la trajectoire complète de l'EDOP-FP pour la guider vers la variété des données propres, la DMD standard repose sur une supervision éparse à quelques pas de temps discrets prédéfinis. Cette formulation discrète restreinte dans le temps et la nature mode-seeking de la divergence KL inverse tendent à présenter des artefacts visuels et des résultats excessivement lissés, nécessitant souvent des modules auxiliaires complexes – tels que des GAN ou des modèles de récompense – pour restaurer la fidélité visuelle. Dans ce travail, nous introduisons l'Appariement de Distributions en Temps Continu (CDM), migrant pour la première fois le cadre DMD d'un ancrage discret vers une optimisation continue. CDM y parvient grâce à deux conceptions en temps continu. Premièrement, nous remplaçons l'échelle discrète fixe par une échelle continue dynamique de longueur aléatoire, de sorte que l'appariement des distributions soit appliqué en des points arbitraires le long des trajectoires d'échantillonnage plutôt qu'à seulement quelques ancrages fixes. Deuxièmement, nous proposons un objectif d'alignement en temps continu qui effectue un appariement actif hors trajectoire sur des latents extrapolés via le champ de vélocité de l'étudiant, améliorant la généralisation et préservant les détails visuels fins. Des expériences approfondies sur différentes architectures, incluant SD3-Medium et Longcat-Image, démontrent que CDM offre une fidélité visuelle très compétitive pour la génération d'images en peu d'étapes, sans recourir à des objectifs auxiliaires complexes. Le code est disponible à l'adresse https://github.com/byliutao/cdm.

9

SkillOS : Apprentissage de la curation de compétences pour des agents auto-évolutifs
SkillOS: Learning Skill Curation for Self-Evolving Agents

May 7
BySiru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
21
1

Les agents basés sur LLM sont de plus en plus déployés pour traiter des tâches en flux continu, mais ils restent souvent des solveurs de problèmes ponctuels qui n'apprennent pas des interactions passées. Les compétences réutilisables, distillées de l'expérience, constituent un substrat naturel pour l'auto-évolution, où la curation de compétences de haute qualité représente le principal goulot d'étranglement. Les approches existantes reposent soit sur une curation manuelle des compétences, prescrivent des opérations heuristiques sur les compétences, ou s'entraînent pour des opérations à court terme. Cependant, elles peinent encore à apprendre des politiques de curation complexes à long terme à partir de retours d'information indirects et retardés. Pour relever ce défi, nous proposons SkillOS, une méthode d'entraînement par apprentissage par renforcement axée sur l'expérience pour apprendre la curation des compétences dans les agents auto-évolutifs. SkillOS associe un exécuteur d'agent figé qui récupère et applique les compétences à un curateur de compétences entraînable qui met à jour un SkillRepo externe à partir de l'expérience accumulée. Pour fournir des signaux d'apprentissage pour la curation, nous concevons des récompenses composites et nous entraînons sur des flux de tâches groupées basés sur des dépendances de tâches pertinentes aux compétences, où les trajectoires antérieures mettent à jour le SkillRepo, et les tâches connexes ultérieures évaluent ces mises à jour. Sur des tâches agentielles multi-tours et des tâches de raisonnement en un seul tour, SkillOS surpasse constamment les lignes de base sans mémoire et les lignes de base fortes avec mémoire, tant en efficacité qu'en efficience, le curateur de compétences appris généralisant à travers différents moteurs d'exécution et domaines de tâches. Des analyses plus poussées montrent que le curateur appris produit une utilisation des compétences plus ciblée, tandis que les compétences dans le SkillRepo évoluent en fichiers Markdown plus richement structurés qui encodent des méta-compétences de plus haut niveau au fil du temps.

10

Le non-sens aide : la perturbation de l'espace de prompts élargit l'exploration du raisonnement
Nonsense Helps: Prompt Space Perturbation Broadens Reasoning Exploration

May 7
ByLanglin Huang, Chengsong Huang, Jinyuan Li, Donghong Cai, Yuyi Yang, Jiaxin Huang
20
2

L'apprentissage par renforcement avec récompenses vérifiables, notamment l'Optimisation Relative des Politiques par Groupe (GRPO), a considérablement amélioré les capacités de raisonnement des grands modèles de langage (LLM). Cependant, dans les tâches complexes, le GRPO souffre fréquemment du « problème d'avantage nul » : lorsque tous les déploiements échantillonnés pour une requête échouent, l'avantage relatif s'effondre à zéro. Par conséquent, le modèle perd les signaux d'entraînement efficaces pour ces questions, gaspillant les données d'entraînement et le budget computationnel. Bien que simplement augmenter le budget d'échantillonnage pour ces questions soit un remède courant, la politique d'échantillonnage statique limite intrinsèquement l'exploration du raisonnement, restreignant le taux de réussite. Dans cet article, nous proposons la Perturbation Lorem pour l'Exploration (LoPE), un cadre d'entraînement simple mais efficace pour briser ce goulot d'étranglement de l'exploration. Nous postulons que des perturbations dans l'espace des invites, non pertinentes pour la tâche, peuvent modifier suffisamment la distribution de sortie du modèle pour débloquer des voies de raisonnement orthogonales pour les questions difficiles. Concrètement, LoPE ajoute en préfixe des séquences assemblées stochastiquement à partir du vocabulaire Lorem Ipsum (un texte de remplacement pseudo-latin) aux invites avant un rééchantillonnage. Les expériences sur des modèles de 1,7B, 4B et 7B paramètres démontrent que LoPE surpasse significativement le rééchantillonnage avec les invites originales. Une analyse plus poussée révèle que d'autres séquences aléatoires basées sur le latin et à faible perplexité sont également des perturbations efficaces. Nos résultats établissent LoPE comme une référence solide pour élargir l'exploration dans l'apprentissage par renforcement des LLM.

11

L'intelligence audio-visuelle dans les grands modèles de fondation
Audio-Visual Intelligence in Large Foundation Models

May 5
ByYou Qin, Kai Liu, Shengqiong Wu, Kai Wang, Shijian Deng, Yapeng Tian, Junbin Xiao, Yazhou Xing, Yinghao Ma, Bobo Li, Roger Zimmermann, Lei Cui, Furu Wei, Jiebo Luo, Hao Fei
17
2

L'intelligence audio-visuelle (IAV) est devenue une frontière centrale de l'intelligence artificielle, faisant le pont entre les modalités auditive et visuelle pour permettre aux machines de percevoir, générer et interagir dans un monde réel multimodal. À l'ère des grands modèles de fondation, la modélisation conjointe de l'audio et de la vision est devenue de plus en plus cruciale, c'est-à-dire non seulement pour la compréhension, mais aussi pour la génération contrôlable et le raisonnement sur des signaux dynamiques ancrés temporellement. Les progrès récents, tels que Meta MovieGen et Google Veo-3, soulignent l'attention croissante des milieux industriels et académiques pour les architectures audio-visuelles unifiées qui apprennent à partir de données multimodales massives. Cependant, malgré les rapides progrès, la littérature reste fragmentée, couvrant des tâches diverses, des taxonomies incohérentes et des pratiques d'évaluation hétérogènes qui entravent la comparaison systématique et l'intégration des connaissances. Cette synthèse offre la première revue complète de l'IAV sous l'angle des grands modèles de fondation. Nous établissons une taxonomie unifiée couvrant le vaste paysage des tâches de l'IAV, allant de la compréhension (p. ex., reconnaissance de la parole, localisation sonore) à la génération (p. ex., synthèse vidéo pilotée par l'audio, vidéo-vers-audio) et à l'interaction (p. ex., interfaces dialogiques, incarnées ou agentielles). Nous synthétisons les fondements méthodologiques, incluant la tokenisation des modalités, la fusion cross-modale, la génération autogressive et basée sur la diffusion, le pré-entraînement à grande échelle, l'alignement par instruction et l'optimisation des préférences. De plus, nous recensons des ensembles de données, des benchmarks et des métriques d'évaluation représentatifs, offrant une comparaison structurée entre les familles de tâches et identifiant les défis ouverts en matière de synchronisation, de raisonnement spatial, de contrôlabilité et de sécurité. En consolidant ce domaine en expansion rapide en un cadre cohérent, cette synthèse vise à servir de référence fondamentale pour les futures recherches sur l'IAV à grande échelle.

12

StraTA : Inciter l'apprentissage par renforcement agentique par l'abstraction stratégique de trajectoires
StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction

May 7
ByXiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin
10
1

Les grands modèles de langage (LLM) sont de plus en plus utilisés comme agents interactifs, mais leur optimisation pour la prise de décision à long terme reste difficile car les méthodes actuelles sont largement purement réactives, ce qui affaiblit à la fois l'exploration et l'attribution du crédit sur des trajectoires étendues. Dans ce travail, nous présentons Strategic Trajectory Abstraction (StraTA), un cadre simple qui introduit une stratégie explicite au niveau de la trajectoire dans l'apprentissage par renforcement (RL) agentique. StraTA échantillonne une stratégie compacte à partir de l'état initial de la tâche, conditionne les actions ultérieures sur cette stratégie, et entraîne la génération de stratégie et l'exécution des actions conjointement avec une conception hiérarchique de déploiement de type GRPO, renforcée en outre par un déploiement de stratégies diversifiées et un auto-jugement critique. Les expériences sur ALFWorld, WebShop et SciWorld montrent que StraTA améliore constamment à la fois l'efficacité de l'échantillonnage et les performances finales par rapport aux bases de référence solides. StraTA atteint des taux de réussite de 93,1 % sur ALFWorld et 84,2 % sur WebShop. Sur SciWorld, StraTA obtient un score global de 63,5 %, surpassant les modèles fermés de pointe.

13

La Recherche Automatisée avec des Agents Spécialisés Développe des Recettes d'Entraînement Efficaces et Non Triviales
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

May 7
ByJingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong
10
2

Nous étudions la recherche automatisée comme une boucle empirique fermée pilotée par des mesures externes. Chaque essai soumis comporte une hypothèse, une modification de code exécutable, un résultat détenu par l'évaluateur et un retour qui façonne la proposition suivante. Le résultat n'est pas un article généré ou un point de contrôle unique de modèle, mais une trajectoire vérifiable de propositions, différences de code, expériences, scores et étiquettes d'échec. Nous instancions cette boucle avec des agents spécialisés qui partitionnent les surfaces de recettes et partagent une lignée mesurée entre les essais. Le principal résultat empirique est que le retour de lignée permet aux agents de transformer les résultats des évaluateurs - incluant les plantages, les dépassements de budget, les échecs de taille et les non-atteintes des seuils de précision - en modifications ultérieures de recettes au niveau programme plutôt qu'en suggestions ponctuelles. Sur 1 197 essais principaux plus 600 essais de contrôle Parameter Golf après une configuration et un lancement uniques, les humains n'ont pas choisi de propositions, modifié des recettes, annulé des scores ou réparé des essais échoués durant la recherche. Dans les trois séries principales, la même boucle d'essais soumis réduit le bpb de validation de Parameter Golf de 0,81 %, augmente le CORE de NanoChat-D12 de 38,7 % et réduit le temps wallclock de CIFAR-10 Airbench96 de 4,59 %, chaque tâche étant mesurée par son propre évaluateur externe et des vérifications de légalité. La trace inclut un audit strict du domaine architectural de 157 soumissions principales et des réécritures de programme telles qu'un changement de chemin du noyau d'attention de NanoChat. Dans ce cadre, la boucle écrit autonome du code, soumet des expériences, absorbe les retours, applique et combine des techniques connues dans chaque environnement, et améliore les recettes de départ publiques.

14

A^2TGPO : Optimisation des Politiques de Groupe par Tours Agentique avec Écrêtage Adaptatif au Niveau du Tour
A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

May 7
ByDingwei Chen, Zefang Zong, Zhipeng Ma, Leo Luo, Yang Li, Chengming Li, Peng Chen, Jie Jiang
8
3

L'apprentissage par renforcement pour les grands modèles de langage (LLM) agentiques repose généralement sur une récompense de résultat éparse au niveau de la trajectoire, ce qui rend difficile l'évaluation de la contribution des appels d'outils individuels dans les interactions multi-tours. Les approches existantes pour un tel attribution du crédit en cours de processus dépendent soit de modèles de récompense de processus externes distincts qui introduisent une consommation supplémentaire, soit de déploiements structurels arborescents qui ne font que redistribuer le signal de résultat tout en limitant la diversité des trajectoires. Une alternative prometteuse exploite le changement par tour de la probabilité prédite par la politique pour la vérité terrain, appelé Gain d'Information (IG), comme signal de processus intrinsèque sans évaluateur externe. Cependant, les travaux antérieurs sur l'exploitation des signaux IG dans la boucle d'entraînement par RL rencontrent trois défis systématiques : la normalisation sur des tours confrontés à des contextes positionnels hétérogènes peut fausser la position relative des tours individuels, l'accumulation d'un nombre variable de termes entraîne une dérive de l'amplitude de l'avantage avec la profondeur de la trajectoire, et une plage d'écrêtage fixe régit les mises à jour de la politique de manière identique pour des tours ayant des signaux IG très différents. Dans cet article, nous proposons A²TGPO (Optimisation de Politique par Groupe de Tours Agentique avec Ecrêtage Adaptatif au Niveau du Tour), qui conserve l'IG comme signal intrinsèque mais reconçoit la manière dont il est normalisé, accumulé et consommé : (i) normalisation par groupe de tours : normalise l'IG au sein de chaque groupe (invite, index-du-tour) afin que chaque tour soit comparé uniquement à ses pairs à la même profondeur d'interaction ; (ii) accumulation actualisée re-scalée par la variance : divise l'IG normalisé cumulé par la racine carrée des termes accumulés pour maintenir les amplitudes d'avantage comparables across les positions de tour ; et (iii) écrêtage adaptatif au niveau du tour : module la plage d'écrêtage de chaque tour en fonction de son IG normalisé, élargissant la région de mise à jour pour les tours informatifs et la rétrécissant pour les tours non informatifs.

15

La RA peut-elle enseigner le raisonnement à long terme aux LLM ? L'expressivité est la clé
Can RL Teach Long-Horizon Reasoning to LLMs? Expressiveness Is Key

May 7
ByTianle Wang, Zhaoyang Wang, Guangchen Lan, Xinpeng Wei, Sipeng Zhang, Guanwen Qiu, Abulhair Saparov
8
3

L'apprentissage par renforcement (RL) a été appliqué pour améliorer le raisonnement des grands modèles de langage (LLM), mais l'étude systématique de la façon dont l'entraînement évolue avec la difficulté de la tâche a été entravée par l'absence d'environnements contrôlés et évolutifs. Nous présentons ScaleLogic, un cadre de raisonnement logique synthétique qui offre un contrôle indépendant sur deux axes de difficulté : la profondeur de la planification de preuve requise (c'est-à-dire l'horizon) et l'expressivité de la logique sous-jacente. Notre cadre proposé prend en charge un large éventail de logiques, allant d'une logique simple basée uniquement sur l'implication ("si-alors") vers un raisonnement du premier ordre plus expressif avec la conjonction ("et"), la disjonction ("ou"), la négation ("non") et la quantification universelle ("pour tout"). En utilisant ce cadre, nous montrons que la quantité de calcul d'entraînement par renforcement T suit une loi de puissance par rapport à la profondeur de raisonnement D (T ∝ D^γ, R² > 0,99), et que l'exposant d'échelle γ augmente de manière monotone avec l'expressivité logique, passant de 1,04 à 2,60. Sur des benchmarks de raisonnement mathématique et général en aval, les paramètres d'entraînement plus expressifs produisent à la fois des gains de performance plus importants (jusqu'à +10,66 points) et un transfert plus efficace en termes de calcul par rapport aux paramètres moins expressifs, démontrant que ce sur quoi un modèle est entraîné, et pas seulement la quantité d'entraînement, façonne le transfert en aval. Nous montrons en outre que la relation de loi de puissance est valable pour plusieurs méthodes de RL, et qu'un entraînement basé sur un curriculum améliore considérablement l'efficacité de la mise à l'échelle.

16

ReflectDrive-2 : Auto-édition alignée par apprentissage par renforcement pour la conduite de diffusion discrète
ReflectDrive-2: Reinforcement-Learning-Aligned Self-Editing for Discrete Diffusion Driving

May 6
ByHuimin Wang, Yue Wang, Bihao Cui, Pengxiang Li, Ben Lu, Mingqian Wang, Tong Wang, Chuan Tang, Teng Zhang, Kun Zhan
6
2

Nous présentons ReflectDrive-2, un planificateur par diffusion discrète masquée doté d'un expert d'action distinct pour la conduite autonome, qui représente les plans sous forme de jetons de trajectoire discrets et les génère par un décodage masqué parallèle. Cet espace de jetons discrets permet une révision de trajectoire *in-place* : AutoEdit réécrit les jetons sélectionnés en utilisant le même modèle, sans nécessiter de réseau de raffinement auxiliaire. Pour entraîner cette capacité, nous utilisons une procédure en deux étapes. Premièrement, nous construisons des perturbations structurellement conscientes des trajectoires expertes selon les directions de progression longitudinale et de cap latéral, et supervisons le modèle pour qu'il retrouve la trajectoire experte originale. Nous affinons ensuite le déroulement complet décision--ébauche--réflexion par apprentissage par renforcement (RL), en attribuant la récompense terminale de conduite à la trajectoire finale post-édition et en propageant le crédit du gradient de politique à travers les transitions du déroulement complet. Le RL sur déroulement complet s'avère crucial pour coupler l'ébauche et l'édition : avec un entraînement supervisé seul, AutoEdit en inférence n'améliore le PDMS que de 0.3 au maximum, tandis que le RL porte ce gain à 1.9. Nous co-concevons également une pile de décodage réflexif efficace pour le pipeline décision--ébauche--réflexion, combinant la réutilisation KV de préfixe partagé, le décodage par étapes alternées et le démasquage fusionné sur puce. Sur NAVSIM, ReflectDrive-2 atteint un PDMS de 91.0 avec une entrée caméra uniquement et un PDMS de 94.8 dans un scénario oracle best-of-6, tout en fonctionnant avec une latence moyenne de 31.8 ms sur NVIDIA Thor.

17

TabEmbed : Évaluation et apprentissage d'embeddings généralistes pour la compréhension des données tabulaires
TabEmbed: Benchmarking and Learning Generalist Embeddings for Tabular Understanding

May 6
ByMinjie Qiang, Mingming Zhang, Xiaoyi Bao, Xing Fu, Yu Cheng, Weiqiang Wang, Zhongqing Wang, Ningtao Wang
6
2

Les modèles de fondation ont établi des représentations unifiées pour le traitement du langage naturel, mais ce paradigme reste largement inexploré pour les données tabulaires. Les méthodes existantes présentent des limitations fondamentales : les approches basées sur les LLM ne produisent pas de vecteurs compatibles avec la récupération, tandis que les modèles d'embedding textuel échouent souvent à capturer la structure tabulaire et la sémantique numérique. Pour combler cette lacune, nous introduisons d'abord le Tabular Embedding Benchmark (TabBench), une suite complète conçue pour évaluer la capacité de compréhension tabulaire des modèles d'embedding. Nous proposons ensuite TabEmbed, le premier modèle d'embedding généraliste qui unifie la classification et la récupération tabulaires dans un espace d'embedding partagé. En reformulant diverses tâches tabulaires comme des problèmes d'appariement sémantique, TabEmbed utilise un apprentissage contrastif à grande échelle avec un minage de négatifs difficiles tenant compte des positifs pour discerner les nuances structurelles et numériques fines. Les résultats expérimentaux sur TabBench démontrent que TabEmbed surpasse significativement les modèles d'embedding textuel de l'état de l'art, établissant une nouvelle référence pour l'apprentissage de représentations tabulaires universelles. Le code et les jeux de données sont disponibles publiquement à https://github.com/qiangminjie27/TabEmbed et https://huggingface.co/datasets/qiangminjie27/TabBench.

18

UniPool : Un pool d'experts globalement partagé pour les modèles de mélange d'experts
UniPool: A Globally Shared Expert Pool for Mixture-of-Experts

May 7
ByMinbin Huang, Han Shi, Chuanyang Zheng, Yimeng Wu, Guoxuan Chen, Xintong Yu, Yichun Yin, Hong Cheng
6
3

Les architectures modernes de type Mixture-of-Experts (MoE) allouent la capacité des experts via une règle rigide par couche : chaque couche de transformateur possède son propre ensemble d'experts. Cette convention associe la mise à l'échelle en profondeur à une croissance linéaire des paramètres d'experts et suppose que chaque couche nécessite une capacité experte isolée. Cependant, des analyses récentes et notre sonde de routage remettent en cause cette règle d'allocation : remplacer le routeur top-k appris d'une couche plus profonde par un routage aléatoire uniforme ne réduit la précision en aval que de 1,0 à 1,6 point sur plusieurs modèles MoE de production. Motivés par cette redondance, nous proposons UniPool, une architecture MoE qui traite la capacité experte comme un budget architectural global en remplaçant la possession d'experts par couche par un pool partagé unique auquel accèdent des routeurs indépendants par couche. Pour permettre un entraînement stable et équilibré dans un contexte de partage, nous introduisons une fonction de coût auxiliaire au niveau du pool qui équilibre l'utilisation des experts sur l'ensemble du pool, et nous adoptons NormRouter pour assurer un routage sparse et stable en échelle vers le pool d'experts partagé. Sur cinq échelles de modèles d'architecture LLaMA (182M, 469M, 650M, 830M et 978M de paramètres) entraînés sur 30 milliards de tokens du Pile, UniPool améliore constamment la perte de validation et la perplexité par rapport aux modèles de référence MoE classiques appariés. Sur ces échelles, UniPool réduit la perte de validation jusqu'à 0,0386 par rapport au MoE classique. Au-delà de l'amélioration brute de la perte, nos résultats identifient la taille du pool comme un hyperparamètre explicite de mise à l'échelle en profondeur : des variantes d'UniPool à pool réduit utilisant seulement 41,6 % à 66,7 % du budget d'experts-paramètres du MoE classique égalent ou surpassent le MoE par couche aux échelles testées. Cela montre que, dans une conception à pool partagé, les paramètres des experts n'ont pas besoin de croître linéairement avec la profondeur ; ils peuvent croître de manière sous-linéaire tout en restant plus efficaces et performants que le MoE classique. Une analyse plus poussée montre que les avantages d'UniPool se combinent avec une décomposition des experts plus fine.

19

SwiftI2V : Génération efficace d'images en haute résolution vers vidéo via une génération conditionnelle segment par segment
SwiftI2V: Efficient High-Resolution Image-to-Video Generation via Conditional Segment-wise Generation

May 7
ByYaoYang Liu, Yuechen Zhang, Wenbo Li, Yufei Zhao, Rui Liu, Long Chen
5
2

La génération d'images haute résolution vers vidéo (I2V) vise à synthétiser une dynamique temporelle réaliste tout en préservant les détails d'apparence fins de l'image d'entrée. À une résolution 2K, cela devient extrêmement difficile, et les solutions existantes présentent diverses faiblesses : 1) les modèles de bout en bout sont souvent prohibitifs en mémoire et en latence ; 2) l'approche en cascade, générant d'abord en basse résolution puis appliquant un suréchantillonnage vidéo générique, a tendance à halluciner des détails et à dévier des structures locales spécifiques à l'entrée, car l'étape de suréchantillonnage n'est pas explicitement conditionnée par l'image d'entrée. Pour pallier cela, nous proposons SwiftI2V, un cadre efficace spécialisé pour l'I2V haute résolution. Suivant l'architecture en deux étapes largement utilisée, il résout le dilemme efficacité-fidélité en générant d'abord une référence de mouvement en basse résolution pour réduire le coût en tokens et alléger la charge de modélisation, puis en effectuant une synthèse 2K fortement conditionnée par l'image, guidée par le mouvement, pour restaurer des détails fidèles à l'entrée avec une surcharge contrôlée. Plus précisément, pour une génération plus évolutive, SwiftI2V introduit la Génération Conditionnelle par Segments (CSG) pour synthétiser les vidéos segment par segment avec un budget de tokens par étape limité, et adopte une interaction contextuelle bidirectionnelle au sein de chaque segment pour améliorer la cohérence inter-segments et la fidélité à l'entrée. Sur VBench-I2V en résolution 2K, SwiftI2V atteint des performances comparables aux modèles de référence de bout en bout tout en réduisant le temps GPU total par un facteur de 202. En particulier, il permet une génération I2V 2K pratique sur un seul GPU de centre de données (par exemple, H800) ou un GPU grand public (par exemple, RTX 4090).

20

Co-mathématicien IA : Accélérer les travaux des mathématiciens grâce à l'IA agentique
AI Co-Mathematician: Accelerating Mathematicians with Agentic AI

May 7
ByDaniel Zheng, Ingrid von Glehn, Yori Zwols, Iuliya Beloshapka, Lars Buesing, Daniel M. Roy, Martin Wattenberg, Bogdan Georgiev, Tatiana Schmidt, Andrew Cowie, Fernanda Viegas, Dimitri Kanevsky, Vineet Kahlon, Hartmut Maennel, Sophia Alj, George Holland, Alex Davies, Pushmeet Kohli
5
1

Nous présentons le co-mathématicien IA, un environnement de travail permettant aux mathématiciens d'utiliser de manière interactive des agents d'IA pour mener des recherches ouvertes. Le co-mathématicien IA est optimisé pour fournir un soutien holistique à la réalité exploratoire et itérative des workflows mathématiques, incluant l'idéation, la recherche documentaire, l'exploration computationnelle, la démonstration de théorèmes et la construction théorique. En fournissant un espace de travail asynchrone et persistant qui gère l'incertitude, affine l'intention de l'utilisateur, suit les hypothèses infructueuses et produit des artefacts mathématiques natifs, le système reflète les workflows de collaboration humaine. Lors de tests précoces, le co-mathématicien IA a aidé des chercheurs à résoudre des problèmes ouverts, à identifier de nouvelles directions de recherche et à découvrir des références bibliographiques négligées. Outre la démonstration d'un paradigme hautement interactif pour la découverte mathématique assistée par l'IA, le co-mathématicien IA obtient également des résultats de pointe sur des benchmarks de résolution de problèmes difficiles, notamment un score de 48 % sur FrontierMath Niveau 4, établissant un nouveau record parmi tous les systèmes d'IA évalués.

21

RemoteZero : Raisonnement géospatial sans annotations humaines
RemoteZero: Geospatial Reasoning with Zero Human Annotations

May 6
ByLiang Yao, Fan Liu, Shengxiang Xu, Chuanyi Zhang, Rui Min, Shimin Di, Yuhui Zheng
5
2

Le raisonnement géospatial exige que les modèles résolvent des sémantiques spatiales complexes et l'intention de l'utilisateur en des localisations précises pour l'observation de la Terre. Les progrès récents ont libéré le chemin de raisonnement de la curation manuelle, permettant aux modèles de générer leurs propres chaînes d'inférence. Pourtant, une dépendance finale persiste : ils restent supervisés par des coordonnées de référence annotées par des humains. Cela rend le processus de raisonnement autonome, mais pas son point final spatial, et empêche une véritable auto-évolution sur les abondantes données de télédétection non étiquetées. Pour briser ce goulot d'étranglement, nous présentons RemoteZero, un cadre exempt de supervision par boîtes pour le raisonnement géospatial. RemoteZero est motivé par une asymétrie simple : un MLLM est généralement meilleur pour vérifier si une région satisfait une requête que pour générer directement des coordonnées précises. Tirant parti de cette capacité discriminative plus forte, RemoteZero remplace la supervision géométrique par une vérification sémantique intrinsèque et permet l'entraînement GRPO sans annotations de boîtes. Le cadre résultant prend en outre en charge l'auto-évolution itérative, permettant au modèle de s'améliorer à partir d'images de télédétection non étiquetées grâce à son propre signal de vérification. Les expériences montrent que RemoteZero atteint des performances compétitives par rapport aux méthodes supervisées robustes, démontrant le potentiel de l'entraînement par auto-vérification pour la localisation en raisonnement géospatial.

22

L'axe de granularité : une direction latente du micro au macro pour les rôles sociaux dans les modèles de langage
The Granularity Axis: A Micro-to-Macro Latent Direction for Social Roles in Language Models

May 7
ByChonghan Qin, Xiachong Feng, Ziyun Song, Xiaocheng Feng, Jing Xiong, Lingpeng Kong
4
2

Les grands modèles de langage (LLM) sont régulièrement sollicités pour endosser des rôles sociaux allant des individus aux institutions, mais on ignore encore si leurs représentations internes codent la granularité de ces rôles, depuis l'expérience individuelle au niveau micro jusqu'au raisonnement organisationnel, institutionnel ou national au niveau macro. Nous démontrons que c'est le cas. Nous définissons un Axe de Granularité basé sur le contraste comme la différence entre les états cachés moyens des rôles macro et micro. Dans Qwen3-8B, cet axe s'aligne avec l'axe principal (PC1) de l'espace de représentation des rôles avec un cosinus de 0,972 et explique 52,6 % de sa variance, indiquant que la granularité est l'axe géométrique dominant organisant les rôles sociaux sollicités. Nous construisons 75 rôles sociaux répartis sur cinq niveaux de granularité et collectons 91 200 réponses conditionnées par le rôle sur des questions partagées et des variantes d'invite, puis extrayons les états cachés au niveau du rôle et les projetons sur l'axe. Les projections des rôles augmentent de manière monotone sur les cinq niveaux, restent stables entre les couches, les variantes d'invite, les définitions des points finaux, les partitions de validation et les sous-ensembles filtrés par score, et se transfèrent à Llama-3.1-8B-Instruct. L'axe est aussi causalement pertinent : un pilotage par activation le long de celui-ci modifie la granularité des réponses dans la direction prédite, Llama passant de 2,00 à 3,17 sur une échelle macro en cinq points sous pilotage positif sur des invites admettant des réponses locales. Les deux modèles diffèrent en contrôlabilité, suggérant que le pilotage dépend du régime opératoire par défaut de chaque modèle. Globalement, nos résultats suggèrent que la granularité des rôles sociaux n'est pas qu'une caractéristique de surface stylistique, mais une direction latente structurée, ordonnée et causalement manipulable dans le comportement des modèles de langage conditionnés par le rôle.

23

EMO : Prétrainage d'un Mélange d'Experts pour une Modularité Émergente
EMO: Pretraining Mixture of Experts for Emergent Modularity

May 7
ByRyan Wang, Akshita Bhagia, Sewon Min
4
1

Les grands modèles de langage sont généralement déployés comme des systèmes monolithiques, nécessitant le modèle complet même lorsque les applications n'utilisent qu'un sous-ensemble restreint de capacités (par exemple, le code, les mathématiques ou les connaissances spécifiques à un domaine). Les mixtures d'experts (MoE) semblent offrir une alternative potentielle en n'activant qu'un sous-ensemble d'experts par entrée, mais en pratique, restreindre l'inférence à un sous-ensemble d'experts pour un domaine donné entraîne une dégradation sévère des performances. Cela limite leur utilité dans des contextes à mémoire contrainte, surtout à mesure que les modèles deviennent plus grands et plus clairsemés. Nous présentons EMO, un MoE conçu pour la modularité - l'utilisation et la composition indépendantes de sous-ensembles d'experts - sans nécessiter d'a priori définis par l'homme. Notre idée clé est d'encourager les tokens de domaines similaires à s'appuyer sur des experts similaires. Comme les tokens d'un document partagent souvent un domaine, EMO les restreint à sélectionner des experts dans un pool partagé, tout en permettant à différents documents d'utiliser des pools différents. Cette simple contrainte permet à des regroupements cohérents d'experts d'émerger durant le pré-entraînement en utilisant uniquement les limites des documents. Nous pré-entraînons un EMO de 1B actif (14B au total) sur 1000 milliards de tokens. En tant que modèle complet, il égale les performances des MoE standards. Surtout, il permet une utilisation sélective des experts : conserver seulement 25% (12,5%) des experts n'entraîne qu'une baisse absolue de 1% (3%), alors que les MoE standards deviennent inutilisables dans le même cadre. Nous constatons en outre que les sous-ensembles d'experts dans EMO se spécialisent à des niveaux sémantiques (par exemple, des domaines comme les mathématiques ou le code), contrairement à la spécialisation syntaxique de bas niveau observée dans les MoE standards. Globalement, nos résultats démontrent une voie vers un déploiement modulaire et économe en mémoire de grands modèles clairsemés, et ouvrent de nouvelles opportunités pour des architectures composables.

24

Lois d'échelle prescriptives pour l'entraînement avec contrainte de données
Prescriptive Scaling Laws for Data Constrained Training

May 2
ByJustin Lovelace, Christian Belardi, Srivatsa Kundurthy, Shriya Sudhakar, Kilian Q. Weinberger
3
1

La puissance de calcul dédiée à l'entraînement dépasse de plus en plus la disponibilité de données de haute qualité. Cela déplace le défi central de l'allocation optimale du calcul vers l'extraction de la valeur maximale à partir de données limitées. La loi d'échelle de Chinchilla, largement adoptée, suppose que chaque token d'entraînement est unique. Cela limite sa capacité à guider les décisions de pré-entraînement dans des régimes contraints en données. Nous modélisons la perte excédentaire sous répétition avec une pénalité de surajustement additive simple et constatons qu'elle décrit précisément le comportement du modèle. Notre loi d'échelle produit des conseils d'allocation optimale en calcul qualitativement nouveaux. Au-delà d'un certain point, une répétition supplémentaire est contre-productive et il est préférable d'affecter le calcul à la capacité du modèle. Nous montrons que suivre la configuration recommandée par notre loi améliore les performances dans des régimes contraints en données. Enfin, parce que notre formulation à un paramètre isole le surajustement dans un seul coefficient, elle permet une comparaison directe entre les configurations d'entraînement. Comme étude de cas, nous montrons qu'une forte décroissance des poids (λ=1,0) réduit ce coefficient d'environ 70 %, fournissant une explication par loi d'échelle aux résultats récents indiquant que la décroissance des poids optimale dans des régimes contraints en données est un ordre de grandeur plus élevée que la pratique standard.

25

KernelBench-X : Un Benchmark Complet pour l'Évaluation des Noyaux GPU Générés par les LLM
KernelBench-X: A Comprehensive Benchmark for Evaluating LLM-Generated GPU Kernels

May 6
ByHan Wang, Jintao Zhang, Kai Jiang, Haoxu Wang, Jianfei Chen, Jun Zhu
2
3

La génération de noyaux Triton basée sur les LLM a suscité un intérêt considérable, mais une question empirique fondamentale demeure sans réponse : où cette capacité échoue-t-elle, et pourquoi ? Nous présentons KernelBench-X, un benchmark conçu pour répondre à cette question via une évaluation catégorielle de la correction sémantique et de l'efficacité matérielle sur 176 tâches réparties en 15 catégories. Notre comparaison systématique de cinq méthodes représentatives révèle trois résultats principaux. Premièrement, la structure de la tâche détermine davantage la correction que la conception de la méthode. La catégorie explique une variance de la correction sémantique près de trois fois supérieure à celle de la méthode (déviance expliquée de 9,4 % contre 3,3 %), et 72 % des tâches de Fusion échouent pour les cinq méthodes tandis que les tâches Mathématiques sont résolues systématiquement. Deuxièmement, le raffinement itératif améliore la correction, mais pas les performances. À travers les itérations de GEAK, le taux de compilation passe de 52,3 % à 68,8 % tandis que l'accélération moyenne diminue de 1,58 fois à 1,44 fois ; les noyaux nouvellement sauvés sous-performent systématiquement ceux qui sont corrects de façon persistante (accélération de 1,16 fois contre 1,58 fois entre les rounds~0 et 1). Troisièmement, la correction n'implique pas l'efficacité. 46,6 % des noyaux corrects sont plus lents que la baseline PyTorch eager, et la variance de l'accélération inter-matériel atteint 21,4 fois. Par ailleurs, la quantification reste entièrement non résolue (0 succès sur 30) malgré des taux de compilation non négligeables, révélant une méconnaissance systématique des contrats de calcul numérique plutôt que des erreurs de syntaxe superficielles. Ces résultats suggèrent que les progrès futurs dépendent de la gestion de la coordination globale, de la modélisation explicite de la précision numérique et de l'intégration de l'efficacité matérielle dans la génération. Le code est disponible à l'adresse https://github.com/BonnieW05/KernelBenchX.

26

Agrégation équilibrée : Comprendre et corriger le biais d'agrégation dans GRPO
Balanced Aggregation: Understanding and Fixing Aggregation Bias in GRPO

Apr 14
ByZhiyuan Zeng, Jiameng Huang, Zhangyue Yin, Jiashuo Liu, Ziniu Li, Bingrui Li, Yuhao Wu, Yining Zheng, Ge Zhang, Wenhao Huang, Xipeng Qiu
2
1

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme central pour améliorer le raisonnement et la génération de code dans les grands modèles linguistiques, et l'entraînement de type GRPO est largement adopté pour sa simplicité et son efficacité. Cependant, un choix de conception important reste peu exploré : la manière dont les termes de gradient de politique au niveau token sont agrégés au sein de chaque groupe échantillonné. Le GRPO standard utilise l'agrégation par séquence, tandis que des travaux récents ont préconisé l'agrégation par token comme une meilleure alternative. Nous montrons que ces deux règles induisent des biais d'optimisation différents : l'agrégation par token introduit un couplage signe-longueur, tandis que l'agrégation par séquence pondère implicitement moins les réponses plus longues via une pondération égale au niveau séquentiel. Pour résoudre cette tension, nous proposons l'Agrégation Équilibrée (BA), un remplacement simple qui calcule les moyennes au niveau token séparément dans les sous-ensembles positifs et négatifs, puis les combine avec des poids basés sur le décompte des séquences. Les expériences avec Qwen2.5-Math-7B et Qwen3-1.7B sur DAPO-17k et Polaris, évaluées sur six benchmarks de raisonnement et de codage, montrent que BA améliore constamment la stabilité de l'entraînement et les performances finales par rapport à l'agrégation standard par token et par séquence. Notre analyse montre en outre que l'efficacité relative de l'agrégation par token et par séquence est largement gouvernée par la variation de la longueur des réponses et l'écart de longueur positif-négatif, soulignant l'agrégation comme une dimension de conception critique dans le RLVR de type GRPO.

27

Les propriétés d'échelle du raisonnement déductif implicite dans les transformeurs
The Scaling Properties of Implicit Deductive Reasoning in Transformers

May 5
ByEnrico Vompa, Tanel Tammet
2
2

Nous étudions les propriétés d'échelle du raisonnement déductif implicite sur les clauses de Horn dans les Transformers à profondeur bornée. En décorrélation systématique de la prouvabilité des caractéristiques fallacieuses et en imposant un alignement algorithmique, nous constatons que dans les modèles suffisamment profonds avec un masque préfixe bidirectionnel, le raisonnement implicite approche les performances du CoT explicite sur diverses topologies de graphes et largeurs de problèmes, bien que le CoT reste nécessaire pour l'extrapolation en profondeur.

28

GeoStack : Un Cadre pour la Composition de Connaissances Quasi-Abéliennes dans les Modèles de Langage Visuel
GeoStack: A Framework for Quasi-Abelian Knowledge Composition in VLMs

May 7
ByPranav Mantini, Shishir K. Shah
1
1

Nous abordons le défi de la composition des connaissances dans les modèles vision-langage (VLM), où l'accumulation d'expertise sur plusieurs domaines ou tâches entraîne typiquement un oubli catastrophique. Nous présentons GeoStack (Empilement Géométrique), un cadre modulaire permettant de composer des experts de domaine entraînés indépendamment en un modèle unifié. En imposant des contraintes géométriques et structurelles sur la variété des adaptateurs, GeoStack préserve les connaissances fondamentales du modèle de base. De plus, nous démontrons mathématiquement une propriété de repliement des poids qui atteint une complexité d'inférence en temps constant (O(1)), indépendamment du nombre d'experts intégrés. Les résultats expérimentaux en adaptation multi-domaines et en apprentissage incrémental de classes montrent que GeoStack fournit un mécanisme efficace pour la composition des connaissances à long terme tout en atténuant significativement l'oubli catastrophique. Le code est disponible à l'adresse https://github.com/QuantitativeImagingLaboratory/GeoStack.

29

En l'absence de référence : validation de l'évaluation comparative de la sécurité des LLM sans étiquettes de vérité terrain
When No Benchmark Exists: Validating Comparative LLM Safety Scoring Without Ground-Truth Labels

May 7
BySushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz, Birk Torpmann-Hagen, Sunniva Maria Stordal Bjørklund, Leon Moonen, Klas Pettersen, Michael A. Riegler
1
2

De nombreux déploiements doivent comparer des modèles de langage candidats en matière de sécurité avant qu'un benchmark annoté n'existe pour la langue, le secteur ou le cadre réglementaire concerné. Nous formalisons cette situation sous le nom d'évaluation comparative de la sécurité sans benchmark et spécifions le contrat selon lequel un audit basé sur des scénarios peut être interprété comme une preuve pour le déploiement. Les scores ne sont valides que sous un pack de scénarios, une grille d'évaluation, un auditeur, un évaluateur, une configuration d'échantillonnage et un budget de réexécution fixes. Étant donné qu'aucune étiquette n'est disponible, nous remplaçons l'accord avec une vérité de référence par une chaîne de validité instrumentale : la sensibilité à un contraste contrôlé sûr contre altéré, la dominance de la variance pilotée par la cible sur les artéfacts de l'auditeur et de l'évaluateur, et la stabilité entre les réexécutions. Nous instancions cette chaîne dans SimpleAudit, un instrument d'évaluation à vocation locale, et la validons sur un pack de sécurité norvégien. Les cibles sûres et altérées se séparent avec des valeurs d'AUROC comprises entre 0,89 et 1,00, l'identité de la cible est la composante dominante de la variance (η² ≈ 0,52), et les profils de sévérité se stabilisent après dix réexécutions. L'application de la même chaîne à Petri montre qu'elle admet les deux outils. Les différences substantielles apparaissent en amont de la chaîne, dans l'application du contrat de revendication et l'adéquation au déploiement. Un cas d'approvisionnement du secteur public norvégien comparant Borealis et Gemma 3 démontre la preuve résultante en pratique : le modèle le plus sûr dépend de la catégorie de scénario et de la mesure du risque. Par conséquent, les scores, les deltas appariés, les taux critiques, l'incertitude, ainsi que l'auditeur et l'évaluateur utilisés doivent être rapportés ensemble plutôt que d'être agrégés en un classement unique.

30

Générateur d'EigenSolveur de Kolmogorov-Arnold Inspiré par la Mécanique Quantique
Generative Quantum-inspired Kolmogorov-Arnold Eigensolver

May 6
ByYu-Cheng Lin, Yu-Chao Hsu, I-Shan Tsai, Chun-Hua Lin, Kuo-Chung Peng, Jiun-Cheng Jiang, Yun-Yuan Wang, Tzung-Chi Huang, Tai-Yue Li, Kuan-Cheng Chen, Samuel Yen-Chi Chen, Nan-Yow Chen
1
1

Le calcul haute performance (HPC) devient de plus en plus important pour les workflows de chimie quantique évolutifs qui couplent des modèles génératifs classiques, la simulation de circuits quantiques et le post-traitement par interaction de configurations sélectionnées. Nous présentons le solveur aux valeurs propres quantique inspiré et génératif de Kolmogorov-Arnold (GQKAE), une extension à paramètres efficaces du solveur aux valeurs propres quantique génératif (GQE) pour la chimie quantique. GQKAE remplace les composants de réseau feed-forward gourmands en paramètres des solveurs aux valeurs propres génératifs de type GPT par des modules hybrides de réseau de Kolmogorov-Arnold d'inspiration quantique, formant une architecture compacte de type HQKANsformer. La méthode préserve la sélection d'opérateurs autogressive et le pipeline d'évaluation par interaction de configurations sélectionnées quantiques, tout en utilisant des modules d'activation à re-téléchargement de données (DatA Re-Uploading ActivatioN) à un qubit pour fournir des applications non linéaires expressives. Des benchmarks numériques sur H4, N2, LiH, C2H6, H2O et le dimère de H2O montrent que GQKAE atteint une précision chimique comparable à l'architecture GQE basée sur GPT, tout en réduisant les paramètres entraînables et la mémoire d'environ 66 % et en améliorant les performances en temps réel. Pour les systèmes fortement corrélés tels que N2 et LiH, GQKAE améliore également le comportement de convergence et les erreurs d'énergie finale. Ces résultats indiquent que les réseaux de Kolmogorov-Arnold d'inspiration quantique peuvent réduire la surcharge classique tout en préservant la qualité de génération des circuits, offrant ainsi une voie évolutive pour la co-conception HPC-quantique sur les plateformes quantiques à court terme.

31

Penser, puis Noter : Raisonnement et Évaluation Découplés pour la Modélisation des Récompenses Vidéo
Think, then Score: Decoupled Reasoning and Scoring for Video Reward Modeling

May 7
ByYuan Wang, Ouxiang Li, Yulong Xu, Borui Liao, Jiajun Liang, Jinghan Li, Meng Wang, Xintao Wang, Pengfei Wang, Kuien Liu, Xiang Wang
1
1

Les progrès récents des modèles génératifs vidéo sont de plus en plus portés par le *scaling* post-entraînement et au moment du test, deux aspects qui dépendent crucialement de la qualité des modèles de récompense (*reward models* ou RMs) vidéo. Un modèle de récompense idéal devrait prédire des récompenses précises, alignées sur les préférences humaines dans des scénarios divers. Cependant, les paradigmes existants sont confrontés à un dilemme fondamental : les RMs discriminatifs régressent directement les récompenses sur des caractéristiques extraites par des modèles de langage multimodaux (*Multimodal Large Language Models* ou MLLMs) sans raisonnement explicite, ce qui les rend sujets à l'apprentissage de raccourcis et fortement dépendants d'un *scaling* massif des données pour la généralisation. En revanche, les RMs génératifs avec un raisonnement en chaîne de pensée (*Chain-of-Thought* ou CoT) présentent une interprétabilité et un potentiel de généralisation supérieurs, car ils exploitent une supervision sémantique fine pour internaliser les raisons sous-jacentes aux préférences humaines. Cependant, ils souffrent de goulots d'étranglement d'optimisation inhérents dus au couplage du raisonnement et de la notation au sein d'une seule chaîne d'inférence autorégressive. Pour tirer parti des avantages de généralisation du raisonnement CoT tout en atténuant l'instabilité de l'entraînement causée par le couplage raisonnement-notation, nous présentons DeScore, un modèle de récompense vidéo efficace à entraîner et généralisable. DeScore emploie un paradigme découplé « penser puis noter » (*think-then-score*) : un MLLM génère d'abord un CoT explicite, suivi par un module de notation discriminatif dédié composé d'un jeton requête (*query token*) apprenable et d'une tête de régression qui prédit la récompense finale. DeScore est optimisé via un cadre en deux étapes : (1) un démarrage à froid (*cold start*) discriminatif incorporant un mécanisme de masquage aléatoire pour garantir des capacités de notation robustes, et (2) une étape d'apprentissage par renforcement à double objectif qui affine indépendamment la qualité du raisonnement CoT et calibre la récompense finale, garantissant qu'un raisonnement de meilleure qualité se traduise directement par des performances supérieures du modèle.

32

Récupération de la récompense cachée dans les politiques basées sur la diffusion
Recovering Hidden Reward in Diffusion-Based Policies

May 1
ByYanbiao Ji, Qiuchang Li, Yuting Hu, Shaokai Wu, Wenyuan Xie, Guodong Zhang, Qicheng He, Deyi Ji, Yue Ding, Hongtao Lu
1
2

Ce document présente EnergyFlow, un cadre unifiant la modélisation générative d'actions avec l'apprentissage par renforcement inverse, en paramétrisant une fonction d'énergie scalaire dont le gradient constitue le champ de débruitage. Nous établissons que sous des conditions d'optimalité à entropie maximale, la fonction de score apprise via l'apprentissage par score de débruitage retrouve le gradient de la fonction Q souple de l'expert, permettant l'extraction de la récompense sans entraînement antagoniste. Formellement, nous démontrons que contraindre le champ appris à être conservatif réduit la complexité de l'hypothèse et resserre les bornes de généralisation hors-distribution. Nous caractérisons également l'identifiabilité des récompenses récupérées et bornons la propagation des erreurs d'estimation du score vers les préférences d'action. Empiriquement, EnergyFlow atteint des performances d'imitation de pointe sur diverses tâches de manipulation tout en fournissant un signal de récompense efficace pour l'apprentissage par renforcement en aval, surpassant à la fois les méthodes IRl adverses et les alternatives basées sur la vraisemblance. Ces résultats montrent que les contraintes structurelles requises pour une extraction valide des récompenses servent simultanément de biais inductifs bénéfiques pour la généralisation des politiques. Le code est disponible à l'adresse https://github.com/sotaagi/EnergyFlow.

33

Étincelle : Réalisation d'un remplacement dynamique d'arrière-plan vidéo guidé par instructions via un guidage découplé
Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

May 7
ByZiyun Zeng, Yiqi Lin, Guoqiang Liang, Mike Zheng Shou
1
2

Ces dernières années, des initiatives open source comme Senorita-2M ont fait progresser l'édition vidéo vers des instructions en langage naturel. Cependant, les ensembles de données actuellement disponibles publiquement se concentrent principalement sur l'édition locale ou le transfert de style, qui préservent largement la structure scénique originale et sont plus faciles à mettre à l'échelle. En revanche, le Remplacement d'Arrière-plan, une tâche centrale pour des applications créatives comme la production cinématographique et la publicité, nécessite de synthétiser des scènes entièrement nouvelles et temporellement cohérentes tout en maintenant des interactions précises entre le premier plan et l'arrière-plan, ce qui rend la génération de données à grande échelle nettement plus difficile. Par conséquent, cette tâche complexe reste largement inexplorée en raison d'une pénurie de données d'entraînement de haute qualité. Cette lacune est évidente dans les performances médiocres des modèles de pointe, par exemple Kiwi-Edit, car le principal ensemble de données open source contenant cette tâche, à savoir OpenVE-3M, produit fréquemment des arrière-plans statiques et non naturels. Dans cet article, nous attribuons cette dégradation de la qualité à un manque de guidage précis de l'arrière-plan pendant la synthèse des données. En conséquence, nous concevons un pipeline évolutif qui génère des guidages pour le premier plan et l'arrière-plan de manière découplée avec un filtrage qualité strict. Sur la base de ce pipeline, nous présentons Sparkle, un ensemble d'environ 140 000 paires vidéo couvrant cinq thèmes courants de changement d'arrière-plan, ainsi que Sparkle-Bench, le plus grand benchmark d'évaluation conçu à ce jour pour le remplacement d'arrière-plan. Les expériences démontrent que notre ensemble de données et le modèle entraîné sur celui-ci obtiennent des performances substantiellement meilleures que toutes les bases de référence existantes, à la fois sur OpenVE-Bench et Sparkle-Bench. Notre ensemble de données, notre benchmark et notre modèle proposés sont entièrement open source à l'adresse https://showlab.github.io/Sparkle/.

34

Faisons-nous des progrès dans la généralisation de domaine multimodale ? Une étude comparative exhaustive
Are We Making Progress in Multimodal Domain Generalization? A Comprehensive Benchmark Study

May 7
ByHao Dong, Hongzhao Li, Shupan Li, Muhammad Haris Khan, Eleni Chatzi, Olga Fink
1
2

Malgré la popularité croissante de la généralisation de domaine multimodale (MMDG) pour renforcer la robustesse des modèles, il reste difficile de déterminer si les gains de performance rapportés reflètent un progrès algorithmique authentique ou sont des artefacts liés à des protocoles d'évaluation incohérents. La recherche actuelle est fragmentée, les études variant considérablement selon les jeux de données, les configurations de modalités et les paramètres expérimentaux. De plus, les benchmarks existants se concentrent principalement sur la reconnaissance d'actions, négligeant souvent des défis critiques du monde réel tels que les corruptions des entrées, les modalités manquantes et la confiance dans les modèles. Ce manque de standardisation empêche une évaluation fiable des progrès réalisés dans ce domaine. Pour résoudre ce problème, nous présentons MMDG-Bench, le premier benchmark unifié et complet pour la MMDG, qui standardise l'évaluation sur six jeux de données couvrant trois tâches distinctes : la reconnaissance d'actions, le diagnostic de pannes mécaniques et l'analyse de sentiments. MMDG-Bench englobe six combinaisons de modalités, neuf méthodes représentatives et plusieurs scénarios d'évaluation. Au-delà de la précision standard, il évalue systématiquement la robustesse à la corruption, la généralisation aux modalités manquantes, la détection des erreurs de classification et la détection des données hors distribution. Avec 7 402 réseaux de neurones entraînés au total sur 95 tâches inter-domaines uniques, MMDG-Bench révèle cinq conclusions majeures : (1) dans des comparaisons équitables, les méthodes MMDG spécialisées récentes n'apportent que des améliorations marginales par rapport à la baseline ERM ; (2) aucune méthode ne surpasse systématiquement les autres sur l'ensemble des jeux de données ou des combinaisons de modalités ; (3) un écart important persiste par rapport à la performance maximale théorique, indiquant que la MMDG est loin d'être résolue ; (4) la fusion trimodale ne surpasse pas systématiquement les configurations bimodales les plus robustes ; et (5) toutes les méthodes évaluées présentent une dégradation significative dans les scénarios de corruption et de modalités manquantes, certaines méthodes compromettant en outre la confiance dans le modèle.

35

EDU-CIRCUIT-HW : Évaluation des modèles de langage de grande taille multimodaux sur des solutions manuscrites réelles d'étudiants en STEM de niveau universitaire
EDU-CIRCUIT-HW: Evaluating Multimodal Large Language Models on Real-World University-Level STEM Student Handwritten Solutions

Apr 30
ByWeiyu Sun, Liangliang Chen, Yongnuo Cai, Huiru Xie, Yi Zeng, Ying Zhang
1
2

Les modèles de langage multimodaux (MLLM) présentent un potentiel considérable pour révolutionner l'éducation traditionnelle et réduire la charge de travail des enseignants. Cependant, l'interprétation précise de solutions manuscrites non contraintes d'étudiants en STEM, mêlant formules mathématiques, diagrammes et raisonnements textuels, constitue un défi majeur en raison de l'absence de benchmarks authentiques et spécifiques au domaine. De plus, les paradigmes d'évaluation actuels reposent principalement sur les résultats de tâches en aval (par exemple, la notation automatique), qui n'explorent souvent qu'un sous-ensemble du contenu reconnu, échouant ainsi à capturer la compréhension globale par les MLLM de la logique manuscrite complexe. Pour combler cette lacune, nous publions EDU-CIRCUIT-HW, un jeu de données comprenant plus de 1 300 solutions manuscrites authentiques d'étudiants issues d'un cours universitaire en STEM. En utilisant les transcriptions verbatim vérifiées par des experts et les rapports d'évaluation des solutions étudiantes, nous évaluons simultanément la fidélité de reconnaissance en amont et les performances de notation automatique en aval de divers MLLM. Notre évaluation révèle une échelle étonnante de défaillances latentes dans le contenu manuscrit étudiant reconnu par les MLLM, soulignant la fiabilité insuffisante des modèles pour la notation automatique et d'autres applications orientées compréhension dans des contextes éducatifs à enjeux élevés. Comme solution potentielle, nous présentons une étude de cas démontrant que l'exploitation des schémas d'erreur identifiés pour détecter et corriger préventivement les erreurs de reconnaissance, tout en nécessitant une intervention humaine minimale (par exemple, en redirigeant 3,3 % des devoirs vers des correcteurs humains et le reste vers le correcteur GPT-5.1), peut efficacement renforcer la robustesse du système de notation assisté par IA déployé. Le code et le jeu de données sont disponibles dans ce dépôt GitHub : https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.

36

PianoCoRe : Ensemble de données MIDI pour piano combiné et raffiné
PianoCoRe: Combined and Refined Piano MIDI Dataset

May 7
ByIlya Borovik
1
1

Les ensembles de données de musique symbolique avec partitions et interprétations appariées sont essentiels pour de nombreuses tâches de recherche d'information musicale (MIR). Cependant, les ressources existantes couvrent souvent une gamme étroite de compositeurs, manquent de variété interprétative, omettent les alignements au niveau de la note ou utilisent des formats de dénomination incohérents. Ce travail présente PianoCoRe, un vaste ensemble de données MIDI pour piano qui unifie et affine les principaux corpus open-source pour piano. Le jeu de données contient 250 046 interprétations de 5 625 pièces écrites par 483 compositeurs, totalisant 21 763 heures de musique interprétée. PianoCoRe est publié en sous-ensembles hiérarchisés pour prendre en charge différentes applications : de l'analyse à grande échelle et du pré-entraînement (PianoCoRe-C et PianoCoRe-B dédupliqué) à la modélisation expressive de l'interprétation avec alignement partition au niveau de la note (PianoCoRe-A/A*). Le sous-ensemble aligné au niveau de la note, PianoCoRe-A, constitue la plus grande collection open-source à ce jour de 157 207 interprétations alignées avec 1 591 partitions. Outre le jeu de données, les contributions sont : (1) un classificateur de qualité MIDI pour détecter les transcriptions corrompues et similaires à des partitions, et (2) RAScoP, un pipeline de raffinement d'alignement qui nettoie les erreurs d'alignement temporel et interpole les notes manquantes. L'analyse montre que le raffinement réduit le bruit temporel et élimine les valeurs aberrantes de tempo. De plus, un modèle de rendu d'interprétation expressive entraîné sur PianoCoRe démontre une robustesse améliorée face à des pièces inédites par rapport aux modèles entraînés sur des données brutes ou des ensembles plus petits. PianoCoRe fournit une base prête à l'emploi pour la prochaine génération de recherche sur l'interprétation expressive au piano.

37

BioTool : un ensemble de données complet d'appels d'outils pour améliorer les capacités biomédicales des grands modèles de langage
BioTool: A Comprehensive Tool-Calling Dataset for Enhancing Biomedical Capabilities of Large Language Models

May 7
ByXin Gao, Ruiyi Zhang, Meixi Du, Peijia Qin, Pengtao Xie
0
2

Malgré le succès des grands modèles de langage (LLM) dans les tâches générales, leurs performances dans des domaines hautement spécialisés comme la biomédecine restent insatisfaisantes. Une limitation majeure est l'incapacité des LLM à exploiter efficacement les outils biomédicaux, sur lesquels les experts cliniques et les chercheurs en biomédecine s'appuient largement dans leurs flux de travail quotidiens. Bien que les récents ensembles de données d'appel d'outils en domaine général aient considérablement amélioré les capacités des agents LLM, les efforts existants dans le domaine biomédical reposent largement sur l'apprentissage en contexte et limitent les modèles à un petit nombre d'outils. Pour combler cette lacune, nous présentons BioTool, un ensemble de données complet d'appel d'outils biomédicaux conçu pour le fine-tuning des LLM. BioTool comprend 34 outils fréquemment utilisés, collectés à partir des bases de données NCBI, Ensembl et UniProt, ainsi que 7 040 paires requête-appel API de haute qualité, vérifiées manuellement, couvrant la variation, la génomique, la protéomique, l'évolution et la biologie générale. Le fine-tuning d'un LLM de 4 milliards de paramètres sur BioTool entraîne des améliorations substantielles des performances d'appel d'outils biomédicaux, surpassant des LLM commerciaux de pointe comme GPT-5.1. De plus, des évaluations par des experts humains démontrent que l'intégration d'un appelant d'outils affiné avec BioTool améliore significativement la qualité des réponses en aval par rapport au même LLM sans utilisation d'outils, soulignant l'efficacité de BioTool pour renforcer les capacités biomédicales des LLM. L'ensemble de données complet et le code d'évaluation sont disponibles à l'adresse https://github.com/gxx27/BioTool.

38

TIDE : Chaque couche connaît le jeton sous-jacent au contexte
TIDE: Every Layer Knows the Token Beneath the Context

May 7
ByAjay Jaiswal, Lauren Hannah, Han-Byul Kim, Duc Hoang, Mehrdad Farajtabar, Minsik Cho
0
2

Nous revisitons un choix de conception universellement accepté mais peu examiné dans chaque LLM moderne : un indice de token est recherché une seule fois au niveau de la couche d'embedding d'entrée puis définitivement abandonné. Cette hypothèse d'injection unique induit deux défaillances structurelles : (i) le Problème des Tokens Rares, où une distribution de type Zipf du vocabulaire entraîne un sous-entraînement chronique des embeddings des tokens rares, ceux-ci ne recevant qu'une fraction du signal de gradient cumulé par rapport aux tokens courants ; et (ii) le Problème de l'Effondrement Contextuel, où les modèles aux paramètres limités mappent les tokens distributionnellement similaires vers des états cachés indiscernables. Pour tenter de résoudre ces deux problèmes, nous proposons TIDE, qui augmente le transformeur standard avec une EmbeddingMemory : un ensemble de K MemoryBlocks indépendants qui mappent les indices de tokens vers des vecteurs sémantiques non contextuels, calculés une fois et injectés à chaque couche via un routeur softmax conditionné par la profondeur avec une banque nulle apprenable. Nous établissons théoriquement et empiriquement les bénéfices de TIDE pour résoudre les problèmes associés à l'injection unique de l'identité du token, ainsi que pour améliorer les performances sur de multiples tâches de modélisation du langage et tâches en aval.

May 7
May 8