papers.description
Les marchés financiers sont bruyants et non stationnaires, ce qui rend l'extraction d'alpha très sensible au bruit dans les résultats des backtests et aux changements soudains de régime de marché. Si les cadres agentiels récents améliorent l'automatisation de l'extraction d'alpha, ils manquent souvent de recherche multi-tours contrôlable et de réutilisation fiable de l'expérience validée. Pour relever ces défis, nous proposons QuantaAlpha, un cadre évolutif d'extraction d'alpha qui traite chaque exécution de bout en bout comme une trajectoire et améliore les facteurs via des opérations de mutation et de croisement au niveau trajectoire. QuantaAlpha localise les étapes sous-optimales dans chaque trajectoire pour une révision ciblée et recombinent les segments complémentaires à haut rendement pour réutiliser les modèles efficaces, permettant une exploration et un affinement structurés sur les itérations d'extraction. Durant la génération de facteurs, QuantaAlpha impose une cohérence sémantique entre l'hypothèse, l'expression du facteur et le code exécutable, tout en limitant la complexité et la redondance du facteur généré pour atténuer l'effet de crowding. Des expériences approfondies sur l'indice CSI 300 démontrent des gains constants par rapport aux modèles de référence solides et aux systèmes agentiels antérieurs. En utilisant GPT-5.2, QuantaAlpha atteint un coefficient d'information (IC) de 0,1501, avec un taux de rendement annualisé (ARR) de 27,75 % et un drawdown maximum (MDD) de 7,98 %. De plus, les facteurs extraits sur le CSI 300 se transfèrent efficacement vers l'indice CSI 500 et l'indice S&P 500, délivrant un rendement excédentaire cumulé sur quatre ans de 160 % et 137 % respectivement, ce qui indique une robustesse élevée de QuantaAlpha face aux changements de distribution de marché.
Alors que l'optimisation post-entraînement devient centrale pour l'amélioration des grands modèles de langage, nous observons un goulot d'étranglement persistant de saturation : une fois que les modèles deviennent très confiants, tout entraînement supplémentaire produit des rendements décroissants. Si les méthodes existantes continuent de renforcer les prédictions cibles, nous constatons que des signaux de supervision informatifs demeurent latents dans les états historiquement faibles des modèles eux-mêmes. Motivés par cette observation, nous proposons WMSS (Des Agents Faibles Peut Rendre des Agents Forts Plus Forts), un paradigme post-entraînement qui exploite des points de contrôle faibles pour guider l'optimisation continue. En identifiant les écarts d'apprentissage récupérables via la dynamique de l'entropie et en les renforçant par un apprentissage compensatoire, WMSS permet à des agents performants de s'améliorer au-delà de la saturation conventionnelle post-entraînement. Les expériences sur des ensembles de données de raisonnement mathématique et de génération de code montrent que les agents entraînés avec notre approche obtiennent des améliorations de performance efficaces, sans engendrer de coût d'inférence supplémentaire.
L'audio est indispensable pour les vidéos du monde réel, mais les modèles de génération ont largement négligé les composants sonores. Les approches actuelles pour produire du contenu audiovisuel reposent souvent sur des pipelines en cascade, ce qui augmente les coûts, accumule les erreurs et dégrade la qualité globale. Alors que des systèmes tels que Veo 3 et Sora 2 soulignent la valeur de la génération simultanée, la modélisation multimodale conjointe introduit des défis uniques en matière d'architecture, de données et d'entraînement. De plus, la nature fermée des systèmes existants limite les progrès dans le domaine. Dans ce travail, nous présentons MOVA (MOSS Video and Audio), un modèle open-source capable de générer un contenu audiovisuel synchronisé de haute qualité, incluant des dialogues réalistes synchronisés sur les lèvres, des effets sonores conscients de l'environnement et une musique alignée sur le contenu. MOVA utilise une architecture Mixture-of-Experts (MoE) avec un total de 32 milliards de paramètres, dont 18 milliards sont actifs pendant l'inférence. Il prend en charge la tâche de génération IT2VA (Image-Text to Video-Audio). En publiant les poids du modèle et le code, nous visons à faire progresser la recherche et à favoriser une communauté dynamique de créateurs. Le codebase publié offre une prise en charge complète pour l'inférence efficace, le fine-tuning LoRA et l'amélioration des prompts.
Malgré le succès de l'apprentissage contrastif multimodal pour aligner les représentations visuelles et linguistiques, une anomalie géométrique persistante, l'Écart Modal, subsiste : les plongements de modalités distinctes exprimant une sémantique identique occupent des régions systématiquement décalées. Les approches antérieures pour combler cet écart sont largement limitées par des hypothèses isotropiques trop simplifiées, entravant leur application dans des scénarios à grande échelle. Dans cet article, nous abordons ces limitations en caractérisant précisément la forme géométrique de l'écart modal et en l'exploitant pour un passage à l'échelle efficace des modèles. Premièrement, nous proposons la Théorie de l'Écart Modal à Référentiel Fixe, qui décompose l'écart modal dans un référentiel gelé en biais stables et résidus anisotropes. Guidée par cette modélisation précise, nous introduisons ReAlign, une stratégie d'alignement modal sans apprentissage. En utilisant des statistiques provenant de données non appariées massives, ReAlign aligne la représentation textuelle sur la distribution de la représentation image via un processus en trois étapes comprenant un Ancrage, un Traçage et un Alignement Centroidal, rectifiant ainsi explicitement le désalignement géométrique. S'appuyant sur ReAlign, nous proposons ReVision, un paradigme d'apprentissage scalable pour les Grands Modèles de Langage Multimodaux (MLLM). ReVision intègre ReAlign dans l'étape de pré-entraînement, permettant au modèle d'apprendre la distribution des représentations visuelles à partir de texte non apparié avant le réglage fin sur instructions visuelles, sans nécessiter de paires image-texte de grande qualité à grande échelle. Notre cadre démontre que des données non appariées, alignées statistiquement, peuvent efficacement remplacer les paires image-texte coûteuses, offrant une voie robuste pour le passage à l'échelle efficace des MLLM.
Les modèles Vision-Langage-Action (VLA) actuels reposent sur une profondeur de calcul fixe, consacrant la même quantité de calcul pour des ajustements simples que pour des manipulations complexes en plusieurs étapes. Bien que l'incitation en chaîne de pensée (CoT) permette un calcul variable, elle augmente la mémoire linéairement et est mal adaptée aux espaces d'action continus. Nous présentons RD-VLA (Recurrent-Depth VLA), une architecture qui atteint l'adaptativité computationnelle via un raffinement itératif latent plutôt qu'une génération explicite de tokens. RD-VLA utilise une tête d'action récurrente, à poids liés, qui supporte une profondeur d'inférence arbitraire avec une empreinte mémoire constante. Le modèle est entraîné en utilisant la rétropropagation tronquée dans le temps (TBPTT) pour superviser efficacement le processus de raffinement. Lors de l'inférence, RD-VLA alloue dynamiquement le calcul en utilisant un critère d'arrêt adaptatif basé sur la convergence latente. Les expériences sur des tâches de manipulation difficiles montrent que la profondeur récurrente est cruciale : les tâches qui échouent complètement (0% de succès) avec une inférence à itération unique dépassent 90% de succès avec quatre itérations, tandis que les tâches plus simples se saturent rapidement. RD-VLA offre une voie évolutive pour le calcul au moment des tests en robotique, remplaçant le raisonnement basé sur les tokens par un raisonnement latent pour atteindre une utilisation mémoire constante et une accélération de l'inférence allant jusqu'à 80x par rapport aux modèles VLA antérieurs basés sur le raisonnement. Page du projet : https://rd-vla.github.io/
Les agents LLM présentent un potentiel considérable pour faire progresser la recherche scientifique. Pour accélérer ces progrès, nous présentons AIRS-Bench (le *AI Research Science Benchmark*), une suite de 20 tâches issues d'articles récents en apprentissage automatique. Ces tâches couvrent des domaines variés, incluant la modélisation du langage, les mathématiques, la bioinformatique et la prévision de séries temporelles. Les tâches d'AIRS-Bench évaluent les capacités agentielles sur l'ensemble du cycle de vie de la recherche – incluant la génération d'idées, l'analyse d'expériences et l'affinement itératif – sans fournir de code de base. Le format des tâches AIRS-Bench est polyvalent, permettant une intégration aisée de nouvelles tâches et une comparaison rigoureuse entre différentes architectures agentielles. Nous établissons des performances de référence en utilisant des modèles de pointe associés à des échafaudages séquentiels et parallèles. Nos résultats montrent que les agents dépassent l'état de l'art humain dans quatre tâches, mais n'y parviennent pas dans seize autres. Même lorsque les agents surpassent les références humaines, ils n'atteignent pas le plafond de performance théorique des tâches sous-jacentes. Ces résultats indiquent qu'AIRS-Bench est loin d'être saturé et offre une marge d'amélioration substantielle. Nous ouvrons en accès libre les définitions des tâches AIRS-Bench et le code d'évaluation pour catalyser le développement ultérieur de la recherche scientifique autonome.
Nous présentons InternAgent-1.5, un système unifié conçu pour la découverte scientifique de bout en bout dans les domaines computationnels et empiriques. Le système repose sur une architecture structurée composée de trois sous-systèmes coordonnés pour la génération, la vérification et l'évolution. Ces sous-systèmes sont soutenus par des capacités fondamentales de recherche approfondie, d'optimisation de solutions et de mémoire à long terme. L'architecture permet à InternAgent-1.5 de fonctionner continuellement sur des cycles de découverte étendus tout en maintenant un comportement cohérent et amélioré. Elle permet également au système de coordonner la modélisation computationnelle et l'expérimentation en laboratoire au sein d'un même système unifié. Nous évaluons InternAgent-1.5 sur des référentiels de raisonnement scientifique tels que GAIA, HLE, GPQA et FrontierScience, et le système obtient des performances leaders qui démontrent de solides capacités fondamentales. Au-delà de ces référentiels, nous évaluons en outre deux catégories de tâches de découverte. Dans les tâches de découverte d'algorithmes, InternAgent-1.5 conçoit de manière autonome des méthodes compétitives pour les problèmes fondamentaux de l'apprentissage automatique. Dans les tâches de découverte empirique, il exécute des expériences computationnelles ou de laboratoire complètes et produit des résultats scientifiques dans les domaines des sciences de la Terre, de la vie, biologiques et physiques. Dans l'ensemble, ces résultats montrent qu'InternAgent-1.5 fournit un cadre général et évolutif pour la découverte scientifique autonome.
Alors que LLaDA2.0 démontrait le potentiel de montée en charge des modèles de diffusion par blocs à l'échelle des 100 milliards de paramètres et leur parallélisation inhérente, l'équilibre délicat entre vitesse de décodage et qualité de génération est resté une frontière insaisissable. Aujourd'hui, nous dévoilons LLaDA2.1, un changement de paradigme conçu pour transcender ce compromis. En intégrant de manière transparente l'édition Token-à-Token (T2T) au schéma conventionnel Masque-à-Token (M2T), nous introduisons un système de décodage à seuil configurable et conjoint. Cette innovation structurelle donne naissance à deux personnalités distinctes : le Mode Rapide (Mode S), qui abaisse audacieusement le seuil M2T pour contourner les contraintes traditionnelles tout en s'appuyant sur T2T pour affiner la sortie ; et le Mode Qualité (Mode Q), qui privilégie des seuils conservateurs pour garantir des performances de référence supérieures avec une dégradation d'efficacité maîtrisée. Poursuivant cette évolution et s'appuyant sur une fenêtre de contexte étendue, nous mettons en œuvre le premier cadre d'Apprentissage par Renforcement (RL) à grande échelle spécialement conçu pour les modèles de langage à diffusion (dLLMs), soutenu par des techniques spécialisées pour l'estimation stable du gradient. Cet alignement affine non seulement la précision du raisonnement mais améliore également la fidélité de suivi des instructions, comblant le fossé entre la dynamique de diffusion et l'intention humaine complexe. Nous couronnons ces travaux par la publication de LLaDA2.1-Mini (16B) et LLaDA2.1-Flash (100B). Sur 33 benchmarks rigoureux, LLaDA2.1 offre de solides performances sur les tâches et une vitesse de décodage extrêmement rapide. Malgré son volume de 100B, sur les tâches de codage, il atteint une vitesse stupéfiante de 892 TPS sur HumanEval+, 801 TPS sur BigCodeBench et 663 TPS sur LiveCodeBench.
L'apprentissage de politiques en ligne directement dans le monde physique est une direction prometteuse mais difficile pour l'intelligence incarnée. Contrairement à la simulation, les systèmes réels ne peuvent pas être accélérés arbitrairement, réinitialisés à faible coût ou répliqués massivement, ce qui rend difficile la collecte évolutive de données, le déploiement hétérogène et l'entraînement efficace sur le long terme. Ces défis suggèrent que l'apprentissage de politiques en monde réel n'est pas seulement un problème algorithmique, mais fondamentalement un problème de systèmes. Nous présentons USER, un Système Unifié et eXtensible pour l'Apprentissage de politiques en ligne dans le monde Réel. USER traite les robots physiques comme des ressources matérielles de premier ordre aux côtés des GPU grâce à une couche d'abstraction matérielle unifiée, permettant la découverte, la gestion et l'ordonnancement automatiques de robots hétérogènes. Pour adresser la communication cloud-edge, USER introduit un plan de communication adaptatif avec un réseau basé sur le tunneling, des canaux de données distribués pour la localisation du trafic et une synchronisation des poids tenant compte des multiprocesseurs de flux pour réguler la charge côté GPU. Sur cette infrastructure, USER organise l'apprentissage comme un cadre entièrement asynchrone avec un tampon persistant et optimisé pour le cache, permettant des expériences à long terme efficaces avec une récupération robuste après incident et la réutilisation des données historiques. De plus, USER fournit des abstractions extensibles pour les récompenses, les algorithmes et les politiques, prenant en charge l'apprentissage par imitation ou par renforcement en ligne de modèles CNN/MLP, de politiques génératives et de grands modèles vision-langage-action (VLA) dans un pipeline unifié. Les résultats en simulation et dans le monde réel montrent qu'USER permet la coordination multi-robots, l'utilisation de manipulateurs hétérogènes, la collaboration edge-cloud avec de grands modèles et l'entraînement asynchrone de longue durée, offrant une fondation système unifiée et extensible pour l'apprentissage de politiques en ligne dans le monde réel.
La convergence de l'intelligence artificielle et de la science des matériaux présente une opportunité transformationnelle, mais pour obtenir une véritable accélération des découvertes, il faut dépasser les modèles spécialisés et finement ajustés pour aller vers des systèmes agentiques qui planifient, agissent et apprennent tout au long du cycle complet de découverte. Cette étude propose une perspective unique centrée sur un pipeline qui s'étend de la curation de corpus et du pré-entraînement, en passant par l'adaptation au domaine et le réglage par instruction, jusqu'aux agents conditionnés par des objectifs interagissant avec des plateformes de simulation et d'expérimentation. Contrairement aux revues précédentes, nous traitons l'ensemble du processus comme un système de bout en bout à optimiser pour des résultats de découverte tangibles, plutôt que pour des critères de substitution. Cette perspective nous permet de retracer comment les choix de conception en amont – tels que la curation des données et les objectifs d'entraînement – peuvent être alignés sur la réussite expérimentale en aval grâce à une attribution de crédit efficace. Pour rapprocher les communautés et établir un cadre de référence commun, nous présentons d'abord une vision intégrée qui harmonise la terminologie, l'évaluation et les étapes des flux de travail entre l'IA et la science des matériaux. Nous analysons ensuite le domaine à travers deux prismes spécifiques : Du point de vue de l'IA, l'étude détaille les points forts des LLM en reconnaissance des motifs, analyse prédictive et traitement du langage naturel pour l'exploration de la littérature, la caractérisation des matériaux et la prédiction de propriétés ; du point de vue de la science des matériaux, elle met en lumière les applications dans la conception de matériaux, l'optimisation des procédés et l'accélération des flux de travail computationnels via l'intégration d'outils externes (par exemple, DFT, laboratoires robotisés). Enfin, nous opposons les approches passives et réactives à la conception agentique, en répertoriant les contributions actuelles tout en motivant le développement de systèmes poursuivant des objectifs à long terme avec autonomie, mémoire et utilisation d'outils. Cette étude trace une feuille de route pratique vers des agents LLM autonomes et conscients des aspects de sécurité, visant à découvrir des matériaux nouveaux et utiles.
Le déploiement de GRPO sur les modèles de Flow Matching s'est avéré efficace pour la génération d'images à partir de texte. Cependant, les paradigmes existants propagent généralement une récompense basée sur le résultat à toutes les étapes de débruitage précédentes sans distinguer l'effet local de chaque étape. De plus, le classement par groupe actuel compare principalement les trajectoires à des pas de temps correspondants et ignore les dépendances intra-trajectoire, où certaines actions de débruitage précoces peuvent affecter les états ultérieurs via des interactions implicites et différées. Nous proposons TurningPoint-GRPO (TP-GRPO), un cadre GRPO qui atténue la parcimonie des récompenses étape par étape et modélise explicitement les effets à long terme au sein de la trajectoire de débruitage. TP-GRPO introduit deux innovations clés : (i) il remplace les récompenses basées sur le résultat par des récompenses incrémentales au niveau de l'étape, fournissant un signal d'apprentissage dense et conscient de l'étape qui isole mieux l'effet « pur » de chaque action de débruitage, et (ii) il identifie les points de retournement – des étapes qui inversent la tendance locale de récompense et rendent l'évolution ultérieure des récompenses cohérente avec la tendance globale de la trajectoire – et attribue à ces actions une récompense agrégée à long terme pour capturer leur impact différé. Les points de retournement sont détectés uniquement par des changements de signe dans les récompenses incrémentales, ce qui rend TP-GRPO efficace et sans hyperparamètre. Des expériences approfondies démontrent également que TP-GRPO exploite les signaux de récompense plus efficacement et améliore constamment la génération. Le code de démonstration est disponible à l'adresse https://github.com/YunzeTong/TurningPoint-GRPO.
Les récents progrès des modèles de génération d'images ont permis la prédiction des états futurs des Interfaces Homme-Machine (IHM) basée sur des instructions utilisateur. Cependant, les benchmarks existants se concentrent principalement sur la fidélité visuelle dans des domaines généraux, laissant l'évaluation des transitions d'état et de la cohérence temporelle dans des contextes spécifiques aux IHM sous-explorée. Pour combler cette lacune, nous présentons GEBench, un benchmark complet pour évaluer l'interaction dynamique et la cohérence temporelle dans la génération d'IHM. GEBench comprend 700 échantillons soigneusement sélectionnés couvrant cinq catégories de tâches, incluant à la fois des interactions en une étape et des trajectoires multi-étapes dans des scénarios réels et fictifs, ainsi que la localisation de points d'ancrage. Pour soutenir une évaluation systématique, nous proposons GE-Score, une nouvelle métrique à cinq dimensions qui évalue la Réalisation de l'Objectif, la Logique d'Interaction, la Cohérence du Contenu, la Vraisemblance de l'Interface et la Qualité Visuelle. Des évaluations approfondies sur les modèles actuels indiquent que, bien qu'ils performent bien sur les transitions en une étape, ils éprouvent des difficultés significatives à maintenir la cohérence temporelle et l'ancrage spatial sur des séquences d'interaction plus longues. Nos résultats identifient l'interprétation des icônes, le rendu du texte et la précision de localisation comme des goulots d'étranglement critiques. Ce travail jette les bases d'une évaluation systématique et suggère des pistes prometteuses pour les recherches futures visant à construire des environnements génératifs d'IHM haute fidélité. Le code est disponible à l'adresse : https://github.com/stepfun-ai/GEBench.
La résolution de questions scientifiques ouvertes reste un défi pour les grands modèles de langage, en raison notamment d'une supervision et d'une évaluation intrinsèquement peu fiables. Le goulot d'étranglement réside dans la construction des données et la conception des récompenses pour le post-entraînement scientifique. Nous développons un pipeline systématique de traitement de données à grande échelle qui transforme des données scientifiques hétérogènes open-source en l'ensemble de données Dr. SCI, comprenant 1 million de questions couvrant huit disciplines STEM, avec une division explicite vérifiable/ouverte, une annotation scalable de la difficulté et des grilles d'évaluation fines qui opérationnalisent l'évaluation des réponses ouvertes. Sur la base de cet ensemble de données, nous proposons le pipeline de post-entraînement Dr. SCI, qui repense le workflow standard SFT -> RL via trois composantes : (i) le SFT d'expansion de l'exploration, qui élargit la couverture des schémas de raisonnement du modèle avant le RL ; (ii) un curriculum dynamique de difficulté, qui adapte les données d'entraînement aux capacités scientifiques évolutives du modèle ; et (iii) le RL guidé par SciRubric, qui permet un apprentissage par renforcement stable sur des questions scientifiques ouvertes via une évaluation basée sur des grilles explicites de correction. Le modèle Qwen3-4B-Base entraîné avec le pipeline Dr. SCI atteint un score de 63,2 sur GPQA-diamond et 32,4 sur GPQA-general, surpassant constamment des modèles de référence post-entraînés solides comme o1-mini et GPT-4o, démontrant des progrès substantiels en raisonnement scientifique, particulièrement dans des contextes ouverts.
Malgré les capacités croissantes de compréhension vidéo des modèles de langage multimodaux (MLLM) récents, les benchmarks vidéo existants évaluent principalement la compréhension en se basant sur les connaissances statiques internes des modèles, plutôt que sur leur capacité à apprendre et à s'adapter à partir de contextes dynamiques et nouveaux avec peu d'exemples. Pour combler cette lacune, nous présentons l'apprentissage en contexte piloté par des démonstrations vidéo, une nouvelle tâche centrée sur l'apprentissage à partir de démonstrations en contexte pour répondre à des questions sur des vidéos cibles. Parallèlement, nous proposons Demo-ICL-Bench, un benchmark exigeant conçu pour évaluer les capacités d'apprentissage en contexte piloté par des démonstrations vidéo. Demo-ICL-Bench est construit à partir de 1200 vidéos YouTube éducatives avec des questions associées, à partir desquelles deux types de démonstrations sont dérivés : (i) la synthèse des sous-titres vidéo pour une démonstration textuelle ; et (ii) les vidéos éducatives correspondantes comme démonstrations vidéo. Pour relever efficacement ce nouveau défi, nous développons Demo-ICL, un MLLM doté d'une stratégie d'entraînement en deux étapes : un fine-tuning supervisé par la vidéo et une optimisation directe des préférences assistée par l'information, améliorant conjointement la capacité du modèle à apprendre à partir d'exemples en contexte. Des expérimentations approfondies avec des MLLM de pointe confirment la difficulté de Demo-ICL-Bench, démontrent l'efficacité de Demo-ICL et révèlent ainsi des pistes de recherche futures.
La mémoire devient de plus en plus centrale pour les agents de modèles de langage de grande taille (LLM) opérant au-delà d'une seule fenêtre de contexte. Cependant, la plupart des systèmes existants reposent sur une construction de mémoire hors-ligne et indépendante des requêtes, qui peut être inefficace et risque d'éliminer des informations cruciales pour la requête. Bien que l'utilisation de la mémoire à l'exécution soit une alternative naturelle, les travaux antérieurs entraînent souvent des surcharges substantielles et n'offrent qu'un contrôle explicite limité sur le compromis performance-coût. Dans ce travail, nous présentons BudgetMem, un cadre de mémoire d'agent à l'exécution permettant un contrôle explicite et conscient de la requête sur le compromis performance-coût. BudgetMem structure le traitement de la mémoire sous forme d'un ensemble de modules de mémoire, chacun proposé selon trois niveaux de budget (Faible/Moyen/Élevé). Un routeur léger effectue un routage des niveaux de budget entre les modules pour équilibrer la performance de la tâche et le coût de construction de la mémoire, ce qui est implémenté sous la forme d'une politique neuronale compacte entraînée par apprentissage par renforcement. En utilisant BudgetMem comme banc d'essai unifié, nous étudions trois stratégies complémentaires pour réaliser les niveaux de budget : l'implémentation (complexité de la méthode), le raisonnement (comportement de l'inférence) et la capacité (taille du modèle du module). Sur les benchmarks LoCoMo, LongMemEval et HotpotQA, BudgetMem surpasse les bases de référence solides lorsque la performance est prioritaire (c'est-à-dire en configuration à budget élevé), et offre de meilleures frontières précision-coût sous des budgets plus contraints. De plus, notre analyse démêle les forces et les faiblesses des différentes stratégies de niveaux, clarifiant dans quelles conditions chaque axe offre les compromis les plus favorables sous différents régimes budgétaires.
Les grands modèles de langage (LLM) sont de plus en plus capables d'exécuter des tâches du monde réel sur de longues durées. Cependant, à mesure que la quantité de contexte augmente, leur fiabilité se dégrade souvent, un phénomène connu sous le nom de "détérioration contextuelle". Les benchmarks existants pour les contextes longs se concentrent principalement sur des configurations à une seule étape qui évaluent la capacité d'un modèle à récupérer des informations à partir d'un long extrait. Pourtant, dans des scénarios réalistes, les LLM doivent souvent agir comme des agents qui explorent des environnements, suivent des instructions et des plans, extraient des informations utiles et prédisent des actions correctes dans un contexte qui s'accroît dynamiquement. Pour évaluer les agents linguistiques dans de tels contextes, nous présentons LOCA-bench (un benchmark pour les agents à LOng Contexte). Étant donné une instruction de tâche, LOCA-bench utilise un contrôle automatisé et évolutif des états de l'environnement pour réguler la longueur du contexte de l'agent. Cette conception permet à LOCA-bench d'étendre la longueur du contexte potentiellement à l'infini de manière contrôlée, tout en maintenant fixes les sémantiques sous-jacentes de la tâche. LOCA-bench évalue les agents linguistiques comme une combinaison de modèles et d'échafaudages, incluant diverses stratégies de gestion du contexte. Bien que les performances des agents se dégradent généralement à mesure que les états de l'environnement deviennent plus complexes, les techniques avancées de gestion du contexte peuvent considérablement améliorer le taux de réussite global. Nous mettons LOCA-bench en open source pour fournir une plateforme d'évaluation des modèles et des échafaudages dans des scénarios agentiques à long contexte : https://github.com/hkust-nlp/LOCA-bench
Le progrès des grands modèles de langage (LLM) a considérablement accéléré le développement d’agents de recherche capables de collecter de manière autonome des informations via des interactions web multi-tours. Divers benchmarks ont été proposés pour évaluer de tels agents. Cependant, les benchmarks existants construisent souvent les requêtes à rebours à partir des réponses, produisant des tâches artificielles non alignées sur les besoins réels. De plus, ces benchmarks tendent à se concentrer soit sur la localisation d’informations spécifiques, soit sur l’agrégation d’informations provenant de multiples sources, tout en s’appuyant sur des ensembles de réponses statiques sujets à la contamination des données. Pour combler ces lacunes, nous présentons GISA, un benchmark pour assistants généraux de recherche d’information comprenant 373 requêtes conçues par des humains reflétant des scénarios authentiques de quête d’information. GISA propose quatre formats de réponse structurés (élément, ensemble, liste et tableau), permettant une évaluation déterministe. Il intègre à la fois un raisonnement profond et une large agrégation d’informations au sein de tâches unifiées, et inclut un sous-ensemble dynamique avec des réponses périodiquement mises à jour pour résister à la mémorisation. Notamment, GISA fournit des trajectoires de recherche humaines complètes pour chaque requête, offrant des références de qualité or pour la supervision au niveau processus et l’apprentissage par imitation. Les expériences sur les LLM grand public et les produits de recherche commerciaux révèlent que même le modèle le plus performant n’atteint qu’un score de correspondance exacte de 19,30 %, avec une dégradation notable des performances sur les tâches nécessitant une planification complexe et une collecte d’information exhaustive. Ces résultats mettent en évidence une marge substantielle d’amélioration future.
L'exécution de tâches complexes en terminal reste un défi majeur pour les LLMs open-weight, entravée par deux limitations fondamentales. Premièrement, les environnements d'entraînement exécutables et de haute fidélité sont rares : les environnements synthétisés à partir de dépôts réels manquent de diversité et d'évolutivité, tandis que les trajectoires générées par les LLMs souffrent d'hallucinations. Deuxièmement, le réglage par instruction standard utilise des trajectoires expertes qui présentent rarement les erreurs simples communes aux modèles plus petits. Cela crée un décalage distributionnel, laissant les modèles étudiants mal préparés à récupérer de leurs propres erreurs d'exécution. Pour combler ces lacunes, nous présentons TermiGen, un pipeline de bout en bout pour synthétiser des environnements vérifiables et des trajectoires expertes résilientes. TermiGen génère d'abord des tâches fonctionnellement valides et des conteneurs Docker via une boucle de raffinement multi-agent itérative. Ensuite, nous employons un protocole Générateur-Critique qui injecte activement des erreurs lors de la collecte de trajectoires, synthétisant des données riches en cycles de correction d'erreurs. Fine-tuné sur cet ensemble de données généré par TermiGen, notre TermiGen-Qwen2.5-Coder-32B atteint un taux de réussite de 31,3% sur TerminalBench. Cela établit un nouvel état de l'art pour les modèles open-weight, surpassant les bases de référence existantes et dépassant notablement des modèles propriétaires performants comme o4-mini. Le jeu de données est disponible à l'adresse https://github.com/ucsb-mlsec/terminal-bench-env.
La génération de rapports de recherche approfondis nécessite une acquisition d'informations à grande échelle et la synthèse d'analyses fondées sur des insights, ce qui représente un défi majeur pour les modèles de langage actuels. La plupart des approches existantes suivent un paradigme planifier-puis-rédiger, dont les performances dépendent fortement de la qualité du plan initial. Cependant, la construction d'un plan complet exige elle-même une forte capacité de raisonnement, ce qui amène les systèmes de recherche approfondie actuels à dépendre presque exclusivement de grands modèles fermés ou en ligne. Cette dépendance crée des barrières pratiques au déploiement et soulève des préoccupations en matière de sécurité et de confidentialité pour les données des utilisateurs. Dans ce travail, nous présentons AgentCPM-Report, une solution locale légère mais performante composée d'un cadre qui reproduit le processus d'écriture humain et d'un agent de recherche approfondie de 8 milliards de paramètres. Notre cadre utilise une Politique d'Écriture comme Raisonnement (WARP), qui permet aux modèles de réviser dynamiquement les plans durant la génération du rapport. Selon cette politique, l'agent alterne entre une Rédaction Basée sur des Preuves et un Approfondissement Piloté par le Raisonnement, soutenant conjointement l'acquisition d'informations, l'affinement des connaissances et l'évolution itérative du plan. Pour doter efficacement les petits modèles de cette capacité, nous introduisons une stratégie d'Entraînement Agentique Multi-Étapes, comprenant un démarrage à froid, un RL de compétences atomiques et un RL de pipeline holistique. Les expériences sur DeepResearch Bench, DeepConsult et DeepResearch Gym démontrent qu'AgentCPM-Report surpasse les principaux systèmes fermés, avec des gains substantiels en matière d'Insight.
L'intelligence spatiale incarnée exige que les agents agissent pour acquérir des informations dans un contexte d'observabilité partielle. Si les modèles de fondation multimodaux excellent dans la perception passive, leur capacité à une exploration active et autodirigée reste peu étudiée. Nous proposons la Théorie de l'Espace, définie comme la capacité d'un agent à acquérir activement des informations par une exploration autodirigée et active, et à construire, réviser et exploiter une croyance spatiale à partir d'observations séquentielles et partielles. Nous évaluons cela via un benchmark où l'objectif est une exploration motivée par la curiosité pour construire une carte cognitive précise. Une innovation clé est le sondage des croyances spatiales, qui incite les modèles à révéler leurs représentations spatiales internes à chaque étape. Notre évaluation des modèles de pointe révèle plusieurs goulets d'étranglement critiques. Premièrement, nous identifions un Écart Actif-Passif, où les performances chutent significativement lorsque les agents doivent collecter des informations de manière autonome. Deuxièmement, nous constatons une forte inefficacité, car les modèles explorent de manière non systématique par rapport à des substituts programmés. Grâce au sondage des croyances, nous diagnostiquons que si la perception est un goulet d'étranglement initial, les croyances globales souffrent d'une instabilité qui entraîne une dégradation des connaissances spatiales au fil du temps. Enfin, en utilisant un paradigme de fausse croyance, nous mettons en évidence une Inertie des Croyances, où les agents ne parviennent pas à mettre à jour des a priori obsolètes avec de nouvelles preuves. Ce problème est présent chez les agents textuels mais est particulièrement sévère dans les modèles visuels. Nos résultats suggèrent que les modèles de fondation actuels peinent à maintenir des croyances spatiales cohérentes et révisables durant une exploration active.
Ce travail présente WorldCompass, un nouveau cadre de post-entraînement par Apprentissage par Renforcement (RL) pour les modèles du monde interactifs et de long horizon basés sur la vidéo, leur permettant d'explorer le monde de manière plus précise et cohérente en se basant sur des signaux d'interaction. Pour "orienter" efficacement l'exploration du modèle du monde, nous introduisons trois innovations clés adaptées au paradigme de génération vidéo autoregressive : 1) Stratégie de déploiement au niveau du clip : Nous générons et évaluons plusieurs échantillons pour un clip cible unique, ce qui améliore significativement l'efficacité du déploiement et fournit des signaux de récompense à granularité fine. 2) Fonctions de récompense complémentaires : Nous concevons des fonctions de récompense pour la précision du suivi des interactions et la qualité visuelle, qui fournissent une supervision directe et suppriment efficacement les comportements de détournement de récompense. 3) Algorithme de RL efficace : Nous utilisons une stratégie de réglage fin sensible aux négatifs, associée à diverses optimisations d'efficacité, pour améliorer de manière efficiente et efficace la capacité du modèle. Les évaluations sur WorldPlay, un modèle du monde open-source à l'état de l'art, démontrent que WorldCompass améliore significativement la précision des interactions et la fidélité visuelle dans divers scénarios.
Les grands modèles de langage (LLM) chimiques reposent principalement sur un enchaînement explicite de raisonnements (Chain-of-Thought, CoT) en langage naturel pour effectuer des raisonnements complexes. Cependant, le raisonnement chimique est intrinsèquement continu et structurel, et le forcer en tokens linguistiques discrets introduit une inadéquation fondamentale de représentation qui limite à la fois l'efficacité et les performances. Nous présentons LatentChem, une interface de raisonnement latent qui découple le calcul chimique de la génération textuelle, permettant aux modèles d'effectuer un raisonnement multi-étapes directement dans un espace latent continu tout en n'émettant du langage que pour les résultats finaux. De manière remarquable, nous observons un comportement émergent constant : lorsqu'ils sont optimisés uniquement pour la réussite de la tâche, les modèles internalisent spontanément le raisonnement, abandonnant progressivement les dérivations textuelles verbeuses au profit d'un calcul latent implicite. Ce changement n'est pas seulement stylistique mais computationnellement avantageux. Sur divers benchmarks de raisonnement chimique, LatentChem atteint un taux de victoire sans égalité de 59,88 % par rapport à des bases de référence solides basées sur CoT sur ChemCoTBench, tout en offrant une accélération moyenne de l'inférence de 10,84 fois. Nos résultats fournissent des preuves empiriques que le raisonnement chimique est réalisé de manière plus naturelle et plus efficace sous forme de dynamiques latentes continues plutôt que de trajectoires linguistiques discrétisées.
L'inférence à contexte long avec les modèles de langage de grande taille (LLM) est coûteuse en raison de l'attention quadratique et de la croissance des caches clé-valeur, ce qui motive la compression du contexte. Dans ce travail, nous étudions la compression douce du contexte, où un long contexte est condensé en un petit ensemble de représentations continues. Les méthodes existantes réutilisent généralement le LLM lui-même comme compresseur entraînable, en s'appuyant sur l'auto-attention couche par couche pour agréger itérativement l'information. Nous soutenons que ce paradigme souffre de deux limitations structurelles : (i) l'écrasement progressif des représentations à travers les couches, (ii) l'allocation non coordonnée de la capacité de compression entre les tokens. Nous proposons ComprExIT (Context Compression via Explicit Information Transmission), un cadre léger qui formule la compression douce en un nouveau paradigme : la transmission explicite d'informations sur des états cachés figés du LLM. Cela découple la compression de la dynamique interne d'auto-attention du modèle. ComprExIT effectue (i) une transmission en profondeur pour transmettre sélectivement des informations multi-couches vers des tokens ancres, atténuant l'écrasement progressif, et (ii) une transmission en largeur pour agréger les ancres en un petit nombre d'emplacements via un plan de transmission globalement optimisé, garantissant une allocation coordonnée de l'information. Sur six benchmarks de question-réponse, ComprExIT surpasse constamment les méthodes de compression de contexte les plus avancées tout en n'introduisant qu'environ 1 % de paramètres supplémentaires, démontrant que la transmission explicite et coordonnée de l'information permet une compression de contexte long plus efficace et robuste.
La déduction, l'induction et l'abduction sont des paradigmes fondamentaux du raisonnement, au cœur de la pensée logique humaine. Bien que l'amélioration du raisonnement des grands modèles de langage (LLM) ait suscité d'importants efforts de recherche, la mesure dans laquelle ces paradigmes fondamentaux induisent une généralisation n'a pas encore été systématiquement explorée. Dans cette étude, nous examinons comment l'interaction entre ces paradigmes fondamentaux influence le comportement raisonneur des LLM. Pour ce faire, nous collectons d'abord un nouveau jeu de données de trajectoires de raisonnement issues de tâches symboliques, chacune ciblant l'un des trois paradigmes fondamentaux, afin de s'abstraire des connaissances concrètes du monde. Ensuite, nous étudions des moyens efficaces d'induire ces compétences dans les LLM. Nous expérimentons une série de méthodes incluant le fine-tuning simple et des approches plus complexes pour augmenter la profondeur du modèle ou transformer un modèle dense en un mixture-of-experts. Nous évaluons de manière exhaustive les modèles induits sur des tâches réalistes hors domaine, entièrement formulées en langage naturel et contenant des connaissances du monde réel. Nos résultats révèlent que notre approche confère une forte capacité de généralisation avec des gains de performance substantiels (jusqu'à 14,60) sur les tâches réalistes.
Les grands modèles de raisonnement (LRM) obtiennent des performances élevées sur des tâches de raisonnement complexes en générant de longues trajectoires de raisonnement multi-étapes, mais la mise à l'échelle lors de l'inférence entraîne des coûts de déploiement substantiels. Un défi majeur réside dans le fait que la difficulté de génération varie au sein d'une même sortie, alors que les approches actuelles axées sur l'efficacité ignorent cette variation intra-génération ou reposent sur un routage supervisé au niveau des tokens avec une complexité système élevée. Nous présentons RelayGen, un cadre de commutation dynamique de modèles au niveau des segments, sans apprentissage, qui exploite la variation de difficulté dans le raisonnement long. Par une analyse hors ligne de l'incertitude de génération utilisant les marges de probabilité des tokens, nous montrons qu'un contrôle grossier au niveau des segments suffit pour capturer les transitions de difficulté dans une trajectoire de raisonnement. RelayGen identifie des signaux de commutation spécifiques aux modèles qui indiquent des transitions vers des segments de difficulté réduite et délègue dynamiquement leur continuation à un modèle plus petit, tout en préservant le raisonnement de haute difficulté sur le grand modèle. Sur plusieurs benchmarks de raisonnement, RelayGen réduit considérablement la latence d'inférence tout en préservant la majeure partie de la précision des grands modèles. Combiné au décodage spéculatif, RelayGen atteint jusqu'à 2,2 fois d'accélération de bout en bout avec moins de 2 % de dégradation de précision, sans nécessiter d'apprentissage supplémentaire ni de composants de routage appris.
La quantification par poids uniquement est devenue une approche standard pour servir efficacement les grands modèles de langage (LLM). Cependant, les méthodes existantes échouent à compresser efficacement les modèles jusqu'aux niveaux binaires (1-bit), car elles nécessitent soit de grandes quantités de données et de calcul, soit entraînent un stockage supplémentaire. Dans ce travail, nous proposons NanoQuant, la première méthode de quantification post-entraînement (PTQ) capable de compresser les LLM à la fois aux niveaux binaires et inférieurs à 1-bit. NanoQuant formule la quantification comme un problème de factorisation binaire de faible rang, et compresse les poids en pleine précision en matrices binaires de faible rang et en facteurs d'échelle. Plus précisément, elle utilise une méthode efficace de direction alternée des multiplicateurs (ADMM) pour initialiser précisément des matrices binaires latentes et les facteurs d'échelle, puis affine les paramètres initialisés via un processus de reconstruction par blocs et du modèle. Par conséquent, NanoQuant établit une nouvelle frontière de Pareto dans la quantification post-entraînement à faible mémoire, atteignant une précision de pointe même à des taux de compression inférieurs à 1-bit. NanoQuant rend le déploiement à grande échelle réalisable sur du matériel grand public. Par exemple, il compresse Llama2-70B par un facteur de 25,8 en seulement 13 heures sur un seul H100, permettant à un modèle de 70B de fonctionner sur un GPU grand public de 8 Go.
Les modèles de base, incluant les grands modèles de langage (LLM), les grands modèles de langage multimodaux (MLLM), les modèles génératifs d'images (c'est-à-dire les modèles texte-image et les modèles de retouche d'image), et les modèles génératifs vidéo, sont devenus des outils essentiels avec des applications étendues dans divers domaines tels que le droit, la médecine, l'éducation, la finance, les sciences et au-delà. Alors que ces modèles sont déployés de plus en plus dans le monde réel, garantir leur fiabilité et leur responsabilité est devenu crucial pour le monde universitaire, l'industrie et les gouvernements. Cette étude aborde le développement fiable et responsable des modèles de base. Nous explorons des problèmes critiques, incluant les biais et l'équité, la sécurité et la vie privée, l'incertitude, l'explicabilité et le décalage de distribution. Notre recherche couvre également les limitations des modèles, telles que les hallucinations, ainsi que des méthodes comme l'alignement et la détection de contenu généré par intelligence artificielle (AIGC). Pour chaque domaine, nous passons en revue l'état actuel de la recherche et esquissons des orientations futures concrètes. De plus, nous discutons des intersections entre ces domaines, en soulignant leurs connexions et les défis communs. Nous espérons que notre étude favorisera le développement de modèles de base qui sont non seulement puissants, mais aussi éthiques, dignes de confiance, fiables et socialement responsables.
Récemment, les modèles de diffusion vidéo autorégressifs (AR) ont obtenu des performances remarquables. Cependant, en raison de leurs durées d'entraînement limitées, un écart entre l'entraînement et les tests apparaît lors d'évaluations sur des horizons temporels plus longs, entraînant une dégradation visuelle rapide. Faisant suite à Self Forcing, qui étudie cet écart dans la durée d'entraînement, ce travail étudie l'écart au-delà de cette durée, c'est-à-dire l'écart entre les horizons limités pendant l'entraînement et les horizons ouverts pendant les tests. Étant donné que les tests ouverts peuvent s'étendre au-delà de toute fenêtre d'entraînement finie, et que l'entraînement sur de longues vidéos est très coûteux en calcul, nous poursuivons une solution sans entraînement supplémentaire pour combler cet écart. Pour explorer une solution sans entraînement, nous menons une analyse systématique de la maintenance du cache AR. Ces observations mènent à Rolling Sink. Basée sur Self Forcing (entraîné sur des clips de seulement 5 secondes), Rolling Sink permet de passer efficacement à l'échelle la synthèse vidéo AR vers des durées ultra-longues (par exemple, 5 à 30 minutes à 16 FPS) au moment du test, avec des sujets cohérents, des couleurs stables, des structures homogènes et des mouvements fluides. Comme le démontrent des expériences approfondies, Rolling Sink atteint une fidélité visuelle et une cohérence temporelle sur de longs horizons supérieures à celles des lignes de base de l'état de l'art. Page du projet : https://rolling-sink.github.io/
Malgré les progrès rapides des modèles de langage multimodaux (MLLM), le raisonnement spatial visuel reste peu fiable lorsque les réponses correctes dépendent de l'apparence d'une scène sous des angles de vue non observés ou alternatifs. Des travaux récents abordent ce problème en enrichissant le raisonnement avec des modèles du monde pour l'imagination visuelle, mais des questions telles que quand l'imagination est réellement nécessaire, dans quelle mesure elle est bénéfique, et quand elle devient néfaste, restent mal comprises. En pratique, une imagination non discriminante peut augmenter les calculs et même dégrader les performances en introduisant des preuves trompeuses. Dans ce travail, nous présentons une analyse approfondie de l'imagination visuelle au moment du test en tant que ressource contrôlable pour le raisonnement spatial. Nous étudions quand les preuves visuelles statiques sont suffisantes, quand l'imagination améliore le raisonnement, et comment une imagination excessive ou inutile affecte la précision et l'efficacité. Pour étayer cette analyse, nous introduisons AVIC, un cadre adaptatif au moment du test avec des modèles du monde qui raisonne explicitement sur la suffisance des preuves visuelles actuelles avant d'invoquer et de mettre à l'échelle sélectivement l'imagination visuelle. Sur des benchmarks de raisonnement spatial (SAT, MMSI) et un benchmark de navigation incarnée (R2R), nos résultats révèlent des scénarios clairs où l'imagination est critique, marginale ou préjudiciable, et montrent qu'un contrôle sélectif peut égaler ou surpasser les stratégies d'imagination fixes avec nettement moins d'appels au modèle du monde et de tokens de langage. Globalement, nos résultats soulignent l'importance d'analyser et de contrôler l'imagination au moment du test pour un raisonnement spatial efficace et fiable.
La génération de procédures pas-à-pas est une capacité fondamentale des grands modèles de langage : les conseils pratiques sont fréquemment demandés dans les chatbots, et la planification séquentielle est cruciale pour le raisonnement sur des tâches complexes. Pourtant, mesurer et améliorer la validité procédurale à grande échelle sur des tâches réelles reste un défi peu étudié. Pour y remédier, nous présentons How2Everything, un cadre évolutif pour évaluer et améliorer la génération de procédures conditionnées par un objectif. Notre cadre inclut How2Mine, qui extrait 351 000 procédures de 980 000 pages web couvrant 14 thèmes et peut facilement être étendu à des corpus plus vastes. À partir de cet ensemble, nous construisons How2Bench, un jeu d'évaluation de 7 000 exemples équilibré entre les thèmes. Pour évaluer les sorties des modèles de manière fiable, nous développons How2Score, un protocole d'évaluation utilisant un modèle LLM comme juge pour détecter si une génération contient une erreur critique empêchant d'atteindre l'objectif. Pour une évaluation reproductible et peu coûteuse, nous distillons un modèle de pointe en un modèle ouvert de 8B paramètres, atteignant un accord de 80,5 % avec des annotateurs humains. How2Bench révèle des tendances d'évolutivité nettes selon la taille des modèles et les étapes d'entraînement, fournissant un signal dès le pré-entraînement. Enfin, l'apprentissage par renforcement utilisant How2Score comme fonction de récompense améliore les performances sur How2Bench de plus de 10 points sur trois modèles, sans régression systématique sur les benchmarks standards, avec des gains robustes face à la mémorisation superficielle des documents sources ou au respect du format. Globalement, How2Everything démontre comment les données web de pré-entraînement peuvent soutenir une boucle fermée d'évaluation et d'amélioration des capacités à grande échelle.
L'incitation au raisonnement est apparue comme une technique puissante pour améliorer les performances des grands modèles de langage (LLM) sur des tâches complexes en induisant une réflexion. Cependant, leur efficacité dans des scénarios réalistes d'agents interactifs avec des utilisateurs reste incertaine. Dans cet article, nous menons une étude exhaustive sur l'effet d'une réflexion explicite dans les agents LLM engagés avec des utilisateurs. Nos expériences couvrent sept modèles, trois benchmarks et deux instanciations de raisonnement, que nous évaluons à la fois par une analyse taxonomique quantitative des réponses et par des études de cas qualitatives sur la propagation des échecs. Contrairement aux attentes, nous constatons qu'une réflexion obligatoire se retourne souvent contre les agents dans des contextes interactifs, entraînant une dégradation anormale des performances across divers LLM. Notre découverte clé révèle que la réflexion rend les agents plus « introvertis » en raccourcissant les réponses et en réduisant la divulgation d'informations aux utilisateurs, ce qui affaiblit l'échange d'informations entre l'agent et l'utilisateur et conduit à des échecs dans les tâches en aval. De plus, nous démontrons qu'inciter explicitement à la divulgation d'informations améliore de manière fiable les performances across différentes familles de modèles, suggérant que la transparence proactive est un levier essentiel pour l'optimisation des agents. Globalement, notre étude indique que la conscience de la transparence informationnelle est une perspective cruciale mais encore peu explorée pour la conception future d'agents raisonneurs dans des scénarios réels. Notre code est disponible à l'adresse https://github.com/deeplearning-wisc/Thinking-Agent.
Les paradigmes actuels de vérification de code reposent fortement sur des mécanismes externes - tels que des tests unitaires basés sur l'exécution ou des juges LLM auxiliaires - qui sont souvent laborieux ou limités par les capacités propres du modèle évaluateur. Cela soulève une question fondamentale mais encore inexplorée : la correction fonctionnelle d'un LLM peut-elle être évaluée uniquement à partir de sa structure computationnelle interne ? Notre objectif principal est d'étudier si les dynamiques neuronales du modèle encodent des signaux internes décodables qui sont prédictifs de la validité logique lors de la génération de code. Inspirés par l'interprétabilité mécaniste, nous proposons de traiter la vérification de code comme une tâche de diagnostic mécaniste, en cartographiant la trajectoire algorithmique explicite du modèle en graphes d'attribution au niveau ligne. En décomposant les flux résiduels complexes, nous visons à identifier les signatures structurelles qui distinguent le raisonnement valide de l'échec logique au sein des circuits internes du modèle. L'analyse menée sur Python, C++ et Java confirme que les signaux de correction intrinsèques sont robustes across différentes syntaxes. Les caractéristiques topologiques de ces graphes internes prédisent la correction plus fidèlement que les heuristiques de surface et permettent des interventions causales ciblées pour corriger la logique erronée. Ces résultats établissent l'introspection interne comme une propriété décodable pour vérifier le code généré. Notre code est disponible à l'adresse https://github.com/bruno686/CodeCircuit.
Le développement de l'intelligence artificielle peut être considéré comme une évolution des paradigmes d'apprentissage fondés sur les données, où des changements successifs dans l'organisation et l'utilisation des données ont continuellement stimulé les progrès des capacités des modèles. La recherche actuelle sur les grands modèles de langage (LLM) est dominée par un paradigme qui repose largement sur une augmentation unidirectionnelle de la taille des données, rencontrant de plus en plus des goulots d'étranglement liés à la disponibilité des données, au coût d'acquisition et à l'efficacité de l'entraînement. Dans ce travail, nous soutenons que le développement de l'AGI entre dans une nouvelle phase de coévolution données-modèles, dans laquelle les modèles guident activement la gestion des données tandis que des données de haute qualité, en retour, amplifient les capacités des modèles. Pour mettre en œuvre cette vision, nous proposons un cadre de gestion hiérarchisée des données, conçu pour soutenir l'ensemble du cycle de vie de l'entraînement des LLM, couvrant des objectifs d'apprentissage hétérogènes et des contraintes de coût variables. Plus précisément, nous introduisons un cadre de gestion hiérarchisée des données de niveaux L0 à L4, allant des ressources brutes non organisées aux connaissances organisées et vérifiables. Il est important de noter que les LLM sont pleinement utilisés dans les processus de gestion des données, tels que l'évaluation de la qualité et l'édition du contenu, pour raffiner les données à travers les différents niveaux. Chaque niveau se caractérise par des propriétés de données, des stratégies de gestion et des rôles dans l'entraînement distincts, permettant une allocation stratégique des données à travers les différentes phases d'entraînement des LLM, incluant le pré-entraînement, l'entraînement intermédiaire et l'alignement. Le cadre équilibre la qualité des données, le coût d'acquisition et le bénéfice marginal de l'entraînement, offrant une approche systématique pour une gestion des données évolutive et durable. Nous validons l'efficacité du cadre proposé par des études empiriques, dans lesquelles des ensembles de données hiérarchisés sont construits à partir de corpus bruts et utilisés à travers de multiples phases d'entraînement. Les résultats expérimentaux démontrent qu'une utilisation des données tenant compte de leur niveau hiérarchique améliore significativement l'efficacité de l'entraînement et les performances du modèle. Pour faciliter les recherches futures, nous mettons à disposition de la communauté nos ensembles de données hiérarchisés et nos outils de traitement.
L'apprentissage par renforcement (RL) est largement utilisé pour le contrôle des humanoïdes, les méthodes *on-policy* telles que l'Optimisation Proximale des Politiques (PPO) permettant un entraînement robuste via une simulation parallèle à grande échelle et, dans certains cas, un déploiement *zero-shot* sur des robots réels. Cependant, la faible efficacité en échantillons des algorithmes *on-policy* limite l'adaptation en sécurité à de nouveaux environnements. Bien que le RL *off-policy* et le RL basé sur modèle aient démontré une meilleure efficacité en échantillons, l'écart entre le pré-entraînement à grande échelle et le réglage fin efficace sur les humanoïdes persiste. Dans cet article, nous montrons que la méthode *off-policy* Soft Actor-Critic (SAC), avec une mise à jour par grands lots et un ratio élevé de Mises à Jour par Rapport aux Données (UTD), supporte de manière fiable le pré-entraînement à grande échelle de politiques de locomotion pour humanoïdes, permettant un déploiement *zero-shot* sur des robots réels. Pour l'adaptation, nous démontrons que ces politiques pré-entraînées par SAC peuvent être affinées dans de nouveaux environnements et pour des tâches hors-distribution à l'aide de méthodes basées sur modèle. La collecte de données dans le nouvel environnement exécute une politique déterministe tandis que l'exploration stochastique est confinée à un modèle du monde informé par la physique. Cette séparation atténue les risques de l'exploration aléatoire durant l'adaptation tout en préservant une couverture exploratoire pour l'amélioration. Globalement, l'approche combine l'efficacité en temps réel de la simulation à grande échelle lors du pré-entraînement avec l'efficacité en échantillons de l'apprentissage basé sur modèle lors du réglage fin.
Nous présentons MotionCrafter, un cadre basé sur la diffusion vidéo qui reconstruit conjointement la géométrie 4D et estime le mouvement dense à partir d'une vidéo monoculaire. Le cœur de notre méthode repose sur une nouvelle représentation conjointe de cartes de points 3D denses et de flux scéniques 3D dans un système de coordonnées partagé, ainsi que sur un nouveau VAE 4D pour apprendre efficacement cette représentation. Contrairement aux travaux antérieurs qui forcent les valeurs 3D et les latentes à s'aligner strictement sur les latentes des VAE RVB – malgré leurs distributions fondamentalement différentes – nous montrons qu'un tel alignement est inutile et conduit à des performances sous-optimales. Nous introduisons plutôt une nouvelle stratégie de normalisation des données et d'entraînement du VAE qui transfère mieux les préalables de diffusion et améliore considérablement la qualité de la reconstruction. Des expériences approfondies sur plusieurs jeux de données démontrent que MotionCrafter atteint des performances de pointe à la fois en reconstruction géométrique et en estimation de flux scénique dense, offrant des améliorations de 38,64 % et 25,0 % respectivement en reconstruction géométrique et motrice, le tout sans aucune post-optimisation. Page du projet : https://ruijiezhu94.github.io/MotionCrafter_Page
Si les dernières années ont connu des progrès rapides en synthèse vocale, les systèmes open-source de synthèse de voix chantée (SVC) rencontrent encore d'importants obstacles pour un déploiement industriel, notamment en termes de robustesse et de généralisation zero-shot. Dans ce rapport, nous présentons SoulX-Singer, un système open-source de SVC de haute qualité conçu en tenant compte des impératifs de déploiement pratique. SoulX-Singer prend en charge la génération contrôlée du chant conditionnée soit par des partitions musicales symboliques (MIDI), soit par des représentations mélodiques, permettant un contrôle flexible et expressif dans les workflows de production réels. Entraîné sur plus de 42 000 heures de données vocales, le système prend en charge le mandarin, l'anglais et le cantonais, et obtient systématiquement une qualité de synthèse à la pointe de l'état de l'art across languages dans diverses conditions musicales. Par ailleurs, pour permettre une évaluation fiable des performances zero-shot de la SVC dans des scénarios pratiques, nous avons constitué SoulX-Singer-Eval, un benchmark dédié avec une stricte séparation apprentissage-test, facilitant l'évaluation systématique en settings zero-shot.
L'obtention d'une locomotion stable et économe en énergie est essentielle pour que les robots humanoïdes puissent fonctionner en continu dans des applications réelles. Les approches existantes de MPC (Commande Prédictive) et d'Apprentissage par Renforcement (RL) reposent souvent sur des métriques liées à l'énergie intégrées dans un cadre d'optimisation multi-objectifs, ce qui nécessite un réglage extensif des hyperparamètres et aboutit souvent à des politiques sous-optimales. Pour relever ces défis, nous proposons ECO (Optimisation sous Contrainte Énergétique), un cadre de RL contraint qui sépare les métriques énergétiques des récompenses, en les reformulant comme des contraintes d'inégalité explicites. Cette méthode fournit une représentation physique claire et interprétable des coûts énergétiques, permettant un réglage des hyperparamètres plus efficace et intuitif pour une meilleure efficacité énergétique. ECO introduit des contraintes dédiées pour la consommation d'énergie et le mouvement de référence, appliquées par la méthode Lagrangienne, afin de réaliser une marche stable, symétrique et économe en énergie pour les robots humanoïdes. Nous avons évalué ECO par rapport à la MPC, au RL standard avec façonnage de récompense et à quatre méthodes de RL contraintes de l'état de l'art. Les expériences, incluant des transferts sim-to-sim et sim-to-real sur le robot humanoïde de taille enfant BRUCE, démontrent qu'ECO réduit significativement la consommation d'énergie par rapport aux méthodes de référence tout en maintenant des performances de marche robustes. Ces résultats mettent en évidence une avancée substantielle dans la locomotion éco-énergétique pour les humanoïdes. Toutes les démonstrations expérimentales sont disponibles sur le site web du projet : https://sites.google.com/view/eco-humanoid.
Les modèles de récompense (RMs) sont cruciaux pour l'entraînement des grands modèles de langage (LLMs), mais ils reposent généralement sur de vastes ensembles de paires de préférences annotées manuellement. Avec le déploiement généralisé des LLMs, les interactions en conditions réelles sont devenues une source riche de signaux de récompense implicites. Cela soulève la question : pouvons-nous développer des modèles de récompense directement à partir des interactions en conditions réelles ? Dans ce travail, nous explorons cette possibilité en adoptant WildChat comme source d'interactions et en proposant une pipeline pour extraire des retours humains fiables, produisant 186 000 instances de haute qualité pour entraîner WildReward via une régression ordinale directement sur les retours utilisateurs sans paires de préférences. Des expériences approfondies démontrent que WildReward atteint des performances comparables voire supérieures aux modèles de récompense conventionnels, avec une meilleure calibration et une cohérence inter-échantillons améliorée. Nous observons également que WildReward bénéficie directement de la diversité des utilisateurs, où un plus grand nombre d'utilisateurs produit des modèles de récompense plus performants. Enfin, nous appliquons WildReward à l'entraînement DPO en ligne et observons des améliorations significatives sur diverses tâches. Le code et les données sont disponibles à l'adresse https://github.com/THU-KEG/WildReward.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu une méthode essentielle pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Cependant, l'entraînement continu entraîne souvent un effondrement de l'entropie de la politique, caractérisé par une décroissance rapide de l'entropie qui provoque une surconfiance prématurée, une réduction de la diversité des sorties et une disparition des normes de gradient qui inhibent l'apprentissage. L'écrêtage préservant le gradient est un facteur clé influençant ces dynamiques, mais les stratégies d'atténuation existantes sont largement statiques et manquent d'un cadre reliant les mécanismes d'écrêtage au contrôle précis de l'entropie. Cet article propose de repenser le contrôle de l'entropie en RL sous l'angle de l'écrêtage préservant le gradient. Nous vérifions d'abord théoriquement et empiriquement les contributions de régions spécifiques du ratio d'échantillonnage d'importance à la croissance et à la réduction de l'entropie. En nous appuyant sur ces résultats, nous introduisons un nouveau mécanisme de régulation utilisant un seuil d'écrêtage dynamique pour gérer précisément l'entropie. De plus, nous concevons et évaluons des stratégies de contrôle dynamique de l'entropie, incluant une augmentation puis diminution, une diminution-augmentation-diminution et une décroissance oscillatoire. Les résultats expérimentaux démontrent que ces stratégies atténuent efficacement l'effondrement de l'entropie et obtiennent des performances supérieures sur plusieurs benchmarks.
L'allocation du calcul au moment du test dans les grands modèles de raisonnement (LRM) est largement utilisée et trouve des applications dans la résolution de problèmes mathématiques, la synthèse de code et la planification. Des travaux récents ont abordé ce problème en augmentant l'auto-cohérence et la pensée parallèle, en ajoutant des « jetons de pensée » génériques et en incitant les modèles à relire la question avant de répondre. Malheureusement, ces approches injectent soit des jetons indépendants de la tâche, soit imposent des heuristiques qui n'expliquent pas – et ignorent souvent – la répétition spontanée que de nombreux LRM présentent en tête de leurs chaînes internes. En revanche, nous analysons et exploitons la tendance du modèle à reformuler la question, que nous appelons l'Écho de l'Invite (EOP), comme un mécanisme de façonnage du calcul en amont. Nous formalisons son coût probabiliste en considérant la suppression de l'écho comme un conditionnement par rejet et en définissant l'Écart de Vraisemblance de l'Écho ΔL comme un proxy calculable. Cela fournit le lien théorique manquant qui relie la répétition précoce aux gains de vraisemblance et à la précision en aval. Cependant, cela ne spécifie pas en soi comment exploiter l'EOP. Par conséquent, nous développons l'Apprentissage Supervisé Distillé par l'Écho (ED-SFT) pour inculquer un schéma « écho-puis-raisonnement » par apprentissage supervisé avec fine-tuning, et l'Invitation Échoïque (EP) pour ré-ancrer le modèle en cours de raisonnement sans entraînement. Bien que prometteurs, quantifier les bénéfices au-delà de la verbosité est non trivial. Par conséquent, nous menons des analyses de vraisemblance contrôlées par la longueur et le suffixe, ainsi que des études d'attention par couche, montrant que l'EOP augmente l'attention de la réponse vers le préfixe de la réponse dans les couches intermédiaires, ce qui est cohérent avec un mécanisme de recentrage de l'attention. Nous évaluons sur GSM8K, MathQA, Hendrycks-MATH, AIME24 et MATH-500 dans des conditions de décodage et des budgets identiques, et constatons des gains constants par rapport aux lignes de base. Le code est disponible à l'adresse https://github.com/hhh2210/echoes-as-anchors.
Les systèmes agentiels sont évalués sur des benchmarks où les agents interagissent avec des environnements pour résoudre des tâches. La plupart des articles rapportent un score pass@1 calculé à partir d'une seule exécution par tâche, en supposant que cela donne une estimation fiable des performances. Nous testons cette hypothèse en collectant 60 000 trajectoires agentielles sur SWE-Bench-Verified, couvrant trois modèles et deux échafaudages. Nous constatons une variance substantielle : les estimations pass@1 à une seule exécution varient de 2,2 à 6,0 points de pourcentage selon l'exécution sélectionnée, avec des écarts-types dépassant 1,5 point de pourcentage même à température 0. Cette variance a des implications critiques : les améliorations rapportées de 2 à 3 points de pourcentage peuvent refléter du bruit d'évaluation plutôt qu'un progrès algorithmique réel. Par une analyse au niveau des tokens, nous montrons que les trajectoires divergent tôt, souvent dans les premiers pourcents de tokens, et que ces petites différences se propagent en différentes stratégies de résolution. Pour permettre une évaluation fiable des systèmes agentiels, nous recommandons trois pratiques concrètes : (1) estimer pass@1 à partir de multiples exécutions indépendantes par tâche, surtout lors de la mesure de petites améliorations, (2) utiliser une analyse de puissance statistique pour déterminer le nombre d'exécutions nécessaires pour détecter les tailles d'effet attendues, et (3) considérer des métriques comme pass@k (borne optimiste) et pass^k (borne pessimiste) avec k>1 pour mieux caractériser l'enveloppe complète des performances. Bien que ces pratiques augmentent le coût de l'évaluation, elles sont essentielles pour distinguer le progrès scientifique réel du bruit statistique.
La tokenisation est un choix de conception crucial pour la modélisation neuronale du langage dans les langues à morphologie riche (LMR) comme le turc, où l'agglutination productive pose des défis à la fois pour l'efficacité du vocabulaire et la fidélité morphologique. Les études antérieures ont exploré les familles de tokenizers et les tailles de vocabulaire, mais elles varient généralement (i) le vocabulaire sans contrôler systématiquement le corpus d'entraînement du tokenizer, (ii) fournissent des diagnostics intrinsèques limités, et (iii) évaluent un éventail restreint de tâches en aval. Nous présentons la première étude complète et méthodique de la tokenisation par sous-mots pour le turc ; un « manifeste des sous-mots », qui fait varier conjointement la taille du vocabulaire et la taille du corpus d'entraînement du tokenizer (couplage données et vocabulaire), compare plusieurs familles de tokenizers sous des budgets de paramètres équivalents (WordPiece, niveau morphologique et modèles de base caractère), et évalue sur des tâches sémantiques (INF, STS, analyse de sentiments, REC), syntaxiques (Étiquetage morphosyntaxique, analyse des dépendances) et des sondages sensibles à la morphologie. Pour expliquer pourquoi les tokenizers réussissent ou échouent, nous introduisons une boîte à outils de diagnostic sensible à la morphologie qui va au-delà des agrégats grossiers pour inclure la micro/macro F1 au niveau des frontières, l'atomicité des lemmes découplée par rapport aux correspondances de frontières de surface, les indices de sur/sous-segmentation, les distances d'édition caractère/mot (CER/WER), les taux de continuation, ainsi que la couverture par type d'affixe et l'atomicité au niveau des tokens. Nos contributions sont quadruples : (i) une investigation systématique de la triade corpus-vocabulaire-succès ; (ii) un cadre d'évaluation unifié et sensible à la morphologie reliant les diagnostics intrinsèques aux résultats extrinsèques ; (iii) des comparaisons contrôlées identifiant quand la tokenisation au niveau caractère et au niveau morphologique est bénéfique ; et (iv) la publication en open-source du code d'évaluation, des pipelines de tokenizers et des modèles. En tant que premier travail de ce genre, ce « manifeste des sous-mots » fournit des conseils pratiques pour construire des tokenizers efficaces dans les LMR et établit une base reproductible pour les recherches futures.
La compréhension des émotions est essentielle pour développer des agents socialement intelligents. Bien que les modèles de langage multimodaux récents aient démontré de fortes performances sur cette tâche, deux défis majeurs persistent : les associations fallacieuses entre émotions et indices audiovisuels non pertinents, et les hallucinations d’indices audiovisuels induites par les a priori textuels du modèle de langage sous-jacent. Pour quantifier et comprendre ces problèmes, nous présentons EmoReAlM, un benchmark conçu pour évaluer les associations indice-émotion, les hallucinations et l’accord intermodal des MLLMs. Nous proposons ensuite AVEm-DPO, une technique d’optimisation par préférence qui aligne les réponses du modèle à la fois sur les entrées audiovisuelles et les requêtes centrées sur l’émotion. Concrètement, nous construisons des préférences entre des réponses présentant des associations fallacieuses ou des hallucinations, et des paires d’entrées audiovisuelles guidées par des prompts textuels. Nous incluons également un terme de régularisation qui pénalise la dépendance aux a priori textuels, atténuant ainsi les hallucinations d’indices spécifiques à une modalité. Les résultats expérimentaux sur DFEW, RAVDESS et EMER montrent que notre méthode améliore significativement les performances des modèles de référence, avec des gains relatifs de 6 à 19 % en configuration zero-shot. En proposant à la fois un benchmark rigoureux et un cadre d’optimisation robuste, ce travail permet une évaluation et une amélioration méthodiques des MLLMs pour la compréhension des émotions et l’IA sociale. Le code, les modèles et le benchmark seront disponibles à l’adresse https://avere-iclr.github.io.
Les récentes avancées dans les architectures de mélange d'experts ont montré que les modèles experts individuels peuvent être entraînés de manière fédérée, c'est-à-dire isolément des autres experts, en utilisant un modèle de base commun pour faciliter la coordination. Cependant, nous émettons l'hypothèse que des experts de taille complète ne sont pas nécessaires pour tous les domaines et que des adaptateurs de faible rang pourraient suffire. Nous présentons ici FlexMoRE, un Mélange Flexible d'Experts à Rangs Hétérogènes, qui peut être composé soit d'experts de taille complète, soit d'adaptateurs d'un rang approprié. Nous étudions systématiquement le compromis entre le rang de l'expert et les performances sur les tâches en aval en évaluant 6 experts avec des rangs de 2^0 à 2^14, ce qui donne des expériences couvrant 150 mélanges (96 avec 2 experts, 54 avec 7 experts) évalués sur 120 tâches. Pour nos expériences, nous nous appuyons sur FlexOlmo et transformons ses experts pré-entraînés en versions de faible rang. Notre analyse de régression allant du rang de l'expert aux performances sur les tâches en aval révèle que le rang optimal est nettement plus élevé pour les benchmarks axés sur le raisonnement que pour ceux axés sur les connaissances. Ces résultats sur la sensibilité au rang ont des implications directes pour l'efficacité mémoire : En utilisant des rangs optimaux, FlexMoRE offre de meilleures performances sur les tâches en aval (score moyen de 47,18) par rapport au mélange de base de type FlexOlmo avec des experts de taille complète (score moyen de 45,46), et ce avec moins d'un tiers des paramètres (10,75B pour FlexMoRE contre 33,27B pour FlexOlmo). Tout le code sera rendu public.
Les modèles de langage modernes (LM) ont tendance à mémoriser des portions de leurs données d'entraînement et à émettre des séquences textuelles verbatim. Lorsque les sources sous-jacentes sont sensibles ou protégées par le droit d'auteur, une telle reproduction soulève des questions de consentement et de rémunération pour les créateurs, ainsi que des risques de conformité pour les développeurs. Nous proposons Anchored Decoding (Décodage Ancré), une méthode plug-and-play utilisable lors de l'inférence pour supprimer la copie verbatim : elle permet de décoder à partir de tout LM risqué entraîné sur des données sous licences mixtes en maintenant la génération à une proximité bornée d'un LM sûr entraîné de manière permissive. Anchored Decoding alloue de manière adaptative un budget d'information choisi par l'utilisateur sur la trajectoire de génération et applique des contraintes par étape qui produisent une garantie au niveau de la séquence, permettant un compromis ajustable entre risque et utilité. Pour rendre Anchored Decoding utile en pratique, nous présentons un nouveau modèle sûr entraîné de manière permissive (TinyComma 1.8B), ainsi qu'Anchored_{Byte} Decoding (Décodage Ancré au niveau des octets), une variante de notre méthode au niveau des octets qui permet une fusion inter-vocabulaire via le cadre ByteSampler (Hayase et al., 2025). Nous évaluons nos méthodes sur six paires de modèles via des évaluations longues du risque de copyright et de l'utilité. Anchored et Anchored_{Byte} Decoding définissent une nouvelle frontière de Pareto, préservant une fluidité et une factualité quasi-originales tout en éliminant jusqu'à 75 % de l'écart de copie mesurable (moyenné sur six métriques de copie) entre le modèle risqué de référence et une référence sûre, avec une surcharge d'inférence modeste.
Les grands modèles de langage utilisent des caches KV pour éviter les calculs redondants lors du décodage autorégressif, mais avec l'augmentation de la longueur du contexte, la lecture et l'écriture du cache peuvent rapidement saturer la bande passante mémoire des GPU. Des travaux récents ont exploré la compression des caches KV, mais la plupart des approches négligent la nature dépendante des données de ces caches et leur variation entre les couches. Nous présentons KV-CoRE (KV-cache Compressibility by Rank Evaluation), une méthode basée sur la SVD pour quantifier la compressibilité en bas rang dépendante des données des caches KV. KV-CoRE calcule l'approximation optimale en bas rang sous la norme de Frobenius et, étant sans gradient et incrémentale, permet une évaluation efficace au niveau du jeu de données et par couche. En utilisant cette méthode, nous analysons plusieurs modèles et jeux de données couvrant cinq domaines de l'anglais et seize langues, révélant des motifs systématiques liant la compressibilité à l'architecture du modèle, aux données d'entraînement et à la couverture linguistique. Dans le cadre de cette analyse, nous utilisons le Rang Effectif Normalisé comme métrique de compressibilité et montrons qu'il corrèle fortement avec la dégradation des performances sous compression. Notre étude établit un cadre d'évaluation principiel et le premier benchmark à grande échelle de la compressibilité des caches KV dans les LLM, offrant des perspectives pour une compression dynamique et consciente des données, ainsi que pour le développement de modèles centrés sur les données.
Les récupérateurs à interaction tardive multi-vecteurs comme ColBERT atteignent une qualité de récupération à la pointe de l'état de l'art, mais leur coût au moment de la requête est dominé par le calcul exhaustif des interactions MaxSim au niveau des tokens pour chaque document candidat. Bien que l'approximation de l'interaction tardive avec des représentations mono-vecteurs réduise le coût, elle entraîne souvent une perte de précision substantielle. Nous présentons Col-Bandit, un algorithme d'élagage au moment de la requête qui réduit cette charge computationnelle en reformulant le reclassement comme un problème d'identification Top-K sur une population finie. Col-Bandit maintient des bornes tenant compte de l'incertitude sur les scores de documents partiellement observés et révèle de manière adaptative uniquement les entrées MaxSim (document, token de requête) nécessaires pour déterminer les meilleurs résultats sous des bornes décisionnelles statistiques avec une relaxation ajustable. Contrairement aux approches granuleuses qui élaguent des documents ou des tokens entiers hors ligne, Col-Bandit éparsifie la matrice d'interaction à la volée. Il fonctionne comme une couche universelle, prête à l'emploi, pour les systèmes multi-vecteurs standards, sans nécessiter de modifications d'index, de prétraitement hors ligne ou de réentraînement du modèle. Les expériences sur les benchmarks textuels (BEIR) et multimodaux (REAL-MM-RAG) montrent que Col-Bandit préserve la fidélité du classement tout en réduisant les FLOPs MaxSim jusqu'à 5 fois, indiquant que le scoring dense par interaction tardive contient une redondance substantielle qui peut être identifiée et élaguée efficacement au moment de la requête.
Les compétences d'agent étendent les capacités des agents de grands modèles de langage (LLM) avec des modules réutilisables, semblables à des programmes, qui définissent des conditions de déclenchement, une logique procédurale et des interactions avec des outils. Alors que ces compétences prolifèrent sur les places de marché publiques, il reste flou de savoir quels types sont disponibles, comment les utilisateurs les adoptent et quels risques elles posent. Pour répondre à ces questions, nous menons une analyse quantitative à grande échelle de 40 285 compétences listées publiquement sur une place de marché majeure. Nos résultats montrent que la publication de compétences tend à se produire par courtes impulsions suivant les fluctuations de l'attention communautaire. Nous constatons également que le contenu des compétences est fortement concentré sur les flux de travail de génie logiciel, tandis que la recherche d'information et la création de contenu représentent une part substantielle de l'adoption. Au-delà des tendances de contenu, nous mettons en évidence un déséquilibre prononcé entre l'offre et la demande selon les catégories, et nous montrons que la plupart des compétences restent dans des budgets de contexte typiques malgré une distribution des longueurs à queue lourde. Enfin, nous observons une forte homogénéité de l'écosystème, avec une redondance généralisée au niveau des intentions, et nous identifions des risques de sécurité non négligeables, incluant des compétences permettant des actions modifiant l'état du système ou opérant à un niveau système. Globalement, nos résultats fournissent un instantané quantitatif des compétences d'agent en tant que couche d'infrastructure émergente pour les agents et éclairent les travaux futurs sur la réutilisation, la standardisation et la conception sécurisée des compétences.
Les équations aux dérivées partielles offrent une modélisation précise des phénomènes physiques, biologiques et graphiques. Cependant, les méthodes numériques souffrent de la malédiction de la dimension, de coûts de calcul élevés et d'une discrétisation spécifique au domaine. Nous visons à explorer les avantages et inconvénients des différents solveurs d'EDP, et à les appliquer à des problèmes de simulation scientifique spécifiques, incluant la résolution directe, les problèmes inverses et la découverte d'équations. En particulier, nous étendons le solveur récent du cadre CNF (NeurIPS 2023) à des configurations à variables dépendantes multiples et non linéaires, ainsi qu'à des applications en aval. Les résultats comprennent l'implémentation de méthodes sélectionnées, des techniques d'auto-ajustement, l'évaluation sur des problèmes de référence et une étude complète des solveurs d'EDP neuronaux et des applications en simulation scientifique.
La génération augmentée par récupération (RAG) améliore le raisonnement des grands modèles de langage dans les tâches nécessitant une connaissance approfondie, mais les pipelines RAG existants entraînent des surcoûts substantiels de récupération et de génération lorsqu'ils sont appliqués à l'appariement d'entités à grande échelle. Pour remédier à cette limitation, nous présentons CE-RAG4EM, une architecture RAG à coût réduit qui diminue la charge computationnelle via une récupération et une génération par lots basées sur le préfiltrage (blocking). Nous proposons également un cadre unifié pour analyser et évaluer les systèmes RAG pour l'appariement d'entités, en nous concentrant sur les optimisations tenant compte du préfiltrage et la granularité de la récupération. Des expérimentations approfondies indiquent que CE-RAG4EM peut atteindre une qualité d'appariement comparable ou supérieure tout en réduisant substantiellement le temps d'exécution end-to-end par rapport à des bases de référence solides. Notre analyse révèle en outre que les paramètres de configuration clés introduisent un compromis inhérent entre performance et surcoût, offrant ainsi des orientations pratiques pour concevoir des systèmes RAG efficaces et évolutifs pour l'appariement d'entités et l'intégration de données.
Nous présentons Aster, un agent d'IA pour la découverte scientifique autonome capable d'opérer jusqu'à 20 fois plus vite que les cadres existants. Étant donné une tâche, un programme initial et un script pour évaluer la performance du programme, Aster améliore itérativement le programme, conduisant souvent à de nouvelles performances de pointe. La réduction significative du nombre d'itérations requises par Aster pour une découverte novatrice élargit le domaine des problèmes traitables pour inclure des tâches avec de longues durées d'évaluation, comme des entraînements de modèles d'apprentissage automatique de plusieurs heures. Nous avons appliqué Aster à des problèmes en mathématiques, en ingénierie de kernels GPU, en biologie, en neurosciences et en entraînement de modèles de langage. Plus spécifiquement : le problème du chevauchement minimum d'Erdős, l'optimisation du kernel TriMul, un problème de débruitage d'analyse unicellulaire, l'entraînement d'un modèle de prédiction d'activité neuronale pour de bonnes performances sur ZAPBench, et la NanoGPT Speedrun Competition. Aster obtient des résultats de pointe dans chaque tâche, à l'exception de ZAPBench, où il égalise la performance de la meilleure solution humaine avec moins d'1/190ème de la puissance de calcul. Aster est accessible via une interface web et une API sur asterlab.ai.
Les modèles de langage de grande taille (LLM) promettent d'accélérer les découvertes en raisonnant à travers le paysage scientifique en expansion. Pourtant, le défi n'est plus l'accès à l'information, mais la capacité à lier celle-ci de manière significative et transdisciplinaire. Dans le domaine de la science des matériaux, où l'innovation exige l'intégration de concepts allant de la chimie moléculaire à la performance mécanique, ce défi est particulièrement aigu. Ni les humains ni les LLM à agent unique ne peuvent pleinement faire face à ce torrent d'informations, ces derniers étant souvent sujets aux hallucinations. Pour résoudre ce goulot d'étranglement, nous présentons un cadre multi-agents guidé par des graphes de connaissances à grande échelle afin de trouver des substituts durables aux substances per- et polyfluoroalkylées (PFAS) - des produits chimiques actuellement sous étroite surveillance réglementaire. Les agents du cadre se spécialisent dans la décomposition des problèmes, la récupération de preuves, l'extraction des paramètres de conception et le parcours de graphes, révélant des connexions latentes entre différentes poches de connaissances pour soutenir la génération d'hypothèses. Des études d'ablation montrent que le pipeline multi-agents complet surpasse l'invite unique, soulignant la valeur de la spécialisation distribuée et du raisonnement relationnel. Nous démontrons qu'en adaptant les stratégies de parcours de graphes, le système alterne entre des recherches exploitantes axées sur des résultats critiques pour le domaine et des recherches exploratoires faisant émerger des interconnexions. Illustré par l'exemple des tubulures biomédicales, le cadre génère des alternatives durables sans PFAS qui équilibrent performance tribologique, stabilité thermique, résistance chimique et biocompatibilité. Ce travail établit un cadre combinant les graphes de connaissances au raisonnement multi-agents pour élargir l'espace de conception des matériaux, en présentant plusieurs candidats initiaux pour démontrer l'approche.
Les plongements textuels permettent de nombreuses applications en TAL mais sont confrontés à des risques importants pour la vie privée dus aux attaques par inversion d'embeddings, qui peuvent révéler des attributs sensibles ou reconstruire le texte brut. Les défenses existantes basées sur la confidentialité différentielle supposent une sensibilité uniforme entre les dimensions des plongements, conduisant à un bruit excessif et une utilité dégradée. Nous proposons SPARSE, un cadre centré sur l'utilisateur pour la protection de la vie privée conceptuelle dans les plongements textuels. SPARSE combine (1) l'apprentissage de masques différentiables pour identifier les dimensions sensibles liées à des concepts définis par l'utilisateur, et (2) le mécanisme de Mahalanobis qui applique un bruit elliptique calibré selon la sensibilité dimensionnelle. Contrairement à l'injection de bruit sphérique traditionnelle, SPARSE perturbe sélectivement les dimensions sensibles tout en préservant la sémantique non sensible. Évalué sur six jeux de données avec trois modèles d'embedding et scénarios d'attaque, SPARSE réduit constamment les fuites d'informations privées tout en obtenant des performances en aval supérieures aux méthodes DP état de l'art.
Des recherches récentes montrent que les objectifs d'Alignement des Préférences (AP) agissent comme des estimateurs de divergence entre les distributions de réponses alignées (choisies) et non alignées (rejetées). Dans ce travail, nous étendons cette perspective basée sur la divergence à des cadres d'alignement généraux, tels que l'apprentissage par renforcement avec récompenses vérifiables (RLVR), où seules les récompenses environnementales sont disponibles. Au sein de ce cadre unifié, nous proposons l'Optimisation de Politique Relative par f-Groupe (f-GRPO), une classe d'apprentissage par renforcement sur politique, et la Perte d'Alignement Hybride f (f-HAL), des objectifs hybrides sur/hors politique, pour l'alignement général des LLM basé sur la représentation variationnelle des f-divergences. Nous fournissons des garanties théoriques que ces classes d'objectifs améliorent la récompense moyenne après l'alignement. Empiriquement, nous validons notre cadre sur des tâches de RLVR (Raisonnement Mathématique) et d'AP (Alignement de la Sécurité), démontrant une performance et une flexibilité supérieures par rapport aux méthodes actuelles.
Nous présentons la première formalisation complète en Lean 4 de la théorie de l'apprentissage statistique (SLT) fondée sur la théorie des processus empiriques. Notre infrastructure formelle de bout en bout implémente les contenus manquants dans la dernière bibliothèque Lean 4 Mathlib, incluant un développement complet de la concentration gaussienne lipschitzienne, la première formalisation du théorème de l'intégrale d'entropie de Dudley pour les processus sous-gaussiens, et une application à la régression des moindres carrés (creuse) avec un taux optimal. Le projet a été réalisé en utilisant un flux de travail collaboratif humain-IA, dans lequel les humains conçoivent les stratégies de preuve et les agents IA exécutent la construction tactique des démonstrations, aboutissant à une boîte à outils Lean 4 pour la SLT vérifiée par des humains. Au-delà de l'implémentation, le processus de formalisation expose et résout les hypothèses implicites et les détails manquants dans les manuels standards de SLT, imposant une compréhension granulaire, ligne par ligne, de la théorie. Ce travail établit une fondation formelle réutilisable et ouvre la porte à des développements futurs dans la théorie de l'apprentissage automatique. Le code est disponible à l'adresse https://github.com/YuanheZ/lean-stat-learning-theory
La Recherche Multimodale Universelle (UMR) vise une recherche intermodale entre texte et vision, mais les modèles d'embedding modernes restent fragiles lorsque les requêtes nécessitent un raisonnement latent (par exemple, résoudre des références sous-spécifiées ou faire correspondre des contraintes compositionnelles). Nous soutenons que cette fragilité est souvent induite par les données : lorsque les images contiennent des preuves "silencieuses" et que les requêtes laissent implicites des sémantiques clés, un seul passage d'embedding doit à la fois raisonner et compresser, favorisant ainsi des appariements de caractéristiques fallacieux. Nous proposons un cadre centré sur les données qui découple ces rôles en externalisant le raisonnement avant la récupération. En utilisant un modèle vision-langage performant, nous rendons la sémantique implicite explicite en décrivant densément les preuves visuelles dans les entrées du corpus, en résolvant les références multimodales ambiguës dans les requêtes, et en reformulant les instructions verbeuses en contraintes de récupération concises. L'enrichissement lors de l'inférence seul est insuffisant ; le récupérateur doit être entraîné sur ces représentations sémantiquement denses pour éviter un décalage de distribution et exploiter pleinement le signal ajouté. Sur M-BEIR, notre méthode d'entraînement augmentée par le raisonnement produit des gains constants par rapport aux bases de référence solides, les ablations montrant que l'enrichissement du corpus profite principalement aux requêtes nécessitant des connaissances, tandis que l'enrichissement des requêtes est crucial pour les demandes de modification compositionnelle. Nous publions notre code à l'adresse https://github.com/AugmentedRetrieval/ReasoningAugmentedRetrieval.
Le mouvement collectif dans les bancs de poissons illustre l'auto-organisation émergente dans les systèmes de matière active, mais les outils informatiques pour simuler et analyser ces dynamiques restent fragmentés entre les groupes de recherche. Nous présentons dewi-kadita, une bibliothèque Python open-source implémentant le modèle tridimensionnel à zones de Couzin avec des diagnostics complets d'entropie conçus pour la recherche sur le comportement collectif marin. La bibliothèque introduit sept métriques informationnelles — l'entropie de cohésion du banc, l'entropie de polarisation, l'entropie de stratification en profondeur, l'entropie de moment angulaire, l'entropie du plus proche voisin, l'entropie de corrélation des vitesses et l'entropie de forme du banc — qui caractérisent des caractéristiques organisationnelles distinctes, inaccessibles aux paramètres d'ordre classiques. Ces métriques se combinent en un Indice de Banc Océanique (OSI) fournissant une mesure scalaire unique du désordre collectif. La validation sur quatre configurations canoniques (essaim, tore, parallèle dynamique, hautement parallèle) confirme la reproduction correcte des comportements de phase connus : l'essaim maintient un désordre avec une polarisation P < 0,1 et un OSI ≈ 0,71, tandis que l'état hautement parallèle atteint P = 0,998 avec un OSI = 0,24 et une entropie de corrélation des vitesses tendant vers zéro. Le cadre entropique distingue avec succès les configurations en tore et parallèle dynamique qui présentent des magnitudes de paramètres d'ordre comparables via des mécanismes organisationnels différents. La compilation juste-à-temps (JIT) avec Numba accélère les calculs d'interactions par paires d'un facteur 10 à 100, permettant des simulations de 150 à 250 agents sur 1000 à 2000 pas de temps en moins de cinq minutes sur du matériel de station de travail standard. La sortie au format NetCDF4 assure l'interopérabilité avec les outils d'analyse océanographiques. La bibliothèque répond au besoin d'une infrastructure standardisée et reproductible pour la modélisation du comportement collectif, analogue aux codes établis en dynamique moléculaire.
La découverte causale est essentielle pour faire progresser les domaines pilotés par les données, tels que l'IA scientifique et l'analyse de données. Cependant, les approches existantes se heurtent à d'importants goulots d'étranglement en termes d'efficacité temporelle et spatiale lors de la mise à l'échelle vers de grands graphes. Pour relever ce défi, nous présentons CauScale, une architecture neuronale conçue pour une découverte causale efficace, permettant une inférence à l'échelle de graphes comptant jusqu'à 1000 nœuds. CauScale améliore l'efficacité temporelle via une unité de réduction qui compresse les plongements de données et améliore l'efficacité spatiale en adoptant des poids d'attention partagés pour éviter de maintenir des cartes d'attention spécifiques aux axes. Pour maintenir une haute précision de découverte causale, CauScale adopte une conception à double flux : un flux de données extrait les preuves relationnelles d'observations en haute dimension, tandis qu'un flux de graphes intègre des préalables statistiques sur les graphes et préserve les signaux structurels clés. CauScale parvient à s'adapter à des graphes de 500 nœuds lors de l'entraînement, là où les travaux antérieurs échouent en raison de limitations d'espace. Sur des données de test avec différentes échelles de graphes et mécanismes causaux, CauScale atteint 99,6% de mAP sur des données en distribution et 84,4% sur des données hors distribution, tout en offrant des accélérations d'inférence de 4 à 13 000 fois par rapport aux méthodes précédentes. Notre page projet se trouve à l'adresse https://github.com/OpenCausaLab/CauScale.