Articles de recherche IA sélectionnés quotidiennement avec traductions
Le routeur est le composant fondamental des modèles Mixture d'Experts. Servant de proxies d'experts, les lignes de la matrice du routeur calculent leur similarité avec les entrées MoE afin de déterminer quel sous-ensemble d'experts est activé. Idéalement, chaque ligne du routeur est conçue pour condenser la matrice d'expert en ce vecteur représentatif, de telle sorte que son produit scalaire avec le jeton puisse mieux refléter l'affinité jeton-expert. Cependant, il n'existe aucun principe de conception imposant cette condensation. Dans cet article, nous proposons d'aligner chaque ligne du routeur sur la direction singulière principale de l'expert associé, cette direction fournissant la description mathématique la plus expressive d'une matrice. Sur la base de ce principe, nous proposons une refonte du routeur avec l'Itération de Puissance sur Variété (MPI). Plus précisément, elle introduit un paradigme « Puissance puis Rétractation », dans lequel une étape d'itération de puissance est effectuée sur les poids du routeur, suivie d'une rétractation imposant une contrainte de norme pour garantir à la fois efficacité et stabilité. Théoriquement, nous montrons que MPI conduit les lignes du routeur à converger vers les directions singulières principales des experts associés. Empiriquement, nous pré-entraînons un modèle MoE à différentes échelles, de 1B à 11B paramètres, pour confirmer que cet alignement favorise des modèles MoE plus efficaces.
Le progrès scientifique repose sur une boucle répétée d'exploration, d'expérimentation et d'abstraction. Les chercheurs testent des directions candidates, interprètent les preuves et intègrent les leçons qui en découlent dans leurs tentatives ultérieures. Nous étudions comment un agent d'IA peut exécuter cette boucle de manière autonome sur de longs horizons temporels. Nous présentons Arbor, un cadre général pour la recherche autonome qui combine un coordinateur à long terme, des exécuteurs à court terme et le Raffinement d'Arbre d'Hypothèses (HTR), un arbre persistant qui relie hypothèses, artefacts, preuves et enseignements distillés à travers le temps. Le coordinateur gère la stratégie globale de recherche sur l'arbre, tandis que les exécuteurs implémentent et testent des hypothèses individuelles dans des arbres de travail isolés. Lorsque les résultats sont renvoyés, Arbor met à jour l'arbre, propage les leçons réutilisables, affine la frontière de recherche et admet les améliorations vérifiées. Cette conception transforme la recherche autonome d'une séquence de tentatives locales en un processus cumulatif où la stratégie, l'exécution et les preuves sont transmises dans le temps. Nous évaluons Arbor dans le cadre de l'Optimisation Autonome (AO), un contexte opérationnel où un agent améliore un artefact de recherche initial par expérimentation itérative sans supervision humaine à l'étape. Sur six tâches de recherche réelles en entraînement de modèles, ingénierie de harnais et synthèse de données, Arbor obtient le meilleur résultat retenu sur l'ensemble des six tâches, atteignant plus de 2,5 fois le gain retenu relatif moyen de Codex et Claude Code sous la même interface de tâche et le même budget de ressources. Sur MLE-Bench Lite, Arbor atteint 86,36 % de Toute Médaille avec GPT-5.5, le meilleur résultat de notre comparaison.
Les environnements servent de systèmes interactifs pour les agents basés sur de grands modèles de langage (LLM) dans divers scénarios et jouent un rôle crucial dans la conduite de l'évolution continue des capacités des modèles. Malgré cette importance, les travaux existants manquent d'une catégorisation systématique et d'une analyse approfondie. Cet article étudie systématiquement les recherches actuelles sur les environnements agentiques du point de vue du cycle de vie de l'ingénierie des environnements, couvrant leur modélisation, synthèse, évaluation et application. Plus précisément, l'article introduit d'abord des environnements représentatifs sous les angles de huit attributs et huit domaines, fournissant des analyses détaillées de leurs chemins de développement et mettant en évidence leurs capacités principales. Deuxièmement, pour la synthèse automatisée d'environnements, deux paradigmes sont introduits, tels que la synthèse symbolique et la synthèse neurale. Cet article présente également différentes méthodes d'évaluation des environnements dans chaque paradigme. Troisièmement, les applications correspondantes des environnements du point de vue de la co-évolution agent-environnement sont discutées. Plus précisément, l'article caractérise les voies principales de l'évolution des agents dans des environnements dynamiques à partir de quatre perspectives complémentaires : l'évolution d'expérience centrée sur la mémoire, l'évolution de flux de travail centrée sur l'orchestration, l'évolution hors ligne centrée sur les trajectoires, et l'évolution en ligne centrée sur l'exploration. Et trois paradigmes d'évolution des environnements sont identifiés, à savoir les approches pilotées par le neural, pilotées par la difficulté et pilotées par le passage à l'échelle. Enfin, plusieurs directions prometteuses pour l'avenir sont discutées, notamment l'Environnement en tant que Service, les Environnements Multi-agents et les Environnements Neuro-Symboliques.
Les agents généralistes comme OpenClaw sont de plus en plus utilisés comme utilisateurs d'outils autonomes, mais leur capacité de codage est difficile à mesurer dans le cadre de SWE-bench : un agent générique ne satisfait pas en soi le contrat propre d'espace de travail Docker, de correctif et de prédiction requis pour la notation. Nous présentons Claw-SWE-Bench, un benchmark de style SWE-bench multilingue et un protocole d'adaptateur qui rend comparables des harnais d'agents hétérogènes, ou "claws", dans des conditions équitables incluant une invite fixe, un budget d'exécution, un contrat d'espace de travail, une procédure d'extraction de correctif et un évaluateur. Le benchmark complet contient 350 instances de résolution de problèmes GitHub réparties sur 8 langues et 43 dépôts, issues de SWE-bench-Multilingual et SWE-bench-Verified-Mini après nettoyage des commits futurs. Nous publions également Claw-SWE-Bench Lite pour une validation plus rapide, un sous-ensemble de 80 instances sélectionné par une procédure sensible au coût et au rang sur 17 colonnes de calibration. Sur le benchmark complet, OpenClaw avec un adaptateur minimal de diff direct n'obtient qu'un score de 19,1% Pass@1, tandis que l'adaptateur complet atteint 73,4% avec le même socle GLM 5.1, ce qui montre que la conception de l'adaptateur est essentielle pour permettre aux harnais de type OpenClaw d'effectuer efficacement des tâches de codage. Lors d'une analyse sur neuf modèles pour OpenClaw et sur deux modèles pour cinq "claws", le choix du modèle modifie le Pass@1 de 29,4 points de pourcentage et le choix du harnais de 27,4 points de pourcentage pour des modèles fixes ; des systèmes ayant une précision similaire peuvent différer considérablement en coût API total. Claw-SWE-Bench traite donc le harnais et la comptabilité des coûts comme des axes de première classe de l'évaluation des agents de codage de style SWE, offrant à la fois un benchmark complet et un ensemble de référence à faible coût pour une comparaison reproductible. Les données sont disponibles à l'adresse https://github.com/opensquilla/claw-swe-bench et https://huggingface.co/datasets/TokenRhythm/Claw-SWE-Bench.
Les modèles de récompense sont au cœur du post-entraînement en texte-à-image, mais la préférence visuelle est subjective et se représente mieux comme une distribution sur des scores de grille que comme un scalaire déterministe. Les modèles de récompense existants — scalaires, basés sur des tokens de score, ou par paires — compressent excessivement l'incertitude et les différences fines entre scores, tandis que les récompenses génératives fondées sur le raisonnement fournissent des jugements plus robustes mais sont coûteuses à déployer et difficiles à utiliser comme signaux d'optimisation directs. Nous proposons Z-Reward, un cadre de modélisation des récompenses de type enseignant-étudiant qui dissocie le jugement lourd en raisonnement du déploiement efficace de la récompense. L'enseignant est un grand VLM qui utilise le raisonnement pour inférer des distributions de scores alignées sur une grille, et est entraîné via l'Optimisation Directe des Scores par Groupes (GDSO), qui combine des récompenses issues de gradients de politique à partir d'espérances de distributions avec une supervision directe ponctuelle et par paires sur les distributions de scores et les écarts de scores. L'étudiant est entraîné via la Distillation de Scores Internalisée par le Raisonnement (RISD), qui transfère la distribution de scores conditionnée par le raisonnement de l'enseignant vers un VLM compact sans nécessiter de chaînes de raisonnement explicites au moment de l'inférence. Sur notre ensemble d'évaluation annoté en interne, l'enseignant GDSO de 27B atteint une précision de préférence humaine de 89,6 %, surpassant SFT, RewardDance et GRPO, tandis que l'étudiant RISD de 9B atteint 88,6 %, surpassant la référence OPD et s'approchant étroitement de l'enseignant plus grand. Nous montrons en outre que Z-Reward peut servir de signal de récompense différentiable pour l'optimisation en texte-à-image, produisant une amélioration nette de la préférence humaine de 41,3 % par rapport à la référence SFT.
Les encodeurs tabulaires sont généralement évalués au sein de pipelines de bout en bout spécifiques à une tâche, ce qui rend difficile la comparaison directe de modèles issus de paradigmes d'apprentissage différents, même lorsqu'ils opèrent sur des signaux tabulaires similaires. Nous présentons TRL-Bench, un référentiel multi-granulaire pour l'apprentissage de représentations tabulaires (TRL) qui standardise l'évaluation au niveau des représentations entre paradigmes : chaque encodeur exporte des plongements de lignes, de colonnes ou de tableaux via son wrapper pris en charge, et des têtes légères partagées les sondent à travers trois ensembles : TRL-CTbench (colonne/tableau), TRL-Rbench (ligne) et TRL-DLTE (enrichissement compositionnel de tableaux par lac de données couvrant les trois granularités). Pour soutenir ce cadre standardisé, nous publions des actifs de référence organisés et des reformulations de tâches, notamment 50 tables OpenML avec 123 cibles vérifiées, 16 reformulations de liaisons entre paires de lignes, et un lac DLTE de 47 772 tables dérivé de 1 379 tables parentes. À travers 20 modèles et 16 tâches, TRL-Bench montre qu'une fois les conditions aval standardisées, la qualité d'un encodeur est spécifique à une capacité plutôt que capturée par un classement unique. Dans TRL-CTbench, les encodeurs textuels génériques dominent souvent les tâches avec un fort signal textuel de surface, tandis que les spécialistes tabulaires l'emportent lorsque leur objectif de pré-entraînement s'aligne avec la tâche. Dans TRL-Rbench, la prédiction intra-tableau et la liaison inter-tableaux favorisent des régimes d'entraînement différents, la performance de liaison atomique étant fortement corrélée avec l'étape d'appariement des lignes des pipelines DLTE. Dans TRL-DLTE, les pipelines les plus performants combinent des spécialistes adaptés à chaque capacité plutôt que de réutiliser un seul encodeur, et la qualité de bout en bout optimale dépend d'un ajustement compositionnel non additif plutôt que du seul rang marginal par étape. TRL-Bench fournit un protocole commun pour mesurer le signal réutilisable dans les représentations tabulaires exportées sous des conditions aval partagées. Code et données : https://github.com/LOGO-CUHKSZ/TRL-Bench
Le raisonnement spatial à partir de vidéos égocentriques est intrinsèquement difficile car les preuves observables sont contraintes par la trajectoire de la caméra. Les méthodes existantes reposent sur une inférence en un seul passage, forçant les modèles à résoudre l'ambiguïté géométrique via des a priori sémantiques plutôt que par des preuves vérifiables. Nous soutenons que le raisonnement spatial devrait pouvoir être revisité : les conclusions formulées à partir d'informations limitées doivent rester ouvertes à révision lorsque des points de vue complémentaires deviennent disponibles. Partant de cette observation, nous proposons Reason, then Re-reason (ReRe), un cadre sans entraînement, à l'inférence, comprenant deux phases : dans la phase de Raisonnement, un MLLM forme une hypothèse spatiale à partir de la vidéo originale ; dans la phase de Re-raisonnement, il vérifie ou révise l'hypothèse en observant une vidéo synthétisée d'un nouveau point de vue. Pour permettre un réexamen inter-vues efficace, nous concevons un pipeline Geometry-to-Video qui génère des vues nouvelles stratégiquement complémentaires à partir d'une géométrie 3D prédite. Ces vues adoptent une perspective oblique surélevée avec une couverture s'étendant sur la scène, tout en préservant l'interface vidéo native du MLLM sans modification architecturale. Des évaluations approfondies sur VSI-Bench et STI-Bench démontrent que ReRe améliore considérablement les MLLM open source, leur permettant d'égaler les performances des modèles propriétaires de pointe. Page du projet : https://zhenjiemao.github.io/ReRe/
Alors que les capacités des agents de code basés sur les LLM continuent de progresser, leur rôle attendu s’étend désormais au-delà de la correction localisée de bogues dans des bases de code existantes, pour s’orienter vers la conception et l’implémentation de référentiels logiciels complets à partir de spécifications de haut niveau. Cependant, l’entraînement d’agents pour de telles tâches d’ingénierie logicielle à long horizon reste difficile en raison de la rareté de données à grande échelle et vérifiables de génération complète de dépôts. Dans cet article, nous présentons DeNovoSWE, un jeu de données à grande échelle pour la génération complète de dépôts. DeNovoSWE comprend 4 818 instances de haute qualité, chacune nécessitant de générer un dépôt complet à partir d’une documentation. Notre jeu de données est construit automatiquement grâce à un workflow agentique en environnement isolé soigneusement conçu, permettant une curation scalable sans annotation humaine. DeNovoSWE est élaboré selon une philosophie de « diviser pour régner » et de critique-réparation. Pour équilibrer qualité et diversité des données, nous introduisons en outre une stratégie de filtrage des trajectoires sensible à la difficulté. Le fine-tuning de Qwen3-30B-A3B sur DeNovoSWE améliore considérablement les performances en génie logiciel à long horizon, faisant passer son score sur le benchmark exigeant BeyondSWE-Doc2Repo de 5,8 % à 47,2 %.
Les modèles Vision-Langage-Action (VLA) héritent d'un ancrage sémantique issu d'un préentraînement à grande échelle et obtiennent des performances compétentes sur des tâches de manipulation intra-distribution. Cet ancrage repose cependant sur des paires image-texte statiques, alors que la manipulation est un processus continu et riche en contacts dont la dynamique échappe à ce préentraînement. Nous présentons World Pilot, un cadre VLA qui enrichit la politique avec des a priori issus d'un modèle monde-action (WAM), injectés dans la chaîne décisionnelle via deux voies complémentaires. Le Guidage Latent conditionne la couche de perception à l'aide d'un latent d'évolution de scène, tandis que le Guidage d'Action fournit une trajectoire anticipée comme a priori de mouvement au générateur d'actions. Conjointement, ces deux a priori dotent le VLA d'une vision anticipée de la scène et d'une indication de mouvement au niveau de la trajectoire, en complément de son conditionnement sémantique ; l'a priori d'évolution de scène reste efficace même lorsqu'il est fourni par un modèle du monde préentraîné sur vidéos sans post-entraînement sur actions. World Pilot atteint un taux de succès total de 84,7 % sur le benchmark zero-shot OOD LIBERO-Plus, ainsi que le taux de succès le plus élevé pour chaque configuration de robot réel parmi quatre tâches de manipulation, avec les plus grandes marges en cas de changements de point de vue, de géométrie, d'état déformable et de pose. Site web du projet : https://world-pilot.github.io/
Les Transformers dominent la modélisation séquentielle moderne, mais leur mécanisme d'attention quadratique entraîne un coût de calcul substantiel. Les architectures sous-quadratiques offrent une alternative scalable. Cependant, il reste flou quels designs produisent les modèles séquentiels les plus efficaces. Nous comparons trois approches majeures : xLSTM, Mamba-2 et Gated DeltaNet. Nous évaluons ces modèles sur des tâches présentant des dépendances complexes : (1) pré-entraînement de modèles de code, (2) distillation de modèles de code à partir de grands modèles de langage, et (3) pré-entraînement de modèles fondation pour séries temporelles. Dans ces contextes, xLSTM offre la meilleure performance globale. Pour expliquer l'avantage de xLSTM, nous présentons une formulation unifiée et analysons les mécanismes architecturaux sous-jacents, en mettant l'accent sur le suivi d'état et la dynamique de mémoire. Nos résultats montrent que xLSTM permet une correction de mémoire plus flexible et plus stable grâce à son schéma de portes. Nous corroborons ces observations sur des tâches contrôlées de généralisation de longueur synthétique. Globalement, nos résultats indiquent que les gains de xLSTM sur les tâches complexes proviennent d'un suivi et d'une accumulation d'état robustes.
La combinatoire est centrale dans la résolution de problèmes mathématiques de niveau olympiade, nécessitant un raisonnement discret approfondi, des constructions créatives et une perspicacité structurelle rigoureuse. Des travaux récents suggèrent que même les modèles de pointe actuels restent inégaux face aux problèmes de combinatoire de type olympiade, révélant une lacune dans le raisonnement mathématique créatif. Nous présentons ComBench, un benchmark de combinatoire de niveau olympiade pour évaluer et diagnostiquer les capacités de raisonnement combinatoire des grands modèles de langage. ComBench contient 100 problèmes de compétition annotés par des humains, organisés autour de deux cadres complémentaires : les problèmes centrés sur l'analyse, qui requièrent principalement des arguments mathématiques rigoureux, et les problèmes centrés sur la construction, qui exigent des constructions explicites en plus de justifications de correction. Le protocole d'évaluation combine la notation de preuves guidée par une grille d'évaluation avec une vérification déterministe des constructions, mettant en lumière les cas où la qualité de la preuve et la validité de la construction divergent. Les expériences menées sur des modèles de pointe open-source et fermés montrent que ComBench est loin d'être saturé : le meilleur modèle atteint 65,4 % global en moyenne et 75,3 % global en Best@4. Nous constatons en outre que le Raisonnement rigoureux par preuve et la Réalisation constructive sont des capacités distinctes : Kimi-K2.6 accuse un retard sur GPT-5.5 en notation de preuves des problèmes centrés sur l'analyse, mais le dépasse en Best@4 pour les problèmes centrés sur la construction, tandis que les problèmes d'Existence et de Construction restent systématiquement les plus difficiles pour les modèles de pointe représentatifs.
Les progrès récents des modèles de fondation se sont orientés vers un comportement agentique impliquant un raisonnement en plusieurs étapes et l'utilisation d'outils. Cependant, les efforts open-source se concentrent largement sur des contextes dominés par le texte, laissant les tâches multimodales à long horizon sous-explorées. Ce fossé est évident dans les tâches vidéo qui nécessitent une compréhension temporelle soutenue et une interaction itérative. Nous présentons InternVideo3, un cadre qui améliore ces capacités via le Raisonnement Contextuel Multimodal (RCM). Le RCM traite la compréhension comme un processus en boucle fermée sur un contexte partagé et évolutif contenant des observations, des instructions, des raisonnements, des actions d'outils et de la mémoire. Cela cadre la compréhension de vidéos longues comme une accumulation et une vérification de preuves. Pour garantir l'efficacité, nous introduisons l'Attention Latente Multimodale à Têtes Multiples (M²LA), une reparamétrisation préservant les tokens qui compresse les états du cache KV tout en conservant le flux complet de tokens. Notre entraînement par étapes comprend un pré-entraînement continu, un fine-tuning supervisé de court à long, un apprentissage par renforcement basé sur des règles et une distillation sur politique. Les expériences montrent qu'InternVideo3 atteint de solides performances sur des benchmarks tels que Video-MME, MLVU et EgoSchema. Nous instancions également le modèle en tant qu'agent vidéo avec des outils de recherche, démontrant un comportement robuste fondé sur des preuves. Nos résultats suggèrent qu'une gestion efficace du contexte et un raisonnement en boucle fermée sont essentiels pour adapter les modèles multimodaux ouverts à une agentivité visuellement ancrée à long horizon.
Les grands modèles de langage (LLMs) sont de plus en plus utilisés pour la génération de code, suscitant des inquiétudes quant à leur possible détournement pour produire du code malveillant. Parallèlement, le décodage contraint par grammaire (GCD) a été largement adopté pour améliorer la fiabilité du code généré par les LLMs en imposant une validité syntaxique. Dans cet article, nous révélons un risque contre-intuitif : cette technique axée sur la fiabilité peut elle-même devenir une surface d'attaque. Nous découvrons une nouvelle attaque de jailbreak, baptisée CodeSpear, qui exploite le GCD pour amener les LLMs à générer du code malveillant. Nos expériences montrent que l'application d'une simple contrainte de grammaire de code bénigne peut efficacement jailbreaker les LLMs. Pour remédier à cette vulnérabilité, nous proposons CodeShield, une approche d'alignement de sécurité qui préserve robustement un comportement sécurisé même sous des contraintes de grammaire contrôlées par un attaquant. CodeShield aligne le modèle dans la modalité du code en lui apprenant à générer du code leurre sous GCD. Ce code est sémantiquement inoffensif, donc il n'implémente pas la requête malveillante, et structurellement diversifié, ce qui le rend difficile à supprimer par un resserrement de la grammaire. Parallèlement, CodeShield conserve les refus en langage naturel lorsque celui-ci est disponible. Les expériences menées sur 10 LLMs populaires et 4 bancs d'essai montrent que CodeSpear surpasse les attaques de jailbreak de référence et augmente le taux de succès de l'attaque de plus de 30 points de pourcentage en moyenne. CodeShield rétablit également la sécurité face à CodeSpear tout en préservant l'utilité bénigne. Nos résultats révèlent un risque fondamental du GCD et appellent à une attention accrue quant à ses implications potentielles en matière de sécurité.
L'apprentissage par renforcement (RL) est devenu un composant clé des grands modèles de langue modernes, mais l'étape de déploiement (rollout) reste le principal goulot d'étranglement dans les chaînes d'entraînement RL. Bien que la prédiction multi-token (Multi-Token Prediction, MTP) offre une solution naturelle pour accélérer les rollouts via le décodage spéculatif, de nombreuses études ont observé que les taux d'acceptation de la MTP se dégradent significativement pendant l'entraînement RL, ce qui limite les gains de vitesse. Pour pallier ce goulot d'étranglement, nous présentons Bebop, une étude systématique de la MTP dans le post-entraînement des LLM, et proposons des recettes pratiques pour intégrer la MTP dans des pipelines RL à grande échelle. Premièrement, nous révélons que le taux d'acceptation de la MTP est fondamentalement borné par la fluctuation de l'entropie du modèle, laquelle présente une relation linéaire négative claire avec l'augmentation de l'entropie au cours de l'étape RL. Deuxièmement, nous montrons que l'échantillonnage par rejet probabiliste atténue largement la perturbation introduite par l'entropie dans le RL par rapport à l'échantillonnage glouton de brouillon (greedy draft sampling). Nous identifions également que les objectifs d'entraînement MTP conventionnels (entropie croisée ou KL) sont sous-optimaux dans ces contextes, et proposons donc une nouvelle perte de variation totale (TV loss) de bout en bout qui optimise directement le taux d'acceptation de l'échantillonnage par rejet multi-étapes, permettant une amélioration d'environ 10 % du taux d'acceptation, atteignant jusqu'à 95 % de taux d'acceptation et jusqu'à 25 % de gains supplémentaires de débit d'inférence dans des tâches de raisonnement mathématique, de génération de code et agentiques. Troisièmement, nous testons diverses stratégies d'entraînement MTP en ligne pendant le RL et montrons qu'un entraînement MTP pré-RL avec la perte TV de bout en bout et l'échantillonnage par rejet permet d'obtenir un taux d'acceptation et une accélération constants tout au long du RL, éliminant ainsi le besoin de mises à jour MTP en ligne coûteuses. Nous fournissons des expériences et analyses approfondies qui valident nos résultats. Les résultats expérimentaux montrent que notre méthode atteint une accélération de bout en bout allant jusqu'à 1,8x dans l'entraînement RL asynchrone des modèles Qwen3.5, Qwen3.6 et Qwen3.7.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) constitue une approche prometteuse pour améliorer le raisonnement et le comportement agentique des grands modèles de langage. Cependant, l'optimisation de politique intensive en déploiements est souvent limitée par un contraste de récompense insuffisant, qui survient lorsque des consignes trop simples ou trop complexes génèrent des retours à faible variance, ou lorsque des récompenses uniquement basées sur le résultat final attribuent la même évaluation terminale à chaque décision au sein d'un déploiement multi-tour. Les travaux antérieurs se sont concentrés sur l'allocation des ressources de déploiement disponibles aux consignes prometteuses, mais ils n'exploitent l'informativité des échantillons qu'au niveau de la consigne, négligeant la variation de l'informativité au niveau des préfixes entre les différents tours d'un même déploiement. Ce travail cible l'apprentissage par renforcement agentique multi-tour en modélisant chaque tour de type pensée-action-observation (ReAct) comme un nœud sémantiquement distinct, permettant à l'allocation budgétaire de s'étendre des racines de consigne aux préfixes de tour avec des prolongements ultérieurs, ce qui forme naturellement des déploiements structurés en arbre. Nous introduisons TRACE (Tree Rollout Allocation for Contrastive Exploration), un cadre unifié d'allocation de déploiements qui améliore le contraste de récompense sous un budget d'échantillonnage fixe. Techniquement, TRACE alloue le budget de déploiement à la fois aux racines de consigne et aux préfixes intermédiaires les plus susceptibles de produire des récompenses terminales mixtes. Un prédicteur partagé et généralisable estime la probabilité de succès conditionnelle à ces points d'ancrage à partir des historiques de préfixes pour guider cette allocation. La structure arborescente adaptative qui en résulte enrichit le retour uniquement basé sur le résultat et amplifie le signal de mise à jour de la politique. Empiriquement, TRACE atteint des performances compétitives et des gains d'efficacité sur des benchmarks agentiques typiques, par exemple en améliorant la précision moyenne du modèle Qwen3-14B sur le questionnement multi-sauts (Multi-Hop QA) de 2,8 points par rapport aux références concurrentes, à coût d'échantillonnage égal.
Les modèles vision-langage (VLM) projettent des images en centaines ou milliers de jetons visuels, ce qui rend l'inférence du décodeur coûteuse tant en calcul d'attention qu'en mémoire cache KV. Les méthodes existantes de réduction des jetons visuels suivent largement un paradigme de classement et suppression : elles notent les jetons visuels, conservent un sous-ensemble compact et abandonnent définitivement le reste. Nous montrons que cette action irréversible est fragile car l'importance des jetons visuels varie selon la profondeur du décodeur ; des jetons faiblement classés à un stade peuvent devenir pertinents dans des couches ultérieures, en particulier pour les requêtes sensibles à l'ancrage. Nous proposons Reroute, un module enfichable sans entraînement qui remplace la suppression par un routage récupérable. À chaque étape de routage, les jetons visuels sélectionnés traversent les blocs du décodeur, tandis que les jetons différés contournent l'étape et réintègrent le pool de candidats à la prochaine décision de routage. Reroute réutilise les règles de classement des scores d'attention existantes et les programmations par étape, préservant la classe théorique de TFLOPs et de budget de cache KV de la méthode d'élagage qu'il augmente. Sur les variantes FastV, PDrop et Nüwa avec les backbones LLaVA-1.5 et Qwen, Reroute améliore l'ancrage sous une réduction agressive de jetons tout en maintenant la performance générale en VQA. Ces résultats suggèrent que la réduction des jetons visuels dans les VLM ne devrait pas être considérée uniquement comme un élagage irréversible, mais aussi comme un routage récupérable. Le code est disponible ici : https://github.com/elmma/mllm-reroute/
Trouver des directions interprétables dans les représentations des modèles de langue est essentiel pour comprendre et contrôler le comportement des modèles. Les autoencodeurs parcimonieux (SAE) sont devenus l'outil standard à cet effet, mais les utiliser comme premier prisme par défaut nécessite souvent l'entraînement, le stockage et l'évaluation de grands dictionnaires surcomplets. Ce goulot d'étranglement limite l'exploration rapide et soulève une question fondamentale : quelle part de structure interprétable est déjà visible à partir de la géométrie des activations avant d'entraîner un nouveau dictionnaire neuronal ? Notre intuition est simple : de nombreuses directions interprétables sont sélectives sur les tokens, et ces directions devraient sembler moins gaussiennes que des directions aléatoires. Nous revisitons donc l'analyse en composantes indépendantes (ICA), une méthode classique pour trouver des directions non gaussiennes, comme un prisme compact pour l'interprétabilité des modèles de langue. Nous constatons que l'ICA a été sous-estimée pour l'interprétabilité des LLM, car les utilisations antérieures reposaient souvent sur des implémentations d'ICA prêtes à l'emploi, fragiles sur les activations des LLM, et manquaient d'outils systématiques pour inspecter et évaluer les directions récupérées. Pour combler ces lacunes, nous introduisons ICALens, le premier workflow pratique pour une analyse ICA stable, efficace et vérifiable des représentations des LLM. Il combine un pipeline FastICA parallélisé sur GPU optimisé avec des recettes de stabilité spécifiques aux LLM et de meilleurs diagnostics d'ajustement, permettant une analyse par couche efficace et fiable. Sur GPT-2 Small, Gemma 2 2B et Qwen 3.5 2B Base, ICALens récupère efficacement des directions compactes et interprétables par l'humain sans entraînement de dictionnaire basé sur le gradient par couche. Sur SAEBench, l'ICA est compétitive avec les SAE publics dans le sondage parcimonieux et les surpasse dans la perturbation ciblée par sondage avec des budgets petits à moyens. Ces résultats suggèrent que l'ICA ne devrait pas être considérée comme une baseline faible, mais comme un premier prisme efficace et complémentaire pour explorer les représentations des modèles de langue.
L'entraînement autonome des LLM est souvent envisagé comme une recherche de recettes, ce qui laisse le cadre d'entraînement largement statique. Cette limitation devient cruciale dans le RL agentique, où des goulots d'étranglement changeants et des récompenses scalaires masquent divers modes d'échec. Nous introduisons EvoTrainer, un cadre d'entraînement autonome qui co-évolue les politiques des LLM et les cadres d'entraînement via un retour empirique : il diagnostique les preuves au niveau des rollouts, révise les diagnostics, effectue des backtests d'interventions et accumule des compétences réutilisables. Évalué sur le raisonnement mathématique, la génération de code pour la programmation compétitive et l'ingénierie logicielle au niveau du dépôt, EvoTrainer égale ou dépasse les références RL conçues par l'homme avec les mêmes données, codebase et protocole d'évaluation, le gain le plus important étant observé sur le SWE agentique à long horizon. Les analyses de trajectoires montrent que les stratégies retenues divergent selon les domaines, que les diagnostics évolutifs empêchent la promotion de branches invalides à score élevé, et que les compétences réutilisables façonnent les recherches ultérieures. La RL autonome pour LLM devrait dépasser la recherche de recettes pour évoluer vers une évolution conjointe des politiques et des cadres d'entraînement qui les interprètent.
Nous présentons Embodied-R1.5, un modèle fondamental incarné (Embodied Foundation Model, EFM) unifié qui intègre des capacités complètes de raisonnement incarné, couvrant la cognition incarnée, la planification de tâches, la correction et le pointage, au sein d'une architecture unique, en vue d'une intelligence physique générale. En exploitant trois pipelines automatisés de construction de données pour étendre considérablement la couverture des données relatives aux capacités critiques, nous constituons un système de données à grande échelle de plus de 15 milliards de tokens, et concevons une méthode d'apprentissage par renforcement (RL) multi-tâches équilibrée pour atténuer les conflits entre tâches hétérogènes. Nous introduisons en outre un cadre en boucle fermée Planificateur-Groundeur-Correcteur (PGC) qui permet à un modèle unique d'exécuter de manière autonome et de s'auto-corriger sur des tâches à long horizon. Avec seulement 8 milliards de paramètres, Embodied-R1.5 atteint un niveau de performance de pointe (SOTA) sur 16 des 24 benchmarks VLM incarnés, surpassant des modèles de premier plan tels que Gemini-Robotics-ER-1.5 et GPT-5.4. Grâce à ses capacités incarnées internalisées, Embodied-R1.5 peut être affiné en un VLA avec seulement une petite quantité de données, surpassant des modèles VLA leaders comme π_{0.5} sur 4 suites de benchmarks de manipulation populaires. Nous menons en outre des expériences approfondies en zéro-shot sur des robots réels, validant les performances en matière de suivi d'instructions, d'ancrage d'affordances, de manipulation d'objets articulés et de tâches complexes à long horizon, démontrant ainsi une forte généralisation au monde physique. Nous publions en open source les poids du modèle, les ensembles de données, le code d'entraînement et EmbodiedEvalKit, un cadre d'évaluation adapté aux tâches incarnées, afin de faciliter la recherche future sur les EFM.
L'apprentissage par renforcement (RL) avec des environnements vérifiables est devenu une approche puissante pour améliorer les capacités de raisonnement des grands modèles de langage (LLMs). Bien que des recherches antérieures montrent que l'augmentation du nombre d'environnements améliore les performances du RL, les méthodes de construction manuelles ou individuelles existantes souffrent de limites d'échelle linéaire, entravant ainsi une généralisation scalable du raisonnement. Cet article présente RACES (Recursive Automated Composition for Environment Scaling), un cadre conceptuel qui considère les environnements vérifiables comme des blocs de construction composables pouvant être assemblés de manière récursive. L'idée clé est que lorsque le codomaine (type de sortie) d'un environnement correspond au domaine (type d'entrée) d'un autre, ils peuvent être automatiquement fusionnés en un nouvel environnement vérifiable, permettant une composition récursive. RACES est implémenté avec 300 environnements individuels et définit un ensemble d'opérateurs de composition (SÉQUENTIEL, PARALLÈLE, TRIER et SÉLECTIONNER) qui induisent divers schémas de raisonnement. Des expériences approfondies montrent que l'entraînement par RL sur ces environnements composites améliore constamment la généralisation du raisonnement. En particulier, RACES améliore DeepSeek-R1-Distill-Qwen-14B de 3,1 points en moyenne (de 48,2 à 51,3) et augmente les performances de Qwen3-14B de 58,8 à 61,1 sur six benchmarks, qui sont inédits lors de la construction des environnements d'entraînement. De plus, RACES atteint des performances comparables à un entraînement sur 300 environnements individuels en n'utilisant que 50 environnements de base, démontrant ainsi une efficacité significative dans l'utilisation des environnements.
Les modèles génératifs vidéo pré-entraînés sont des modèles de mondes visuels prometteurs qui manifestent des capacités émergentes de résolution de tâches ; cependant, leur dépendance à des descriptions textuelles détaillées limite leur utilisation directe pour la planification et la prise de décision. Les approches existantes soit externalisent ce raisonnement à des modèles de langage ou de vision-langage, soit reposent sur un ajustement supervisé avec des vidéos d’exécution de tâches appariées, lesquelles sont coûteuses à collecter et difficiles à généraliser. Nous proposons un cadre scalable qui suscite la capacité de résolution de tâches dans ces modèles en combinant auto-distillation et apprentissage par renforcement. Étant donné une image de scène non annotée, un modèle vision-langage génère une tâche candidate et une solution détaillée étape par étape. La solution conditionne un modèle de diffusion vidéo pré-entraîné, le Demonstrator ; nous distillons son comportement dans un Executor conditionné uniquement par l’image et une courte instruction de tâche. Cela transfère la connaissance d’exécution, d’une génération guidée par légende à une résolution de tâche conditionnée par instruction, sans supervision parvidéos de tâches appariées. Nous améliorons ensuite l’Executor par apprentissage par renforcement à partir des retours du VLM, exploitant l’asymétrie entre juger si une vidéo échantillonnée satisfait une tâche et générer la solution. Les expériences sur notre WorldTasks-Benchmark et le benchmark robotique DreamGen montrent que l’Executor surpasse le Demonstrator selon notre protocole d’évaluation basé sur le VLM et se transfère de manière compétitive à des tâches robotiques.
Le parallélisme de pipeline est essentiel pour l’entraînement de grands réseaux de neurones, mais les ordonnancements existants font des compromis entre débit, mémoire et cohérence d’optimisation. Les pipelines synchrones préservent la cohérence des poids entre les passes avant et arrière, mais souffrent de bulles ; les pipelines asynchrones éliminent les bulles mais introduisent un décalage de version des poids, nécessitant généralement des mécanismes de stockage, de prédiction ou de correction des poids. Nous présentons PACI (Pipeline Asynchrone avec Incohérence Contrôlée), une méthode de pipeline asynchrone sans bulle qui limite la dérive de version entre les passes avant et arrière sans stockage de poids, prédiction, copies de paramètres supplémentaires ni synchronisation globale. L’idée clé est d’utiliser l’accumulation locale de gradients comme mécanisme de contrôle de version : en ralentissant l’évolution de la version des paramètres par rapport au délai du pipeline, PACI limite le nombre de mises à jour de l’optimiseur traversées par tout micro-lot, tout en maintenant une utilisation en régime permanent. Lors du pré-entraînement de modèles de langage de type GPT, PACI égalise la stabilité et la perplexité finale du pipeline synchrone 1F1B-flush, conserve la même empreinte mémoire maximale, atteint un débit de pipeline pleinement utilisé et améliore le temps d’entraînement jusqu’à la précision d’un facteur allant jusqu’à 1,69 par rapport à la référence de flush la plus rapide. Ces résultats montrent que l’incohérence entre passes avant et arrière n’a pas besoin d’être éliminée : une fois explicitement bornée, elle peut être échangée en toute sécurité contre des gains d’efficacité substantiels.
Les modèles de diffusion ont constamment stimulé les progrès en génération texte-image. Cependant, il est difficile d'attribuer les récents progrès à des choix spécifiques de modélisation et de données : les modèles à poids ouverts de pointe fournissent des ablations limitées et ne divulguent ni leurs données d'entraînement ni les détails complets de leur entraînement. La communauté de recherche a besoin de modèles entièrement ouverts (poids, données et code) comme fondement pour des recherches futures ; pourtant, les modèles entièrement ouverts existants restent nettement inférieurs aux modèles leaders en termes de performances. Dans ce projet, nous menons une investigation systématique des choix de conception de modélisation et de données dans l'entraînement et l'inférence de diffusion texte-image, avec plus de 300 expériences contrôlées totalisant plus de 700 000 heures TPU v6e. Nos expériences mettent en lumière plusieurs résultats empiriques (par exemple, la pondération égale est un bon défaut pour mélanger des ensembles de données curatés) et des décisions de conception simples (par exemple, des adaptateurs d'encodeur de texte plus grands améliorent les performances avec un minimum de paramètres ajoutés) pour entraîner des modèles performants. Guidés par ces observations, nous entraînons i1, un modèle de diffusion texte-image de 3 milliards de paramètres utilisant uniquement des ensembles de données accessibles publiquement. i1 est compétitif avec les principaux modèles sur cinq bancs d'essai représentatifs (GenEval, DPG, PRISM, CVTG-2K et LongText), et surpasse le meilleur modèle entièrement ouvert existant de 29,5 points de pourcentage absolus en moyenne. Nous fournissons les points de contrôle d'i1, le code d'entraînement et d'inférence, ainsi que le pipeline de traitement des données. Ensemble, nos résultats et la recette d'i1 établissent une base pratique pour les futures recherches ouvertes sur les modèles de diffusion texte-image. Notre code est disponible à l'adresse https://github.com/zlab-princeton/i1.
Les agents d'utilisation d'ordinateur (CUAs) s'appuient sur des observations visuelles d'interfaces graphiques utilisateur, où chaque capture d'écran est encodée en un grand nombre de tokens visuels. À mesure que les trajectoires d'interaction s'allongent, le coût en tokens augmente rapidement, limitant la quantité d'historique pouvant être intégrée sous des contraintes de contexte et de budget de calcul fixes. Cela n'a entraîné aucune amélioration, ou une amélioration très limitée, des performances lors de l'utilisation de l'historique, contrairement à d'autres domaines. Nous remédions à cette inefficacité en introduisant ReVision, qui permet d'entraîner des modèles de langage multimodaux sur des trajectoires où les patches visuels redondants sont supprimés à l'aide d'un sélecteur de patches appris, lequel compare les représentations des patches entre captures d'écran consécutives tout en préservant la structure spatiale requise par le modèle. Sur trois benchmarks, OSWorld, WebTailBench et AgentNetBench, lors du traitement de trajectoires avec 5 captures d'écran historiques à l'aide de Qwen2.5-VL-7B, ReVision réduit l'utilisation de tokens de 46% en moyenne tout en améliorant le taux de réussite de 3% par rapport à la base de référence sans suppression. Cela établit un gain d'efficacité clair, permettant aux agents de traiter des trajectoires plus longues avec moins de tokens. Grâce à cette efficacité améliorée, nous réexaminons le rôle de l'historique dans les CUAs et constatons que les performances continuent de s'améliorer à mesure que davantage d'observations passées sont intégrées lorsque la redondance est supprimée.
Les compétences d'agent offrent un mécanisme léger pour étendre les agents généralistes, mais leur format ouvert les expose à des attaques par empoisonnement de compétences. Une injection pratiquement dangereuse doit rester invisible : si l'exécution de la charge utile fait dérailler la tâche légitime de l'utilisateur, le signal d'échec qui en résulte invite à inspecter la compétence. Nous évaluons donc les attaques selon le taux de succès d'attaque (Attack Success Rate, ASR), qui exige que la charge utile injectée soit exécutée et que la tâche de l'utilisateur réussisse son vérificateur lors du même essai. Les attaques par empoisonnement de compétences antérieures sont confrontées à un compromis fiabilité-discrétion sous cet angle : les injections dans l'en-tête YAML sont chargées de manière fiable mais facilement inspectables, tandis que les injections dans le corps, plus discrètes, qui placent des commandes malveillantes explicites dans le texte de la compétence, sont moins fiables car les commandes hors contexte éveillent les soupçons de l'agent. Nous introduisons POISE, une attaque sensible à la position qui compresse le déclencheur en une seule instruction corporelle d'apparence bénigne, la plaçant à une position réalisable et utilisant un générateur contextuel pour la fondre avec les étapes de configuration ou prérequises voisines. Sur Skill-Inject avec codex+gpt-5.2, POISE atteint un ASR de 89,3 %, soit 28,0 points de plus qu'une base de référence avec placement aléatoire dans le corps et 2,6 points de plus qu'une base de référence avec uniquement YAML, tout en conservant l'avantage de discrétion du placement dans le corps. Cette discrétion constitue la marge décisive : comme les corps de compétences légitimes nécessitent naturellement des opérations privilégiées sur les outils, les analyseurs LLM sont hypersensibles, signalant à tort 74,6 % des compétences propres en moyenne sur quatre juges et deux référentiels. En se fondant dans ces fausses alertes, POISE ne fait apparaître qu'un nouveau signal de haut risque pour 5,6 % des variantes empoisonnées par rapport à leurs bases propres, rendant inefficaces les défenses statiques actuelles.
La prédiction de la durée de vie résiduelle (RUL) est essentielle pour la maintenance prédictive industrielle, pourtant de nombreuses approches basées sur l'apprentissage reposent sur une ingénierie extensive des caractéristiques ou sur de grands ensembles de données étiquetés pour entraîner des modèles séquentiels spécifiques à une tâche. Dans ce travail, nous introduisons une approche d'apprentissage léger, dans laquelle nous exploitons un modèle de fondation de séries temporelles (TSFM) pré-entraîné et gelé et le combinons avec une petite tête de régression pour estimer la RUL à partir de flux de capteurs multivariés. Plus précisément, nous utilisons Chronos-2 comme backbone gelé pour extraire les caractéristiques de fenêtres de contexte et entraîner un réseau de neurones de régression léger pour la prédiction de la RUL. Des expériences sur des données réelles de capteurs industriels provenant de deux types d'appareils montrent que les caractéristiques de Chronos-2 améliorent systématiquement les lignes de base récurrentes, convolutionnelles, basées sur Transformers et sur le gradient boosting sous le même protocole de prétraitement et d'évaluation. Nous analysons également l'impact de la longueur du contexte et constatons que les performances s'améliorent significativement avec des historiques plus longs, ce qui indique que les représentations des TSFM offrent une alternative pratique et économe en données pour l'estimation de la RUL dans les environnements industriels.
De nombreux modèles vision-langage (MVL) modernes reposent sur le décodage autorégressif de tokens discrets. Bien que les interfaces de sortie textuelles permettent un pré-entraînement à grande échelle et une forte généralisation zéro-shot à travers diverses tâches, elles sont mal adaptées aux problèmes nécessitant des sorties continues précises, comme la localisation des limites temporelles d'événements ou la génération d'actions de contrôle robotique. Pour relever ce défi, nous proposons DRIFT, un cadre général pour adapter les MVL pré-entraînés à des tâches de décodage continu. DRIFT combine un prédicteur de base, qui fournit une estimation grossière de la sortie cible, avec un module de raffinement génératif basé sur le flow matching qui améliore itérativement la prédiction. Cette formulation résiduelle transforme le problème de modélisation générative, passant de l'apprentissage d'une distribution de sortie globale à la modélisation d'une distribution résiduelle localisée autour d'un a priori fort, simplifiant considérablement l'optimisation. Nous évaluons DRIFT sur des tâches de perception et de planification, notamment l'ancrage visuel et le contrôle robotique. À travers plusieurs tâches et architectures couvrant les MLLM, les VLA et les WAM, DRIFT surpasse systématiquement un ensemble solide de solutions basées sur la régression et la génération.
Il existe deux principales techniques de fine-tuning paramétrique efficace (PEFT) pour les grands modèles de langage (LLM). Alors que l'adaptation à bas rang (LoRA) introduit des poids supplémentaires entre les couches du LLM, l'incitation logicielle (Soft Prompting) introduit des jetons bruts supplémentaires spécifiques au fine-tuning dans l'entrée d'un LLM. Cependant, toutes deux exigent une modification des graphes de calcul des LLM précompilés et préoptimisés. Par conséquent, aucune n'est pleinement prise en charge dans les moteurs à haut débit comme vLLM. Nous proposons un fine-tuning avec ART (Apprentissage par Renforcement basé sur l'Art). Cette méthode injecte des informations dans un grand modèle de langage multimodal (MLLM) figé en optimisant uniquement son entrée visuelle brute, permettant ainsi l'approche par jetons logiciels sur des graphes de calcul précompilés. Elle repose sur la rétropropagation des gradients vers un simple tableau de pixels et prend donc en charge tout objectif de fine-tuning. De plus, l'entrée visuelle optimisée peut être stylisée sous forme d'œuvres d'art computationnelles pertinentes pour la tâche. L'efficacité de l'approche est confirmée pour différentes tailles d'une architecture Qwen ouverte populaire et pour plusieurs références textuelles. Plus précisément, ART atteint une précision compétitive avec LoRA dans les références de mathématiques et d'utilisation d'outils structurés.
Des travaux antérieurs ont montré que les grands modèles de langage (LLM) affinés par instructions sont moins bien calibrés que leurs homologues pré-entraînés de base. Cependant, on sait peu de choses sur l'effet du modèle de chat fréquemment utilisé sur la calibration des LLM conversationnels. Dans ce travail, nous étudions les mécanismes à l'origine de cette mauvaise calibration en dissociant les effets de l'algorithme de post-entraînement et du format de chat. Nous constatons que, si l'affinage par instructions nuit fondamentalement à la calibration, le modèle de chat aggrave le problème à travers un « biais de propriété » : les modèles sont nettement plus confiants dans leurs propres réponses que dans des réponses identiques fournies par un utilisateur. Des expériences approfondies sur six LLM récents à poids ouverts, trois références et trois méthodes d'élicitation de confiance montrent que les modèles attribuent jusqu'à 26 % de confiance supplémentaire à leurs propres réponses. En exploitant cette observation, nous proposons une stratégie simple au moment de l'inférence : présenter la réponse du modèle comme une entrée utilisateur lors de l'élicitation de confiance. Cette approche réduit significativement l'excès de confiance et améliore la calibration jusqu'à 26 % sans nécessiter de réentraînement, comblant ainsi l'écart entre les modèles de base et les modèles affinés par instructions.
Les grands modèles de langage (LLMs) offrent un nouveau potentiel pour les tâches de traduction, mais leur performance se dégrade souvent lorsqu'ils traitent des langues à faibles ressources. Pour pallier cette limitation, nous proposons une approche de réglage fin des LLMs sur une langue faiblement dotée, le malais de Kupang. Notre méthode consiste à concevoir un ensemble d'instructions en exploitant des caractéristiques lexicales et sémantiques explicites issues d'un dictionnaire bilingue, et à introduire le Réglage Continu par Instructions (RCI), un paradigme d'entraînement permettant un apprentissage itératif basé sur des instructions. Les résultats expérimentaux montrent que notre modèle, nommé Lius, obtient des améliorations notables par rapport aux modèles standards ajustés par instructions, avec un gain de 4 à 6 points, et dépasse à la fois les modèles de Traduction Automatique Neuronale (TAN) et les LLMs multilingues de 10 à 13 points selon plusieurs métriques d'évaluation. Ces résultats soulignent le potentiel de notre approche pour réduire la dépendance aux données parallèles à grande échelle dans la traduction de langues à faibles ressources.
Les grands modèles de langage (LLMs) sont largement utilisés pour résoudre des tâches complexes avec des workflows autonomes. Récemment, les compétences réutilisables en langage naturel sont devenues un paradigme populaire pour injecter des connaissances procédurales dans les applications de LLMs. Étant donné que les compétences courantes sont souvent invoquées de manière répétée, placer leur texte intégral dans chaque contexte augmente considérablement le coût et la latence de préremplissage. Bien que les techniques de compression de texte aient le potentiel de résoudre ce problème, la plupart des méthodes existantes sont conçues pour compresser des connaissances factuelles dans des documents plutôt que des connaissances procédurales, ce qui les rend insuffisantes pour la compression de compétences. Dans cet article, nous soutenons qu'une méthode efficace de compression de compétences devrait : 1) préserver les dépendances logiques entre les workflows et les protocoles d'outils, 2) permettre une compression légère et hors ligne pour les compétences communautaires fréquemment mises à jour, et 3) être adaptable à des complexités variables selon les compétences. Pour répondre à cela, nous présentons SKIM (SKIll coMpression), un cadre adaptatif de compression de tokens logiciels multi-résolution pour les compétences procédurales. En fonction de la complexité de chaque compétence, SKIM crée différents nombres de tokens logiciels qui non seulement améliorent l'efficacité de l'inférence des LLMs, mais préservent également l'efficacité de l'utilisation des compétences. Les expériences indiquent que SKIM compresse les compétences à 30 à 60 pour cent de leur longueur initiale de tokens tout en préservant mieux les performances de la tâche que les méthodes de compression existantes. Nous avons publié notre code à l'adresse https://github.com/bebr2/SKIM .
Comprendre et prédire comment les croyances sociales évoluent en réponse à des événements — allant des changements de politiques aux percées scientifiques — reste un défi fondamental en sciences sociales. Compte tenu des connaissances générales et de l'intelligence sociale des LLM, nous nous demandons : les LLM peuvent-ils modéliser la dynamique des croyances sociales à la suite d'événements sociaux ? Dans ce travail, nous introduisons le concept de Social World Model (SWM), un cadre général conçu pour capturer la manière dont les croyances sociales évoluent en réponse à des événements majeurs. SWM apprend des fonctions de transition d'état pour les croyances sociales en extrayant des motifs temporels dans les données sociales et en optimisant la borne inférieure de l'évidence, sans nécessiter d'annotations humaines explicites reliant les événements aux changements de croyances, ni de données de recensement coûteuses. Pour évaluer SWM, nous introduisons un benchmark, SWM-bench, dérivé de marchés de prédiction réels, spécifiquement Kalshi et Polymarket. SWM-bench comprend plus de 12 000 points de données pour des tâches de prédiction de croyances sociales couvrant divers domaines tels que la politique, la finance et la cryptomonnaie. Nos résultats expérimentaux montrent que SWM surpasse significativement les modèles de fondation de séries temporelles, obtenant des résultats de pointe sur les données de Kalshi et démontrant des performances compétitives sur les données de Polymarket, tout en offrant des perspectives interprétables sur les mécanismes sous-jacents de la dynamique des croyances sociales.
Les grands modèles de langage (LLM) connaissent un essor dans l'accélération de la découverte scientifique, notamment pour des tâches avancées telles que la génération d'hypothèses scientifiques valides. Cependant, dans de nombreux contextes de découverte, l'objectif n'est pas d'identifier une seule hypothèse optimale, car la validation peut être coûteuse et bruitée, et les scientifiques bénéficient d'un ensemble d'hypothèses de haute qualité offrant des alternatives qui se prémunissent contre l'incertitude en aval pour les meilleures solutions. Néanmoins, les méthodes de recherche évolutionnistes couramment utilisées tendent à privilégier l'optimisation au détriment de l'exploration lors de la génération d'hypothèses, et la pression de sélection qui en résulte pendant le processus de recherche conduit à un effondrement de la diversité. Motivés par ces limitations, nous formulons la recherche d'hypothèses comme un problème d'échantillonnage, dont l'objectif est de produire efficacement des hypothèses diverses et de haute qualité sous un budget de validation fixe. En nous appuyant sur cette perspective, nous proposons \ours, un cadre évolutionniste inspiré de l'algorithme classique de recuit parallèle qui explore les hypothèses à plusieurs niveaux de température et permet un échange d'informations structuré entre les températures pour améliorer l'exploration sans perturber la convergence. Dans des domaines tels que la découverte moléculaire, la découverte d'équations et la découverte d'algorithmes, notre approche améliore systématiquement à la fois la qualité et la diversité des hypothèses sous le même budget de validation, et produit des candidats qui restent robustes lors de validations computationnelles plus coûteuses en aval.
Les modèles génériques de séries temporelles se transfèrent mal aux données de télémétrie des réseaux sans fil, dont les signaux sont sporadiques, surabondants de zéros et couplés entre les couches protocolaires. Nous présentons APEX, un transformateur natif du réseau, à décodeur seul, pour la prévision de la télémétrie des points d'accès (AP) en environnement professionnel, et l'évaluons sur la dégradation du protocole DHCP en tant que tâche réseau représentative. APEX est pré-entraîné sur des données de télémétrie multivariées à 10 canaux provenant d'environ 4 500 réseaux sans fil en production (~100 000 séries temporelles d'AP, 34 métriques par AP), et est disponible en version APEX-Large (269 M, cloud) et APEX-Edge (10,5 M, périphérie). Sur un benchmark de dégradation DHCP de 192 pas (4 jours), APEX-Large réduit l'erreur absolue moyenne (MAE) de 18 % par rapport à la meilleure ligne de base fondation-modèle (Toto) et de 38 % par rapport à SARIMA, avec un score F1 de détection d'anomalies de 0,93, tandis qu'APEX-Edge permet une inférence en moins d'une seconde, respectueuse de la vie privée, sur du matériel périphérique de type AP. Ces résultats suggèrent que le pré-entraînement natif du réseau constitue une base pratique pour des opérations sans fil proactives.
Alors que les systèmes de recommandation évoluent vers des interfaces conversationnelles agentiques à plusieurs tours, les paradigmes d'évaluation peinent à suivre le rythme. Les bancs d'essai actuels reposent souvent sur des évaluations de type "LLM en tant que juge", ce qui introduit de la subjectivité, des coûts élevés et un manque de cohérence. Nous présentons τ-Rec, un banc d'essai pour les systèmes de recommandation agentiques qui remplace l'évaluation subjective par des récompenses vérifiables et un mécanisme de sollicitation à étiquetage révélateur (RTE) contrôlant la façon dont les contraintes de tâche apparaissent au cours du dialogue. En testant les agents par rapport à des prédicats de catalogue structurés et en employant une métrique de fiabilité pass^k, τ-Rec offre un test systématique pour un raisonnement cohérent. Notre évaluation de neuf configurations à travers cinq familles de modèles — GPT-5.4, Claude Sonnet 4.6, Gemini 2.5 Flash, DeepSeek V4 Flash, Qwen3-32B et GPT-5 mini — révèle un abrupt précipice de fiabilité, où même le meilleur modèle n'atteint qu'environ 57 % à pass^1 et environ 38 % à pass^4, mettant en évidence un fossé critique dans le déploiement actuel des agents conversationnels. Tout le code et les données sont disponibles publiquement à l'adresse https://github.com/nbharaths/tau-rec.
La curation des données d'entraînement constitue l'un des aspects les plus déterminants, mais aussi les plus exigeants en main-d'œuvre, du développement moderne de l'IA : les praticiens itèrent en proposant, mettant en œuvre, évaluant et révisant des politiques de données face à des retours de benchmark bruités. Nous nous demandons si des agents codeurs généralistes peuvent automatiser cette boucle de curation de données. Nous présentons *Curation-Bench*, un benchmark centré sur l'agent qui fixe le modèle, la recette d'entraînement et la suite d'évaluation, tout en donnant aux agents un accès en ligne de commande pour inspecter les données, mettre en œuvre des politiques, les soumettre à un pipeline fixe d'entraînement/évaluation et les réviser. Dans une instanciation d'instruction-tuning vision-langage, des agents prêts à l'emploi atteignent des références solides publiées en matière de sélection de données en moins de dix itérations. Cependant, l'analyse des trajectoires révèle un *écart persistant entre exécution et recherche* : les agents ajustent principalement des variantes locales de politiques plutôt que d'explorer de nouvelles familles de politiques, même lorsqu'on leur fournit des guides stratégiques et des références d'articles. Des échafaudages exigeant que chaque itération cite, instancie et adapte une méthode antérieure orientent les agents vers une exploration guidée par les méthodes. L'agent échafaudé compose de manière autonome — sans intervention humaine dans la conception — une politique de sélection de données qui surpasse des références publiées solides avec un dixième de leur budget de données. Dans l'ensemble, les agents actuels peuvent exécuter la boucle de curation, mais une recherche fiable sur les données nécessite une adaptation méthodique échafaudée, et non un simple prompting ouvert. Le code et le benchmark sont en open source.
Le post-entraînement des modèles de raisonnement combine généralement l’apprentissage supervisé fin avec l’apprentissage par renforcement à partir de récompenses vérifiables, le plus souvent via GRPO. Cependant, cet algorithme souffre de récompenses clairsemées, d’une exploration limitée et d’un effondrement de mode. En nous appuyant sur des travaux récents en auto-distillation, nous proposons la Distillation par Rétroaction, une méthode d’entraînement où le modèle est entraîné à correspondre, au niveau des tokens, à sa propre distribution conditionnée par une rétroaction privilégiée produite par un modèle de langage. La Distillation par Rétroaction offre une supervision au niveau des tokens et peut injecter des connaissances externes. En évaluant notre méthode pour la démonstration de théorèmes sous Lean4, nous constatons que la Distillation par Rétroaction maintient une plus grande diversité dans les trajectoires générées que GRPO, produisant une entropie de politique plus élevée et un meilleur passage à l’échelle du pass@k. Les deux méthodes sont complémentaires : initialiser GRPO à partir d’un point de contrôle de Distillation par Rétroaction surpasse l’une ou l’autre méthode employée seule. Dans l’ensemble, nos résultats suggèrent une voie prometteuse pour améliorer le post-entraînement dans le cadre de raisonnements complexes.
L'imagerie par résonance magnétique (IRM) cérébrale joue un rôle central dans l'étude du développement neurologique, du vieillissement et des pathologies. Une application clé est la prédiction de l'âge cérébral (BAP), qui estime l'âge biologique du cerveau d'un individu à partir de données IRM. Les modèles BAP efficaces nécessitent des ensembles de données volumineux, diversifiés et équilibrés en âge, alors que les ensembles de données IRM 3D existants présentent des biais démographiques, limitant l'équité et la généralisabilité. L'acquisition de nouvelles données est coûteuse et soumise à des contraintes éthiques, ce qui motive l'augmentation générative de données. Les méthodes génératives actuelles sont souvent basées sur des modèles de diffusion latente, qui opèrent dans des espaces latents de faible dimension appris pour répondre aux exigences mémoire des données IRM volumétriques. Cependant, ces méthodes sont généralement lentes lors de l'inférence, peuvent introduire des artefacts dus à la compression latente, et sont rarement conditionnées par l'âge, ce qui affecte les performances de la BAP. Dans ce travail, nous proposons FlowLet, un cadre génératif conditionnel qui synthétise des IRM 3D conditionnées par l'âge en exploitant le flow matching dans un domaine d'ondelettes 3D inversible, contribuant ainsi à éviter les artefacts de reconstruction et à réduire les besoins computationnels. Les expériences montrent que FlowLet génère des volumes de haute fidélité en peu d'étapes d'échantillonnage. L'entraînement de modèles BAP avec des données générées par FlowLet améliore les performances pour les groupes d'âge sous-représentés, et une analyse régionale confirme la préservation des structures anatomiques.
Les pipelines modernes d’entraînement des LLM s’appuient de plus en plus sur d’autres modèles pour générer des données, filtrer des corpus, évaluer des sorties et guider les décisions de développement. Ces dépendances sont récursives : un modèle peut dépendre d’un artefact amont dont les propres dépendances ne sont documentées que dans des versions et artefacts séparés. Par conséquent, la structure complète des dépendances est fragmentée à travers des artefacts publics hétérogènes, avec une complexité et une profondeur récursive qui dépassent largement la capacité humaine de traçage. Nous introduisons ModSleuth, un système agentique qui reconstruit récursivement les graphes de dépendances des LLM à partir d’artefacts publics, avec des preuves ancrées dans les sources. Nous constatons que le principal défi n’est plus l’extraction d’informations, mais la définition de ce qui constitue une dépendance et la conciliation des références entre artefacts dans une documentation incohérente. Nous relevons ces défis grâce à une formalisation qui distingue les dépendances directes et indirectes, représente les rôles hétérogènes des pipelines par des relations centrées sur les opérations, et résout les identités des artefacts à travers les noms, versions et dépôts. En appliquant ModSleuth à quatre versions de LLM riches en artefacts publics, nous récupérons 1 060 dépendances vérifiées par les sources et construisons des graphes de dépendances à grande échelle du développement moderne des LLM. Ces graphes révèlent des obligations de licence multi-sauts, un couplage entraînement-évaluation, des écarts entre les artefacts publiés et ceux utilisés à l’entraînement, ainsi que des incohérences documentaires autrement difficiles à découvrir. Nous publions ModSleuth et les graphes de dépendances qui en résultent afin de soutenir une analyse transparente des écosystèmes de plus en plus complexes qui sous-tendent les LLM modernes.
L’attention clairsemée réduit les besoins en calcul et en bande passante mémoire pour l’inférence de grands modèles de langage (LLM) sur des contextes longs. Cependant, deux défis majeurs subsistent : (1) la capacité du cache KV continue de croître avec la longueur de séquence, et son déchargement vers la mémoire CPU introduit un goulot d’étranglement lié au transfert PCIe ; (2) l’étape de sélection clairsemée conserve elle-même une complexité en O(T²) et peut dominer le coût de l’attention pour les contextes longs. Nous proposons SparDA, une architecture d’attention clairsemée découplée qui introduit une quatrième projection par couche, le Forecast, aux côtés des projections Query, Key et Value. Le Forecast prédit les blocs KV nécessaires à la couche suivante, ce qui permet une sélection anticipée superposant le préchargement CPU-à-GPU à l’exécution de la couche courante. Grâce au découplage du Forecast de la requête d’attention, notre implémentation GQA utilise une tête Forecast par groupe GQA, réduisant ainsi le surcoût de sélection par rapport au sélecteur multi-têtes original. SparDA ajoute moins de 0,5 % de paramètres et n’entraîne que les projections Forecast en les faisant correspondre à la distribution d’attention du sélecteur original. Sur deux modèles de 8B paramètres pré-entraînés avec attention clairsemée, SparDA atteint, voire améliore légèrement la précision, et offre jusqu’à 1,25× d’accélération du préremplissage et 1,7× d’accélération du décodage par rapport à la baseline de déchargement avec attention clairsemée. En permettant des tailles de lots réalisables plus grandes sur un seul GPU, SparDA atteint en outre jusqu’à 5,3× de débit de décodage supérieur à la baseline clairsemée sans déchargement. Notre code source est disponible à l’adresse https://github.com/NVlabs/SparDA.