Articles de recherche IA sélectionnés quotidiennement avec traductions
Les modèles de monde pour la génération interactive de vidéos se sont principalement concentrés sur des contextes mono-agent, où les observations futures sont générées à partir d’un unique signal de contrôle. Cependant, de nombreux environnements générés nécessitent des interactions multi-agents : plusieurs joueurs, robots ou agents incarnés agissent simultanément dans un espace partagé. L’adaptation des modèles de monde à de tels contextes exige une conception multi-agents fondée sur des principes : les agents doivent rester indépendamment contrôlables, symétriques par permutation et permettre une inférence efficace tout en maintenant la cohérence dans le temps et entre les perspectives. Dans cet article, nous présentons notre modèle de monde génératif multi-agents pour la simulation interactive. Il introduit le codage simplex rotatoire des agents (Simplex Rotary Agent Encoding), une extension sans paramètre du RoPE 3D qui représente les agents comme les sommets d’un simplexe régulier dans l’espace des angles rotatoires. Cela confère à chaque agent une phase distincte tout en rendant tous les agents équivalents par permutation, permettant une identité agent évolutive sans identités par emplacement apprises ni ordre fixe des agents. Pour éviter une attention dense de tous vers tous entre agents, nous proposons en outre l’attention par hub sparse (Sparse Hub Attention), où des jetons hub apprenables assurent la médiation des interactions entre agents, réduisant ainsi le coût de l’attention inter-agents de quadratique à linéaire en fonction du nombre d’agents. Pour un déroulement en temps réel, nous distillons un enseignant diffusif à contexte complet en un étudiant causal qui génère des blocs temporels de manière séquentielle avec mise en cache KV, permettant une génération réactive aux actions à 24 FPS. Des expériences menées dans des environnements virtuels multi-joueurs montrent que notre modèle améliore la fidélité vidéo, la contrôlabilité des actions et la cohérence inter-agents par rapport aux approches de base par emplacements et à attention dense, tout en généralisant de deux à quatre joueurs sans entraînement supplémentaire.
Les systèmes de recommandation proactifs (PRS) visent à guider le déplacement des préférences des utilisateurs vers des éléments cibles en générant des chemins de recommandations intermédiaires. L'apprentissage par renforcement (RL) offre un cadre théorique pour optimiser de telles tâches de décision séquentielle, car les récompenses de chemin peuvent naturellement capturer à la fois l'acceptation à court terme et l'efficacité du guidage à long terme. Cependant, l'application naïve des gradients de politique aux PRS conduit à une estimation déficiente des gradients. Nous identifions deux déficiences : (1) les récompenses au niveau du chemin se décomposent en récompenses au niveau des étapes avec une moyenne positive, créant un biais dépendant de la longueur qui pousse les gradients à favoriser l'extension du chemin plutôt qu'une exploration significative ; (2) pondérer chaque étape par la récompense totale du chemin ignore la structure de décomposition, ce qui entraîne une variance élevée des gradients. Pour remédier à ces deux déficiences, nous proposons un cadre RL efficace, ProRL, avec deux mécanismes novateurs pour la recommandation proactive. Premièrement, le centrage des récompenses par étape (Stepwise Reward Centering) soustrait les récompenses attendues pour neutraliser le biais dépendant de la longueur, garantissant que l'extension du chemin produit un signal de gradient attendu nul. Deuxièmement, l'estimation de l'avantage spécifique à la position (Position-Specific Advantage Estimation) exploite la structure de décomposition des récompenses pour calculer des lignes de base dépendantes de l'étape, réduisant ainsi la variance des gradients. Ensemble, ces mécanismes produisent des gradients de politique qui ciblent précisément la qualité du chemin. Nos expériences sur trois ensembles de données réelles démontrent que ProRL surpasse significativement les PRS de pointe. Notre code est disponible à l'adresse https://github.com/hongruhou89/ProRL.
Les modèles vision-langage dotés d'un raisonnement étendu parviennent à résoudre des problèmes complexes, mais de nombreux problèmes du monde réel nécessitent des outils externes que le seul raisonnement interne ne peut souvent pas résoudre. Le raisonnement agentique entrelace donc deux comportements présentant une asymétrie structurelle : la réflexion (comportement par défaut autonome) et l'utilisation d'outils (action auxiliaire à forte variance). Nous appelons cette asymétrie le « fossé Pensée-Action ». Dans le cadre de recettes RL standard comme GRPO, ce fossé se manifeste par deux symptômes diagnostiques pendant l'entraînement : l'utilisation d'outils n'est tentée que dans ~30% des rollouts, et lorsqu'elle est tentée, les rollouts avec outils au sein d'un groupe sont tous incorrects pour ~40% des questions, ce qui supprime le signal d'apprentissage au niveau des appels d'outils qui en avaient besoin. Nous proposons AXPO (Agent eXplorative Policy Optimization) : pour chaque sous-groupe d'utilisation d'outils tous incorrects, AXPO fixe le préfixe de réflexion et rééchantillonne l'appel d'outil ainsi que sa continuation, associé à une sélection de préfixe basée sur l'incertitude. Sur neuf bancs d'essai multimodaux et trois échelles de Qwen3-VL-Thinking, SFT+AXPO surpasse SFT+GRPO en moyenne (+1,8 pp Pass@1 et +1,8 pp Pass@4 à 8B en moyenne) et, à 8B, SFT+AXPO dépasse le modèle de base 32B au Pass@4 avec quatre fois moins de paramètres.
Les modèles vision-langage (VLM) actuels assemblent généralement des encodeurs d'images et des décodeurs de langage distincts via un alignement multi-étapes, un cadre modulaire qui fragmente inévitablement les signaux au niveau pixel entre les trames et disperse les interactions précoces pixel-mot. Parallèlement, les VLM natifs, malgré des performances impressionnantes sur des images uniques, restent largement inexplorés dans les contextes multi-images, la compréhension vidéo et l'intelligence spatiale. Par conséquent, nous présentons NEO-ov, un modèle fondation natif qui apprend la correspondance inter-trame et pixel-mot de bout en bout, sans aucun encodeur externe, adaptateur auxiliaire ni fusion a posteriori. En éliminant complètement les frontières entre modules, NEO-ov permet une modélisation spatiotemporelle fine et unifiée émergeant de manière native à l'intérieur du modèle. Notamment, NEO-ov réduit considérablement l'écart avec les homologues modulaires tout en excellent dans la perception visuelle fine, validant ainsi que les architectures « une seule vision » natives sont non seulement réalisables mais aussi compétitives à grande échelle. Au-delà des performances empiriques, nous dévoilons des analyses architecturales systématiques et des recettes d'entraînement détaillées pour faciliter la modélisation multimodale native ultérieure. Notre code et nos modèles sont disponibles publiquement à l'adresse : https://github.com/EvolvingLMMs-Lab/NEO.
La recherche a été proposée comme une méthode efficace pour les modèles de langage auto-améliorants et les systèmes agentiques, tant pour la génération d'échantillons post-entraînement que pour l'inférence. Cependant, les méthodes largement utilisées telles que l'échantillonnage best-of-N et la recherche arborescente présentent deux limitations fondamentales : elles sont guidées par des signaux de vérification épars, et elles construisent principalement des candidats par expansion autorégressive, restreignant l'exploration à des régions où la masse de probabilité du modèle est substantielle. Pour y remédier, nous proposons la Recherche Évolutionnaire Bidirectionnelle (BES), un cadre de recherche qui couple l'évolution des candidats vers l'avant avec la décomposition des objectifs vers l'arrière. Dans la recherche avant, BES enrichit l'expansion standard par des opérateurs d'évolution qui recombinent des trajectoires partielles pour générer des candidats difficilement obtenus à partir d'un seul déploiement du modèle. Dans la recherche arrière, BES décompose récursivement la tâche originale en sous-objectifs vérifiables, produisant un retour dense intermédiaire qui guide la recherche avant. Nous fournissons une motivation théorique montrant que les candidats générés par une recherche uniquement par expansion sont confinés à une coquille d'entropie étroite, tandis que les opérateurs évolutionnaires peuvent en sortir, et que la recherche arrière peut réduire exponentiellement le nombre d'échantillons nécessaires pour trouver une réponse correcte. Les expériences montrent que sur des tâches d'entraînement post-entraînement difficiles où les algorithmes classiques d'entraînement post-entraînement échouent à améliorer les performances, BES permet des gains constants, et sur trois bancs d'essai de résolution de problèmes ouverts lors de l'inférence, BES surpasse les cadres open source existants en termes de performances moyennes et maximales. Le code et les modèles entraînés sont disponibles à l'adresse https://github.com/Embodied-Minds-Lab/BES.
La frontière des mathématiques est définie par des problèmes dont les solutions ne sont pas encore connues, et il reste incertain que les modèles linguistiques puissent s'engager de manière significative sur de tels problèmes sans intervention humaine. Un obstacle majeur est l'absence d'ensembles de données mathématiques de niveau recherche à grande échelle. À cette fin, nous présentons ResearchMath-14k, un ensemble de 14 056 problèmes issus de sources académiques via un pipeline multi-agents, ce qui en fait la plus grande collection de problèmes mathématiques de niveau recherche à ce jour. Nous générons en outre ResearchMath-Reasoning, 220 000 trajectoires d'enseignants issues de deux modèles ouverts, où nous observons des comportements d'évitement récurrents tels que les non-tentatives et les références fabriquées. Fait intéressant, pour huit modèles à poids ouverts, les générations plus récentes produisent 5,6 fois plus de références et 5,0 fois plus de fausses références par trace. Après un filtrage agentique de ResearchMath-Reasoning, le fine-tuning des modèles Qwen3 de 4B à 30B paramètres améliore les modèles de base de 9,2 points en moyenne. Cela montre que les tentatives filtrées sur des problèmes ouverts peuvent fournir une supervision utile même sans traces de raisonnement entièrement correctes. Nous rendons ResearchMath-14k accessible au public pour les futurs travaux sur le raisonnement mathématique de niveau recherche.
L'apprentissage par renforcement est devenu un paradigme central pour améliorer le raisonnement dans les grands modèles de langage, mais la plupart des méthodes existantes dépendent encore de modèles enseignants plus forts ou de jeux de données difficiles soigneusement sélectionnés, ce qui limite l'amélioration évolutive des capacités. Dans cet article, nous présentons DenoiseRL, un cadre d'apprentissage par renforcement qui substitue la supervision externe par une optimisation axée sur la récupération à partir des échecs de modèles faibles. Au lieu de reposer sur une supervision plus forte ou des données soigneusement conçues, DenoiseRL apprend directement à partir de traces de raisonnement incorrectes en les transformant en opportunités d'amélioration, rendant l'entraînement plus évolutif et moins dépendant des ressources externes. Cela produit un signal d'apprentissage plus riche et plus diversifié, améliorant l'efficacité de l'exploration à partir de comportements de modèles imparfaits. En conséquence, DenoiseRL améliore les performances de raisonnement et l'efficacité globale de l'entraînement tout en réduisant le besoin de curation coûteuse de données ou de modèles enseignants plus forts. Empiriquement, DenoiseRL surpasse systématiquement les références RL sur politique fortes sur des références compétitives de raisonnement mathématique et général, et favorise un comportement d'auto-correction plus fort à mesure que la difficulté d'entraînement augmente, mettant en évidence une voie alternative efficace et évolutive pour améliorer le raisonnement dans les grands modèles de langage.
Les modèles Vision-Langage Incarnés (VLM) ont démontré des performances et une généralisation impressionnantes en robotique, en particulier dans les cadres Vision-Langage-Action. Cependant, un écart significatif subsiste entre l'accent sémantique de haut niveau des paradigmes standards de pré-entraînement guidés par le texte et les connaissances spatiales et physiques de bas niveau essentielles à l'exécution dans des environnements incarnés. Dans cet article, nous présentons GEM, un modèle Vision-Langage Incarné à supervision générative conçu pour combler ce fossé. Nous proposons d'intégrer une tâche de génération de carte de profondeur directement dans la phase de pré-entraînement du VLM. En entraînant cet objectif génératif conjointement avec le modèle principal, nous observons des améliorations substantielles de l'intelligence incarnée, renforçant significativement à la fois la compréhension sémantique et les capacités d'opération physique. Pour soutenir ce paradigme, nous organisons et publions GEM-4M, un vaste ensemble de données à grande échelle comprenant un mélange de données d'ancrage, de raisonnement et de planification associées à une supervision de profondeur de haute qualité. Des expériences approfondies montrent que GEM atteint des résultats de pointe sur divers bancs d'essai incarnés. De plus, notre modèle d'action déployé, GEM-VLA, démontre des capacités d'exécution de tâches largement supérieures à la fois dans des environnements de simulation et dans des évaluations en conditions réelles. Le code, les modèles et les ensembles de données sont disponibles à l'adresse https://zhaorw02.github.io/GEM/.
La mémoire est essentielle pour permettre aux grands modèles de langage de soutenir un raisonnement à long terme, mais les systèmes de mémoire existants restent peu fiables et difficiles à déboguer. Retracer l'évolution dynamique de la mémoire est crucial pour comprendre comment l'information est synthétisée, propagée ou corrompue au fil du temps. Dans ce travail, nous étudions le nouveau problème du traçage et de l'attribution des erreurs dans les systèmes de mémoire des LLM. Nous proposons un nouveau cadre qui transforme les pipelines de mémoire en graphes d'évolution de mémoire exécutables, permettant un traçage fin du flux d'informations opérationnelles. Nous construisons ensuite MemTraceBench, un benchmark collecté à partir de systèmes de mémoire représentatifs tels que Long-Context, RAG, Mem0 et EverMemOS, pour étudier systématiquement les modes de défaillance de la mémoire. Nous introduisons en outre une méthode d'attribution automatique qui trace de manière itérative des sous-graphes d'opérations pour identifier la cause racine de tout cas d'échec. Notre analyse révèle que les défaillances de mémoire sont systématiques, provenant de problèmes au niveau des opérations tels que la perte d'informations et le désalignement de la récupération. De manière cruciale, nous exploitons ces signaux d'attribution fins pour guider l'optimisation en aval des prompts, établissant un système en boucle fermée qui corrige automatiquement les défauts et améliore les performances des tâches finales jusqu'à 7,62 %. Le code sera publié à l'adresse https://github.com/zjunlp/MemTrace.
Les agents d'utilisation d'ordinateur (CUA) ont récemment réalisé des progrès substantiels, mais déployer un grand expert distinct pour chaque domaine logiciel reste coûteux. Les petits agents d'utilisation d'ordinateur ouverts constituent des cibles de spécialisation plus pratiques, mais ils demeurent considérablement plus faibles et présentent des échecs spécifiques aux domaines inégaux. Un remède simple consiste à synthétiser des données d'entraînement à grande échelle pour le domaine cible, mais nous constatons que cette approche naïve n'apporte qu'une amélioration marginale. À partir de cette observation, nous introduisons LearnWeak, un cadre de spécialisation sans annotation pour les petits agents d'utilisation d'ordinateur, qui utilise un agent de référence plus fort pour identifier les faiblesses de l'élève dans le domaine cible, synthétiser des tâches ciblées et construire une supervision de manière automatique. LearnWeak introduit en outre un objectif de spécialisation sensible aux erreurs qui dissocie les erreurs de planification et d'exécution, permettant des mises à jour comportementales plus précises qu'une supervision large et uniforme. Sur OSWorld, LearnWeak obtient des gains moyens de 11,6 et 11,1 points de pourcentage par rapport à EvoCUA-8B et OpenCUA-7B, respectivement, sur huit domaines. Nous validons également que nos méthodes de génération de données et d'entraînement tenant compte de l'élève surpassent les lignes de base existantes de génération de trajectoires et d'entraînement autonomes. Nos travaux soulignent l'importance de la prise en compte de l'élève à la fois dans la synthèse de données et l'entraînement des agents, ouvrant la voie à une approche plus systématique et efficace pour spécialiser les petits agents d'utilisation d'ordinateur dans divers domaines.
Les agents de recherche autonomes produisent des solutions compétitives et des manuscrits à l'aspect professionnel, mais leurs résultats présentent des défaillances de vérifiabilité indétectables par une évaluation superficielle : citations fabriquées, scores irreproductibles et descriptions de méthodes divergentes de l'implémentation. Nous traitons ce problème via trois contributions. Premièrement, Chaîne de Preuve (CoE), un cadre de vérifiabilité exigeant que chaque affirmation soit traçable jusqu'à sa source de preuve. Deuxièmement, ScientistOne, un système de recherche autonome de bout en bout qui maintient des chaînes de preuve par construction tout au long de la revue de littérature, de la découverte de solutions et de la rédaction d'articles. Troisièmement, Audit CoE, un audit post-hoc dont les quatre contrôles d'intégrité – vérification des scores, violation des spécifications, vérification des références et alignement méthode-code – s'appliquent uniformément à tous les systèmes. Sur 75 articles couvrant cinq systèmes et cinq tâches de recherche de pointe, chaque baseline présente au moins un mode de défaillance systématique : les taux de références hallucinées atteignent 21 %, la vérification des scores réussit dans seulement 42 % des articles, et l'alignement méthode-code varie de 20 % à 80 %. ScientistOne obtient zéro référence hallucinée (0/337), une vérification parfaite des scores (12/12) et le plus haut alignement méthode-code (14/15), tout en égalant ou surpassant les performances des experts humains sur l'ensemble des cinq tâches. ScientistOne se généralise en outre à six tâches supplémentaires couvrant l'imagerie médicale, la reconnaissance fine, la perception 3D et la modélisation linguistique, atteignant l'état de l'art sur Parameter Golf et des médailles d'or sur les tâches MLE-Bench où les baselines échouent totalement.
Les agents de recherche en IA peuvent désormais générer des idées de recherche, concevoir des expériences, exécuter du code et rédiger des articles, ouvrant la possibilité d'une découverte scientifique assistée par l'IA à grande échelle. De nombreux frameworks d'agents actuels encouragent explicitement la génération d'idées nouvelles et à fort impact. Pourtant, on ne sait pas encore si l'idéation assistée par l'IA élargit l'exploration scientifique ou se concentre principalement autour des travaux existants. Nous étudions les agents de recherche en IA en tant que systèmes de recherche scientifique. En utilisant quatre frameworks d'agents de recherche en IA et six grands modèles de langage, nous générons 37 802 idées scientifiques à partir de littérature séminale partagée, dans des domaines de recherche définis par les citations en IA et en apprentissage automatique. Nous comparons ensuite les idées issues de l'IA avec des articles rédigés par des humains dans les mêmes domaines de recherche, les travaux humains ultérieurs émergeant de la même littérature séminale, et la littérature séminale elle-même. À travers les expériences, quatre tendances cohérentes émergent. Premièrement, les idées générées par l'IA sont nettement plus concentrées que les articles rédigés par des humains dans les mêmes domaines de recherche. Deuxièmement, les idées générées par l'IA restent beaucoup plus proches de leur littérature de départ que les travaux humains ultérieurs. Troisièmement, les articles les plus similaires aux idées générées par l'IA tendent à recevoir moins de citations ultérieures. Quatrièmement, lorsque les idées générées par l'IA diffèrent des travaux antérieurs, ces différences proviennent principalement de la recombinaison de méthodes techniques existantes plutôt que de l'introduction de questions de recherche fondamentalement nouvelles. Dans l'ensemble, les agents de recherche en IA actuels semblent mieux adaptés à l'élaboration locale qu'à l'élargissement de l'exploration scientifique.
Les agents LLM à mémoire augmentée existants traitent souvent la mémoire comme un référentiel statique avec des représentations prédéfinies et des pipelines de récupération fixes, ce qui est fragile dans des environnements agentiques dynamiques où les retours d'information, la variation des tâches et les signaux hétérogènes remodèlent en permanence ce qui doit être mémorisé et comment cela doit être connecté. Pour y remédier, nous proposons FluxMem, un cadre de mémoire à connectivité évolutive qui modélise la mémoire comme un graphe hétérogène et affine progressivement sa topologie en trois étapes : formation initiale des connexions, raffinement guidé par les retours, et consolidation à long terme. Pendant l'exécution, FluxMem répare les liens manquants, élimine les interférences, aligne la granularité d'abstraction et distille les trajectoires réussies récurrentes en circuits procéduraux réutilisables, guidé par une métrique de généralisabilité de la mémoire et de maturité évolutive. Sur trois références fondamentalement distinctes, notamment LoCoMo, Mind2Web et GAIA, FluxMem obtient des performances de pointe constantes, démontrant une forte adaptation et généralisation dans des environnements agentiques complexes. Le code sera rendu open source sur https://github.com/zjunlp/LightMem.
Les modèles de langage Transformer causal souffrent d’un décodage strictement séquentiel et d’un coût d’attention quadratique par étape. Bien que les modèles causaux en temps linéaire et les modèles de diffusion discrets répondent chacun à ces faiblesses, leur intégration reste intrinsèquement incohérente : la diffusion nécessite une attention bidirectionnelle, tandis que les modèles causaux sont unidirectionnels. Pour unifier ces architectures, nous proposons B^3D-RWKV, une variante de diffusion RWKV qui combine l’efficacité d’inférence O(L) du modèle avec une diffusion discrète bidirectionnelle parallèle via une méthode de disposition en blocs triplets. B^3D-RWKV-7.2B atteint une précision comparable sur une suite de 8 tâches par rapport aux modèles existants, tout en surpassant significativement les références en matière de débit de décodage avec une accélération moyenne de 1,6 fois.
Les compétences d’agent offrent un moyen léger d’adapter les agents basés sur des LLM à des domaines spécialisés en stockant des connaissances procédurales réutilisables dans des fichiers structurés. Cependant, qu’elles soient téléchargées auprès de tiers ou auto-générées, ces compétences sont souvent peu fiables, incomplètes ou obsolètes. Les méthodes existantes d’évolution de compétences pallient souvent ces lacunes par des réflexions heuristiques, sans formulation explicite d’optimisation. Dans cet article, nous proposons SkillGrad, un cadre inspiré de la descente de gradient pour optimiser les compétences d’agent. SkillGrad traite le package de compétences comme un paramètre structuré à optimiser selon une approche de descente de gradient : les exécutions de tâches fournissent des preuves de perte au niveau de la trajectoire, puis des diagnostics automatiques fournissent des gradients textuels indiquant les directions de correction. Pour stabiliser l’optimisation à travers les itérations, un agent momentum accumule les schémas récurrents de diagnostic dans une mémoire persistante de superposition. Enfin, un module de correction basé sur un LLM exécute la mise à jour des paramètres en appliquant des modifications tenant compte des couches au package de compétences. Évalué sur SpreadsheetBench Verified et WikiTableQuestions, SkillGrad surpasse systématiquement les méthodes de référence basées sur l’apprentissage pour l’évolution de compétences, avec deux LLM de base différents, améliorant de 6,7 points de pourcentage en moyenne la meilleure méthode de référence fondée sur l’apprentissage. Des ablations montrent en outre que le momentum et le diagnostic contrastif contribuent tous deux à la qualité finale des compétences.
Les Transformers de diffusion atteignent une qualité élevée de génération vidéo, mais le coût quadratique de l'attention complète limite leur efficacité. Nous présentons OSP-Next, un modèle efficace de génération texte-vers-vidéo qui intègre l'attention éparse, le parallélisme, la quantification et l'apprentissage par renforcement. OSP-Next utilise une architecture d'attention hybride complète-éparse, dont la composante éparse est implémentée avec l'attention Skiparse-2D. Ce mécanisme à motif fixe applique une attention éparse par jeton et par groupe le long des dimensions spatiales, tirant parti de la localité tout en maintenant une compatibilité native avec les noyaux FlashAttention. Sur la base de l'équivalence locale du réarrangement dans l'attention Skiparse-2D, nous proposons en outre le Parallélisme de Séquence Éparse (SSP), qui partitionne les sous-séquences entre les rangs et commute les motifs épars via une seule communication All-to-All. Comparé au Parallélisme de Séquence Ulysses (SP), le SSP offre une stratégie parallèle native pour l'attention éparse et réduit le volume de communication de 75 %. OSP-Next intègre également la quantification HiF8 pour permettre un entraînement conjoint stable avec une quantification 8 bits et un réglage fin éparse, et applique le post-entraînement Mix-GRPO pour améliorer les performances du modèle éparse. Les expériences montrent qu'OSP-Next atteint un score total VBench de 83,73 %, surpassant la référence Wan2.1. Dans les configurations 5 secondes 720P et 5 secondes 768P, OSP-Next obtient une accélération allant jusqu'à 1,64× sur GPU unique et plus de 1,52× sur huit GPU NVIDIA H200. De plus, avec seulement une baisse de 0,4 % du score total VBench, OSP-Next-HiF8 atteint des accélérations de 1,69× et 2,27× dans ces deux configurations sur un seul Ascend 950PR, démontrant l'efficacité et les performances d'OSP-Next sur différentes plateformes matérielles.
Malgré les progrès rapides des grands modèles de langage multimodaux dans la construction d'agents d'interface utilisateur graphique (GUI), leur capacité à accomplir des tâches dans le monde réel est fondamentalement limitée par un manque de connaissances du monde concernant les opérations GUI. Les solutions existantes reposent généralement sur des architectures multi-agents coûteuses ou des paradigmes de post-entraînement conventionnels, tels que le Supervised Fine-Tuning (SFT) et l'apprentissage par renforcement (RL). Cependant, le post-entraînement ne permet aux agents d'absorber implicitement les connaissances du monde qu'à travers des annotations d'actions ou des signaux de récompense, ce qui conduit à une mémorisation inefficace des trajectoires plutôt qu'à une compréhension réelle. Par conséquent, une approche permettant un apprentissage explicite de ces connaissances est impérative. À cette fin, nous proposons GUI-CIDER, une méthode d'entraînement intermédiaire qui internalise explicitement les connaissances du monde GUI par internalisation causale et réévaluation dense d'exemples exemplaires. GUI-CIDER fonctionne en trois étapes : (1) synthèse de données, qui distille la planification statique et les connaissances causales dynamiques à partir de trajectoires GUI en texte ; (2) réévaluation d'exemples exemplaires, qui filtre le corpus en récompensant les structures causales et en pénalisant la redondance sémantique ; et (3) entraînement intermédiaire, où les données affinées sont utilisées pour intégrer les connaissances acquises. Des expériences approfondies sur deux benchmarks de connaissances GUI et trois benchmarks d'accomplissement de tâches démontrent que GUI-CIDER améliore constamment à la fois la compréhension des opérations GUI par l'agent et ses taux de réussite de tâches. Les codes sont disponibles à l'adresse https://github.com/Wuzheng02/GUI-CIDER.
Les avancées récentes en apprentissage par renforcement en ligne (RL) pour les grands modèles de langage (LLMs) ont démontré des performances prometteuses dans des tâches de raisonnement complexes. Cependant, elles présentent souvent un compromis déséquilibré entre exploration et exploitation, entraînant une optimisation instable et des performances sous-optimales. Nous introduisons IB-Score, une nouvelle métrique fondée sur la théorie du goulot d'information (Information Bottleneck) qui évalue l'équilibre exploration-exploitation d'une politique en quantifiant le compromis entre la diversité de raisonnement au niveau des étapes et l'information mutuelle partagée avec la réponse correcte. L'analyse basée sur IB-Score montre que les approches populaires de RL en ligne (par exemple, GRPO) avec des régularisateurs courants ne parviennent pas à maintenir un équilibre constant durant l'entraînement, ce qui conduit à des résultats sous-optimaux. Pour remédier à cela, nous proposons IB-TPO (Information Bottleneck-driven Tree-based Policy Optimization), un cadre théorique qui formule IB-Score comme un objectif d'optimisation à grain fin et utilise une nouvelle stratégie d'échantillonnage par arbre guidée par IB. Cette stratégie améliore non seulement l'efficacité de l'échantillonnage en ligne avec 50 % de trajectoires supplémentaires sous le même budget de tokens, mais réutilise également la structure de l'arbre pour une estimation efficace de IB-Score par Monte Carlo. Des expériences approfondies sur des benchmarks standards montrent que notre méthode surpasse significativement la baseline GRPO de 2,9 % à 3,6 % et dépasse également d'autres approches de RL en ligne de pointe. Notre code est disponible à l'adresse https://github.com/alibaba/EfficientRL.
La conduite autonome de bout en bout via des modèles Vision-Langage-Action (VLA) exige un équilibre précaire entre une planification de trajectoire à haute fidélité et une inférence efficace. Les paradigmes existants sont généralement insuffisants : les VLA autorégressifs (AR) sont limités par la bande passante mémoire sur les matériels embarqués et sujets à la dérive de biais d'exposition, tandis que les modèles de diffusion sur séquence complète empêchent la réutilisation du cache KV et souffrent d'une « fuite logique » qui viole la causalité fondamentale percevoir-puis-planifier. Nous présentons Fast-dDrive, un VLA à diffusion par blocs qui effectue un affinement bidirectionnel au sein des unités sémantiques tout en imposant un ordonnancement causal strict entre elles. Tirant parti de l'observation que les VLA de conduite produisent souvent des sorties structurées de type JSON, Fast-dDrive gèle les tokens structuraux dans un échafaudage de sections et utilise une recette d'entraînement consciente des sections qui priorise la planification critique pour la sécurité. Nous introduisons en outre le Décodage Spéculatif par Échafaudage pour atteindre une qualité équivalente à l'AR avec un débit nettement plus élevé. Enfin, nous proposons un schéma de passage à l'échelle en inférence à faible surcoût : en dérivant N déploiements de trajectoires stochastiques à partir d'un cache KV à préfixe partagé unique et en les moyennant, nous supprimons efficacement la variance de prédiction à un coût de calcul fractionnaire. Les résultats empiriques démontrent que Fast-dDrive redéfinit la frontière vitesse-précision pour les agents de conduite. Sur l'ensemble de test WOD-E2E, Fast-dDrive atteint des ADE@3s et ADE@5s de pointe, ainsi que le RFS le plus élevé parmi les VLA basés sur la diffusion ; sur nuScenes, il réduit l'erreur L2 moyenne à 0,32 m (une amélioration de 22 %). Intégré à SGLang, notre cadre offre une accélération du débit de 12 fois par rapport à la référence AR, réduisant l'écart entre les VLA de grande capacité et les exigences d'efficacité du déploiement temps réel embarqué.
Les agents d'IA à longue durée de vie sont de plus en plus déployés comme des systèmes opérationnels persistants, mais ils sont encore évalués comme des modèles fraîchement initialisés. Les benchmarks du premier jour négligent une question fondamentale de système : combien de temps un agent reste-t-il fiable après le déploiement ? Même lorsque les poids du modèle sont gelés, l'état effectif d'un agent ne cesse de changer : il compresse l'historique des interactions, extrait d'une mémoire qui s'accroît, révise des faits après des mises à jour et subit une maintenance de routine. La fiabilité devient donc une propriété de durée de vie de l'ensemble complet de l'agent, et non une simple propriété instantanée du modèle de base. Nous présentons AgingBench, un benchmark longitudinal de fiabilité pour l'ingénierie de la durée de vie des agents : il mesure non seulement si les agents déployés se dégradent, mais aussi quelle forme prend la dégradation et où la réparation doit cibler. AgingBench organise le vieillissement des agents en quatre mécanismes : vieillissement par compression, vieillissement par interférence, vieillissement par révision et vieillissement par maintenance. Pour diagnostiquer ces défaillances, AgingBench utilise des graphes de dépendance temporelle et des sondes contrefactuelles appariées qui produisent des profils diagnostiques pour les étapes d'écriture, de récupération et d'utilisation du pipeline mémoire. Sur 7 scénarios, 14 modèles, plusieurs politiques de mémoire, et à la fois des agents contrôlés par exécuteur et autonomes, plus de ~400 exécutions s'étendant sur 8 à 200 sessions montrent que le vieillissement des agents n'est pas unidimensionnel : les tests comportementaux peuvent rester corrects tandis que la précision factuelle se dégrade ; le suivi des états dérivés peut s'effondrer brusquement au sein d'un même modèle ; et la même réponse erronée peut nécessiter des réparations différentes selon ce que le profil diagnostique indique. Ces résultats suggèrent qu'un déploiement fiable des agents nécessite une évaluation de la durée de vie, un diagnostic au niveau des mécanismes et une réparation ciblée par étape, et non seulement des modèles plus forts le premier jour.
Nous présentons GE‑Sim 2.0 (Genie Envisioner World Simulator 2.0), un simulateur vidéo en boucle fermée pour la manipulation robotique. Bâti sur le cadre de génération vidéo conditionnée par l’action de Genie Envisioner, GE‑Sim 2.0 est ré-entraîné sur des milliers d’heures de données robotiques réelles couvrant la téléopération, les interactions riches en contact et le déploiement de politiques embarquées, améliorant ainsi considérablement la fidélité au suivi des actions et la couverture des trajectoires. Sur cette base, trois nouveaux modules bouclent la boucle allant de la simulation vidéo à l’apprentissage de politiques : un expert d’état qui décode l’état proprioceptif à partir des latences vidéo pour soutenir la prédiction par segments des politiques VLA aval ; un juge du monde qui note les déploiements générés par rapport aux instructions de la tâche, fournissant des signaux de succès et des récompenses vérifiables par machine en lieu et place d’une inspection manuelle ; et un cadre d’accélération qui produit un déploiement de 25 images en 2,3 secondes sur un seul H100, avec jusqu’à 4× de saut d’images lors de l’inférence pour une évaluation à long horizon. GE‑Sim 2.0 domine le classement public WorldArena avec seulement 2 milliards de paramètres, surpassant à la fois les modèles dédiés du monde robotique et les générateurs vidéo généraux en source fermée, et les politiques entraînées sur ses déploiements et récompenses se traduisent par des gains réels mesurables, faisant de GE‑Sim 2.0 une plateforme pratique pour l’évaluation à grande échelle et l’apprentissage en boucle fermée des politiques de manipulation.
Les composants internes des modèles codent une information riche sur la manière dont un grand modèle de langage (LLM) traite ses données d'apprentissage ; cependant, l'ingénierie des données post-entraînement repose largement sur des signaux externes et ignore les signaux intrinsèques riches contenus dans ces composants internes. Nous proposons SAERL, un cadre d'ingénierie des données pour l'apprentissage par renforcement (RL) des LLM. Il modélise trois propriétés intrinsèques des données – la diversité, la difficulté et la qualité – à l'aide des composants internes extraits par autoencodeur parcimonieux (SAE), un outil avancé d'interprétabilité mécaniste. Chaque propriété fonde une opération concrète d'ingénierie des données : un clustering dans l'espace SAE avec un mélange modéré par lots pour le contrôle de la diversité des lots, un proxy de difficulté pour un ordonnancement curriculaire facile-à-difficile, et une sonde de qualité pour le filtrage des données. SAERL améliore la précision moyenne de 3,00 % par rapport à GRPO vanille et atteint la précision cible avec 20 % d'étapes d'entraînement en moins sur Qwen2.5-Math-1.5B, avec des gains constants à travers les échelles de modèle et les algorithmes de RL. Les expériences montrent que le SAE se transfère efficacement entre familles et échelles de modèles, servant d'outil d'ingénierie des données léger et réutilisable. Ces résultats démontrent que les composants internes des modèles constituent une source de signaux puissante et pratique pour l'ingénierie des données post-entraînement.
Les agents de recherche basés sur les LLM effectuent-ils une véritable recherche ou utilisent-ils le web pour vérifier ce qu'ils savent déjà ? Nous étudions cette question sur BrowseComp à l'aide de trois diagnostics. Notre analyse révèle une dépendance aux connaissances intrinsèques (DCI) : même avec un accès à des outils, les agents s'appuient souvent sur des connaissances intrinsèques — informations encodées dans le modèle avant la recherche — plutôt que sur des preuves externes. Les agents répondent à jusqu'à 44,5 % des questions de BrowseComp sans outils, génèrent plus de la moitié de leurs requêtes de recherche à partir d'hypothèses produites en interne plutôt qu'à partir d'indices extraits, et obtiennent de moins bons résultats que les bases de référence en livre fermé lorsque les preuves soutenant les réponses sont supprimées. Ces résultats suggèrent que les benchmarks de recherche statiques peuvent récompenser la validation basée sur la mémoire plutôt que la découverte fondée sur des preuves, confondant ce que les agents savent déjà avec ce qu'ils peuvent trouver. Nous introduisons ensuite LiveBrowseComp, un benchmark de recherche approfondie conçu pour évaluer les agents au-delà de la couverture intrinsèque. Il contient 335 questions rédigées par des humains dont les réponses dépendent de faits publiés dans les 90 jours précédant la construction du benchmark, tirés de six sources mises à jour et filtrés pour exclure les événements mondiaux saillants. Sur LiveBrowseComp, tous les agents évalués obtiennent moins de 2 % de précision en livre fermé, les scores augmentés par la recherche chutent de 25 à 40 points par rapport à BrowseComp, et les classements antérieurs des modèles ne prédisent plus de manière fiable les performances. LiveBrowseComp est disponible à l'adresse https://huggingface.co/datasets/Forival/LiveBrowseComp.
Les modèles de langage à raisonnement hybride (LLMs) exposent des contrôles explicites sur l'effort de raisonnement, permettant aux utilisateurs ou systèmes de faire un compromis entre la qualité des réponses et le coût d'inférence. Cependant, les méthodes existantes pour la sélection adaptative du mode de réflexion sont généralement évaluées avec des modèles, des jeux de données et des hypothèses d'implémentation différents, ce qui rend difficile la comparaison de leur comportement pratique. Nous présentons HRBench, un cadre d'évaluation unifié pour l'étude du changement de mode de réflexion dans les LLMs à raisonnement hybride. HRBench organise l'espace de conception selon deux axes : trois familles de stratégies de commutation – sélection basée sur un prompt, routage externe et exécution spéculative – et quatre régimes d'entraînement – sans entraînement, SFT, RL hors ligne et en ligne – aboutissant à 12 configurations d'évaluation contrôlées. Nous évaluons ces configurations sur 6 LLMs, de Qwen3.5-2B à Kimi-K2.5-1.1T, et 5 benchmarks de raisonnement couvrant les mathématiques, les sciences et le code, tout en réimplémentant plus de 12 méthodes antérieures représentatives dans le même pipeline. Notre analyse caractérise la manière dont les différentes stratégies de commutation occupent des régions distinctes de compromis efficacité-efficience : les méthodes basées sur un prompt offrent souvent des compromis token-précision favorables, les méthodes de routage fournissent une réduction de coût plus stable, et les méthodes spéculatives tendent à améliorer la précision à un coût en tokens plus élevé. Nous observons en outre que l'entraînement affecte différemment les stratégies et que la stratégie préférée varie avec l'échelle du modèle et le domaine de la tâche. HRBench fournit des implémentations de référence et une plateforme d'évaluation unifiée pour soutenir une recherche plus contrôlée sur le raisonnement efficace dans les LLMs à raisonnement hybride. Nos données, code et dépôt sont disponibles à l'adresse https://github.com/usail-hkust/HRBench.
La distillation en ligne (on-policy) est récemment apparue comme une alternative prometteuse à l'imitation standard au niveau des séquences, entraînant un modèle étudiant en évaluant ses propres générations avec un modèle enseignant. Cependant, nous observons un problème de « dégradation de l'enseignant hors ligne » (Off-policy Teacher Decay) dans ce paradigme : pour les tokens ultérieurs, avec la trajectoire antérieure de l'étudiant comme contexte (hors ligne par rapport à l'enseignant), la capacité de l'enseignant à produire un score correctif se dégrade, et peut retomber dans un comportement de complétion de tokens appris lors de la phase de pré-entraînement. Nous vérifions empiriquement ce problème et proposons l'Arrêt Précoce de Génération (Early Stopping Rollout, ESR) pour y remédier : une stratégie de distillation simple mais efficace qui se contente de limiter la génération aux premiers tokens de réponse. Nous montrons que l'ESR surpasse les performances de la distillation en ligne complète (OPD) quelle que soit la taille du modèle, la famille, les tâches et le régime d'entraînement, et présente une efficacité GPU et une stabilité d'entraînement bien supérieures, en particulier dans des scénarios de familles de modèles croisées. Nous étudions plus en détail le mécanisme derrière cette performance surprenante et découvrons des effets d'« alignement en cascade » et d'« engagement en sous-mode » de l'ESR qui pourraient expliquer son efficacité et même parfois sa capacité à surpasser les performances du modèle enseignant. De plus, nous montrons que cette stratégie de sélection de tokens basée sur la position ne peut être entièrement expliquée par la divergence KL et les signaux d'entropie.
Pour permettre une interaction fiable à long terme, les agents LLM nécessitent un système de mémoire capable de stocker fidèlement, de récupérer efficacement et de raisonner en profondeur sur l'historique des dialogues accumulés. La plupart des méthodes existantes adoptent un paradigme basé sur des faits extraits : des prompts statiques conçus manuellement compressent les dialogues bruts en faits atomiques, qui sont ensuite stockés, mis en correspondance et injectés dans le raisonnement en aval. Néanmoins, ces conceptions centrées sur les faits écartent inévitablement les détails fins des dialogues originaux et ne permettent pas un raisonnement approfondi sur des faits isolés et dispersés. De plus, les prompts statiques ne parviennent pas à maintenir une granularité d'extraction cohérente entre différents styles de dialogue. Pour remédier à ces limitations, nous proposons TriMem, qui maintient trois granularités de représentation coexistantes : des segments de dialogue bruts ancrés par des identifiants de source pour la fidélité du stockage, des faits atomiques extraits pour une récupération efficace en mémoire, et des profils synthétisés qui regroupent des faits dispersés en une compréhension sémantique holistique pour un raisonnement approfondi. Nous adoptons en outre une optimisation des prompts basée sur TextGrad, qui affine itérativement les prompts d'extraction et de profilage via un retour sur la qualité des réponses, assurant une évolution continue sans mise à jour des paramètres. Des expériences approfondies sur LoCoMo et PerLTQA avec plusieurs architectures de LLM démontrent que TriMem surpasse systématiquement les bases de référence mémoire solides. Le code est disponible à l'adresse https://TMLR-TriMem.github.io.
Les modèles de langage de grande taille (LLMs) modernes sont souvent critiqués pour produire un texte répétitif et homogène, malgré leur vaste vocabulaire latent. Alors que les recherches antérieures se sont concentrées sur les connaissances du modèle et les données d'entraînement, nous examinons le rôle des mécanismes de décodage dans la suppression de la diversité linguistique. Nous introduisons le Score de Couverture Lexicale (WCS), une métrique qui quantifie dans quelle mesure un vocabulaire humain contextuellement approprié est mathématiquement élagué par les filtres d'échantillonnage standards (par exemple, Top-p, Top-k et Min-p). Plutôt que d'évaluer des connaissances statiques, le WCS mesure le taux de survie lexicale des mots humains rares et à forte teneur informationnelle en fonction des paramètres d'échantillonnage. En auditant des modèles à poids ouverts sur des corpus de fragments rédigés par des humains, nous identifions quels choix lexicaux logiques sont rendus inaccessibles par le décodeur, même lorsqu'ils résident dans l'espace de probabilité. Nos résultats fournissent une preuve quantitative que les paramètres par défaut de l'industrie en matière d'échantillonnage agissent comme des mécanismes de censure involontaires, lissant les textures uniques de l'expression humaine en un discours homogénéisé. Le WCS offre un cadre rigoureux pour optimiser le compromis entre la cohérence textuelle et la richesse lexicale, fournissant un outil de diagnostic pour préserver la diversité du langage humain dans les modèles génératifs.
L'affinage des grands modèles de langue avec des données non fiables expose ces modèles à des attaques par porte dérobée, où des échantillons empoisonnés provoquent un comportement ciblé erroné. Les défenses existantes basées sur le filtrage d'échantillons reposent sur le clustering, qui nécessite suffisamment de données et peut échouer à des ratios d'empoisonnement extrêmes. Nous proposons GradSentry ({Grad}ient {Sentry}), une méthode de filtrage des échantillons empoisonnés fondée sur l'entropie spectrale des gradients par échantillon. Notre constat clé est que les échantillons empoisonnés produisent des gradients avec une entropie spectrale plus élevée que les échantillons propres. GradSentry capture les signatures de porte dérobée modifiant la sortie à l'aide du spectre des gradients par échantillon, évitant ainsi les comparaisons par paires d'échantillons et le clustering lors de la construction des caractéristiques. De manière importante, notre méthode est indépendante de l'entraînement : elle fonctionne à la fois pour les méthodes d'affinage efficaces en paramètres comme LoRA et pour l'affinage complet des paramètres, car l'analyse des gradients opère indépendamment des paramètres mis à jour pendant l'entraînement. GradSentry ne nécessite pas de clustering, fonctionne efficacement pour tous les ratios d'empoisonnement (1 % à 90 %) et introduit une surcharge de calcul minimale (20 à 50 ms par échantillon pour un modèle de 7 milliards de paramètres). L'évaluation sur quatre ensembles de données de questions-réponses et quatre types d'attaques démontre l'efficacité de l'entropie spectrale pour la détection des portes dérobées. Le code est disponible à l'adresse https://github.com/dongdongzhaoUP/GradSentry.
Les actifs 3D interactifs utilisés dans les jeux et la simulation sont typiquement décomposés en parties sémantiques spécifiques pour prendre en charge l'animation, la physique et les comportements scriptés, pourtant la plupart des modèles génératifs 3D produisent soit des maillages monolithiques, soit des décompositions en parties arbitraires qui ne peuvent pas être alignées sur les exigences spécifiques aux applications. Nous présentons CubePart, un cadre génératif pour la génération de maillages 3D à vocabulaire ouvert et contrôlable par parties, qui expose la structure des parties comme un signal de contrôle explicite au moment de l'inférence. Étant donné une invite textuelle globale et un schéma de parties défini par l'utilisateur, exprimé sous forme d'une liste ouverte de noms de parties, notre méthode génère un ensemble de maillages — un par élément du schéma — qui s'assemblent en un objet cohérent tout en respectant la structure sémantique spécifiée. Pour permettre cette capacité, nous introduisons un pipeline de données évolutif pour construire un grand ensemble de données 3D à vocabulaire ouvert et étiqueté par parties, ainsi qu'une architecture générative en deux étapes qui sépare la synthèse de forme globale du décodage au niveau des parties. Nous démontrons que les actifs résultants peuvent être directement intégrés dans les moteurs de jeu et pilotés par des scripts d'animation et de comportement sans post-traitement manuel. Page du projet : https://cubepart.github.io/
Les agents basés sur les LLM obtiennent de bons résultats dans les benchmarks de recherche, mais les utilisateurs réels jugent constamment les résultats insatisfaisants, révélant un écart persistant entre l'évaluation et l'expérience. Nous attribuons cet écart à la dépendance des benchmarks existants à l'égard de requêtes trop spécifiques, d'interactions à un seul tour et d'une évaluation à schéma fixe, qui ne reflètent pas le comportement de recherche réel où les utilisateurs et les agents affinent de manière collaborative une intention vague par le dialogue multi-tour. Nous appelons ce paradigme VibeSearch et introduisons VibeSearchBench, un benchmark comprenant 200 tâches bilingues (chinois et anglais) sélectionnées manuellement dans 20 domaines, divisé en sous-ensembles VibeSearch-Pro (professionnel) et VibeSearch-Daily (vie quotidienne). Chaque tâche associe un persona utilisateur à un graphe de connaissances de vérité terrain sans schéma, et est évaluée via un simulateur d'utilisateur à divulgation progressive et un cadre d'évaluation par appariement de graphes. Nous évaluons sept modèles de pointe à la fois sous le cadre ReAct et sous le harnais d'agent OpenClaw. Les résultats montrent que tous les modèles restent largement inadéquats pour VibeSearch (meilleur F1 : 30,30), soulignant la nécessité d'avancées fondamentales dans le raisonnement en contexte long, l'élicitation proactive d'intention et la construction de connaissances structurées.
Les résultats visuels occupent une place de plus en plus centrale dans les grands modèles de langage multimodaux, rendant une vérification fiable et à grain fin essentielle pour le passage à l'échelle des modèles de fondation généralistes. Dans ce travail, nous étudions la méta-vérification multimodale, qui exploite les justifications générées par le vérificateur plutôt que les seuls signaux de décision, et explorons comment intégrer efficacement le retour de méta-vérification dans l'entraînement du vérificateur multimodal. Nous identifions deux résultats clés. Premièrement, les sorties symboliques du vérificateur (par exemple, les boîtes englobantes) surpassent les explications textuelles en tant que justifications de méta-vérification, permettant des récompenses d'apprentissage par renforcement basées sur des règles efficaces tout en évitant de dépendre de récompenses basées sur des modèles provenant de modèles juges auxiliaires. Deuxièmement, le découplage des objectifs d'apprentissage par renforcement pour le jugement binaire et la méta-vérification surpasse largement l'optimisation conjointe des récompenses, en raison des différences intrinsèques dans la structure des sorties et la dynamique d'apprentissage. Sur la base de ces observations, nous entraînons OmniVerifier-M1, un vérificateur visuel généraliste exploitant la méta-vérification symbolique et l'apprentissage par renforcement découplé. OmniVerifier-M1 fournit une vérification robuste et une localisation fine des erreurs, et permet en outre M1-TTS, un système de génération agentique piloté par vérificateur réalisant une auto-correction dynamique au niveau des régions. Cette approche ouvre la voie à une vérification multimodale plus fiable, interprétable et à grain fin, soutenant un déploiement plus sûr et plus contrôlable des modèles de fondation.
La surveillance par chaîne de pensée (CoT) a été proposée comme un mécanisme de sécurité prometteur pour détecter les comportements non alignés dans les grands modèles de langage. Cependant, sa fiabilité reste largement inexplorée au-delà de l'anglais et à travers diverses familles de modèles. Nous présentons la première évaluation à grande échelle de la surveillabilité par CoT dans 13 langues diverses et sept familles de modèles de pointe, comprenant 16 modèles. À l'aide d'évaluations par indices adverses nécessitant un calcul intermédiaire explicite, ainsi que d'une analyse des probabilités des jetons de réponse internes, nous constatons systématiquement une infidélité de la CoT à travers les langues et les types d'indices, avec un taux moyen de 95,9 % pour les modèles de 8 à 120 milliards de paramètres. Nous observons que les modèles de pointe s'engagent systématiquement dans une manipulation stratégique, incluant le changement de réponse, la rationalisation a posteriori et l'exploitation procédurale des indices, rendant difficile la détection de la tromperie par les moniteurs externes. Nous montrons que les modèles de pointe adhèrent souvent à l'indice non aligné dans leurs activations latentes dès les 15 % premiers de la génération, même lorsque la CoT semble fidèle. De manière surprenante, ces motifs trompeurs restent à 100 % dans les langues peu dotées en ressources, révélant des limitations fondamentales dans la supervision actuelle basée sur la CoT. Nos résultats montrent que la surveillance par CoT est fondamentalement fragile face aux changements de distribution linguistique, fournissant un signal de sécurité considérablement plus faible que ce que suggèrent les études limitées à l'anglais. Ces constats soulignent un besoin urgent de développer des moniteurs CoT robustes et d'accélérer la recherche sur les techniques de monitoring en boîte blanche, en particulier pour améliorer la surveillabilité par CoT dans les langues à ressources moyennes et faibles. Notre code est disponible https://multilingual-cot-monitoring.github.io/{bleu{ici}}.
Créer des images à partir de bruit, c'est la génération d'images ; reconstruire des détails fins à partir d'entrées grossières, c'est la super-résolution. Malgré leurs différences pratiques, ces deux tâches peuvent être comprises comme un processus de compensation de la perte d'information à travers les échelles. Nous présentons SKILD, un modèle de diffusion d'apprentissage d'images dans l'espace K invariant d'échelle, qui unifie la génération et la super-résolution continue au sein d'un seul cadre inconditionnel. Les images naturelles comme les systèmes physiques critiques présentent une invariance d'échelle, et nous exploitons cette propriété pour concevoir un processus direct qui atténue le contenu de l'image des échelles fines aux échelles grossières tout en injectant un bruit gaussien adapté au spectre, faisant de l'échelle une coordonnée explicite de la dynamique de diffusion. Le même processus inverse entraîné permet la génération et la super-résolution continue en ne modifiant que le pas de temps initial : pas d'architecture spécifique à la tâche, pas de branche de conditionnement, pas de guidage sans classifieur, pas de réentraînement par facteur d'échelle. Empiriquement, SKILD atteint un FID de 2,65 et un score Inception de 9,63 sur CIFAR-10 inconditionnel, réalise une super-résolution de ×2 à ×8 sur ImageNet à partir d'un seul point de contrôle inconditionnel tout en surpassant les modèles conditionnels selon des métriques perceptuelles, et reconstitue des modèles d'Ising critiques dont les corrélations à quatre points connectées suivent de près la vérité terrain.
L’ajustement efficace en paramètres (PEFT) est devenu l’approche standard pour adapter les grands modèles de langage, mais les évaluations privilégient largement la précision en aval tout en négligeant la rétention des capacités préentraînées. Nous soutenons que le PEFT devrait être évalué à travers le dilemme stabilité-plasticité : le compromis entre l’adaptation à la tâche cible et la résistance à l’oubli. Nous introduisons PEFT-Arena, un banc d’essai qui mesure conjointement la performance en aval et la rétention des capacités générales. Selon les méthodes, on observe des profils distincts de stabilité-plasticité ; sous des budgets de paramètres comparables, l’ajustement orthogonal atteint la frontière de Pareto la plus favorable. Pour expliquer ces différences, nous analysons les mises à jour PEFT sous deux perspectives géométriques. Dans l’espace des poids, une analyse spectrale révèle comment les paramétrisations interagissent avec la structure en valeurs singulières préentraînée. Dans l’espace d’activation, les métriques de rétention indiquent si l’ajustement préserve ou déforme les représentations de capacités générales, l’oubli étant lié à une distorsion non isométrique des représentations. Enfin, une analyse montre que les points de contrôle finaux du SFT dépassent souvent un meilleur point de fonctionnement cible-rétention. Inspirés par ce constat, nous présentons des études de cas d’une amélioration post-hoc par rembobinage par chemin.
Le raisonnement spatial inter-vues reste un point faible des modèles vision-langage (VLMs) : ils raisonnent souvent en langage et perdent la géométrie fine nécessaire à la tâche. Penser avec des images vise à résoudre ce problème en générant une image de pensée intermédiaire, mais des travaux récents montrent que les modèles ignorent souvent les preuves visuelles dans ces traces. Nous nous demandons donc comment rendre la pensée visuelle pertinente et quel type de pensée visuelle fonctionne le mieux. Nous étudions ces questions dans des modèles multimodaux unifiés (UMMs), qui supportent nativement la génération entrelacée d’images et de texte. Pour la première question, nous proposons le View Dropout (VDrop), une intervention en phase d’entraînement qui cache des parties d’une vue d’entrée à la portée de la réponse tout en les gardant visibles pour les tokens de l’image de pensée. Cela encourage le modèle à utiliser l’image de pensée pour répondre, au lieu de se fier uniquement aux vues d’entrée. Une fois que l’image de pensée est utilisée pour la prédiction de réponse, nous étudions quel type de pensée visuelle est le plus efficace. Nous cadrons cela comme un compromis entre capacité d’apprentissage et informativité et comparons trois variantes d’images de pensée : les rendus de dessus, panoramiques et par appariement de points. Entraînés sur des scènes synthétiques et évalués sur cinq benchmarks réels hors domaine, la pensée visuelle panoramique avec VDrop est la seule configuration qui soit à la fois informative et apprenable, et elle obtient la meilleure généralisation hors domaine.
Les systèmes multi-agents basés sur de grands modèles de langage (LLMs) nécessitent de nombreux choix de coordination difficiles à fixer a priori : quel protocole de compétence invoquer, quel rôle d’agent doit exécuter une sous-tâche, quel modèle attribuer à chaque rôle, comment les rôles doivent interagir, quand utiliser la récupération ou la vérification, et quand omettre complètement une étape. Ces choix interagissent avec le régime des tâches et les contraintes opérationnelles, si bien que les pipelines statiques et les comparaisons ponctuelles de modèles n’offrent qu’une vision limitée de l’espace de conception. Cet article présente AgensFlow, un cadre open-source qui traite la coordination multi-agents comme un problème d’apprentissage de politique en ligne sous observabilité partielle. Le cadre rend les choix de coordination observables et apprenables à partir de trajectoires répétées, plutôt que de traiter les choix de compétence, de rôle, de modèle, de topologie et d’évaluation comme des éléments fixes d’un pipeline. AgensFlow est évalué sur deux corpus : des tâches d’incidents de systèmes distribués et des tâches d’avis de sécurité. L’évaluation met en évidence trois résultats principaux : le routage appris atteint un point de fonctionnement de meilleure qualité qu’une baseline de pipeline fixe sur les classes à forte coordination ; skip:X isole la compression de topologie comme une partie significative du substrat ; et les graphes de politique initialisés à chaud peuvent réduire le coût d’exploration tout en préservant la qualité de plateau. Dans l’ensemble, les résultats soutiennent qu’un routage appris et vérifiable peut améliorer les flux de travail multi-agents à forte coordination par rapport à un câblage statique.
L'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) est devenu le paradigme standard pour améliorer la capacité de raisonnement des grands modèles de langage, tandis que la prédiction multi-tokens (MTP) est un module largement adopté en pré-entraînement. Les combiner est une approche naturelle, mais les pratiques actuelles de RL détachent les gradients de MTP car l'entraînement conjoint dégrade la performance. Nous réexaminons cet échec sous l'angle de l'optimisation. Nous montrons que l'effet par étape de MTP sur l'objectif de RL peut être décomposé en deux termes : une corrélation de premier ordre et une pénalité de perturbation de second ordre. Cette décomposition unifie trois régimes d'entraînement MTP : le détachement, la perte d'entropie croisée et la perte de politique, et explique pourquoi chacun réussit ou échoue. Une analyse plus poussée de la perte de politique révèle que, bien qu'elle soit conforme à l'intuition, la performance se dégrade encore : le terme de corrélation décroît tandis que la pénalité quadratique persiste. Guidés par cette analyse, nous proposons le calibrage optimal des coefficients (OCC), un schéma adaptatif qui suit le coefficient optimal en ligne via un proxy de log-probabilité à un coût négligeable. Sur six bancs de test de raisonnement mathématique de niveau compétition, OCC atteint ou dépasse systématiquement la ligne de base avec détachement, offrant une meilleure performance d'entraînement conjoint MTP-RL.
La validité des évaluations de la sécurité des IA dépend de la cohérence du comportement des modèles entre les environnements contrôlés et ceux de déploiement. Des travaux antérieurs ont identifié des indices contextuels en phase de test, tels que des scénarios hypothétiques, comme source de conscience verbalisée de l'évaluation et de changement comportemental subséquent. Dans cet article, nous étudions une explication potentielle de ce phénomène : la méta-connaissance de l'évaluation, définie comme une connaissance paramétrique des caractéristiques structurelles qui définissent les évaluations. À l'instar de la contamination des jeux de données, où l'exposition à des benchmarks conduit à de meilleures performances par mémorisation, nous émettons l'hypothèse que les modèles entraînés sur des textes décrivant des pratiques d'évaluation peuvent apprendre implicitement à reconnaître et à répondre à des contextes apparentés à des évaluations, par exemple via l'exposition à des articles scientifiques ou à des publications sur les réseaux sociaux concernant le benchmarking des IA. Pour tester cette hypothèse, nous affinons des modèles sur des documents synthétiques décrivant des traits d'évaluation tels que des structures vérifiables ou des dilemmes moraux. En évaluant ce modèle affiné sur six benchmarks de sécurité, nous constatons qu'il est significativement plus sûr que le modèle de base et le modèle de contrôle. Ce changement comportemental persiste même en restreignant l'analyse aux réponses ne présentant pas de verbalisation explicite de la conscience de l'évaluation. Nos résultats démontrent que la méta-connaissance de l'évaluation peut gonfler les performances sur les benchmarks de sécurité, introduisant un nouveau facteur de confusion indépendant de la mémorisation explicite ou de la conscience verbalisée de l'évaluation, et donc difficile à détecter. Ces résultats ont des implications importantes pour la conception et l'interprétation des évaluations de la sécurité des IA. Notre code et nos modèles sont disponibles à l'adresse https://github.com/compass-group-tue/arxiv2026_evaluation_meta_knowledge.
Les benchmarks de question-réponse sur graphiques (QA) visent à poser des questions nécessitant un raisonnement visuel pour y répondre correctement, mais les modèles peuvent souvent parvenir à des solutions par des raccourcis ou une familiarité préalable avec un graphique fondée sur leurs propres connaissances de base. Pour évaluer strictement le raisonnement visuel, nous proposons des graphiques contrefactuels où la tâche de question sur le graphique reste fixe, mais le graphique sous-jacent et la réponse correspondante varient. Nous présentons Chartographer, un cadre permettant de rétro-ingénier les graphiques en code exécutable, de valider la fidélité de la reconstruction, de générer des variantes contrefactuelles contrôlées par graine et de dériver de nouvelles réponses à partir d’une logique de QA exécutable. Nous appliquons ce cadre à des ensembles de données QA sur graphiques existants et évaluons des modèles vision-langage (VLM) propriétaires et open source, en mesurant la sensibilité aux variations et la généralisabilité. Les graphiques contrefactuels révèlent des échecs masqués par les performances sur un seul graphique : les VLM échouent souvent à généraliser après avoir correctement répondu au graphique original. Nous constatons que les échecs sont les plus fréquents lorsque les graphiques mis à jour nécessitent de nouvelles voies de raisonnement visuel.
La recherche scientifique progresse par cycles itératifs de génération d'hypothèses, de conception expérimentale, d'exécution et de révision. Les agents d'IA peuvent automatiser certaines parties de ce processus, mais les approches existantes suivent généralement une seule trajectoire de recherche ou se coordonnent via un planificateur central aux objectifs fixes. Par conséquent, elles peinent à soutenir une exploration parallèle, à s'adapter aux changements des preuves expérimentales ou à préserver les connaissances des voies infructueuses lors d'expériences de longue durée. Nous présentons AutoScientists, une équipe décentralisée d'agents d'IA pour l'expérimentation scientifique computationnelle de longue durée. Les agents interprètent un état expérimental partagé, s'auto-organisent en équipes autour d'hypothèses prometteuses, critiquent les propositions avant d'utiliser les ressources de calcul expérimental, et partagent les succès comme les échecs afin de réduire l'exploration redondante. Avec des budgets expérimentaux appariés, AutoScientists surpasse les agents d'IA antérieurs dans l'apprentissage automatique biomédical, l'optimisation de l'entraînement de modèles de langage et la prédiction de l'aptitude protéique. Sur BioML-Bench, couvrant l'imagerie biomédicale, l'ingénierie des protéines, l'omique unicellulaire et la découverte de médicaments, AutoScientists atteint un percentile moyen de 74,4 % sur 24 tâches, améliorant de +8,33 % le meilleur agent d'IA existant. En optimisation de l'entraînement de GPT, AutoScientists atteint un nombre de bits par octet de validation cible 1,9 fois plus rapidement qu'Autoresearch et continue de découvrir des améliorations à partir d'un champion initial là où l'approche mono-agent n'en trouve aucune (7 améliorations acceptées contre 0). En prédiction de l'aptitude protéique sur ProteinGym, AutoScientists découvre une méthode pour la liaison ACE2-Spike qui améliore de +12,5 % (corrélation de Spearman) le modèle actuel de l'état de l'art. Appliquée sans modification à l'ensemble des 217 tests de ProteinGym, cette même méthode améliore de +6,5 % (corrélation de Spearman) l'état de l'art antérieur.
Les systèmes existants de conversation de soutien émotionnel (CSE) reposent principalement sur la génération de réponse de bout en bout ou une supervision stratégique grossière, offrant une interprétabilité limitée et peu de soutien pour l'amélioration systématique des compétences. Nous proposons ESC-Skills, un cadre centré sur les compétences qui découvre et fait auto-évoluer des compétences de soutien émotionnel exécutables. Nous modélisons d'abord les interactions de soutien localisées sous forme d'Unités d'Intervention (UI), qui capturent les dynamiques état–action–résultat entre les états du demandeur, les interventions de soutien et les changements émotionnels post-réponse. En nous basant sur les UI extraites de dialogues CSE réussis et échoués, nous construisons la Banque de Compétences ESC-Skills, un répertoire de compétences de soutien émotionnel exécutables contenant des conseils d'intervention, des conditions d'applicabilité, les résultats attendus et les risques potentiels. Pour améliorer davantage la robustesse, nous introduisons un cadre de raffinement auto-évolutif multi-profils dans lequel un agent CSE interagit avec divers profils de demandeurs simulés sous l'évaluation SAGE. Les traces d'interaction résultantes sont analysées pour identifier les compétences manquantes, les interventions non sécurisées et les schémas d'échec spécifiques aux profils, qui sont ensuite utilisés pour affiner la Banque de Compétences via une vérification basée sur la simulation. Les résultats expérimentaux montrent que ESC-Skills améliore à la fois la qualité au niveau des réponses et les résultats émotionnels au niveau du dialogue, tout en offrant des comportements de soutien plus interprétables et contrôlables. Nous publierons le code, les prompts et la Banque de Compétences ESC-Skills à l'adresse https://github.com/aliyun/qwen-dianjin.
Les agents de codage basés sur l'IA sont de plus en plus utilisés pour écrire des logiciels concrets, mais garantir l'exactitude de leurs résultats reste un défi fondamental. La vérification formelle offre une voie prometteuse : un agent génère du code accompagné d'une preuve vérifiée par machine, garantissant que le code satisfait une spécification formelle. Cependant, rien ne garantit que la spécification formelle elle-même corresponde à l'intention de l'utilisateur. Dans ce travail, nous étudions l'autoformalisation des spécifications : la capacité des agents LLM à traduire des problèmes de programmation informels en spécifications formelles fidèles. Nous introduisons Verus-SpecBench, un ensemble de référence comprenant 581 tâches de rédaction de spécifications issues de problèmes Codeforces ciblant Verus, un vérificateur pour Rust, et Verus-SpecGym, un environnement agentique dans lequel les modèles interagissent avec Verus, bash et le système de fichiers pour élaborer ces spécifications. Le défi central réside dans l'évaluation : les spécifications de référence rédigées par des experts sont coûteuses à produire, et les juges LLM peuvent passer à côté d'erreurs subtiles. Nous y remédions en (a) étendant le mécanisme exec_spec de Verus afin que les spécifications générées puissent être exécutées en tant que code Rust, et (b) en les testant face aux tests officiels de Codeforces ainsi qu'à des cas adverses extraits des « hacks » de Codeforces, c'est-à-dire des cas limites écrits par les participants pour briser des solutions incorrectes. Sur Verus-SpecBench, le modèle le plus performant, Gemini 3.1 Pro, résout 77,8 % des tâches ; d’autres modèles de pointe en résolvent 51,1 à 57,8 %, et les modèles open source n’atteignent que 21,5 à 25,5 %. Notre analyse des modes d’échec montre que les spécifications générées par les modèles peuvent omettre des hypothèses d’entrée importantes, accepter des sorties incorrectes et rejeter des sorties valides. Nous constatons également que l’évaluation par LLM comme juge manque 26 % des échecs détectés par notre évaluateur. Dans l’ensemble, nos résultats suggèrent que l’autoformalisation des spécifications est à la portée des agents de pointe, mais reste fragile, même pour des problèmes pour lesquels ils sont déjà capables de générer du code correct. Le code, les données et les journaux sont disponibles à l’adresse https://github.com/formal-verif-is-cool/verus-spec-gym.
Les progrès récents dans les tâches agentiques à long horizon ont été largement portés par la mise à l'échelle verticale d'agents individuels, via des modèles plus puissants, de meilleurs outils et un échafaudage plus efficace. En revanche, la mise à l'échelle horizontale est beaucoup moins comprise : la question se pose de savoir si de multiples agents pairs, tous ciblant la même tâche, peuvent constituer une source supplémentaire de capacité, sans recourir à une spécialisation explicite des rôles ni à une orchestration des flux de travail. Nous étudions cette question et proposons AgentFugue, un cadre de raisonnement collectif construit autour d'un hub de raisonnement partagé. Tandis que des agents pairs explorent la même tâche en parallèle, le hub enregistre des notes concises sur ce que chaque agent a établi, tenté ou exclu, et permet à chaque agent d'accéder sélectivement aux découvertes des autres sous une forme utile pour sa recherche en cours. Cette conception transforme des trajectoires autrement isolées en une écologie connectée de raisonnements intermédiaires réutilisables, sans nécessiter de planification centralisée. Nous matérialisons le hub sous la forme d'une couche de communication enfichable, entraînée par réglage fin supervisé et apprentissage par renforcement de bout en bout. Sur les configurations exigeantes à long horizon que nous étudions, AgentFugue améliore les performances par rapport à des références solides. Nos résultats suggèrent que le raisonnement collectif peut faire de la mise à l'échelle horizontale des systèmes d'agents pairs une source distincte de gains de capacité, plutôt qu'un simple moyen d'augmenter la puissance de calcul dépensée.
Les agents autonomes d'utilisation d'ordinateur, pilotés par des modèles de langage multimodaux de grande taille (MLLMs), émergent comme des assistants compétents pour accomplir des flux de travail numériques complexes. Cependant, les environnements d'exécution réels sont loin d'être idéaux : les fenêtres contextuelles, les changements de résolution et les applications concurrentes interfèrent fréquemment avec la perception et le contrôle des agents. Nous introduisons AgentHijack, un référentiel conçu pour évaluer la robustesse des agents d'utilisation d'ordinateur face à des corruptions courantes, où les incertitudes dans un environnement dynamique perturbent le flux d'exécution sans intention malveillante directe. Plus précisément, AgentHijack propose 9 corruptions courantes configurables pour reproduire des scénarios imparfaits réalistes. Nous évaluons diverses tâches de bureau utilisant des agents basés sur MLLM et découvrons que même des cas mineurs de corruption peuvent entraîner une dégradation substantielle des performances, ce qui souligne la fragilité des agents et souligne la nécessité d'une évaluation de la robustesse. Ensuite, nous proposons AgentHijack-Agent, un cadre qui intègre un générateur d'actions avec des capacités d'ancrage améliorées et un observateur chargé du résumé du comportement et de la vérification de l'environnement. Des expériences approfondies valident son efficacité. Notre code, notre environnement, nos modèles de référence et nos données sont disponibles publiquement à l'adresse : https://AgentHijack.github.io.
Les grands modèles multimodaux (LMM) ont rapidement progressé en matière de perception et de raisonnement ; cependant, il n'est pas encore clair si ces capacités se généralisent à la découverte de solutions ancrées visuellement dans des environnements ouverts, au-delà de la reconnaissance de motifs. Dans de tels contextes, l'intelligence nécessite plus que de répondre à des questions bien formulées : elle implique d'identifier comment des éléments d'une scène peuvent être réutilisés de manière non évidente mais physiquement réalisable. Cette forme de résolution créative de problèmes est centrale à l'intelligence humaine, mais reste largement non testée dans les benchmarks actuels. Pour évaluer cette capacité, nous présentons MM-CreativityBench, un benchmark pour l'utilisation créative d'outils ancrée dans les affordances dans des environnements visuellement riches et physiquement contraints. Chaque instance présente une image de scénario avec des vues structurées des entités candidates et de leurs parties, permettant une évaluation fine et interactive de la manière dont les modèles inspectent itérativement la scène, identifient les affordances pertinentes et composent des solutions ancrées visuellement et physiquement. Nos expériences montrent que les LMM actuels échouent souvent, non pas par manque de capacité générative, mais parce qu'ils ne soutiennent pas une exploration ancrée. Les modèles négligent souvent des entités pertinentes, examinent insuffisamment des parties critiques, ou hallucinent des attributs non ancrés dans l'image. Motivés par ce mode d'échec, nous proposons un alignement ancré dans les affordances, qui considère l'utilisation créative d'outils comme un problème d'apprentissage par préférences. En utilisant l'Optimisation Directe des Préférences, nous encourageons les modèles à préférer un raisonnement attribut-affordance ancré dans des preuves visuelles plutôt que des alternatives hallucinées. De plus, nous incorporons une supervision dérivée d'une base de connaissances sur les affordances pour guider une exploration plus large des entités et une planification multi-tours. Nos résultats montrent des gains constants dans la sélection des entités et des parties correctes, tout en réduisant considérablement les hallucinations et les erreurs liées à l'ancrage.
Les contraintes de ressources spatiales et temporelles sont cruciales tant pour les systèmes intelligents biologiques qu'artificiels. Nous définissons ici des termes de coût différentiables pour la largeur, la profondeur et le temps au sein d'un réseau neuronal convolutionnel récurrent conçu comme un sous-ensemble fini d'un réseau infini. Nous optimisons ces coûts conjointement avec les erreurs de tâche via la rétropropagation. Nous appliquons différentes pressions sur la largeur, la profondeur et le temps, ce qui conduit à l'émergence organique de graphes computationnels diversifiés au cours de l'entraînement. Nous constatons que ces trois ressources peuvent être échangées les unes contre les autres pour atteindre un niveau de précision donné. Les réseaux croissent dans les trois dimensions avec la complexité de la tâche et effectuent spontanément davantage d'étapes récurrentes lorsque les entrées sont occultées. De manière surprenante, le temps utilisé par le modèle est corrélé aux temps de réaction humains dans une tâche de reconnaissance d'objets. Notre cadre propose une explication normative de la manière dont les contraintes de ressources façonnent les architectures neuronales, en lien avec les questions sur la conception du cerveau en neurosciences, et pourrait aider à éclairer la diversité des solutions neurales observées dans la nature.
Les grands modèles de langage (LLMs) destinés à la complétion et à la génération de code sont de plus en plus utilisés dans le développement logiciel, mais ils peuvent reproduire textuellement des exemples d’entraînement sans attribution de paternité, soulevant des préoccupations juridiques et éthiques liées au plagiat et à la conformité des licences. Les détecteurs de plagiat classiques basés sur les empreintes, comme Winnowing, restent très efficaces, mais leur inspection nécessite de comparer des fragments de code à l’ensemble du jeu d’entraînement, et leur recherche en temps linéaire les rend impraticables pour les corpus à l’échelle du milliard utilisés pour entraîner les LLMs de code modernes. Pour combler cette lacune, nous présentons SOURCETRACKER, un encodeur de 300 millions de paramètres conçu pour la récupération de code, ainsi qu’un pipeline hybride de traçage de provenance en deux étapes, HYBRIDSOURCETRACKER (HST). HST réduit d’abord un petit ensemble de fragments candidats via une recherche vectorielle, puis re-classe ces candidats en utilisant Winnowing sur des empreintes exactes. Nous entraînons et évaluons notre système sur un sous-ensemble de 10 millions de fragments du jeu de données THESTACKV2, avec à la fois des fragments textuels et adaptés qui simulent un renommage réaliste des identifiants. Sur un espace de recherche in vitro de 100 000 fragments avec des requêtes adaptées, notre approche hybride atteint un rang réciproque moyen comparable à celui de Winnowing pour des fragments de 30 tokens. Ensuite, à partir de fenêtres d’au moins 60 tokens, elle surpasse systématiquement ce dernier jusqu’à 5,4 %, tout en conservant une complexité de requête en temps logarithmique. Dans une évaluation complémentaire utilisant un juge basé sur un LLM, nous constatons que de nombreux fragments récupérés non étiquetés comme vérité terrain sont néanmoins très similaires aux sources attendues, en particulier avec des fenêtres de contexte plus longues, et restent donc utiles pour les utilisateurs finaux. Dans l’ensemble, nos résultats démontrent que l’intégration de la recherche vectorielle avec l’empreinte numérique permet un traçage de provenance scalable et de haute précision pour le code produit par les LLMs.
La prévision précoce de la trajectoire de dégradation des batteries (PTDB), qui consiste à prédire la trajectoire complète de l’état de santé à partir de données opérationnelles précoces, est cruciale pour l’optimisation, la fabrication et le déploiement des batteries. Les données de dégradation des batteries présentent deux caractéristiques clés. Premièrement, elles possèdent une structure multi-niveaux, incluant des régularités partagées au sein des conditions de vieillissement et des motifs de trajectoire communs entre les batteries. Deuxièmement, les variations liées à la dégradation dans les profils tension-courant se situent souvent dans des intervalles spécifiques de l’état de charge (SOC). Les approches existantes ne parviennent souvent pas à modéliser explicitement ces caractéristiques. Pour combler cette lacune, nous proposons BatteryMFormer, un Transformer multi-niveaux pour la PTDB précoce. BatteryMFormer intègre (1) un décodeur sensible aux conditions de vieillissement qui injecte des connaissances a priori via des requêtes informées par ces conditions et une attention y afférente, (2) une mémoire de motifs de dégradation méta qui apprend et récupère des prototypes de trajectoire pour guider la prévision à long horizon, et (3) un encodeur à double vue qui capture conjointement les dynamiques temporelles et les variations localisées en SOC à partir des séries temporelles de tension et de courant. Des expériences approfondies sur quatre domaines de batteries montrent que BatteryMFormer surpasse systématiquement les références de l’état de l’art, marquant une avancée significative vers une PTDB fiable. Notre code est disponible à l’adresse https://github.com/Ruifeng-Tan/BatteryMFormer.
Des études récentes ont montré que les grands modèles de langage (LLM) peuvent atteindre des performances de raisonnement solides en intégrant des représentations symboliques fonctionnelles qui décrivent abstraitement des algorithmes de parcours de graphe et un raisonnement étape par étape dans des contextes d'apprentissage à quelques exemples. Cependant, on ne sait pas clairement comment les LLM comprennent vraiment le sens abstrait de chaque étape de raisonnement et l'algorithme global à partir d'un nombre limité de démonstrations. Ce travail vise à localiser les têtes d'attention responsables des étapes individuelles de raisonnement et à caractériser les types d'informations transférées entre elles. Nous alignons d'abord les étapes de raisonnement constitutives avec leurs logits de jetons correspondants dans un cadre de sollicitation par Chaîne de Pensée (CoT) assistée par symboles. Notre analyse montre que les positions des jetons qui orientent le processus de raisonnement sont associées à des scores de confiance faibles, causés par des contraintes visant à satisfaire les schémas de comportement de raisonnement dans les démonstrations. Nous adoptons ensuite des techniques d'analyse de médiation causale pour identifier les têtes d'attention responsables de ces schémas. De plus, nos résultats indiquent que les LLM récupèrent des informations factuelles et basées sur des règles pour des sous-tâches de raisonnement individuelles via des têtes d'attention spécialisées (environ 3 % des têtes totales), tandis que les couches supérieures facilitent principalement l'intégration des informations et l'émergence de stratégies de raisonnement globales (par exemple, les algorithmes de parcours de graphe) qui coordonnent plusieurs étapes de raisonnement intermédiaires pour résoudre la tâche globale.
Les agents de LLM agissent de plus en plus en écrivant du code, mais un fossé persiste entre l’environnement d’exécution qui pilote l’agent et le code que le modèle produit. L’environnement d’exécution contrôle la boucle, le contexte et le flux d’exécution, et le modèle n’a que peu d’emprise sur ces éléments. Permettre au code écrit par le modèle de façonner l’environnement d’exécution lui-même rendrait les agents plus expressifs, mais accentuerait également les problèmes de sécurité. Un modèle peut être détourné par une injection d’invite, appeler le mauvais outil, ou échouer en cours de route et laisser un état incohérent ; chacun de ces échecs a des conséquences plus étendues lorsque le code façonne l’environnement d’exécution que lorsqu’il exprime une action unique. Nous présentons LACUNA, un modèle de programmation pour agents qui comble ce fossé tout en préservant la sécurité. Chaque action d’agent est un appel typé `agent[T](task)` que le LLM remplit avec du code lorsque l’exécution l’atteint, et ce code est vérifié statiquement par rapport au programme environnant avant son exécution. Étant donné que chaque action est acceptée ou rejetée dans son ensemble, une action rejetée laisse l’environnement intact, et ses diagnostics de compilation déclenchent une nouvelle tentative. La même vérification limite également les outils et données qu’une action peut utiliser ainsi que leur flux. Notre primitive exprime les boucles ReAct, les sous-agents, les compétences, la décomposition parallèle et la planification multi-modèle comme un flux de contrôle ordinaire. Nous évaluons LACUNA sur un ensemble de cas de test, BrowseComp-Plus et τ²-bench. Sur BrowseComp-Plus, 8,6 % des générations sont rejetées avant exécution, avec 0,7 nouvelle tentative par requête en moyenne, et l’agent atteint une précision de 27,1 %. Sur τ²-bench, LACUNA résout 76,0 % des 392 tâches dans quatre domaines avec un modèle performant, à égalité avec l’agent de référence.
Le segmentation par référence vise à segmenter les objets cibles dans des images ou des vidéos en fonction d'une requête textuelle. Malgré des progrès remarquables ces dernières années, les travaux existants partent toujours du principe que les requêtes fournies par l'utilisateur sont déjà précises et claires. Cependant, cette hypothèse est irréaliste. Dans des scénarios réels, il est peu réaliste d'attendre de tous les utilisateurs qu'ils examinent minutieusement leur contenu visuel et veillent soigneusement à ce que leurs requêtes soient uniques et sans ambiguïté. Face à de tels cas, les modèles de segmentation existants ont tendance à deviner arbitrairement les préférences de l'utilisateur, ce qui aboutit souvent à des résultats non souhaités. Pour pallier cette limitation, nous proposons IC-Seg, un nouveau cadre agentique qui clarifie de manière proactive l'intention de l'utilisateur grâce à une conversation à plusieurs tours avant la segmentation. Pour encourager efficacement cette capacité, nous introduisons également Hi-GRPO, une nouvelle stratégie d'optimisation hiérarchique qui injecte des signaux de supervision denses et informatifs aux niveaux de la trajectoire, du tour et de l'étape. Cette stratégie favorise une clarification efficace de l'intention, éliminant efficacement les interactions redondantes et améliorant la qualité globale du dialogue. Pour l'évaluation, nous établissons Ambi-RVOS, un benchmark de segmentation d'objets vidéo par référence avec des requêtes utilisateur ambiguës. Des expériences approfondies démontrent qu'IC-Seg non seulement surpasse largement les méthodes existantes dans la résolution de requêtes ambiguës, mais maintient également des performances de pointe sur les benchmarks standard de segmentation par raisonnement. Le code et les données seront disponibles à l'adresse https://github.com/iSEE-Laboratory/IC-Seg.
Comprendre les objets 3D à partir d'images est fondamental pour la robotique et les applications de réalité augmentée/réalité virtuelle. Bien que des travaux récents aient progressé dans l'estimation de pose au niveau catégorie, les représentations actuelles ne parviennent pas à capturer la sémantique fine nécessaire pour raisonner sur les parties, fonctions et interactions des objets. Dans ce travail, nous étudions la correspondance 3D au niveau catégorie dans l'espace caméra — prédire, à partir d'une seule image, des positions 3D qui restent cohérentes entre les instances d'une même catégorie — et montrons qu'elle peut émerger sans supervision explicite de correspondance en apprenant un a priori d'objet morphable partagé. Pour permettre la recherche dans cette direction, nous introduisons HouseCorr3D, le premier benchmark à grande échelle pour la correspondance 3D monoculaire au niveau catégorie avec 178 000 images couvrant 50 catégories d'objets ménagers, 280 instances uniques et des annotations de points clés 3D directement sur des modèles CAO. Crucialement, HouseCorr3D fournit des étiquettes de correspondance amodales pour les régions occultées et des annotations explicites de symétrie, répondant aux limitations clés des jeux de données existants. Nous proposons également Morpheus, une méthode qui apprend des a priori de forme morphables au niveau catégorie en désenchevêtrant la forme canonique, la déformation et la pose de l'objet. Grâce à cet ancrage canonique partagé, des correspondances 3D sémantiquement significatives dans l'espace caméra émergent implicitement. Ces correspondances 3D émergentes établissent un nouvel état de l'art sur HouseCorr3D, démontrant que la compréhension sémantique d'objets 3D peut apparaître sans supervision directe de correspondance. Les données et le code sont disponibles publiquement à l'adresse https://github.com/GenIntel/HouseCorr3D.
Clark Hash est une méthode compacte pour stocker les représentations neuronales (embeddings) dans un espace réduit. Elle normalise chaque vecteur de la base de données, applique une projection de Johnson-Lindenstrauss signée creuse déterministe, écrête le résultat, puis stocke un code quantifié scalaire de largeur fixe. Les requêtes restent en virgule flottante et sont évaluées par rapport aux esquisses stockées. Dans le cadre par défaut des plongements de phrases à 384 dimensions, Clark Hash stocke un vecteur de recherche cosinus dans 48 octets au lieu de 1536 octets pour un stockage dense en f32, soit une réduction d'un facteur 32. La méthode ne nécessite ni phase d’apprentissage, ni dictionnaires appris, ni rotations, ni statistiques sur le corpus avant de pouvoir stocker de nouveaux vecteurs. Nous décrivons le codec, son implémentation en Rust, ainsi qu’une évaluation multilingue de similarité de phrases sur 9 304 paires étiquetées provenant de 29 sous-ensembles. Avec un encodeur MiniLM multilingue, les esquisses de 48 octets atteignent une corrélation de Pearson macro de 0,910 et 0,946 avec les scores cosinus denses respectivement sur STS17 et STS22. Clark Hash n’est pas un nouveau théorème de Johnson-Lindenstrauss ni un remplacement des index de plus proches voisins approchés. Il s’agit d’un simple codec sans état pour un stockage compact des plongements.
Les évaluations de sécurité des LLM testent principalement les modèles de manière isolée, mais les agents d'IA déployés opèrent de plus en plus dans des environnements sociaux persistants aux côtés d'autres agents. Nous présentons une plateforme de simulation de type Moltbook où des milliers d'agents LLM interagissent au sein de communautés pendant un mois simulé, et l'utilisons pour évaluer la vie privée en tant que préoccupation de sécurité en aval sous divers degrés de pression sociale. Nous constatons que le passage d'une évaluation sociale à un seul tour à une évaluation à plusieurs tours amplifie les violations de la vie privée (CIMemories 19,95 % à Notre méthode 45,30 % pour les modèles OpenAI), que les fuites sont socialement contagieuses, les agents étant 8 fois plus susceptibles de divulguer des informations sensibles après avoir observé un pair le faire, et que des instructions explicites sur la vie privée réduisent mais n'éliminent pas cet effet, laissant des taux de fuite supérieurs à 37,8 % même avec des mesures de protection. Nos résultats suggèrent que les références de sécurité statiques basées sur des dialogues sous-estiment systématiquement les risques en contexte de déploiement agentique, et que le contexte social seul suffit à provoquer des divulgations sensibles que les évaluations à un seul tour ne révéleraient jamais.
Les approches récentes de super-résolution vidéo (VSR) utilisent des réseaux de neurones profonds pour améliorer les vidéos d'entrée de faible qualité et récupérer les détails visuels, les méthodes basées sur la diffusion montrant en particulier des résultats prometteurs. Dans cet article, nous étudions si les modèles de qualité vidéo existants peuvent être utilisés pour évaluer les performances de ces méthodes VSR basées sur la diffusion, en comparant les prédictions des modèles avec les résultats d'un test subjectif. L'étude compare six méthodes de sur-échantillonnage (Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini) appliquées à des vidéos basse résolution compressées (AV1 et DCVC-RT) et non compressées, en considérant la lecture sur un écran UHD-1/4K. Une gamme de modèles de qualité à référence complète et sans référence est utilisée pour évaluer leur applicabilité à ce nouveau type de dégradation de qualité, en se concentrant sur les performances intra-séquence. Les résultats soulignent que les modèles à référence complète basés sur CNN, tels que LPIPS, DISTS et CVQA-FR, présentent des coefficients de corrélation significativement plus élevés que les modèles à référence complète conventionnels ainsi que les modèles sans référence testés. La plupart surestiment les résultats excessivement nets de SCST, VMAF échouant principalement en raison des incohérences spatiales introduites par Starlight Mini. Aucun des modèles de qualité vidéo testés n'atteint une précision suffisante pour remplacer les tests subjectifs complémentaires. Les vidéos de référence, dégradées et sur-échantillonnées, ainsi que les évaluations des utilisateurs et les scores des modèles, sont mises à disposition avec l'article à l'adresse https://github.com/Telecommunication-Telemedia-Assessment/AVT-VQDB-UHD-1-VSR en tant que données ouvertes.
Les grands modèles de langage (LLMs) sont principalement régis par des cadres probabilistes dans lesquels la somme des probabilités des résultats est contrainte à l'unité. Cette limitation architecturale, souvent imposée par les couches Softmax, entraîne un effondrement de l'incertitude qui rend difficile la différenciation entre incertitude épistémique, paradoxe et imprécision. Nous présentons une étude empirique de l'application de la logique neutrosophique, un cadre qui traite la Vérité (T), l'Indétermination (I) et la Fausseté (F) comme trois dimensions indépendantes, pour modéliser les états épistémiques dans les LLMs. Nous avons mené des expériences sur une famille de quatre modèles GPT d'OpenAI à travers cinq phénomènes linguistiques : paradoxes logiques, ignorance épistémique, imprécision, contradictions éthiques et contingences futures, selon trois stratégies d'amorçage : neutrosophique, probabiliste et dérivée de l'entropie. Nos résultats révèlent que l'approche neutrosophique, en autorisant T+I+F > 1, un état que nous appelons hyper-vérité, offre une représentation plus riche de l'état interne d'un modèle. Dans 35 % des évaluations, l'hyper-vérité est apparue spontanément, principalement dans les cas de contradiction éthique et de paradoxe logique. Nous démontrons que cette approche préserve les valeurs de vérité dans des contextes flous et offre une méthode robuste pour identifier et quantifier les conflits internes du modèle. Nous concluons que l'intégration de couches d'évaluation neutrosophiques constitue une étape cruciale vers des systèmes d'IA plus transparents, fiables et éthiquement conscients.
Nous présentons PEAM, un cadre de mémoire d'agent incarné paramétrique dans Minecraft qui transforme la mémoire de l'agent, passant d'une récupération au moment de l'inférence à des compétences résidant dans les paramètres, internalisées par l'expérience. PEAM associe un LLM délibératif lent pour le raisonnement ouvert à un module paramétrique rapide pour l'exécution réflexe de compétences consolidées. Le module rapide est une architecture LoRA multimodale à mélange d'experts, dotée d'adaptateurs physiquement isolés par catégorie, permettant un apprentissage continu au niveau des paramètres sans oubli catastrophique. Nous traitons l'échec comme un signal d'apprentissage de première classe : les paires trajectoire d'échec-correction sont internalisées via un objectif conjoint de clonage comportemental et contrastif, de sorte que l'agent n'apprend pas seulement ce qui réussit, mais aussi en quoi les actions corrigées diffèrent des actions échouées. Pour régir la consolidation, PEAM introduit un score de paramétrisabilité pour décider quelle expérience doit être internalisée, ainsi qu'un mécanisme de consolidation auto-déclenché sans échelle pour décider quand internaliser, sans seuils ajustés manuellement spécifiques à chaque tâche, rendant l'agent auto-évolutif car le déclenchement se transfère entre distributions de tâches sans réglage. Les expériences dans Minecraft montrent que PEAM améliore les performances sur les tâches à long horizon, atténue l'oubli des compétences précédemment consolidées et améliore l'efficacité paramétrique par rapport à la récupération, comparé aux agents incarnés basés sur la récupération et aux variantes de mémoire paramétrique.
Les modèles de diffusion discrets sont devenus des cadres puissants pour générer des données catégorielles structurées. Cependant, échantillonner efficacement à partir de distributions inclinées par récompense reste un défi fondamental. Bien que le Monte Carlo séquentiel tordu (SMC) offre une exactitude asymptotique pour cette tâche, l'estimation de la fonction de torsion optimale dans des espaces d'états discrets nécessite des approximations de Monte Carlo coûteuses, créant un goulot d'étranglement computationnel sévère lors de l'inférence. Pour surmonter cette limitation, nous introduisons l'Appariement de Distributions par Contraste (CDM), un nouveau cadre qui amortit le coût de l'inférence SMC en apprenant une fonction de torsion paramétrée à l'aide d'échantillons positifs et négatifs. Pour un entraînement efficace, nous reformulons l'estimateur du gradient afin d'exploiter les noyaux directs de forme fermée des modèles de diffusion discrets. En pratique, l'évaluation de notre fonction de torsion apprise n'entraîne qu'un surcoût computationnel inférieur à 5% par rapport à une seule passe avant du modèle de base. À travers des évaluations empiriques approfondies, nous démontrons que CDM surpasse systématiquement les bases de référence existantes à temps réel égal. Nous validons l'efficacité et la polyvalence de notre approche sur un ensemble diversifié d'applications, incluant la génération de texte toxique, la conception de séquences d'ADN régulatrices, la concevabilité des protéines et l'alignement des grands modèles de langage par diffusion.