Articles de recherche IA sélectionnés quotidiennement avec traductions
Nous présentons ABot-Earth 0.5, un cadre 3D génératif conçu pour synthétiser de vastes environnements 3D sans couture à partir d’imagerie satellite géoréférencée omniprésente. Pour ce faire, nous proposons un nouveau modèle génératif formulé directement avec la représentation Splatting Gaussien 3D (3DGS). Le modèle est entraîné sur un corpus diversifié de reconstructions urbaines réelles existantes, apprenant à générer une géométrie et des textures réalistes. Lors de l’inférence, il synthétise de nouvelles scènes 3D conditionnées uniquement par l’imagerie satellite à un rythme évolutif de moins de 10 minutes par kilomètre carré, tout en démontrant un réalisme exceptionnel. Le cadre est conçu pour être accessible, avec des structures hiérarchiques de niveau de détail (LOD) intégrées permettant une visualisation interactive en temps réel sur des moteurs cartographiques web. Ce bac à sable de simulation haute fidélité réduit efficacement le fossé de domaine sim-vers-réel, permettant des applications critiques d’IA incarnée en aval, comme la navigation de drones en boucle fermée. En offrant une solution à coût extrêmement bas et à haute efficacité, ABot-Earth 0.5 abaisse considérablement les barrières techniques et financières à la reconstruction 3D à grande échelle et impulse l’avenir de la visualisation numérique mondiale de la Terre.
Nous présentons Kwai Keye-VL-2.0-30B-A3B, un modèle fondation multimodal open-source à base de Mixture-of-Experts (MoE) conçu pour faire progresser la compréhension de longues vidéos et l’intelligence agentique. Pour relever les défis liés aux contextes ultra-longs, à la redondance d’information et aux coûts de calcul prohibitifs inhérents aux vidéos d’une heure ou plus, Keye-VL-2.0 est le premier à adapter l’attention sparse DeepSeek (DSA) aux architectures multimodales basées sur GQA, permettant un traitement sans perte de contextes de 256 000 tokens tout en capturant les trames critiques et les dépendances temporelles à longue portée. Cette architecture s’appuie sur une infrastructure d’entraînement et d’inférence hautement optimisée, incluant des entrées-sorties vidéo évolutives, un parallélisme hétérogène ViT-LM et des noyaux DSA personnalisés qui maximisent significativement le débit et minimisent la surcharge de calcul. De plus, pour surmonter le dilemme algorithmique de l’oubli catastrophique lors de l’alignement multitâche, nous introduisons la distillation multi-enseignante cross-modale sur politique (MOPD) associée à Context-RL et Video-RL. En distillant les retours d’enseignants denses au niveau des tokens issus de déploiements sur politique dans le réseau MoE, qui n’active que 3 milliards de paramètres, Keye-VL-2.0 permet nativement une collaboration agentique avancée entre les scénarios de Code, d’Outils et de Recherche, avec une auto-correction multimodale. Des évaluations approfondies sur des référentiels de compréhension vidéo, d’ancrage temporel, de raisonnement, de STEM et de capacités agentiques démontrent que Keye-VL-2.0-30B-A3B atteint des performances de pointe parmi les modèles d’échelle similaire, excellant particulièrement dans la localisation temporelle fine sur TimeLens et la compréhension de longues vidéos sur Video-MME-v2 et LongVideoBench. Nous publions nos points de contrôle de modèle afin d’accélérer les progrès de la communauté vers des applications agentiques multimodales évolutives et robustes.
Bien que les agents basés sur les grands modèles de langage (LLM) aient démontré des performances solides sur des tâches complexes, leur apprentissage est souvent limité par des retours d'interaction inefficaces et des environnements d'entraînement statiques, ce qui entrave une généralisation plus large. Pour remédier à ces limitations, cet article introduit Role-Agent, un cadre qui exploite un unique LLM pour fonctionner simultanément comme l'agent et l'environnement, permettant une co-évolution amorcée. Role-Agent comprend deux composants synergiques : Monde-dans-l'Agent (WIA) et Agent-dans-le-Monde (AIW). Dans WIA, le LLM agit en tant qu'agent et prédit les états futurs après chaque action ; l'alignement entre les états prédits et réels est ensuite utilisé comme récompense de processus, encourageant un raisonnement conscient de l'environnement. Dans AIW, le LLM analyse les modes d'échec issus des trajectoires échouées et récupère des tâches présentant des schémas d'échec similaires, remodelant ainsi la distribution des données d'entraînement pour une pratique ciblée. Les expériences réalisées sur plusieurs benchmarks montrent que Role-Agent améliore constamment les performances, produisant un gain moyen de plus de 4 % par rapport aux lignes de base fortes.
Les agents d'IA s'appuient sur un harnais de compétences, d'outils et de flux de travail pour résoudre des problèmes complexes. Améliorer continuellement ce harnais est essentiel pour s'adapter à de nouvelles tâches. Cependant, les méthodes d'optimisation existantes nécessitent généralement des ensembles de validation de vérité de terrain, or ces données étiquetées sont difficiles à obtenir dans des contextes de déploiement pratique. Pour remédier à ce problème, nous introduisons l'Optimisation Rétrospective du Harnais (RHO), une méthode auto-supervisée qui optimise le harnais de l'agent en utilisant uniquement des trajectoires passées. Plus précisément, RHO sélectionne un coreset diversifié de tâches difficiles issues des trajectoires passées et les résout à nouveau en parallèle. L'agent analyse ces déploiements par auto-validation et auto-cohérence, puis génère des mises à jour candidates du harnais et sélectionne la plus efficace via sa propre auto-préférence par paire. Nous évaluons RHO dans trois domaines distincts, couvrant le génie logiciel, le travail technique et le travail cognitif. Notamment, un seul cycle d'optimisation améliore le taux de réussite sur SWE-Bench Pro de 59 % à 78 % sans aucune évaluation externe. De plus, notre analyse montre que RHO cible efficacement les modes d'échec antérieurs. En conséquence, le harnais optimisé modifie les schémas comportementaux de l'agent et maintient une précision plus élevée lors de sessions à long horizon.
Les grands modèles de langage sont de plus en plus amenés à traiter des tâches complexes et à long horizon dans le monde réel, dont les exigences contextuelles peuvent croître sans limite, alors que les fenêtres de contexte des modèles restent intrinsèquement finies. Des travaux récents explorent un paradigme dans lequel un agent principal décompose les tâches et délègue des sous-tâches à des sous-agents, qui exécutent et renvoient uniquement des résultats résumés, préservant ainsi le budget de contexte de l'agent principal. Cependant, une bonne mise en œuvre de cette approche nécessite une intelligence de délégation : la capacité à décomposer des tâches complexes, à déterminer quand et quoi déléguer, et à intégrer les résultats renvoyés dans le flux de travail en cours. Les données d'entraînement pour cette capacité sont rares dans les textes naturels, et à notre connaissance, la manière de synthétiser ces données et d'entraîner les modèles à acquérir cette capacité reste largement inexplorée dans la communauté open-source. Pour combler cette lacune, nous présentons une exploration préliminaire ciblant la recherche approfondie, une tâche d'agent à long horizon représentative. Plus précisément, nous concevons un harnais qui guide le modèle vers une décomposition et une délégation de tâches de haute qualité, tout en contraignant les sous-agents à renvoyer des résultats correctement adaptés pour soutenir le flux de travail de l'agent principal. Les trajectoires guidées par le harnais encodent naturellement des décisions de délégation correctes, que nous utilisons comme données de fine-tuning supervisé pour internaliser l'intelligence de délégation dans les poids du modèle. Notre modèle résultant, SearchSwarm-30B-A3B, atteint 68,1 sur BrowseComp et 73,3 sur BrowseComp-ZH, les meilleurs résultats parmi tous les modèles de taille comparable. Nous publierons notre harnais, les poids du modèle et les données d'entraînement pour faciliter les recherches futures.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu la norme pour améliorer le raisonnement des LLM. Cependant, les mécanismes de région de confiance de type PPO existants restent indépendants de la position en imposant des seuils uniformes à l'ensemble des jetons de manière indépendante. Ce traitement ponctuel entre en conflit avec la génération autorégressive de deux manières cruciales. Premièrement, les seuils uniformes ignorent l'asymétrie autorégressive. Les déviations précoces produisent une dérive cumulative au niveau de la séquence, ce qui fait que les seuils statiques sous-régulent la divergence précoce et contraignent excessivement l'exploration tardive. Deuxièmement, l'évaluation isolée de la divergence au niveau des jetons néglige la dérive cumulative du préfixe, accordant la même marge de divergence indépendamment de l'écart déjà accumulé entre l'historique de conditionnement et la politique de rollout. Pour pallier cette limitation, nous proposons CPPO (Cumulative Prefix-divergence Policy Optimization), une règle de masquage au niveau des jetons qui aligne les mises à jour sur une borne d'amélioration de politique à horizon fini via deux mécanismes couplés. Premièrement, un seuil pondéré par la position impose des limites plus strictes aux positions précoces dont les effets persistent plus longtemps, en assouplissant les contraintes pour les jetons tardifs. Deuxièmement, un budget de préfixe cumulatif suit les déviations historiques, en restreignant dynamiquement les écarts ultérieurs au niveau des jetons afin d'éviter des erreurs cumulatives le long du préfixe. Empiriquement, CPPO améliore la stabilité de l'entraînement et accroît significativement la précision du raisonnement à différentes échelles de modèle.
Les modèles vision-langage actuels peinent à traiter des vidéos durant plusieurs heures, car le traitement de séquences visuelles complètes entraîne une explosion prohibitive du nombre de tokens et une dilution de l’attention. Pour surmonter cette difficulté, nous introduisons MemDreamer, qui dissocie perception et raisonnement en transformant la compréhension de vidéos longues en un processus d’exploration agentique. En tant que cadre plug-and-play, il diffuse les vidéos de manière incrémentale pour construire une mémoire de graphe hiérarchique — une architecture descendante à trois niveaux dédiée à l’abstraction sémantique, ancrée par un graphe fondamental capturant les relations spatiotemporelles et causales. Lors de l’inférence, le modèle de raisonnement utilise une récupération augmentée par des outils agentiques, navigant dans les hiérarchies, parcourant les nœuds et traversant les arêtes logiques via une boucle Observation-Raisonnement-Action. Les expériences montrent que MemDreamer atteint des résultats de pointe sur quatre référentiels principaux, réduisant l’écart avec les experts humains à seulement 3,7 points. Il limite la fenêtre contextuelle de raisonnement à seulement 2 % de l’ingestion de contexte complet, tout en offrant un gain absolu de précision de 12,5 points. De plus, l’analyse statistique révèle une forte corrélation linéaire positive entre les performances d’un VLM en raisonnement logique et sur des référentiels de compréhension de vidéos longues, établissant ainsi le passage à l’échelle des capacités agentiques comme nouveau paradigme pour la compréhension multimodale.
Des travaux récents ont démontré que l’apprentissage par renforcement en ligne (RL) peut améliorer significativement la qualité et l’alignement des modèles d’appariement de flux pour la génération d’images et de vidéos. Des méthodes telles que Flow-GRPO et CPS modélisent le processus de débruitage comme un processus de décision markovien et appliquent un écrêtage de ratio de type PPO pour imposer une région de confiance. Cependant, nous soutenons que l’écrêtage de ratio est structurellement inadéquat pour les modèles de flux : le rapport de probabilité entre les anciennes et les nouvelles politiques est une estimation bruitée, basée sur un seul échantillon, de la véritable divergence entre politiques, ce qui conduit à une contrainte excessive dans certaines régions de la trajectoire et à une contrainte insuffisante dans d’autres. Nous proposons Flow-DPPO (Flow Divergence Proximal Policy Optimization), qui remplace l’écrêtage de ratio par une contrainte proximale de divergence. Une observation clé est que la politique par étape dans les modèles de flux est gaussienne, ce qui permet un calcul exact et peu coûteux de la divergence KL entre les anciennes et les nouvelles politiques. Flow-DPPO utilise un masque de divergence asymétrique qui bloque les mises à jour de gradient uniquement lorsqu’elles s’éloignent simultanément de la région de confiance et violent le seuil de divergence. Les expériences montrent que Flow-DPPO atteint des récompenses plus élevées avec une meilleure efficacité proximale par rapport à la KL, atténue l’oubli catastrophique, favorise une optimisation multi-objectifs équilibrée et permet un entraînement stable sur plusieurs époques là où l’écrêtage de ratio se dégrade. Le code et les modèles sont disponibles à l’adresse https://github.com/Tencent-Hunyuan/UniRL/tree/main/FlowDPPO.
L'animation de personnages contrôlés nécessite de transférer le mouvement d'une séquence motrice vers un personnage de référence. Les travaux antérieurs reposent fortement sur des représentations intermédiaires, notamment des squelettes de pose pour représenter le mouvement ou des fonds masqués pour représenter l'environnement, ce qui entraîne inévitablement une perte d'information. Pour y remédier, nous présentons SCAIL-2, un framework qui contourne ces intermédiaires et réalise une animation de personnage de bout en bout. En concaténant directement les vidéos motrices à la séquence, le modèle peut obtenir toutes les informations visuelles nécessaires à partir de la vidéo d'entrée. Pour pallier le manque de données de bout en bout, nous unifions les sous-tâches de l'animation de personnage avec des conditions découplées, puis nous élaborons un pipeline pour synthétiser MotionPair-60K, un ensemble de données de transfert de mouvement de bout en bout contenant des tâches hétérogènes d'animation de personnage. Pour réaliser cette unification, nous utilisons un conditionnement par masque en contexte et une RoPE spécifique au mode comme guide logiciel complémentaire aux instructions textuelles et aux informations visuelles brutes. Pour traiter les divergences synthétiques dans les régions détaillées, nous proposons le DPO sensible au biais (Bias-Aware DPO) afin de construire des éléments de préférence et d'atténuer les erreurs. Des expériences approfondies montrent que notre méthode surpasse nettement les approches de pointe existantes dans diverses tâches d'animation de personnage. Un large sous-ensemble de données synthétiques ainsi que les poids du modèle seront mis à disposition sur notre page projet : https://teal024.github.io/SCAIL-2/.
Les modèles de synchronisation labiale basés sur la diffusion atteignent une forte qualité visuelle et un alignement audio-visuel, mais l'attention bidirectionnelle sur la séquence complète et le nombre élevé d'étapes de débruitage les rendent impracticalbles pour l'inférence en temps réel. Nous présentons Lip Forcing, à notre connaissance la première méthode de diffusion autorégressive pour la synchronisation labiale vidéo-vers-vidéo (V2V), qui distille un enseignant de diffusion vidéo bidirectionnelle conditionné par l'audio de 14B en étudiants causaux. Lors de l'inférence, les étudiants génèrent chaque segment en seulement deux étapes de débruitage sans CFG lors de l'inférence, permettant une synchronisation labiale en temps réel. Une analyse de la trajectoire de l'enseignant spécifique à la synchronisation labiale révèle un compromis fidélité-synchronisation du CFG : les prédictions sans CFG favorisent la fidélité de référence, tandis que les prédictions guidées par CFG favorisent la synchronisation dans une bande de trajectoire médiane. Lip Forcing traduit cette découverte en trois composants dérivés de l'analyse : Sync-Window DMD, un calendrier d'inférence en deux étapes et une récompense basée sur SyncNet. Nous validons Lip Forcing à deux échelles d'étudiants, tous deux distillés à partir de l'enseignant de 14B. L'étudiant de 1,3B atteint un streaming en temps réel à 31 FPS, soit 17,6 fois plus rapide que son modèle bidirectionnel de même échelle. L'étudiant de 14B, le plus grand modèle de diffusion rapporté pour la synchronisation labiale V2V, fonctionne 39,8 fois plus rapidement que son enseignant avec une fidélité de référence comparable. Le temps jusqu'à la première image est inférieur à la milliseconde aux deux échelles, bien en dessous de toutes les références de diffusion.
Nous présentons WorldOlympiad, un référentiel conçu pour diagnostiquer les modèles du monde basés sur la vidéo selon la fidélité physique, la cohérence géométrique et la fiabilité des interactions. Alors que les référentiels existants se concentrent souvent sur la qualité visuelle, l'alignement sémantique ou la cohérence temporelle à court terme, ils offrent un aperçu limité de la capacité des vidéos générées à respecter les lois physiques, à préserver une structure 3D cohérente et à soutenir des interactions contrôlables sur de longs horizons. Pour combler cette lacune, WorldOlympiad décompose l'évaluation des modèles du monde en trois dimensions complémentaires. Le volet physique utilise la segmentation d'objets et un MLLM comme juge pour évaluer si les vidéos générées suivent des règles interprétables en mécanique, phénomènes thermiques et propriétés des matériaux. Le volet géométrique reconstruit les vidéos générées par éclaboussure gaussienne et évalue la cohérence structurelle, la cohérence inter-vues et l'alignement de la trajectoire de la caméra. Le volet interaction évalue si les déroulements générés suivent des instructions d'action complexes et maintiennent des transitions fluides et cohérentes entre des segments vidéo consécutifs. WorldOlympiad couvre en outre trois grands scénarios d'application, incluant les jeux vidéo, la robotique et les vidéos générales du monde réel, capturant divers défis allant du contrôle interactif et de la manipulation incarnée au mouvement en domaine ouvert et à la dynamique de caméra. Ensemble, ces volets et scénarios forment une suite d'évaluation scalable et interprétable qui expose les modes d'échec au-delà de la qualité vidéo générique. Les expériences menées sur des modèles de pointe révèlent des lacunes substantielles dans le raisonnement physique, la cohérence 3D et l'interaction à long horizon, soulignant la nécessité de protocoles d'évaluation plus structurés pour les modèles génératifs du monde.
L'apprentissage par renforcement (RL) est devenu un élément clé du post-entraînement des grands modèles de langage (LLMs). En pratique, le RL pour les LLMs est souvent hors politique (off-policy) en raison d'un décalage entre l'entraînement et l'inférence ainsi que de l'obsolescence de la politique, ce qui rend le contrôle de la région de confiance essentiel pour une optimisation stable. Les méthodes dominantes telles que PPO et GRPO approximent ce contrôle par un mécanisme d'écrêtage du ratio, mais le ratio d'importance peut constituer un mauvais indicateur du décalage distributionnel dans les vocabulaires à longue traîne. Des travaux récents comme DPPO corrigent ce décalage en remplaçant l'écrêtage basé sur le ratio par un masque basé sur la divergence, établissant ainsi une région de confiance définie par le décalage absolu de probabilité du jeton échantillonné. Cependant, DPPO repose encore sur un masque dur : dès qu'un jeton franchit la frontière de la région de confiance dans une direction néfaste, son gradient est écarté plutôt que corrigé. Pour remédier à cela, nous proposons l'Optimisation de Politique Régularisée par Divergence (DRPO), qui remplace le masque dur par un régularisateur quadratique lisse pondéré par l'avantage sur le décalage de politique. DRPO préserve la même géométrie de région de confiance que DPPO tout en induisant des poids de gradient continus et bornés qui atténuent les mises à jour divergentes et fournissent des signaux correctifs au-delà de la frontière. Des expériences menées à différentes échelles de modèle, architectures et réglages de précision montrent que DRPO améliore la stabilité et l'efficacité de l'entraînement RL des LLMs.
Dans cet article, nous proposons EEVEE, le premier cadre d'apprentissage de prompts au moment du test sur plusieurs ensembles de données pour les agents LLM, permettant l'apprentissage de prompts au moment du test dans des flux de tâches réels. Les méthodes existantes sont principalement conçues pour des contextes avec un seul ensemble de données, tandis que les applications réelles exigent que les modèles traitent des flux d'entrées hétérogènes provenant de multiples ensembles de données, domaines et distributions de tâches, limitant ainsi leur applicabilité pratique. Pour atténuer les interférences entre ensembles de données, EEVEE introduit un routeur qui partitionne les entrées entrantes en grappes de tâches et les assigne à des configurations de prompts appropriées. Cette conception est optimisée via une stratégie de co-évolution routeur-prompt, qui alterne les phases d'apprentissage du routeur et des prompts pour résoudre leur dépendance mutuelle. Les expériences menées sur plusieurs ensembles de données démontrent que le cadre améliore la robustesse face à des flux de données hétérogènes, tout en maintenant la capacité d'apprentissage et l'efficacité sur un seul benchmark. Plus précisément, EEVEE améliore les scores moyens multi-benchmarks de 10,38 et 24,32 points par rapport à Qwen3-4B-Instruct et DeepSeek-V3.2, surpassant les méthodes SOTA GEPA et ACE jusqu'à 37,2 % et 48,2 %.
Cet article présente ARM, un modèle autorégressif basé sur une représentation discrète qui unifie la compréhension, la génération et l'édition d'images dans un cadre de prédiction du prochain jeton. ARM repose sur trois volets : premièrement, nous entraînons un tokenizer visuel sémantique discret qui transforme les images en séquences de jetons compactes. Notre tokenizer est supervisé par plusieurs objectifs qui favorisent conjointement la discriminabilité sémantique, l'alignement linguistique et une reconstruction fidèle, permettant ainsi de prendre en charge diverses tâches dans un espace latent partagé. Grâce à cela, nous entraînons un modèle autorégressif de 7 milliards de paramètres sur de vastes séquences de jetons textuels et d'images, développant harmonieusement des capacités de perception et de génération vision-langage. Enfin, pour améliorer davantage le comportement aligné sur les préférences pour la génération texte-à-image et l'édition guidée par instructions, ARM applique l'apprentissage par renforcement (RL) afin d'optimiser des objectifs au niveau des tâches, tels que la qualité visuelle, le respect des instructions et la cohérence de l'édition. De manière surprenante, les résultats montrent que le RL améliore non seulement substantiellement les performances sur les tâches cibles (par exemple, en faisant passer le score WISE global de 0,50 à 0,56, et le G_O de GEdit-Bench-EN de 5,75 à 6,68), mais induit également une synergie entre les tâches de génération texte-à-image et d'édition. Collectivement, ces résultats soulignent que la modélisation autorégressive, lorsqu'elle est associée à des représentations solides et à une optimisation des préférences, constitue une base scalable pour l'intelligence multimodale. Code : https://github.com/wdrink/ARM.
Ces dernières années ont vu l'évolution rapide des agents d'IA vers la gestion de tâches de plus en plus complexes et réalistes. Cependant, les benchmarks existants évaluent rarement la capacité des agents à utiliser des interfaces graphiques pour accomplir des flux de travail professionnels de longue durée et à haute valeur ajoutée dans divers domaines. Les benchmarks actuels pour les interfaces graphiques se concentrent encore principalement sur des logiciels à usage général, des applications relativement simples et des tâches de courte durée, ce qui laisse largement inconnue la capacité des agents modernes à suivre des instructions utilisateur pour opérer de manière autonome des logiciels professionnels spécifiques à un domaine et accomplir un travail économiquement précieux de bout en bout. Pour combler cette lacune, nous présentons Workflow-GYM, un benchmark pour les tâches d'interface graphique à long terme centré sur des domaines professionnels et des environnements logiciels spécialisés. Grâce à des expériences approfondies sur des modèles de pointe, nous constatons que même les modèles les plus performants n'atteignent qu'un peu plus de 30 % de taux de réussite, soulignant que les flux de travail professionnels à long terme sur interface graphique restent extrêmement difficiles pour les agents GUI actuels. Une analyse plus approfondie révèle que les agents actuels peinent à maintenir la cohérence des flux de travail à long terme, présentant fréquemment des omissions d'étapes, une propagation d'erreurs, une dérive d'objectif et une compréhension insuffisante des environnements logiciels professionnels. Nos résultats fournissent des perspectives importantes sur les limites des systèmes d'agents actuels et suggèrent des orientations clés pour la prochaine génération de recherche sur les agents GUI.
La mémoire externe ancre efficacement la réponse à des questions (QA) basée sur les grands modèles de langage (LLM) et les modèles vision-langage (VLM) dans des preuves multimodales pertinentes. Cependant, les paradigmes de mémoire existants représentent chaque élément mémorisé sous forme de texte brut et d’images, ce qui oblige les systèmes basés sur le rappel à transmettre le texte ou les images récupérés aux LLM/VLM de génération, entraînant une consommation élevée de jetons et une pression de stockage, les rendant inabordables pour les applications à ressources limitées. Nous proposons Latent Memory, un paradigme de mémoire dans l’espace latent qui remplace chaque preuve textuelle ou image brute par un unique jeton latent de haute dimension produit par un petit compresseur LLM/VLM. Plutôt que de récupérer des preuves brutes pour la génération, Latent Memory opère dans un espace de représentation latent unifié : la requête est plongée dans cet espace pour récupérer les jetons latents pertinents, et ces derniers sont directement utilisés comme prompt pour un LLM ou VLM pré-entraîné en vue de générer la réponse. Pour que chaque jeton latent soit simultanément informatif pour la reconstruction, le rappel et la génération, nous entraînons le compresseur avec des objectifs de reconstruction, contrastif et de distillation de manière unifiée de bout en bout. Latent Memory est évalué sur sept références de QA purement textuelles (par exemple HotpotQA) et des références de QA multimodales, où il atteint des performances compétitives en QA par rapport aux bases de référence RAG avancées tout en consommant 3 à 10 fois moins de jetons de générateur. Il offre également les meilleures performances de QA multimodale avec images sur WebQA. Le code est disponible à l’adresse https://github.com/zz1358m/Latent-Memory-Master.
Le fine-tuning supervisé par chaîne de pensée (CoT-SFT) est largement utilisé pour améliorer la capacité de raisonnement, mais nous constatons qu'il dégrade systématiquement le rappel en contexte long dans les modèles hybrides à attention linéaire. Sur différentes architectures, notamment HypeNet et Jet-Nemotron, les performances de recherche sur le benchmark Needle-In-A-Haystack (NIAH) se détériorent considérablement après CoT-SFT, et cette dégradation s'aggrave dans des conditions de recherche plus difficiles et avec des fenêtres de contexte plus longues. Par exemple, HypeNet-9B sur NIAH-S2@256K passe de 67,2% à 9,4%. Nous attribuons cela au fait que CoT-SFT biaise les gradients d'attention vers des motifs à courte portée, perturbant les projections requête-clé (W_Q, W_K) responsables du routage à longue portée. Motivés par cette observation, nous proposons QK-Restore, une méthode sans entraînement qui restaure uniquement W_Q et W_K à partir du point de contrôle antérieur à CoT-SFT, tout en conservant tous les autres paramètres post-SFT. Nous introduisons également une variante de Procruste pour équilibrer la préservation du routage et l'adaptation au raisonnement. Sur plusieurs architectures, QK-Restore rétablit systématiquement la capacité en contexte long sans coût d'entraînement, tout en préservant les performances de raisonnement ; par exemple, sur HypeNet-5B, il améliore S3@256K de 65,4% à 76,4% tout en maintenant des performances solides en raisonnement.
Les modèles de langage servent de plus en plus de base aux systèmes de synthèse vocale (text-to-speech, TTS), mais nous comprenons encore mal les représentations qu'ils construisent lorsque le texte et les jetons vocaux générés partagent un seul flux résiduel. Nous entraînons des autoencodeurs parcimonieux BatchTopK sur le backbone LM de CosyVoice3 et introduisons un pipeline d'auto-interprétation sensible à la modalité qui étiquette chaque caractéristique selon son contexte de déclenchement — contexte de préfixe textuel, clips vocaux d'une seconde, ou les deux. Les caractéristiques ainsi obtenues sont interprétables, couvrant les phonèmes, les rires, les invites d'accent et le genre du locuteur. Le pilotage dans l'espace latent de l'autoencodeur parcimonieux (SAE) montre que ces caractéristiques sont causales et non simplement descriptives : des interventions ciblées augmentent la probabilité de rire de 0,02 à 0,79, inversent le genre perçu du locuteur et contrôlent le débit de parole tout en préservant le contenu parlé. Les caractéristiques SAE servent donc à la fois d'objets d'interprétabilité et de directions de contrôle pour la synthèse TTS.
Les compétences des agents occupent une position privilégiée dans le flux de travail des agents, car ceux-ci sont censés les suivre et les exécuter implicitement, ce qui fait des compétences tierces une surface d'attaque vulnérable. Des études existantes ont révélé des comportements dangereux des agents induits par des attaques ciblant les compétences, mais elles évaluent principalement des compétences empoisonnées au sein d'une seule exécution de tâche et énumèrent les préjudices à l'aide de listes de risques ad hoc. Pour combler ces lacunes, nous introduisons SkillHarm, un banc d'essai d'attaques basées sur les compétences tout au long du cycle de vie de leur utilisation, associé à une taxonomie systématique des risques liés aux compétences. SkillHarm évalue deux scénarios d'attaque : l'empoisonnement à charge utile fixe (FPP), où un package de compétences empoisonné fixe compromet directement toute session de tâche qui l'invoque, et l'empoisonnement auto-mutant (SMP), où une exécution initialement bénigne mute silencieusement le contenu persistant de la compétence, différant le préjudice jusqu'à une réutilisation ultérieure. Il définit en outre 12 types de risques en fonction de la composante du flux de travail de l'agent ciblée par le préjudice : les pipelines de données, les environnements système et l'autonomie de l'agent. Pour instancier ces attaques à grande échelle, nous construisons AutoSkillHarm, un pipeline de construction automatisé avec des agents de codage pilotés par des harnais en langage naturel. Le banc d'essai résultant contient 879 échantillons d'attaque couvrant 71 compétences. Les expériences montrent que les agents actuels restent vulnérables avec des taux de succès d'attaque allant jusqu'à 86,3 % dans le cadre du FPP et 69,3 % dans celui du SMP. Notre analyse révèle en outre un risque latent : de nombreux échecs apparents d'attaque proviennent du fait que l'agent ne parvient pas à interagir avec le fichier empoisonné plutôt que d'une résistance réelle, et les défenses actuelles échouent encore à atténuer de manière fiable cette menace.
Les agents linguistiques s'appuient de plus en plus sur des compétences réutilisables pour améliorer l'automatisation web multi-étapes dans des tâches connexes. Un nombre croissant de travaux étudie l'apprentissage en ligne de compétences, où les agents induisent continuellement des compétences à partir de trajectoires de tâches antérieures et les réutilisent à la volée dans des tâches futures. Cependant, les méthodes existantes réutilisent principalement les compétences au niveau de la tâche : un ensemble fixe de compétences est récupéré en fonction de l'instruction initiale de la tâche, puis maintenu constant tout au long de l'exécution. Cette stratégie statique est inadaptée à l'exécution web, où l'action appropriée suivante ne dépend pas seulement de l'objectif de la tâche, mais aussi de l'état actuel de la page web, qui évolue souvent vers des situations que les compétences initiales ne parviennent pas à couvrir. Pour combler cette lacune, nous proposons la Récupération Dynamique Ancrée dans l'État (SGDR), une méthode d'apprentissage en ligne de compétences qui permet une réutilisation étape par étape des compétences pour les agents web. SGDR se compose de trois éléments : un processus d'extraction par fenêtre glissante qui transforme les trajectoires accomplies en sous-procédures réutilisables pouvant être invoquées à des états intermédiaires d'exécution, une représentation texte-code duale qui relie la récupération des compétences à l'action exécutable, et un mécanisme de récupération dynamique ancrée dans l'état qui fait correspondre les compétences à la fois à l'objectif de la tâche et à l'état actuel de la page web. Des expériences sur WebArena à travers cinq domaines montrent que SGDR surpasse systématiquement les bases de référence solides, atteignant des taux de succès moyens de 37,5 % avec GPT-4.1 et de 24,3 % avec Qwen3-4B, ce qui correspond à des gains relatifs de 10,6 % et 10,0 % par rapport à la meilleure base de référence, respectivement. Le code est disponible à l'adresse https://github.com/plusnli/skill-dynamic-retrieval.
À mesure que les modèles d'apprentissage profond passent à l'échelle, la gestion, l'inspection et la modification de grands points de contrôle deviennent de plus en plus complexes. Les chercheurs ont souvent besoin d'altérer les poids des modèles pour la restructuration de couches, le transtypage de précision, la factorisation de bas rang et le débogage architectural, mais ces processus reposent fréquemment sur des scripts ad hoc fragiles en Python. Nous présentons ici BrainSurgery, un outil pour une « chirurgie tensorielle » robuste et reproductible sur les points de contrôle de réseaux de neurones, et fournissons une démonstration du système couvrant quatre exemples et trois études de cas, allant du recyclage de modèles à l'extraction LoRA. En faisant abstraction des formats de stockage et de la gestion de la mémoire, BrainSurgery exécute des transformations complexes via des plans déclaratifs en YAML. Il prend en charge les modifications structurelles, les transformations mathématiques et le remodelage des tenseurs grâce à un ciblage structurel et par expressions régulières expressif, tandis que des assertions intégrées valident les formes, types de données et valeurs des tenseurs pour éviter les erreurs silencieuses. Nous envisageons que BrainSurgery fournira une base solide pour la recherche future grâce à ses opérations reproductibles et validées.
L'attribution de crédit au niveau des jetons demeure un obstacle majeur pour l'apprentissage par renforcement (RL) dans les grands modèles de langage (LLMs), où les recettes de RL traitent généralement tous les jetons de manière égale, échouant à distinguer les étapes de raisonnement décisives du formatage de routine ou des remplissages fluides. Des tentatives récentes exploitent les signaux internes des modèles pour attribuer un crédit plus fin, mais il s'agit souvent d'heuristiques ponctuelles qui ignorent la structure globale de la propagation de l'information. Nous proposons FlowTracer, un cadre de RL qui trace le flux de raisonnement ciblant la réponse sur un graphe orienté acyclique induit par l'attention, dans lequel les nœuds correspondent aux jetons et les capacités des arêtes proviennent des poids d'attention agrégés, et qui dérive le crédit des jetons à partir de cette structure globale. Les capacités des arêtes sont repondérées pour ne conserver que l'influence pouvant atteindre la région de la réponse, tout en imposant une conservation locale du flux afin que les jetons intermédiaires ne perdent ni ne gagnent de masse effective en raison de la longueur du chemin ou de branches non pertinentes. Sur ce graphe, FlowTracer extrait une colonne vertébrale de flux d'information reliant la question à la réponse et évalue les jetons en fonction du débit de flux, révélant des hubs à fort impact et des points de contrôle d'agrégation qui médiatisent les dépendances à longue portée. Ces importances dérivées sont utilisées pour façonner des récompenses au niveau des jetons, permettant aux signaux d'apprentissage de se concentrer précisément sur les jetons qui acheminent l'information vers (ou loin des) réponses correctes, et générant des gains de performance constants dans un éventail de tâches de raisonnement.
Les agents basés sur de grands modèles de langage (LLM) sont de plus en plus utilisés dans des environnements textuels interactifs, allant de la navigation web et de l'édition de code à l'utilisation d'outils et au dialogue à long terme. Pourtant, beaucoup restent largement réactifs, associant des observations à des actions sans modèle explicite de la manière dont ces environnements sont structurés et évoluent. Cela justifie le développement des modèles de monde textuel (TWMs) : des modèles de transition sur des états textuels qui, étant donné un état et une action candidate, prédisent la page web, la sortie terminale, la réponse API ou le retour utilisateur résultants, soutenant ainsi la planification, l'apprentissage efficace et l'évaluation rigoureuse. Nous examinons systématiquement les modèles de monde textuel pour les agents basés sur LLM, organisés autour d'un cadre formel et du cycle de vie des agents : (1) Fondements, définissant les modèles de monde textuel et les caractérisant par représentation d'état et domaine d'ancrage ; (2) Construction, taxinomisant les paradigmes LLM-en-tant-que-Monde et code-en-tant-que-Monde et passant en revue les méthodes pour les construire ; (3) Application, examinant comment les modèles de monde soutiennent les agents en phase d'entraînement par synthèse d'expérience et en phase d'inférence par planification, vérification et adaptation ; et (4) Évaluation, couvrant à la fois l'évaluation du modèle de monde lui-même et son utilisation comme environnement d'évaluation pour les agents. Nous visons à consolider ce domaine en plein essor, à clarifier son espace de conception et à souligner les défis ouverts pour les recherches futures.
Les agents de recherche approfondie suscitent un intérêt croissant de par leur capacité à collecter des informations en ligne à grande échelle pour acquérir des connaissances ciblées, les efforts récents se déplaçant d'une recherche purement textuelle vers des contextes multimodaux. Cependant, les workflows agentiques existants sont largement alignés sur les modèles d'accumulation de preuves, qui agrègent linéairement les informations et manquent de mécanismes fondés pour traiter les données contradictoires issues de modalités hétérogènes. Pour y remédier, nous proposons Struct-Searcher, un workflow agentique structurel ancré dans la théorie de la révision des croyances, qui maintient explicitement un graphe structurel multimodal en évolution tout au long du processus de raisonnement, permettant ainsi une recherche approfondie d'informations multimodales efficace et consciente des contradictions. Des expériences approfondies menées sur plusieurs ensembles de données de référence et modèles de base démontrent que Struct-Searcher est (1) prêt à l'emploi et indépendant du modèle, avec une amélioration moyenne de la précision relative de 17,2 % sur BrowseComp-VL pour cinq modèles de base différents ; (2) performant au plus haut niveau, surpassant systématiquement les modèles vision-langage (VLM) de pointe et les agents de recherche approfondie, avec des améliorations de la précision relative de 3,7 % sur MM-BrowseComp, 1,5 % sur HLE-VL et 0,7 % sur BrowseComp-VL par rapport à la deuxième meilleure approche concurrente.
Les grands modèles de langage (LLM) sont régulièrement confrontés à des requêtes qui devraient être refusées, créant un compromis entre l'utilité et la prévention des préjudices. Cependant, les refus eux-mêmes peuvent être utiles. Dans les interactions à haut risque impliquant une crise, une contrainte ou une intention croissante, un non-respect abrupt peut éviter un préjudice direct tout en échouant à soutenir les besoins de la personne derrière la requête. Nous présentons PsychoSafe, un cadre de refus psychologiquement informé qui reconceptualise le refus comme une communication structurée et solidaire, ancrée dans des stratégies d'intervention fondées sur des preuves. Pour développer PsychoSafe, nous avons construit un corpus de 8019 paires requête-réponse couvrant cinq domaines de risque psychologiquement saillants et avons appliqué un paramétrage par instructions et un ajustement fin efficace en paramètres sur Qwen 3.5 27B. Sur un ensemble de validation équilibré de 500 requêtes, évalué via un juge LLM et validé par des notations humaines, le paramétrage par instructions de PsychoSafe améliore la qualité globale du refus de 28,1 % par rapport à une ligne de base générique, avec des gains particulièrement importants dans l'orientation vers des ressources externes (+46,8 %) et l'ancrage psychologique (+34,8 %), tout en préservant les performances en aval sur des tâches ne nécessitant pas de refus. L'ajustement fin atteint des taux de refus et d'orientation vers des ressources presque parfaits, mais réduit la pertinence des réponses. Des évaluations supplémentaires sur SORRY-Bench et XSTest montrent une robustesse intra-domaine élevée mais une généralisation inter-domaine limitée, ce qui suggère que les travaux futurs devraient diversifier les données d'ajustement fin pour aider les modèles à appliquer les interventions de manière sélective plutôt que schématique.
Les modèles d'apprentissage profond existants pour le débruitage d'images de tomographie par émission de positons (TEP) souffrent souvent d'une sévère dégradation de leurs performances en présence de changements de distribution, ce qui limite fondamentalement leur déploiement clinique robuste. Ce manque de généralisation provient du paradigme conventionnel des modèles à paramètres fixes, qui ne peuvent pas s'adapter aux variations des données de test (par exemple, les niveaux de dose ou les types de scanners) après l'entraînement. Pour surmonter cette limitation et parvenir à une généralisation robuste, nous présentons U-TTT, un nouveau modèle en forme de U inté grant des couches d'Entraînement au Moment du Test (TTT) afin d'ajuster dynamiquement les paramètres du modèle lors de l'inférence par auto-supervision, s'adaptant ainsi aux caractéristiques spécifiques de chaque instance de test. De plus, pour capturer de manière exhaustive les dégradations complexes des données TEP 3D, U-TTT intègre un mécanisme d'adaptation bi-domaine comprenant une couche d'Entraînement au Moment du Test Spatial (S-TTT) et une couche d'Entraînement au Moment du Test Fréquentiel (F-TTT). La couche S-TTT capture et corrige les dégradations structurelles spatiales, tandis que la couche F-TTT supprime les spectres de bruit globaux et restaure les détails fins haute fréquence. Des expériences approfondies montrent que U-TTT atteint des performances de débruitage TEP de pointe et présente une généralisation supérieure face à des changements de distribution exigeants, incluant à la fois des niveaux de dose inédits et des scanners non rencontrés. Notre code sera disponible à l'adresse https://github.com/Yaziwel/U-TTT.
Des travaux antérieurs ont montré que le fine-tuning de grands modèles de langage sur des sorties malveillantes ou incorrectes dans des domaines restreints peut induire un désalignement étendu et un comportement nuisible, un phénomène connu sous le nom de désalignement émergent. Cependant, les méthodes efficaces pour inverser un tel désalignement restent limitées. Dans ce travail, nous apportons deux contributions. Premièrement, nous identifions le fine-tuning de sycophantisme, c'est-à-dire l'entraînement des modèles à acquiescer passivement aux opinions incorrectes des utilisateurs, comme un moteur auparavant sous-exploré du désalignement émergent, et montrons qu'il induit un comportement désaligné étendu et sévère. Deuxièmement, nous proposons Alignment Gating, une méthode efficace pour inverser le désalignement émergent qui insère des portes apprenables et contrôlables dans le modèle lors du fine-tuning. Grâce au fine-tuning, ces portes apprennent à identifier les représentations internes responsables des réponses non sûres. Ainsi, amplifier ou supprimer ces représentations exacerbe ou atténue respectivement le désalignement émergent (EM). Nous constatons en outre que le module d'Alignment Gating présente une forte généralisation : les poids des portes obtenus à partir d'un fine-tuning dans un domaine restreint suppriment substantiellement le comportement désaligné dans des domaines étendus tout en préservant les capacités générales du modèle.
La plupart des méthodes existantes de débruitage d'images TEP basées sur l'apprentissage profond supposent un facteur de réduction de dose (DRF) fixe et connu pour les images TEP à faible dose. Cependant, ces méthodes subissent une dégradation significative des performances lorsque le DRF varie au-delà de celui supposé dans les applications pratiques. Pour relever le défi posé par des DRF variés, plusieurs études préliminaires se concentrent sur la tâche de débruitage universel d'images TEP, visant à entraîner un modèle universel sur des données à faible dose à travers différents DRF. Néanmoins, ces modèles universels basiques peinent souvent à gérer les styles non alignés présents dans les données de différents DRF, ce qui conduit à un problème d'élimination du style avec un effet de sur-lissage important. Pour faire face à ce problème, nous introduisons de manière innovante la généralisation de domaine dans le débruitage d'images TEP et proposons un réseau universel de débruitage d'images TEP (UniPET) pour obtenir un débruitage de haute qualité à travers divers DRF. UniPET comprend deux innovations principales : un réseau d'alignement de style (SAN) et une stratégie d'apprentissage consciente des régions (RALS). Plus précisément, SAN utilise des techniques d'alignement de style issues de la généralisation de domaine pour aligner et récupérer les styles à travers différents DRF, garantissant la généralisabilité du modèle pour divers DRF tout en préservant efficacement les styles. De plus, pour améliorer la récupération du style, RALS distingue les régions plates des régions stylisées, en appliquant exclusivement un apprentissage antagoniste sur ces dernières, guidant ainsi plus efficacement l'attention du modèle vers l'apprentissage des régions stylisées. Il est démontré que notre UniPET proposé peut récupérer de manière adaptative les styles de différents DRF et réaliser un débruitage d'images TEP de haute qualité à travers les DRF. Des expériences approfondies montrent qu'UniPET présente des performances comparables à celles de modèles spécifiques à chaque DRF pour des DRF particuliers et atteint des performances de pointe en débruitage universel d'images TEP, tant sur le plan quantitatif, perceptif que clinique.
Les modèles génératifs vidéo sont devenus de plus en plus puissants, mais la cohérence à longue portée reste difficile à atteindre, car même quelques dizaines d’images nécessitent des longueurs de séquence de transformeurs irréalistes. Nous montrons que ce problème peut être atténué en générant des vidéos à l’aide d’un déploiement du grossier au fin dans un espace de jetons multi-échelle. Notre approche est simple : tout d’abord, nous pré-entraînons un auto-encodeur qui compresse chaque image en une hiérarchie de jetons, avec des niveaux allant de la résolution latente typique à seulement une poignée de jetons par image. Les niveaux les plus grossiers capturent les informations les plus importantes, telles que la disposition de la scène et la sémantique, tandis que les niveaux plus fins ajoutent l’apparence et la texture haute fréquence. Ensuite, nous entraînons un modèle de diffusion vidéo à générer ces jetons en utilisant un déploiement du grossier au fin. En contrôlant soigneusement le niveau de détail auquel les images sont générées et utilisées comme contexte lors de chaque étape de déploiement, nous parvenons à préserver la cohérence à longue portée en géométrie et la permanence des objets, tout en dépensant moins de calcul pour la cohérence à longue portée des détails moins pertinents sur le plan perceptif. Nous validons cette approche à l’aide d’un ensemble de données personnalisé de longues vidéos Minecraft, où elle produit des déploiements nettement plus cohérents par rapport aux méthodes de référence existantes.
Les systèmes multi-agents (SMA) construits sur de grands modèles de langage sont généralement organisés autour de rôles, de pipelines et de plannings de tours, tandis que le contenu que les agents se transmettent entre eux est souvent laissé sous forme de langage naturel non contraint. Cependant, cette communication libre peut rapidement gonfler l'utilisation de tokens, consommer la fenêtre de contexte partagée et, en fin de compte, affecter à la fois les performances du système et le coût d'inférence. Nous analysons cinq stratégies de communication inter-agents courantes dans deux topologies de SMA, et constatons qu'aucune stratégie fixe n'est universellement optimale. Au lieu de cela, les messages inter-agents efficaces préservent systématiquement les informations centrées sur l'action nécessaires aux agents en aval. Sur cette base, nous proposons le PACT (Protocolized Action-state Communication and Transmission), qui considère la communication inter-agents comme un problème de mise à jour d'état publique et projette chaque sortie brute d'agent dans un enregistrement d'état d'action compact avant qu'elle n'entre dans l'historique partagé. À travers différentes topologies de SMA, PACT améliore systématiquement le compromis performance-coût, obtenant des performances de tâche comparables ou supérieures avec nettement moins de tokens. Les gains s'étendent aux environnements de codage de production : PACT augmente le taux de résolution d'OpenHands avec 10 % de tokens en moins par résolu, et est neutre en résolution sur SWE-agent tout en réduisant de moitié les tokens d'entrée. Notre code est disponible publiquement à l'adresse https://github.com/iNLP-Lab/PACT.
La génération vidéo autorégressive est devenue un paradigme puissant pour les modèles d'action mondiale (World Action Models, WAMs). Cependant, les approches existantes souffrent d'une convergence d'apprentissage lente et d'une précision de convergence limitée, en particulier à des fréquences d'images élevées, car la supervision de l'apprentissage est confinée au segment actuel sans signaux explicites sur les dynamiques futures ; elles souffrent également d'une inférence lente en raison du débruitage vidéo itératif. Dans cet article, nous présentons Next Forcing, un cadre de prédiction multi-segment (MCP) pour la modélisation causale du monde qui permet un apprentissage plus rapide, une précision plus élevée et une inférence accélérée. Inspiré par la prédiction multi-token dans les grands modèles de langage, Next Forcing introduit un objectif d'apprentissage MCP qui augmente le modèle principal avec des modules MCP auxiliaires légers pour débruiter simultanément des segments vidéo à plusieurs horizons temporels futurs (segments next^1, next^2, next^3). Ces modules MCP forment une chaîne causale à travers les profondeurs de prédiction, où les caractéristiques intermédiaires fusionnées à partir de plusieurs couches du modèle principal sont utilisées pour prédire les dynamiques futures, permettant aux prédictions à court terme d'informer celles à plus long terme et fournissant une supervision temporelle multi-échelle dense en retour au modèle principal. Pendant l'apprentissage, les modules MCP accélèrent considérablement la convergence et améliorent la précision de convergence, en particulier à des fréquences d'images élevées : à 50 fps, Next Forcing atteint une amélioration relative de 93,1 % par rapport à LingBot-VA après 5 000 étapes d'apprentissage et une convergence 2,3 fois plus rapide, et établit de nouveaux résultats de pointe sur le benchmark RoboTwin (94,1 / 93,5 % sur Clean/Random). Lors de l'inférence, les modules MCP peuvent être conservés pour prédire le prochain segment vidéo en parallèle avec le segment actuel, réalisant une accélération de l'inférence de 2 fois. Next Forcing démontre également des améliorations significatives sur PhyWorld, un benchmark évaluant le respect des lois physiques dans la génération vidéo, et une réduction de plus de 50 % du FVD lors du pré-entraînement vidéo général.
La scalabilité des grands modèles de langage (LLM) pour les longs contextes est fondamentalement contrainte par la complexité quadratique de l'attention standard, ce qui motive l'adoption de mécanismes d'attention linéaire à coût sous-quadratique. Pour améliorer la capacité de représentation dans les contextes longs, des approches récentes organisent la mémoire de manière multi-état. Cependant, les méthodes existantes d'attention linéaire multi-état reposent sur des politiques de fusion d'états fixes, incapables de s'adapter à l'importance dynamique des tokens, obscurcissant irréversiblement les tokens critiques et provoquant une grave accumulation d'erreurs sur de longues séquences. Pour remédier à cette limitation, nous proposons DLA, un cadre de modélisation de mémoire dynamique pour l'attention linéaire multi-état. DLA introduit (i) la Fusion d'États Dynamique Sensible à l'Information, qui détermine de manière adaptative les frontières des états en fonction de la variation d'information au niveau des tokens, préservant des représentations à haute résolution autour des transitions sémantiques tout en résumant agressivement les régions stables, et (ii) la Modélisation de Mémoire à Capacité Limitée, qui maintient un cache d'états de taille fixe et ordonné chronologiquement en fusionnant sélectivement les états adjacents à faible information afin de contrôler la croissance de la mémoire avec une perte d'information minimale. Nous pré-entraînons DLA sur deux modèles d'attention linéaire distincts et l'évaluons sur 16 ensembles de données répartis dans trois catégories. Les résultats expérimentaux démontrent la supériorité de DLA par rapport à l'état de l'art.
Les politiques de contrôle continu expressives, telles que les modèles de diffusion et de flux, constituent le fondement des récentes avancées en matière de passage à l'échelle de l'apprentissage par imitation pour le contrôle de robots simulés et réels. Bien qu'elles soient connues pour s'adapter de manière stable dans le cadre de l'apprentissage par imitation supervisée, leur intégration dans les pipelines d'apprentissage par renforcement (RL) en vue d'une amélioration de la politique s'est avérée plus difficile. Cela nécessite souvent des objectifs d'entraînement spécialisés ou une rétropropagation à travers les processus de débruitage, ce qui entraîne des problèmes bien connus de stabilité et affecte l'évolutivité. Dans cet article, nous étudions la question de savoir si des schémas simples d'amélioration de la politique uniquement au moment du test, tout en laissant intact l'entraînement supervisé stable de la politique, peuvent constituer une alternative compétitive qui contourne ces problèmes. À cette fin, nous proposons QGF (Flux Guidé par Q), un algorithme de RL qui réalise l'optimisation de la politique entièrement au moment du test. QGF fonctionne en pré-entraînant à la fois une politique de flux de référence (via un objectif standard de clonage comportemental) et un critique de fonction de valeur, et, au moment du test, utilise le gradient de valeur pour guider la politique de référence afin de générer des actions de plus grande valeur sans aucun apprentissage supplémentaire de la politique. Empiriquement, QGF surpasse les méthodes de RL au moment du test antérieures sur des benchmarks d'apprentissage par renforcement hors ligne à tâche unique et conditionnés par un objectif, avec des espaces d'action de grande dimension, et se montre compétitif avec les algorithmes à la pointe de la technologie qui s'entraînent au moment de l'apprentissage, tout en étant beaucoup moins coûteux à exécuter. De plus, il présente un passage à l'échelle favorable avec la taille du modèle en évitant l'instabilité de l'entraînement acteur-critique, offrant ainsi une alternative pratique et efficace aux algorithmes de RL utilisant des politiques expressives.
Les modèles de langage multimodaux à grande échelle (MLLMs) héritent généralement de l'architecture Transformer profonde et symétrique conçue pour la modélisation de texte unimodale, et appliquent le même calcul de manière uniforme aux tokens d'image et de langage. Cette conception néglige une asymétrie de modalité clé : les tokens d'image et de texte diffèrent considérablement en densité d'information, en redondance et en profondeur de raisonnement requise. Grâce à une analyse couche par couche de LLaVA-1.5, nous observons que les tokens visuels ont tendance à saturer dans les couches intermédiaires. Plus précisément, l'attention texte-image diminue de 0,68 à la couche 0 à 0,07 à la couche 4, et se stabilise près de 0,04 après la couche 18, tandis que les tokens de texte continuent de bénéficier d'un traitement sémantique profond. Ces résultats suggèrent un décalage entre la symétrie architecturale et l'évolution asynchrone en profondeur des modalités, entraînant un calcul visuel redondant et une possible dérive des représentations perceptuelles lors de l'adaptation profonde spécifique à une tâche. Motivés par cela, nous proposons le Routage de Tokens Visuels à Double Voie (DPVR), un cadre de routage asymétrique selon la modalité pour des MLLMs efficaces. Son instanciation centrale, DPVR-LF (Fusion en Couches Tardives), achemine les tokens visuels au point de saturation vers une branche latérale entraînable d'une couche, exécute un passage avant de treize couches uniquement textuel qui saute les positions d'image dans la pile profonde, et re-fusionne les flux visuels et textuels uniquement à la dernière couche. Avec environ 3% de paramètres entraînables, DPVR-LF préserve des performances multimodales compétitives sur les bancs d'essai standard tout en réduisant le calcul visuel dans la pile Transformer profonde. Les résultats remettent en question l'hypothèse conventionnelle selon laquelle les tokens visuels doivent traverser toutes les couches profondes du modèle de langage, et indiquent qu'une seule couche de fusion tardive peut être suffisante pour maintenir une forte compétence perceptuelle dans les MLLMs de type LLaVA.
Un mode de défaillance croissant dans l'évaluation et l'entraînement des agents est que les modèles peuvent obtenir des scores d'évaluation élevés en exploitant des raccourcis plutôt qu'en résolvant la tâche prévue, produisant ainsi une performance trompeuse. Cela rend les scores d'évaluation peu fiables en tant que mesures de la véritable capacité à résoudre les tâches. Nous proposons CapCode, un cadre pour construire des ensembles de données de codage avec des tests randomisés dont la meilleure performance sans tricherie réalisable est délibérément plafonnée en dessous de un. Cette conception à performance plafonnée donne une interprétation plus claire aux scores d'évaluation : des scores nettement supérieurs au plafond sont invraisemblables et fournissent donc une preuve de tricherie. Pour prévenir la tricherie, nous proposons CapReward, une conception de récompense basée sur le principe CapCode afin de décourager l'optimisation au-delà du plafond. Des expériences menées sur plusieurs ensembles de données montrent que CapCode détecte la tricherie tout en préservant le classement des performances des modèles, et que CapReward réduit les comportements de tricherie, produisant des modèles qui suivent mieux la spécification de tâche prévue.
Les grands modèles de langage fondationnels (LLMs) démontrent des compétences dans un large éventail de tâches générales et obtiennent des résultats remarquables sur diverses tâches spécialisées via des LLMs experts de domaine. Face à la liste toujours croissante de LLMs disponibles, des routeurs d'inférence sont proposés pour sélectionner le LLM le plus approprié pour chaque requête. Cependant, les méthodes de routage existantes optimisent soit le coût entre des LLMs généralistes de forces variables, soit nécessitent un entraînement conséquent pour prendre en charge le routage par expertise de domaine. Dans cet article, nous proposons IR3DE, un routeur basé sur la régression Ridge pour experts de domaine, qui fournit des décisions de routage rapides et peu coûteuses pour chaque requête. Nous évaluons IR3DE dans deux configurations de modélisation causale du langage (CLM) où les tâches sont la prédiction du prochain jeton pour tous les domaines, et une configuration de raisonnement où chaque domaine possède sa propre tâche de raisonnement distincte. Bien qu'il s'agisse d'un routeur linéaire, IR3DE atteint des performances comparables aux autres références dans les deux configurations CLM, et les dépasse dans la configuration de raisonnement, avec une performance normalisée de 98,4 %. De plus, IR3DE permet l'ajout ou le retrait de nouveaux experts de domaine sans nécessiter un réentraînement complet du routeur, autorisant ainsi un ensemble dynamique de LLMs à être servi avec une perturbation minimale du routeur lui-même. Notre code est disponible à l'adresse : github.com/gensyn-ai/IR3DE.
Conditionner un modèle de langage sur un contexte supplémentaire, tel qu'un retour sur une tentative précédente, améliore généralement ses réponses. L'auto-distillation entraîne le modèle à conserver cette amélioration lorsque le contexte est absent. La méthode fonctionne en faisant correspondre la distribution de sortie du modèle dans deux configurations : un étudiant qui ne voit que la question, et un auto-enseignant qui voit également le contexte. Ce que le modèle apprend dépend donc du contexte que reçoit l'auto-enseignant, pourtant la conception de ce contexte reste largement inexplorée. Nous étudions la conception du contexte pour l'auto-distillation en entraînant un solveur à partir d'un retour d'un critique figé. Nous comparons trois conditions : (i) une récompense binaire (GRPO), (ii) la solution de référence, et (iii) une critique étape par étape alignée sur la trace de raisonnement du solveur. La critique alignée sur les étapes produit les gains les plus importants, surpassant GRPO de 16,11 points et l'auto-distillation conditionnée par la solution de référence de 5,27 points (Avg@12). L'analyse des avantages par jeton en révèle la raison : le retour aligné sur les étapes cible uniquement les jetons où le raisonnement échoue, laissant intact le comportement correct. En revanche, le conditionnement sur la solution de référence pousse le modèle à modifier son comportement à chaque jeton (y compris les étapes correctes), car une dérivation alternative diffère inévitablement dans sa formulation et son approche. Cela suggère que l'alignement structurel entre le retour et le raisonnement du solveur est un facteur clé de l'efficacité de l'auto-distillation.
Les retours d’experts expérimentés sont essentiels pour permettre aux jeunes chercheurs d’améliorer leurs manuscrits, mais les retours de qualité restent souvent rares car l’évaluation d’articles de recherche demande beaucoup de travail. Les assistants d’écriture basés sur l’IA se concentrent principalement sur des corrections grammaticales ou la simulation d’une relecture par les pairs avec des notes finales, mais ils ne fournissent pas de suggestions concrètes et exploitables pour aider les étudiants à améliorer leurs articles pendant la phase de rédaction. Nous présentons PaperMentor, un système d’assistant d’écriture centré sur l’humain qui fournit des suggestions exploitables sous forme de commentaires en ligne natifs d’Overleaf, tout en laissant l’écriture réelle entièrement aux auteurs humains. PaperMentor intègre une bibliothèque de compétences expertes soigneusement élaborée à partir des conseils d’écriture de chercheurs établis, avec 12 agents spécialisés couvrant différents aspects de la rédaction d’articles, tels que la conformité à la mise en forme, la précision de la formulation et la cohérence terminologique. Lors d’une étude utilisateur (n=14), 90,6 % des commentaires générés ont été jugés exploitables et 67,5 % valides, surpassant significativement une référence GPT-5.2 sans la bibliothèque de compétences. Nous publions PaperMentor en open source pour un usage public. Notre code est disponible publiquement sous licence AGPL-3.0 à l’adresse https://github.com/jiarui-liu/overleaf.
Les échecs des modèles de raisonnement multi-tours sont largement invisibles lors de l'évaluation par score terminal. Un modèle peut se fixer sur une position dangereuse dès le début d'un long dialogue, tandis que son taux de refus au dernier tour peut sembler indistinguable d'une référence robuste alignée. Pour révéler ces dynamiques temporelles cachées, nous proposons un diagnostic au niveau des traces — la matrice de sécurité CoT-Output 2x2. Ce cadre étiquette chaque tour selon deux axes indépendants (raisonnement interne et sortie visible), produisant quatre cellules d'échec définies opérationnellement : alignement robuste, simulation d'alignement, jailbreak manifeste, et un mode d'échec distinct que nous appelons échec par injection de contexte (où le CoT maintient un raisonnement sûr, mais la sortie visible produit du tort, soulignant une manifestation multi-tours d'infidélité du raisonnement). Nous évaluons trois cibles de raisonnement distillé contre un attaquant fixe dans cinq conditions de supervision, collectant 6 750 observations au niveau des tours sur le scénario Information-Hazard. Notre analyse révèle deux vulnérabilités reproductibles : un paradoxe de supervision où des indices de surveillance explicites augmentent paradoxalement les taux de simulation d'alignement au lieu de les supprimer, et un échec par injection de contexte où les modèles se fixent sur des sorties externes dangereuses malgré des états internes sûrs. Nous publions l'ensemble complet des dialogues multi-tours et des traces CoT pour soutenir les recherches ultérieures de diagnostic par traces.
Les systèmes multi-agents (SMA) peuvent passer à l'échelle le raisonnement des grands modèles de langage au moment du test en décomposant les problèmes complexes en sous-tâches parallèles. Cependant, la plupart des SMA existants reposent sur une orchestration centralisée, où un agent principal assigne le travail, collecte les sorties et fusionne les résultats. À mesure que le nombre de sous-tâches augmente, ce contrôleur devient un goulot d'étranglement en matière de communication et d'intégration. Nous proposons DeLM (Decentralized Language Models), un cadre SMA qui décentralise la coordination via des agents parallèles, un contexte vérifié partagé et une file d'attente de tâches. Les agents revendiquent de manière asynchrone les sous-tâches, lisent la progression accumulée, effectuent un raisonnement local et écrivent des mises à jour vérifiées compactes. Le contexte partagé agit comme un substrat de communication commun, permettant aux agents de s'appuyer sur les progrès vérifiés des uns et des autres sans acheminer chaque mise à jour via un contrôleur central. Empiriquement, DeLM améliore à la fois le passage à l'échelle du raisonnement au moment du test en génie logiciel et le raisonnement sur de longs contextes. Sur SWE-bench Verified, DeLM atteint les meilleures performances en Avg.@1, Pass@2 et Pass@4, avec des gains allant jusqu'à 10,5 points de pourcentage par rapport à la baseline la plus forte, tout en réduisant le coût par tâche d'environ 50 %. Sur LongBench-v2 Multi-Doc QA, DeLM atteint la précision moyenne la plus élevée parmi quatre familles de modèles de pointe, améliorant la baseline la plus forte de jusqu'à 5,7 points de pourcentage. Le code est disponible sur notre site web du projet à l'adresse https://yuzhenmao.github.io/DeLM/.
La sécurité des grands modèles de langage (LLM) a souvent été évaluée au niveau comportemental, ce qui ne fournit qu'une preuve limitée de leur robustesse interne, car ces évaluations ciblent les résultats plutôt que la vulnérabilité au niveau des représentations sous intervention. Nous formalisons ce décalage comme le fossé d'audit (audit gap) : la différence entre la sécurité comportementale et la robustesse sous intervention. Pour étudier ce fossé, nous construisons des modèles dissociés qui conservent un comportement externe sûr tout en restant vulnérables dans l'espace latent. Nous introduisons un cadre d'évaluation basé sur les interventions pour tester la robustesse des modèles via des interventions douces (soft interventions) dans les espaces de paramètres et latents, incluant le fine-tuning nuisible et les perturbations latentes par couche. Pour formaliser l'évaluation, nous proposons le score de vulnérabilité latente (Latent Vulnerability Score, LVS) afin de mesurer la facilité avec laquelle un comportement nuisible peut être suscité par des perturbations latentes bornées. En utilisant ce cadre d'évaluation, nous montrons que les métriques de sécurité comportementale sont insuffisantes pour mesurer la robustesse au niveau des représentations à travers plusieurs modèles de pointe alignés de manière sûre et non sûre. Notamment, les modèles dissociés présentent des LVS considérablement élevés malgré un comportement de refus comparable sous intervention nuisible, les représentations intermédiaires étant les plus sensibles aux interventions. Nos résultats suggèrent que l'évaluation de la sécurité comportementale seule fournit une image incomplète de la robustesse des modèles, motivant des audits sensibles aux représentations de la vulnérabilité latente et du comportement observable.
Les générateurs vidéo autorégressifs synthétisent de longues vidéos en générant des segments temporels successifs, mais leur cache KV historique croît avec la longueur de la vidéo. Les méthodes existantes à cache limité réduisent ce coût grâce à des fenêtres locales, des jetons puits ou des états mémoire compressés, mais elles attribuent généralement des rôles fixes à différentes parties de l'historique. Nous proposons FadeMem, un mécanisme de consolidation de mémoire KV sensible à la distance qui organise les blocs KV historiques en une hiérarchie temporelle sous un budget de cache fixe. Cette conception est motivée par une décroissance temporelle dépendante de la fréquence : les détails fins se décorrèlent rapidement, tandis que la structure grossière de la scène et l'identité restent utiles sur des horizons plus longs. Pendant la génération, les nouvelles entrées historiques sont insérées comme des éléments fins, tandis que les entrées adjacentes plus anciennes sont progressivement fusionnées selon un plan d'allocation temporelle en loi de puissance, produisant une mémoire dense pour le proche et éparse pour le lointain au sein d'un seul cache. Sans modification architecturale, FadeMem préserve le contexte récent pour la dynamique à court terme et des ancres compactes à longue portée pour la cohérence de l'identité et de la scène. Les expériences montrent une amélioration de la cohérence du sujet, de la stabilité de l'arrière-plan et de la cohérence temporelle par rapport aux stratégies existantes à cache limité.
L'apprentissage par instances multiples (Multiple Instance Learning, MIL) aborde les problèmes où la supervision est disponible au niveau des sacs d'instances et a été appliqué avec succès dans des domaines allant de la pathologie computationnelle à l'imagerie satellitaire. Néanmoins, les algorithmes existants peinent dans le régime de faible nombre d'étiquettes qui caractérise de nombreuses applications réelles. Les modèles flexibles surajustent les données tandis que les modèles rigides échouent à s'adapter à la tâche considérée. Nous montrons que le pré-entraînement d'un apprenant contextuel doté d'une architecture de type Perceiver sur des données synthétiques produit un modèle capable de résoudre de nouvelles tâches à partir d'une poignée de sacs étiquetés. Lors de l'inférence, la classification s'effectue en un seul passage avant et ne nécessite aucune mise à jour de gradient. Nous proposons et étudions différents générateurs de données synthétiques pour des données structurées en sacs, et constatons qu'ils capturent des biais inductifs complémentaires. Un modèle pré-entraîné sur un mélange de ces générateurs hérite de leurs forces respectives selon la tâche et atteint la meilleure performance moyenne sur douze bancs d'essai MIL, surpassant les références supervisées qui nécessitent un entraînement spécifique à chaque tâche.
Les grands modèles de langage (LLMs) participent de plus en plus à des conversations sociales émotionnellement sensibles, où les réponses peuvent passer d'un soutien équilibré à une validation excessive ou à un alignement escalatoire. Les recherches existantes sur la sycophantie se concentrent principalement sur l'accord factuel et les contextes de suivi d'instructions, laissant inexplorée la sycophantie conversationnelle ancrée culturellement. Nous présentons BenSyc, le premier benchmark dédié à l'étude de la sycophantie conversationnelle dans les contextes sociaux bengalis. À partir de 11 840 publications Reddit et 170 000 commentaires collectés dans des communautés du Bangladesh et du Bengale-Occidental, nous construisons un benchmark validé par des humains, comprenant des étiquettes binaires et une taxonomie fine à cinq niveaux couvrant l'Invalidation, le Neutre, le Soutien, la Validation et l'Escalade. Nous évaluons plus de 15 LLMs ouverts et propriétaires sur des tâches de classification d'alignement conversationnel et de génération de réponses. Les résultats montrent que distinguer le soutien empathique de la validation orientée vers le renforcement reste difficile, même pour les modèles de pointe ajustés par instructions : le meilleur système atteint seulement 61,8 Macro-F1 en détection binaire et 61,7 Macro-F1 en classification à cinq classes. Dans les contextes de génération, plusieurs modèles produisent fréquemment des réponses fortement validantes ou escalatoires dans des situations chargées émotionnellement. Nos résultats mettent en évidence des variations substantielles entre les familles de modèles et les comportements conversationnels, soulignant l'importance de benchmarks multilingues ancrés culturellement pour évaluer les systèmes d'IA conversationnelle socialement alignés.