papers.description
Les bancs d'essai existants pour les agents de modèles de langage de grande taille (LLM) se concentrent sur l'accomplissement de tâches dans des conditions idéales, mais négligent la fiabilité dans des applications réalistes destinées aux utilisateurs finaux. Dans des domaines comme les assistants vocaux embarqués, les utilisateurs formulent souvent des requêtes incomplètes ou ambiguës, créant une incertitude intrinsèque que les agents doivent gérer par le dialogue, l'utilisation d'outils et le respect de politiques opérationnelles. Nous présentons CAR-bench, un banc d'essai conçu pour évaluer la cohérence, la gestion de l'incertitude et la conscience des capacités des agents LLM utilisant des outils dans un scénario d'assistant embarqué à tours de rôle. L'environnement comprend un utilisateur simulé par un LLM, des politiques de domaine et 58 outils interconnectés couvrant la navigation, la productivité, la recharge et le contrôle du véhicule. Au-delà de l'accomplissement standard des tâches, CAR-bench introduit des tâches d'Hallucination qui testent la conscience des limites de l'agent face à des outils ou informations manquants, et des tâches de Désambiguïsation qui exigent de résoudre l'incertitude par clarification ou collecte d'informations internes. Les résultats de référence révèlent d'importants écarts entre une réussite occasionnelle et une réussite constante sur tous les types de tâches. Même les LLM de pointe spécialisés en raisonnement obtiennent un taux de réussite constant inférieur à 50 % sur les tâches de Désambiguïsation en raison d'actions prématurées, et violent fréquemment les politiques ou inventent des informations pour satisfaire les requêtes utilisateur dans les tâches d'Hallucination, soulignant le besoin d'agents LLM plus fiables et conscients de leurs limites dans des contextes réels.
Alors que les modèles de langage de grande taille (LLM) évoluent vers des agents autonomes, leur applicabilité dans le monde réel s'est considérablement élargie, accompagnée de nouveaux défis en matière de sécurité. La plupart des mécanismes de défense existants pour les agents adoptent un paradigme de vérification obligatoire, où la validation de sécurité est déclenchée de force à des étapes prédéfinies du cycle de vie de l'agent. Dans ce travail, nous soutenons qu'une sécurité efficace des agents devrait être intrinsèque et sélective plutôt qu'architecturalement découplée et obligatoire. Nous proposons le framework Spider-Sense, un framework de défense événementiel basé sur la Détection Intrinsèque des Risques (IRS), qui permet aux agents de maintenir une vigilance latente et de ne déclencher les défenses qu'en cas de perception d'un risque. Une fois déclenché, le Spider-Sense invoque un mécanisme de défense hiérarchique qui arbitre entre efficacité et précision : il résout les schémas connus via un appariement de similarité léger tout en escaladant les cas ambigus vers un raisonnement interne profond, éliminant ainsi la dépendance à des modèles externes. Pour faciliter une évaluation rigoureuse, nous introduisons S²Bench, un benchmark sensible au cycle de vie intégrant une exécution réaliste d'outils et des attaques multi-étapes. Des expériences approfondies démontrent que Spider-Sense atteint des performances défensives compétitives ou supérieures, obtenant le Taux de Réussite d'Attaque (ASR) et le Taux de Faux Positifs (FPR) les plus bas, avec seulement une surcharge de latence marginale de 8,3 %.
Les applications récentes de l'apprentissage par renforcement avec récompenses vérifiables (RLVR) aux grands modèles de langage (LLM) et aux modèles vision-langage (VLM) ont démontré un succès significatif dans l'amélioration des capacités de raisonnement pour des tâches complexes. Durant l'entraînement RLVR, l'augmentation de la longueur des réponses est souvent considérée comme un facteur clé contribuant à la croissance de la capacité de raisonnement. Cependant, les profils d'évolution de la longueur des réponses varient considérablement selon les différents algorithmes RLVR au cours du processus d'entraînement. Pour fournir une explication fondamentale à ces variations, cet article procède à une analyse approfondie des composants des algorithmes RLVR dominants. Nous présentons une analyse théorique des facteurs influençant la longueur des réponses et validons notre théorie par des expérimentations approfondies. Sur la base de ces résultats théoriques, nous proposons l'algorithme d'optimisation de politique de séquence non biaisée par la longueur (LUSPO). Plus précisément, nous corrigeons le biais de longueur inhérent à l'optimisation de politique de séquence par groupe (GSPO), rendant sa fonction de perte non biaisée par rapport à la longueur des réponses et résolvant ainsi le problème de l'effondrement de la longueur des réponses. Nous menons des expériences approfondies sur des benchmarks de raisonnement mathématique et des scénarios de raisonnement multimodal, où LUSPO atteint constamment des performances supérieures. Les résultats empiriques démontrent que LUSPO représente une nouvelle stratégie d'optimisation de pointe par rapport aux méthodes existantes telles que GRPO et GSPO.
La plupart des systèmes de mémoire des agents à modèle de langage (LLM) reposent sur un petit ensemble d'opérations statiques et prédéfinies pour extraire les souvenirs. Ces procédures figées intègrent de manière rigide des préconceptions humaines sur ce qu'il faut stocker et comment réviser la mémoire, les rendant peu flexibles face à des schémas d'interaction diversifiés et inefficaces sur de longues histoires. Pour pallier cela, nous présentons MemSkill, qui reformule ces opérations en compétences mémorielles apprenables et évolutives, c'est-à-dire des routines structurées et réutilisables pour extraire, consolider et élaguer l'information à partir des traces d'interaction. S'inspirant de la philosophie de conception des compétences d'agents, MemSkill utilise un contrôleur qui apprend à sélectionner un petit ensemble de compétences pertinentes, couplé à un exécuteur basé sur un LLM qui produit des souvenirs guidés par ces compétences. Au-delà de l'apprentissage de la sélection des compétences, MemSkill introduit un concepteur qui examine périodiquement les cas difficiles où les compétences sélectionnées produisent des souvenirs incorrects ou incomplets, et fait évoluer l'ensemble des compétences en proposant des améliorations et de nouvelles compétences. Ensemble, MemSkill forme une procédure en boucle fermée qui améliore à la fois la politique de sélection des compétences et l'ensemble des compétences lui-même. Les expériences sur LoCoMo, LongMemEval, HotpotQA et ALFWorld démontrent que MemSkill améliore les performances des tâches par rapport à des bases de référence solides et généralise bien across différents contextes. Des analyses plus poussées éclairent la manière dont les compétences évoluent, offrant des perspectives vers une gestion de mémoire plus adaptative et auto-évolutive pour les agents LLM.
Les approches récentes de génération de vidéos longues en temps réel emploient généralement des stratégies d'ajustement séquentiel, tentant d'entraîner un étudiant à long contexte à l'aide d'un enseignant à court contexte (sans mémoire). Dans ces cadres, l'étudiant effectue des déroulements longs mais reçoit une supervision d'un enseignant limité à de courtes fenêtres de 5 secondes. Cette divergence structurelle crée un décalage critique entre l'étudiant et l'enseignant : l'incapacité de l'enseignant à accéder à l'historique à long terme l'empêche de guider l'étudiant sur les dépendances temporelles globales, limitant effectivement la longueur de contexte de l'étudiant. Pour résoudre ce problème, nous proposons Context Forcing, un cadre novateur qui entraîne un étudiant à long contexte via un enseignant à long contexte. En veillant à ce que l'enseignant ait connaissance de l'historique complet de la génération, nous éliminons le décalage de supervision, permettant l'entraînement robuste de modèles capables d'une cohérence à long terme. Pour rendre cela réalisable sur le plan computationnel pour des durées extrêmes (par exemple, 2 minutes), nous introduisons un système de gestion de contexte qui transforme le contexte à croissance linéaire en une architecture de Mémoire Lente-Rapide, réduisant significativement la redondance visuelle. Des résultats approfondis démontrent que notre méthode permet des longueurs de contexte effectives dépassant 20 secondes – 2 à 10 fois plus longues que les méthodes de pointe comme LongLive et Infinite-RoPE. En tirant parti de ce contexte étendu, Context Forcing préserve une cohérence supérieure sur de longues durées, surpassant les bases de référence de l'état de l'art sur diverses métriques d'évaluation de vidéos longues.
Si les modèles génératifs vidéo ont atteint une fidélité visuelle remarquable, leur capacité à internaliser et à raisonner sur les règles implicites du monde reste une frontière cruciale mais encore peu explorée. Pour combler cette lacune, nous présentons RISE-Video, un benchmark pionnier axé sur le raisonnement pour la synthèse Texte-Image-vers-Vidéo (TI2V), qui déplace l'évaluation de l'esthétique de surface vers le raisonnement cognitif profond. RISE-Video comprend 467 échantillons méticuleusement annotés par des humains, couvrant huit catégories rigoureuses, offrant ainsi un banc d'essai structuré pour sonder l'intelligence des modèles sur des dimensions variées, allant du bon sens et de la dynamique spatiale à des domaines spécialisés. Notre cadre introduit un protocole d'évaluation multidimensionnel composé de quatre métriques : l'Alignement du Raisonnement, la Cohérence Temporelle, la Rationalité Physique et la Qualité Visuelle. Pour soutenir davantage l'évaluation scalable, nous proposons un pipeline automatisé exploitant les Grands Modèles Multimodaux (LMMs) pour imiter l'évaluation centrée sur l'humain. Des expériences approfondies sur 11 modèles TI2V de pointe révèlent des déficiences généralisées dans la simulation de scénarios complexes sous contraintes implicites, offrant des insights critiques pour le progrès des futurs modèles génératifs simulant le monde.
Les interventions proactives par les modèles critiques de LLM sont souvent supposées améliorer la fiabilité, mais leurs effets au moment du déploiement sont mal compris. Nous montrons qu'un critique binaire de LLM avec une forte précision hors ligne (AUROC 0,94) peut néanmoins entraîner une dégradation sévère des performances, provoquant un effondrement de 26 points de pourcentage (pp) sur un modèle tandis qu'un autre est affecté de près de zéro pp. Cette variabilité démontre que la seule précision du critique de LLM est insuffisante pour déterminer si l'intervention est sûre. Nous identifions un compromis perturbation-rétablissement : les interventions peuvent récupérer des trajectoires défaillantes mais aussi perturber des trajectoires qui auraient réussi. Sur cette base, nous proposons un test pré-déploiement utilisant un petit pilote de 50 tâches pour estimer si l'intervention est susceptible d'aider ou de nuire, sans nécessiter un déploiement complet. Sur divers benchmarks, le test anticipe correctement les résultats : l'intervention dégrade les performances sur les tâches à haut taux de succès (0 à -26 pp), tout en produisant une amélioration modeste sur le benchmark ALFWorld à haut taux d'échec (+2,8 pp, p=0,014). La valeur principale de notre cadre est donc d'identifier quand ne pas intervenir, évitant ainsi des régressions sévères avant le déploiement.
Les agents basés sur les grands modèles de langage (LLM) existants peinent dans les environnements interactifs nécessitant une planification à long terme, principalement en raison d'erreurs qui s'accumulent lors de la simulation des états futurs. Pour résoudre ce problème, nous proposons ProAct, un cadre qui permet aux agents d'intérioriser un raisonnement prospectif précis grâce à un paradigme d'entraînement en deux étapes. Premièrement, nous introduisons la *Grounded LookAhead Distillation* (GLAD), où l'agent subit un affinage supervisé sur des trajectoires issues d'une recherche basée sur l'environnement. En compressant des arbres de recherche complexes en chaînes de raisonnement causales et concises, l'agent apprend la logique de l'anticipation sans la surcharge computationnelle d'une recherche lors de l'inférence. Deuxièmement, pour affiner davantage la précision décisionnelle, nous proposons le *Monte-Carlo Critic* (MC-Critic), un estimateur de valeur auxiliaire prêt à l'emploi conçu pour améliorer les algorithmes de politique à base de gradients comme PPO et GRPO. En tirant parti de légères simulations de l'environnement pour calibrer les estimations de valeur, le MC-Critic fournit un signal à faible variance qui facilite une optimisation stable des politiques sans dépendre d'une approximation de valeur basée sur un modèle coûteuse. Les expériences sur des environnements stochastiques (par exemple, 2048) et déterministes (par exemple, Sokoban) démontrent que ProAct améliore significativement la précision de la planification. Fait notable, un modèle de 4 milliards de paramètres entraîné avec ProAct surpasse toutes les solutions de référence open-source et rivalise avec les modèles closed-source de pointe, tout en démontrant une généralisation robuste à des environnements non vus. Les codes et modèles sont disponibles à l'adresse https://github.com/GreatX3/ProAct.
La qualité des noyaux de calcul est cruciale pour les systèmes d'IA évolutifs, et permettre aux LLMs de générer un tel code ferait progresser le développement de l'IA. Cependant, l'entraînement des LLMs pour cette tâche nécessite des données suffisantes, un environnement robuste, et le processus est souvent vulnérable au détournement des récompenses (reward hacking) et à l'optimisation paresseuse (lazy optimization). Dans ces cas, les modèles peuvent détourner les récompenses d'entraînement et privilégier une exactitude triviale plutôt qu'une accélération significative. Dans cet article, nous étudions systématiquement l'apprentissage par renforcement (RL) pour la génération de noyaux. Nous concevons d'abord KernelGYM, un environnement distribué robuste sur GPU qui prend en charge la détection du détournement des récompenses, la collecte de données à partir d'interactions multi-tours et l'entraînement RL à long terme. En nous appuyant sur KernelGYM, nous étudions des méthodes RL multi-tours efficaces et identifions un problème de biais dans le gradient de politique causé par l'auto-inclusion dans GRPO. Pour résoudre ce problème, nous proposons Turn-level Reinforce-Leave-One-Out (TRLOO) pour fournir une estimation non biaisée de l'avantage pour le RL multi-tours. Pour atténuer l'optimisation paresseuse, nous intégrons une correction de décalage (mismatch correction) pour la stabilité de l'entraînement et introduisons les Récompenses Basées sur le Profilage (PR) et l'Échantillonnage par Rejet Basé sur le Profilage (PRS) pour surmonter le problème. Le modèle entraîné, Dr.Kernel-14B, atteint des performances compétitives avec Claude-4.5-Sonnet sur KernelBench. Enfin, nous étudions la mise à l'échelle séquentielle en phase de test (sequential test-time scaling) pour Dr.Kernel-14B. Sur le sous-ensemble KernelBench Level-2, 31,6 % des noyaux générés atteignent au moins une accélération de 1,2x par rapport à la référence Torch, surpassant Claude-4.5-Sonnet (26,7 %) et GPT-5 (28,6 %). En sélectionnant le meilleur candidat parmi tous les tours, ce taux d'accélération de 1,2x augmente encore pour atteindre 47,8 %. Toutes les ressources, y compris l'environnement, le code d'entraînement, les modèles et le jeu de données, sont disponibles sur https://www.github.com/hkust-nlp/KernelGYM.
Les grands modèles de langage (LLM) autorégressifs offrent des performances solides mais nécessitent un décodage intrinsèquement séquentiel, entraînant une latence d'inférence élevée et une faible utilisation des GPU. Le décodage spéculatif atténue ce goulot d'étranglement en utilisant un modèle de brouillon rapide dont les sorties sont vérifiées en parallèle par le LLM cible ; cependant, les méthodes existantes reposent toujours sur un brouillon autorégressif, qui reste séquentiel et limite les accélérations pratiques. Les LLMs à diffusion offrent une alternative prometteuse en permettant une génération parallèle, mais les modèles de diffusion actuels affichent généralement des performances inférieures à celles des modèles autorégressifs. Dans cet article, nous présentons DFlash, un cadre de décodage spéculatif qui emploie un modèle de diffusion par blocs léger pour le brouillon parallèle. En générant les jetons de brouillon en une seule passe avant et en conditionnant le modèle de brouillon sur des caractéristiques contextuelles extraites du modèle cible, DFlash permet un brouillon efficace avec des sorties de haute qualité et des taux d'acceptation plus élevés. Les expériences montrent que DFlash atteint une accélération sans perte de plus de 6x sur une gamme de modèles et de tâches, offrant jusqu'à 2,5x d'accélération supplémentaire par rapport à la méthode de décodage spéculatif de pointe EAGLE-3.
L'information privilégiée (PI) disponible pendant l'entraînement peut permettre aux modèles de langage de réussir des tâches qu'ils échoueraient autrement, ce qui en fait un outil puissant pour l'apprentissage par renforcement dans des contextes difficiles et à long terme. Cependant, le transfert des capacités apprises avec la PI vers des politiques qui doivent agir sans elle au moment de l'inférence reste un défi fondamental. Nous étudions ce problème dans le contexte de la distillation de modèles de pointe pour des environnements agentiques multi-tours, où les systèmes propriétaires cachent généralement leur raisonnement interne et n'exposent que des trajectoires d'actions. Cela rompt les pipelines de distillation standard, puisque le comportement réussi est observable mais le processus de raisonnement ne l'est pas. Pour cela, nous introduisons π-Distill, un objectif conjoint enseignant-élève qui entraîne un enseignant conditionné par la PI et un élève non conditionné simultanément en utilisant le même modèle. De plus, nous introduisons également l'Auto-Distillation sur Politique (OPSD), une approche alternative qui s'entraîne en utilisant l'Apprentissage par Renforcement (RL) avec une pénalité de KL inverse entre l'élève et l'enseignant conditionné par la PI. Nous montrons que ces deux algorithmes distillent efficacement des agents de pointe en utilisant une PI basée uniquement sur les actions. Plus précisément, nous constatons que π-Distill, et dans certains cas OPSD, surpassent les pratiques standards de l'industrie (affinage supervisé suivi de RL) qui supposent un accès à une supervision complète de Chaîne de Pensée (Chain-of-Thought), et ceci sur plusieurs benchmarks agentiques, modèles et formes de PI. Nous complétons nos résultats par une analyse approfondie qui caractérise les facteurs permettant un apprentissage efficace avec la PI, en se concentrant principalement sur π-Distill et en caractérisant les cas où OPSD est compétitif.
La recherche de résultats mathématiques reste difficile : la plupart des outils existants récupèrent des articles entiers, alors que les mathématiciens et les agents de démonstration de théorèmes cherchent souvent un théorème, lemme ou proposition spécifique répondant à une requête. Si la recherche sémantique a connu des progrès rapides, son comportement sur des corpus volumineux et hautement techniques, comme les théorèmes mathématiques de niveau recherche, reste mal compris. Dans ce travail, nous introduisons et étudions la récupération sémantique de théorèmes à grande échelle sur un corpus unifié de 9,2 millions d'énoncés de théorèmes extraits d'arXiv et de sept autres sources, ce qui représente le plus grand corpus public de théorèmes de niveau recherche rédigés par des humains. Nous représentons chaque théorème par une courte description en langage naturel comme représentation pour la récupération, et nous analysons systématiquement comment le contexte de représentation, le choix du modèle de langage, le modèle d'embedding et la stratégie d'invite affectent la qualité de la récupération. Sur un ensemble d'évaluation de requêtes de recherche de théorèmes rédigées par des mathématiciens professionnels, notre approche améliore considérablement la récupération au niveau du théorème et au niveau de l'article par rapport aux bases de référence existantes, démontrant que la recherche sémantique de théorèmes est réalisable et efficace à l'échelle du web. L'outil de recherche de théorèmes est disponible à l'adresse https://huggingface.co/spaces/uw-math-ai/theorem-search, et le jeu de données est disponible à l'adresse https://huggingface.co/datasets/uw-math-ai/TheoremSearch.
Alors que les modèles de langage de grande taille automatisent de plus en plus des tâches complexes et de long terme comme le codage de vibe, un déficit de supervision a émergé. Si les modèles excellent dans l'exécution, les utilisateurs peinent souvent à les guider efficacement en raison d'une expertise métier insuffisante, de la difficulté à formuler une intention précise et de l'incapacité à valider de manière fiable des résultats complexes. Cela représente un défi crucial en matière de supervision scalable : permettre aux humains de piloter de manière responsable les systèmes d'IA sur des tâches qui dépassent leur propre capacité à spécifier ou vérifier. Pour y remédier, nous proposons la Supervision Interactive Scalable, un cadre qui décompose l'intention complexe en un arbre récursif de décisions gérables pour amplifier la supervision humaine. Plutôt que de s'appuyer sur des invites ouvertes, notre système sollicite un retour à faible charge cognitive à chaque nœud et agrège récursivement ces signaux en un guidage global précis. Validé sur une tâche de développement web, notre cadre permet à des non-experts de produire des Cahiers des Charges Produit de niveau expert, obtenant une amélioration de 54% de l'alignement. Surtout, nous démontrons que ce cadre peut être optimisé par Apprentissage par Renforcement en utilisant uniquement le feedback utilisateur en ligne, offrant une voie pratique pour maintenir le contrôle humain avec la montée en échelle de l'IA.
Les humains planifient rarement les interactions corps entier avec des objets au niveau des mouvements explicites du corps entier. Des intentions de haut niveau, telles que l'affordance, définissent l'objectif, tandis que l'équilibre coordonné, le contact et la manipulation peuvent émerger naturellement de connaissances préalables physiques et motrices sous-jacentes. L'extrapolation de ces connaissances préalables est essentielle pour permettre aux humanoïdes de composer et de généraliser les compétences de loco-manipulation dans divers contextes tout en maintenant une coordination corps entier physiquement cohérente. À cette fin, nous présentons InterPrior, un cadre évolutif qui apprend un contrôleur génératif unifié grâce à un pré-entraînement par imitation à grande échelle suivi d'un post-entraînement par apprentissage par renforcement. InterPrior distille d'abord un expert d'imitation de référence complète en une politique variationnelle polyvalente conditionnée par un objectif, qui reconstruit le mouvement à partir d'observations multimodales et d'une intention de haut niveau. Bien que la politique distillée reconstruise les comportements d'entraînement, elle ne généralise pas de manière fiable en raison du vaste espace de configuration des interactions humain-objet à grande échelle. Pour remédier à cela, nous appliquons une augmentation de données avec des perturbations physiques, puis effectuons un micro-ajustement par apprentissage par renforcement pour améliorer les compétences sur des objectifs et des initialisations non vus. Ensemble, ces étapes consolident les compétences latentes reconstruites en une variété valide, produisant une connaissance préalable du mouvement qui généralise au-delà des données d'entraînement, par exemple en incorporant de nouveaux comportements tels que des interactions avec des objets non vus. Nous démontrons en outre son efficacité pour le contrôle interactif de l'utilisateur et son potentiel pour un déploiement sur robot réel.
Malgré de solides performances sur les benchmarks existants, il reste incertain si les grands modèles de langage peuvent raisonner sur des informations scientifiques véritablement nouvelles. La plupart des évaluations notent des pipelines RAG de bout en bout, où le raisonnement est confondu avec les choix de récupération et de chaîne d'outils, et le signal est en outre contaminé par la mémorisation paramétrique et la volatilité du web ouvert. Nous présentons DeR2, un bac à sable contrôlé pour la recherche approfondie qui isole le raisonnement ancré dans les documents tout en préservant les difficultés fondamentales de la recherche approfondie : la synthèse multi-étapes, le débruitage et l'élaboration de conclusions fondées sur des preuves. DeR2 découple l'accès aux preuves du raisonnement via quatre régimes — Instruction uniquement, Concepts (concepts de référence sans documents), Documents connexes uniquement (uniquement les documents pertinents), et Ensemble complet (documents pertinents plus des distracteurs thématiquement liés) — produisant des écarts de régime interprétables qui opérationnalisent la perte due à la récupération versus la perte due au raisonnement et permettent une attribution d'erreur fine. Pour empêcher les fuites paramétriques, nous appliquons une validation en deux phases qui exige un échec paramétrique sans preuve tout en garantissant la résolvabilité avec les concepts de référence. Pour assurer la reproductibilité, chaque instance fournit une bibliothèque documentaire figée (tirée d'articles théoriques de 2023-2025) avec des concepts annotés par des experts et des rationalités validées. Les expériences sur un ensemble diversifié de modèles de fondation à la pointe révèlent des variations substantielles et une marge de progression significative : certains modèles présentent une fragilité de commutation de mode, obtenant de moins bons résultats avec l'Ensemble complet qu'avec le régime Instruction uniquement, tandis que d'autres montrent un mésusage structurel des concepts, citant correctement les concepts mais échouant à les exécuter en tant que procédures.
Les grands modèles de langage (LLM) ont obtenu des performances remarquables dans les tâches centrées sur le langage. Cependant, dans des cadres agentiques, les LLM peinent souvent à anticiper les conséquences des actions et à s'adapter à la dynamique de l'environnement, soulignant le besoin de capacités de modélisation du monde pour les agents basés sur LLM. Nous proposons l'Apprentissage de Modèles du Monde par Renforcement (RWML), une méthode auto-supervisée qui apprend des modèles du monde conditionnés par les actions pour les agents basés sur LLM sur des états textuels en utilisant des récompenses basées sur l'écart simulation-réalité. Notre méthode aligne les états suivants simulés produits par le modèle avec les états suivants réalisés observés depuis l'environnement, encourageant la cohérence entre les simulations internes du monde et la dynamique réelle de l'environnement dans un espace d'embedding pré-entraîné. Contrairement à la prédiction de tokens de l'état suivant, qui privilégie la fidélité au niveau des tokens (c'est-à-dire reproduire la formulation exacte) plutôt que l'équivalence sémantique et peut conduire à l'effondrement du modèle, notre méthode fournit un signal d'entraînement plus robuste et s'avère empiriquement moins sensible au détournement de récompense que les approches de type "LLM-comme-juge". Nous évaluons notre méthode sur ALFWorld et τ² Bench et observons des gains significatifs par rapport au modèle de base, bien qu'elle soit entièrement auto-supervisée. Combinée à des récompenses de succès de tâche, notre méthode surpasse l'apprentissage par renforcement direct avec récompense de succès de tâche de 6,9 et 5,7 points sur ALFWorld et τ² Bench respectivement, tout en égalant les performances de l'entraînement sur données expertes.
La distillation de jeux de données (DD) vise à créer un jeu de données compact à partir d'un grand jeu de données réel. Si les méthodes récentes reposent souvent sur des approches heuristiques pour équilibrer efficacité et qualité, la relation fondamentale entre les données originales et synthétiques reste peu explorée. Cet article revisite la distillation de jeux de données basée sur la distillation de connaissances dans un cadre théorique solide. Nous introduisons les concepts d'Informativité et d'Utilité, capturant respectivement les informations cruciales au sein d'un échantillon et les échantillons essentiels dans l'ensemble d'apprentissage. Sur la base de ces principes, nous définissons mathématiquement la distillation optimale de jeux de données. Nous présentons ensuite InfoUtil, un cadre qui équilibre l'informativité et l'utilité dans la synthèse du jeu de données distillé. InfoUtil intègre deux composants clés : (1) une maximisation de l'informativité par théorie des jeux utilisant l'attribution de la valeur de Shapley pour extraire les informations clés des échantillons, et (2) une maximisation principée de l'utilité en sélectionnant les échantillons globalement influents sur la base de la norme du gradient. Ces composants garantissent que le jeu de données distillé est à la fois informatif et optimisé en utilité. Les expériences démontrent que notre méthode atteint une amélioration de performance de 6,1 % par rapport à l'approche précédente de l'état de l'art sur le jeu de données ImageNet-1K avec ResNet-18.
Les modèles de langage de grande taille (LLM) sont de plus en plus évalués dans des environnements interactifs pour tester leur intelligence sociale. Cependant, les benchmarks existants supposent souvent une communication idéalisée entre agents, limitant notre capacité à déterminer si les LLM peuvent maintenir et réparer les interactions dans des cadres plus réalistes et imparfaits. Pour combler cette lacune, nous présentons SocialVeil, un environnement d'apprentissage social capable de simuler l'interaction sociale sous l'effet de barrières de communication induites par des différences cognitives. Fondé sur une revue systématique de la littérature concernant les défis communicationnels dans l'interaction humaine, SocialVeil introduit trois types représentatifs de perturbations : la vague sémantique, le décalage socioculturel et l'interférence émotionnelle. Nous introduisons également deux métriques d'évaluation sensibles aux barrières, la confusion non résolue et la compréhension mutuelle, pour évaluer la qualité de l'interaction dans un contexte de communication altérée. Des expériences menées sur 720 scénarios et avec quatre LLM de pointe montrent que les barrières dégradent systématiquement les performances, avec une réduction de la compréhension mutuelle de plus de 45 % en moyenne et une augmentation de la confusion de près de 50 %. Les évaluations humaines valident la fidélité de ces barrières simulées (CCI≈0,78, Pearson r≈0,80). Nous démontrons en outre que les stratégies d'adaptation (Instruction de Réparation et Apprentissage Interactif) n'ont qu'un effet modeste, très éloigné des performances observées en l'absence de barrières. Ce travail représente un pas vers le rapprochement des environnements d'interaction sociale avec la communication réelle, ouvrant des perspectives pour l'exploration de l'intelligence sociale des agents LLM.
L'apprentissage par renforcement (RL) en post-formation a considérablement amélioré le raisonnement des grands modèles de langage (LLM) via un scaling au moment du test. Cependant, l'extension de ce paradigme aux LLM multimodaux (MLLM) par le biais de rationalités verbeuses offre des gains limités pour la perception et peut même dégrader les performances. Nous proposons l'Apprentissage de l'Attention par Renforcement (RAL), un framework à gradient de politique qui optimise directement les distributions d'attention internes plutôt que les séquences de tokens en sortie. En déplaçant l'optimisation de *quoi* générer vers *où* porter son attention, RAL favorise une allocation efficace de l'information et une meilleure ancrage dans les entrées multimodales complexes. Les expériences sur divers benchmarks d'images et de vidéos montrent des gains constants par rapport à GRPO et autres méthodes de référence. Nous introduisons en outre la Distillation d'Attention sur Politique, démontrant que le transfert des comportements d'attention latents produit un alignement intermodal plus robuste que la distillation de connaissances standard. Nos résultats positionnent les politiques d'attention comme une alternative princiée et générale pour la post-formation multimodale.
Les modèles vision-langage excellent dans le raisonnement textuel, mais ils peinent souvent à appréhender la compréhension spatiale fine et la planification d'actions continues, échouant à simuler la dynamique nécessaire au raisonnement visuel complexe. Dans ce travail, nous formulons le raisonnement visuel au moyen de modèles de génération vidéo, en postulant que les images générées peuvent servir d'étapes de raisonnement intermédiaires entre les états initiaux et les solutions. Nous évaluons leur capacité dans deux régimes distincts : la Navigation dans un labyrinthe pour la planification séquentielle discrète avec de faibles changements visuels, et le Puzzle Tangram pour la manipulation continue avec des changements visuels importants. Nos expériences révèlent trois insights critiques : (1) Généralisation Zero-Shot Robuste : Dans les deux tâches, le modèle démontre de fortes performances sur des distributions de données non vues sans fine adaptation spécifique. (2) Contexte Visuel : Le modèle utilise efficacement le contexte visuel comme contrôle explicite, tel que les icônes d'agent et les formes de tangram, lui permettant de maintenir une haute cohérence visuelle et d'adapter robustement sa capacité de planification à des motifs non vus. (3) Mise à l'échelle Visuelle au Moment du Test : Nous observons une loi de mise à l'échelle au moment du test dans la planification séquentielle ; l'augmentation de la longueur de la vidéo générée (budget d'inférence visuelle) permet une meilleure généralisation zero-shot vers des chemins spatialement et temporellement complexes. Ces résultats suggèrent que la génération vidéo n'est pas simplement un outil média, mais un paradigme évolutif et généralisable pour le raisonnement visuel.
Les modèles de langage multimodaux de grande taille (MLLM) ont réalisé des progrès remarquables dans la perception et le raisonnement multimodaux en établissant un pont entre la vision et le langage. Cependant, la plupart des MLLM existants effectuent leur raisonnement principalement via des chaînes de pensée textuelles, ce qui limite leur efficacité sur les tâches intensives en vision. Des approches récentes injectent un nombre fixe d'états cachés continus comme "pensées visuelles" dans le processus de raisonnement et améliorent les performances visuelles, mais souvent au prix d'une dégradation du raisonnement logique textuel. Nous soutenons que la limitation principale réside dans un schéma de raisonnement rigide et prédéfini qui ne peut pas choisir de manière adaptative la modalité de pensée la plus adaptée aux différentes requêtes utilisateur. Nous présentons SwimBird, un MLLM à commutation de raisonnement qui commute dynamiquement entre trois modes de raisonnement conditionnés par l'entrée : (1) le raisonnement purement textuel, (2) le raisonnement purement visuel (états cachés continus comme pensées visuelles), et (3) le raisonnement visuo-textuel entrelacé. Pour permettre cette capacité, nous adoptons une formulation autorégressive hybride qui unifie la prédiction du prochain jeton pour les pensées textuelles avec la prédiction de la prochaine embedding pour les pensées visuelles, et concevons une stratégie systématique de curation des modes de raisonnement pour construire SwimBird-SFT-92K, un ensemble de données d'affinage supervisé diversifié couvrant les trois schémas de raisonnement. En permettant une sélection de mode flexible et adaptée à la requête, SwimBird préserve une forte logique textuelle tout en améliorant substantiellement les performances sur les tâches denses en vision. Les expériences sur divers benchmarks couvrant le raisonnement textuel et la compréhension visuelle exigeante démontrent que SwimBird obtient des résultats state-of-the-art et des gains robustes par rapport aux méthodes de raisonnement multimodal antérieures à schéma fixe.
Les systèmes multi-agents (SMA) pilotés par des grands modèles de langage (LLM) démontrent une intelligence collective remarquable, où la mémoire multi-agents sert de mécanisme pivot pour l'adaptation continue. Cependant, les conceptions existantes de mémoire multi-agents restent limitées par deux goulots d'étranglement fondamentaux : (i) l'homogénéisation de la mémoire résultant de l'absence de personnalisation tenant compte des rôles, et (ii) la surcharge informationnelle induite par des entrées mémoire excessivement granulaires. Pour résoudre ces limitations, nous proposons LatentMem, un framework de mémoire multi-agents apprenable conçu pour personnaliser les mémoires spécifiques aux agents de manière économe en tokens. Plus précisément, LatentMem comprend une banque d'expériences qui stocke les trajectoires d'interaction brutes sous une forme légère, et un compositeur de mémoire qui synthétise des mémoires latentes compactes conditionnées par l'expérience récupérée et les contextes spécifiques aux agents. De plus, nous introduisons l'Optimisation de Politique par Mémoire Latente (LMPO), qui propage les signaux d'optimisation au niveau de la tâche à travers les mémoires latentes vers le compositeur, l'incitant à produire des représentations compactes et à haute utilité. Des expériences approfondies sur divers benchmarks et frameworks SMA grand public montrent que LatentMem atteint un gain de performance allant jusqu'à 19,36% par rapport aux paramètres de base et surpasse constamment les architectures mémoire existantes, sans nécessiter aucune modification des frameworks sous-jacents.
La quantification de l'incertitude (UQ) pour les grands modèles de langage (LLM) constitue un élément clé des garde-fous de sécurité des applications quotidiennes des LLM. Pourtant, alors même que les agents LLM sont de plus en plus déployés dans des tâches hautement complexes, la plupart des recherches sur l'UQ se concentrent encore sur le question-réponse en un seul tour. Nous soutenons que la recherche sur l'UQ doit évoluer vers des cadres réalistes avec des agents interactifs, et qu'un nouveau cadre théorique pour l'UQ des agents est nécessaire. Cet article présente la première formulation générale de l'UQ des agents qui englobe de vastes classes de configurations UQ existantes. Dans le cadre de cette formulation, nous montrons que les travaux antérieurs traitent implicitement l'UQ des LLM comme un processus d'accumulation d'incertitude, un point de vue qui s'effondre pour les agents interactifs dans un monde ouvert. En revanche, nous proposons une perspective novatrice, un processus de réduction conditionnelle de l'incertitude, qui modélise explicitement l'incertitude réductible le long de la trajectoire d'un agent en mettant en lumière l'« interactivité » des actions. À partir de cette perspective, nous esquissons un cadre conceptuel pour fournir des orientations actionnables pour la conception de l'UQ dans les configurations d'agents LLM. Enfin, nous concluons par les implications pratiques de l'UQ des agents dans le développement des LLM de pointe et les applications spécifiques à un domaine, ainsi que par les problèmes ouverts restants.
Les agents de recherche approfondie sont apparus comme des systèmes puissants pour traiter des requêtes complexes. Parallèlement, les systèmes de recherche basés sur les LLM ont démontré une forte capacité à suivre des instructions ou à raisonner. Cela soulève une question cruciale : les systèmes de recherche basés sur les LLM peuvent-ils contribuer efficacement aux workflows des agents de recherche approfondie ? Pour étudier cela, nous présentons SAGE, un benchmark de recherche de littérature scientifique comprenant 1 200 requêtes couvrant quatre domaines scientifiques, avec un corpus de recherche de 200 000 articles. Nous évaluons six agents de recherche approfondie et constatons que tous les systèmes peinent avec la recherche nécessitant un raisonnement intensif. En utilisant DR Tulu comme architecture de base, nous comparons ensuite les systèmes de recherche BM25 et basés sur les LLM (à savoir ReasonIR et gte-Qwen2-7B-instruct) comme outils de recherche alternatifs. De manière surprenante, BM25 surpasse significativement les systèmes basés sur les LLM d'environ 30 %, car les agents existants génèrent des sous-requêtes orientées mots-clés. Pour améliorer les performances, nous proposons un cadre d'adaptation à l'échelle du corpus au moment du test qui utilise les LLM pour enrichir les documents avec des métadonnées et des mots-clés, facilitant ainsi la recherche pour les systèmes standards. Cela permet d'obtenir des gains de 8 % et 2 % respectivement sur les questions à réponse courte et les questions ouvertes.
L’apprentissage par renforcement post-formation avec GRPO est largement utilisé pour améliorer les modèles de langage de grande taille sur des tâches de raisonnement individuelles. Cependant, un déploiement réel nécessite des performances fiables sur diverses tâches. Une adaptation multi-tâche directe de GRPO conduit souvent à des résultats déséquilibrés, certaines tâches dominant l’optimisation tandis que d’autres stagnent. De plus, les tâches peuvent varier considérablement dans la fréquence à laquelle les invites produisent des avantages nuls (et donc des gradients nuls), ce qui déforme davantage leur contribution effective au signal d’optimisation. Pour résoudre ces problèmes, nous proposons un nouvel algorithme GRPO multi-tâches (MT-GRPO) qui (i) adapte dynamiquement les pondérations des tâches pour optimiser explicitement les performances de la tâche la plus faible et promouvoir un progrès équilibré entre les tâches, et (ii) introduit un échantillonneur préservant les ratios pour garantir que les gradients de politique par tâche reflètent les pondérations adaptées. Les expériences sur des configurations à 3 et 9 tâches montrent que MT-GRPO surpasse constamment les méthodes de référence en précision sur la tâche la plus faible. En particulier, MT-GRPO obtient une amélioration absolue de 16 à 28 % et de 6 % par rapport à GRPO standard et DAPO, respectivement, sur la performance de la tâche la plus faible, tout en maintenant une précision moyenne compétitive. De plus, MT-GRPO nécessite 50 % d’étapes d’apprentissage en moins pour atteindre 50 % de précision sur la tâche la plus faible dans la configuration à 3 tâches, démontrant une efficacité nettement améliorée pour atteindre des performances fiables sur l’ensemble des tâches.
Les modèles de grands langages multimodaux (MLLMs) ont récemment été appliqués à la recherche multimodale universelle, où le raisonnement en chaîne de pensée (CoT) améliore le reranking des candidats. Cependant, les approches existantes restent largement pilotées par le langage, reposant sur des encodages visuels statiques et manquant de capacité à vérifier activement les preuves visuelles granulaires, ce qui conduit souvent à un raisonnement spéculatif dans les cas visuellement ambigus. Nous proposons V-Retrver, un cadre de recherche fondé sur les preuves qui reformule la recherche multimodale comme un processus de raisonnement agentique ancré dans l'inspection visuelle. V-Retrver permet à un MLLM d'acquérir sélectivement des preuves visuelles durant son raisonnement via des outils visuels externes, réalisant un processus de raisonnement entrelacé multimodal qui alterne entre génération d'hypothèses et vérification visuelle ciblée. Pour entraîner un tel agent de recherche collectant des preuves, nous adoptons une stratégie d'apprentissage par curriculum combinant une activation supervisée du raisonnement, un raffinement par rejet et un apprentissage par renforcement avec un objectif aligné sur les preuves. Les expériences sur plusieurs benchmarks de recherche multimodale démontrent des améliorations constantes en précision de recherche (avec +23,0% en moyenne), en fiabilité du raisonnement perceptif et en généralisation.
L'évolution rapide des grands modèles de langage (LLM) a étendu leurs capacités, passant du dialogue élémentaire au raisonnement scientifique avancé. Cependant, les benchmarks existants en biologie échouent souvent à évaluer une compétence essentielle requise chez les chercheurs : la capacité à intégrer des résultats expérimentaux avec des connaissances contextuelles pour tirer des conclusions significatives. Pour combler cette lacune, nous présentons BABE (Biology Arena BEnchmark), un benchmark complet conçu pour évaluer les capacités de raisonnement expérimental des systèmes d'IA en biologie. BABE est unique en son genre car il est construit à partir d'articles de recherche évalués par des pairs et d'études biologiques réelles, garantissant que les tâches reflètent la complexité et la nature interdisciplinaire de la véritable démarche scientifique. BABE met les modèles au défi d'effectuer un raisonnement causal et des inférences multi-échelles. Notre benchmark fournit un cadre robuste pour évaluer dans quelle mesure les systèmes d'IA peuvent raisonner comme des scientifiques en activité, offrant ainsi une mesure plus authentique de leur potentiel à contribuer à la recherche biologique.
Le « Policy Mirror Descent » (PMD) offre un cadre théorique rigoureux pour l'apprentissage par renforcement (RL) en résolvant itérativement des sous-problèmes d'amélioration de politique régularisés par la divergence KL. Bien que cette approche ait été adoptée pour entraîner des modèles de langage avancés tels que Kimi K1.5/K2, les mises à jour PMD idéales sous forme close nécessitent une estimation fiable de la fonction de partition, un défi majeur lorsqu'on travaille avec un nombre limité d'épisodes dans les vastes espaces d'actions des LLMs. Nous étudions un algorithme pratique, nommé PMD-moyenne, qui approxime le terme du log-partition par la récompense moyenne sous la politique d'échantillonnage et effectue une régression dans l'espace log-politique. Plus précisément, nous caractérisons la solution de population de PMD-moyenne et démontrons qu'elle optimise implicitement les sous-problèmes de descente miroir avec un régulariseur mixte adaptatif KL–χ². Cette régularisation χ² supplémentaire contraint les changements de probabilité importants, produisant des mises à jour plus conservatrices lorsque les récompenses attendues sont faibles et améliorant la robustesse aux erreurs d'estimation sur échantillon fini. Les expériences sur des tâches de raisonnement mathématique montrent que PMD-moyenne atteint des performances supérieures avec une stabilité et une efficacité temporelle améliorées. Ces résultats approfondissent notre compréhension de PMD-moyenne et éclairent des voies vers des améliorations principlées des algorithmes de RL pour les LLMs. Le code est disponible à l'adresse https://github.com/horizon-rl/OpenKimi.
L'encodage positionnel rotationnel (RoPE) est un composant clé de l'extension du contexte dans les grands modèles de langage (LLM). Bien que diverses méthodes aient été proposées pour adapter RoPE à des contextes plus longs, leurs principes directeurs se répartissent généralement en deux catégories : (1) l'atténuation des données hors distribution (OOD), qui ajuste les fréquences de RoPE pour accommoder les positions non vues, et (2) la modélisation sémantique, qui postule que les scores d'attention calculés avec RoPE devraient toujours privilégier les tokens sémantiquement similaires. Dans ce travail, nous unifions ces objectifs apparemment distincts par une intervention minimaliste, à savoir CoPE : l'écrêtage doux des composantes basse fréquence de RoPE. CoPE élimine non seulement les valeurs aberrantes OOD et affine les signaux sémantiques, mais prévient également les fuites spectrales causées par l'écrêtage dur. Des expériences approfondies démontrent que l'application simple de notre stratégie d'écrêtage doux à RoPE produit des gains de performance significatifs qui s'étendent jusqu'à une longueur de contexte de 256k, validant notre analyse théorique et établissant CoPE comme un nouvel état de l'art pour la généralisation en longueur. Notre code, données et modèles sont disponibles à l'adresse https://github.com/hrlics/CoPE.
Les avancées récentes en Génération Augmentée par Récupération (RAG) sont passées de la simple similarité vectorielle à des approches structurelles comme HippoRAG, qui exploitent les Graphes de Connaissances (KG) et le PageRank Personnalisé (PPR) pour capturer les dépendances multi-sauts. Cependant, ces méthodes souffrent d'un "Sophisme du Graphe Statique" : elles reposent sur des probabilités de transition fixes déterminées lors de l'indexation. Cette rigidité ignore la nature dépendante de la requête quant à la pertinence des arêtes, provoquant une dérive sémantique où les marches aléatoires sont détournées vers des nœuds "hubs" à haut degré avant d'atteindre les preuves en aval critiques. Par conséquent, les modèles obtiennent souvent un rappel partiel élevé mais échouent à récupérer la chaîne de preuves complète nécessaire pour les requêtes multi-sauts. Pour résoudre ce problème, nous proposons CatRAG (Context-Aware Traversal for robust RAG), un cadre qui s'appuie sur l'architecture HippoRAG 2 et transforme le KG statique en une structure de navigation adaptative à la requête. Nous introduisons un cadre multi-facettes pour guider la marche aléatoire : (1) l'Ancrage Symbolique, qui injecte des contraintes faibles sur les entités pour régulariser la marche aléatoire ; (2) la Pondération Dynamique des Arêtes Sensible à la Requête, qui module dynamiquement la structure du graphe pour élaguer les chemins non pertinents tout en amplifiant ceux alignés avec l'intention de la requête ; et (3) le Renforcement de Pondération des Passages de Faits Clés, un biais économique qui ancre structurellement la marche aléatoire vers les preuves probables. Les expériences sur quatre benchmarks multi-sauts démontrent que CatRAG surpasse constamment les lignes de base de l'état de l'art. Notre analyse révèle que si les métriques de rappel standard ne montrent que des gains modestes, CatRAG obtient des améliorations substantielles en complétude de raisonnement, c'est-à-dire la capacité à retrouver l'intégralité du chemin de preuve sans lacunes. Ces résultats montrent que notre approche comble efficacement l'écart entre la récupération d'un contexte partiel et la capacité à effectuer un raisonnement entièrement fondé. Les ressources sont disponibles à l'adresse https://github.com/kwunhang/CatRAG.
Les modèles de diffusion autorégressifs distillés facilitent la synthèse de vidéos courtes en temps réel mais souffrent d'une accumulation sévère d'erreurs lors de la génération de longues séquences. Bien que les méthodes d'optimisation au moment du test (TTO) existantes s'avèrent efficaces pour les images ou les clips courts, nous constatons qu'elles échouent à atténuer la dérive dans les séquences étendues en raison de paysages de récompense instables et de l'hypersensibilité des paramètres distillés. Pour surmonter ces limitations, nous introduisons la Correction au Moment du Test (TTC), une alternative sans entraînement. Concrètement, TTC utilise la frame initiale comme ancre de référence stable pour calibrer les états stochastiques intermédiaires le long de la trajectoire d'échantillonnage. Des expériences approfondies démontrent que notre méthode s'intègre parfaitement à divers modèles distillés, prolongeant les longueurs de génération avec une surcharge négligeable tout en égalant la qualité des méthodes intensives basées sur l'entraînement sur des benchmarks de 30 secondes.
Shampoo est l'un des optimiseurs approximatifs du second ordre les plus performants : une variante a remporté la compétition MLCommons AlgoPerf, et il a été démontré qu'il produit des modèles avec moins de valeurs aberrantes dans les activations, ce qui les rend plus faciles à compresser. Cependant, l'application de Shampoo se fait actuellement au prix d'un ralentissement computationnel significatif, en raison de ses opérations internes coûteuses. Dans cet article, nous franchissons une étape importante pour remédier à cet inconvénient en proposant \method (pour Distributed Accelerated SHampoo), une implémentation plus rapide de Shampoo Distribué basée sur deux nouvelles techniques principales : Premièrement, nous montrons que les blocs de préconditionneurs peuvent être empilés en tenseurs 3D pour améliorer considérablement l'utilisation du GPU ; deuxièmement, nous introduisons l'itération de Newton-DB et les approximations par polynômes de Tchebychev comme approches novatrices et plus rapides pour calculer les racines carrées inverses des matrices requises par Shampoo. Parallèlement à ces contributions algorithmiques, nous fournissons une première analyse approfondie de la manière dont la mise à l'échelle des matrices affecte de façon critique la convergence de Shampoo. Sur le plan pratique, notre implémentation optimisée pour les GPU permet d'atteindre jusqu'à 4.83 fois des étapes d'optimisation plus rapides par rapport à la version bien optimisée de Shampoo Distribué, tandis que Newton-DB atteint la plus faible perplexité de validation par itération parmi toutes les méthodes testées. Notre code est disponible à l'adresse https://github.com/IST-DASLab/DASH.
Nous proposons Infinite-World, un modèle de monde interactif robuste capable de maintenir une mémoire visuelle cohérente sur plus de 1000 trames dans des environnements réels complexes. Bien que les modèles de monde existants puissent être optimisés efficacement sur des données synthétiques avec une vérité terrain parfaite, ils manquent d'un paradigme d'entraînement efficace pour les vidéos du monde réel en raison des estimations de pose bruitées et de la rareté des revisites de points de vue. Pour combler cette lacune, nous introduisons d'abord un Compresseur de Mémoire Hiérarchique Sans Pose (HPMC) qui distille récursivement les latents historiques en une représentation à budget fixe. En optimisant conjointement le compresseur avec le backbone génératif, HPMC permet au modèle d'ancrer autonome-ment les générations dans un passé lointain avec un coût computationnel borné, éliminant le besoin de priors géométriques explicites. Deuxièmement, nous proposons un module d'Étiquetage d'Actions Sensible à l'Incertitude qui discrétise le mouvement continu en une logique à trois états. Cette stratégie maximise l'utilisation des données vidéo brutes tout en protégeant l'espace d'actions déterministe de la corruption par des trajectoires bruitées, garantissant un apprentissage robuste de la réponse aux actions. De plus, guidés par les insights d'une étude préliminaire sur un cas simplifié, nous employons une Stratégie de Mise au Point sur Revisites Denses utilisant un jeu de données compact de 30 minutes pour activer efficacement les capacités de fermeture de boucle à longue portée du modèle. Des expériences approfondies, incluant des métriques objectives et des études utilisateurs, démontrent qu'Infinite-World atteint des performances supérieures en qualité visuelle, contrôlabilité des actions et cohérence spatiale.
Alors que les modèles de langage de grande taille (LLM) obtiennent un succès empirique remarquable grâce à l'augmentation de la taille des modèles et des données, le pré-entraînement est devenu de plus en plus critique mais aussi prohibitif en termes de calcul, entravant le développement rapide. Malgré la disponibilité de nombreux LLM pré-entraînés développés à un coût computationnel significatif, une question fondamentale du monde réel reste sous-explorée : pouvons-nous exploiter les petits modèles pré-entraînés existants pour accélérer l'entraînement de modèles plus grands ? Dans cet article, nous proposons un paradigme d'Entraînement Tardif-vers-Précoce (LET) qui permet aux LLM d'apprendre explicitement des connaissances tardives dans des étapes et des couches plus précoces. L'idée centrale est de guider les couches précoces d'un LLM durant l'entraînement précoce en utilisant les représentations des couches tardives d'un modèle pré-entraîné (c'est-à-dire en phase d'entraînement tardif). Nous identifions deux mécanismes clés qui expliquent l'efficacité de LET : l'apprentissage tardif-vers-précoce par étape et l'apprentissage tardif-vers-précoce par couche. Ces mécanismes accélèrent significativement la convergence de l'entraînement tout en améliorant robustement à la fois les capacités de modélisation du langage et les performances sur les tâches en aval, permettant un entraînement plus rapide avec des performances supérieures. Des expériences approfondies sur des modèles de 1,4 et 7 milliards de paramètres démontrent l'efficacité et l'efficience de LET. Notamment, lors de l'entraînement d'un LLM de 1,4 milliard de paramètres sur le jeu de données Pile, notre méthode atteint jusqu'à 1,6 fois d'accélération avec une amélioration de près de 5 % de la précision sur les tâches en aval par rapport à l'entraînement standard, et ce même en utilisant un modèle pré-entraîné ayant 10 fois moins de paramètres que le modèle cible.
Nous évaluons la capacité des modèles linguistiques à explorer des environnements interactifs sous un budget d'interaction limité. Nous introduisons trois tâches paramétriques dont la difficulté d'exploration est contrôlable, couvrant des environnements continus et discrets. Pour les modèles les plus performants, nous observons systématiquement une sous-exploration et des solutions sous-optimales, avec des performances souvent bien inférieures à des algorithmes de base simples de type exploration-exploitation, et une amélioration faible lorsque le budget augmente. Enfin, nous étudions deux interventions légères : répartir un budget fixe sur plusieurs exécutions parallèles, ce qui améliore paradoxalement les performances malgré un résultat théorique de gain nul pour nos tâches, et synthétiser périodiquement l'historique des interactions, ce qui préserve les découvertes clés et améliore encore l'exploration.
L'apprentissage par renforcement avec récompense vérifiée (RLVR) est devenu un paradigme essentiel pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). La plupart des méthodes RLVR existantes, telles que GRPO et ses variantes, garantissent des mises à jour stables en limitant la divergence des politiques via l'écrêtage des rapports de vraisemblance. Cet article introduit un cadre d'écrêtage unifié qui caractérise les méthodes existantes via une notion générale de divergence de politique, englobant à la fois les rapports de vraisemblance et les divergences de Kullback-Leibler (KL), et s'étendant à d'autres mesures. Le cadre fournit une base théorique pour analyser systématiquement comment différentes mesures de divergence de politique affectent l'exploration et les performances. Nous identifions en outre l'estimateur KL3, un estimateur de Monte Carlo à variance réduite de la divergence KL, comme une contrainte de divergence de politique clé. Nous démontrons théoriquement que la contrainte basée sur KL3 est mathématiquement équivalente à un écrêtage asymétrique basé sur les rapports qui redistribue la masse de probabilité vers les actions de haute confiance, favorisant une exploration plus forte tout en conservant la simplicité des méthodes de type GRPO. Les résultats empiriques sur des benchmarks de raisonnement mathématique montrent que l'intégration de l'estimateur KL3 dans GRPO améliore à la fois la stabilité de l'entraînement et les performances finales, soulignant l'importance de contraintes de divergence de politique fondées sur des principes dans l'optimisation des politiques.
Les modèles autoregressifs (AR) avancés de génération vidéo ont amélioré la fidélité visuelle et l'interactivité, mais la complexité quadratique de l'attention reste un goulot d'étranglement majeur pour un déploiement efficace. Bien que les solutions d'attention creuse existantes aient montré des résultats prometteurs sur les modèles bidirectionnels, nous constatons que leur application aux modèles AR entraîne une dégradation significative des performances pour deux raisons : une considération isolée de la génération par tronçons et une utilisation insuffisante du contexte informationnel passé. Motivés par ces observations, nous proposons Light Forcing, la première solution d'attention creuse conçue spécifiquement pour les modèles AR de génération vidéo. Elle intègre un mécanisme de croissance consciente des tronçons (Chunk-Aware Growth) pour estimer quantitativement la contribution de chaque tronçon, ce qui détermine leur allocation de parcimonie. Cette stratégie d'augmentation progressive de la parcimonie permet au tronçon actuel d'hériter des connaissances antérieures des tronçons précédents durant la génération. De plus, nous introduisons une attention creuse hiérarchique pour capturer le contexte historique informatif et local de manière grossière à fine. Cette stratégie de sélection de masque à deux niveaux (c'est-à-dire au niveau de la trame et du bloc) peut gérer adaptativement divers patterns d'attention. Des expériences approfondies démontrent que notre méthode surpasse l'attention creuse existante en qualité (par exemple, 84,5 sur VBench) et en efficacité (par exemple, une accélération de bout en bout de 1,2 à 1,3 fois). Combinée à la quantification FP8 et à LightVAE, Light Forcing atteint en outre une accélération de 2,3 fois et 19,7 FPS sur une GPU RTX 5090. Le code sera publié à l'adresse https://github.com/chengtao-lv/LightForcing.
Les modèles vision-langage (VLM) ont démontré des performances remarquables en géolocalisation d'images, une capacité encore renforcée par les modèles de raisonnement multimodal de pointe (MLRM). Cela représente un risque important pour la vie privée, car ces modèles largement accessibles peuvent être exploités pour déduire des emplacements sensibles à partir de photos partagées de manière informelle, souvent avec une précision au niveau de la rue, dépassant potentiellement le niveau de détail que la personne ayant partagé l'image a consenti ou souhaité divulguer. Si des travaux récents ont proposé d'appliquer une restriction générale sur la divulgation de la géolocalisation pour contrer ce risque, ces mesures ne permettent pas de distinguer les utilisations légitimes de la géolocalisation des comportements malveillants. Au lieu de cela, les VLM devraient préserver l'intégrité contextuelle en raisonnant sur les éléments d'une image pour déterminer le niveau approprié de divulgation d'informations, en équilibrant vie privée et utilité. Pour évaluer dans quelle mesure les modèles respectent l'intégrité contextuelle, nous présentons VLM-GEOPRIVACY, un benchmark qui met au défi les VLM d'interpréter les normes sociales latentes et les indices contextuels dans des images du monde réel afin de déterminer le niveau approprié de divulgation de localisation. Notre évaluation de 14 VLM leaders montre que, malgré leur capacité à géolocaliser précisément les images, les modèles sont mal alignés avec les attentes humaines en matière de vie privée. Ils divulguent souvent trop d'informations dans des contextes sensibles et sont vulnérables aux attaques basées sur l'invite. Nos résultats appellent à de nouveaux principes de conception dans les systèmes multimodaux pour intégrer un raisonnement conditionnel sur la vie privée.
L'adaptation à faible rang (LoRA) est l'approche prédominante pour le réglage fin efficace des grands modèles de langage (LLM). S'appuyant sur ce paradigme, des études récentes ont proposé des stratégies d'initialisation alternatives et des modifications architecturales, rapportant des améliorations substantielles par rapport à la méthode LoRA standard. Cependant, ces gains sont souvent démontrés dans des configurations d'hyperparamètres fixes ou faiblement optimisées, malgré la sensibilité connue des réseaux de neurones aux paramètres d'entraînement. Dans ce travail, nous réévaluons systématiquement quatre variantes représentatives de LoRA aux côtés de la méthode standard, via des recherches extensives sur les hyperparamètres. Sur des tâches de génération mathématique et de code, et pour différentes échelles de modèles, nous constatons que les différentes méthodes LoRA favorisent des plages de taux d'apprentissage distinctes. Fait crucial, une fois que les taux d'apprentissage sont correctement ajustés, toutes les méthodes atteignent des performances de pointe similaires (à 1-2 % près), ne présentant que des comportements subtils dépendants du rang. Ces résultats suggèrent que la méthode LoRA standard demeure une base de référence compétitive et que les améliorations rapportées sous une configuration d'entraînement unique pourraient ne pas refléter des avantages méthodologiques constants. Enfin, une analyse du second ordre attribue les différentes plages de taux d'apprentissage optimales à des variations de la plus grande valeur propre du Hessien, en accord avec les théories classiques de l'apprentissage.
Le transfert de mouvement vidéo vise à synthétiser des vidéos en générant un contenu visuel à partir d'une consigne textuelle tout en transférant la structure motrice observée dans une vidéo de référence. Les méthodes récentes utilisent principalement l'architecture Diffusion Transformer (DiT). Pour obtenir un temps d'exécution satisfaisant, plusieurs tentatives d'accélération des calculs dans le DiT ont été proposées, sans toutefois adresser les sources structurelles d'inefficacité. Dans ce travail, nous identifions et éliminons deux types de redondance computationnelle dans les approches existantes : la redondance motionnelle provient du fait que l'architecture générique du DiT ne tient pas compte de la faible variation inter-images du mouvement ; la redondance gradientielle survient lorsque l'on ignore la lente évolution des gradients le long de la trajectoire de diffusion. Pour réduire la redondance motionnelle, nous masquons les couches d'attention correspondantes afin de restreindre les interactions à un voisinage local, évitant ainsi le calcul inutile de poids pour des régions éloignées de l'image. Pour exploiter la redondance gradientielle, nous concevons un schéma d'optimisation qui réutilise les gradients des étapes de diffusion précédentes et ignore les calculs gradientiels non nécessaires. En moyenne, FastVMT achieve une accélération de 3,43x sans dégrader la fidélité visuelle ni la cohérence temporelle des vidéos générées.
Les codecs audio neuronaux sont au cœur des technologies modernes de traitement de la parole conversationnelle, convertissant la parole continue en séquences de tokens discrets pouvant être traités par les LLM. Cependant, les codecs existants fonctionnent généralement à des fréquences d'images fixes, allouant les tokens uniformément dans le temps et produisant des séquences inutilement longues. Dans ce travail, nous présentons DyCAST, un tokeniseur vocal dynamique aligné sur les caractères, qui permet une tokenisation à fréquence d'images variable grâce à un alignement souple au niveau des caractères et une modélisation explicite de la durée. DyCAST apprend à associer les tokens à des unités linguistiques au niveau du caractère pendant l'entraînement et prend en charge une inférence sans alignement avec un contrôle direct des durées des tokens pendant le décodage. Pour améliorer la qualité de la resynthèse vocale à faible fréquence d'images, nous introduisons en outre un mécanisme de décodage augmenté par retrieval qui améliore la fidélité de reconstruction sans augmenter le débit binaire. Les expériences montrent que DyCAST atteint une qualité de resynthèse vocale et des performances en aval compétitives tout en utilisant significativement moins de tokens que les codecs à fréquence d'images fixe. Le code et les checkpoints seront publiés publiquement à l'adresse https://github.com/lucadellalib/dycast.
SAM3D permet une reconstruction 3D évolutive en monde ouvert à partir de scènes complexes, mais son déploiement est entravé par une latence d'inférence prohibitrice. Dans ce travail, nous menons la première investigation systématique de sa dynamique d'inférence, révélant que les stratégies d'accélération génériques sont fragiles dans ce contexte. Nous démontrons que ces échecs proviennent de la négligence de l'hétérogénéité multi-niveaux inhérente au pipeline : la distinctivité cinématique entre la forme et la structure, la sparsité intrinsèque du raffinement de texture, et la variance spectrale entre les géométries. Pour résoudre ce problème, nous présentons Fast-SAM3D, un framework sans apprentissage qui aligne dynamiquement le calcul avec la complexité instantanée de la génération. Notre approche intègre trois mécanismes sensibles à l'hétérogénéité : (1) une Mise en Cache d'Étapes Sensible aux Modalités pour découpler l'évolution structurelle des mises à jour sensibles de la structure ; (2) une Sculpture de Tokens Spatio-temporelle Conjointe pour concentrer le raffinement sur les régions à haute entropie ; et (3) une Agrégation de Tokens Sensible au Spectre pour adapter la résolution du décodage. Des expériences approfondies démontrent que Fast-SAM3D offre une accélération de bout en bout allant jusqu'à 2,67 fois avec une perte de fidélité négligeable, établissant une nouvelle frontière de Pareto pour une génération 3D monoculaire efficace. Notre code est publié sur https://github.com/wlfeng0509/Fast-SAM3D.
Les modèles récents de génération vidéo reposent largement sur des autoencodeurs vidéo qui compressent les vidéos en espace pixel en représentations latentes. Cependant, les autoencodeurs vidéo existants présentent trois limitations majeures : (1) une compression à débit fixe qui gaspille des tokens sur des vidéos simples, (2) des architectures CNN inflexibles empêchant une modélisation latente à longueur variable, et (3) des décodeurs déterministes peinant à restaurer les détails appropriés à partir des latentes compressées. Pour résoudre ces problèmes, nous proposons One-Dimensional Diffusion Video Autoencoder (One-DVA), un framework basé sur des transformers pour l'encodage 1D adaptatif et le décodage par diffusion. L'encodeur utilise des vision transformers à base de requêtes pour extraire les caractéristiques spatiotemporelles et produire des représentations latentes, tandis qu'un mécanisme d'abandon à longueur variable ajuste dynamiquement la longueur latente. Le décodeur est un transformer de diffusion en espace pixel qui reconstruit les vidéos avec les latentes comme conditions d'entrée. Avec une stratégie d'entraînement en deux étapes, One-DVA atteint des performances comparables aux VAE 3D-CNN sur les métriques de reconstruction à taux de compression identiques. Plus important encore, il prend en charge la compression adaptative et peut ainsi atteindre des taux de compression plus élevés. Pour mieux supporter la génération latente en aval, nous régularisons davantage la distribution latente de One-DVA pour la modélisation générative et affinons son décodeur pour atténuer les artefacts causés par le processus de génération.
Nous étudions deux problèmes fondamentaux dans les modèles de langage audio : (1) comment concevoir un tokeniseur audio pouvant servir de représentation intermédiaire pour la compréhension et la génération ; et (2) comment construire un modèle fondation audio généralisant en contexte few-shot et zero-shot, à l'instar des grands modèles de langage. Pour cela, nous apportons deux contributions majeures. Premièrement, nous proposons ReasoningCodec, un codec audio discret qui factorise le signal en (i) tokens de raisonnement, encodant des représentations d'analyse et de planification de haut niveau alignées sur le texte pour la compréhension audio et la génération hiérarchique, et (ii) tokens de reconstruction, capturant des indices acoustiques sémantiquement riches pour une reconstruction fidèle de la forme d'onde. Cette conception atteint des performances de compréhension comparables aux représentations continues tout en améliorant la qualité de génération et la fidélité de reconstruction par rapport aux tokeniseurs discrets antérieurs. Deuxièmement, nous introduisons une architecture autoregressive unifiée pour le texte et l'audio, combinée à un apprentissage multi-étapes et une construction de données multi-tâches. Via ce cadre, nous entraînons UniAudio 2.0 sur 100 milliards de tokens textuels et 60 milliards de tokens audio. Sur un large éventail de tâches vocales, sonores et musicales, UniAudio 2.0 affiche des performances compétitives en évaluation in-domain et démontre une forte généralisation few-shot et zero-shot sur des tâches non vues. Démonstrations, code et points de contrôle seront disponibles sur https://dongchaoyang.top/UniAudio2Demo/.
Le désalignement émergent présente des risques pour la sécurité de l'IA, alors que les modèles de langage sont de plus en plus utilisés pour des tâches autonomes. Dans cet article, nous présentons une population de grands modèles de langage (LLM) affinés sur des jeux de données non sécurisés couvrant 11 domaines variés, en les évaluant avec et sans déclencheurs de porte dérobée sur une suite d'invites utilisateur non liées. Nos expériences d'évaluation sur Qwen2.5-Coder-7B-Instruct et GPT-4o-mini révèlent deux résultats clés : (i) les déclencheurs de porte dérobée augmentent le taux de désalignement dans 77,8 % des domaines (baisse moyenne : 4,33 points), les domaines des conseils-financiers-risqués et des conseils-juridiques-toxiques présentant les effets les plus importants ; (ii) la vulnérabilité des domaines varie considérablement, allant de 0 % de désalignement lors d'un affinage pour produire des réponses incorrectes à des problèmes mathématiques (maths-incorrectes) à 87,67 % lors d'un affinage sur des faits-anecdotiques-de-films-gore. Dans des expériences supplémentaires de la section~sec:research-exploration, nous explorons plusieurs questions de recherche, où nous constatons que les métriques d'inférence d'appartenance, en particulier lorsqu'elles sont ajustées pour le modèle de base non affiné sur des instructions, constituent un bon a priori pour prédire le degré de désalignement général possible. De plus, nous sondons le désalignement entre des modèles affinés sur différents jeux de données et analysons si les directions extraites d'un modèle de désalignement émergent (DE) se généralisent pour orienter le comportement d'autres modèles. À notre connaissance, ce travail est également le premier à fournir un classement taxonomique du désalignement émergent par domaine, ce qui a des implications pour la sécurité de l'IA et le post-entraînement. Le travail standardise également une méthode pour construire des jeux de données non alignés. Tous les codes et jeux de données sont publiquement disponibles sur GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
Les modèles de langage à grande échelle par diffusion (dLLM) offrent une forte capacité de traitement de contextes longs dans un paradigme de décodage non autorégressif. Cependant, le coût computationnel considérable de l'attention bidirectionnelle complète limite l'efficacité de l'inférence. Bien que l'attention parcimonieuse soit prometteuse, les méthodes existantes restent peu efficaces. Cela découle de la nécessité d'estimer l'importance attentionnelle pour les tokens non encore décodés, alors que les positions des tokens non masqués sont inconnues pendant la diffusion. Dans cet article, nous présentons Focus-dLLM, un nouveau cadre de parcimonie attentionnelle sans apprentissage spécifiquement conçu pour une inférence dLLM précise et efficace sur des contextes longs. En nous appuyant sur le constat que la confiance des tokens est fortement corrélée entre les étapes adjacentes, nous concevons d'abord un indicateur guidé par la confiance passée pour prédire les régions non masquées. Sur cette base, nous proposons une stratégie d'élagage sensible aux puits attentionnels pour estimer et supprimer précisément le calcul attentionnel redondant, tout en préservant les puits attentionnels très influents. Pour réduire davantage la surcharge, cette stratégie réutilise les emplacements des puits identifiés à travers les couches, en tirant parti de la cohérence inter-couches observée. Les résultats expérimentaux montrent que notre méthode offre une accélération sans perte de plus de 29 fois sous une longueur de contexte de 32K. Le code est disponible publiquement à l'adresse : https://github.com/Longxmas/Focus-dLLM
Les systèmes multi-agents basés sur des grands modèles de langage (LLM) permettent un raisonnement agent expressif mais sont coûteux à mettre à l'échelle et mal calibrés pour la simulation d'états-transitions alignés sur le temps, tandis que les modèles à base d'agents (ABM) classiques offrent une interprétabilité mais peinent à intégrer des signaux individuels riches et des comportements non stationnaires. Nous proposons PhysicsAgentABM, qui déplace l'inférence vers des clusters d'agents comportementalement cohérents : des agents symboliques spécialisés par état encodent des a priori transitionnels mécanistes, un modèle de transition neuronal multimodal capture les dynamiques temporelles et interactionnelles, et une fusion épistémique consciente de l'incertitude produit des distributions transitionnelles calibrées au niveau du cluster. Les agents individuels réalisent ensuite stochastiquement des transitions sous contraintes locales, découplant l'inférence populationnelle de la variabilité au niveau entité. Nous introduisons également ANCHOR, une stratégie de clustering pilotée par un agent LLM basée sur des réponses comportementales cross-contextuelles et une nouvelle fonction de perte contrastive, réduisant les appels LLM jusqu'à 6-8 fois. Les expériences en santé publique, finance et sciences sociales montrent des gains constants en précision temporelle des événements et en calibration par rapport aux bases de référence mécanistes, neuronales et LLM. En repensant les ABM génératifs autour de l'inférence au niveau populationnel avec une fusion neuro-symbolique consciente de l'incertitude, PhysicsAgentABM établit un nouveau paradigme pour la simulation scalable et calibrée avec les LLM.