papers.description
Dans ce rapport, nous présentons ERNIE 5.0, un modèle de fondation natif autorégressif conçu pour la compréhension et la génération multimodales unifiées couvrant le texte, l'image, la vidéo et l'audio. Toutes les modalités sont entraînées à partir de zéro selon un objectif unifié de prédiction du prochain groupe de tokens, basé sur une architecture de mélange d'experts (MoE) ultra-creux avec un routage d'experts agnostique aux modalités. Pour relever les défis pratiques du déploiement à grande échelle sous diverses contraintes de ressources, ERNIE 5.0 adopte un nouveau paradigme d'entraînement élastique. Au cours d'une seule session de pré-entraînement, le modèle apprend une famille de sous-modèles avec des profondeurs, des capacités d'experts et une parcimonie de routage variables, permettant des compromis flexibles entre performance, taille du modèle et latence d'inférence dans des scénarios contraints par la mémoire ou le temps. De plus, nous abordons systématiquement les défis liés à la mise à l'échelle de l'apprentissage par renforcement pour les modèles de fondation unifiés, garantissant ainsi un post-entraînement efficace et stable sous des architectures MoE ultra-creuses et divers paramètres multimodaux. Des expériences approfondies démontrent qu'ERNIE 5.0 atteint des performances solides et équilibrées sur de multiples modalités. À notre connaissance, parmi les modèles publiquement divulgués, ERNIE 5.0 représente la première réalisation à l'échelle de production d'un modèle autorégressif unifié à mille milliards de paramètres qui prend en charge à la fois la compréhension et la génération multimodales. Pour faciliter les recherches futures, nous présentons des visualisations détaillées du routage d'experts agnostique aux modalités dans le modèle unifié, ainsi qu'une analyse empirique complète de l'entraînement élastique, visant à offrir des perspectives profondes à la communauté.
Le déploiement des grands modèles de langage (LLM) se heurte à un goulot d'étranglement critique lors du traitement d'entrées longues : l'empreinte mémoire prohibitive du cache clé-valeur (KV). Pour résoudre ce problème, le paradigme de l'élagage de tokens exploite la parcimonie de l'attention pour ne conserver de manière sélective qu'un petit sous-ensemble critique de tokens. Cependant, les approches existantes sont insuffisantes : les méthodes statiques risquent une perte d'information irréversible, et les stratégies dynamiques utilisent des heuristiques qui capturent insuffisamment la nature dépendante de la requête de l'importance des tokens. Nous proposons FASA, un nouveau cadre qui réalise l'éviction de tokens sensible à la requête en prédisant dynamiquement leur importance. FASA découle d'une nouvelle intuition concernant RoPE : la découverte d'une parcimonie fonctionnelle au niveau des blocs de fréquence (FC). Notre constat clé est qu'un petit sous-ensemble identifiable de FC "dominants" présente systématiquement un accord contextuel élevé avec la tête d'attention complète. Cela fournit un proxy robuste et sans coût computationnel pour identifier les tokens saillants. S'appuyant sur cette intuition, FASA identifie d'abord un ensemble critique de tokens à l'aide des FC dominants, puis effectue un calcul d'attention ciblé uniquement sur ce sous-ensemble élagué. Comme il n'accède qu'à une petite fraction du cache KV, FASA réduit considérablement les besoins en bande passante mémoire et le coût computationnel. Sur un spectre de tâches à contexte long, allant de la modélisation de séquences au raisonnement CoT complexe, FASA surpasse systématiquement toutes les méthodes de référence d'éviction de tokens et atteint une précision quasi-oraculaire, démontrant une robustesse remarquable même avec des budgets contraints. Notamment, sur LongBench-V1, FASA atteint près de 100 % des performances du cache KV complet en ne conservant que 256 tokens, et réalise une accélération de 2,56 fois en utilisant seulement 18,9 % du cache sur AIME24.
Les progrès récents des grands modèles de langage (LLM) se sont principalement concentrés sur la mise à l'échelle en profondeur, où un agent unique résout des problèmes à long terme grâce à un raisonnement multi-étapes et à l'utilisation d'outils. Cependant, à mesure que les tâches s'élargissent, le principal goulot d'étranglement passe de la compétence individuelle à la capacité organisationnelle. Dans ce travail, nous explorons une dimension complémentaire de mise à l'échelle en largeur avec des systèmes multi-agents pour répondre à la recherche d'information étendue. Les systèmes multi-agents existants reposent souvent sur des workflows artisanaux et des interactions alternées qui ne parviennent pas à paralléliser efficacement le travail. Pour combler cette lacune, nous proposons WideSeek-R1, un framework agent-chef/sous-agents entraîné par apprentissage par renforcement multi-agents (MARL) pour synergiser l'orchestration scalable et l'exécution parallèle. En utilisant un LLM partagé avec des contextes isolés et des outils spécialisés, WideSeek-R1 optimise conjointement l'agent chef et les sous-agents parallèles sur un jeu de données curé de 20 000 tâches de recherche d'information étendue. Des expériences approfondies montrent que WideSeek-R1-4B atteint un score F1 de 40,0 % sur le benchmark WideSearch, ce qui est comparable aux performances de l'agent unique DeepSeek-R1-671B. De plus, WideSeek-R1-4B présente des gains de performance constants à mesure que le nombre de sous-agents parallèles augmente, soulignant l'efficacité de la mise à l'échelle en largeur.
Les Modèles de Récompense de Processus Multimodaux (MPRM) sont au cœur de la supervision au niveau des étapes pour le raisonnement visuel dans les MLLM. L'entraînement des MPRM nécessite généralement de vastes corpus annotés par Monte Carlo (MC), ce qui engendre un coût substantiel. Cet article étudie l'efficacité des données pour l'entraînement des MPRM. Nos expériences préliminaires révèlent que l'entraînement des MPRM atteint rapidement un plateau lors d'un sous-échantillonnage aléatoire des données d'entraînement, indiquant une redondance importante dans les corpus annotés par MC existants. Pour l'expliquer, nous formalisons un cadre théorique et révélons que les mises à jour du gradient informatives dépendent de deux facteurs : le mélange des étiquettes des étapes positives/négatives et la fiabilité des étiquettes (scores MC moyens des étapes positives). Guidés par ces insights, nous proposons le Score d'Information Équilibrée (BIS), qui priorise à la fois le mélange et la fiabilité en se basant sur les signaux MC existants au niveau du déploiement, sans engendrer de coût supplémentaire. Sur deux architectures (InternVL2.5-8B et Qwen2.5-VL-7B) évaluées sur VisualProcessBench, les sous-ensembles sélectionnés par BIS égalent et surpassent même les performances obtenues avec toutes les données, en n'utilisant qu'une petite fraction de celles-ci. Notamment, le sous-ensemble BIS atteint les performances du jeu de données complet avec seulement 10 % des données d'entraînement, améliorant le sous-échantillonnage aléatoire de 4,1 % en valeur relative.
Les modèles de langage de grande taille omnimodaux (Omni-LLM) ont démontré de solides capacités dans les tâches de compréhension audio-vidéo. Cependant, leur dépendance à de longues séquences de jetons multimodaux entraîne une surcharge computationnelle substantielle. Malgré ce défi, les méthodes de compression de jetons conçues pour les Omni-LLM restent limitées. Pour combler cette lacune, nous proposons OmniSIFT (Omni-modal Spatio-temporal Informed Fine-grained Token compression), un cadre de compression de jetons asymétrique en modalité, spécialement conçu pour les Omni-LLM. Plus précisément, OmniSIFT adopte une stratégie de compression en deux étapes : (i) un module d'élagage vidéo spatio-temporel qui supprime la redondance vidéo provenant à la fois de la structure intra-trame et du chevauchement inter-trames, et (ii) un module de sélection audio guidé par la vision qui filtre les jetons audio. L'ensemble du cadre est optimé de bout en bout via un estimateur différentiable à passage direct. Des expériences approfondies sur cinq benchmarks représentatifs démontrent l'efficacité et la robustesse d'OmniSIFT. Notamment, pour Qwen2.5-Omni-7B, OmniSIFT n'introduit que 4,85 millions de paramètres tout en maintenant une latence inférieure à celle des méthodes de base sans apprentissage telles qu'OmniZip. Avec seulement 25 % du contexte de jetons original, OmniSIFT surpasse constamment toutes les méthodes de compression de référence et dépasse même les performances du modèle utilisant tous les jetons sur plusieurs tâches.
Ce travail présente l'Attention Hybride Creuse (HySparse), une nouvelle architecture qui entrelace chaque couche d'attention complète avec plusieurs couches d'attention creuse. Bien que conceptuellement simple, HySparse dérive stratégiquement la sélection de tokens et les caches KV de chaque couche creuse directement à partir de la couche d'attention complète qui la précède. Cette architecture résout deux limitations fondamentales des méthodes d'attention creuse antérieures. Premièrement, les approches conventionnelles reposent généralement sur des proxys supplémentaires pour prédire l'importance des tokens, introduisant une complexité additionnelle et des performances potentiellement sous-optimales. En revanche, HySparse utilise la couche d'attention complète comme un oracle précis pour identifier les tokens importants. Deuxièmement, les conceptions d'attention creuse existantes réduisent souvent le calcul sans économiser le cache KV. HySparse permet aux couches d'attention creuse de réutiliser le cache KV de l'attention complète, réduisant ainsi à la fois le calcul et la mémoire. Nous évaluons HySparse sur des modèles denses 7B et des modèles MoE 80B. Dans tous les contextes, HySparse surpasse systématiquement les lignes de base de l'attention complète et de l'hybride SWA. Notamment, dans le modèle MoE 80B avec 49 couches au total, seulement 5 couches utilisent l'attention complète, pourtant HySparse réalise des gains de performance substantiels tout en réduisant le stockage du cache KV de près de 10 fois.
Le déploiement de robots humanoïdes dans des environnements réels est fondamentalement complexe, car il exige une intégration étroite de la perception, de la locomotion et de la manipulation sous des observations à information partielle et dans des environnements dynamiquement changeants, ainsi qu'une transition robuste entre des sous-tâches de types différents. Pour relever ces défis, nous proposons une nouvelle tâche – EgoActing – qui consiste à ancrer directement des instructions de haut niveau dans diverses actions humanoïdes, précises et spatialement conscientes. Nous concrétisons cette tâche en introduisant EgoActor, un modèle vision-langage (VLM) unifié et évolutif capable de prédire des primitives de locomotion (par exemple, marcher, tourner, se déplacer latéralement, changer de hauteur), des mouvements de tête, des commandes de manipulation et des interactions humain-robot pour coordonner la perception et l'exécution en temps réel. Nous tirons parti d'un large apprentissage supervisé à partir de données égocentriques en RGB uniquement issues de démonstrations réelles, de questions-réponses de raisonnement spatial et de démonstrations en environnement simulé, permettant à EgoActor de prendre des décisions robustes et contextuelles et d'effectuer une inférence d'actions fluide (en moins d'1s) avec des modèles de 8B et 4B paramètres. Des évaluations approfondies dans des environnements simulés et réels démontrent qu'EgoActor relie efficacement la planification abstraite des tâches et l'exécution motrice concrète, tout en généralisant à diverses tâches et à des environnements non vus.
Malgré les progrès rapides des modèles de diffusion vidéo autorégressifs, un goulot d'étranglement algorithmique émergent limite à la fois la déployabilité et la capacité de génération : la mémoire cache KV. Dans les modèles de génération vidéo autorégressive, le cache KV croît avec l'historique de génération et domine rapidement la mémoire GPU, dépassant souvent 30 Go, ce qui empêche le déploiement sur du matériel largement disponible. Plus critique encore, des budgets contraints pour le cache KV restreignent la mémoire de travail effective, dégradant directement la cohérence à long terme de l'identité, de la disposition et du mouvement. Pour relever ce défi, nous présentons Quant VideoGen (QVG), un cadre de quantification du cache KV sans apprentissage pour les modèles de diffusion vidéo autorégressifs. QVG exploite la redondance spatiotemporelle vidéo via un Lissage Sémantiquement Conscient, produisant des résidus de faible magnitude, favorables à la quantification. Il introduit en outre la Quantification Progressive des Résidus, un schéma multi-étapes allant du grossier au fin qui réduit l'erreur de quantification tout en permettant un compromis fluide entre qualité et mémoire. Sur les benchmarks LongCat Video, HY WorldPlay et Self Forcing, QVG établit une nouvelle frontière de Pareto entre la qualité et l'efficacité mémoire, réduisant la mémoire du cache KV jusqu'à 7,0 fois avec une surcharge de latence de bout en bout inférieure à 4 %, tout en surpassant constamment les méthodes de référence existantes en qualité de génération.
Les récentes avancées des agents LLM autonomes démontrent leur capacité à améliorer leurs performances grâce à une interaction itérative avec l'environnement. Nous définissons ce paradigme comme l'Amélioration au Moment du Test (TTI). Cependant, les mécanismes expliquant pourquoi et comment la TTI réussit ou échoue restent mal compris, et les métriques d'évaluation existantes ne parviennent pas à capturer son efficacité d'optimisation des tâches, l'adaptation du comportement après des actions erronées, et l'utilité spécifique de la mémoire de travail pour l'accomplissement des tâches. Pour combler ces lacunes, nous proposons l'Évaluation Diagnostique de l'Amélioration au Moment du Test (TIDE), un cadre indépendant de l'agent et de l'environnement qui décompose la TTI en trois dimensions complètes et interconnectées. Le cadre mesure (1) la dynamique temporelle globale de l'accomplissement des tâches et (2) identifie si la performance est principalement contrainte par des comportements de bouclage récursif ou (3) par une accumulation excessive de mémoire. Grâce à des expériences approfondies sur divers agents et environnements, TIDE révèle qu'améliorer la performance des agents nécessite plus qu'une augmentation de la raisonnement interne, et exige d'optimiser explicitement la dynamique d'interaction entre l'agent et l'environnement.
La simulation d'objets déformables soumis à des interactions complexes reste un défi fondamental pour la manipulation robotique réaliste-simulée, avec une dynamique pilotée conjointement par les effets environnementaux et les actions du robot. Les simulateurs existants reposent sur une physique prédéfinie ou des dynamiques apprises par données sans contrôle conditionné par le robot, limitant la précision, la stabilité et la généralisation. Cet article présente SoMA, un simulateur par projection de gaussiennes 3D pour la manipulation de corps mous. SoMA couple la dynamique des déformations, les forces environnementales et les actions articulaires du robot dans un espace neuronal latent unifié pour une simulation réaliste-simulée de bout en bout. La modélisation des interactions sur des gaussiennes apprises permet une manipulation contrôlable et stable à long terme et une généralisation au-delà des trajectoires observées, sans modèles physiques prédéfinis. SoMA améliore la précision de resimulation et la généralisation sur des manipulations robotiques réelles de 20%, permettant la simulation stable de tâches complexes comme le pliage de tissu à long terme.
Les modèles de langage à diffusion de grande taille (dLLM) sont apparus comme une alternative prometteuse aux modèles de langage purement autogressifs car ils peuvent décoder plusieurs jetons en parallèle. Cependant, les dLLM par blocs les plus performants reposent sur un mécanisme de « remasquage » qui ne décode que les jetons les plus confiants et rejette les autres, gaspillant ainsi efficacement du calcul. Nous démontrons que le recyclage du calcul des jetons rejetés est bénéfique, car ces jetons conservent des informations contextuelles utiles pour les itérations de décodage ultérieures. Compte tenu de cela, nous proposons la Diffusion à Contexte Résiduel (RCD), un module qui convertit ces représentations de jetons rejetés en résidus contextuels et les réinjecte pour l'étape de débruitage suivante. La RCD utilise un pipeline d'entraînement découplé en deux étapes pour contourner les goulots d'étranglement mémoire associés à la rétropropagation. Nous validons notre méthode à la fois sur des modèles de raisonnement CoT longs (SDAR) et sur des modèles de suivi d'instructions CoT courts (LLaDA). Nous démontrons qu'un dLLM standard peut être efficacement converti au paradigme RCD avec seulement ~1 milliard de jetons. La RCD améliore systématiquement les dLLM de pointe de 5 à 10 points de précision avec une surcharge de calcul minimale sur un large éventail de benchmarks. Notamment, sur les tâches AIME les plus difficiles, la RCD double presque la précision de base et permet jusqu'à 4 à 5 fois moins d'étapes de débruitage à des niveaux de précision équivalents.
L'apprentissage par renforcement (RL) est devenu un pilier pour le réglage fin des grands modèles de langage (LLM), l'Optimisation Proximale des Politiques (PPO) servant d'algorithme standard de facto. Malgré son omniprésence, nous soutenons que le mécanisme central de clipping du ratio dans PPO est structurellement inadapté aux grands vocabulaires inhérents aux LLM. PPO contraint les mises à jour de la politique basées sur le ratio de probabilité des tokens échantillonnés, qui sert d'estimation Monte Carlo à un échantillon, bruitée, de la vraie divergence de politique. Cela crée une dynamique d'apprentissage sous-optimale : les mises à jour pour les tokens de faible probabilité sont agressivement sur-pénalisées, tandis que les décalages potentiellement catastrophiques pour les tokens de haute probabilité sont sous-contraints, conduisant à une inefficacité et une instabilité de l'entraînement. Pour résoudre ce problème, nous proposons l'Optimisation Proximale des Politiques par Divergence (DPPO), qui substitue le clipping heuristique par une contrainte plus principielle basée sur une estimation directe de la divergence de politique (par exemple, la Variation Totale ou KL). Pour éviter une empreinte mémoire excessive, nous introduisons les approximations Binaire et Top-K efficaces pour capturer la divergence essentielle avec une surcharge négligeable. Des évaluations empiriques approfondies démontrent que DPPO atteint une stabilité et une efficacité d'entraînement supérieures aux méthodes existantes, offrant une base plus robuste pour le réglage fin des LLM par RL.
Les modèles récents de génération d'images par texte basés sur DiT adoptent de plus en plus des LLM comme encodeurs de texte, pourtant le conditionnement textuel reste largement statique et utilise souvent une seule couche de LLM, malgré une hiérarchie sémantique prononcée entre les couches du LLM et des dynamiques de bruitage non stationnaires à la fois dans le temps de diffusion et la profondeur du réseau. Pour mieux correspondre au processus dynamique de la génération DiT et ainsi améliorer la capacité générative du modèle de diffusion, nous introduisons un cadre unifié de fusion convexe normalisée équipé de portes légères pour organiser systématiquement les états cachés multi-couches du LLM via une fusion temporelle, en profondeur et conjointe. Les expériences établissent le Routage Sémantique en Profondeur comme la stratégie de conditionnement supérieure, améliorant constamment l'alignement texte-image et la génération compositionnelle (par exemple, +9.97 sur la tâche de décompte GenAI-Bench). À l'inverse, nous constatons qu'une fusion purement temporelle peut paradoxalement dégrader la fidélité de la génération visuelle. Nous attribuons cela à un décalage trajectoire d'entraînement-inférence : sous le guidage sans classifieur, les pas de temps nominaux ne parviennent pas à suivre le SNR effectif, provoquant une injection de caractéristiques à un moment sémantiquement inadéquat lors de l'inférence. Globalement, nos résultats positionnent le routage en profondeur comme une base de référence solide et efficace et soulignent le besoin crucial de signaux conscients de la trajectoire pour permettre un conditionnement temporel robuste.
Si les récentes avancées en représentations neuronales et modèles génératifs ont révolutionné la création de contenu 3D, ce domaine reste limité par d'importants goulots d'étranglement dans le traitement des données. Pour y remédier, nous présentons HY3D-Bench, un écosystème open-source conçu pour établir une base unifiée et de haute qualité pour la génération 3D. Nos contributions sont triples : (1) Nous constituons une bibliothèque de 250 000 objets 3D haute fidélité, distillés à partir de référentiels à grande échelle, en utilisant un pipeline rigoureux pour fournir des artefacts prêts pour l'entraînement, incluant des maillages étanches et des rendus multi-vues ; (2) Nous introduisons une décomposition structurelle au niveau des pièces, offrant la granularité essentielle pour une perception fine et un édition contrôlable ; et (3) Nous comblons les écarts de distribution du monde réel via un pipeline d’AIGC synthétique évolutif, contribuant 125 000 actifs synthétiques pour renforcer la diversité dans les catégories à longue traîne. Validé empiriquement par l'entraînement de Hunyuan3D-2.1-Small, HY3D-Bench démocratise l'accès à des ressources de données robustes, visant à catalyser l'innovation dans la perception 3D, la robotique et la création de contenu numérique.
Les illustrations scientifiques de haute qualité sont cruciales pour communiquer efficacement des concepts scientifiques et techniques complexes, mais leur création manuelle demeure un goulot d'étranglement bien connu tant dans le monde universitaire que dans l'industrie. Nous présentons FigureBench, la première base de référence à grande échelle pour la génération d'illustrations scientifiques à partir de textes scientifiques longs. Elle contient 3 300 paires texte-figure scientifiques de haute qualité, couvrant diverses tâches de conversion de texte en illustration issues d'articles scientifiques, de revues de littérature, de blogs et de manuels. De plus, nous proposons AutoFigure, le premier cadre agentique qui génère automatiquement des illustrations scientifiques de haute qualité à partir de textes scientifiques longs. Plus précisément, avant de produire le résultat final, AutoFigure procède à une réflexion approfondie, à une recombination et à une validation pour créer une mise en page à la fois structurellement solide et esthétiquement raffinée, produisant une illustration scientifique qui allie exhaustivité structurelle et attrait esthétique. En tirant parti des données de haute qualité de FigureBench, nous menons des expériences approfondies pour tester les performances d'AutoFigure par rapport à diverses méthodes de référence. Les résultats démontrent qu'AutoFigure surpasse constamment toutes les méthodes de référence, produisant des illustrations scientifiques prêtes pour la publication. Le code, l'ensemble de données et l'espace HuggingFace sont disponibles à l'adresse https://github.com/ResearAI/AutoFigure.
L'optimisation de politique relative au groupe (GRPO) a récemment émergé comme une méthode pratique pour aligner les grands modèles de langage sur des objectifs vérifiables. Cependant, avec des récompenses terminales éparses, la GRPO stagne souvent car les épisodes au sein d'un groupe reçoivent fréquemment des récompenses identiques, ce qui entraîne un effondrement des avantages relatifs et une annulation des mises à jour. Nous proposons la GRPO alignée par auto-indice avec supervision privilégiée (SAGE), un cadre d'apprentissage par renforcement sur-politique qui injecte des indices privilégiés pendant l'entraînement pour remodeler la distribution des épisodes sous la même récompense terminale du vérificateur. Pour chaque prompt x, le modèle échantillonne un indice compact h (par exemple, un plan ou une décomposition) puis génère une solution τ conditionnée par (x,h). Fait crucial, la récompense de tâche R(x,τ) reste inchangée ; les indices augmentent uniquement la diversité des résultats au sein du groupe sous un échantillonnage fini, empêchant l'effondrement des avantages GRPO sous des récompenses éparses. Au moment du test, nous fixons h=varnothing et déployons la politique sans indice, sans aucune information privilégiée. De plus, l'échantillonnage d'auto-indices diversifiés sert de curriculum adaptatif qui suit les goulots d'étranglement de l'apprenant plus efficacement que des indices fixes provenant d'une politique initiale ou d'un modèle externe plus fort. Les expériences sur 6 benchmarks avec 3 LLM montrent que SAGE surpasse constamment la GRPO, en moyenne de +2,0 sur Llama-3.2-3B-Instruct, +1,2 sur Qwen2.5-7B-Instruct et +1,3 sur Qwen3-4B-Instruct. Le code est disponible à l'adresse https://github.com/BaohaoLiao/SAGE.
Les modèles linguistiques (LM) actuels excellent dans le raisonnement sur des prompts en utilisant des connaissances pré-entraînées. Cependant, les tâches du monde réel sont bien plus complexes et dépendantes du contexte : les modèles doivent apprendre à partir du contexte spécifique à la tâche et exploiter de nouvelles connaissances au-delà de celles acquises lors du pré-entraînement pour raisonner et résoudre les tâches. Nous nommons cette capacité l'apprentissage contextuel (context learning), une aptitude cruciale que les humains possèdent naturellement mais qui a été largement négligée. Pour cela, nous présentons CL-bench, un benchmark du monde réel composé de 500 contextes complexes, 1 899 tâches et 31 607 grilles d'évaluation, tous conçus par des experts domainaux expérimentés. Chaque tâche est conçue de telle sorte que le nouveau contenu nécessaire à sa résolution est contenu dans le contexte correspondant. Résoudre les tâches de CL-bench nécessite que les modèles apprennent à partir du contexte, qu'il s'agisse de nouvelles connaissances spécifiques à un domaine, de systèmes de règles, de procédures complexes ou de lois dérivées de données empiriques, toutes absentes du pré-entraînement. Cela va bien au-delà des tâches à long contexte qui testent principalement la récupération ou la compréhension écrite, et des tâches d'apprentissage en contexte (in-context learning), où les modèles apprennent des schémas de tâches simples via des instructions et des démonstrations. Nos évaluations de dix LM de pointe montrent que les modèles ne résolvent en moyenne que 17,2 % des tâches. Même le modèle le plus performant, GPT-5.1, n'en résout que 23,7 %, révélant que les LM n'ont pas encore acquis un apprentissage contextuel efficace, ce qui constitue un goulot d'étranglement critique pour aborder les tâches réelles complexes dépendantes du contexte. CL-bench représente une étape vers la construction de LM dotés de cette capacité fondamentale, les rendant plus intelligents et faisant progresser leur déploiement dans des scénarios du monde réel.
Au cours de la dernière décennie, la trajectoire de l'intelligence artificielle générative a été dominée par un paradigme centré sur les modèles, piloté par les lois d'échelle. Malgré des progrès significatifs en matière de fidélité visuelle, cette approche a rencontré un « plafond d'utilisabilité » qui se manifeste par le Fossé Intention-Exécution (c'est-à-dire la disparité fondamentale entre l'intention de haut niveau d'un créateur et la nature stochastique et en boîte noire des modèles actuels à exécution unique). Dans cet article, inspirés par le Vibe Coding, nous introduisons le Vibe AIGC, un nouveau paradigme pour la génération de contenu via une orchestration agentique, qui représente la synthèse autonome de flux de travail hiérarchiques multi-agents. Dans ce paradigme, le rôle de l'utilisateur transcende l'ingénierie de prompts traditionnelle pour évoluer vers celui d'un Commandant qui fournit une « Vibe », une représentation de haut niveau englobant les préférences esthétiques, la logique fonctionnelle, etc. Un Méta-Planificateur centralisé agit alors comme un architecte système, déconstruisant cette « Vibe » en pipelines agentiques exécutables, vérifiables et adaptatifs. En passant de l'inférence stochastique à l'orchestration logique, le Vibe AIGC comble le fossé entre l'imagination humaine et l'exécution machine. Nous soutenons que ce changement redéfinira l'économie collaborative humain-IA, transformant l'IA d'un moteur d'inférence fragile en un partenaire d'ingénierie robuste au niveau système, démocratisant ainsi la création d'actifs numériques complexes et de long terme.
Pourquoi les politiques préentraînées par diffusion ou appariement de flux échouent-elles lorsque la même tâche est exécutée près d'un obstacle, sur une surface de support décalée ou au milieu d'un encombrement modéré ? Ces échecs reflètent rarement un manque de compétences motrices ; ils révèlent plutôt une limitation de l'apprentissage par imitation face à des décalages entre entraînement et test, où la génération d'actions est étroitement couplée à des configurations spatiales et des spécifications de tâches propres à l'entraînement. Le réentraînement ou le réglage fin pour résoudre ces échecs est coûteux et conceptuellement inadapté, car les comportements requis existent déjà mais ne peuvent pas être adaptés de manière sélective au moment du test. Nous proposons Vision-Language Steering (VLS), un cadre sans entraînement pour l'adaptation à l'inférence de politiques robotiques génératives figées. VLS traite l'adaptation comme un problème de contrôle à l'inférence, orientant le processus d'échantillonnage d'une politique préentraînée par diffusion ou appariement de flux en réponse à des observations et descriptions linguistiques hors distribution, sans modifier les paramètres de la politique. En exploitant des modèles vision-langage pour synthétiser des fonctions de récompense différenciables par rapport à la trajectoire, VLS guide le débruitage vers des trajectoires d'actions qui satisfont aux exigences spatiales et de tâche au moment du test. Lors d'évaluations en simulation et dans le monde réel, VLS surpasse constamment les méthodes d'orientation antérieures, avec une amélioration de 31 % sur CALVIN et un gain de 13 % sur LIBERO-PRO. Le déploiement réel sur un robot Franka démontre en outre une adaptation robuste à l'inférence face à des décalages spatiaux et sémantiques lors des tests. Page du projet : https://vision-language-steering.github.io/webpage/
Les modèles de langage de pointe ont démontré de solides capacités de raisonnement et d'utilisation d'outils sur le long terme. Cependant, les systèmes RAG existants ne parviennent pas à exploiter ces capacités. Ils reposent encore sur deux paradigmes : (1) concevoir un algorithme qui récupère des passages en une seule fois et les concatène dans l'entrée du modèle, ou (2) prédéfinir un workflow et inciter le modèle à l'exécuter étape par étape. Aucun de ces paradigmes ne permet au modèle de participer aux décisions de récupération, empêchant ainsi une mise à l'échelle efficace avec les améliorations du modèle. Dans cet article, nous présentons A-RAG, un cadre RAG agentique qui expose des interfaces de récupération hiérarchique directement au modèle. A-RAG fournit trois outils de récupération : recherche par mots-clés, recherche sémantique et lecture de segments, permettant à l'agent de rechercher et de récupérer des informations de manière adaptative sur plusieurs granularités. Les expériences sur plusieurs benchmarks de questions-réponses en domaine ouvert montrent qu'A-RAG surpasse constamment les approches existantes avec un nombre comparable ou inférieur de tokens récupérés, démontrant qu'A-RAG exploite efficacement les capacités du modèle et s'adapte dynamiquement aux différentes tâches RAG. Nous étudions en outre systématiquement comment A-RAG évolue avec la taille du modèle et le calcul au moment du test. Nous publierons notre code et notre suite d'évaluation pour faciliter les recherches futures. Le code et la suite d'évaluation sont disponibles à l'adresse https://github.com/Ayanami0730/arag.
Les agents de recherche sont des modèles de langage (LM) qui raisonnent et interrogent des bases de connaissances (ou le web) pour répondre à des questions ; les méthodes récentes supervisent uniquement la précision de la réponse finale en utilisant l'apprentissage par renforcement avec des récompenses vérifiables (RLVR). La plupart des agents de recherche RLVR traitent de questions-réponses en domaine général, ce qui limite leur pertinence pour les systèmes d'IA techniques dans les domaines scientifiques, techniques et médicaux. Dans ce travail, nous proposons d'entraîner des agents à rechercher et raisonner sur des articles scientifiques – cela permet de tester la réponse à des questions techniques, c'est directement pertinent pour les scientifiques réels, et ces capacités seront cruciales pour les futurs systèmes d'IA scientifique. Concrètement, nous publions un corpus de recherche de 16 millions de résumés d'articles biomédicaux et construisons un jeu de données de questions-réponses factuelles exigeant appelé PaperSearchQA avec 60 000 échantillons dont la réponse se trouve dans le corpus, ainsi que des benchmarks. Nous entraînons des agents de recherche dans cet environnement à surpasser les bases de référence de récupération non-RL ; nous effectuons également une analyse quantitative supplémentaire et observons des comportements intéressants des agents comme la planification, le raisonnement et l'auto-vérification. Notre corpus, jeux de données et benchmarks sont utilisables avec le codebase populaire Search-R1 pour l'entraînement RLVR et sont publiés sur https://huggingface.co/collections/jmhb/papersearchqa. Enfin, nos méthodes de création de données sont évolutives et facilement extensibles à d'autres domaines scientifiques.
La croissance rapide des grands modèles de langage (LLM) a dépassé l'évolution du matériel à GPU unique, rendant l'échelle des modèles de plus en plus contrainte par la capacité mémoire plutôt que par le calcul. Bien que les systèmes d'entraînement modernes étendent la mémoire GPU via le parallélisme distribué et la déportation de charge à travers les niveaux CPU et stockage, ils conservent fondamentalement un paradigme d'exécution centré sur le GPU dans lequel les GPU hébergent des répliques persistantes du modèle et des graphes d'autograd complets. En conséquence, la mise à l'échelle de grands modèles reste étroitement couplée à des grappes multi-GPU, des environnements d'exécution distribués complexes et une consommation mémoire hôte imprévisible, créant des barrières substantielles pour les charges de travail post-entraînement à l'échelle du nœud, telles que le réglage par instruction, l'alignement et l'adaptation de domaine. Nous présentons Horizon-LM, un système d'entraînement à mémoire centrée qui redéfinit les rôles du CPU et du GPU pour l'optimisation des grands modèles. Horizon-LM traite la mémoire hôte comme le stockage de paramètres autoritaire et utilise les GPU uniquement comme moteurs de calcul transitoires via un modèle d'exécution CPU-maître, GPU-esclave. En éliminant les modules résidents persistants sur le GPU et les graphes d'autograd, en employant une recomputation explicite avec propagation manuelle des gradients, et en introduisant un moteur d'exécution pipeliné à double tampon, Horizon-LM découple l'échelle du modèle du nombre de GPU et limite l'utilisation mémoire à l'empreinte théorique des paramètres. Sur un seul GPU H200 avec 1,5 To de RAM hôte, Horizon-LM entraîne de manière fiable des modèles jusqu'à 120 milliards de paramètres. Sur une machine standard à un seul A100, Horizon-LM atteint jusqu'à 12,2 fois le débit d'entraînement de DeepSpeed ZeRO-3 avec déportation CPU, tout en préservant l'exactitude numérique. Sur toutes les plateformes et échelles, Horizon-LM maintient une utilisation élevée des dispositifs et une croissance mémoire prévisible, démontrant que la mémoire hôte, et non la mémoire GPU, définit la véritable frontière de faisabilité pour l'entraînement de grands modèles à l'échelle du nœud.
L'évolution des agents de modèles de langage de grande taille (LLM) pour l'ingénierie logicielle (SWE) est limitée par la rareté des ensembles de données vérifiables, un goulot d'étranglement découlant de la complexité de construction d'environnements exécutables dans divers langages. Pour résoudre ce problème, nous présentons MEnvAgent, un cadre multi-langage pour la construction automatisée d'environnements qui facilite la génération évolutive d'instances de tâches vérifiables. MEnvAgent utilise une architecture Planification-Exécution-Vérification multi-agents pour résoudre de manière autonome les échecs de construction et intègre un nouveau mécanisme de Réutilisation d'Environnement qui réduit la surcharge computationnelle en corrigeant progressivement les environnements historiques. Les évaluations sur MEnvBench, un nouveau benchmark comprenant 1 000 tâches dans 10 langages, démontrent que MEnvAgent surpasse les approches de référence, améliorant les taux d'échec à réussite (F2P) de 8,6 % tout en réduisant les coûts temporels de 43 %. De plus, nous démontrons l'utilité de MEnvAgent en construisant MEnvData-SWE, le plus grand ensemble de données polyglotte open-source d'environnements Docker vérifiables réalistes à ce jour, accompagné de trajectoires de solution qui permettent des gains de performance cohérents sur les tâches SWE pour un large éventail de modèles. Notre code, benchmark et ensemble de données sont disponibles à l'adresse https://github.com/ernie-research/MEnvAgent.
Les grands modèles de langage (LLM) peuvent acquérir des biais non intentionnels à partir de données d'entraînement apparemment bénignes, même sans indices explicites ou contenu malveillant. Les méthodes existantes peinent à détecter ces risques avant le fine-tuning, rendant l'évaluation post hoc coûteuse et inefficace. Pour relever ce défi, nous introduisons Data2Behavior, une nouvelle tâche visant à prédire les comportements non intentionnels des modèles avant l'entraînement. Nous proposons également Manipulating Data Features (MDF), une approche légère qui résume les données candidates via leurs représentations moyennes et les injecte dans la passe avant d'un modèle de base, permettant aux signaux statistiques latents dans les données d'influencer les activations du modèle et de révéler les biais potentiels et risques de sécurité sans mettre à jour aucun paramètre. MDF permet une prédiction fiable tout en consommant seulement environ 20% des ressources GPU nécessaires au fine-tuning. Les expériences sur Qwen3-14B, Qwen2.5-32B-Instruct et Gemma-3-12b-it confirment que MDF peut anticiper les comportements non intentionnels et fournir un éclairage sur les vulnérabilités pré-entraînement.
La gestion de la pensée et de l'observation des agents lors d'interactions multi-tours agent-environnement est une stratégie émergente pour améliorer l'efficacité des agents. Cependant, les études existantes traitent l'ensemble des trajectoires d'interaction de manière égale, négligeant le fait que la nécessité de la pensée et l'utilité de l'observation varient selon les tours. Pour cela, nous menons d'abord des investigations quantitatives sur la manière dont la pensée et l'observation affectent l'efficacité et le rendement des agents. Sur la base de nos résultats, nous proposons Agent-Omit, un cadre d'apprentissage unifié qui permet aux agents LLM d'omettre de manière adaptative les pensées et observations redondantes. Plus précisément, nous synthétisons d'abord une petite quantité de données de démarrage à froid, incluant des scénarios d'omission à tour unique et multi-tours, pour affiner le comportement d'omission de l'agent. De plus, nous introduisons une approche d'apprentissage par renforcement agentique sensible à l'omission, incorporant un mécanisme d'échantillonnage dual et une récompense d'omission sur mesure pour stimuler la capacité d'omission adaptative de l'agent. Théoriquement, nous prouvons que l'écart de notre politique d'omission est borné supérieurement par la divergence KL. Les résultats expérimentaux sur cinq benchmarks d'agents montrent que notre Agent-Omit-8B peut atteindre des performances comparables à sept agents LLM de pointe, et obtenir le meilleur compromis efficacité-rendement par rapport à sept méthodes d'agents LLM efficaces. Notre code et nos données sont disponibles à l'adresse https://github.com/usail-hkust/Agent-Omit.
L'utilisation efficace d'outils et le raisonnement sont des capacités essentielles pour les grands modèles de raisonnement (LRM) afin de résoudre des problèmes complexes du monde réel. Par une analyse empirique, nous identifions que les LRM actuels manquent de capacité de décomposition en sous-tâches dans des scénarios complexes d'utilisation d'outils, conduisant à un Raisonnement Paresseux. Pour y remédier, nous proposons un cadre d'entraînement en deux étapes, D-CORE (\textbf{D}écomposition des tâches et \textbf{Co}mposition des processus de \textbf{Re}aisonnement), qui incite d'abord la capacité de raisonnement par décomposition de tâches des LRM via l'autodistillation, suivie d'un apprentissage par renforcement tenant compte de la diversité (RL) pour restaurer la capacité de raisonnement réflexif des LRM. D-CORE permet des améliorations robustes de l'utilisation d'outils sur diverses benchmarks et échelles de modèles. Les expériences sur BFCLv3 démontrent la supériorité de notre méthode : D-CORE-8B atteint une précision de 77,7 %, surpassant le meilleur modèle 8B de 5,7 %. Parallèlement, D-CORE-14B établit un nouvel état de l'art à 79,3 %, surpassant les modèles 70B bien qu'étant 5 fois plus petit. Le code source est disponible à l'adresse https://github.com/alibaba/EfficientAI.
Les récents progrès des modèles multimodaux unifiés (UMM) ont démontré des avancées remarquables dans les tâches de compréhension et de génération. Cependant, la question de savoir si ces deux capacités sont véritablement alignées et intégrées au sein d'un même modèle demeure incertaine. Pour étudier cette problématique, nous présentons GapEval, un benchmark bidirectionnel conçu pour quantifier l'écart entre les capacités de compréhension et de génération, et mesurer quantitativement la cohérence cognitive des deux directions dites « unifiées ». Chaque question peut être répondue dans les deux modalités (image et texte), permettant une évaluation symétrique de la capacité d'inférence bidirectionnelle d'un modèle et de sa cohérence cross-modale. Les expériences révèlent un écart persistant entre les deux directions pour une large gamme d'UMM aux architectures variées, suggérant que les modèles actuels n'atteignent qu'une unification superficielle plutôt qu'une convergence cognitive profonde des deux capacités. Pour explorer plus avant le mécanisme sous-jacent, nous menons une étude empirique sous l'angle de la manipulation des connaissances afin d'illustrer les limitations fondamentales. Nos résultats indiquent que les connaissances au sein des UMM restent souvent disjointes. L'émergence des capacités et les connaissances à travers les modalités ne sont pas synchronisées, ouvrant la voie à de futures explorations.
Le raisonnement spatial est un aspect fondamental de la cognition humaine, mais il reste un défi majeur pour les modèles vision-langage (VLM) contemporains. Les travaux antérieurs reposaient largement sur des environnements synthétiques ou générés par LLM, avec des conceptions de tâches limitées et des configurations proches de casse-têtes, ne parvenant pas à capturer la complexité du monde réel, le bruit visuel et les relations spatiales diverses auxquels les VLMs sont confrontés. Pour remédier à cela, nous présentons SpatiaLab, un benchmark complet pour évaluer le raisonnement spatial des VLMs dans des contextes réalistes et non contraints. SpatiaLab comprend 1 400 paires question-réponse visuelles réparties en six catégories principales : Positionnement Relatif, Profondeur et Occlusion, Orientation, Taille et Échelle, Navigation Spatiale et Géométrie 3D, chacune avec cinq sous-catégories, soit 30 types de tâches distincts. Chaque sous-catégorie contient au moins 25 questions, et chaque catégorie principale comprend au moins 200 questions, supportant une évaluation à choix multiples et ouverte. Des expériences sur diverses VLMs de pointe, incluant des modèles open-source et propriétaires, des modèles axés sur le raisonnement et des modèles spécialisés en raisonnement spatial, révèlent un écart substantiel dans les capacités de raisonnement spatial par rapport aux humains. Dans le cadre à choix multiples, InternVL3.5-72B atteint une précision de 54,93 % contre 87,57 % pour les humains. Dans le cadre à réponses ouvertes, tous les modèles montrent une baisse de performance d'environ 10 à 25 %, GPT-5-mini obtenant le score le plus élevé à 40,93 % contre 64,93 % pour les humains. Ces résultats mettent en lumière des limitations clés dans la gestion des relations spatiales complexes, la perception de la profondeur, la navigation et la géométrie 3D. En fournissant un cadre d'évaluation diversifié et ancré dans le monde réel, SpatiaLab expose des défis et des opportunités critiques pour faire progresser le raisonnement spatial des VLMs, offrant un benchmark pour guider les recherches futures vers une compréhension spatiale robuste et alignée avec l'humain. SpatiaLab est disponible à l'adresse : https://spatialab-reasoning.github.io/.
L'entraînement de modèles de langage de grande taille (LLM) pour des tâches liées au code repose généralement sur des paires code-documentation de haute qualité, qui sont coûteuses à constituer et souvent rares pour les langages de programmation de niche. Nous présentons BatCoder, un cadre d'apprentissage par renforcement auto-supervisé conçu pour optimiser conjointement la génération de code et la production de documentation. BatCoder utilise une stratégie de rétro-traduction : une documentation est d'abord générée à partir du code, puis cette documentation générée est utilisée pour reconstruire le code original. La similarité sémantique entre le code original et le code reconstruit sert de récompense implicite, permettant à l'apprentissage par renforcement d'améliorer les performances du modèle à la fois pour générer du code à partir de documentation et inversement. Cette approche permet d'entraîner les modèles en utilisant uniquement du code, augmentant ainsi considérablement le nombre d'exemples d'entraînement disponibles. Évalué sur HumanEval et MBPP avec un modèle de 7 milliards de paramètres, BatCoder a atteint des scores de 83,5 % et 81,0 % en pass@1, surpassant des bases de référence open-source solides. De plus, le cadre démontre une scalabilité constante à la fois par rapport à la taille du corpus d'entraînement et à la capacité du modèle.
L'affinage des grands modèles de langage (LLM) sur des benchmarks de raisonnement par apprentissage par renforcement nécessite une fonction de récompense spécifique, souvent binaire, pour chaque benchmark. Cela présente deux limitations potentielles : la nécessité de concevoir la récompense, et la nature potentiellement parcellaire des récompenses binaires. Ici, nous étudions systématiquement les récompenses dérivées de la probabilité ou de la log-probabilité d'émettre la réponse de référence (ou toute autre continuation de prompt présente dans les données), lesquelles présentent l'avantage de ne pas dépendre de vérificateurs spécifiques et d'être disponibles à grande échelle. Plusieurs travaux récents ont préconisé l'utilisation de récompenses similaires (par exemple, VeriFree, JEPO, RLPR, NOVER). Nous comparons systématiquement des variantes de récompenses basées sur la vraisemblance avec des lignes de base standard, en testant les performances à la fois sur des benchmarks standards de raisonnement mathématique et sur des réponses longues où aucun vérificateur externe n'est disponible. Nous constatons que l'utilisation de la log-probabilité de la réponse de référence comme récompense pour l'apprentissage par enchaînement de pensées (CoT) est la seule option qui fonctionne bien dans toutes les configurations. Cette récompense est également cohérente avec la perte de log-vraisemblance du token suivant utilisée lors du pré-entraînement. Dans des contextes vérifiables, les récompenses en log-probabilité offrent des taux de succès comparables ou supérieurs au renforcement avec des récompenses binaires standard, et produisent une perplexité bien meilleure. Dans des contextes non vérifiables, elles performent au même niveau que le Fine-Tuning Supervisé (SFT). En revanche, les méthodes basées sur la probabilité, comme VeriFree, plafonnent dans les contextes non vérifiables en raison de la probabilité négligeable d'obtenir la bonne réponse. Globalement, cela établit les récompenses en log-probabilité comme une méthode viable pour l'affinage CoT, faisant le pont entre les contextes de réponses courtes et vérifiables et ceux de réponses longues et non vérifiables.
L'évaluation actuelle des VLM incarnés repose sur des benchmarks statiques, définis par des experts et annotés manuellement, qui présentent une redondance sévère et un déséquilibre de couverture. Ce paradigme laborieux draine les ressources computationnelles et d'annotation, gonfle les coûts et fausse le classement des modèles, freinant in fine le développement itératif. Pour y remédier, nous proposons l'Évaluation Automatique Agentique (A2Eval), premier cadre agentique automatisant la curation et l'évaluation des benchmarks via deux agents collaboratifs. L'Agent Données induit de manière autonome des dimensions de capacité et assemble une suite d'évaluation équilibrée et compacte, tandis que l'Agent Éval synthétise et valide des pipelines d'évaluation exécutables, permettant une évaluation entièrement autonome et haute fidélité. Évalué sur 10 benchmarks et 13 modèles, A2Eval compresse les suites d'évaluation de 85%, réduit les coûts computationnels globaux de 77% et offre une accélération de 4,6x tout en préservant la qualité de l'évaluation. Surtout, A2Eval corrige les biais systématiques de classement, améliore l'alignement humain jusqu'à un rho de Spearman=0,85 et maintient une haute fidélité de classement (tau de Kendall=0,81), établissant un nouveau standard pour l'évaluation incarnée haute fidélité et faible coût. Notre code et nos données seront bientôt publics.
La Reconnaissance d'Entités Nommées Multimodales Ancrée (GMNER) vise à extraire des entités textuelles, à leur attribuer des catégories sémantiques et à les ancrer dans des régions visuelles correspondantes. Dans ce travail, nous explorons le potentiel des Grands Modèles Linguistiques Multimodaux (MLLMs) pour réaliser la GMNER de manière end-to-end, au-delà de leur rôle typique d'outils auxiliaires dans des approches en cascade. Notre étude révèle un défi fondamental : les MLLMs présentent un biais de modalité, incluant un biais visuel et un biais textuel, qui découle de leur tendance à emprunter des raccourcis unimodaux plutôt qu'à effectuer une vérification multimodale rigoureuse. Pour y remédier, nous proposons le Raisonnement par Cohérence Sensible aux Modalités (MCR), qui impose un raisonnement multimodal structuré via l'Injection de Schémas de Raisonnement Multi-styles (MRSI) et l'Optimisation Vérifiable Guidée par Contraintes (CVO). MRSI transforme des contraintes abstraites en chaînes de raisonnement exécutables, tandis que CVO permet au modèle d'aligner dynamiquement ses trajectoires de raisonnement avec l'Optimisation de Politique Relative par Groupe (GRPO). Les expériences sur les tâches de GMNER et d'ancrage visuel démontrent que MCR atténue efficacement le biais de modalité et obtient des performances supérieures aux méthodes de référence existantes.
Le modèle de diffusion vidéo autorégressif a récemment suscité un intérêt de recherche considérable grâce à sa modélisation causale et à son débruîtage itératif. Dans ce travail, nous constatons que l'auto-attention multi-têtes dans ces modèles sous-utilise les trames historiques : environ 25 % des têtes s'attachent presque exclusivement à la trame courante, et supprimer leurs caches KV n'entraîne qu'une dégradation mineure des performances. Sur cette base, nous proposons Dummy Forcing, une méthode simple mais efficace pour contrôler l'accessibilité du contexte entre les différentes têtes. Spécifiquement, l'allocation de mémoire hétérogène proposée réduit la redondance contextuelle par tête, accompagnée d'une programmation dynamique des têtes pour classer adaptivement les types de têtes. De plus, nous développons une technique de regroupement contextuel pour obtenir une compression de cache plus agressive. Sans entraînement supplémentaire, notre méthode Dummy Forcing offre une accélération jusqu'à 2,0x par rapport à la baseline, permettant une génération vidéo à 24,3 IPS avec une baisse de qualité inférieure à 0,5 %. La page du projet est disponible à l'adresse https://csguoh.github.io/project/DummyForcing/.
Nous explorons la traduction automatique pour cinq paires de langues turciques : russe-bachkir, russe-kazakh, russe-kirghiz, anglais-tatar et anglais-tchouvache. Le fine-tuning de nllb-200-distilled-600M avec LoRA sur des données synthétiques a permis d'atteindre un score chrF++ de 49,71 pour le kazakh et 46,94 pour le bachkir. L'approche par prompting de DeepSeek-V3.2 avec récupération d'exemples similaires a obtenu un chrF++ de 39,47 pour le tchouvache. Pour le tatar, les approches zero-shot ou basées sur la récupération ont atteint un chrF++ de 41,6, tandis que pour le kirghiz, l'approche zero-shot a obtenu 45,6. Nous rendons publics le jeu de données et les poids obtenus.
La Discussion Multi-Agent (MAD) a récemment suscité un intérêt croissant, où plusieurs instances de modèles de langage résolvent des problèmes de manière collaborative via une discussion structurée. Cependant, nous constatons que les méthodes MAD actuelles souffrent facilement d'incohérence discussionnelle : les modèles échouent à atteindre une solution cohérente en raison du désalignement entre leurs contextes individuels. Dans cet article, nous présentons une méthode d'apprentissage de contexte multi-modèle (M2CL) qui apprend un générateur de contexte pour chaque agent, capable de générer dynamiquement des instructions contextuelles à chaque tour de discussion via une organisation et un raffinement automatiques de l'information. Plus précisément, inspiré par nos insights théoriques sur l'instruction contextuelle, M2CL entraîne les générateurs à contrôler la cohérence contextuelle et les divergences de sortie via un mécanisme auto-adaptatif soigneusement conçu. Cette approche permet aux modèles d'éviter une convergence prématurée sur un bruit majoritaire et d'atteindre progressivement le consensus correct. Nous évaluons M2CL sur des tâches complexes, incluant le raisonnement académique, les tâches incarnées et le contrôle mobile. Les résultats montrent que les performances de M2CL surpassent significativement les méthodes existantes de 20% à 50%, tout en bénéficiant d'une transférabilité et d'une efficacité computationnelle favorables.
La prolifération rapide des modèles génératifs 3D a créé un goulot d'étranglement critique dans les pipelines d'animation : le rigging. Les méthodes automatisées existantes sont fondamentalement limitées par leur approche du skinning, le traitant comme une tâche de régression hautement dimensionnelle et mal posée, qui est inefficace à optimiser et généralement découplée de la génération du squelette. Nous postulons qu'il s'agit d'un problème de représentation et introduisons SkinTokens : une représentation apprise, compacte et discrète pour les poids d'enveloppe. En tirant parti d'un FSQ-CVAE pour capturer la sparsité intrinsèque du skinning, nous reformulons la tâche d'une régression continue vers un problème de prédiction de séquence de tokens plus traitable. Cette représentation permet TokenRig, un framework autogressif unifié qui modélise l'intégralité du rig comme une séquence unique de paramètres squelettiques et de SkinTokens, apprenant les dépendances complexes entre les squelettes et les déformations de peau. Le modèle unifié est ensuite propice à une étape d'apprentissage par renforcement, où des récompenses géométriques et sémantiques sur mesure améliorent la généralisation à des assets complexes hors distribution. Quantitativement, la représentation SkinTokens conduit à une amélioration de 98 % à 133 % de la précision du skinning par rapport aux méthodes de l'état de l'art, tandis que le framework complet TokenRig, affiné par RL, améliore la prédiction osseuse de 17 % à 22 %. Notre travail présente une approche générative unifiée du rigging qui offre une fidélité et une robustesse supérieures, proposant une solution évolutive à un défi de longue date dans la création de contenu 3D.
Ce travail présente le SMC auto-récompensant (Sequential Monte Carlo), un algorithme de mise à l'échelle lors de l'inférence permettant un échantillonnage efficace des modèles de langage à diffusion masquée (MDLM). Notre algorithme découle de l'observation que la plupart des MDLM existants reposent sur une stratégie d'échantillonnage basée sur la confiance, où seuls les tokens présentant la plus haute confiance prédictive sont préservés à chaque étape. Cela restreint la génération à un paradigme de décodage glouton sensible au bruit, entraînant un effondrement inévitable de la diversité des trajectoires possibles. Nous résolvons ce problème en lançant en parallèle plusieurs processus de diffusion interactifs, appelés particules, pour l'exploration des trajectoires. Surtout, nous introduisons la confiance au niveau de la trajectoire comme signal d'auto-récompense pour attribuer des poids d'importance aux particules. Durant l'échantillonnage, les particules sont itérativement pondérées et rééchantillonnées pour orienter systématiquement la génération vers des échantillons de haute qualité et globalement confiants. Notre SMC auto-récompensant est validé sur divers modèles de langage à diffusion masquée et benchmarks, obtenant une amélioration significative sans entraînement supplémentaire ni guide de récompense, tout en convertissant efficacement la capacité d'inférence parallèle en une qualité d'échantillonnage améliorée. Notre code est disponible à l'adresse https://github.com/Algolzw/self-rewarding-smc.
Nous présentons la modélisation autogressive des protéines (PAR), le premier cadre autogressif multi-échelle pour la génération de squelette protéique via une prédiction hiérarchique allant du grossier au fin. En exploitant la nature hiérarchique des protéines, PAR génère des structures qui imitent la sculpture d'une statue, formant d'abord une topologie grossière avant d'affiner les détails structurels à travers les échelles. Pour y parvenir, PAR comprend trois composants clés : (i) des opérations de sous-échantillonnage multi-échelles qui représentent les structures protéiques à plusieurs échelles durant l'entraînement ; (ii) un transformeur autogressif qui encode l'information multi-échelle et produit des plongements conditionnels pour guider la génération de structures ; (iii) un décodeur de squelette basé sur des flux qui génère les atomes du squelette conditionnellement à ces plongements. De plus, les modèles autogressifs souffrent du biais d'exposition, causé par l'écart entre les procédures d'entraînement et de génération, ce qui dégrade substantiellement la qualité de la génération des structures. Nous atténuons efficacement ce problème en adoptant l'apprentissage par contexte bruité et l'échantillonnage planifié, permettant une génération robuste du squelette. Notamment, PAR présente une forte généralisation zero-shot, supportant une génération conditionnelle flexible guidée par l'humain et l'échafaudage de motifs sans nécessiter de micro-ajustement. Sur le benchmark de génération inconditionnelle, PAR apprend efficacement les distributions de protéines et produit des squelettes de haute qualité conceptuelle, tout en présentant un comportement d'échelle favorable. Ensemble, ces propriétés établissent PAR comme un cadre prometteur pour la génération de structures protéiques.
L'analyse radiologique bénéficie de plus en plus de représentations visuelles pré-entraînées capables de prendre en charge des tâches en aval hétérogènes à travers les modalités d'imagerie. Dans ce travail, nous présentons OmniRad, un modèle fondamental radiologique auto-supervisé pré-entraîné sur 1,2 million d'images médicales, conçu selon des principes inspirés de la radiologie qui mettent l'accent sur la réutilisation des représentations et la transférabilité inter-tâches. Nous évaluons l'encodeur pré-entraîné selon plusieurs régimes d'adaptation en aval, incluant des adaptateurs légers spécifiques aux tâches avec une architecture principale gelée ainsi qu'un réglage fin complet de bout en bout pour la classification, nous permettant d'évaluer à la fois la qualité de représentation et les performances spécifiques aux tâches. OmniRad est évalué sur un large éventail de benchmarks publics couvrant la classification et la segmentation sur multiples modalités. Sur la collection MedMNISTv2, OmniRad améliore le F1 de classification jusqu'à 2,05% par rapport aux modèles fondamentaux concurrents. Pour la prédiction dense, OmniRad obtient des améliorations du score de Dice moyen sur six ensembles de données MedSegBench en utilisant des représentations gelées. Les analyses qualitatives et les visualisations de l'espace latent suggèrent une amélioration du regroupement des caractéristiques et une séparation liée aux modalités.
L'optimisation par les politiques proximales (PPO) est considérée par la littérature récente comme la méthode canonique pour la partie apprentissage par renforcement (RL) du RLHF. Bien que le PPO obtienne de bonnes performances empiriques, sa motivation est heuristique et il gère la contrainte de divergence KL utilisée dans LM-RLHF de manière ad hoc. Il souffre également d'oscillations de la récompense, d'effondrement de l'entropie, de dérive de la fonction de valeur et de divergences soudaines de la politique, qui nécessitent des redémarrages fréquents et un réglage hyperparamétrique étendu. Dans cet article, nous développons une nouvelle méthode RL acteur-critique purement sur politique pour le cadre LM-RLHF. Nous présentons SAFE (Stable Alignment Finetuning with Entropy-aware control), un nouvel algorithme RLHF qui combine un critique à double soft-min pour l'estimation pessimiste de la valeur avec un nouveau cadre de stabilisation multi-couches combinant une régulation KL conditionnée par l'entropie et des seuils adaptatifs contrôlés par PID. Contrairement aux pénalités KL symétriques du PPO standard, SAFE distingue l'exploration en haute entropie de l'effondrement modal en basse entropie et ajuste dynamiquement les pénalités en fonction de la vélocité des récompenses. Les expériences sur un modèle de 3 milliards de paramètres montrent que SAFE obtient une récompense moyenne d'entraînement supérieure de +5,15 % à celle du PPO (0,725 contre 0,689), des chutes de récompense négligeables et un contrôle KL supérieur. Notre méthode ajoute une surcharge computationnelle minimale et fournit un cadre RLHF interprétable et résistant aux crashes, qui maintient une vitesse d'apprentissage agressive tout en garantissant une optimisation stable à long terme adaptée à un déploiement en production. Le code est disponible à l'adresse https://github.com/ryyzn9/SAFE.
Les modèles linguistiques modernes sont entraînés presque exclusivement sur des séquences de tokens produites par un tokeniseur fixe, un compresseur externe sans perte généralement appliqué à des séquences d'octets UTF-8, couplant ainsi le modèle à ce compresseur. Ce travail présente la compression par procuration, un schéma d'entraînement alternatif qui préserve les avantages d'efficacité des entrées compressées tout en fournissant une interface de bout en bout sur les octets bruts au moment de l'inférence. Pendant l'entraînement, un modèle linguistique est entraîné conjointement sur des séquences d'octets bruts et des vues compressées générées par des compresseurs externes ; ce processus permet au modèle d'apprendre à aligner en interne les séquences compressées et les octets bruts. Cet alignement permet un transfert robuste entre les deux formats, même lorsque l'entraînement s'effectue principalement sur des entrées compressées qui sont abandonnées lors de l'inférence. Des expériences approfondies en modélisation linguistique du code démontrent que la compression par procuration améliore considérablement l'efficacité de l'entraînement et surpasse significativement les modèles de référence purement basés sur les octets, pour un budget de calcul fixe. À mesure que l'échelle des modèles augmente, ces gains deviennent plus prononcés, et les modèles entraînés par procuration finissent par égaler ou rivaliser avec les approches utilisant un tokeniseur, le tout en opérant exclusivement sur des octets bruts et en conservant la robustesse inhérente à la modélisation au niveau des octets.
La génération 4D a réalisé des progrès remarquables dans la synthèse d'objets 3D dynamiques à partir de texte, d'images ou de vidéos. Cependant, les méthodes existantes représentent souvent le mouvement comme un champ de déformation implicite, ce qui limite le contrôle direct et la capacité d'édition. Pour résoudre ce problème, nous proposons SkeletonGaussian, un nouveau cadre pour générer des Gaussiennes 3D dynamiques et éditables à partir d'une vidéo monoculaire. Notre approche introduit une représentation articulée hiérarchique qui décompose le mouvement en un mouvement rigide épars, explicitement piloté par un squelette, et un mouvement non rigide à grain fin. Concrètement, nous extrayons un squelette robuste et pilotons le mouvement rigide via le *linear blend skinning*, suivi d'un raffinement basé sur des hexplanes pour les déformations non rigides, améliorant ainsi l'interprétabilité et l'éditabilité. Les résultats expérimentaux démontrent que SkeletonGaussian surpasse les méthodes existantes en qualité de génération tout en permettant une édition intuitive du mouvement, établissant un nouveau paradigme pour la génération 4D éditable. Page du projet : https://wusar.github.io/projects/skeletongaussian/
Alors que les systèmes multi-agents de grands modèles de langage (LLM) obtiennent des performances de raisonnement supérieures par des débats itératifs, leur déploiement pratique est limité par leur coût computationnel élevé et la propagation d'erreurs. Cet article propose AgentArk, un nouveau cadre permettant de distiller la dynamique multi-agents dans les poids d'un modèle unique, transformant ainsi efficacement les interactions explicites au moment du test en capacités implicites du modèle. Cela dote un agent unique de l'intelligence des systèmes multi-agents tout en restant efficace sur le plan computationnel. Plus précisément, nous étudions trois stratégies de distillation hiérarchique sur divers modèles, tâches, échelles et scénarios : le fine-tuning enrichi par le raisonnement ; l'augmentation basée sur les trajectoires ; et la distillation consciente du processus. En déplaçant la charge de calcul de l'inférence vers l'entraînement, les modèles distillés préservent l'efficacité d'un agent tout en présentant les solides performances de raisonnement et d'auto-correction de multiples agents. Ils démontrent en outre une robustesse et une généralisation accrues sur diverses tâches de raisonnement. Nous espérons que ces travaux pourront éclairer les futures recherches sur le développement multi-agent efficace et robuste. Notre code est disponible à l'adresse https://github.com/AIFrontierLab/AgentArk.
Les défaillances de raisonnement dans les grands modèles de langage (LLM) sont généralement mesurées uniquement en fin de génération, pourtant de nombreuses erreurs se manifestent par une rupture au niveau du processus : le modèle « perd le fil » en cours de raisonnement. Nous étudions si de telles ruptures sont détectables à partir d'observables disponibles en temps d'inférence via les API standard (logprobabilités des tokens), sans aucun entraînement ou ajustement fin. Nous définissons un signal d'instabilité simple qui combine un changement distributionnel entre étapes consécutives (JSD) et l'incertitude (entropie), résumons chaque trace par la valeur maximale de son instabilité, et montrons que ce signal prédit de manière fiable l'échec. Sur GSM8K et HotpotQA, l'intensité de l'instabilité prédit les mauvaises réponses avec une AUC supérieure au hasard et produit un déclin monotone de la précision par groupe à grande échelle, quel que soit la taille du modèle. Fait crucial, nous montrons que l'instabilité n'est pas uniformément néfaste : une instabilité précoce peut refléter une stabilisation ultérieure et une réponse finale correcte (instabilité corrective), tandis qu'une instabilité tardive est plus souvent suivie d'un échec (instabilité destructive), même pour des amplitudes maximales comparables, indiquant que la capacité de récupération dépend non seulement de l'intensité du changement distributionnel, mais aussi du moment où ces changements se produisent par rapport à l'horizon de décodage restant. La méthode est agnostique au modèle, ne nécessite pas d'entraînement, est reproductible, et est présentée comme un outil de diagnostic plutôt que comme un mécanisme de correction ou de contrôle.
Les méthodes d'alignement direct sont de plus en plus utilisées pour aligner les grands modèles de langage (LLM) avec les préférences humaines. Cependant, de nombreux problèmes d'alignement dans le monde réel impliquent des objectifs multiples et conflictuels, où une agrégation naïve des préférences peut entraîner un apprentissage instable et de mauvais compromis. En particulier, les méthodes à perte pondérée peuvent échouer à identifier des directions de mise à jour qui améliorent simultanément tous les objectifs, et les approches multi-objectifs existantes reposent souvent sur des modèles de récompense explicites, introduisant une complexité supplémentaire et déformant les préférences spécifiées par l'utilisateur. Les contributions de cet article sont doubles. Premièrement, nous proposons un cadre d'Alignement sans Récompense pour Objectifs Conflictuels (RACO) qui exploite directement des données de préférence par paires et résout les conflits de gradient via une nouvelle variante écrêtée de la descente de gradient évitant les conflits. Nous fournissons des garanties de convergence vers des points Pareto-critiques qui respectent les pondérations d'objectifs spécifiées par l'utilisateur, et montrons en outre que l'écrêtage peut strictement améliorer le taux de convergence dans le cadre à deux objectifs. Deuxièmement, nous améliorons notre méthode à l'aide d'heuristiques et menons des expériences pour démontrer la compatibilité du cadre proposé pour l'alignement des LLM. Des évaluations qualitatives et quantitatives sur des tâches de résumé multi-objectifs et d'alignement de la sécurité, menées sur plusieurs familles de LLM (Qwen 3, Llama 3, Gemma 3), montrent que notre méthode atteint constamment de meilleurs compromis de Pareto par rapport aux lignes de base existantes en alignement multi-objectifs.
Nous présentons LongVPO, un nouveau cadre d'Optimisation Directe des Préférences en deux étapes qui permet à des modèles vision-langue à contexte court de comprendre robustement des vidéos ultra-longues sans aucune annotation vidéo longue. Dans l'Étape 1, nous synthétisons des triplets de préférences en ancrant des questions à des clips courts individuels, en les entrelaçant avec des distracteurs, et en appliquant un filtrage par similarité visuelle et par spécificité des questions pour atténuer le biais positionnel et garantir une supervision non ambiguë. Nous approximons également le score du modèle de référence sur les contextes longs en évaluant uniquement le clip d'ancrage, réduisant ainsi la surcharge computationnelle. Dans l'Étape 2, nous utilisons un pipeline de légendage récursif sur des vidéos longues pour générer des métadonnées au niveau scène, puis utilisons un grand modèle linguistique pour élaborer des requêtes de raisonnement multi-segments et des réponses non préférées, alignant ainsi les préférences du modèle via des tâches de raisonnement multi-segments. Avec seulement 16 000 exemples synthétiques et sans étiquettes humaines coûteuses, LongVPO surpasse les modèles open-source de l'état de l'art sur plusieurs benchmarks de vidéos longues, tout en maintenant de solides performances sur les vidéos courtes (par exemple, sur MVBench), offrant ainsi un paradigme évolutif pour une compréhension efficace des vidéos longues.
Nous présentons FOTBCD, un jeu de données à grande échelle pour la détection des changements du bâti, dérivé des orthophotographies françaises officielles et des données topographiques du bâti fournies par l'IGN France. Contrairement aux benchmarks existants, géographiquement limités à des villes uniques ou à des régions restreintes, FOTBCD couvre 28 départements de la France métropolitaine, dont 25 sont utilisés pour l'entraînement et trois départements géographiquement disjoints sont réservés pour l'évaluation. Le jeu de données couvre divers environnements urbains, périurbains et ruraux avec une résolution de 0,2 m/pixel. Nous rendons publique FOTBCD-Binary, un ensemble de données comprenant environ 28 000 paires d'images avant/après avec des masques binaires de changement du bâti au niveau pixel, chacune étant associée à des métadonnées spatiales au niveau de la plaque. Le jeu de données est conçu pour l'évaluation et le benchmarking à grande échelle dans un contexte de décalage de domaine géographique, les échantillons de validation et de test étant issus des départements réservés et vérifiés manuellement pour garantir la qualité des annotations. De plus, nous rendons publique FOTBCD-Instances, un sous-ensemble annoté au niveau instance et accessible publiquement, comprenant plusieurs milliers de paires d'images, qui illustre le schéma d'annotation complet utilisé dans la version complète au niveau instance de FOTBCD. En utilisant une ligne de base de référence fixe, nous évaluons FOTBCD-Binary par rapport à LEVIR-CD+ et WHU-CD, fournissant des preuves empiriques solides que la diversité géographique au niveau du jeu de données est associée à une amélioration de la généralisation inter-domaine dans la détection des changements du bâti.
Les transformeurs encodeurs restent indispensables dans les systèmes de recherche, de classification et de classement où la latence, la stabilité et le coût sont primordiaux. Cependant, la plupart des encodeurs à usage général sont entraînés sur des corpus génériques ayant une couverture limitée des domaines spécialisés. Nous présentons RexBERT, une famille d'encodeurs de type BERT conçus spécifiquement pour la sémantique du commerce électronique. Nous apportons trois contributions. Premièrement, nous publions Ecom-niverse, un corpus de 350 milliards de tokens constitué à partir de diverses sources de vente au détail et d'achat. Nous décrivons un pipeline modulaire qui isole et extrait le contenu lié au e-commerce de FineFineWeb et d'autres ressources web ouvertes, et caractérisons la distribution domainale résultante. Deuxièmement, nous présentons une méthode reproductible de pré-entraînement s'appuyant sur les avancées architecturales de ModernBERT. La méthode se compose de trois phases : pré-entraînement général, extension du contexte et spécialisation domainale recuite. Troisièmement, nous entraînons des modèles RexBERT allant de 17M à 400M de paramètres et les évaluons sur des tâches de classification de tokens, de similarité sémantique et de compréhension générale du langage naturel à l'aide de jeux de données du e-commerce. Bien qu'ils aient 2 à 3 fois moins de paramètres, les modèles RexBERT surpassent les encodeurs généralistes plus grands et égalent ou dépassent les modèles modernes à contexte long sur les benchmarks spécialisés. Nos résultats démontrent que des données de haute qualité dans le domaine, combinées à une approche d'entraînement principée, offrent une base plus solide pour les applications de e-commerce que la simple augmentation indiscriminée de la taille des modèles.
Les grands modèles de langage (LLM) continuent de produire des affirmations factuelles plausibles mais non fondées, un problème qui s'aggrave dans les dialogues multi-tours à mesure que le contexte s'étend et que les erreurs initiales s'accumulent. Nous présentons HalluHard, un benchmark exigeant sur les hallucinations en dialogue multi-tours, comprenant 950 questions de base couvrant quatre domaines à enjeux élevés : les affaires juridiques, les questions de recherche, les directives médicales et la programmation. Nous opérationnalisons l'ancrage factuel en exigeant des citations intégrées pour toute assertion factuelle. Pour permettre une évaluation fiable dans des contextes ouverts, nous proposons un pipeline d'évaluation qui récupère itérativement des preuves via une recherche web. Ce système peut extraire, filtrer et analyser des sources en texte intégral (y compris les PDF) pour déterminer si le matériel cité étaye réellement le contenu généré. Sur un ensemble varié de modèles propriétaires de pointe et à poids ouvert, les hallucinations restent substantielles même avec une recherche web (environ 30 % pour la configuration la plus robuste, Opus-4.5 avec recherche web), les erreurs de rattachement du contenu persistant à des taux élevés. Enfin, nous montrons que le comportement hallucinatoire est influencé par la capacité du modèle, la position dans le tour de dialogue, le raisonnement effectif et le type de connaissances requises.