papers.description
Les systèmes Multi-LLM exploitent les forces complémentaires de divers modèles de langage de grande taille (LLM), atteignant des gains de performance et d'efficacité inaccessibles à un modèle unique. Dans les conceptions existantes, les LLM communiquent via du texte, forçant les représentations internes à être transformées en séquences de tokens en sortie. Ce processus entraîne à la fois une perte d'informations sémantiques riches et une latence de génération token par token. Motivés par ces limitations, nous posons la question suivante : Les LLM peuvent-ils communiquer au-delà du texte ? Des expériences oracles montrent qu'enrichir la sémantique du KV-Cache peut améliorer la qualité des réponses sans augmenter la taille du cache, soutenant le KV-Cache comme un médium efficace pour la communication inter-modèles. Ainsi, nous proposons Cache-to-Cache (C2C), un nouveau paradigme pour la communication sémantique directe entre LLM. C2C utilise un réseau neuronal pour projeter et fusionner le KV-cache du modèle source avec celui du modèle cible, permettant un transfert sémantique direct. Un mécanisme de gating apprenable sélectionne les couches cibles qui bénéficient de la communication par cache. Par rapport à la communication textuelle, C2C utilise la sémantique profonde et spécialisée des deux modèles, tout en évitant la génération explicite de texte intermédiaire. Les expériences montrent que C2C atteint une précision moyenne de 8,5 à 10,5 % supérieure à celle des modèles individuels. Il surpasse en outre le paradigme de communication textuelle d'environ 3,0 à 5,0 %, tout en offrant une accélération moyenne de la latence de 2,0x. Notre code est disponible à l'adresse https://github.com/thu-nics/C2C.
La tokenisation visuelle reste un défi central pour unifier la compréhension et la génération visuelles dans le paradigme autorégressif. Les méthodes existantes utilisent généralement des tokenizers dans des espaces latents discrets pour s'aligner sur les tokens des grands modèles de langage, où les erreurs de quantification peuvent limiter l'expressivité sémantique et dégrader la capacité de compréhension vision-langage. Pour résoudre ce problème, nous introduisons MingTok, une nouvelle famille de tokenizers visuels avec un espace latent continu, pour une génération et une compréhension autorégressives unifiées. Alors que les tâches de compréhension privilégient des caractéristiques discriminantes de haute dimension, les tâches de génération préfèrent des codes compacts de bas niveau. Ainsi, pour concilier ces exigences concurrentes, MingTok adopte une architecture séquentielle en trois étapes impliquant un encodage de bas niveau, une expansion sémantique et une reconstruction visuelle. Basé sur cette architecture, Ming-UniVision élimine le besoin de représentations visuelles spécifiques à chaque tâche et unifie diverses tâches vision-langage sous un seul paradigme de prédiction autorégressive. En formulant à la fois la compréhension et la génération comme une prédiction de token suivant dans un espace continu partagé, il prend en charge de manière transparente des tâches contextuelles multi-tours telles que la compréhension itérative, la génération et l'édition. Empiriquement, nous constatons que l'utilisation d'une représentation visuelle continue unifiée concilie les exigences concurrentes des tâches de compréhension et de génération sur les tokenizers, conduisant ainsi à des performances de pointe dans les deux domaines. Nous espérons que nos résultats faciliteront la tokenisation visuelle unifiée dans le domaine continu. Le code d'inférence et les poids des modèles sont publiés pour bénéficier à la communauté.
Nous présentons Lumina-DiMOO, un modèle fondamental open-source pour la génération et la compréhension multi-modales fluides. Lumina-DiMOO se distingue des modèles unifiés précédents en utilisant une modélisation de diffusion entièrement discrète pour gérer les entrées et les sorties à travers diverses modalités. Cette approche innovante permet à Lumina-DiMOO d’atteindre une efficacité d’échantillonnage supérieure par rapport aux paradigmes autoregressifs (AR) ou hybrides AR-Diffusion précédents, et de prendre en charge avec habileté un large éventail de tâches multi-modales, incluant la génération de texte à image, la génération d’image à image (par exemple, l’édition d’image, la génération pilotée par sujet et la réparation d’image, etc.), ainsi que la compréhension d’image. Lumina-DiMOO obtient des performances de pointe sur plusieurs benchmarks, surpassant les modèles multi-modaux unifiés open-source existants. Pour favoriser des avancées supplémentaires dans la recherche sur les modèles multi-modaux et de diffusion discrète, nous mettons à disposition notre code et nos points de contrôle à la communauté. Page du projet : https://synbol.github.io/Lumina-DiMOO.
Les grands modèles de langage (LLMs) et les modèles de langage parlé (SLMs) actuels commencent à réfléchir et à agir uniquement après que l'utilisateur a terminé son tour. Cela empêche le modèle d'interagir pendant le tour de l'utilisateur et peut entraîner une latence de réponse élevée pendant qu'il attend pour réfléchir. Par conséquent, réfléchir après avoir reçu l'intégralité de l'entrée n'est pas adapté à une interaction parole-parole, où un échange en temps réel et à faible latence est important. Nous abordons ce problème en notant que les humains "réfléchissent naturellement en écoutant". Dans cet article, nous proposons SHANKS, un cadre d'inférence général qui permet aux SLMs de générer un raisonnement en chaîne de pensée non prononcé tout en écoutant l'entrée de l'utilisateur. SHANKS diffuse la parole d'entrée en segments de durée fixe et, dès qu'un segment est reçu, génère un raisonnement non prononcé basé sur toutes les paroles et raisonnements précédents, tandis que l'utilisateur continue de parler. SHANKS utilise ce raisonnement non prononcé pour décider s'il doit interrompre l'utilisateur et pour effectuer des appels d'outils afin de terminer la tâche. Nous démontrons que SHANKS améliore l'interaction en temps réel entre l'utilisateur et le SLM dans deux scénarios : (1) lorsque l'utilisateur présente une solution étape par étape à un problème de mathématiques, SHANKS peut écouter, raisonner et interrompre lorsque l'utilisateur fait une erreur, atteignant une précision d'interruption 37,1 % plus élevée qu'une base de référence qui interrompt sans réfléchir ; et (2) dans un dialogue augmenté par des outils, SHANKS peut compléter 56,9 % des appels d'outils avant que l'utilisateur ne termine son tour. Globalement, SHANKS s'oriente vers des modèles qui continuent de réfléchir tout au long de la conversation, et pas seulement après la fin d'un tour. Des illustrations animées de SHANKS peuvent être trouvées à l'adresse https://d223302.github.io/SHANKS/.
Les modèles de génération vidéo basés sur des transformateurs (Video DiTs) ont fait des progrès significatifs, mais ils peinent encore à modéliser les interactions multi-instances ou sujet-objet. Cela soulève une question clé : comment ces modèles représentent-ils intérieurement les interactions ? Pour y répondre, nous avons constitué MATRIX-11K, un ensemble de données vidéo comportant des descriptions sensibles aux interactions et des pistes de masques multi-instances. En utilisant cet ensemble de données, nous menons une analyse systématique qui formalise deux perspectives des Video DiTs : l'ancrage sémantique, via l'attention vidéo-texte, qui évalue si les tokens de noms et de verbes capturent les instances et leurs relations ; et la propagation sémantique, via l'attention vidéo-vidéo, qui évalue si les liaisons d'instances persistent à travers les images. Nous constatons que ces deux effets se concentrent dans un petit sous-ensemble de couches dominées par les interactions. Motivés par cette observation, nous introduisons MATRIX, une régularisation simple et efficace qui aligne l'attention dans des couches spécifiques des Video DiTs avec les pistes de masques multi-instances de l'ensemble de données MATRIX-11K, améliorant ainsi à la fois l'ancrage et la propagation. Nous proposons également InterGenEval, un protocole d'évaluation pour la génération vidéo sensible aux interactions. Dans les expériences, MATRIX améliore à la fois la fidélité des interactions et l'alignement sémantique tout en réduisant la dérive et les hallucinations. Des ablations approfondies valident nos choix de conception. Les codes et les poids seront publiés.
Les progrès récents dans les modèles de base pour la vision et le langage ont considérablement fait avancer la compréhension, le raisonnement et la génération multimodaux, suscitant un intérêt croissant pour l'extension de ces capacités à des environnements incarnés grâce aux modèles vision-langage-action (VLA). Cependant, la plupart des modèles VLA sont encore entraînés par un ajustement supervisé (SFT), qui peine à généraliser face aux décalages de distribution en raison de l'accumulation d'erreurs. L'apprentissage par renforcement (RL) offre une alternative prometteuse en optimisant directement la performance des tâches par l'interaction, mais les tentatives existantes restent fragmentées et manquent d'une plateforme unifiée pour une comparaison équitable et systématique entre les architectures de modèles et les conceptions algorithmiques. Pour combler cette lacune, nous introduisons RLinf-VLA, un cadre unifié et efficace pour l'entraînement scalable des modèles VLA par RL. Le système adopte une conception flexible d'allocation des ressources qui relève le défi d'intégrer le rendu, l'entraînement et l'inférence dans l'entraînement RL+VLA. En particulier, pour les simulateurs parallélisés sur GPU, RLinf-VLA met en œuvre un nouveau mode d'allocation hybride à granularité fine, permettant une accélération de l'entraînement de 1,61x à 1,88x. Grâce à une interface unifiée, RLinf-VLA prend en charge de manière transparente diverses architectures VLA (par exemple, OpenVLA, OpenVLA-OFT), plusieurs algorithmes RL (par exemple, PPO, GRPO) et divers simulateurs (par exemple, ManiSkill, LIBERO). En simulation, un modèle unifié atteint 98,11 % sur 130 tâches LIBERO et 97,66 % sur 25 tâches ManiSkill. Au-delà des performances empiriques, notre étude dégage un ensemble de meilleures pratiques pour appliquer le RL à l'entraînement VLA et met en lumière les tendances émergentes dans cette intégration. De plus, nous présentons un déploiement préliminaire sur un robot Franka réel, où les politiques entraînées par RL montrent une meilleure généralisation que celles entraînées par SFT. Nous envisageons RLinf-VLA comme une base pour accélérer et standardiser la recherche sur l'intelligence incarnée.
Les modèles de langage de grande taille (LLMs) ont catalysé le codage intuitif, où les utilisateurs exploitent les LLMs pour générer et affiner itérativement du code à travers des interactions en langage naturel jusqu'à ce qu'il passe leur test intuitif. Ce test intuitif est lié aux préférences humaines réelles et va au-delà de la fonctionnalité : la solution doit sembler juste, être lisible, préserver l'intention et rester correcte. Cependant, l'évaluation actuelle du code reste ancrée à la métrique pass@k et ne capture que la correction fonctionnelle, négligeant les instructions non fonctionnelles que les utilisateurs appliquent couramment. Dans cet article, nous émettons l'hypothèse que le suivi des instructions est l'élément manquant sous-jacent au test intuitif, représentant les préférences humaines en codage en plus de la correction fonctionnelle. Pour quantifier les capacités des modèles à suivre les instructions de code avec des signaux mesurables, nous présentons VeriCode, une taxonomie de 30 instructions de code vérifiables accompagnées de vérificateurs déterministes correspondants. Nous utilisons cette taxonomie pour enrichir les suites d'évaluation établies, aboutissant à Vibe Checker, un banc d'essai pour évaluer à la fois le suivi des instructions de code et la correction fonctionnelle. En évaluant 31 LLMs leaders, nous montrons que même les modèles les plus performants peinent à se conformer à plusieurs instructions et présentent une régression fonctionnelle claire. Plus important encore, un score composite de correction fonctionnelle et de suivi des instructions corrèle le mieux avec les préférences humaines, ce dernier émergeant comme le principal facteur différenciateur dans les tâches de programmation réelles. Notre travail identifie les facteurs clés du test intuitif, offrant une voie concrète pour le benchmarking et le développement de modèles mieux alignés avec les préférences des utilisateurs en codage.
Les grands modèles de langage (LLMs) reposent de plus en plus sur une planification intégrée d'outils en plusieurs tours pour des tâches de raisonnement complexes et nécessitant des connaissances approfondies. Les implémentations existantes s'appuient généralement sur un seul agent, mais elles souffrent d'une longueur de contexte limitée et de réponses bruitées des outils. Une solution naturelle consiste à adopter un cadre multi-agents avec des agents planificateurs et exécutants pour gérer le contexte. Cependant, aucune méthode existante ne prend en charge un apprentissage par renforcement post-formation efficace pour les cadres multi-agents intégrant des outils. Pour combler cette lacune, nous proposons l'Optimisation de Politique Multi-Agents Intégrant des Outils (MATPO), qui permet à des rôles distincts (planificateur et exécutant) d'être entraînés au sein d'une seule instance de LLM en utilisant des invites spécifiques à chaque rôle via l'apprentissage par renforcement. MATPO est dérivé d'un mécanisme d'attribution de crédit fondé sur les déploiements des planificateurs et des exécutants. Cette conception élimine le besoin de déployer plusieurs LLMs, ce qui serait gourmand en mémoire, tout en préservant les avantages de la spécialisation. Les expériences sur GAIA-text, WebWalkerQA et FRAMES montrent que MATPO surpasse systématiquement les approches mono-agent avec une amélioration relative moyenne de 18,38 % en termes de performance et une plus grande robustesse face aux sorties bruitées des outils. Nos résultats mettent en évidence l'efficacité de l'unification de multiples rôles d'agents au sein d'un seul LLM et fournissent des insights pratiques pour un entraînement stable et efficace en apprentissage par renforcement multi-agents.
La modélisation de séquences longues est confrontée à un compromis fondamental entre l'efficacité de la mémoire de taille fixe et compressée dans les modèles de type RNN (réseaux de neurones récurrents) et la fidélité de la mémoire croissante sans perte dans les Transformers basés sur l'attention. Inspirés par le modèle multi-mémoire en sciences cognitives, nous introduisons un cadre de mémoire pour les réseaux de neurones artificiels. Notre méthode maintient une fenêtre glissante du cache KV du Transformer comme mémoire à court terme sans perte, tandis qu'un module apprenable, appelé Réseau Hippocampe Artificiel (AHN), compresse de manière récurrente les informations hors fenêtre en une mémoire à long terme compacte de taille fixe. Pour valider ce cadre, nous instancions les AHN en utilisant des architectures modernes de type RNN, notamment Mamba2, DeltaNet et Gated DeltaNet. Des expériences approfondies sur les benchmarks de contexte long LV-Eval et InfiniteBench démontrent que les modèles augmentés par AHN surpassent systématiquement les baselines à fenêtre glissante et atteignent des performances comparables, voire supérieures, à celles des modèles à attention complète, tout en réduisant substantiellement les exigences computationnelles et de mémoire. Par exemple, l'ajout d'AHN au modèle Qwen2.5-3B-Instruct réduit les FLOPs d'inférence de 40,5 % et le cache mémoire de 74,0 %, tout en améliorant son score moyen sur LV-Eval (longueur de séquence de 128k) de 4,41 à 5,88. Le code est disponible à l'adresse suivante : https://github.com/ByteDance-Seed/AHN.
Les modèles de pointe récents utilisent des raisonnements en chaîne de pensée étendue pour explorer les espaces de solutions en contexte et atteindre des performances accrues. Bien que de nombreux travaux étudient la distillation pour construire des modèles plus petits mais toujours performants, la plupart se concentrent sur l'anglais et peu de choses sont connues sur le raisonnement spécifique à une langue. Pour combler cette lacune, nous introduisons d'abord **Language-Mixed CoT**, un schéma de raisonnement qui alterne entre l'anglais et une langue cible, utilisant l'anglais comme ancre pour exceller dans le raisonnement tout en minimisant les artefacts de traduction. Dans le cadre d'une étude de cas sur le coréen, nous avons constitué **Yi-Sang** : 5,79 millions de prompts en coréen natif provenant de questions-réponses sur le web, d'examens, de STEM et de code ; 3,7 millions de traces de raisonnement longues générées par Qwen3-32B ; et un sous-ensemble ciblé de 260 000 éléments à haut rendement. Nous avons entraîné neuf modèles (4B-35B) appartenant à six familles (Qwen2.5, Llama-3.1, Gemma-3, etc.). Notre meilleur modèle, **KO-REAson-35B**, atteint des performances de pointe, avec le score moyen global le plus élevé (64,0 ± 25), se classant premier sur 5/9 benchmarks et deuxième sur les autres. Les modèles de taille petite et moyenne bénéficient également de manière significative, avec une amélioration moyenne de +18,6 points sur les neuf benchmarks évalués. Les ablations montrent que **Language-Mixed CoT** est plus efficace que le CoT monolingue, entraînant également des gains de performance multilingues et multimodaux. Nous publions notre pipeline de curation de données, système d'évaluation, ensembles de données et modèles pour faire avancer la recherche sur le raisonnement spécifique à une langue. Données et collection de modèles : https://huggingface.co/KOREAson.
Bien qu'elles représentent près d'un tiers des langues du monde, les langues africaines restent gravement sous-desservies par les technologies modernes de traitement du langage naturel (NLP), avec 88 % classées comme sévèrement sous-représentées ou complètement ignorées en linguistique computationnelle. Nous présentons l'African Languages Lab (All Lab), une initiative de recherche exhaustive qui comble cette lacune technologique grâce à une collecte systématique de données, au développement de modèles et au renforcement des capacités. Nos contributions incluent : (1) un pipeline de collecte de données contrôlé en qualité, produisant le plus grand ensemble de données multimodales validé pour les langues africaines, couvrant 40 langues avec 19 milliards de tokens de texte monolingue et 12 628 heures de données vocales alignées ; (2) une validation expérimentale approfondie démontrant que notre ensemble de données, combiné à un ajustement fin, permet des améliorations substantielles par rapport aux modèles de référence, avec des gains moyens de +23,69 ChrF++, +0,33 COMET et +15,34 points BLEU sur 31 langues évaluées ; et (3) un programme de recherche structuré qui a encadré avec succès quinze chercheurs en début de carrière, établissant ainsi une capacité locale durable. Notre évaluation comparative avec Google Translate révèle des performances compétitives pour plusieurs langues tout en identifiant les domaines nécessitant un développement continu.
La quête d’efficacité computationnelle a favorisé l’adoption de formats de faible précision pour l’entraînement des modèles de transformateurs. Cependant, ces avancées sont souvent entravées par des instabilités d’entraînement notoires. Cet article propose la première explication mécaniste d’un cas d’échec ancien et non résolu, où l’entraînement avec l’attention flash en faible précision conduit à des explosions catastrophiques de la perte. Notre analyse approfondie révèle que cet échec n’est pas un artefact aléatoire, mais est causé par deux phénomènes imbriqués : l’émergence de représentations de faible rang similaires au sein du mécanisme d’attention et l’effet cumulatif des erreurs d’arrondi biaisées inhérentes à l’arithmétique de faible précision. Nous démontrons comment ces facteurs créent un cercle vicieux d’accumulation d’erreurs qui corrompt les mises à jour des poids, finissant par déstabiliser la dynamique d’entraînement. Pour valider nos conclusions, nous introduisons une modification minimale de l’attention flash qui atténue le biais des erreurs d’arrondi. Ce changement simple stabilise le processus d’entraînement, confirmant notre analyse et offrant une solution pratique à ce problème persistant.
Les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont démontré des capacités impressionnantes dans le raisonnement complexe à plusieurs étapes, ouvrant de nouvelles opportunités pour l'automatisation de la modélisation d'optimisation. Cependant, les méthodes existantes d'adaptation de domaine, initialement conçues pour des modèles antérieurs ajustés par instruction, échouent souvent à exploiter les schémas de raisonnement avancés des LRMs modernes. En particulier, nous montrons qu'un ajustement fin direct sur des ensembles de données traditionnels non réflexifs conduit à des gains limités. Pour tirer pleinement parti des capacités de raisonnement inhérentes des LRMs, nous proposons CALM (Corrective Adaptation with Lightweight Modification), un cadre qui affine progressivement les LRMs dans leurs modes de raisonnement natifs pour les tâches de modélisation d'optimisation. Dans CALM, un intervenant expert identifie les défauts de raisonnement et fournit des indices correctifs concis, que le LRM intègre pour produire des trajectoires de raisonnement améliorées. Ces interventions modifient moins de 2,6 % des tokens générés, mais génèrent des données de haute qualité pour une adaptation douce via un ajustement fin supervisé. Le modèle adapté est ensuite encore amélioré par apprentissage par renforcement. Sur la base de CALM, nous développons STORM (Smart Thinking Optimization Reasoning Model), un LRM de 4 milliards de paramètres qui atteint une nouvelle précision moyenne de pointe de 68,9 % sur cinq benchmarks populaires de modélisation d'optimisation, égalant les performances d'un LRM de 671 milliards. Ces résultats démontrent que la synthèse dynamique de données basée sur des indices préserve et amplifie les schémas de raisonnement natifs des LRMs modernes, offrant une voie plus efficace et évolutive vers des performances de niveau expert sur des tâches de modélisation d'optimisation complexes.
L'apprentissage par renforcement (RL) est récemment devenu une méthode puissante pour entraîner des modèles de langage (LLMs) capables de produire de longues chaînes de raisonnement (LongCoT). Cependant, l'environnement de "pensée" standard en RL, où l'état est constitué de l'invite (prompt) et de tous les tokens de raisonnement précédents, rend l'état illimité et impose aux politiques basées sur l'attention un coût de calcul quadratique à mesure que les raisonnements s'allongent. Nous revisitons l'environnement lui-même. Nous proposons la Pensée Markovienne, un paradigme dans lequel la politique progresse dans le raisonnement en se basant sur un état de taille constante, découplant ainsi la longueur de la pensée de la taille du contexte. Cela entraîne immédiatement un calcul linéaire avec une mémoire constante. Nous concrétisons cette idée avec Delethink, un environnement de RL qui structure le raisonnement en blocs de taille fixe. Dans chaque bloc, le modèle pense comme d'habitude ; à la frontière, l'environnement réinitialise le contexte et réinitialise l'invite avec un court rappel. Grâce au RL, la politique apprend à écrire un état textuel vers la fin de chaque bloc, suffisant pour une continuation fluide du raisonnement après la réinitialisation. Entraîné dans cet environnement, un modèle R1-Distill 1.5B raisonne en blocs de 8K tokens tout en pensant jusqu'à 24K tokens, égalant ou surpassant LongCoT-RL entraîné avec un budget de 24K. Avec une mise à l'échelle au moment du test, Delethink continue de s'améliorer là où LongCoT plafonne. L'effet du calcul linéaire est substantiel : nous estimons empiriquement qu'à une longueur de pensée moyenne de 96K, LongCoT-RL coûte 27 mois-H100 contre 7 pour Delethink. Une analyse à l'initialisation du RL montre que les modèles de raisonnement prêts à l'emploi (1.5B-120B) produisent souvent des traces markoviennes de manière zero-shot sur divers benchmarks, fournissant des échantillons positifs qui rendent le RL efficace à grande échelle. Nos résultats montrent que repenser l'environnement de pensée est un levier puissant : il permet des raisonnements très longs sans surcharge quadratique et ouvre la voie à des LLMs de raisonnement efficaces et évolutifs.
Les modèles à contexte long (LCMs) ont démontré un grand potentiel dans le traitement de séquences longues, facilitant de nombreuses applications pratiques. Le succès des LCMs peut être attribué à leur capacité à localiser des informations critiques implicites au sein du contexte pour effectuer des prédictions ultérieures. Cependant, des recherches récentes révèlent que les LCMs sont souvent sensibles au bruit contextuel, c'est-à-dire à des tokens non pertinents, qui peuvent détourner l'attention du modèle. Dans cet article, nous menons une analyse fine du bruit contextuel et proposons une métrique efficace, le score de Gradient Intégré (IG), pour détecter et quantifier les informations de bruit au sein du contexte. Nos résultats montrent que même une atténuation simple du bruit contextuel détecté peut considérablement améliorer l'attention du modèle sur les tokens critiques et bénéficier aux prédictions subséquentes. Sur la base de cette observation, nous proposons l'Entraînement par Dénoyautage Contextuel (CDT), une stratégie d'entraînement simple mais efficace qui améliore l'attention sur les tokens critiques tout en renforçant leur influence sur les prédictions du modèle. Des expériences approfondies sur quatre tâches, dans des contextes de mise à l'échelle de la fenêtre contextuelle et d'alignement de contexte long, démontrent la supériorité du CDT. Notamment, lorsqu'il est entraîné avec le CDT, un modèle open-source de 8B peut atteindre une performance (50,92) comparable à celle de GPT-4o (51,00).
Les Transformers excellent dans la modélisation de séquences mais sont confrontés à une complexité quadratique, tandis que l'attention linéaire offre une efficacité améliorée mais compromet souvent la précision de rappel sur des contextes longs. Dans ce travail, nous introduisons l'Attention Hybride Native (NHA), une nouvelle architecture hybride combinant l'attention linéaire et complète, intégrant à la fois une hybridation intra et inter-couches dans un design de couche unifié. NHA maintient le contexte à long terme dans des emplacements clé-valeur mis à jour par un RNN linéaire, et les enrichit avec des tokens à court terme provenant d'une fenêtre glissante. Une seule opération d'attention softmax est ensuite appliquée sur toutes les clés et valeurs, permettant une pondération contextuelle par token et par tête sans nécessiter de paramètres de fusion supplémentaires. Le comportement inter-couches est contrôlé par un seul hyperparamètre, la taille de la fenêtre glissante, qui permet un ajustement fluide entre une attention purement linéaire et complète tout en maintenant toutes les couches structurellement uniformes. Les résultats expérimentaux montrent que NHA surpasse les Transformers et d'autres modèles hybrides de référence sur des tâches intensives en rappel et en raisonnement de bon sens. De plus, les LLM pré-entraînés peuvent être structurellement hybridés avec NHA, atteignant une précision compétitive tout en offrant des gains d'efficacité significatifs. Le code est disponible à l'adresse https://github.com/JusenD/NHA.
Les modèles de diffusion à grande échelle pour la génération d'images à partir de texte, bien que puissants, souffrent de coûts de calcul prohibitifs. Les méthodes existantes d'élagage de réseau en une seule étape ne peuvent guère leur être directement appliquées en raison de la nature itérative du processus de débruitage des modèles de diffusion. Pour combler cette lacune, cet article présente OBS-Diff, un nouveau cadre d'élagage en une seule étape qui permet une compression précise et sans entraînement des modèles de diffusion à grande échelle pour la génération d'images à partir de texte. Plus précisément, (i) OBS-Diff revitalise l'Optimal Brain Surgeon (OBS) classique, en l'adaptant aux architectures complexes des modèles de diffusion modernes et en prenant en charge diverses granularités d'élagage, y compris la sparsité non structurée, semi-structurée N:M et structurée (têtes MHA et neurones FFN) ; (ii) Pour aligner les critères d'élagage avec la dynamique itérative du processus de diffusion, en examinant le problème sous l'angle de l'accumulation d'erreurs, nous proposons une nouvelle construction de Hessian prenant en compte les étapes temporelles, intégrant un schéma de pondération à décroissance logarithmique, attribuant une importance accrue aux étapes initiales afin d'atténuer l'accumulation potentielle d'erreurs ; (iii) En outre, une stratégie d'élagage séquentiel par groupes, efficace sur le plan computationnel, est proposée pour amortir le processus coûteux de calibration. Des expériences approfondies montrent qu'OBS-Diff atteint un état de l'art en matière d'élagage en une seule étape pour les modèles de diffusion, offrant une accélération de l'inférence avec une dégradation minimale de la qualité visuelle.
L'évolution rapide des grands modèles de langage (LLMs) et du monde réel a dépassé la nature statique des benchmarks d'évaluation largement utilisés, suscitant des inquiétudes quant à leur fiabilité pour évaluer la factualité des LLMs. Alors que de nombreux travaux continuent de s'appuyer sur des benchmarks populaires mais anciens, leur décalage temporel avec les faits réels et les LLMs modernes, ainsi que leurs effets sur l'évaluation de la factualité des LLMs, restent insuffisamment explorés. Par conséquent, dans ce travail, nous présentons une investigation systématique de cette problématique en examinant cinq benchmarks de factualité populaires et huit LLMs publiés au fil des années. Un pipeline de récupération de faits à jour et trois métriques sont adaptés pour quantifier le vieillissement des benchmarks et son impact sur l'évaluation de la factualité des LLMs. Les résultats expérimentaux et l'analyse montrent qu'une part considérable des échantillons dans les benchmarks de factualité couramment utilisés sont obsolètes, conduisant à des évaluations peu fiables de la factualité des LLMs. Nous espérons que notre travail pourra servir de base pour évaluer la fiabilité d'un benchmark dans l'évaluation de la factualité des LLMs et inspirer davantage de recherches sur la question du vieillissement des benchmarks. Les codes sont disponibles sur https://github.com/JiangXunyi/BenchAge.
Les méthodes existantes pour extraire les signaux de récompense en apprentissage par renforcement reposent généralement sur des données étiquetées et des ensembles d'entraînement dédiés, une configuration qui contraste avec la manière dont les humains apprennent directement à partir de leur environnement. Dans ce travail, nous proposons TTRV pour améliorer la compréhension visuelle et langagière en adaptant le modèle à la volée lors de l'inférence, sans nécessiter de données étiquetées. Concrètement, nous améliorons le cadre d'optimisation de politique relative par groupe (GRPO) en concevant des récompenses basées sur la fréquence des sorties du modèle de base, tout en inférant plusieurs fois sur chaque échantillon de test. De plus, nous proposons également de contrôler la diversité des sorties du modèle en récompensant simultanément le modèle pour obtenir une faible entropie de la distribution empirique des sorties. Notre approche apporte des gains constants à la fois en reconnaissance d'objets et en réponse à des questions visuelles (VQA), avec des améliorations allant jusqu'à 52,4 % et 29,8 %, respectivement, et des augmentations moyennes de 24,6 % et 10,0 % sur 16 ensembles de données. Remarquablement, en reconnaissance d'images, TTRV appliqué à InternVL 8B surpasse GPT-4o en moyenne de 2,3 % sur 8 benchmarks, tout en restant très compétitif en VQA, démontrant que l'apprentissage par renforcement au moment du test peut égaler ou dépasser les modèles propriétaires les plus puissants. Enfin, nous découvrons de nombreuses propriétés intéressantes de l'apprentissage par renforcement au moment du test pour les modèles de langage visuel (VLM) : par exemple, même dans des scénarios extrêmement limités en données, où l'adaptation est effectuée sur un seul exemple de test non étiqueté choisi au hasard, TTRV produit encore des améliorations non négligeables allant jusqu'à 5,5 % dans les tâches de reconnaissance.
Un défi fondamental dans l'intelligence incarnée consiste à développer des représentations d'état expressives et compactes pour une modélisation efficace du monde et une prise de décision optimale. Cependant, les méthodes existantes échouent souvent à atteindre cet équilibre, produisant des représentations soit excessivement redondantes, soit dépourvues d'informations cruciales pour la tâche. Nous proposons une approche non supervisée qui apprend une représentation d'état hautement compressée en deux tokens, utilisant un encodeur léger et un décodeur pré-entraîné basé sur un Transformeur de Diffusion (DiT), tirant parti de son fort a priori génératif. Notre représentation est efficace, interprétable et s'intègre de manière transparente dans les modèles existants basés sur VLA, améliorant les performances de 14,3 % sur LIBERO et de 30 % dans la réussite de tâches réelles avec un surcoût d'inférence minimal. Plus important encore, nous constatons que la différence entre ces tokens, obtenue via interpolation latente, sert naturellement d'action latente hautement efficace, qui peut être ensuite décodée en actions exécutables par un robot. Cette capacité émergente révèle que notre représentation capture des dynamiques structurées sans supervision explicite. Nous nommons notre méthode StaMo pour sa capacité à apprendre un Mouvement robotique généralisable à partir d'une représentation d'État compacte, encodée à partir d'images statiques, remettant en question la dépendance prévalente à l'apprentissage d'actions latentes sur des architectures complexes et des données vidéo. Les actions latentes résultantes améliorent également l'entraînement conjoint des politiques, surpassant les méthodes antérieures de 10,4 % avec une meilleure interprétabilité. De plus, notre approche s'adapte efficacement à diverses sources de données, incluant des données robotiques réelles, des simulations et des vidéos égocentriques humaines.
Les récents efforts visant à accélérer l'inférence dans les modèles de langage multimodaux de grande taille (MLLMs) se sont principalement concentrés sur la compression des tokens visuels. L'efficacité de ces méthodes est généralement évaluée en mesurant la baisse de précision sur des benchmarks établis, en comparant les performances du modèle avant et après la compression. Cependant, ces benchmarks sont initialement conçus pour évaluer les capacités de perception et de raisonnement des MLLMs, plutôt que pour évaluer les techniques de compression. Par conséquent, leur application directe à la compression des tokens visuels introduit une inadéquation des tâches. De manière frappante, notre investigation révèle que le sous-échantillonnage simple des images surpasse systématiquement de nombreuses méthodes de compression avancées sur plusieurs benchmarks largement utilisés. À travers des expériences approfondies, nous faisons les observations suivantes : (i) Les benchmarks actuels sont bruyants pour la tâche de compression des tokens visuels. (ii) Le sous-échantillonnage peut servir de filtre de données pour évaluer la difficulté des échantillons dans la tâche de compression des tokens visuels. Motivés par ces résultats, nous introduisons VTC-Bench, un cadre d'évaluation qui intègre un mécanisme de filtrage des données pour débruiter les benchmarks existants, permettant ainsi une évaluation plus juste et plus précise des méthodes de compression des tokens visuels. Toutes les données et le code sont disponibles à l'adresse suivante : https://github.com/Chenfei-Liao/VTC-Bench.
Les modèles de langage multimodaux de grande taille (MLLMs) ont progressé rapidement ces dernières années. Cependant, les approches existantes pour les tâches visuelles reposent souvent sur des représentations indirectes, comme la génération de coordonnées sous forme de texte pour la détection, ce qui limite les performances et empêche les tâches de prédiction dense telles que la segmentation. Pour surmonter ces défis, nous introduisons Patch-as-Decodable Token (PaDT), un paradigme unifié qui permet aux MLLMs de générer directement à la fois des sorties textuelles et visuelles variées. Au cœur de PaDT se trouvent les Visual Reference Tokens (VRTs), dérivés des embeddings de patch visuels des images de requête et entrelacés de manière fluide avec les tokens textuels de sortie du LLM. Un décodeur léger transforme ensuite les sorties du LLM en prédictions de détection, de segmentation et de localisation. Contrairement aux méthodes précédentes, PaDT traite les VRTs indépendamment à chaque passage avant et étend dynamiquement la table d'embedding, améliorant ainsi la localisation et la différenciation entre objets similaires. Nous adaptons également une stratégie d'entraînement pour PaDT en sélectionnant aléatoirement des VRTs pour le fine-tuning supervisé et en introduisant une robuste perte d'entropie croisée par token. Nos études empiriques sur quatre tâches de perception et de compréhension visuelle montrent que PaDT atteint systématiquement des performances de pointe, même comparé à des modèles MLLM significativement plus grands. Le code est disponible à l'adresse https://github.com/Gorilla-Lab-SCUT/PaDT.
Le développement des modèles de langage de pointe est généralement compris comme un processus en deux étapes impliquant un pré-entraînement et un post-entraînement. Nous soulignons la nécessité d'une étape intermédiaire supplémentaire appelée renforcement en milieu d'entraînement, offrant un potentiel d'amélioration significative des performances. Dans cet article, nous définissons formellement le problème et identifions trois défis clés : (1) un entraînement inefficace dû à un nombre excessif d'étapes de raisonnement, (2) une négligence de la distribution déséquilibrée de l'entropie des tokens, et (3) une sous-utilisation des informations des tokens. Pour relever ces défis, nous proposons RMT, un cadre pour un renforcement en milieu d'entraînement efficace, adaptatif et unifié, intégrant plusieurs composants innovants. En particulier, nous introduisons d'abord un mécanisme de budget dynamique de tokens qui limite les étapes de raisonnement inutiles et atténue la surréflexion du modèle. Ensuite, nous concevons une méthode d'échantillonnage adaptatif basée sur un curriculum, favorisant une trajectoire d'apprentissage progressive des tokens faciles aux tokens difficiles. Enfin, nous présentons une stratégie d'entraînement duale combinant l'apprentissage par renforcement et la prédiction du token suivant, garantissant un apprentissage ciblé sur les tokens clés et une exploitation complète de toutes les informations des tokens. Des expériences approfondies démontrent la supériorité de RMT par rapport aux méthodes de pointe, avec une amélioration des performances allant jusqu'à +64,91 % en utilisant seulement 21 % de la longueur de raisonnement en modélisation du langage. Nous montrons également que les points de contrôle obtenus après le renforcement en milieu d'entraînement peuvent bénéficier au post-entraînement ultérieur, avec une amélioration allant jusqu'à +18,76 % dans le domaine mathématique.
Les observations en vue poignet sont cruciales pour les modèles VLA, car elles capturent des interactions main-objet fines qui améliorent directement les performances de manipulation. Cependant, les jeux de données à grande échelle incluent rarement de tels enregistrements, ce qui crée un écart important entre les vues d'ancrage abondantes et les vues poignet rares. Les modèles de monde existants ne peuvent pas combler cet écart, car ils nécessitent une première image en vue poignet et échouent ainsi à générer des vidéos en vue poignet à partir des seules vues d'ancrage. Face à cet écart, des modèles récents de géométrie visuelle, tels que VGGT, émergent avec des a priori géométriques et inter-vues qui permettent de traiter les changements extrêmes de point de vue. Inspirés par ces idées, nous proposons WristWorld, le premier modèle de monde 4D qui génère des vidéos en vue poignet uniquement à partir des vues d'ancrage. WristWorld fonctionne en deux étapes : (i) Reconstruction, qui étend VGGT et intègre notre perte de cohérence de projection spatiale (SPC) pour estimer des poses en vue poignet géométriquement cohérentes et des nuages de points 4D ; (ii) Génération, qui utilise notre modèle de génération de vidéos pour synthétiser des vidéos en vue poignet temporellement cohérentes à partir de la perspective reconstruite. Les expériences sur Droid, Calvin et Franka Panda démontrent une génération de vidéos de pointe avec une cohérence spatiale supérieure, tout en améliorant les performances VLA, augmentant la longueur moyenne de réalisation des tâches sur Calvin de 3,81 % et comblant 42,4 % de l'écart entre les vues d'ancrage et poignet.
Bien que les modèles de langage (LMs) aient réalisé des progrès significatifs dans l'automatisation de l'ingénierie du machine learning (MLE), l'acquisition de données d'entraînement de haute qualité pour le MLE reste fortement limitée. Les benchmarks actuels en MLE souffrent d'une faible évolutivité et d'une applicabilité restreinte, car ils reposent sur des tâches statiques et manuellement sélectionnées, nécessitant un temps considérable et un effort manuel important pour être produites. Nous présentons MLE-Smith, un pipeline multi-agent entièrement automatisé, conçu pour transformer des jeux de données bruts en défis de style compétition pour le MLE, grâce à un paradigme efficace de génération-vérification-exécution, permettant de mettre à l'échelle les tâches de MLE avec une qualité vérifiable, une utilité dans le monde réel et une grande diversité. Le pipeline multi-agent proposé dans MLE-Smith favorise une conception structurée des tâches et un refactoring standardisé, couplé à un mécanisme de vérification hybride qui impose des règles structurelles strictes et une cohérence sémantique de haut niveau. Il valide en outre la résolvabilité empirique et la fidélité au monde réel grâce à une exécution interactive. Nous appliquons MLE-Smith à 224 jeux de données réels et générons 606 tâches couvrant plusieurs catégories, objectifs et modalités, démontrant ainsi que MLE-Smith peut fonctionner efficacement sur une large gamme de jeux de données réels. L'évaluation des tâches générées montre que la performance de huit LMs principaux et de pointe sur les tâches de MLE-Smith est fortement corrélée à leur performance sur des tâches soigneusement conçues par des humains, soulignant l'efficacité de MLE-Smith pour mettre à l'échelle les tâches de MLE tout en maintenant la qualité des tâches.
L'intégration de l'apprentissage par renforcement en ligne (RL) dans les modèles de diffusion et de flux a récemment émergé comme une approche prometteuse pour aligner les modèles génératifs avec les préférences humaines. L'échantillonnage stochastique via les Équations Différentielles Stochastiques (SDE) est utilisé lors du processus de débruitage pour générer des directions de débruitage diversifiées pour l'exploration en RL. Bien que les méthodes existantes explorent efficacement les échantillons potentiels à haute valeur, elles souffrent d'un alignement sous-optimal des préférences en raison de signaux de récompense rares et étroits. Pour relever ces défis, nous proposons un nouveau cadre Granular-GRPO (G^2RPO) qui permet des évaluations précises et complètes des récompenses des directions d'échantillonnage dans l'apprentissage par renforcement des modèles de flux. Plus précisément, une stratégie d'Échantillonnage Stochastique Singulier est introduite pour soutenir une exploration stochastique pas à pas tout en renforçant une forte corrélation entre la récompense et le bruit injecté, facilitant ainsi une récompense fidèle pour chaque perturbation SDE. Parallèlement, pour éliminer le biais inhérent au débruitage à granularité fixe, nous introduisons un module d'Intégration d'Avantages Multi-Granularité qui agrège les avantages calculés à plusieurs échelles de diffusion, produisant une évaluation plus complète et robuste des directions d'échantillonnage. Les expériences menées sur divers modèles de récompense, incluant des évaluations intra-domaines et extra-domaines, démontrent que notre G^2RPO surpasse significativement les bases de référence GRPO basées sur les flux, mettant en évidence son efficacité et sa robustesse.
L'hypothèse de la Densité Uniforme d'Information (UID) suggère qu'une communication efficace maintient un flux d'information stable. Dans ce travail, nous revisitons ce principe dans le contexte des traces de raisonnement des grands modèles de langage (LLM), en nous demandant si l'uniformité au niveau des étapes reflète la qualité du raisonnement. À cette fin, nous proposons une métrique de densité d'information pas à pas basée sur l'entropie et introduisons deux mesures complémentaires d'uniformité : les scores d'uniformité locale et globale. À travers des expériences sur six benchmarks de raisonnement différents, nous constatons que l'uniformité au niveau des étapes offre non seulement une perspective théorique solide, mais apporte également des avantages pratiques en termes de performance ; par exemple, la sélection de traces de raisonnement avec une densité d'information plus uniforme au niveau des étapes améliore la précision avec des gains relatifs de 10 à 32 % par rapport aux bases de référence à AIME2025. Notre analyse révèle en outre que les traces de raisonnement correctes tendent à éviter les pics abrupts de densité d'information, tandis que les traces incorrectes présentent des irrégularités sous forme de pics d'information. Ces résultats démontrent que les mesures de densité d'information inspirées par l'UID surpassent d'autres signaux internes comme prédicteurs de la qualité du raisonnement. Les résultats soulignent l'uniformité de la densité d'information comme un critère robuste de diagnostic et de sélection pour construire des systèmes de raisonnement plus fiables et précis.
Au cours de la dernière décennie, U-Net a été l'architecture dominante dans la segmentation d'images médicales, conduisant au développement de milliers de variantes en forme de U. Malgré son adoption généralisée, il n'existe toujours pas de référence exhaustive pour évaluer systématiquement leurs performances et leur utilité, principalement en raison d'une validation statistique insuffisante et d'une considération limitée de l'efficacité et de la généralisation sur divers ensembles de données. Pour combler cette lacune, nous présentons U-Bench, la première référence à grande échelle et statistiquement rigoureuse qui évalue 100 variantes d'U-Net sur 28 ensembles de données et 10 modalités d'imagerie. Nos contributions sont triples : (1) Évaluation complète : U-Bench évalue les modèles selon trois dimensions clés : la robustesse statistique, la généralisation en zero-shot et l'efficacité computationnelle. Nous introduisons une nouvelle métrique, l'U-Score, qui capture conjointement le compromis performance-efficacité, offrant une perspective orientée déploiement sur les progrès des modèles. (2) Analyse systématique et guide de sélection des modèles : Nous résumons les principales conclusions de l'évaluation à grande échelle et analysons systématiquement l'impact des caractéristiques des ensembles de données et des paradigmes architecturaux sur les performances des modèles. Sur la base de ces insights, nous proposons un agent conseiller de modèles pour guider les chercheurs dans la sélection des modèles les plus adaptés à des ensembles de données et des tâches spécifiques. (3) Disponibilité publique : Nous fournissons tout le code, les modèles, les protocoles et les poids, permettant à la communauté de reproduire nos résultats et d'étendre la référence avec des méthodes futures. En résumé, U-Bench expose non seulement les lacunes des évaluations précédentes, mais établit également une base pour une référence équitable, reproductible et pertinente sur le plan pratique pour la prochaine décennie de modèles de segmentation basés sur U-Net. Le projet est accessible à l'adresse : https://fenghetan9.github.io/ubench. Le code est disponible à l'adresse : https://github.com/FengheTan9/U-Bench.
La détection générique des limites d'événements (GEBD) vise à interpréter les vidéos de longue durée à travers le prisme de la perception humaine. Cependant, les méthodes actuelles de GEBD nécessitent de traiter l'intégralité des images vidéo pour effectuer des prédictions, contrairement aux humains qui traitent les données en ligne et en temps réel. Pour combler cet écart, nous introduisons une nouvelle tâche, la détection générique des limites d'événements en ligne (On-GEBD), visant à détecter immédiatement les limites d'événements génériques dans les vidéos en flux continu. Cette tâche présente des défis uniques, tels que l'identification en temps réel de changements d'événements subtils et indépendants d'une taxonomie, sans accès aux images futures. Pour relever ces défis, nous proposons un nouveau cadre On-GEBD, Estimator, inspiré par la théorie de la segmentation d'événements (EST), qui explique comment les humains segmentent les activités en cours en exploitant les écarts entre les informations prédites et réelles. Notre cadre se compose de deux éléments clés : l'Anticipateur d'Événements Cohérents (CEA) et le Discriminateur de Limites en Ligne (OBD). Plus précisément, le CEA génère une prédiction de l'image future reflétant la dynamique actuelle de l'événement en se basant uniquement sur les images précédentes. Ensuite, l'OBD mesure l'erreur de prédiction et ajuste de manière adaptative le seuil en utilisant des tests statistiques sur les erreurs passées pour capturer des transitions d'événements diverses et subtiles. Les résultats expérimentaux montrent qu'Estimator surpasse toutes les méthodes de référence adaptées des modèles récents de compréhension vidéo en ligne et atteint des performances comparables aux méthodes GEBD hors ligne précédentes sur les ensembles de données Kinetics-GEBD et TAPOS.
Nous présentons Heptapod, un modèle autoregressif d’images qui adhère aux principes fondamentaux de la modélisation du langage. Heptapod utilise une attention causale, élimine la dépendance au CFG (Classifier-Free Guidance) et rejette la tendance des tokenizers sémantiques. Notre innovation clé est la prédiction de distribution 2D suivante : un Transformer causal, associé à un tokenizer visuel axé sur la reconstruction, apprend à prédire la distribution sur l’ensemble de la grille spatiale 2D des images à chaque pas de temps. Cet objectif d’apprentissage unifie la modélisation séquentielle du cadre autoregressif avec l’apprentissage auto-supervisé holistique de l’auto-encodage masqué, permettant au modèle de capturer la sémantique complète des images via un entraînement génératif. Sur le benchmark de génération ImageNet, Heptapod atteint un FID de 2,70, surpassant significativement les approches autoregressives causales précédentes. Nous espérons que notre travail inspirera une réflexion approfondie et structurée sur la modélisation du langage appliquée aux signaux visuels et au-delà.
Les frameworks d'agents d'utilisation informatique (CUA), alimentés par des modèles de langage de grande taille (LLM) ou des LLM multimodaux (MLLM), évoluent rapidement en tant qu'assistants capables de percevoir le contexte, de raisonner et d'agir directement dans des environnements logiciels. Parmi leurs applications les plus critiques figure le contrôle des systèmes d'exploitation (OS). Alors que les CUA dans le domaine des OS s'intègrent de plus en plus dans les opérations quotidiennes, il est impératif d'examiner leurs implications en matière de sécurité dans le monde réel, en particulier si les CUA peuvent être détournés pour exécuter des attaques réalistes et pertinentes pour la sécurité. Les travaux existants présentent quatre limitations majeures : l'absence de modèle de connaissance de l'attaquant sur les tactiques, techniques et procédures (TTP), une couverture incomplète des chaînes de destruction de bout en bout, un environnement irréaliste sans hôtes multiples et sans informations d'identification utilisateur chiffrées, et un jugement peu fiable dépendant du LLM-comme-juge. Pour combler ces lacunes, nous proposons AdvCUA, le premier benchmark aligné sur les TTP réels de la matrice MITRE ATT&CK Enterprise, qui comprend 140 tâches, dont 40 tâches malveillantes directes, 74 tâches malveillantes basées sur les TTP et 26 chaînes de destruction de bout en bout, évaluant systématiquement les CUA dans un environnement sandbox réaliste de menace de sécurité OS en entreprise avec plusieurs hôtes, via une évaluation codée en dur. Nous évaluons les cinq CUA grand public existants, notamment ReAct, AutoGPT, Gemini CLI, Cursor CLI et Cursor IDE, basés sur 8 LLM de base. Les résultats démontrent que les CUA actuels de pointe ne couvrent pas adéquatement les menaces centrées sur la sécurité des OS. Ces capacités des CUA réduisent la dépendance aux logiciels malveillants personnalisés et à l'expertise approfondie du domaine, permettant même à des attaquants inexpérimentés de mener des intrusions complexes en entreprise, ce qui soulève des préoccupations sociales concernant la responsabilité et la sécurité des CUA.
Le choix de l'optimiseur a un impact significatif sur l'efficacité de l'entraînement et les coûts computationnels des grands modèles de langage (LLM). Récemment, l'optimiseur Muon a démontré des résultats prometteurs en orthogonalisant les mises à jour des paramètres, améliorant ainsi la géométrie de l'optimisation grâce à un meilleur conditionnement. Bien que Muon émerge comme un candidat successeur potentiel à Adam, le potentiel d'une exploitation conjointe de leurs forces n'a pas été systématiquement exploré. Dans ce travail, nous comblons cette lacune en proposant NorMuon (Muon Normalisé par Neurone), un optimiseur qui combine de manière synergique l'orthogonalisation avec des taux d'apprentissage adaptatifs au niveau des neurones. Notre analyse révèle que si Muon réduit efficacement les nombres de conditionnement, les mises à jour résultantes présentent des normes de neurones très non uniformes, ce qui entraîne la domination de certains neurones dans le processus d'optimisation. NorMuon corrige ce déséquilibre en maintenant des statistiques de moment du second ordre pour chaque neurone et en appliquant une normalisation par ligne après l'orthogonalisation, assurant ainsi une utilisation équilibrée des paramètres tout en préservant les avantages de conditionnement de Muon. Pour permettre un déploiement pratique à grande échelle, nous développons une implémentation distribuée efficace sous le cadre FSDP2 qui répartit stratégiquement les calculs d'orthogonalisation entre les dispositifs. Les expériences menées sur plusieurs échelles de modèles démontrent que NorMuon surpasse systématiquement à la fois Adam et Muon, atteignant une efficacité d'entraînement 21,74 % supérieure à celle d'Adam et une amélioration de 11,31 % par rapport à Muon dans un contexte de pré-entraînement de 1,1 milliard de paramètres, tout en maintenant une empreinte mémoire comparable à celle de Muon. Nos résultats suggèrent que l'orthogonalisation et les taux d'apprentissage adaptatifs sont des approches complémentaires plutôt que concurrentes, ouvrant de nouvelles voies pour la conception d'optimiseurs dans l'apprentissage profond à grande échelle.
La technologie de génération de texte-à-vidéo (T2V) possède un potentiel transformateur dans de multiples domaines tels que l'éducation, le marketing, le divertissement et les technologies d'assistance pour les personnes confrontées à des défis visuels ou de compréhension de lecture, en créant un contenu visuel cohérent à partir de prompts en langage naturel. Depuis ses débuts, ce domaine a évolué des modèles adversariaux aux modèles basés sur la diffusion, produisant des résultats de plus haute fidélité et temporellement cohérents. Cependant, des défis persistent, tels que l'alignement, la cohérence à long terme et l'efficacité computationnelle. Face à ce paysage en évolution, nous présentons une étude approfondie des modèles génératifs texte-à-vidéo, retraçant leur développement depuis les premiers GANs et VAEs jusqu'aux architectures hybrides Diffusion-Transformer (DiT), en détaillant le fonctionnement de ces modèles, les limites qu'ils ont surmontées chez leurs prédécesseurs, et les raisons pour lesquelles les transitions vers de nouveaux paradigmes architecturaux étaient nécessaires pour relever les défis en matière de qualité, de cohérence et de contrôle. Nous fournissons un compte rendu systématique des ensembles de données sur lesquels les modèles texte-à-vidéo étudiés ont été entraînés et évalués, et, pour soutenir la reproductibilité et évaluer l'accessibilité de l'entraînement de tels modèles, nous détaillons leurs configurations d'entraînement, incluant leurs spécifications matérielles, le nombre de GPU, les tailles de lots, les taux d'apprentissage, les optimiseurs, les époques et d'autres hyperparamètres clés. En outre, nous décrivons les métriques d'évaluation couramment utilisées pour évaluer ces modèles et présentons leurs performances sur des benchmarks standard, tout en discutant des limites de ces métriques et de l'émergence de stratégies d'évaluation plus holistiques et alignées sur la perception. Enfin, en nous appuyant sur notre analyse, nous exposons les défis ouverts actuels et proposons quelques directions futures prometteuses, offrant une perspective pour que les futurs chercheurs explorent et s'appuient sur ces avancées pour faire progresser la recherche et les applications T2V.
Nous présentons AlphaApollo, un système de raisonnement agentique auto-évolutif visant à résoudre deux goulots d'étranglement dans le raisonnement des modèles de base (FM) : la capacité intrinsèque limitée du modèle et l'itération peu fiable en temps de test. AlphaApollo orchestre plusieurs modèles avec des outils professionnels pour permettre un raisonnement délibéré et vérifiable. Il combine (i) un outil de calcul (Python avec des bibliothèques numériques et symboliques) et (ii) un outil de recherche (informations externes pertinentes pour la tâche) pour exécuter des calculs précis et ancrer les décisions. Le système prend également en charge l'évolution multi-tours et multi-modèles des solutions via une carte d'état partagée qui enregistre les candidats, les vérifications exécutables et les retours pour un affinement itératif. Dans les évaluations sur AIME 2024/2025 avec plusieurs modèles, AlphaApollo offre des gains constants : +5,15 % Average@32 et +23,34 % Pass@32 pour Qwen2.5-14B-Instruct, et +8,91 % Average@32 avec +26,67 % Pass@32 pour Llama-3.3-70B-Instruct. L'analyse de l'utilisation des outils montre que plus de 80 % des appels d'outils sont exécutés avec succès, surpassant systématiquement les bases de référence sans outils, ce qui élève ainsi le plafond de capacité des FM. D'autres résultats empiriques et détails d'implémentation seront mis à jour sur https://github.com/tmlr-group/AlphaApollo.
Les évaluations courantes des grands modèles de langage (LLM) reposent sur des exemples de démonstration pour orienter les réponses des modèles vers le style souhaité. Bien que le nombre d'exemples utilisés ait été étudié et standardisé, le choix de la manière de formater ces exemples est moins exploré. Dans les protocoles d'évaluation et les usages réels, les utilisateurs sont confrontés au choix de la manière de séparer les exemples en contexte : utiliser une virgule ? un saut de ligne ? un point-virgule ? un hashtag ? etc. ? Étonnamment, nous constatons que ce choix apparemment mineur peut considérablement altérer la qualité des réponses du modèle. Parmi les principales familles de modèles (Llama, Qwen, Gemma), les performances sur MMLU, par exemple, peuvent varier de ±23 % selon le choix du délimiteur. En fait, il est possible de manipuler les classements des modèles pour placer n'importe quel modèle en tête en modifiant uniquement le caractère séparant les exemples. Nous observons que la fragilité des LLM persiste à travers les sujets, les familles de modèles, et ne s'améliore pas avec l'échelle. En examinant les scores des têtes d'attention, nous constatons que les délimiteurs performants orientent l'attention vers les tokens clés de l'entrée. Enfin, nous explorons des méthodes pour améliorer la robustesse des LLM face au choix du délimiteur. Nous constatons que spécifier le délimiteur sélectionné dans l'invite renforce la robustesse et proposons des recommandations pratiques pour choisir les délimiteurs les plus performants.
L'alternance codique (Code-Switching, CSW), qui consiste à alterner les langues et les scripts au sein d'un même énoncé, reste un défi fondamental pour le traitement automatique des langues (NLP) multilingue, même face aux avancées rapides des grands modèles de langage (LLMs). La plupart des LLMs peinent encore à gérer les entrées en langues mixtes, les ensembles de données limités pour l'alternance codique, et les biais d'évaluation, ce qui entrave leur déploiement dans les sociétés multilingues. Cette étude propose la première analyse complète des recherches sur les LLMs prenant en compte l'alternance codique, passant en revue des études uniques couvrant cinq domaines de recherche, 12 tâches de NLP, plus de 30 ensembles de données et plus de 80 langues. Nous classons les avancées récentes selon l'architecture, la stratégie d'entraînement et la méthodologie d'évaluation, en soulignant comment les LLMs ont redéfini la modélisation de l'alternance codique et quels défis persistent. L'article conclut par une feuille de route mettant l'accent sur la nécessité de créer des ensembles de données inclusifs, des évaluations équitables et des modèles ancrés dans la linguistique pour parvenir à une intelligence véritablement multilingue. Une collection organisée de toutes les ressources est maintenue à l'adresse suivante : https://github.com/lingo-iitgn/awesome-code-mixing/.
Avec l'utilisation croissante de la Génération Augmentée par Récupération (RAG), les modèles de récupération performants sont devenus plus importants que jamais. Dans le domaine de la santé, les modèles de récupération multimodaux qui combinent des informations provenant à la fois de textes et d'images offrent des avantages majeurs pour de nombreuses tâches en aval telles que la réponse à des questions, la récupération intermodale et la synthèse multimodale, car les données médicales incluent souvent ces deux formats. Cependant, il n'existe actuellement aucun benchmark standard pour évaluer la performance de ces modèles dans des contextes médicaux. Pour combler cette lacune, nous introduisons M3Retrieve, un Benchmark de Récupération Médicale Multimodale. M3Retrieve couvre 5 domaines, 16 spécialités médicales et 4 tâches distinctes, avec plus de 1,2 million de documents textuels et 164 000 requêtes multimodales, tous collectés sous des licences approuvées. Nous évaluons les principaux modèles de récupération multimodaux sur ce benchmark pour explorer les défis spécifiques à différentes spécialités médicales et comprendre leur impact sur la performance de récupération. En publiant M3Retrieve, nous visons à permettre une évaluation systématique, à favoriser l'innovation des modèles et à accélérer la recherche vers la construction de systèmes de récupération multimodaux plus performants et fiables pour les applications médicales. Le jeu de données et le code des modèles de référence sont disponibles sur cette page GitHub : https://github.com/AkashGhosh/M3Retrieve.
Les grands modèles de langage (LLMs) hallucinent fréquemment face à des questions complexes, produisant des réponses plausibles mais factuellement incorrectes. Une stratégie courante pour atténuer ce problème consiste à fournir une attribution aux sorties des LLMs. Cependant, les benchmarks existants se concentrent principalement sur une attribution simple qui récupère des preuves textuelles comme références. Nous soutenons que, dans des scénarios réels tels que les applications financières, l'attribution va au-delà de la récupération de références. Nous introduisons FinLFQA, un benchmark conçu pour évaluer la capacité des LLMs à générer des réponses détaillées à des questions financières complexes avec des attributions fiables et nuancées. FinLFQA évalue trois aspects critiques de l'attribution grâce à des annotations humaines : (1) les preuves extraites des rapports financiers, (2) les étapes intermédiaires de raisonnement numérique, et (3) les connaissances financières spécifiques au domaine qui éclairent le processus de raisonnement. Nous proposons également un cadre d'évaluation automatique couvrant à la fois la qualité des réponses et la qualité de l'attribution. À travers des expériences approfondies sur huit LLMs utilisant plusieurs paradigmes de génération d'attribution, nous constatons que des métriques fines sont essentielles pour distinguer les capacités des modèles, que la génération end-to-end atteint des performances comparables aux approches post-hoc, et que l'affinement itératif n'est utile que lorsqu'il est guidé par des retours externes.
L'agent de planification de voyage (Travel Planning, TP) est récemment devenu un élément clé émergent pour interagir avec des outils et ressources externes afin de générer des itinéraires de voyage, garantissant une expérience utilisateur agréable. Malgré ses avantages, les études existantes reposent sur des prompts artisanaux et des workflows d'agents fixes, limitant ainsi la flexibilité et l'autonomie des agents TP. Cet article propose DeepTravel, un cadre d'apprentissage par renforcement agentique de bout en bout pour construire un agent de planification de voyage autonome, capable de planifier de manière autonome, d'exécuter des outils et de réfléchir aux réponses des outils pour explorer, vérifier et affiner les actions intermédiaires dans un raisonnement à plusieurs étapes. Pour y parvenir, nous construisons d'abord un environnement sandbox robuste en mettant en cache les données de transport, d'hébergement et de points d'intérêt (POI), facilitant ainsi l'entraînement de l'agent TP sans être contraint par les limitations des API du monde réel (par exemple, des sorties incohérentes). De plus, nous développons un système de modélisation de récompenses hiérarchique, où un vérificateur au niveau de la trajectoire vérifie d'abord la faisabilité spatio-temporelle et filtre les itinéraires insatisfaisants, puis un vérificateur au niveau du tour valide davantage la cohérence des détails de l'itinéraire avec les réponses des outils, permettant un service de récompense efficace et précis. Enfin, nous proposons la méthode d'apprentissage par renforcement augmenté par relecture, qui permet à l'agent TP de rejouer périodiquement à partir d'un tampon d'expériences d'échecs, développant ainsi une capacité agentique notable. Nous déployons l'agent TP entraîné sur l'application DiDi Enterprise Solutions et menons des évaluations complètes en ligne et hors ligne, démontrant que DeepTravel permet à des modèles de langage de petite taille (par exemple, Qwen3 32B) de surpasser significativement les modèles de langage de pointe existants tels qu'OpenAI o1, o3 et DeepSeek R1 dans les tâches de planification de voyage.
Malgré une fidélité visuelle impressionnante, les modèles génératifs vidéo modernes produisent fréquemment des séquences qui violent les lois physiques intuitives, comme des objets flottant, se téléportant ou se transformant de manière à défier la causalité. Bien que les humains puissent facilement détecter de telles invraisemblances, il n'existe toujours pas de méthode robuste pour évaluer quantitativement le réalisme physique dans les vidéos. Dans ce travail, nous explorons si les modèles vidéo-langage (VLMs) peuvent être entraînés pour servir de juges fiables de la plausibilité physique. Nous constatons que les VLMs existants peinent à identifier les violations de la physique, révélant des limitations fondamentales dans leur raisonnement temporel et causal. Pour remédier à cela, nous introduisons TRAVL, une méthode de fine-tuning qui combine un ensemble de données d'entraînement équilibré avec un module d'attention conscient des trajectoires pour améliorer l'encodage et la discrimination du mouvement dans les VLMs. Pour évaluer le raisonnement physique de manière plus rigoureuse, nous proposons ImplausiBench, un benchmark de 300 vidéos (150 réelles, 150 générées) qui élimine les biais linguistiques et isole la compréhension visuo-temporelle. Les performances sont rapportées à la fois avec des jugements humains de référence et des métriques plus strictes utilisant un LLM comme juge. Ensemble, TRAVL et ImplausiBench offrent un cadre unifié pour explorer et améliorer la plausibilité physique dans les modèles multimodaux, éclairant un aspect difficile et peu exploré de la compréhension visuo-temporelle.
Ce travail étudie les capacités de raisonnement et de planification des modèles de base ainsi que leur évolutivité dans des environnements complexes et dynamiques. Nous présentons PuzzlePlex, un benchmark conçu pour évaluer ces capacités à travers un ensemble varié de puzzles. PuzzlePlex comprend 15 types de puzzles, incluant des jeux déterministes et stochastiques de difficulté variable, ainsi que des scénarios à un joueur et à deux joueurs. Le cadre PuzzlePlex fournit un environnement complet pour chaque jeu et permet une extensibilité pour générer des instances plus difficiles à mesure que les modèles de base évoluent. De plus, nous mettons en œuvre des stratégies personnalisées de jeu pour comparaison. En nous appuyant sur ce benchmark, nous développons des métriques fines pour mesurer les performances et réalisons une analyse approfondie des modèles de base de pointe dans deux contextes : basé sur des instructions et basé sur du code. Par ailleurs, nous étudions systématiquement leurs limites d’évolutivité. Nos résultats montrent que les modèles de raisonnement surpassent les autres dans les contextes basés sur des instructions, tandis que l’exécution basée sur du code présente des défis plus importants mais offre une alternative évolutive et efficace. PuzzlePlex permet une évaluation ciblée et guide les améliorations futures en matière de raisonnement, de planification et de généralisation pour les modèles de base.
L'émergence des modèles autorégressifs (AR) visuels a révolutionné la génération d'images tout en présentant de nouveaux défis pour la détection d'images synthétiques. Contrairement aux méthodes précédentes basées sur les GAN ou la diffusion, les modèles AR génèrent des images par prédiction de tokens discrets, montrant à la fois des améliorations marquées dans la qualité de la synthèse d'images et des caractéristiques uniques dans leurs représentations vectorielles quantifiées. Dans cet article, nous proposons d'exploiter l'Erreur de Quantification Sensible à la Disparité des Distributions Discrètes (D^3QE) pour la détection d'images générées par des modèles autorégressifs, en tirant parti des motifs distinctifs et du biais de distribution de fréquence du codebook existant dans les images réelles et fausses. Nous introduisons un transformateur sensible à la disparité des distributions discrètes qui intègre des statistiques dynamiques de fréquence du codebook dans son mécanisme d'attention, fusionnant les caractéristiques sémantiques et l'erreur de quantification latente. Pour évaluer notre méthode, nous construisons un ensemble de données complet appelé ARForensics couvrant 7 modèles AR visuels principaux. Les expériences démontrent une précision de détection supérieure et une forte généralisation de D^3QE à travers différents modèles AR, avec une robustesse aux perturbations du monde réel. Le code est disponible à l'adresse https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
L'imputation de séries temporelles (Time Series Imputation, TSI), qui vise à reconstituer les valeurs manquantes dans les données temporelles, reste un défi fondamental en raison de la complexité et du taux souvent élevé de valeurs manquantes dans les scénarios réels. Les modèles existants optimisent généralement la perte de reconstruction point par point, en se concentrant sur la récupération des valeurs numériques (informations locales). Cependant, nous observons que sous des taux de valeurs manquantes élevés, ces modèles continuent de bien performer pendant la phase d'entraînement, mais produisent des imputations médiocres et des distributions de représentations latentes déformées (informations globales) lors de la phase d'inférence. Cela révèle un dilemme d'optimisation critique : les objectifs actuels manquent de guidance globale, conduisant les modèles à sur-apprendre le bruit local et à échouer à capturer les informations globales des données. Pour résoudre ce problème, nous proposons un nouveau paradigme d'entraînement, le Glocal Information Bottleneck (Glocal-IB). Glocal-IB est indépendant du modèle et étend le cadre standard de l'IB en introduisant une perte d'alignement global, dérivée d'une approximation tractable de l'information mutuelle. Cette perte aligne les représentations latentes des entrées masquées avec celles de leurs contreparties originales observées. Elle aide le modèle à conserver la structure globale et les détails locaux tout en supprimant le bruit causé par les valeurs manquantes, favorisant ainsi une meilleure généralisation sous des taux de valeurs manquantes élevés. Des expériences approfondies sur neuf ensembles de données confirment que Glocal-IB conduit à une amélioration constante des performances et à des représentations latentes alignées en présence de valeurs manquantes. Notre implémentation de code est disponible sur https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB.