papers.description
Dans ce rapport technique, nous présentons la série de modèles Ring-linear, incluant spécifiquement Ring-mini-linear-2.0 et Ring-flash-linear-2.0. Ring-mini-linear-2.0 comprend 16 milliards de paramètres et 957 millions d'activations, tandis que Ring-flash-linear-2.0 contient 104 milliards de paramètres et 6,1 milliards d'activations. Les deux modèles adoptent une architecture hybride qui intègre efficacement l'attention linéaire et l'attention softmax, réduisant significativement les surcharges d'I/O et de calcul dans les scénarios d'inférence à contexte long. Par rapport à un modèle dense de 32 milliards de paramètres, cette série réduit le coût d'inférence à 1/10, et par rapport à la série Ring originale, le coût est également réduit de plus de 50 %. De plus, grâce à une exploration systématique du ratio entre les différents mécanismes d'attention dans l'architecture hybride, nous avons identifié la structure de modèle actuellement optimale. En outre, en exploitant notre bibliothèque d'opérateurs FP8 haute performance auto-développée, linghe, l'efficacité globale de l'entraînement a été améliorée de 50 %. Grâce à la forte alignement entre les opérateurs du moteur d'entraînement et d'inférence, les modèles peuvent subir une optimisation stable et hautement efficace sur le long terme pendant la phase d'apprentissage par renforcement, maintenant constamment des performances de pointe (SOTA) sur plusieurs benchmarks complexes et exigeants en raisonnement.
L'apprentissage par renforcement (RL) est récemment devenu le paradigme central pour aligner et renforcer les grands modèles de langage (LLMs). Cependant, l'application du RL dans des contextes hors politique (off-policy)—où des données obsolètes provenant de politiques passées sont utilisées pour l'entraînement—améliore l'efficacité des échantillons, mais reste difficile : l'entropie de la politique diminue fortement, l'optimisation devient souvent instable et peut même s'effondrer. À travers une analyse théorique et empirique, nous identifions deux insights clés : (i) un déséquilibre dans l'optimisation, où les échantillons à avantage négatif dominent le gradient de la politique, supprimant les comportements utiles et risquant des explosions de gradient ; et (ii) la règle de coupure d'entropie (Entropy-Clip Rule), qui révèle que le mécanisme de coupure fixe dans les objectifs de type PPO bloque systématiquement les mises à jour augmentant l'entropie, conduisant ainsi la politique vers une surexploitation au détriment de l'exploration. Sur la base de ces insights, nous proposons l'Optimisation de Politique Équilibrée avec Coupure Adaptative (BAPO), une méthode simple mais efficace qui ajuste dynamiquement les bornes de coupure pour rééquilibrer de manière adaptative les contributions positives et négatives, préserver l'entropie et stabiliser l'optimisation du RL. Dans divers scénarios hors politique—y compris la relecture d'échantillons et les déploiements partiels—BAPO permet un entraînement rapide, stable et efficace en termes de données. Sur les benchmarks AIME 2024 et AIME 2025, notre modèle BAPO de 7B surpasse les modèles open-source tels que SkyWork-OR1-7B, tandis que notre modèle BAPO de 32B non seulement atteint des résultats de pointe parmi les modèles de la même échelle, mais surpasse également les systèmes propriétaires leaders comme o3-mini et Gemini-2.5-Flash-Thinking.
Le raisonnement sur des contextes longs est essentiel pour les grands modèles de langage. Bien que l'apprentissage par renforcement (RL) améliore le raisonnement sur des contextes courts en induisant des moments "Aha" dans les chaînes de pensée, les schémas de pensée avancés nécessaires pour le raisonnement sur des contextes longs restent largement inexplorés, et les données RL de haute difficulté sont rares. Dans cet article, nous présentons LoongRL, une méthode RL basée sur les données pour le raisonnement avancé sur des contextes longs. Au cœur de LoongRL se trouve KeyChain, une approche de synthèse qui transforme des questions-réponses multi-étapes courtes en tâches de contexte long de haute difficulté en insérant des chaînes UUID qui masquent la véritable question parmi de grandes collections de documents distracteurs. Résoudre ces tâches nécessite que le modèle suive la chaîne correcte étape par étape, identifie la véritable question, récupère les faits pertinents et raisonne sur eux pour répondre correctement. L'entraînement RL sur les données de KeyChain induit un schéma de raisonnement émergent planifier-récupérer-raisonner-revérifier qui se généralise bien au-delà de la longueur d'entraînement. Les modèles entraînés à 16K résolvent efficacement des tâches de 128K sans les coûts prohibitifs d'un déploiement RL complet. Sur Qwen2.5-7B et 14B, LoongRL améliore considérablement la précision des questions-réponses multi-étapes sur des contextes longs avec des gains absolus de +23,5 % et +21,1 %. Le modèle LoongRL-14B résultant atteint un score de 74,2, rivalisant avec des modèles frontaliers beaucoup plus grands tels que o3-mini (74,5) et DeepSeek-R1 (74,9). Il améliore également la récupération sur des contextes longs, réussit tous les tests de stress "aiguille dans une botte de foin" de 128K, et préserve les capacités de raisonnement sur des contextes courts.
L’entraînement des modèles Vision-Langage-Action (VLA) pour des robots généralistes nécessite généralement des données robotiques à grande échelle provenant du monde réel, dont la collecte est coûteuse et chronophage. L’inefficacité de la collecte de données physiques limite sévèrement l’évolutivité et la capacité de généralisation des systèmes VLA actuels. Pour relever ce défi, nous introduisons GigaBrain-0, un nouveau modèle de fondation VLA alimenté par des données générées par des modèles du monde (par exemple, génération de vidéos, transfert réel à réel, transfert humain, transfert de vue, transfert simulation à réel). En exploitant les modèles du monde pour générer des données diversifiées à grande échelle, GigaBrain-0 réduit considérablement la dépendance aux données robotiques réelles tout en améliorant la généralisation inter-tâches. Notre approche renforce également la robustesse des politiques grâce à la modélisation des entrées RGBD et à la supervision incarnée de la Chaîne de Pensée (CoT), permettant au modèle de raisonner sur la géométrie spatiale, les états des objets et les dépendances à long terme lors de l’exécution des tâches. Cela conduit à des gains substantiels dans les performances réelles sur des tâches de manipulation dextre, à long terme et mobile. Des expériences approfondies démontrent que GigaBrain-0 atteint une généralisation supérieure face aux variations d’apparence (par exemple, textures, couleurs), de placement des objets et de points de vue de la caméra. De plus, nous présentons GigaBrain-0-Small, une variante légère optimisée conçue pour fonctionner efficacement sur des dispositifs tels que le NVIDIA Jetson AGX Orin.
Les composants des modèles de type Transformer, tels que les activations non linéaires et la normalisation, sont intrinsèquement non injectifs, ce qui suggère que différentes entrées pourraient être mappées sur la même sortie, empêchant ainsi la récupération exacte de l'entrée à partir des représentations du modèle. Dans cet article, nous remettons en question cette perspective. Premièrement, nous démontrons mathématiquement que les modèles de langage Transformer, qui mappent des séquences d'entrées discrètes à leurs séquences de représentations continues correspondantes, sont injectifs et donc sans perte, une propriété établie à l'initialisation et préservée pendant l'entraînement. Deuxièmement, nous confirmons ce résultat empiriquement à travers des milliards de tests de collision sur six modèles de langage de pointe, et n'observons aucune collision. Troisièmement, nous opérationnalisons l'injectivité : nous introduisons SipIt, le premier algorithme qui reconstruit de manière prouvée et efficace le texte d'entrée exact à partir des activations cachées, établissant des garanties en temps linéaire et démontrant une inversibilité exacte en pratique. Globalement, notre travail établit l'injectivité comme une propriété fondamentale et exploitable des modèles de langage, avec des implications directes pour la transparence, l'interprétabilité et le déploiement sécurisé.
L'entraînement d'agents d'utilisation informatique nécessite des quantités massives de données d'interaction avec les interfaces graphiques (GUI), mais l'annotation manuelle des trajectoires d'actions à grande échelle est prohibitivement coûteuse. Nous présentons VideoAgentTrek, un pipeline évolutif qui extrait automatiquement des données d'entraînement à partir de vidéos enregistrées d'écran disponibles publiquement à l'échelle du web, éliminant ainsi le besoin d'annotation manuelle. Notre approche résout un défi majeur : les vidéos brutes contiennent des démonstrations implicites mais manquent d'étiquettes d'actions explicites. Pour y remédier, nous développons Video2Action, un module de dynamique inverse (IDM) composé de deux éléments : (1) un modèle de localisation vidéo qui détecte et localise les actions sur l'interface graphique avec des limites temporelles précises et un contexte, et (2) un reconnaisseur de contenu d'action qui extrait des paramètres structurés, tels que les coordonnées de clic et le texte saisi, avec une grande fidélité. Appliqué à 39 000 vidéos tutoriels YouTube, notre pipeline génère automatiquement 1,52 million d'étapes d'interaction. Nous exploitons ces données par un pré-entraînement continu suivi d'un ajustement fin supervisé. Sur OSWorld-Verified, notre approche améliore les taux de réussite des tâches de 9,3 % (base SFT uniquement) à 15,8 %, soit une amélioration relative de 70 %. Sur AgentNetBench, la précision des étapes passe de 64,1 % à 69,3 %. Nos résultats démontrent que les vidéos passives sur internet peuvent être transformées en supervision de haute qualité pour les agents d'utilisation informatique, offrant une alternative évolutive à l'annotation manuelle coûteuse.
Les Agents de Téléphonie Mobile (MPAs) sont apparus comme une direction de recherche prometteuse en raison de leur applicabilité étendue à divers scénarios. Bien que les Modèles de Langage Multimodaux de Grande Taille (MLLMs) constituent la base des MPAs, leur efficacité à gérer simultanément plusieurs tâches sur téléphone mobile reste limitée. Bien que le fine-tuning supervisé multitâche (SFT) soit largement adopté pour l'apprentissage multitâche, les approches existantes peinent à déterminer les compositions optimales de données d'entraînement pour atteindre des performances maximales. Pour relever ce défi, nous proposons DaMo (Data Mixture Optimizer) – une solution novatrice utilisant un réseau entraînable qui prédit les mélanges de données optimaux en anticipant les performances des tâches en aval pour tout ratio de jeu de données donné. Pour soutenir une évaluation complète, nous introduisons PhoneAgentBench, le premier benchmark spécialisé pour évaluer les MLLMs sur des tâches multimodales de téléphonie mobile, comprenant 1235 paires de questions-réponses couvrant divers scénarios industriels réels d'applications mobiles. Démontrant une forte capacité prédictive (R²=0,81) dans des expériences pilotes à petite échelle, DaMo extrapole efficacement les configurations optimales de mélange de données. Nos résultats montrent que DaMo améliore les performances de 3,38 % sur PhoneAgentBench par rapport aux méthodes alternatives. De plus, des expériences approfondies sur des benchmarks établis, notamment BFCL-v3, MME-Reasoning, MME-Perception et OCRBench, révèlent la supériorité de généralisation de DaMo, surpassant les autres approches de 2,57 % en termes de score moyen. Lorsqu'il est utilisé uniquement pour l'optimisation des MLLMs sur la tâche BFCL-v3, DaMo améliore les métriques de 12,47 % par rapport aux autres méthodes. Notamment, DaMo maintient une robuste scalabilité, préservant son efficacité lorsqu'il est appliqué à d'autres architectures de modèles. Le code et le jeu de données sont disponibles à l'adresse https://github.com/OPPO-Mente-Lab/DaMo.git.
Les modèles vision-langage (VLMs) ont réalisé des progrès remarquables, mais leur grande échelle les rend souvent inadaptés aux environnements à ressources limitées. Cet article présente l'apprentissage unifié par renforcement et imitation (RIL), un algorithme de formation novateur et efficace conçu pour créer des VLMs puissants et légers. RIL combine de manière distinctive les avantages de l'apprentissage par renforcement avec ceux de l'apprentissage par imitation adversarial. Cela permet aux VLMs étudiants de plus petite taille non seulement d'imiter la génération de texte sophistiquée des grands modèles enseignants, mais aussi d'améliorer systématiquement leurs capacités génératives grâce à des signaux de renforcement. Un élément clé de notre cadre d'imitation est un discriminateur basé sur un LLM qui distingue habilement les sorties des étudiants et des enseignants, complété par des conseils provenant de plusieurs grands VLMs enseignants pour assurer un apprentissage diversifié. Cette stratégie d'apprentissage unifiée, exploitant à la fois le renforcement et l'imitation, permet aux modèles étudiants d'obtenir des gains de performance significatifs, les rendant compétitifs avec les VLMs propriétaires de pointe. Des expériences approfondies sur divers benchmarks vision-langage démontrent que RIL réduit considérablement l'écart de performance avec les VLMs open-source et propriétaires de pointe et, dans plusieurs cas, les dépasse.
Les récentes avancées dans les modèles multimodaux ont démontré des capacités remarquables d'édition d'images guidées par texte, avec des systèmes comme GPT-4o et Nano-Banana établissant de nouveaux référentiels. Cependant, les progrès de la communauté de recherche restent limités par l'absence de jeux de données à grande échelle, de haute qualité et librement accessibles, construits à partir d'images réelles. Nous présentons Pico-Banana-400K, un jeu de données complet de 400 000 images pour l'édition d'images basée sur des instructions. Notre jeu de données est construit en exploitant Nano-Banana pour générer des paires d'édition variées à partir de photographies réelles de la collection OpenImages. Ce qui distingue Pico-Banana-400K des jeux de données synthétiques précédents est notre approche systématique en matière de qualité et de diversité. Nous utilisons une taxonomie fine de l'édition d'images pour assurer une couverture exhaustive des types d'édition tout en maintenant une préservation précise du contenu et une fidélité aux instructions grâce à un système de notation de qualité basé sur MLLM et une curation minutieuse. Au-delà de l'édition en une seule étape, Pico-Banana-400K permet la recherche dans des scénarios d'édition complexes. Le jeu de données comprend trois sous-ensembles spécialisés : (1) une collection de 72 000 exemples multi-étapes pour étudier l'édition séquentielle, le raisonnement et la planification à travers des modifications consécutives ; (2) un sous-ensemble de préférences de 56 000 exemples pour la recherche sur l'alignement et l'entraînement de modèles de récompense ; et (3) des paires d'instructions d'édition longues-courtes pour développer des capacités de réécriture et de synthèse d'instructions. En fournissant cette ressource à grande échelle, de haute qualité et riche en tâches, Pico-Banana-400K établit une base solide pour l'entraînement et l'évaluation de la prochaine génération de modèles d'édition d'images guidés par texte.
La génération de rapports financiers professionnels est un processus exigeant en main-d'œuvre et intellectuellement complexe, que les systèmes d'IA actuels peinent à automatiser entièrement. Pour relever ce défi, nous présentons FinSight (Financial InSight), un nouveau cadre multi-agents pour la production de rapports financiers multimodaux de haute qualité. Le fondement de FinSight repose sur l'architecture Code Agent with Variable Memory (CAVM), qui unifie les données externes, les outils conçus et les agents dans un espace variable programmable, permettant une collecte de données flexible, une analyse et une génération de rapports via un code exécutable. Pour garantir une visualisation de qualité professionnelle, nous proposons un mécanisme itératif d'amélioration visuelle qui affine progressivement les sorties visuelles brutes en graphiques financiers soignés. Par ailleurs, un cadre d'écriture en deux étapes transforme des segments concis de chaîne d'analyse en rapports cohérents, conscients des citations et multimodaux, assurant à la fois une profondeur analytique et une cohérence structurelle. Des expériences sur diverses tâches au niveau des entreprises et des secteurs démontrent que FinSight surpasse significativement toutes les méthodes de référence, y compris les systèmes de recherche approfondie les plus avancés, en termes de précision factuelle, de profondeur analytique et de qualité de présentation, traçant ainsi une voie claire vers la génération de rapports approchant la qualité d'un expert humain.
Alors que les modèles de langage de grande taille (LLMs) sont de plus en plus utilisés dans les interactions humain-IA, leurs capacités de raisonnement social dans des contextes interpersonnels sont cruciales. Nous présentons SCRIPTS, un ensemble de données de 1 000 dialogues en anglais et en coréen, extraits de scripts de films. La tâche consiste à évaluer la capacité des modèles à raisonner socialement pour déduire les relations interpersonnelles (par exemple, amis, sœurs, amants) entre les locuteurs dans chaque dialogue. Chaque dialogue est annoté avec des étiquettes relationnelles probabilistes (Très Probable, Moins Probable, Peu Probable) par des locuteurs natifs (ou équivalents) coréens et anglais originaires de Corée et des États-Unis. En évaluant neuf modèles sur notre tâche, les LLMs propriétaires actuels atteignent environ 75-80 % sur l'ensemble de données en anglais, tandis que leur performance en coréen chute à 58-69 %. Plus frappant encore, les modèles sélectionnent des relations Peu Probables dans 10 à 25 % de leurs réponses. De plus, nous constatons que les modèles de pensée et l'incitation en chaîne de pensée, efficaces pour le raisonnement général, apportent des bénéfices minimes pour le raisonnement social et amplifient parfois les biais sociaux. Nos résultats révèlent des limitations significatives dans les capacités de raisonnement social des LLMs actuels, soulignant la nécessité de développer des modèles de langage socialement conscients.
Les modèles du monde pour la conduite autonome sont censés fonctionner efficacement à travers trois dimensions fondamentales : l'état, l'action et la récompense. Cependant, les modèles existants sont généralement limités à des modalités d'état restreintes, des séquences vidéo courtes, un contrôle d'action imprécis et un manque de conscience de la récompense. Dans cet article, nous présentons OmniNWM, un modèle du monde de navigation panoramique omniscient qui aborde ces trois dimensions dans un cadre unifié. Pour l'état, OmniNWM génère conjointement des vidéos panoramiques en RGB, sémantique, profondeur métrique et occupation 3D. Une stratégie de forçage flexible permet une génération auto-régressive de haute qualité sur de longues séquences. Pour l'action, nous introduisons une représentation normalisée de carte de rayons Plücker panoramique qui encode les trajectoires d'entrée en signaux au niveau des pixels, permettant un contrôle très précis et généralisable de la génération de vidéos panoramiques. Concernant la récompense, nous allons au-delà de l'apprentissage de fonctions de récompense avec des modèles externes basés sur l'image : nous exploitons plutôt l'occupation 3D générée pour définir directement des récompenses denses basées sur des règles pour la conformité et la sécurité de la conduite. Des expériences approfondies démontrent qu'OmniNWM atteint des performances de pointe en génération vidéo, précision de contrôle et stabilité sur de longues séquences, tout en fournissant un cadre d'évaluation en boucle fermée fiable grâce à des récompenses ancrées dans l'occupation. La page du projet est disponible à l'adresse https://github.com/Arlo0o/OmniNWM.
Les modèles de langage à diffusion masquée (DLMs, pour *Masked Diffusion Language Models*) ont récemment émergé comme une alternative prometteuse aux modèles autorégressifs traditionnels (ARMs, pour *Autoregressive Models*). Les DLMs utilisent des encodeurs de type *transformer* avec une attention bidirectionnelle, permettant une génération parallèle de tokens tout en maintenant des performances compétitives. Bien que leur efficacité et leur efficience aient été largement étudiées, les mécanismes internes qui régissent les DLMs restent en grande partie inexplorés. Dans ce travail, nous menons une analyse empirique des schémas d'attention des DLMs, en nous concentrant sur le phénomène d'*attention sinking*, un effet précédemment observé dans diverses architectures basées sur les *transformers*. Nos résultats révèlent que les DLMs présentent également des *attention sinks*, mais avec des caractéristiques distinctes. Premièrement, contrairement aux ARMs, les positions des *sinks* dans les DLMs ont tendance à se déplacer tout au long du processus de génération, affichant un comportement dynamique. Deuxièmement, alors que les ARMs sont très sensibles à la suppression des *attention sinks*, les DLMs restent robustes : le masquage des *sinks* entraîne seulement une légère dégradation des performances. Ces résultats apportent de nouvelles perspectives sur le fonctionnement interne des modèles de langage basés sur la diffusion et mettent en lumière des différences fondamentales dans la manière dont ils allouent et utilisent l'attention par rapport aux modèles autorégressifs.
Nous présentons Chart2Code, un nouveau benchmark pour évaluer les capacités de compréhension de graphiques et de génération de code des grands modèles multimodaux (LMMs). Chart2Code est explicitement conçu dans une perspective centrée sur l'utilisateur, capturant divers scénarios réels et augmentant progressivement la difficulté des tâches. Il se compose de trois niveaux : le Niveau 1 (Reproduction de Graphiques) reproduit des graphiques à partir d'une figure de référence et d'une requête utilisateur ; le Niveau 2 (Édition de Graphiques) implique des modifications complexes telles que le changement de types de graphiques ou l'ajout d'éléments ; et le Niveau 3 (Génération de Graphiques à partir de Longs Tableaux) exige que les modèles transforment des tableaux longs et riches en informations en graphiques fidèles suivant les instructions de l'utilisateur. À notre connaissance, il s'agit du premier benchmark hiérarchique qui reflète l'utilisation pratique de chart2code tout en augmentant systématiquement la complexité des tâches. Au total, Chart2Code contient 2 023 tâches couvrant 22 types de graphiques, accompagnées de métriques d'évaluation multi-niveaux qui évaluent à la fois la correction du code et la fidélité visuelle des graphiques générés. Nous évaluons 25 LMMs de pointe (SoTA), incluant à la fois des modèles propriétaires et les derniers modèles open-source tels que GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL et Seed-1.6-VL. Les résultats expérimentaux montrent que même le modèle SoTA GPT-5 obtient en moyenne seulement 0,57 sur l'évaluation basée sur le code et 0,22 sur l'évaluation de la qualité des graphiques pour les tâches d'édition, soulignant la difficulté de Chart2Code. Nous anticipons que ce benchmark stimulera les avancées dans le raisonnement multimodal et favorisera le développement de LMMs plus robustes et polyvalents. Notre code et nos données sont disponibles sur Chart2Code.
Les grands modèles multimodaux encodent une vaste connaissance factuelle dans leurs poids pré-entraînés. Cependant, cette connaissance reste statique et limitée, incapable de suivre les évolutions du monde réel, ce qui entrave l'acquisition continue de connaissances. L'injection efficace de connaissances devient donc cruciale, impliquant deux objectifs : l'adaptation des connaissances (injection de nouvelles connaissances) et la rétention des connaissances (préservation des anciennes connaissances). Les méthodes existantes peinent souvent à apprendre de nouvelles connaissances et souffrent d'oubli catastrophique. Pour résoudre ce problème, nous proposons KORE, une méthode synergique d'augmentations et de contraintes orientées vers la connaissance (KnOwledge-oRientEd) pour injecter de nouvelles connaissances dans les grands modèles multimodaux tout en préservant les anciennes. Contrairement à l'augmentation générale des données textuelles ou visuelles, KORE convertit automatiquement les éléments de connaissance individuels en une connaissance structurée et complète pour garantir que le modèle apprenne avec précision les nouvelles connaissances, permettant une adaptation précise. Parallèlement, KORE stocke les connaissances précédentes dans la matrice de covariance des activations de la couche linéaire du modèle multimodal et initialise l'adaptateur en projetant les poids originaux dans l'espace nul de cette matrice, définissant une direction de réglage fin qui minimise l'interférence avec les connaissances précédentes, permettant une rétention puissante. Des expériences approfondies sur divers modèles multimodaux, notamment LLaVA-v1.5-7B, LLaVA-v1.5-13B et Qwen2.5-VL-7B, montrent que KORE atteint une performance supérieure dans l'injection de nouvelles connaissances et atténue efficacement l'oubli catastrophique.
Nous présentons olmOCR 2, la dernière version de notre famille de systèmes OCR puissants pour convertir des documents imprimés numérisés, tels que des PDF, en texte brut propre et naturellement ordonné. olmOCR 2 est alimenté par olmOCR-2-7B-1025, un modèle de langage visuel (VLM) spécialisé de 7 milliards de paramètres, entraîné à l'aide de l'apprentissage par renforcement avec des récompenses vérifiables (RLVR), où nos récompenses sont un ensemble diversifié de tests unitaires binaires. Pour accélérer la création de tests unitaires, nous avons développé un pipeline permettant de générer des documents synthétiques avec des mises en page variées et complexes, un code source HTML de référence connu et des cas de test extraits. Nous démontrons que l'entraînement par renforcement sur ces cas de test permet d'atteindre des performances de pointe sur olmOCR-Bench, notre benchmark OCR en langue anglaise, avec les améliorations les plus significatives dans la conversion de formules mathématiques, l'analyse de tableaux et les mises en page multi-colonnes par rapport aux versions précédentes. Nous publions notre modèle, nos données et notre code sous des licences ouvertes permissives.
Depuis l'introduction du Protocole de Contexte Modèle (MCP), le nombre d'outils disponibles pour les modèles de langage de grande taille (LLMs) a considérablement augmenté. Ces ensembles d'outils spécifiques à des tâches offrent une alternative aux outils généralistes tels que les navigateurs web, tout en étant plus faciles à développer et à maintenir que les interfaces graphiques. Cependant, les agents généralistes actuels reposent principalement sur les navigateurs web pour interagir avec leur environnement. Ici, nous présentons TheMCPCompany, un benchmark pour évaluer les agents d'appel d'outils sur des tâches impliquant l'interaction avec divers services réels. Nous utilisons les API REST de ces services pour créer des serveurs MCP, qui incluent plus de 18 000 outils. Nous fournissons également des outils de référence annotés manuellement pour chaque tâche. Dans nos expériences, nous utilisons ces outils de référence pour montrer le potentiel des agents d'appel d'outils à la fois pour améliorer les performances et réduire les coûts, en supposant une récupération parfaite des outils. Ensuite, nous explorons la performance des agents en utilisant la récupération d'outils pour étudier la praticabilité réelle des agents basés sur des outils. Bien que tous les modèles avec récupération d'outils performent de manière similaire ou meilleure que les agents basés sur des navigateurs, les modèles plus petits ne peuvent pas pleinement tirer parti des outils disponibles via la récupération. D'autre part, la performance de GPT-5 avec récupération d'outils est très proche de sa performance avec les outils de référence. Globalement, notre travail montre que les modèles de raisonnement les plus avancés sont efficaces pour découvrir des outils dans des environnements simples, mais rencontrent de sérieuses difficultés à naviguer dans des environnements d'entreprise complexes. TheMCPCompany révèle que naviguer parmi des dizaines de milliers d'outils et les combiner de manière non triviale pour résoudre des problèmes complexes reste une tâche difficile pour les modèles actuels et nécessite à la fois de meilleurs modèles de raisonnement et de récupération.
Les modèles de langage multimodaux de grande taille (MLLMs) démontrent une compréhension vidéo robuste en se concentrant sur les tokens visuels pertinents pour les requêtes textuelles. Pour adapter directement cette capacité à la localisation sans nécessiter d'entraînement, nous reformulons la segmentation raisonnée de vidéos comme une tâche de question-réponse vidéo et extrayons les cartes d'attention via un mécanisme de déploiement. Cependant, les cartes d'attention brutes sont bruyantes et mal alignées avec les régions des objets. Nous proposons la Fusion d'Attention Décomposée (DecAF), qui affine ces cartes grâce à deux mécanismes : (1) la fusion contraste objet-arrière-plan et (2) la fusion complémentaire des trames vidéo. Cette méthode supprime les activations non pertinentes et renforce les indices centrés sur les objets, permettant la conversion directe des cartes d'attention en masques de segmentation grossiers. De plus, nous introduisons un guidage par attention pour SAM2 afin d'obtenir des masques à granularité fine. Contrairement aux méthodes existantes qui entraînent conjointement les MLLMs avec SAM, notre méthode fonctionne entièrement sans réentraînement. DecAF surpasse les méthodes sans entraînement et atteint des performances comparables aux méthodes basées sur l'entraînement sur les benchmarks de segmentation vidéo référentielle et raisonnée. Le code sera disponible à l'adresse https://github.com/HYUNJS/DecAF.
Avec les avancées en matière de matériel, de logiciels et de technologies de modèles de langage à grande échelle, l'interaction entre les humains et les systèmes d'exploitation a évolué de l'interface en ligne de commande vers les interactions émergentes avec des agents d'intelligence artificielle. La création d'un agent de système d'exploitation (OS) capable d'exécuter les instructions des utilisateurs et de suivre fidèlement leurs désirs devient une réalité. Dans ce rapport technique, nous présentons ColorAgent, un agent OS conçu pour interagir de manière robuste et à long terme avec l'environnement, tout en permettant une interaction personnalisée et proactive avec l'utilisateur. Pour permettre des interactions à long terme avec l'environnement, nous améliorons les capacités du modèle grâce à un apprentissage par renforcement étape par étape et à un entraînement auto-évolutif, tout en développant un cadre multi-agent sur mesure qui assure la généralité, la cohérence et la robustesse. En ce qui concerne l'interaction utilisateur, nous explorons la reconnaissance personnalisée des intentions de l'utilisateur et l'engagement proactif, positionnant l'agent OS non seulement comme un outil d'automatisation, mais aussi comme un partenaire collaboratif et chaleureux. Nous évaluons ColorAgent sur les benchmarks AndroidWorld et AndroidLab, obtenant des taux de réussite de 77,2 % et 50,7 %, respectivement, établissant ainsi un nouvel état de l'art. Néanmoins, nous notons que les benchmarks actuels sont insuffisants pour une évaluation complète des agents OS et proposons d'explorer davantage les directions futures, en particulier dans les domaines des paradigmes d'évaluation, de la collaboration entre agents et de la sécurité. Notre code est disponible à l'adresse suivante : https://github.com/MadeAgents/mobile-use.
Les modèles multimodaux de grande taille (LMMs) encodent des connaissances factuelles riches grâce à un pré-entraînement intermodal, mais leurs représentations statiques peinent à maintenir une compréhension précise des connaissances factuelles sensibles au temps. Les benchmarks existants restent limités par des conceptions statiques, évaluant de manière inadéquate la capacité des LMMs à comprendre les connaissances temporelles. Pour combler cette lacune, nous proposons MINED, un benchmark complet qui évalue la conscience temporelle selon 6 dimensions clés et 11 tâches complexes : cognition, conscience, fiabilité, compréhension, raisonnement et robustesse. MINED est construit à partir de Wikipédia par deux annotateurs professionnels, contenant 2 104 échantillons de connaissances sensibles au temps couvrant six types de connaissances. L'évaluation de 15 LMMs largement utilisés sur MINED montre que Gemini-2.5-Pro atteint le score CEM moyen le plus élevé de 63,07, tandis que la plupart des LMMs open source manquent encore de capacité de compréhension temporelle. Par ailleurs, les LMMs obtiennent les meilleures performances sur les connaissances organisationnelles, tandis que leurs performances sont les plus faibles dans le domaine du sport. Pour relever ces défis, nous étudions la faisabilité de la mise à jour des connaissances sensibles au temps dans les LMMs grâce à des méthodes d'édition de connaissances et observons que les LMMs peuvent effectivement mettre à jour les connaissances via ces méthodes dans des scénarios d'édition unique.
La modélisation d'optimisation permet de prendre des décisions critiques dans divers secteurs, mais reste difficile à automatiser : un langage informel doit être traduit en formulations mathématiques précises et en code exécutable par des solveurs. Les approches précédentes basées sur les modèles de langage (LLM) reposent soit sur des incitations fragiles, soit sur un réentraînement coûteux avec une généralisation limitée. Nous présentons AlphaOPT, une bibliothèque d'expériences auto-améliorante qui permet à un LLM d'apprendre à partir de démonstrations limitées (même uniquement des réponses, sans programmes de référence) et des retours des solveurs – sans traces de raisonnement annotées ni mises à jour de paramètres. AlphaOPT fonctionne selon un cycle continu en deux phases : (i) une phase d'apprentissage de la bibliothèque qui analyse les tentatives infructueuses, en extrayant des insights structurés et vérifiés par le solveur sous la forme {taxonomie, condition, explication, exemple} ; et (ii) une phase d'évolution de la bibliothèque qui diagnostique les désalignements de récupération et affine les conditions d'applicabilité des insights stockés, améliorant ainsi le transfert entre les tâches. Cette conception (1) apprend efficacement à partir de démonstrations limitées sans rationales soigneusement préparées, (2) s'étend continuellement sans réentraînement coûteux en mettant à jour la bibliothèque plutôt que les poids du modèle, et (3) rend les connaissances explicites et interprétables pour l'inspection et l'intervention humaine. Les expériences montrent qu'AlphaOPT s'améliore régulièrement avec davantage de données (de 65 % à 72 % pour 100 à 300 éléments d'entraînement) et surpasse le meilleur modèle de référence de 7,7 % sur le jeu de données hors distribution OptiBench lorsqu'il est entraîné uniquement sur des réponses. Le code et les données sont disponibles à l'adresse : https://github.com/Minw913/AlphaOPT.
Les méthodes existantes de réglage fin efficace en paramètres (PEFT) se répartissent principalement en deux catégories : l'adaptation basée sur l'ajout et l'adaptation sélective in situ. La première, comme LoRA, introduit des modules supplémentaires pour adapter le modèle aux tâches en aval, offrant une forte efficacité mémoire. Cependant, leur capacité de représentation est souvent limitée, les rendant moins adaptées à une adaptation fine. En revanche, la seconde ajuste directement un sous-ensemble soigneusement choisi des paramètres originaux du modèle, permettant une adaptation plus précise et efficace, mais au prix d'une consommation mémoire significativement accrue. Pour concilier ce compromis, nous proposons NeuroAda, une nouvelle méthode PEFT qui permet un réglage fin granulaire du modèle tout en maintenant une haute efficacité mémoire. Notre approche identifie d'abord les paramètres importants (c'est-à-dire les connexions au sein du réseau) comme dans l'adaptation sélective, puis introduit des connexions de contournement pour ces paramètres sélectionnés. Pendant le réglage fin, seules les connexions de contournement sont mises à jour, laissant les paramètres originaux du modèle figés. Les résultats empiriques sur plus de 23 tâches couvrant à la fois la génération et la compréhension du langage naturel démontrent que NeuroAda atteint des performances de pointe avec aussi peu que ≤ 0,02 % de paramètres entraînables, tout en réduisant l'utilisation de la mémoire CUDA jusqu'à 60 %. Nous publions notre code ici : https://github.com/FightingFighting/NeuroAda.git.
Les modèles de langage multimodaux de grande taille (MLLMs) progressent rapidement, mais leur capacité de raisonnement reste souvent inférieure à celle de leurs homologues spécialisés dans le texte seul. Les méthodes existantes pour combler cet écart reposent sur un ajustement supervisé à partir de données massives de raisonnement multimodal ou sur l'apprentissage par renforcement, deux approches coûteuses en ressources. Une alternative prometteuse est la fusion de modèles, qui interpole les paramètres entre des LLMs renforcés en raisonnement et des variantes multimodales. Cependant, notre analyse montre que la fusion naïve n'est pas toujours une "solution miracle" : son efficacité varie considérablement selon les familles de modèles, certains (par exemple, LLaVA, Idefics) en bénéficiant tandis que d'autres (par exemple, Qwen) subissent une dégradation des performances. Pour remédier à cela, nous proposons l'Injection Directionnelle de Raisonnement pour l'Ajustement Fin (DRIFT) des MLLMs, une méthode légère qui transfère les connaissances de raisonnement dans l'espace des gradients, sans perturber l'alignement multimodal. DRIFT précalcule un a priori de raisonnement comme la différence dans l'espace des paramètres entre les variantes de raisonnement et multimodales, puis l'utilise pour orienter les gradients lors de l'ajustement fin multimodal. Cette approche préserve la simplicité des pipelines d'ajustement fin supervisé standard tout en permettant un transfert efficace du raisonnement. Des expériences approfondies sur des benchmarks de raisonnement multimodal, notamment MathVista et MathVerse, démontrent que DRIFT améliore systématiquement les performances de raisonnement par rapport à la fusion naïve et à l'ajustement fin supervisé, tout en égalant ou surpassant les méthodes coûteuses en formation à une fraction du coût.
Des données de pré-entraînement de haute qualité sont cruciales pour les grands modèles de langage, où la qualité reflète la fiabilité factuelle et la valeur sémantique, tandis que la diversité assure une couverture étendue et une hétérogénéité distributionnelle. Les approches existantes reposent généralement sur une sélection basée sur des scores unidimensionnels ou multidimensionnels. Cependant, la sélection directe des données ayant les scores les plus élevés dégrade souvent les performances, et un échantillonnage à partir d'une plage plus large est nécessaire pour retrouver des résultats satisfaisants. Cette non-monotonie entre les scores des ensembles de données et les résultats des benchmarks en aval révèle un biais fondamental : les méthodes basées sur les scores fusionnent les dimensions corrélées, ce qui fait que les données ayant les scores les plus élevés semblent de haute qualité tout en négligeant systématiquement la diversité. Nous soutenons que pour garantir la diversité, il est nécessaire de décomposer les métriques corrélées en dimensions de caractéristiques orthogonales, à partir desquelles les données ayant les scores les plus élevés peuvent être directement sélectionnées. Par conséquent, nous avons proposé l'algorithme de sélection Orthogonal Diversity-Aware Selection (ODiS), qui préserve à la fois la qualité et la diversité lors de la sélection des données. Tout d'abord, ODiS évalue les données selon plusieurs dimensions, couvrant la qualité linguistique, la qualité des connaissances et la difficulté de compréhension. Les scores multidimensionnels sont ensuite décorrélés via une analyse en composantes principales (PCA), produisant ainsi des dimensions d'évaluation orthogonales. Pour chaque dimension, un scoreur basé sur Roberta est entraîné pour régresser les données sur les scores projetés par PCA, permettant une inférence scalable sur de grands corpus. Enfin, ODiS construit l'ensemble de données d'entraînement en sélectionnant les données ayant les scores les plus élevés dans chaque dimension orthogonale, assurant ainsi à la fois la qualité et la diversité. Les résultats empiriques montrent que les données sélectionnées par ODiS présentent moins de 2 % de chevauchement inter-dimensionnel, confirmant l'orthogonalité entre les dimensions. Plus important encore, les modèles entraînés avec les données sélectionnées par ODiS surpassent significativement les autres méthodes de référence sur les benchmarks en aval, soulignant la nécessité d'une sélection de données orthogonale et consciente de la diversité pour les grands modèles de langage.
Les réponses impulsionnelles de salle (RIR) constituent une ressource essentielle pour la déréverbération, la reconnaissance robuste de la parole, la localisation de sources et l'estimation de l'acoustique des salles. Nous présentons RIR-Mega, une vaste collection de RIR simulées décrites par un schéma de métadonnées compact et adapté aux machines, accompagnée d'outils simples pour la validation et la réutilisation. Le jeu de données est fourni avec un chargeur Hugging Face Datasets, des scripts pour la vérification des métadonnées et des sommes de contrôle, ainsi qu'une référence de régression de base qui prédit des cibles RT60 à partir des formes d'onde. Sur un ensemble d'entraînement et de validation de 36 000 et 4 000 exemples, une petite forêt aléatoire basée sur des caractéristiques temporelles et spectrales légères atteint une erreur absolue moyenne proche de 0,013 s et une erreur quadratique moyenne proche de 0,022 s. Nous hébergeons un sous-ensemble de 1 000 RIR pour des réseaux linéaires et 3 000 RIR pour des réseaux circulaires sur Hugging Face pour des tests rapides en streaming, et conservons l'archive complète de 50 000 RIR sur Zenodo. Le jeu de données et le code sont publics pour soutenir des études reproductibles.
L'évaluation des progrès des grands modèles de langage (LLMs) est souvent limitée par la difficulté de vérifier les réponses, ce qui restreint les évaluations à des tâches telles que les mathématiques, la programmation et les réponses courtes à des questions. Cependant, de nombreuses applications réelles nécessitent d'évaluer les LLMs dans le traitement de documents professionnels, la synthèse d'informations et la génération de rapports complets en réponse aux requêtes des utilisateurs. Nous présentons ProfBench : un ensemble de plus de 7000 paires réponse-critère évaluées par des experts humains possédant des connaissances professionnelles dans des domaines tels que le doctorat en physique, le doctorat en chimie, le MBA en finance et le MBA en conseil. Nous développons des LLM-Juges robustes et économiques pour évaluer les critères de ProfBench, en atténuant le biais d'auto-amélioration et en réduisant le coût de l'évaluation de 2 à 3 ordres de grandeur, afin de la rendre équitable et accessible à une communauté plus large. Nos résultats révèlent que ProfBench pose des défis significatifs même pour les LLMs les plus avancés, avec des modèles performants comme GPT-5-high atteignant seulement 65,9 % de performance globale. De plus, nous identifions des disparités notables de performance entre les modèles propriétaires et les modèles à poids ouverts, et nous fournissons des insights sur le rôle que joue la pensée étendue dans la résolution de tâches complexes dans des domaines professionnels. Données : https://huggingface.co/datasets/nvidia/ProfBench et Code : https://github.com/NVlabs/ProfBench
Les humains perçoivent le texte. Ils lisent en reconnaissant les mots comme des objets visuels, incluant leurs formes, leurs dispositions et leurs motifs, avant de les associer à leur signification, ce qui leur permet de gérer efficacement les fautes de frappe, les polices déformées et les différents systèmes d'écriture. Cependant, les modèles de langage modernes à grande échelle (LLMs) reposent sur la tokenisation par sous-mots, fragmentant le texte en morceaux issus d'un vocabulaire fixe. Bien que cette approche soit efficace pour les langues riches en ressources, elle sur-segmente les langues à faibles ressources, produisant des séquences longues et linguistiquement dénuées de sens, tout en augmentant les calculs nécessaires. Dans ce travail, nous remettons en question ce paradigme bien établi et proposons une alternative centrée sur la vision. Notre méthode, SeeTok, transforme le texte en images (texte visuel) et exploite des LLMs multimodaux pré-entraînés pour les interpréter, réutilisant ainsi les fortes capacités de reconnaissance optique de caractères (OCR) et d'alignement texte-image acquises lors d'un entraînement multimodal à grande échelle. Sur trois tâches linguistiques différentes, SeeTok égal ou surpasse les tokeniseurs par sous-mots tout en nécessitant 4,43 fois moins de tokens et en réduisant les FLOPs de 70,5%, avec des gains supplémentaires en généralisation translinguistique, en robustesse face au bruit typographique et en hiérarchie linguistique. SeeTok marque un tournant dans la tokenisation symbolique vers une lecture visuelle plus proche de celle des humains, et représente un pas vers des modèles de langage plus naturels et inspirés par la cognition.
Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) ont progressé rapidement, mais ils restent vulnérables à la fuite sémantique, c'est-à-dire au transfert involontaire de caractéristiques sémantiquement liées entre des entités distinctes. Les stratégies existantes pour atténuer ce phénomène reposent souvent sur des méthodes d'optimisation ou dépendent d'entrées externes. Nous présentons DeLeaker, une approche légère et sans optimisation, intervenant au moment de l'inférence, qui atténue la fuite sémantique en intervenant directement sur les cartes d'attention du modèle. Tout au long du processus de diffusion, DeLeaker réajuste dynamiquement les cartes d'attention pour supprimer les interactions excessives entre entités tout en renforçant l'identité de chacune d'elles. Pour permettre une évaluation systématique, nous introduisons SLIM (Semantic Leakage in IMages), le premier jeu de données dédié à la fuite sémantique, comprenant 1 130 échantillons vérifiés par des humains couvrant divers scénarios, ainsi qu'un nouveau cadre d'évaluation automatique. Les expériences montrent que DeLeaker surpasse systématiquement toutes les méthodes de référence, même lorsqu'elles bénéficient d'informations externes, en atténuant efficacement la fuite sémantique sans compromettre la fidélité ou la qualité des images. Ces résultats mettent en lumière la valeur du contrôle de l'attention et ouvrent la voie à des modèles T2I plus précis sur le plan sémantique.
Bien que les attaques par inférence d'appartenance (MIAs) et la détection de textes générés par machine visent des objectifs différents, à savoir l'identification des échantillons d'entraînement et des textes synthétiques, leurs méthodes exploitent souvent des signaux similaires basés sur la distribution de probabilité d'un modèle de langage. Malgré cette fondation méthodologique commune, les deux tâches ont été étudiées indépendamment, ce qui peut conduire à des conclusions qui négligent des méthodes plus robustes et des insights précieux développés dans l'autre tâche. Dans ce travail, nous étudions théoriquement et empiriquement la transférabilité, c'est-à-dire la performance d'une méthode initialement développée pour une tâche lorsqu'elle est appliquée à l'autre, entre les MIAs et la détection de textes générés par machine. Pour notre contribution théorique, nous prouvons que la métrique qui atteint la performance asymptotiquement la plus élevée pour les deux tâches est la même. Nous unifions une grande partie de la littérature existante dans le contexte de cette métrique optimale et émettons l'hypothèse que la précision avec laquelle une méthode donnée approxime cette métrique est directement corrélée à sa transférabilité. Nos expériences empiriques à grande échelle, incluant 7 méthodes de MIA et 5 détecteurs de textes générés par machine de pointe, couvrant 13 domaines et 10 générateurs, démontrent une très forte corrélation de rang (rho > 0,6) dans la performance inter-tâches. Nous constatons notamment que Binoculars, initialement conçu pour la détection de textes générés par machine, atteint également des performances de pointe sur les benchmarks de MIA, illustrant l'impact pratique de la transférabilité. Nos résultats soulignent la nécessité d'une meilleure sensibilisation et collaboration inter-tâches entre les deux communautés de recherche. Pour faciliter les développements inter-tâches et les évaluations équitables, nous introduisons MINT, une suite d'évaluation unifiée pour les MIAs et la détection de textes générés par machine, avec l'implémentation de 15 méthodes récentes issues des deux tâches.
Les Transformers échouent souvent à apprendre des algorithmes généralisables, se reposant plutôt sur des heuristiques fragiles. En utilisant la connectivité des graphes comme banc d'essai, nous expliquons ce phénomène à la fois théoriquement et empiriquement. Nous considérons une architecture simplifiée de Transformer, le Transformer désentrelacé, et prouvons qu'un modèle à L couches a la capacité de résoudre des graphes dont les diamètres atteignent exactement 3^L, implémentant un algorithme équivalent au calcul des puissances de la matrice d'adjacence. Nous analysons la dynamique d'apprentissage et montrons que la stratégie apprise dépend de si la plupart des instances d'entraînement se situent dans cette capacité du modèle. Les graphes dont le diamètre est inférieur ou égal à 3^L favorisent l'apprentissage d'une solution algorithmique correcte, tandis que les graphes dépassant cette capacité conduisent à l'apprentissage d'une heuristique simple basée sur les degrés des nœuds. Enfin, nous démontrons empiriquement que restreindre les données d'entraînement à la capacité d'un modèle permet à la fois aux Transformers standard et désentrelacés d'apprendre l'algorithme exact plutôt que l'heuristique basée sur les degrés.