Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous rendons open-source MiMo-VL-7B-SFT et MiMo-VL-7B-RL, deux modèles puissants de vision et langage offrant des performances de pointe en compréhension visuelle générale et en raisonnement multimodal. MiMo-VL-7B-RL surpasse Qwen2.5-VL-7B sur 35 des 40 tâches évaluées et obtient un score de 59,4 sur OlympiadBench, dépassant des modèles comptant jusqu’à 78 milliards de paramètres. Pour les applications de repérage d’interfaces graphiques (GUI), il établit un nouveau standard avec un score de 56,1 sur OSWorld-G, surpassant même des modèles spécialisés tels que UI-TARS. Notre entraînement combine un pré-entraînement en quatre étapes (2,4 billions de tokens) avec un apprentissage par renforcement mixte sur politique (MORL) intégrant des signaux de récompense diversifiés. Nous identifions l’importance d’incorporer des données de raisonnement de haute qualité avec des chaînes de pensée longues dans les étapes de pré-entraînement, ainsi que les avantages du renforcement mixte malgré les défis liés à l’optimisation simultanée dans plusieurs domaines. Nous contribuons également à une suite d’évaluation complète couvrant plus de 50 tâches pour promouvoir la reproductibilité et faire avancer le domaine. Les points de contrôle des modèles et la suite d’évaluation complète sont disponibles à l’adresse https://github.com/XiaomiMiMo/MiMo-VL.
Inspirés par les remarquables capacités de raisonnement de Deepseek-R1 dans des tâches textuelles complexes, de nombreux travaux tentent d’encourager des capacités similaires dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs) en appliquant directement l’apprentissage par renforcement (RL). Cependant, ils peinent encore à activer un raisonnement complexe. Dans cet article, plutôt que d’examiner le RL multimodal de manière isolée, nous explorons les pipelines d’entraînement actuels et identifions trois phénomènes cruciaux : 1) Une initialisation efficace au démarrage à froid est essentielle pour améliorer le raisonnement des MLLMs. De manière intrigante, nous constatons qu’une initialisation avec des données textuelles soigneusement sélectionnées peut conduire à des performances surpassant de nombreux modèles récents de raisonnement multimodal, même avant l’application du RL multimodal. 2) Le GRPO standard appliqué au RL multimodal souffre d’une stagnation des gradients, ce qui dégrade la stabilité et les performances de l’entraînement. 3) Un entraînement RL ultérieur basé uniquement sur le texte, après la phase de RL multimodal, améliore encore le raisonnement multimodal. Cette approche d’entraînement par étapes équilibre efficacement l’ancrage perceptuel et le développement du raisonnement cognitif. En intégrant ces observations et en résolvant les problèmes du RL multimodal, nous présentons ReVisual-R1, qui établit un nouvel état de l’art parmi les MLLMs open-source de 7B sur des benchmarks exigeants, notamment MathVerse, MathVision, WeMath, LogicVista, DynaMath, ainsi que les défis AIME2024 et AIME2025.
En tant que composant d'un agent incarné, les modèles de langage de grande taille (LLMs) sont généralement utilisés pour la planification des comportements à partir d'instructions en langage naturel fournies par l'utilisateur. Cependant, la gestion des instructions ambiguës dans des environnements réels reste un défi pour les LLMs. Diverses méthodes de détection d'ambiguïté dans les tâches ont été proposées. Cependant, il est difficile de les comparer car elles sont testées sur différents ensembles de données et il n'existe pas de référence universelle. Pour cette raison, nous proposons AmbiK (Ambiguous Tasks in Kitchen Environment), un ensemble de données entièrement textuel d'instructions ambiguës adressées à un robot dans un environnement de cuisine. AmbiK a été collecté avec l'assistance de LLMs et est validé par des humains. Il comprend 1000 paires de tâches ambiguës et leurs versions non ambiguës, catégorisées par type d'ambiguïté (Préférences Humaines, Connaissances de Sens Commun, Sécurité), avec des descriptions de l'environnement, des questions et réponses de clarification, des intentions de l'utilisateur et des plans de tâches, pour un total de 2000 tâches. Nous espérons qu'AmbiK permettra aux chercheurs de réaliser une comparaison unifiée des méthodes de détection d'ambiguïté. AmbiK est disponible à l'adresse suivante : https://github.com/cog-model/AmbiK-dataset.
Les modèles de raisonnement ont connu des progrès rapides sur de nombreux benchmarks impliquant les mathématiques, le code et les sciences. Cependant, de nombreuses questions restent en suspens concernant les meilleures méthodes d’entraînement pour le raisonnement, car les modèles de pointe reposent souvent sur des ensembles de données propriétaires avec peu ou pas d’informations publiques disponibles. Pour répondre à cela, l’objectif du projet OpenThoughts est de créer des ensembles de données open source pour l’entraînement de modèles de raisonnement. Après des explorations initiales, notre ensemble de données OpenThoughts2-1M a conduit à OpenThinker2-32B, le premier modèle entraîné sur des données de raisonnement publiques à égaler DeepSeek-R1-Distill-32B sur des benchmarks de raisonnement standard tels que AIME et LiveCodeBench. Nous avons ensuite amélioré notre ensemble de données en examinant systématiquement chaque étape de notre pipeline de génération de données avec plus de 1 000 expériences contrôlées, ce qui a abouti à OpenThoughts3. En augmentant l’échelle du pipeline à 1,2 million d’exemples et en utilisant QwQ-32B comme enseignant, nous obtenons notre modèle OpenThinker3-7B, qui atteint des résultats de pointe : 53 % sur AIME 2025, 51 % sur LiveCodeBench 06/24-01/25 et 54 % sur GPQA Diamond. Tous nos ensembles de données et modèles sont disponibles sur https://openthoughts.ai.
La génération de textes longs reste un défi majeur pour les grands modèles de langage (LLMs), en particulier pour maintenir la cohérence, assurer la consistance logique et préserver la qualité du texte à mesure que la longueur des séquences augmente. Pour répondre à ces limitations, nous proposons SuperWriter-Agent, un framework basé sur des agents conçu pour améliorer la qualité et la consistance de la génération de textes longs. SuperWriter-Agent introduit une réflexion structurée explicite à travers des étapes de planification et de raffinement dans le pipeline de génération, guidant le modèle à suivre un processus plus réfléchi et cognitivement ancré, similaire à celui d'un écrivain professionnel. Sur la base de ce framework, nous construisons un ensemble de données de fine-tuning supervisé pour entraîner un SuperWriter-LM de 7B. Nous développons en outre une procédure hiérarchique d'Optimisation Directe des Préférences (DPO) qui utilise la Recherche d'Arbre de Monte Carlo (MCTS) pour propager les évaluations finales de qualité et optimiser chaque étape de génération en conséquence. Les résultats empiriques sur divers benchmarks démontrent que SuperWriter-LM atteint des performances de pointe, surpassant même des modèles de base à plus grande échelle dans les évaluations automatiques et humaines. De plus, des études d'ablation approfondies montrent l'efficacité de la DPO hiérarchique et soulignent la valeur de l'intégration d'étapes de réflexion structurée pour améliorer la qualité de la génération de textes longs.
Les cadres existants pour évaluer les modèles de langage à contexte long (LCLM) peuvent être globalement catégorisés en tâches réelles et tâches synthétiques. Malgré leur utilité, ces deux approches présentent certaines limitations intrinsèques. Les tâches réelles sont trop complexes à interpréter ou à caractériser et sont susceptibles à la contamination des données. En revanche, les tâches synthétiques adoptent souvent le format de l’« aiguille dans une botte de foin » (NIAH), où un manque de cohérence entre l’« aiguille » et la « botte de foin » compromet leur validité en tant que proxies pour des applications réalistes. Face à ces défis, nous postulons qu’un cadre d’évaluation idéal pour les contextes longs devrait être caractérisé par trois caractéristiques essentielles : un contexte fluide, un environnement contrôlé et une évaluation rigoureuse. Cette étude présente LongBioBench, un nouveau benchmark qui utilise des biographies générées artificiellement comme environnement contrôlé pour évaluer les LCLM sur les dimensions de compréhension, de raisonnement et de fiabilité. Notre évaluation expérimentale, qui inclut 18 LCLM au total, démontre que la plupart des modèles présentent encore des lacunes dans la compréhension sémantique et le raisonnement élémentaire sur les résultats récupérés, et sont moins fiables à mesure que la longueur du contexte augmente. Notre analyse approfondie indique que certains choix de conception employés par les benchmarks synthétiques existants, tels que la non-cohérence contextuelle, les aiguilles numériques et l’absence de distracteurs, les rendent vulnérables pour tester les capacités des modèles à contexte long. De plus, nous révélons également que le pré-entraînement continu à contexte long ajuste principalement l’embedding RoPE pour s’adapter à des longueurs de contexte étendues. En résumé, par rapport aux benchmarks synthétiques précédents, LongBioBench atteint un meilleur équilibre entre la reproduction de tâches linguistiques authentiques et le maintien de la contrôlabilité, tout en étant hautement interprétable et configurable.
La structure séquentielle des vidéos représente un défi pour la capacité des modèles de langage multimodaux de grande taille (MLLMs) à localiser des preuves multi-images et à effectuer un raisonnement multimodal. Cependant, les benchmarks vidéo existants se concentrent principalement sur des tâches de compréhension, qui ne nécessitent que la correspondance des images mentionnées dans la question (appelées ici "image de question") et la perception de quelques images adjacentes. Pour combler cette lacune, nous proposons MMR-V : Un Benchmark pour le Raisonnement Profond Multimodal dans les Vidéos. Ce benchmark se caractérise par les éléments suivants. (1) Raisonnement multi-images à long terme : Les modèles doivent inférer et analyser des images de preuve pouvant être éloignées de l'image de question. (2) Au-delà de la perception : Les questions ne peuvent être résolues par la perception directe seule, mais nécessitent un raisonnement sur des informations cachées. (3) Fiabilité : Toutes les tâches sont annotées manuellement, en référence à une compréhension approfondie des utilisateurs réels pour s'aligner sur les perceptions communes. (4) Confusion : Des stratégies d'annotation de distracteurs soigneusement conçues pour réduire les raccourcis des modèles. MMR-V comprend 317 vidéos et 1 257 tâches. Nos expériences révèlent que les modèles actuels ont encore des difficultés avec le raisonnement multimodal ; même le modèle le plus performant, o4-mini, n'atteint que 52,5 % de précision. De plus, les stratégies actuelles d'amélioration du raisonnement (Chain-of-Thought et mise à l'échelle du calcul au moment du test) apportent des gains limités. Une analyse plus approfondie indique que le CoT requis pour le raisonnement multimodal diffère de celui du raisonnement textuel, ce qui explique en partie les gains de performance limités. Nous espérons que MMR-V pourra inspirer des recherches supplémentaires pour améliorer les capacités de raisonnement multimodal.
Le développement des grands modèles de langage (LLMs) repose sur une évaluation fiable. Cependant, la plupart des évaluations actuelles s'appuient sur des benchmarks publics, qui sont sujets à des problèmes de contamination des données, compromettant ainsi significativement l'équité. Les recherches précédentes se sont concentrées sur la construction de benchmarks dynamiques pour résoudre ce problème de contamination. Néanmoins, la création continue de nouveaux benchmarks est coûteuse et cyclique. Dans ce travail, nous cherchons à aborder la contamination en analysant les mécanismes des modèles contaminés eux-mêmes. À travers nos expériences, nous découvrons que la surestimation des modèles contaminés est probablement due à l'acquisition de solutions de raccourci par les paramètres lors de l'entraînement. Nous proposons ensuite une méthode novatrice pour identifier les neurones de raccourci par une analyse comparative et causale. Sur cette base, nous introduisons une méthode d'évaluation appelée "shortcut neuron patching" pour supprimer ces neurones de raccourci. Les expériences valident l'efficacité de notre approche pour atténuer la contamination. De plus, nos résultats d'évaluation montrent une forte corrélation linéaire avec MixEval, un benchmark fiable récemment publié, atteignant un coefficient de Spearman (rho) supérieur à 0,95. Cette forte corrélation indique que notre méthode révèle de manière précise les véritables capacités des modèles et est digne de confiance. Nous menons des expériences supplémentaires pour démontrer la généralisabilité de notre méthode à travers divers benchmarks et configurations d'hyperparamètres. Code : https://github.com/GaryStack/Trustworthy-Evaluation
Les applications réelles telles que les jeux vidéo et la réalité virtuelle exigent souvent la capacité de modéliser des scènes 3D que les utilisateurs peuvent explorer selon des trajectoires de caméra personnalisées. Bien que des progrès significatifs aient été réalisés dans la génération d'objets 3D à partir de texte ou d'images, la création de scènes 3D explorables, cohérentes sur de longues distances, reste un problème complexe et difficile. Dans ce travail, nous présentons Voyager, un nouveau cadre de diffusion vidéo qui génère des séquences de nuages de points 3D cohérents à partir d'une seule image avec un chemin de caméra défini par l'utilisateur. Contrairement aux approches existantes, Voyager réalise la génération et la reconstruction de scènes de bout en bout avec une cohérence intrinsèque entre les images, éliminant ainsi le besoin de pipelines de reconstruction 3D (par exemple, la structure à partir du mouvement ou la stéréo multi-vues). Notre méthode intègre trois composants clés : 1) Diffusion Vidéo Cohérente : Une architecture unifiée qui génère conjointement des séquences vidéo RGB et de profondeur alignées, conditionnées par l'observation du monde existant pour assurer une cohérence globale. 2) Exploration à Longue Portée : Un cache mondial efficace avec élimination de points et une inférence auto-régressive avec échantillonnage vidéo fluide pour l'extension itérative de la scène avec une cohérence contextuelle. 3) Moteur de Données Évolutif : Un pipeline de reconstruction vidéo qui automatise l'estimation de la pose de la caméra et la prédiction de la profondeur métrique pour des vidéos arbitraires, permettant une curation de données d'entraînement à grande échelle et diversifiée sans annotations 3D manuelles. Collectivement, ces conceptions aboutissent à une amélioration nette par rapport aux méthodes existantes en termes de qualité visuelle et de précision géométrique, avec des applications polyvalentes.
Bien que les modèles de diffusion aient obtenu un succès remarquable dans la génération d'images à partir de texte, ils rencontrent des défis significatifs dans l'édition d'images pilotée par des instructions. Notre recherche met en lumière un défi majeur : ces modèles peinent particulièrement avec les modifications structurellement incohérentes impliquant des changements importants de mise en page. Pour combler cette lacune, nous introduisons Image Editing As Programs (IEAP), un cadre unifié d'édition d'images basé sur l'architecture Diffusion Transformer (DiT). Au cœur d'IEAP, l'édition instructionnelle est abordée sous un angle réductionniste, décomposant les instructions complexes en séquences d'opérations atomiques. Chaque opération est implémentée via un adaptateur léger partageant le même socle DiT et spécialisé pour un type spécifique de modification. Programmées par un agent basé sur un modèle vision-langage (VLM), ces opérations collaborent pour supporter des transformations arbitraires et structurellement incohérentes. En modularisant et en séquençant les modifications de cette manière, IEAP généralise robustement à travers une large gamme de tâches d'édition, allant des ajustements simples aux changements structurels substantiels. Des expériences approfondies démontrent qu'IEAP surpasse significativement les méthodes de pointe sur des benchmarks standard dans divers scénarios d'édition. Dans ces évaluations, notre cadre offre une précision et une fidélité sémantique supérieures, en particulier pour les instructions complexes et multi-étapes. Les codes sont disponibles à l'adresse suivante : https://github.com/YujiaHu1109/IEAP.
Les grands modèles de langage (LLMs) rencontrent souvent des difficultés avec les tâches de visualisation, telles que la création de diagrammes et de graphiques, où le succès dépend à la fois de la correction du code et de la sémantique visuelle. Les ensembles de données existants pour l'ajustement par instruction manquent de supervision basée sur l'exécution et offrent un support limité pour la correction itérative du code, ce qui entraîne une génération de graphiques fragile et peu fiable. Nous présentons VisCode-200K, un ensemble de données à grande échelle pour l'ajustement par instruction dédié à la visualisation en Python et à l'auto-correction. Il contient plus de 200 000 exemples provenant de deux sources : (1) des codes de traçage validés issus de dépôts open-source, associés à des instructions en langage naturel et à des graphiques rendus ; et (2) 45 000 dialogues de correction multi-tours provenant de Code-Feedback, permettant aux modèles de réviser des codes erronés en utilisant des retours d'exécution. Nous affinons Qwen2.5-Coder-Instruct sur VisCode-200K pour créer VisCoder, et l'évaluons sur PandasPlotBench. VisCoder surpasse significativement les modèles open-source de référence et approche les performances de modèles propriétaires comme GPT-4o-mini. Nous adoptons en outre un protocole d'évaluation par auto-débogage pour évaluer la réparation itérative, démontrant les avantages de l'apprentissage basé sur les retours pour la génération de code exécutable et visuellement précis.
Bien que les modèles basés sur la diffusion soient capables de générer des séquences vidéo de haute qualité et haute résolution à partir d'entrées textuelles ou d'images, ils manquent d'une intégration explicite des indices géométriques lors du contrôle de l'éclairage des scènes et de l'apparence visuelle entre les images. Pour pallier cette limitation, nous proposons IllumiCraft, un framework de diffusion de bout en bout acceptant trois entrées complémentaires : (1) des cartes vidéo à haute plage dynamique (HDR) pour un contrôle détaillé de l'éclairage ; (2) des images synthétiquement rééclairées avec des variations d'illumination aléatoires (optionnellement associées à une image de référence de fond statique) pour fournir des indices d'apparence ; et (3) des pistes de points 3D qui capturent des informations géométriques 3D précises. En intégrant les indices d'éclairage, d'apparence et de géométrie au sein d'une architecture de diffusion unifiée, IllumiCraft génère des vidéos temporellement cohérentes alignées avec les prompts définis par l'utilisateur. Il prend en charge le rééclairage vidéo conditionné par le fond et par le texte, et offre une meilleure fidélité que les méthodes existantes de génération vidéo contrôlée. Page du projet : https://yuanze-lin.me/IllumiCraft_page
Nous avons observé que des modèles de langage robustes tels que Qwen-Math, MiMo et Phi-4 possèdent un immense potentiel de raisonnement hérité de la phase de pré-entraînement. Grâce à l'apprentissage par renforcement (RL), ces modèles peuvent s'améliorer de manière significative sur des tâches de raisonnement. Des études récentes ont montré que même un apprentissage par renforcement sur un seul problème peut libérer les capacités de raisonnement de ces modèles. Cependant, l'apprentissage par renforcement est non seulement coûteux, mais aussi instable. Même un apprentissage par renforcement en une seule étape nécessite des centaines d'heures de GPU. Cela soulève une question cruciale : existe-t-il une manière plus efficace de libérer le potentiel de raisonnement de ces modèles de langage de base puissants ? Dans ce travail, nous démontrons que le réglage fin par critique (Critique Fine-Tuning, CFT) sur un seul problème peut efficacement libérer le potentiel de raisonnement des modèles de langage. Notre méthode construit des données de critique en collectant diverses solutions générées par le modèle pour un seul problème et en utilisant des modèles de langage enseignants pour fournir des critiques détaillées. Nous avons effectué un réglage fin des modèles de la famille Qwen et Llama, allant de 1,5 à 14 milliards de paramètres, sur les données de CFT et avons observé des gains de performance significatifs sur diverses tâches de raisonnement. Par exemple, avec seulement 5 heures de formation sur GPU, Qwen-Math-7B-CFT montre une amélioration moyenne de 15 % sur six benchmarks mathématiques et de 16 % sur trois benchmarks de raisonnement logique. Ces résultats sont comparables, voire supérieurs, à ceux obtenus par apprentissage par renforcement avec 20 fois moins de calcul. Des études d'ablation révèlent la robustesse du CFT en une seule étape sur différents problèmes d'invite. Ces résultats mettent en évidence le CFT en une seule étape comme une approche simple, générale et efficace en termes de calcul pour libérer les capacités de raisonnement des modèles de langage modernes.
Nous présentons Psi-Sampler, un cadre basé sur SMC intégrant un échantillonnage initial de particules via pCNL pour un alignement efficace des récompenses au moment de l'inférence avec un modèle génératif basé sur les scores. L'alignement des récompenses au moment de l'inférence avec des modèles génératifs basés sur les scores a récemment gagné un intérêt considérable, s'inscrivant dans un changement de paradigme plus large passant de l'optimisation pré-entraînement à l'optimisation post-entraînement. Au cœur de cette tendance se trouve l'application du Monte Carlo séquentiel (SMC) au processus de débruitage. Cependant, les méthodes existantes initialisent généralement les particules à partir d'une distribution gaussienne a priori, ce qui capture insuffisamment les régions pertinentes pour les récompenses et entraîne une efficacité d'échantillonnage réduite. Nous démontrons qu'une initialisation à partir de la distribution a posteriori tenant compte des récompenses améliore significativement les performances d'alignement. Pour permettre l'échantillonnage a posteriori dans des espaces latents de haute dimension, nous introduisons l'algorithme de Langevin préconditionné de Crank-Nicolson (pCNL), qui combine des propositions robustes à la dimension avec une dynamique informée par le gradient. Cette approche permet un échantillonnage a posteriori efficace et scalable, et améliore systématiquement les performances dans diverses tâches d'alignement des récompenses, notamment la génération d'images à partir de mises en page, la génération prenant en compte des quantités, et la génération selon des préférences esthétiques, comme le démontrent nos expériences.
Les modèles de langage de grande taille (LLMs) et les LLMs multimodaux ont démontré des capacités prometteuses pour le traitement des SVG, mais les benchmarks existants souffrent d'une couverture limitée du monde réel, d'un manque de stratification de la complexité et de paradigmes d'évaluation fragmentés. Nous présentons SVGenius, un benchmark complet comprenant 2 377 requêtes réparties sur trois dimensions progressives : compréhension, édition et génération. Construit à partir de données réelles provenant de 24 domaines d'application avec une stratification systématique de la complexité, SVGenius évalue les modèles à travers 8 catégories de tâches et 18 métriques. Nous évaluons 22 modèles grand public couvrant différentes échelles, architectures, paradigmes d'entraînement et niveaux d'accessibilité. Notre analyse révèle que si les modèles propriétaires surpassent significativement leurs homologues open-source, tous les modèles présentent une dégradation systématique des performances avec l'augmentation de la complexité, indiquant des limitations fondamentales dans les approches actuelles ; cependant, un entraînement renforcé par le raisonnement s'avère plus efficace que le simple scaling pour surmonter ces limitations, bien que le transfert de style reste la capacité la plus difficile à maîtriser pour tous les types de modèles. SVGenius établit le premier cadre d'évaluation systématique pour le traitement des SVG, fournissant des insights cruciaux pour développer des modèles de graphiques vectoriels plus performants et faire progresser les applications de conception graphique automatisée. L'annexe et les matériaux supplémentaires (y compris toutes les données et le code) sont disponibles à l'adresse https://zju-real.github.io/SVGenius.
Nous présentons LayerFlow, une solution unifiée pour la génération de vidéos prenant en compte les couches. À partir d’invitations spécifiques à chaque couche, LayerFlow génère des vidéos pour le premier plan transparent, l’arrière-plan net et la scène fusionnée. Il prend également en charge des variantes polyvalentes, telles que la décomposition d’une vidéo fusionnée ou la génération de l’arrière-plan pour un premier plan donné, et vice versa. En partant d’un transformateur de diffusion texte-à-vidéo, nous organisons les vidéos pour différentes couches sous forme de sous-clips, et exploitons des embeddings de couches pour distinguer chaque clip et les invitations spécifiques à chaque couche. De cette manière, nous prenons en charge de manière fluide les variantes mentionnées ci-dessus dans un cadre unifié. En raison du manque de vidéos d’entraînement de haute qualité avec annotations par couches, nous concevons une stratégie d’entraînement en plusieurs étapes pour intégrer des images statiques avec des annotations de couches de haute qualité. Plus précisément, nous entraînons d’abord le modèle avec des données vidéo de faible qualité. Ensuite, nous ajustons un LoRA de mouvement pour rendre le modèle compatible avec des images statiques. Par la suite, nous entraînons le LoRA de contenu sur un mélange de données d’images de haute qualité avec des images en couches, ainsi que des données vidéo copiées-collées. Lors de l’inférence, nous supprimons le LoRA de mouvement, générant ainsi des vidéos fluides avec les couches souhaitées.
L'Optimisation Directe des Préférences (Direct Preference Optimization, DPO) a récemment été appliquée comme technique post-entraînement pour les modèles de diffusion texte-vidéo. Pour obtenir des données d'entraînement, les annotateurs sont invités à fournir des préférences entre deux vidéos générées à partir de bruits indépendants. Cependant, cette approche interdit des comparaisons fines, et nous soulignons qu'elle biaise les annotateurs vers des clips à faible mouvement, car ceux-ci contiennent souvent moins d'artefacts visuels. Dans ce travail, nous introduisons DenseDPO, une méthode qui remédie à ces lacunes en apportant trois contributions. Premièrement, nous créons chaque paire de vidéos pour la DPO en débruitant des copies corrompues d'une vidéo de référence. Cela permet d'obtenir des paires alignées avec des structures de mouvement similaires tout en différant par des détails locaux, neutralisant ainsi efficacement le biais lié au mouvement. Deuxièmement, nous exploitons l'alignement temporel résultant pour étiqueter les préférences sur de courts segments plutôt que sur des clips entiers, produisant ainsi un signal d'apprentissage plus dense et plus précis. Avec seulement un tiers des données étiquetées, DenseDPO améliore considérablement la génération de mouvements par rapport à la DPO classique, tout en égalant celle-ci en termes d'alignement textuel, de qualité visuelle et de cohérence temporelle. Enfin, nous montrons que DenseDPO permet l'annotation automatique des préférences en utilisant des modèles de langage visuel (Vision Language Models, VLMs) prêts à l'emploi : GPT prédit avec précision les préférences au niveau des segments de manière similaire à des modèles de récompense vidéo spécifiquement affinés pour la tâche, et DenseDPO entraîné sur ces étiquettes atteint des performances proches de celles obtenues avec des étiquettes humaines.
Récemment, les modèles de langage de grande taille (LLMs) ont réalisé des progrès significatifs dans des domaines liés au QI qui nécessitent une réflexion approfondie, tels que les mathématiques et la programmation. Cependant, l'amélioration du développement cognitif des LLMs dans les domaines sociaux, en particulier d'un point de vue post-entraînement, reste peu explorée. Considérant que le monde social suit une chronologie distincte et nécessite une combinaison plus riche de modes cognitifs (allant des réactions intuitives (Système 1) et de la pensée superficielle à la pensée délibérée (Système 2)) que les mathématiques, qui reposent principalement sur la cognition du Système 2 (raisonnement soigneux et étape par étape), nous introduisons l'apprentissage par renforcement cognitif hiérarchique temporellement conscient (TimeHC-RL) pour améliorer l'intelligence sociale des LLMs. Dans nos expériences, nous explorons systématiquement l'amélioration de l'intelligence sociale des LLMs et validons l'efficacité de la méthode TimeHC-RL, à travers cinq autres paradigmes post-entraînement et deux paradigmes d'intervention en temps de test sur huit ensembles de données présentant des modèles de données variés. Les résultats expérimentaux révèlent la supériorité de notre méthode TimeHC-RL proposée par rapport à la méthode largement adoptée du Système 2 RL. Elle donne des ailes au modèle de base de 7B, lui permettant de rivaliser avec les performances de modèles avancés comme DeepSeek-R1 et OpenAI-O3. De plus, l'exploration systématique des perspectives post-entraînement et des interventions en temps de test pour améliorer l'intelligence sociale des LLMs a permis de découvrir plusieurs insights précieux.
La génération efficace de longues séquences constitue un défi majeur pour les grands modèles de langage. Bien que les méthodes récentes de décodage parcimonieux améliorent l'efficacité, elles souffrent d'un désalignement du cache KV, où les erreurs d'approximation s'accumulent et dégradent la qualité de la génération. Dans ce travail, nous proposons l'Attention Parcimonieuse Rectifiée (ReSA), une méthode simple mais efficace qui combine l'attention parcimonieuse par blocs avec une rectification dense périodique. En rafraîchissant le cache KV à intervalles fixes via un passage dense, ReSA limite l'accumulation d'erreurs et préserve l'alignement avec la distribution de pré-entraînement. Les expériences menées sur des tâches de raisonnement mathématique, de modélisation du langage et de recherche démontrent que ReSA atteint une qualité de génération quasi sans perte avec une efficacité significativement améliorée. En particulier, ReSA offre une accélération de bout en bout allant jusqu'à 2,42 fois lors du décodage de séquences de 256K, en faisant une solution pratique pour l'inférence contextuelle longue et évolutive. Le code est disponible à l'adresse https://aka.ms/ReSA-LM.
Les agents de modèles de langage de grande taille (LLM) sont en train de transformer l'industrie du jeu, en particulier avec des personnages de jeu plus intelligents et plus proches des préférences humaines. Cependant, les benchmarks de jeu existants ne répondent pas aux besoins pratiques : ils manquent d'évaluations des diverses capacités des LLM à travers différents genres de jeux, d'études sur les modules agentiels cruciaux pour des gameplay complexes, et de jeux de données de fine-tuning pour aligner les LLM pré-entraînés en agents de jeu. Pour combler ces lacunes, nous présentons \benchname{}, un benchmark fondamental conçu pour entraîner et évaluer les agents LLM à travers une variété de jeux vidéo du monde réel. Contrairement aux benchmarks existants, Orak inclut 12 jeux vidéo populaires couvrant tous les principaux genres, permettant des études approfondies des capacités des LLM et des modules agentiels essentiels pour des scénarios de jeu complexes. Pour soutenir une évaluation cohérente des LLM, nous introduisons une interface plug-and-play basée sur le Protocole de Contexte de Modèle (MCP) qui permet aux LLM de se connecter de manière transparente aux jeux et de manipuler les modules agentiels. De plus, nous proposons un jeu de données de fine-tuning, composé de trajectoires de gameplay de LLM à travers divers genres de jeux. Orak offre un cadre d'évaluation complet, comprenant des classements généraux de scores de jeu, des arènes de combat pour LLM, et des analyses approfondies de l'état d'entrée visuel, des stratégies agentielles, et des effets de fine-tuning, établissant une base pour la construction d'agents de jeu génériques. Le code est disponible à l'adresse https://github.com/krafton-ai/Orak.
Dans cet article, nous présentons TalkingMachines -- un cadre efficace qui transforme des modèles pré-entraînés de génération vidéo en animateurs de personnages pilotés par l'audio en temps réel. TalkingMachines permet des expériences conversationnelles naturelles en intégrant un modèle de langage audio de grande envergure (LLM) avec notre modèle de base de génération vidéo. Nos principales contributions incluent : (1) Nous adaptons un DiT (Diffusion Transformer) pré-entraîné de pointe pour la génération d'images en vidéo en un modèle de génération d'avatars piloté par l'audio, comportant 18 milliards de paramètres ; (2) Nous permettons un streaming vidéo infini sans accumulation d'erreurs grâce à une distillation de connaissances asymétrique d'un modèle enseignant bidirectionnel vers un modèle étudiant causal et autorégressif parcimonieux ; (3) Nous concevons un pipeline d'inférence à haut débit et faible latence, intégrant plusieurs optimisations techniques clés telles que : (a) la dissociation du DiT et du décodeur VAE sur des dispositifs distincts, (b) un chevauchement efficace de la communication et du calcul inter-dispositifs en utilisant des flux CUDA, (c) l'élimination des recalculs redondants pour maximiser le débit de génération d'images. Veuillez consulter les vidéos de démonstration ici - https://aaxwaz.github.io/TalkingMachines/
Les études récentes montrent que les grands modèles de langage (LLMs) présentent un biais d'auto-préférence lorsqu'ils servent de juges, c'est-à-dire qu'ils ont tendance à favoriser leurs propres réponses par rapport à celles générées par d'autres modèles. Les méthodes existantes mesurent généralement ce biais en calculant la différence entre les scores qu'un modèle juge attribue à ses propres réponses et ceux qu'il attribue aux réponses d'autres modèles. Cependant, cette approche confond le biais d'auto-préférence avec la qualité des réponses, car des réponses de meilleure qualité du modèle juge peuvent également entraîner des différences de scores positives, même en l'absence de biais. Pour résoudre ce problème, nous introduisons des jugements de référence (gold judgments) comme proxies de la qualité réelle des réponses et proposons le score DBG, qui mesure le biais d'auto-préférence comme la différence entre les scores attribués par le modèle juge à ses propres réponses et les jugements de référence correspondants. Étant donné que les jugements de référence reflètent la véritable qualité des réponses, le score DBG atténue l'effet de confusion de la qualité des réponses sur la mesure du biais. En utilisant le score DBG, nous menons des expériences approfondies pour évaluer le biais d'auto-préférence parmi les LLMs de différentes versions, tailles et capacités de raisonnement. De plus, nous étudions deux facteurs qui influencent et aident à atténuer le biais d'auto-préférence : le style textuel des réponses et les données de post-formation des modèles juges. Enfin, nous explorons les mécanismes sous-jacents potentiels du biais d'auto-préférence d'un point de vue basé sur l'attention. Notre code et nos données sont disponibles à l'adresse https://github.com/zhiyuanc2001/self-preference.
Alors que les modèles de langage de grande taille (LLMs) continuent de progresser, la nécessité de référentiels actualisés et bien organisés devient de plus en plus critique. Cependant, de nombreux ensembles de données existants sont dispersés, difficiles à gérer et rendent complexe la réalisation d'évaluations adaptées à des besoins ou domaines spécifiques, malgré l'importance croissante des modèles spécialisés dans des domaines tels que les mathématiques ou le code. Dans cet article, nous présentons BenchHub, un référentiel dynamique de benchmarks qui permet aux chercheurs et développeurs d'évaluer les LLMs de manière plus efficace. BenchHub agrège et classe automatiquement des ensembles de données de benchmarks provenant de divers domaines, intégrant 303 000 questions issues de 38 benchmarks. Il est conçu pour supporter des mises à jour continues et une gestion scalable des données, permettant une évaluation flexible et personnalisable adaptée à différents domaines ou cas d'utilisation. À travers des expériences approfondies avec diverses familles de LLMs, nous démontrons que la performance des modèles varie significativement selon les sous-ensembles spécifiques à un domaine, soulignant l'importance d'une évaluation prenant en compte le domaine. Nous pensons que BenchHub peut encourager une meilleure réutilisation des ensembles de données, des comparaisons de modèles plus transparentes et une identification plus aisée des domaines sous-représentés dans les benchmarks existants, offrant ainsi une infrastructure essentielle pour faire progresser la recherche sur l'évaluation des LLMs.
Les récents progrès en intelligence artificielle générative ont considérablement transformé le domaine de la synthèse vocale à partir de texte avec légendes de style (CapTTS). Cependant, l'adaptation de CapTTS à des applications réelles reste un défi en raison de l'absence de jeux de données standardisés et complets, ainsi que de la recherche limitée sur les tâches en aval basées sur CapTTS. Pour combler ces lacunes, nous présentons CapSpeech, un nouveau benchmark conçu pour une série de tâches liées à CapTTS, incluant la synthèse vocale à partir de texte avec légendes de style et événements sonores (CapTTS-SE), la synthèse vocale avec légendes d'accent (AccCapTTS), la synthèse vocale avec légendes d'émotion (EmoCapTTS), et la synthèse vocale pour agents conversationnels (AgentTTS). CapSpeech comprend plus de 10 millions de paires audio-légendes annotées automatiquement et près de 0,36 million de paires audio-légendes annotées manuellement. En outre, nous introduisons deux nouveaux jeux de données collectés et enregistrés par un acteur vocal professionnel et des ingénieurs audio expérimentés, spécifiquement pour les tâches AgentTTS et CapTTS-SE. Parallèlement aux jeux de données, nous menons des expériences approfondies en utilisant des modèles autorégressifs et non autorégressifs sur CapSpeech. Nos résultats démontrent une synthèse vocale de haute fidélité et très intelligible à travers une diversité de styles de parole. À notre connaissance, CapSpeech est le plus grand jeu de données disponible offrant des annotations complètes pour les tâches liées à CapTTS. Les expériences et les conclusions fournissent également des insights précieux sur les défis du développement des systèmes CapTTS.
Les modèles de diffusion ont récemment suscité un grand succès dans de nombreuses tâches de génération, telles que la suppression d'objets. Néanmoins, les méthodes existantes de décomposition d'images peinent à démêler les occlusions de couches semi-transparentes ou transparentes en raison de dépendances aux masques préalables, d'hypothèses statiques sur les objets et du manque de jeux de données. Dans cet article, nous explorons une nouvelle tâche : la décomposition couche par couche d'images alpha-composées, visant à récupérer les couches constitutives à partir d'images superposées uniques dans des conditions d'occlusion non linéaire de couches alpha semi-transparentes/transparentes. Pour relever les défis liés à l'ambiguïté des couches, à la généralisation et à la pénurie de données, nous introduisons d'abord AlphaBlend, le premier jeu de données à grande échelle et de haute qualité pour la décomposition de couches transparentes et semi-transparentes, prenant en charge six sous-tâches du monde réel (par exemple, la suppression de reflets translucides, la décomposition de cellules semi-transparentes, la décomposition de verrerie). Sur la base de ce jeu de données, nous présentons DiffDecompose, un framework basé sur un Transformer de diffusion qui apprend la distribution a posteriori sur les décompositions possibles de couches conditionnées par l'image d'entrée, les invites sémantiques et le type de fusion. Plutôt que de régresser directement les mattes alpha, DiffDecompose effectue une décomposition en contexte, permettant au modèle de prédire une ou plusieurs couches sans supervision par couche, et introduit le clonage de l'encodage de position des couches pour maintenir une correspondance au niveau des pixels entre les couches. Des expériences approfondies sur le jeu de données AlphaBlend proposé et sur le jeu de données public LOGO vérifient l'efficacité de DiffDecompose. Le code et le jeu de données seront disponibles après l'acceptation de l'article. Notre code sera disponible à l'adresse suivante : https://github.com/Wangzt1121/DiffDecompose.
Le décodage spéculatif accélère l'inférence des grands modèles de langage (LLM) en utilisant un petit modèle de brouillon pour prédire plusieurs tokens, et un grand modèle cible pour vérifier ces tokens en parallèle. Des études récentes exploitent l'état caché du modèle cible pour améliorer la précision des prédictions du modèle de brouillon. Cependant, les méthodes existantes souffrent d'une dégradation de la qualité des prédictions de tokens à des positions ultérieures, en raison de l'accumulation d'erreurs dans les caractéristiques générées par le modèle de brouillon. Dans cet article, nous proposons les Spécialistes de Position (PosS), qui consistent en plusieurs couches de brouillon spécialisées par position pour générer des tokens à des positions assignées. Les spécialistes de position améliorent considérablement le taux d'acceptation des tokens à des positions ultérieures par tour de brouillon, car chaque spécialiste n'a besoin de se concentrer que sur la gestion d'un certain niveau de déviation des caractéristiques du modèle de brouillon. Les résultats d'expérimentation sur Llama-3-8B-Instruct et Llama-2-13B-chat à travers six ensembles de données démontrent que PosS améliore efficacement les performances par rapport aux lignes de base en termes de longueur moyenne d'acceptation et de ratio d'accélération. Notre base de code est disponible à l'adresse https://github.com/shrango/PosS.
Les récents progrès dans le raisonnement en chaîne de pensée (Chain-of-Thought, CoT) ont amélioré la compréhension complexe des vidéos, mais les méthodes existantes peinent souvent à s'adapter aux compétences spécifiques à un domaine (par exemple, la détection d'événements, la compréhension des relations spatiales, la compréhension des émotions) sur divers contenus vidéo. Pour résoudre ce problème, nous proposons Video-Skill-CoT (alias Video-SKoT), un cadre qui construit et exploite automatiquement des supervisions CoT adaptées aux compétences pour un raisonnement vidéo adaptatif au domaine. Premièrement, nous construisons des annotations CoT basées sur les compétences : nous extrayons les compétences de raisonnement pertinentes pour le domaine à partir des questions d'entraînement, les regroupons en une taxonomie de compétences partagée, et créons une justification CoT détaillée en plusieurs étapes adaptée à chaque paire vidéo-question pour l'entraînement. Deuxièmement, nous introduisons un cadre d'apprentissage expert spécifique aux compétences. Chaque module expert se spécialise dans un sous-ensemble de compétences de raisonnement et est entraîné avec des adaptateurs légers en utilisant la supervision CoT collectée. Nous démontrons l'efficacité de l'approche proposée sur trois benchmarks de compréhension vidéo, où Video-SKoT surpasse systématiquement les bases de référence solides. Nous fournissons également des analyses approfondies comparant différents pipelines d'annotation CoT et les compétences apprises sur plusieurs domaines vidéo.
Les attaques par entrées adverses peuvent provoquer un déplacement significatif des embeddings CLIP. Cela peut affecter la robustesse en aval des modèles intégrant CLIP dans leur pipeline, tels que les modèles génératifs texte-à-image ou les grands modèles de vision et langage. Bien que des efforts aient été déployés pour renforcer la robustesse des encodeurs d'images CLIP, la robustesse des encodeurs de texte reste inexplorée. Dans ce travail, nous comblons cette lacune dans la littérature. Nous proposons LEAF : une méthode efficace de fine-tuning adversarial pour le domaine textuel, capable de s'adapter aux grands modèles CLIP. Nos modèles améliorent significativement la précision adversarial en zero-shot dans le domaine textuel, tout en maintenant les performances visuelles offertes par les encodeurs d'images robustes. Lorsqu'ils sont combinés avec des modèles de diffusion texte-à-image, nous améliorons la qualité de génération sous bruit adversarial. En utilisant nos encodeurs CLIP robustes dans des tâches de récupération multimodale, nous améliorons le rappel sous bruit adversarial par rapport aux modèles CLIP standard. Enfin, nous montrons que les encodeurs de texte robustes facilitent une meilleure reconstruction du texte d'entrée à partir de son embedding via une optimisation directe.
Les récents progrès en apprentissage par renforcement (RL) avec retour d'information numérique, tels que les récompenses scalaires, ont considérablement amélioré les capacités de raisonnement complexe des grands modèles de langage (LLMs). Malgré ces succès, nous identifions trois défis majeurs rencontrés par le RL avec un retour d'information uniquement numérique : les plateaux de performance, l'efficacité limitée de l'auto-réflexion et les échecs persistants. Nous démontrons ensuite que les modèles affinés par RL, même après avoir atteint des plateaux de performance, peuvent générer des raffinements corrects sur des problèmes d'échecs persistants en exploitant un retour d'information en langage naturel sous forme de critiques. Sur la base de cette observation, nous proposons Critique-GRPO, un cadre de RL en ligne qui intègre à la fois un retour d'information en langage naturel et numérique pour une optimisation efficace des politiques. Critique-GRPO permet aux LLMs d'apprendre à partir des réponses initiales et des raffinements guidés par les critiques tout en maintenant l'exploration. Des expériences approfondies utilisant Qwen2.5-7B-Base et Qwen3-8B-Base montrent que Critique-GRPO surpasse systématiquement les approches de fine-tuning basées sur l'apprentissage supervisé et sur le RL dans huit tâches complexes de raisonnement mathématique, STEM et général, améliorant les scores moyens pass@1 d'environ 4,5 % et 5 %, respectivement. Notamment, Critique-GRPO dépasse une base de référence solide qui intègre des démonstrations expertes dans le cadre du RL en ligne. Une analyse plus approfondie révèle deux insights critiques concernant l'exploration des politiques : (1) une entropie plus élevée ne garantit pas toujours un apprentissage efficace à partir de l'exploration, et (2) des réponses plus longues ne conduisent pas nécessairement à une exploration plus efficace.
L'apprentissage continu (Continual Learning, CL) vise à permettre aux réseaux de neurones d'acquérir de nouvelles connaissances de manière incrémentale (plasticité) tout en conservant les connaissances existantes (stabilité). Bien que les modèles pré-entraînés (Pre-trained Models, PTMs) soient devenus essentiels dans le CL, les approches dominantes figent l'architecture principale des PTMs pour préserver la stabilité, limitant ainsi leur plasticité, en particulier lorsqu'ils sont confrontés à des écarts de domaine significatifs dans les tâches incrémentales. À l'inverse, le réglage fin séquentiel de l'ensemble du PTM risque d'entraîner un oubli catastrophique des connaissances généralisables, révélant un compromis critique entre stabilité et plasticité. Pour relever ce défi, nous proposons Adapting PTMs before the core CL process (ACL), un cadre novateur qui affine l'architecture principale des PTMs grâce à une phase d'adaptation plug-and-play avant l'apprentissage de chaque nouvelle tâche avec les approches de CL existantes (par exemple, le réglage par prompts). ACL améliore la plasticité en alignant les embeddings avec leurs prototypes de classe d'origine tout en les éloignant des autres, ce qui, théoriquement et empiriquement, permet d'équilibrer stabilité et plasticité. Des expériences approfondies démontrent qu'ACL améliore significativement les performances du CL sur divers benchmarks et méthodes intégrées, offrant ainsi une solution polyvalente pour le CL basé sur les PTMs.
LLM-as-a-judge est un cadre dans lequel un modèle de langage de grande taille (LLM) évalue automatiquement la sortie d'un autre LLM. Nous proposons des juges quantitatifs LLM, qui alignent les scores d'évaluation des juges LLM existants sur les scores humains dans un domaine donné en utilisant des modèles de régression. Ces modèles sont entraînés pour améliorer le score du juge original en utilisant l'évaluation textuelle et le score du juge. Nous présentons quatre juges quantitatifs pour différents types de retours absolus et relatifs, ce qui démontre la généralité et la polyvalence de notre cadre. Notre cadre est plus efficace sur le plan computationnel que le réglage fin supervisé et peut être plus efficace statistiquement lorsque les retours humains sont limités, ce qui est attendu dans la plupart des applications de notre travail. Nous validons ces affirmations empiriquement sur quatre ensembles de données en utilisant deux juges de base. Nos expériences montrent que les juges quantitatifs peuvent efficacement améliorer la puissance prédictive des juges existants grâce à une modélisation post-hoc.
Les grands modèles de fondation entraînés sur des ensembles de données étendus démontrent de solides capacités de généralisation en contexte zéro-shot dans divers domaines. Pour reproduire leur succès lorsque les données et la taille du modèle sont limitées, la distillation de connaissances est devenue un outil établi pour transférer les connaissances des modèles de fondation vers de petits réseaux étudiants. Cependant, l'efficacité de la distillation est fortement limitée par les données d'entraînement disponibles. Ce travail aborde le problème pratique courant du décalage de covariable dans la distillation de connaissances, où des caractéristiques fallacieuses apparaissent pendant l'entraînement mais pas au moment du test. Nous posons la question suivante : lorsque ces caractéristiques fallacieuses sont inconnues, mais qu'un enseignant robuste est disponible, est-il possible pour un étudiant de devenir également robuste à celles-ci ? Nous abordons ce problème en introduisant une nouvelle stratégie d'augmentation de données basée sur la diffusion, qui génère des images en maximisant le désaccord entre l'enseignant et l'étudiant, créant ainsi des échantillons difficiles avec lesquels l'étudiant peine. Les expériences démontrent que notre approche améliore significativement la précision du pire groupe et du groupe moyen sur CelebA et SpuCo Birds, ainsi que le mAUC fallacieux sur spurious ImageNet en cas de décalage de covariable, surpassant les méthodes d'augmentation de données basées sur la diffusion de l'état de l'art.
Malgré les récents progrès en matière d'inversion et d'édition d'images basée sur des instructions, les approches existantes excellent principalement dans l'édition d'objets uniques et proéminents, mais rencontrent des difficultés significatives lorsqu'elles sont appliquées à des scènes complexes contenant plusieurs entités. Pour quantifier cet écart, nous introduisons d'abord RefEdit-Bench, un benchmark rigoureux ancré dans le monde réel et basé sur RefCOCO, où même les modèles de référence entraînés sur des millions d'échantillons obtiennent de faibles performances. Pour surmonter cette limitation, nous présentons RefEdit — un modèle d'édition basé sur des instructions entraîné sur notre pipeline de génération de données synthétiques évolutif. Notre modèle RefEdit, entraîné sur seulement 20 000 triplets d'édition, surpasse les modèles de référence basés sur Flux/SD3 entraînés sur des millions de données. Des évaluations approfondies sur divers benchmarks démontrent que notre modèle excelle non seulement dans les tâches d'expression référentielle, mais améliore également les performances sur les benchmarks traditionnels, atteignant des résultats de pointe comparables aux méthodes propriétaires. Nous publions les données et les points de contrôle pour assurer la reproductibilité.
Les grands modèles de langage (LLM) sont souvent salués pour leur performance quasi humaine sur un large éventail de tâches et appréciés pour leur capacité à tenir une conversation générale. Cependant, l'essor des systèmes d'IA agentiques introduit une multitude d'applications dans lesquelles les modèles de langage exécutent un petit nombre de tâches spécialisées de manière répétitive et avec peu de variations. Nous exposons ici la position selon laquelle les petits modèles de langage (SLM) sont suffisamment puissants, intrinsèquement plus adaptés et nécessairement plus économiques pour de nombreuses invocations dans les systèmes agentiques, et représentent donc l'avenir de l'IA agentique. Notre argumentation s'appuie sur le niveau actuel de capacités démontré par les SLM, les architectures courantes des systèmes agentiques et l'économie du déploiement des modèles de langage. Nous soutenons en outre que dans les situations où les capacités conversationnelles polyvalentes sont essentielles, les systèmes agentiques hétérogènes (c'est-à-dire des agents invoquant plusieurs modèles différents) constituent le choix naturel. Nous discutons des obstacles potentiels à l'adoption des SLM dans les systèmes agentiques et esquissons un algorithme général de conversion d'agents LLM vers SLM. Notre position, formulée comme une déclaration de valeur, souligne l'importance de l'impact opérationnel et économique qu'aurait même un déplacement partiel des LLM vers les SLM sur l'industrie des agents d'IA. Nous visons à stimuler la discussion sur l'utilisation efficace des ressources en IA et espérons faire progresser les efforts visant à réduire les coûts de l'IA actuelle. En appelant à la fois à des contributions et à des critiques de notre position, nous nous engageons à publier toute correspondance à ce sujet sur https://research.nvidia.com/labs/lpr/slm-agents.
Les organigrammes sont un outil essentiel pour visualiser les processus de prise de décision. Cependant, leur structure non linéaire et les relations complexes entre éléments visuels et textuels rendent leur interprétation par les modèles de langage (LLM) difficile, car les modèles vision-langage hallucinent souvent des connexions et des chemins de décision inexistants lors de l'analyse de ces diagrammes. Cela compromet la fiabilité du traitement automatisé des organigrammes dans des domaines critiques tels que la logistique, la santé et l'ingénierie. Nous introduisons la tâche d'Attribution Fine des Organigrammes, qui retrace les composants spécifiques justifiant une réponse d'un LLM faisant référence à un organigramme. L'Attribution des Organigrammes assure la vérifiabilité des prédictions des LLM et améliore l'explicabilité en reliant les réponses générées à la structure de l'organigramme. Nous proposons FlowPathAgent, un agent neurosymbolique qui effectue une attribution fine a posteriori grâce à un raisonnement basé sur les graphes. Il segmente d'abord l'organigramme, le convertit en un graphe symbolique structuré, puis utilise une approche agentique pour interagir dynamiquement avec le graphe afin de générer des chemins d'attribution. De plus, nous présentons FlowExplainBench, un nouveau benchmark pour évaluer les attributions d'organigrammes à travers divers styles, domaines et types de questions. Les résultats expérimentaux montrent que FlowPathAgent atténue les hallucinations visuelles dans les réponses des LLM pour les questions-réponses sur les organigrammes, surpassant les modèles de référence de 10 à 14 % sur notre ensemble de données FlowExplainBench.
L'élagage a récemment été largement adopté pour réduire l'échelle des paramètres et améliorer l'efficacité de l'inférence des modèles de langage de grande taille (LLMs). Les techniques d'élagage dominantes reposent souvent sur des stratégies uniformes par couches, ce qui peut entraîner une dégradation significative des performances à des niveaux de sparsité élevés. Conscients des contributions variables des différentes couches dans les LLMs, les études récentes ont recentré leur attention sur l'élagage non uniforme par couches. Cependant, ces approches s'appuient souvent sur des valeurs prédéfinies, ce qui peut conduire à des performances sous-optimales. Pour surmonter ces limitations, nous proposons une nouvelle méthode appelée Élagage Dynamique par Couches (Dynamic Layerwise Pruning, DLP). Cette approche détermine de manière adaptative l'importance relative de chaque couche en intégrant les poids du modèle avec les informations d'activation en entrée, attribuant ainsi les taux d'élagage en conséquence. Les résultats expérimentaux montrent que DLP préserve efficacement les performances du modèle à des niveaux de sparsité élevés pour plusieurs LLMs. Plus précisément, à 70 % de sparsité, DLP réduit la perplexité de LLaMA2-7B de 7,79 et améliore la précision moyenne de 2,7 % par rapport aux méthodes de pointe. De plus, DLP est compatible avec diverses techniques de compression existantes pour les LLMs et peut être intégré de manière transparente dans le réglage fin efficace en paramètres (Parameter-Efficient Fine-Tuning, PEFT). Nous publions le code à l'adresse https://github.com/ironartisan/DLP pour faciliter les recherches futures.
Les récents benchmarks de compréhension vidéo-langage de longue durée ont stimulé les progrès dans les modèles multimodaux de grande taille pour la vidéo (Video-LMMs). Cependant, la rareté de vidéos longues bien annotées a laissé l'entraînement des Video-LLMs pour des vidéos d'une heure sous-exploré. Pour combler cette lacune, nous présentons VideoMarathon, un ensemble de données à grande échelle pour le suivi d'instructions sur des vidéos d'une heure. Ce jeu de données comprend environ 9 700 heures de vidéos longues provenant de domaines variés, allant de 3 à 60 minutes par vidéo. Plus précisément, il contient 3,3 millions de paires questions-réponses de haute qualité, couvrant six thèmes fondamentaux : temporalité, spatialité, objet, action, scène et événement. Par rapport aux ensembles de données d'instructions vidéo existants, VideoMarathon étend considérablement la durée des vidéos d'entraînement jusqu'à 1 heure et prend en charge 22 tâches variées nécessitant une compréhension vidéo à court et à long terme. Sur la base de VideoMarathon, nous proposons Hour-LLaVA, un Video-LMM puissant et efficace pour la modélisation vidéo-langage à l'échelle horaire. Il permet l'entraînement et l'inférence sur des vidéos d'une heure avec un échantillonnage à 1 image par seconde en exploitant un module d'augmentation de mémoire, qui intègre de manière adaptative les sémantiques pertinentes pour la question de l'utilisateur et informatives sur le plan spatio-temporel à partir d'un contexte vidéo complet mis en cache. Dans nos expériences, Hour-LLaVA obtient les meilleures performances sur plusieurs benchmarks vidéo-langage de longue durée, démontrant la haute qualité du jeu de données VideoMarathon et la supériorité du modèle Hour-LLaVA.
Les systèmes d'IA agentiques, construits sur des modèles de langage à grande échelle (LLMs) et déployés dans des configurations multi-agents, redéfinissent l'autonomie intelligente, la collaboration et la prise de décision dans les domaines de l'entreprise et de la société. Cette revue présente une analyse structurée de la gestion de la confiance, des risques et de la sécurité (TRiSM) dans le contexte des systèmes multi-agents agentiques basés sur des LLMs (AMAS). Nous commençons par examiner les fondements conceptuels de l'IA agentique, ses différences architecturales par rapport aux agents d'IA traditionnels, et les conceptions de systèmes émergents qui permettent une autonomie évolutive et utilisatrice d'outils. La TRiSM dans le cadre de l'IA agentique est ensuite détaillée à travers quatre piliers : gouvernance, explicabilité, ModelOps, et confidentialité/sécurité, chacun contextualisé pour les LLMs agentiques. Nous identifions des vecteurs de menace uniques et introduisons une taxonomie complète des risques pour les applications de l'IA agentique, soutenue par des études de cas illustrant des vulnérabilités réelles. En outre, l'article passe en revue les mécanismes de construction de la confiance, les techniques de transparence et de supervision, ainsi que les stratégies d'explicabilité de pointe dans les systèmes d'agents LLMs distribués. De plus, les métriques pour évaluer la confiance, l'interprétabilité et la performance centrée sur l'humain sont examinées, ainsi que les défis ouverts en matière de benchmarking. La sécurité et la confidentialité sont abordées à travers le chiffrement, la défense contre les attaques adverses et la conformité aux régulations évolutives en matière d'IA. L'article conclut avec une feuille de route pour une IA agentique responsable, proposant des directions de recherche pour aligner les systèmes multi-agents émergents avec des principes robustes de TRiSM en vue d'un déploiement sûr, responsable et transparent.
La découverte de matériaux supraconducteurs à haute température revêt une importance majeure pour l'industrie et la vie quotidienne de l'humanité. Ces dernières années, les recherches sur la prédiction des températures de transition supraconductrice à l'aide de l'intelligence artificielle (IA) ont gagné en popularité, la plupart de ces outils affirmant atteindre une précision remarquable. Cependant, l'absence de jeux de données de référence largement acceptés dans ce domaine a sérieusement entravé les comparaisons équitables entre différents algorithmes d'IA et a freiné le progrès de ces méthodes. Dans ce travail, nous présentons le HTSC-2025, un jeu de données de référence pour les supraconducteurs à haute température à pression ambiante. Cette compilation exhaustive englobe des matériaux supraconducteurs prédits théoriquement par des physiciens théoriciens entre 2023 et 2025, basés sur la théorie de la supraconductivité BCS, y compris le célèbre système X_2YH_6, le système pérovskite MXH_3, le système M_3XH_8, les systèmes atomiques métalliques dopés BCN en forme de cage dérivés de l'évolution structurelle de LaH_{10}, et les systèmes bidimensionnels à structure en nid d'abeille évoluant à partir de MgB_2. Le benchmark HTSC-2025 a été mis en open source à l'adresse https://github.com/xqh19970407/HTSC-2025 et sera continuellement mis à jour. Ce benchmark est d'une importance cruciale pour accélérer la découverte de matériaux supraconducteurs à l'aide de méthodes basées sur l'IA.
Améliorer les capacités de raisonnement des grands modèles de langage de manière efficace en utilisant l'apprentissage par renforcement (RL) reste un défi crucial. Les approches existantes adoptent principalement deux granularités contrastées pour l'estimation de l'avantage : Les méthodes au niveau des tokens (par exemple, PPO) visent à fournir des signaux d'avantage fins, mais souffrent d'une estimation imprécise en raison des difficultés à entraîner un modèle critique précis. À l'autre extrême, les méthodes au niveau des trajectoires (par exemple, GRPO) reposent uniquement sur un signal d'avantage grossier provenant de la récompense finale, conduisant à une attribution de crédit imprécise. Pour pallier ces limitations, nous proposons l'Optimisation de Politique par Segments (SPO), un nouveau cadre RL qui exploite l'estimation de l'avantage au niveau des segments avec une granularité intermédiaire, atteignant un meilleur équilibre en offrant une attribution de crédit plus précise que les méthodes au niveau des trajectoires et en nécessitant moins de points d'estimation que les méthodes au niveau des tokens, permettant une estimation précise de l'avantage basée sur Monte Carlo (MC) sans modèle critique. SPO se compose de trois éléments avec des stratégies novatrices : (1) partition flexible des segments ; (2) estimation précise de l'avantage des segments ; et (3) optimisation de la politique utilisant les avantages des segments, incluant une nouvelle stratégie de masque de probabilité. Nous instancions en outre SPO pour deux scénarios spécifiques : (1) SPO-chain pour les courtes chaînes de raisonnement (CoT), avec une partition basée sur des points de coupure et une estimation d'avantage basée sur la chaîne, obtenant des améliorations de 6 à 12 points de pourcentage en précision par rapport à PPO et GRPO sur GSM8K. (2) SPO-tree pour les longues CoT, avec une estimation d'avantage basée sur un arbre, qui réduit significativement le coût de l'estimation MC, obtenant des améliorations de 7 à 11 points de pourcentage par rapport à GRPO sur MATH500 sous des évaluations de contexte de 2K et 4K. Nous rendons notre code public à l'adresse https://github.com/AIFrameResearch/SPO.
La référence d'objets vise à détecter tous les objets dans une image qui correspondent à une description en langage naturel donnée. Nous soutenons qu'un modèle robuste de référence d'objets devrait être ancré, c'est-à-dire que ses prédictions devraient être à la fois explicables et fidèles au contenu visuel. Plus précisément, il devrait satisfaire deux propriétés clés : 1) Vérifiable, en produisant un raisonnement interprétable qui justifie ses prédictions et les relie clairement à des preuves visuelles ; et 2) Digne de confiance, en apprenant à s'abstenir lorsqu'aucun objet dans l'image ne correspond à l'expression donnée. Cependant, la plupart des méthodes traitent la référence comme une tâche de prédiction directe de boîtes englobantes, offrant une interprétabilité limitée et peinant à rejeter les expressions sans objet correspondant. Dans ce travail, nous proposons Rex-Thinker, un modèle qui formule la référence d'objets comme une tâche explicite de raisonnement en chaîne de pensée (CoT). Étant donné une expression de référence, nous identifions d'abord toutes les instances d'objets candidates correspondant à la catégorie d'objet référencée. Rex-Thinker effectue ensuite un raisonnement étape par étape sur chaque candidat pour évaluer s'il correspond à l'expression donnée, avant de faire une prédiction finale. Pour soutenir ce paradigme, nous construisons un jeu de données à grande échelle de référence de style CoT nommé HumanRef-CoT en sollicitant GPT-4o sur le jeu de données HumanRef. Chaque trace de raisonnement suit un format structuré de planification, action et résumé, permettant au modèle d'apprendre un raisonnement décomposé et interprétable sur les candidats objets. Nous entraînons ensuite Rex-Thinker en deux étapes : une phase de réglage fin supervisé à froid pour enseigner au modèle comment effectuer un raisonnement structuré, suivie d'un apprentissage par renforcement basé sur GRPO pour améliorer la précision et la généralisation. Les expériences montrent que notre approche surpasse les références standard en termes de précision et d'interprétabilité lors de l'évaluation en domaine, tout en démontrant une capacité améliorée à rejeter les sorties hallucinées et une forte généralisation dans des contextes hors domaine.
La quête de l'apprentissage continu (Continual Learning, CL) vise à doter les réseaux de neurones de la capacité d'apprendre et de s'adapter de manière incrémentale. Au cœur de cette démarche se trouve la résolution du dilemme stabilité-plasticité, qui consiste à trouver un équilibre entre deux objectifs contradictoires : préserver les connaissances acquises précédemment et acquérir de nouvelles connaissances. Bien que de nombreuses méthodes de CL cherchent à atteindre ce compromis, elles négligent souvent l'impact de l'architecture du réseau sur la stabilité et la plasticité, limitant ce compromis au niveau des paramètres. Dans cet article, nous explorons le conflit entre stabilité et plasticité au niveau architectural. Nous révélons que, sous une contrainte de paramètres égale, les réseaux plus profonds présentent une meilleure plasticité, tandis que les réseaux plus larges se caractérisent par une stabilité supérieure. Pour résoudre ce dilemme au niveau architectural, nous introduisons un nouveau cadre appelé Dual-Arch, qui sert de composant plug-in pour le CL. Ce cadre exploite les forces complémentaires de deux réseaux distincts et indépendants : l'un dédié à la plasticité et l'autre à la stabilité. Chaque réseau est conçu avec une architecture spécialisée et légère, adaptée à son objectif respectif. Des expériences approfondies démontrent que Dual-Arch améliore les performances des méthodes de CL existantes tout en étant jusqu'à 87 % plus compact en termes de paramètres.
Les bases de données de publications reposent sur l'extraction précise de métadonnées à partir de diverses sources web. Cependant, les variations dans les mises en page web et les formats de données posent des défis pour les fournisseurs de métadonnées. Cet article présente CRAWLDoc, une nouvelle méthode pour le classement contextuel de documents web liés. En partant de l'URL d'une publication, telle qu'un identifiant d'objet numérique, CRAWLDoc récupère la page d'accueil ainsi que toutes les ressources web liées, y compris les PDF, les profils ORCID et les documents complémentaires. Il intègre ces ressources, ainsi que les textes d'ancrage et les URL, dans une représentation unifiée. Pour évaluer CRAWLDoc, nous avons créé un nouvel ensemble de données annoté manuellement, comprenant 600 publications provenant de six éditeurs majeurs en informatique. Notre méthode CRAWLDoc démontre un classement robuste et indépendant de la mise en page des documents pertinents, quels que soient l'éditeur et le format de données. Elle jette les bases d'une extraction améliorée des métadonnées à partir de documents web présentant diverses mises en page et formats. Notre code source et notre ensemble de données sont accessibles à l'adresse suivante : https://github.com/FKarl/CRAWLDoc.
Une manière d'atténuer les risques dans les modèles vision-langage (VLMs) consiste à supprimer les échantillons dangereux de leurs données d'entraînement. Cependant, une telle modération des données peut être facilement contournée lorsque des images nuisibles sont divisées en petits fragments apparemment bénins, dispersés à travers de nombreux échantillons d'entraînement. Les VLMs peuvent alors apprendre à assembler ces fragments pendant l'entraînement et générer des réponses nuisibles lors de l'inférence, que ce soit à partir d'images complètes ou de références textuelles. Par exemple, si un VLM est entraîné sur des fragments d'images d'une scène sanglante associés à la description "sûr", il pourrait par la suite décrire l'image complète ou une référence textuelle à la scène comme "sûre". Nous définissons la capacité centrale des VLMs permettant cette attaque comme le *visual stitching* — la capacité à intégrer des informations visuelles réparties sur plusieurs échantillons d'entraînement partageant les mêmes descriptions textuelles. Dans notre travail, nous démontrons d'abord les capacités de visual stitching dans des VLMs open-source courants sur trois jeux de données où chaque image est étiquetée avec un ID synthétique unique : nous divisons chaque paire (image, ID) en paires {(fragment, ID)} à différentes granularités pour le réglage fin, et nous constatons que les modèles ajustés peuvent verbaliser les ID corrects à partir d'images complètes ou de références textuelles. Sur cette base, nous simulons le scénario d'empoisonnement de données adverses mentionné ci-dessus en utilisant des fragments d'images dangereuses et en remplaçant les ID par des descriptions textuelles comme "sûr" ou "dangereux", démontrant comment un contenu nuisible peut échapper à la modération dans les fragments et être ensuite reconstruit via le visual stitching, posant de sérieux risques pour la sécurité des VLMs. Le code est disponible à l'adresse https://github.com/ZHZisZZ/visual-stitching.
La reconstruction 3D à partir d'images capturées en conditions réelles reste une tâche complexe en raison des conditions d'éclairage incohérentes et des distracteurs transitoires. Les méthodes existantes reposent généralement sur des stratégies heuristiques pour gérer les données d'entraînement de faible qualité, ce qui entraîne souvent des reconstructions instables et incohérentes, avec des artefacts visuels fréquents. Dans ce travail, nous proposons Asymmetric Dual 3DGS, un nouveau cadre qui exploite la nature stochastique de ces artefacts : ils ont tendance à varier entre différentes exécutions d'entraînement en raison de légers aléas. Concrètement, notre méthode entraîne deux modèles de 3D Gaussian Splatting (3DGS) en parallèle, en imposant une contrainte de cohérence qui favorise la convergence vers une géométrie de scène fiable tout en supprimant les artefacts incohérents. Pour éviter que les deux modèles ne convergent vers des modes d'échec similaires en raison d'un biais de confirmation, nous introduisons une stratégie de masquage divergente qui applique deux masques complémentaires : un masque adaptatif multi-indices et un masque doux auto-supervisé, ce qui conduit à un processus d'entraînement asymétrique des deux modèles, réduisant ainsi les modes d'erreur partagés. De plus, pour améliorer l'efficacité de l'entraînement des modèles, nous introduisons une variante légère appelée Dynamic EMA Proxy, qui remplace l'un des deux modèles par un proxy mis à jour dynamiquement via une moyenne mobile exponentielle (EMA), et utilise une stratégie de masquage alternée pour préserver la divergence. Des expériences approfondies sur des ensembles de données réels et complexes montrent que notre méthode surpasse systématiquement les approches existantes tout en atteignant une grande efficacité. Les codes et les modèles entraînés seront rendus publics.
Les modèles génératifs latents basés sur des flux, tels que Stable Diffusion 3, sont capables de générer des images d'une qualité remarquable, permettant même une génération photoréaliste à partir de texte. Leur performance impressionnante suggère que ces modèles devraient également constituer des a priori puissants pour les problèmes d'imagerie inverse, mais cette approche n'a pas encore conduit à une fidélité comparable. Plusieurs obstacles clés se posent : (i) l'encodage dans un espace latent de dimension inférieure rend la cartographie (directe) sous-jacente non linéaire ; (ii) le terme de vraisemblance des données est généralement intraitable ; et (iii) les modèles génératifs appris peinent à retrouver des modes de données rares et atypiques lors de l'inférence. Nous présentons FLAIR, un nouveau cadre variationnel sans entraînement qui exploite les modèles génératifs basés sur des flux comme a priori pour les problèmes inverses. À cette fin, nous introduisons un objectif variationnel pour l'appariement de flux qui est agnostique au type de dégradation, et le combinons avec des ajustements de trajectoire déterministes pour retrouver les modes atypiques. Pour garantir une cohérence exacte avec les données observées, nous découplons l'optimisation des termes de fidélité aux données et de régularisation. De plus, nous introduisons un schéma de calibration dépendant du temps dans lequel l'intensité de la régularisation est modulée en fonction d'estimations de précision hors ligne. Les résultats sur des benchmarks d'imagerie standard démontrent que FLAIR surpasse systématiquement les méthodes existantes basées sur la diffusion et les flux en termes de qualité de reconstruction et de diversité des échantillons.
Le raisonnement symbolique multi-étapes est essentiel pour améliorer les performances sur les tâches financières. Pourtant, les benchmarks permettant d'évaluer systématiquement cette capacité font défaut. Les ensembles de données existants comme FinQA et ConvFinQA ne supervisent que les réponses numériques finales, sans évaluer les étapes de raisonnement intermédiaires. Pour remédier à cela, nous introduisons FinChain, le premier benchmark symbolique conçu pour un raisonnement financier vérifiable en Chaîne de Pensée (CoT). Couvrant 54 sujets répartis dans 12 domaines financiers, FinChain propose cinq modèles paramétrables par sujet, chacun variant en complexité de raisonnement et en expertise domaine requise. Chaque instance de l'ensemble de données inclut une trace Python exécutable, permettant la génération automatique de données d'entraînement étendues et une adaptation facile à d'autres domaines. Nous introduisons également ChainEval, une nouvelle métrique pour l'évaluation automatique des réponses finales et du raisonnement intermédiaire. En évaluant 30 modèles de langage sur notre ensemble de données, nous constatons que même les modèles les plus avancés ont une marge d'amélioration considérable dans le raisonnement financier multi-étapes. Tous les modèles et métriques d'évaluation pour FinChain sont disponibles à l'adresse suivante : https://github.com/mbzuai-nlp/finchain.
La génération de sons précis pour des scènes audio-visuelles complexes est un défi, particulièrement en présence de multiples objets et sources sonores. Dans cet article, nous proposons un modèle de {\em génération audio interactive centrée sur les objets} qui ancre la génération sonore dans les objets visuels sélectionnés par l'utilisateur au sein d'images. Notre méthode intègre un apprentissage centré sur les objets dans un modèle de diffusion latente conditionnelle, qui apprend à associer des régions de l'image avec leurs sons correspondants grâce à un mécanisme d'attention multi-modale. Au moment du test, notre modèle utilise la segmentation d'image pour permettre aux utilisateurs de générer des sons de manière interactive au niveau de l'{\em objet}. Nous validons théoriquement que notre mécanisme d'attention approxime fonctionnellement les masques de segmentation au moment du test, garantissant que l'audio généré est aligné avec les objets sélectionnés. Les évaluations quantitatives et qualitatives montrent que notre modèle surpasse les approches de référence, obtenant un meilleur alignement entre les objets et leurs sons associés. Page du projet : https://tinglok.netlify.app/files/avobject/
L'annotation des données est une tâche chronophage et coûteuse, mais elle est intrinsèquement nécessaire pour l'apprentissage supervisé. L'Apprentissage Actif (Active Learning, AL) est une méthode bien établie qui minimise l'effort d'étiquetage humain en sélectionnant itérativement les échantillons non étiquetés les plus informatifs pour une annotation experte, améliorant ainsi les performances globales de classification. Bien que l'AL soit connu depuis des décennies, il est encore rarement utilisé dans les applications réelles. Comme indiqué dans deux enquêtes communautaires en ligne menées auprès de la communauté du traitement automatique du langage naturel (TALN) sur l'AL, deux raisons principales continuent de dissuader les praticiens d'utiliser l'AL : premièrement, la complexité de sa mise en place, et deuxièmement, un manque de confiance en son efficacité. Nous émettons l'hypothèse que ces deux raisons partagent la même cause : le vaste espace des hyperparamètres de l'AL. Cet espace d'hyperparamètres largement inexploré conduit souvent à des résultats d'expériences AL trompeurs et non reproductibles. Dans cette étude, nous avons d'abord compilé une grille d'hyperparamètres de plus de 4,6 millions de combinaisons, ensuite enregistré les performances de toutes ces combinaisons dans la plus grande étude AL menée à ce jour, et enfin analysé l'impact de chaque hyperparamètre sur les résultats expérimentaux. En conclusion, nous formulons des recommandations sur l'influence de chaque hyperparamètre, démontrons l'influence surprenante de l'implémentation concrète de la stratégie AL, et proposons un plan d'étude expérimentale pour des expériences AL reproductibles avec un effort computationnel minimal, contribuant ainsi à une recherche AL plus reproductible et fiable à l'avenir.
Avec le développement rapide des modèles de langage multimodaux de grande envergure (MLLMs), ceux-ci sont de plus en plus déployés en tant qu'agents autonomes d'utilisation informatique capables d'accomplir des tâches informatiques complexes. Cependant, une question pressante se pose : les principes de gestion des risques de sécurité conçus et alignés pour les MLLMs généraux dans des scénarios de dialogue peuvent-ils être efficacement transférés à des scénarios réels d'utilisation informatique ? Les recherches existantes sur l'évaluation des risques de sécurité des agents d'utilisation informatique basés sur des MLLMs souffrent de plusieurs limitations : elles manquent soit d'environnements interactifs réalistes, soit se concentrent étroitement sur un ou quelques types de risques spécifiques. Ces limitations ignorent la complexité, la variabilité et la diversité des environnements réels, limitant ainsi une évaluation complète des risques pour les agents d'utilisation informatique. Pour pallier cela, nous introduisons RiOSWorld, un benchmark conçu pour évaluer les risques potentiels des agents basés sur des MLLMs lors de manipulations informatiques réelles. Notre benchmark comprend 492 tâches à risque couvrant diverses applications informatiques, incluant le web, les réseaux sociaux, les multimédias, les systèmes d'exploitation, les emails et les logiciels de bureautique. Nous catégorisons ces risques en deux classes principales en fonction de leur source : (i) les risques d'origine utilisateur et (ii) les risques environnementaux. Pour l'évaluation, nous examinons les risques de sécurité sous deux angles : (i) l'intention de l'objectif de risque et (ii) la réalisation de l'objectif de risque. Des expériences approfondies avec des agents multimodaux sur RiOSWorld démontrent que les agents d'utilisation informatique actuels font face à des risques de sécurité significatifs dans des scénarios réels. Nos résultats soulignent la nécessité et l'urgence de l'alignement de la sécurité pour les agents d'utilisation informatique dans les manipulations informatiques réelles, fournissant des insights précieux pour le développement d'agents d'utilisation informatique fiables. Notre benchmark est disponible publiquement à l'adresse https://yjyddq.github.io/RiOSWorld.github.io/.