Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
18715
Dans ce travail, nous introduisons le Pré-entraînement par Renforcement (Reinforcement Pre-Training, RPT) comme un nouveau paradigme de mise à l'échelle pour les grands modèles de langage et l'apprentissage par renforcement (RL). Plus précisément, nous reformulons la prédiction du token suivant comme une tâche de raisonnement entraînée à l'aide du RL, où le modèle reçoit des récompenses vérifiables pour prédire correctement le token suivant dans un contexte donné. RPT offre une méthode évolutive pour exploiter de vastes quantités de données textuelles dans le cadre du RL à usage général, plutôt que de dépendre de réponses annotées spécifiques à un domaine. En encourageant la capacité de raisonnement pour prédire les tokens suivants, RPT améliore significativement la précision de la modélisation du langage pour ces prédictions. De plus, RPT fournit une base pré-entraînée solide pour un affinage ultérieur par renforcement. Les courbes de mise à l'échelle montrent qu'une augmentation des ressources de calcul d'entraînement améliore systématiquement la précision de la prédiction des tokens suivants. Les résultats positionnent RPT comme un paradigme de mise à l'échelle efficace et prometteur pour faire progresser le pré-entraînement des modèles de langage.
LASA Team, Weiwen Xu, Hou Pong Chan, Long Li, Mahani Aljunied, Ruifeng Yuan, Jianyu Wang, Chenghao Xiao, Guizhen Chen, Chaoqun Liu, Zhaodonghui Li, Yu Sun, Junao Shen, Chaojun Wang, Jie Tan, Deli Zhao, Tingyang Xu, Hao Zhang, Yu Rong
943
Les modèles de langage multimodaux à grande échelle (MLLMs) ont démontré des capacités impressionnantes dans la compréhension des éléments visuels courants, principalement grâce à leurs ensembles de données à grande échelle et à leurs stratégies d’entraînement avancées. Cependant, leur efficacité dans les applications médicales reste limitée en raison des divergences inhérentes entre les données et les tâches dans les scénarios médicaux et ceux du domaine général. Concrètement, les MLLMs médicaux existants sont confrontés aux limitations critiques suivantes : (1) une couverture limitée des connaissances médicales au-delà de l'imagerie, (2) une susceptibilité accrue aux hallucinations due à des processus de curation de données sous-optimaux, (3) un manque de capacités de raisonnement adaptées aux scénarios médicaux complexes. Pour relever ces défis, nous proposons d’abord une procédure de curation de données complète qui (1) acquiert efficacement des données riches en connaissances médicales non seulement à partir d’imagerie médicale mais aussi de textes médicaux étendus et de données du domaine général ; et (2) synthétise des descriptions médicales précises, des questions-réponses visuelles (VQA) et des échantillons de raisonnement. En conséquence, nous construisons un ensemble de données multimodal enrichi de connaissances médicales étendues. Sur la base des données curées, nous introduisons notre MLLM spécialisé en médecine : Lingshu. Lingshu suit un entraînement en plusieurs étapes pour intégrer l'expertise médicale et améliorer progressivement ses capacités de résolution de tâches. Par ailleurs, nous explorons préliminairement le potentiel de l'apprentissage par renforcement avec un paradigme de récompenses vérifiables pour renforcer la capacité de raisonnement médical de Lingshu. De plus, nous développons MedEvalKit, un cadre d'évaluation unifié qui consolide les principaux benchmarks médicaux multimodaux et textuels pour une évaluation standardisée, équitable et efficace des modèles. Nous évaluons les performances de Lingshu sur trois tâches médicales fondamentales : les questions-réponses multimodales, les questions-réponses textuelles et la génération de rapports médicaux. Les résultats montrent que Lingshu surpasse systématiquement les modèles multimodaux open-source existants sur la plupart des tâches...
Cet article présente MiniCPM4, un modèle de langage de grande taille (LLM) hautement efficace conçu spécifiquement pour les appareils terminaux. Nous atteignons cette efficacité grâce à des innovations systématiques dans quatre dimensions clés : l'architecture du modèle, les données d'entraînement, les algorithmes d'entraînement et les systèmes d'inférence. Plus précisément, en termes d'architecture de modèle, nous proposons InfLLM v2, un mécanisme d'attention parcimonieuse entraînable qui accélère à la fois les phases de préremplissage et de décodage pour le traitement de contextes longs. Concernant les données d'entraînement, nous proposons UltraClean, une stratégie efficace et précise de filtrage et de génération de données de pré-entraînement, ainsi qu'UltraChat v2, un ensemble de données complet pour le réglage fin supervisé. Ces ensembles de données permettent d'atteindre des performances satisfaisantes du modèle avec seulement 8 billions de tokens d'entraînement. En ce qui concerne les algorithmes d'entraînement, nous proposons ModelTunnel v2 pour une recherche efficace de stratégies de pré-entraînement, et nous améliorons les méthodes de post-entraînement existantes en introduisant un déploiement par segments pour un apprentissage par renforcement équilibré en charge et un LLM ternaire économe en données, BitCPM. Concernant les systèmes d'inférence, nous proposons CPM.cu qui intègre l'attention parcimonieuse, la quantification du modèle et l'échantillonnage spéculatif pour réaliser un préremplissage et un décodage efficaces. Pour répondre à diverses exigences sur appareil, MiniCPM4 est disponible en deux versions, avec respectivement 0,5 milliard et 8 milliards de paramètres. Des résultats d'évaluation approfondis montrent que MiniCPM4 surpasse les modèles open source de taille similaire sur plusieurs benchmarks, mettant en évidence à la fois son efficacité et son efficience. Notamment, MiniCPM4-8B démontre des améliorations significatives de vitesse par rapport à Qwen3-8B lors du traitement de longues séquences. Grâce à une adaptation supplémentaire, MiniCPM4 alimente avec succès diverses applications, notamment la génération d'enquêtes fiables et l'utilisation d'outils avec le protocole de contexte de modèle, démontrant clairement sa large applicabilité.
Les recherches existantes en matière de garantie de sécurité se sont principalement concentrées sur l'alignement pendant la phase d'entraînement pour inculquer des comportements sûrs aux LLM. Cependant, des études récentes ont révélé la vulnérabilité de ces méthodes face à diverses attaques de contournement (jailbreak). Parallèlement, le scaling à l'inférence a considérablement amélioré les capacités de raisonnement des LLM, mais reste inexploré dans le contexte de la garantie de sécurité. Pour combler cette lacune, notre travail innove en appliquant le scaling à l'inférence pour renforcer la sécurité des LLM face aux menaces émergentes. Nous montrons que les techniques conventionnelles de scaling à l'inférence, bien que performantes dans les tâches de raisonnement, sont peu efficaces dans les contextes de sécurité, ne surpassant même pas des approches basiques comme l'échantillonnage Best-of-N. Nous attribuons cette inefficacité à un nouveau défi identifié, le dilemme exploration-efficacité, résultant de la surcharge computationnelle liée aux évaluations fréquentes du modèle de récompense de processus (PRM). Pour surmonter ce dilemme, nous proposons SAFFRON, un nouveau paradigme de scaling à l'inférence spécifiquement conçu pour la garantie de sécurité. Au cœur de notre approche se trouve l'introduction d'un modèle de récompense multifurcation (MRM) qui réduit considérablement le nombre d'évaluations du modèle de récompense nécessaires. Pour opérationnaliser ce paradigme, nous proposons en outre : (i) un objectif d'entraînement à supervision partielle pour le MRM, (ii) une contrainte d'exploration conservatrice pour prévenir les explorations hors distribution, et (iii) une stratégie de mise en cache basée sur un Trie qui facilite le partage du cache entre les séquences lors de la recherche arborescente. Des expériences approfondies valident l'efficacité de notre méthode. De plus, nous rendons publics notre modèle de récompense multifurcation entraîné (Saffron-1) et le jeu de données de récompenses de sécurité au niveau des tokens (Safety4M) pour accélérer les recherches futures sur la sécurité des LLM. Notre code, modèle et données sont disponibles publiquement à l'adresse https://github.com/q-rz/saffron, et la page d'accueil de notre projet se trouve à https://q-rz.github.io/p/saffron.
Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) ont suscité un intérêt considérable pour leur capacité à produire des images de haute qualité alignées avec des descriptions textuelles. Cependant, les avancées rapides des modèles T2I ont mis en lumière les limites des premiers benchmarks, qui manquaient d'évaluations exhaustives, notamment en ce qui concerne le raisonnement, le rendu du texte et le style. Il est à noter que les modèles récents, dotés de capacités de modélisation de connaissances riches, montrent des résultats prometteurs sur les problèmes de génération d'images nécessitant une forte capacité de raisonnement, mais les systèmes d'évaluation existants n'ont pas suffisamment abordé cette frontière. Pour combler ces lacunes de manière systématique, nous présentons OneIG-Bench, un cadre de benchmark méticuleusement conçu pour l'évaluation fine des modèles T2I à travers plusieurs dimensions, incluant l'alignement texte-image, la précision du rendu textuel, le contenu généré par raisonnement, la stylisation et la diversité. En structurant l'évaluation, ce benchmark permet une analyse approfondie des performances des modèles, aidant les chercheurs et praticiens à identifier les points forts et les goulots d'étranglement dans l'ensemble du pipeline de génération d'images. Plus précisément, OneIG-Bench permet une évaluation flexible en permettant aux utilisateurs de se concentrer sur un sous-ensemble d'évaluation spécifique. Au lieu de générer des images pour l'ensemble des descriptions textuelles, les utilisateurs peuvent générer des images uniquement pour les descriptions associées à la dimension sélectionnée et effectuer l'évaluation correspondante. Notre base de code et notre jeu de données sont désormais accessibles au public pour faciliter les études d'évaluation reproductibles et les comparaisons inter-modèles au sein de la communauté de recherche T2I.
SpatialLM est un grand modèle de langage conçu pour traiter des données de nuages de points 3D et générer des sorties structurées de compréhension de scènes 3D. Ces sorties incluent des éléments architecturaux tels que des murs, des portes, des fenêtres, ainsi que des boîtes d'objets orientées avec leurs catégories sémantiques. Contrairement aux méthodes précédentes qui exploitent des architectures de réseaux spécifiques à une tâche, notre modèle suit l'architecture standard des LLM multimodaux et est affiné directement à partir de LLM open source.
Pour entraîner SpatialLM, nous avons collecté un ensemble de données synthétiques à grande échelle et de haute qualité, comprenant des nuages de points de 12 328 scènes intérieures (54 778 pièces) avec des annotations 3D de référence, et avons mené une étude approfondie sur diverses décisions de modélisation et d'entraînement. Sur des benchmarks publics, notre modèle atteint des performances de pointe en estimation de plan et des résultats compétitifs en détection d'objets 3D. Ainsi, nous démontrons une voie réalisable pour améliorer les capacités de compréhension spatiale des LLM modernes, avec des applications en réalité augmentée, robotique incarnée, et bien plus encore.
Eduard Allakhverdov, Dmitrii Tarasov, Elizaveta Goncharova, Andrey Kuznetsov
282
Les encodeurs de vision sont de plus en plus utilisés dans les applications modernes, allant des modèles purement visuels aux systèmes multimodaux tels que les modèles vision-langage. Malgré leur succès remarquable, il reste incertain comment ces architectures représentent les caractéristiques en interne. Ici, nous proposons une nouvelle approche pour interpréter les caractéristiques visuelles via la reconstruction d'images. Nous comparons deux familles de modèles apparentées, SigLIP et SigLIP2, qui diffèrent uniquement par leur objectif d'apprentissage, et montrons que les encodeurs pré-entraînés sur des tâches basées sur les images conservent significativement plus d'informations visuelles que ceux entraînés sur des tâches non visuelles telles que l'apprentissage contrastif. Nous appliquons en outre notre méthode à une gamme d'encodeurs de vision, les classant selon l'informativité de leurs représentations de caractéristiques. Enfin, nous démontrons que la manipulation de l'espace des caractéristiques entraîne des changements prévisibles dans les images reconstruites, révélant que les rotations orthogonales (plutôt que les transformations spatiales) contrôlent l'encodage des couleurs. Notre approche peut être appliquée à tout encodeur de vision, éclairant la structure interne de son espace de caractéristiques. Le code et les poids des modèles pour reproduire les expériences sont disponibles sur GitHub.
Sheng Chen, Peiyu He, Jiaxin Hu, Ziyang Liu, Yansheng Wang, Tao Xu, Chi Zhang, Chongchong Zhang, Chao An, Shiyu Cai, Duo Cao, Kangping Chen, Shuai Chu, Tianwei Chu, Mingdi Dan, Min Du, Weiwei Fang, Pengyou Fu, Junkai Hu, Xiaowei Jiang, Zhaodi Jiang, Fuxuan Li, Jun Li, Minghui Li, Mingyao Li, Yanchang Li, Zhibin Li, Guangming Liu, Kairui Liu, Lihao Liu, Weizhi Liu, Xiaoshun Liu, Yufei Liu, Yunfei Liu, Qiang Lu, Yuanfei Luo, Xiang Lv, Hongying Ma, Sai Ma, Lingxian Mi, Sha Sa, Hongxiang Shu, Lei Tian, Chengzhi Wang, Jiayu Wang, Kaijie Wang, Qingyi Wang, Renwen Wang, Tao Wang, Wei Wang, Xirui Wang, Chao Wei, Xuguang Wei, Zijun Xia, Zhaohao Xiao, Tingshuai Yan, Liyan Yang, Yifan Yang, Zhikai Yang, Zhong Yin, Li Yuan, Liuchun Yuan, Chi Zhang, Jinyang Zhang, Junhui Zhang, Linge Zhang, Zhenyi Zhang, Zheyu Zhang, Dongjie Zhu, Hang Li, Yangang Zhang
272
Les systèmes modernes de navigation robotique rencontrent des difficultés dans des environnements intérieurs variés et complexes. Les approches traditionnelles reposent sur plusieurs modules utilisant de petits modèles ou des systèmes basés sur des règles, ce qui limite leur adaptabilité à de nouveaux environnements. Pour résoudre ce problème, nous avons développé Astra, une architecture duale complète composée d'Astra-Global et d'Astra-Local, destinée à la navigation des robots mobiles. Astra-Global, un modèle de langage multimodal (LLM), traite les entrées visuelles et linguistiques pour effectuer la localisation de soi et de l'objectif en utilisant un graphe topologico-sémantique hybride comme carte globale, surpassant ainsi les méthodes traditionnelles de reconnaissance de lieux visuels. Astra-Local, un réseau multitâche, gère la planification locale de trajectoires et l'estimation de l'odométrie. Son encodeur spatio-temporel 4D, entraîné par apprentissage auto-supervisé, génère des caractéristiques 4D robustes pour les tâches en aval. Le module de planification utilise l'appariement de flux et une nouvelle fonction de perte ESDF masquée pour minimiser les risques de collision lors de la génération de trajectoires locales, tandis que le module d'odométrie intègre les entrées multi-capteurs via un encodeur transformateur pour prédire la pose relative du robot. Déployé sur des robots mobiles réels en interne, Astra atteint un taux de réussite de mission de bout en bout élevé dans divers environnements intérieurs.
Yijia Dai, Zhaolin Gao, Yahya Satter, Sarah Dean, Jennifer J. Sun
193
Les modèles de Markov cachés (HMM) sont des outils fondamentaux pour modéliser des données séquentielles avec une structure markovienne latente, mais leur ajustement à des données réelles reste un défi computationnel. Dans ce travail, nous montrons que les grands modèles de langage (LLM) pré-entraînés peuvent modéliser efficacement les données générées par des HMM via l'apprentissage en contexte (ICL) – leur capacité à inférer des modèles à partir d'exemples dans un prompt. Sur un ensemble diversifié de HMM synthétiques, les LLM atteignent une précision prédictive approchant l'optimum théorique. Nous découvrons de nouvelles tendances d'échelle influencées par les propriétés des HMM et proposons des conjectures théoriques pour ces observations empiriques. Nous fournissons également des directives pratiques pour les scientifiques sur l'utilisation de l'ICL comme outil de diagnostic pour des données complexes. Sur des tâches réelles de prise de décision animale, l'ICL obtient des performances compétitives avec des modèles conçus par des experts humains. À notre connaissance, il s'agit de la première démonstration que l'ICL peut apprendre et prédire des séquences générées par des HMM – une avancée qui approfondit notre compréhension de l'apprentissage en contexte dans les LLM et établit son potentiel comme outil puissant pour révéler des structures cachées dans des données scientifiques complexes.
Les modèles Vision-Langage-Action (VLA) ont démontré des capacités impressionnantes dans un large éventail de tâches de manipulation robotique. Cependant, leur taille croissante pose des défis importants pour leur déploiement sur des systèmes robotiques aux ressources limitées. Bien que l'apprentissage préalable en 1 bit se soit avéré efficace pour améliorer l'efficacité de l'inférence des grands modèles de langage avec une perte de performance minimale, son application aux modèles VLA reste peu explorée. Dans ce travail, nous présentons BitVLA, le premier modèle VLA en 1 bit pour la manipulation robotique, dans lequel chaque paramètre est ternaire, c'est-à-dire {-1, 0, 1}. Pour réduire davantage l'empreinte mémoire de l'encodeur visuel, nous proposons une stratégie d'entraînement basée sur la distillation qui compresse l'encodeur en pleine précision à des poids de 1,58 bit. Durant ce processus, un encodeur en pleine précision sert de modèle enseignant pour mieux aligner les représentations latentes. Malgré l'absence d'un apprentissage préalable robotique à grande échelle, BitVLA atteint des performances comparables au modèle de pointe OpenVLA-OFT avec une quantification post-entraînement en 4 bits sur le benchmark LIBERO, tout en consommant seulement 29,8 % de la mémoire. Ces résultats mettent en évidence le potentiel de BitVLA pour le déploiement sur des dispositifs embarqués à mémoire limitée. Nous publions le code et les poids du modèle sur https://github.com/ustcwhy/BitVLA.
Zhengyao Lv, Tianlin Pan, Chenyang Si, Zhaoxi Chen, Wangmeng Zuo, Ziwei Liu, Kwan-Yee K. Wong
162
Les Transformeurs de Diffusion Multimodaux (MM-DiTs) ont réalisé des progrès remarquables dans la génération visuelle pilotée par texte. Cependant, même les modèles MM-DiT de pointe comme FLUX peinent à atteindre un alignement précis entre les invites textuelles et le contenu généré. Nous identifions deux problèmes clés dans le mécanisme d'attention des MM-DiT, à savoir 1) la suppression de l'attention intermodale due au déséquilibre des tokens entre les modalités visuelles et textuelles, et 2) l'absence de pondération d'attention sensible au pas de temps, qui entravent cet alignement. Pour résoudre ces problèmes, nous proposons l'Attention Intermodale à Température Ajustée (TACA), une méthode efficace en paramètres qui rééquilibre dynamiquement les interactions multimodales grâce à une mise à l'échelle de la température et un ajustement dépendant du pas de temps. Combinée à un affinage LoRA, TACA améliore significativement l'alignement texte-image sur le benchmark T2I-CompBench avec un surcoût computationnel minimal. Nous avons testé TACA sur des modèles de pointe comme FLUX et SD3.5, démontrant sa capacité à améliorer l'alignement image-texte en termes d'apparence des objets, de liaison des attributs et de relations spatiales. Nos résultats soulignent l'importance de l'équilibrage de l'attention intermodale pour améliorer la fidélité sémantique dans les modèles de diffusion texte-à-image. Nos codes sont disponibles publiquement à l'adresse https://github.com/Vchitect/TACA.
La supervision par chaîne de pensée longue (CoT) est devenue une stratégie courante pour améliorer le raisonnement des modèles de langage. Bien qu'elle soit efficace pour les grands modèles, nous identifions un phénomène que nous appelons la Dégradation de la CoT Longue, dans lequel les petits modèles de langage (SLM ; <=3 milliards de paramètres) entraînés sur des données limitées de CoT longue subissent une détérioration significative de leurs performances. À travers des expériences approfondies sur les familles Qwen2.5, LLaMA3 et Gemma3, nous démontrons que cette dégradation est répandue parmi les SLM. Dans certains cas, les modèles entraînés sur seulement 8 000 exemples de CoT longue perdent jusqu'à 75 % de leurs performances initiales avant le fine-tuning. De manière frappante, nous observons également que pour certains modèles particulièrement petits, même un entraînement sur 220 000 exemples de CoT longue ne permet pas de retrouver ou de dépasser leurs performances initiales avant le fine-tuning. Notre analyse attribue cet effet à l'accumulation d'erreurs : bien que des réponses plus longues augmentent la capacité de raisonnement en plusieurs étapes, elles amplifient également le risque d'erreurs cumulatives. De plus, nous constatons que la Dégradation de la CoT Longue peut avoir un impact négatif sur l'apprentissage par renforcement (RL) en aval, bien que cela puisse être atténué par un fine-tuning supervisé (SFT) suffisamment étendu. Nos résultats remettent en question les hypothèses courantes sur les avantages de l'entraînement par CoT longue pour les SLM et offrent des conseils pratiques pour construire des modèles de raisonnement à petite échelle plus efficaces.
Nick Jiang, Amil Dravid, Alexei Efros, Yossi Gandelsman
142
Nous étudions le mécanisme sous-jacent à un phénomène précédemment identifié dans les Vision Transformers — l'émergence de tokens à norme élevée qui entraînent des cartes d'attention bruitées. Nous observons que, dans plusieurs modèles (par exemple, CLIP, DINOv2), un ensemble restreint de neurones est responsable de la concentration des activations à norme élevée sur des tokens aberrants, conduisant à des motifs d'attention irréguliers et dégradant le traitement visuel en aval. Bien que la solution existante pour éliminer ces aberrations consiste à réentraîner les modèles à partir de zéro avec des tokens de registre supplémentaires appris, nous utilisons nos découvertes pour créer une approche sans entraînement afin d'atténuer ces artefacts. En déplaçant les activations à norme élevée des neurones de registre que nous avons identifiés vers un token supplémentaire non entraîné, nous pouvons reproduire l'effet des tokens de registre sur un modèle déjà entraîné sans registres. Nous démontrons que notre méthode produit des cartes d'attention et de caractéristiques plus propres, améliore les performances par rapport aux modèles de base sur plusieurs tâches visuelles en aval, et obtient des résultats comparables à ceux des modèles explicitement entraînés avec des tokens de registre. Nous étendons ensuite les registres au moment du test à des modèles vision-langage prêts à l'emploi pour améliorer leur interprétabilité. Nos résultats suggèrent que les registres au moment du test assument efficacement le rôle des tokens de registre lors du test, offrant une solution sans entraînement pour tout modèle pré-entraîné publié sans eux.
Le développement de capacités de raisonnement généralisables dans les modèles de langage multimodaux de grande taille (MLLMs) reste un défi. Inspirés par la littérature en sciences cognitives suggérant que le jeu favorise des compétences cognitives transférables, nous proposons un nouveau paradigme de post-entraînement, l'apprentissage par jeu visuel, ou ViGaL, où les MLLMs développent une généralisation hors domaine du raisonnement multimodal en jouant à des jeux de type arcade. Plus précisément, nous montrons que le post-entraînement d'un MLLM de 7 milliards de paramètres via l'apprentissage par renforcement (RL) sur des jeux simples de type arcade, comme Snake, améliore significativement ses performances en aval sur des benchmarks de mathématiques multimodales comme MathVista, et sur des questions multidisciplinaires comme MMMU, sans avoir vu de solutions détaillées, d'équations ou de diagrammes pendant le RL, ce qui suggère l'acquisition de compétences de raisonnement transférables. De manière remarquable, notre modèle surpasse les modèles spécialisés ajustés sur des données de raisonnement multimodal dans des benchmarks de raisonnement multimodal, tout en préservant les performances du modèle de base sur des benchmarks visuels généraux, un défi où les modèles spécialisés échouent souvent. Nos résultats suggèrent un nouveau paradigme de post-entraînement : les jeux synthétiques basés sur des règles peuvent servir de tâches prétextes contrôlables et évolutives qui débloquent des capacités de raisonnement multimodal généralisables dans les MLLMs.
Noy Sternlicht, Ariel Gera, Roy Bar-Haim, Tom Hope, Noam Slonim
132
Nous introduisons l'Évaluation des Discours de Débat comme un nouveau et stimulant benchmark pour évaluer les juges LLM. Évaluer des discours de débat nécessite une compréhension approfondie du discours à plusieurs niveaux, incluant la force et la pertinence des arguments, la cohérence et l'organisation du discours, l'adéquation de son style et de son ton, et ainsi de suite. Cette tâche implique un ensemble unique de capacités cognitives qui ont jusqu'à présent reçu une attention limitée dans le benchmarking systématique des LLM. Pour explorer ces compétences, nous exploitons un ensemble de données de plus de 600 discours de débat méticuleusement annotés et présentons la première analyse approfondie de la manière dont les LLM de pointe se comparent aux juges humains sur cette tâche. Nos résultats révèlent une image nuancée : bien que les modèles plus grands puissent approcher les jugements individuels humains à certains égards, ils diffèrent considérablement dans leur comportement global de jugement. Nous étudions également la capacité des LLM de pointe à générer des discours persuasifs et engagés, montrant que les modèles peuvent atteindre un niveau humain sur cette tâche.
La reconnaissance optique de structures chimiques (OCSR) est cruciale pour la numérisation des connaissances chimiques en convertissant des images moléculaires en formats lisibles par machine. Bien que les modèles vision-langage (VLMs) récents aient montré un potentiel dans cette tâche, leur approche de génération de légendes d'images rencontre souvent des difficultés avec les structures moléculaires complexes et les annotations incohérentes. Pour surmonter ces défis, nous introduisons GTR-Mol-VLM, un nouveau cadre présentant deux innovations clés : (1) le mécanisme de parcours de graphe comme chaîne de pensée visuelle, qui imite le raisonnement humain en analysant progressivement les graphes moléculaires à travers des prédictions séquentielles d'atomes et de liaisons, et (2) le principe centré sur les données de "Reconnaître fidèlement ce que vous avez vu", qui traite l'inadéquation entre les structures abrégées dans les images et leurs annotations développées. Pour soutenir le développement du modèle, nous avons construit GTR-CoT-1.3M, un ensemble de données d'ajustement d'instructions à grande échelle avec des annotations soigneusement corrigées, et introduit MolRec-Bench, le premier benchmark conçu pour une évaluation fine de la précision de l'analyse de graphes en OCSR. Des expériences approfondies démontrent que GTR-Mol-VLM obtient des résultats supérieurs par rapport aux modèles spécialisés, aux VLMs du domaine de la chimie et aux VLMs commerciaux à usage général. Notamment, dans les scénarios impliquant des images moléculaires avec des abréviations de groupes fonctionnels, GTR-Mol-VLM surpasse le deuxième meilleur modèle de référence d'environ 14 points de pourcentage, à la fois en termes de métriques basées sur SMILES et sur les graphes. Nous espérons que ce travail permettra à la technologie OCSR de répondre plus efficacement aux besoins du monde réel, faisant ainsi progresser les domaines de la chémoinformatique et de l'IA pour la science. Nous publierons GTR-CoT sur https://github.com/opendatalab/GTR-CoT.
Les dernières générations de modèles de langage ont introduit les Grands Modèles de Raisonnement (LRMs) qui génèrent des processus de pensée détaillés avant de fournir des réponses. Bien que ces modèles démontrent une amélioration des performances sur les benchmarks de raisonnement, leurs capacités fondamentales, propriétés de mise à l'échelle et limites restent insuffisamment comprises. Les évaluations actuelles se concentrent principalement sur les benchmarks établis en mathématiques et en codage, mettant l'accent sur la précision des réponses finales. Cependant, ce paradigme d'évaluation souffre souvent de contamination et ne fournit pas d'informations sur les traces de raisonnement. Dans ce travail, nous investiguons systématiquement ces lacunes à l'aide d'environnements de puzzles contrôlables qui permettent une manipulation précise de la complexité tout en maintenant des structures logiques cohérentes. Cette configuration permet l'analyse non seulement des réponses finales mais aussi des traces de raisonnement internes, offrant des insights sur la manière dont les LRMs pensent. À travers des expériences approfondies, nous montrons que les LRMs subissent un effondrement complet de la précision au-delà de certaines complexités. De plus, ils présentent une limite de mise à l'échelle contre-intuitive : leur effort de raisonnement augmente avec la complexité du problème jusqu'à un certain point, puis diminue malgré un budget de tokens restant. En comparant les LRMs avec leurs homologues LLM standard sous la même puissance de calcul d'inférence, nous identifions trois régimes de performance : (1) les tâches de faible complexité où les modèles standard surpassent les LRMs, (2) les tâches de complexité moyenne où les LRMs démontrent un avantage, et (3) les tâches de haute complexité où les deux modèles subissent un effondrement complet. Nous avons constaté que les LRMs ont des limitations en calcul exact : ils échouent à utiliser des algorithmes explicites et raisonnent de manière incohérente à travers les échelles. Nous investiguons également les traces de raisonnement plus en profondeur, étudiant les modèles de solutions explorées et analysant le comportement computationnel des modèles, éclairant leurs forces, limites et soulevant des questions sur leurs capacités de raisonnement.
Yifu Qiu, Yftah Ziser, Anna Korhonen, Shay B. Cohen, Edoardo M. Ponti
112
Dans quelle mesure les modèles de base vision-et-langage possèdent-ils un modèle du monde réaliste (observation fois action → observation) et un modèle de dynamique (observation fois observation → action), lorsque les actions sont exprimées par le langage ? Alors que les modèles de base open-source peinent dans les deux cas, nous constatons qu'il est nettement plus facile de les affiner pour acquérir un modèle de dynamique par supervision que pour acquérir un modèle du monde. À leur tour, les modèles de dynamique peuvent être utilisés pour amorcer des modèles du monde grâce à deux stratégies principales : 1) l'apprentissage faiblement supervisé à partir de données synthétiques et 2) la vérification au moment de l'inférence. Premièrement, le modèle de dynamique peut annoter les actions pour des paires d'observations de frames vidéo non étiquetées afin d'étendre les données d'entraînement. Nous proposons en outre un nouvel objectif, où les tokens d'image dans les paires d'observations sont pondérés par leur importance, telle que prédite par un modèle de reconnaissance. Deuxièmement, les modèles de dynamique peuvent attribuer des récompenses à plusieurs échantillons du modèle du monde pour les noter, guidant ainsi efficacement la recherche au moment de l'inférence. Nous évaluons les modèles du monde résultant de ces deux stratégies à travers la tâche d'édition d'images centrée sur l'action sur Aurora-Bench. Notre meilleur modèle atteint une performance compétitive avec les modèles d'édition d'images de pointe, les surpassant de 15 % sur les sous-ensembles du monde réel selon GPT4o-comme-juge, et obtenant la meilleure évaluation humaine moyenne sur tous les sous-ensembles d'Aurora-Bench.
Yin Huang, Yifan Ethan Xu, Kai Sun, Vera Yan, Alicia Sun, Haidar Khan, Jimmy Nguyen, Mohammad Kachuee, Zhaojiang Lin, Yue Liu, Aaron Colak, Anuj Kumar, Wen-tau Yih, Xin Luna Dong
92
Peut-on enseigner aux modèles de langage de grande taille (LLMs) à s’abstenir de produire des affirmations factuelles erronées ? Dans cet article, nous présentons une stratégie de fine-tuning que nous appelons ConfQA, capable de réduire le taux d’hallucination de 20-40 % à moins de 5 % sur plusieurs benchmarks de factualité. L’idée centrale est simple : lorsque le LLM répond correctement à une question, il est entraîné à poursuivre avec la réponse ; sinon, il est entraîné à admettre « Je ne suis pas sûr ». Cependant, deux facteurs clés rendent cet entraînement particulièrement efficace. Premièrement, nous introduisons une incitation atténuante « répondez uniquement si vous êtes confiant » pour guider explicitement le comportement, sans laquelle le taux d’hallucination reste élevé, entre 15 % et 25 %. Deuxièmement, nous exploitons des affirmations factuelles simples, en particulier des valeurs d’attributs issues de graphes de connaissances, pour aider les LLMs à calibrer leur confiance, ce qui permet une généralisation robuste à travers les domaines et les types de questions. En nous appuyant sur cette idée, nous proposons le cadre Dual Neural Knowledge, qui sélectionne de manière fluide entre les connaissances neuronales paramétrées en interne et les connaissances symboliques enregistrées en externe, en fonction de la confiance de ConfQA. Ce cadre permet d’atteindre des gains de précision potentiels dépassant 95 %, tout en réduisant les recherches externes inutiles de plus de 30 %.
Guang Liu, Liangdong Wang, Jijie Li, Yang Yu, Yao Xu, Jiabei Chen, Yu Bai, Feng Liao, Yonghua Lin
82
Nous présentons CCI4.0, un jeu de données bilingue à grande échelle conçu pour une qualité de données supérieure et une trajectoire de raisonnement diversifiée et proche de celle des humains. CCI4.0 occupe environ 35 To d’espace disque et comprend deux sous-ensembles de données : CCI4.0-M2-Base et CCI4.0-M2-CoT. CCI4.0-M2-Base combine un corpus web chinois soigneusement sélectionné de 5,2 To, un sous-ensemble anglais de 22,5 To issu de Nemotron-CC, ainsi que diverses sources provenant des domaines des mathématiques, des wikis, d’arXiv et du code. Bien que ces données proviennent principalement de jeux de données bien traités, les normes de qualité varient selon les domaines et nécessitent une expertise approfondie et un travail important pour être traitées. Ainsi, nous proposons une nouvelle pipeline justifiant la qualité des données principalement basée sur des modèles, à travers une déduplication en deux étapes, un score de qualité multiclasse et un filtrage de fluidité adapté au domaine. Nous extrayons 4,5 milliards de modèles de CoT (Chaîne de Pensée), nommés CCI4.0-M2-CoT. Contrairement à la distillation de CoT à partir de modèles plus grands, notre méthode d’extraction de CoT par étapes illustre des schémas de raisonnement diversifiés et réduit significativement les risques d’hallucination. Les évaluations empiriques démontrent que les modèles de langage pré-entraînés sur CCI4.0 bénéficient de signaux d’entraînement plus propres et plus fiables, entraînant des améliorations constantes dans les tâches en aval, en particulier dans les tâches de réflexion mathématique et de code. Nos résultats soulignent le rôle crucial d’une curation rigoureuse des données et des modèles de pensée humaine dans l’amélioration des performances des modèles de langage, éclairant ainsi certaines pistes pour le traitement automatique des corpus de pré-entraînement.
Jie Ruan, Inderjeet Nair, Shuyang Cao, Amy Liu, Sheza Munir, Micah Pollens-Dempsey, Tiffany Chiang, Lucy Kates, Nicholas David, Sihan Chen, Ruxin Yang, Yuqian Yang, Jasmine Gump, Tessa Bialek, Vivek Sankaran, Margo Schlanger, Lu Wang
82
Cet article présente ExpertLongBench, un benchmark de niveau expert contenant 11 tâches issues de 9 domaines qui reflètent des workflows et des applications réalistes d'experts. Au-delà du simple question-réponse, les tâches orientées application dans ExpertLongBench exigent des réponses longues pouvant dépasser 5 000 tokens et un strict respect des exigences spécifiques à chaque domaine. Notamment, chaque tâche dans ExpertLongBench inclut une grille d'évaluation, conçue ou validée par des experts du domaine, pour spécifier les exigences de la tâche et guider l'évaluation des réponses. Par ailleurs, nous proposons CLEAR, un cadre d'évaluation qui permet une évaluation précise des réponses longues générées par les modèles dans notre benchmark. Pour parvenir à une évaluation fine et alignée sur les critères experts, CLEAR dérive des listes de contrôle à partir des réponses des modèles et des références en extrayant les informations correspondant aux éléments de la grille d'évaluation spécifique à la tâche. Les éléments de la liste de contrôle pour les réponses des modèles sont ensuite comparés aux éléments correspondants pour les réponses de référence afin d'évaluer leur exactitude, permettant ainsi une évaluation fondée. Nous évaluons 11 grands modèles de langage (LLM) et analysons les composants de CLEAR, montrant que (1) les LLM existants, avec le meilleur modèle atteignant seulement un score F1 de 26,8 %, nécessitent des améliorations significatives pour les tâches de niveau expert ; (2) les modèles peuvent générer du contenu correspondant aux aspects requis, bien que souvent de manière inexacte ; et (3) l'extraction et la comparaison précises des listes de contrôle dans CLEAR peuvent être réalisées par des modèles à poids ouverts pour une utilisation plus évolutive et à moindre coût.
Amber Yijia Zheng, Cedar Site Bai, Brian Bullins, Raymond A. Yeh
82
L'immunisation de modèles vise à pré-entraîner des modèles difficiles à affiner pour des tâches nuisibles tout en conservant leur utilité pour d'autres tâches non nuisibles. Bien que des travaux antérieurs aient montré des preuves empiriques de l'immunisation des modèles texte-image, la compréhension clé des conditions permettant l'immunisation et une définition précise d'un modèle immunisé restent floues. Dans ce travail, nous proposons un cadre, basé sur le nombre de condition d'une matrice hessienne, pour analyser l'immunisation des modèles dans le cas des modèles linéaires. En nous appuyant sur ce cadre, nous concevons un algorithme avec des termes de régularisation pour contrôler les nombres de condition résultants après le pré-entraînement. Les résultats empiriques sur les modèles linéaires et les réseaux profonds non linéaires démontrent l'efficacité de l'algorithme proposé pour l'immunisation des modèles. Le code est disponible à l'adresse suivante : https://github.com/amberyzheng/model-immunization-cond-num.
Penghao Wu, Shengnan Ma, Bo Wang, Jiaheng Yu, Lewei Lu, Ziwei Liu
72
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré un potentiel considérable pour révolutionner l'automatisation des interfaces graphiques utilisateur (GUI). Cependant, les modèles de GUI existants reposent principalement sur l'apprentissage à partir de trajectoires hors ligne quasi exemptes d'erreurs, manquant ainsi de capacités de réflexion et de récupération d'erreurs. Pour combler cette lacune, nous proposons GUI-Reflection, un cadre novateur qui intègre explicitement des capacités d'auto-réflexion et de correction d'erreurs dans les modèles de GUI multimodaux de bout en bout, à travers des étapes de formation dédiées : pré-entraînement spécifique à la GUI, fine-tuning supervisé hors ligne (SFT), et ajustement en ligne par réflexion. GUI-Reflection permet l'émergence de comportements d'auto-réflexion grâce à des processus de génération de données et d'apprentissage entièrement automatisés, sans nécessiter aucune annotation humaine. Plus précisément, 1) nous proposons d'abord des pipelines de données évolutifs pour construire automatiquement des données de réflexion et de correction d'erreurs à partir de trajectoires réussies existantes. Alors que les modèles de GUI existants se concentrent principalement sur les capacités de compréhension et d'ancrage dans l'interface utilisateur, nous proposons la Suite de Tâches GUI-Reflection pour apprendre et évaluer explicitement les capacités orientées vers la réflexion. 2) En outre, nous avons construit un environnement diversifié et efficace pour l'entraînement en ligne et la collecte de données des modèles de GUI sur les appareils mobiles. 3) Nous présentons également un algorithme itératif d'ajustement en ligne par réflexion, exploitant l'environnement proposé, permettant au modèle d'améliorer continuellement ses capacités de réflexion et de correction d'erreurs. Notre cadre dote les agents de GUI de capacités d'auto-réflexion et de correction, ouvrant la voie à une automatisation des GUI plus robuste, adaptable et intelligente, avec toutes les données, modèles, environnements et outils qui seront rendus publics.
Les modèles génératifs de vidéo à grande échelle peuvent synthétiser un contenu visuel diversifié et réaliste pour la création de mondes dynamiques, mais ils manquent souvent de contrôlabilité élément par élément, limitant leur utilisation dans l'édition de scènes et l'entraînement d'agents IA incarnés. Nous proposons Dreamland, un cadre hybride de génération de mondes combinant le contrôle granulaire d'un simulateur basé sur la physique et la production de contenu photoréaliste des modèles génératifs pré-entraînés à grande échelle. En particulier, nous concevons une abstraction de monde en couches qui encode à la fois la sémantique et la géométrie au niveau des pixels et des objets comme une représentation intermédiaire pour relier le simulateur et le modèle génératif. Cette approche améliore la contrôlabilité, minimise les coûts d'adaptation grâce à un alignement précoce avec les distributions du monde réel, et supporte l'utilisation immédiate de modèles génératifs pré-entraînés existants et futurs. Nous construisons en outre un ensemble de données D3Sim pour faciliter l'entraînement et l'évaluation des pipelines de génération hybrides. Les expériences démontrent que Dreamland surpasse les bases de référence existantes avec une amélioration de 50,8 % de la qualité d'image, une contrôlabilité renforcée de 17,9 %, et un grand potentiel pour améliorer l'entraînement des agents incarnés. Le code et les données seront rendus disponibles.
Les modèles de langage de grande taille (LLMs) nécessitent un alignement avec les préférences humaines pour éviter de générer du contenu offensant, faux ou dénué de sens. Récemment, les méthodes à faible ressource pour l'alignement des LLMs ont gagné en popularité, tout en rencontrant des défis pour obtenir à la fois un contenu de haute qualité et aligné. Motivés par l'observation que la difficulté de générer des réponses alignées se concentre au début du décodage, nous proposons un nouveau cadre, le décodage faible à fort (Weak-to-Strong Decoding, WSD), pour améliorer la capacité d'alignement des modèles de base grâce à l'orientation d'un petit modèle aligné. Le petit modèle rédige d'abord des débuts bien alignés, suivis par le grand modèle de base pour continuer le reste, contrôlé par un mécanisme de commutation automatique bien conçu. Nous collectons également un nouveau jeu de données, GenerAlign, pour affiner un modèle de petite taille, Pilot-3B, en tant que modèle de brouillon, ce qui améliore efficacement différents modèles de base dans le cadre du WSD pour surpasser toutes les méthodes de référence, tout en évitant la dégradation des tâches en aval, appelée taxe d'alignement. Des expériences approfondies sont en outre menées pour examiner l'impact de différents paramètres et l'efficacité temporelle, ainsi que des analyses approfondies sur les mécanismes intrinsèques du WSD.
Michael J Ryan, Omar Shaikh, Aditri Bhagirath, Daniel Frees, William Held, Diyi Yang
62
Les récents appels en faveur d'un alignement pluraliste des modèles de langage de grande taille (LLMs) encouragent l'adaptation des modèles aux préférences variées des utilisateurs. Cependant, la plupart des travaux antérieurs sur les modèles de récompense personnalisés reposent fortement sur des informations d'identité supplémentaires, telles que des détails démographiques ou un ensemble prédéfini de catégories de préférences. À cette fin, nous introduisons SynthesizeMe, une approche visant à induire des personas utilisateurs synthétiques à partir des interactions des utilisateurs pour la modélisation de récompense personnalisée. SynthesizeMe génère et vérifie d'abord un raisonnement pour expliquer les préférences des utilisateurs, puis induit des personas utilisateurs synthétiques à partir de ce raisonnement, et enfin filtre les interactions utilisateur antérieures informatives afin de construire des invites personnalisées pour un utilisateur particulier. Nous montrons que l'utilisation des invites induites par SynthesizeMe améliore la précision du jugement personnalisé par LLM de 4,4 % sur Chatbot Arena. La combinaison des invites dérivées de SynthesizeMe avec un modèle de récompense atteint les meilleures performances sur PersonalRewardBench : une nouvelle curation d'interactions stratifiées par utilisateur avec des chatbots collectées auprès de 854 utilisateurs de Chatbot Arena et PRISM.
Les récentes avancées dans les modèles de langage à grande échelle (LLMs) et les modèles vision-langage (VLMs) ont permis le développement d'agents autonomes puissants, capables de raisonnements complexes et d'utilisation d'outils multimodaux. Malgré leurs capacités croissantes, les cadres d'agents actuels restent fragiles, manquant de mécanismes principiés pour le flux d'information sécurisé, la fiabilité et la coordination multi-agents. Dans ce travail, nous introduisons SAFEFLOW, un nouveau cadre au niveau protocole pour la construction d'agents fiables basés sur LLM/VLM. SAFEFLOW impose un contrôle fin du flux d'information (IFC), en suivant précisément la provenance, l'intégrité et la confidentialité de toutes les données échangées entre les agents, les outils, les utilisateurs et les environnements. En contraignant le raisonnement des LLM à respecter ces étiquettes de sécurité, SAFEFLOW empêche les entrées non fiables ou adverses de contaminer les décisions à haute intégrité. Pour assurer la robustesse dans des environnements multi-agents concurrents, SAFEFLOW introduit l'exécution transactionnelle, la résolution de conflits et l'ordonnancement sécurisé sur l'état partagé, préservant ainsi la cohérence globale entre les agents. Nous introduisons également des mécanismes, incluant la journalisation anticipée, le retour en arrière et les caches sécurisés, qui renforcent la résilience face aux erreurs d'exécution et aux violations de politiques. Pour valider les performances, nous avons construit SAFEFLOWBENCH, une suite de benchmarks complète conçue pour évaluer la fiabilité des agents dans des conditions opérationnelles adverses, bruyantes et concurrentes. Des expériences approfondies démontrent que les agents construits avec SAFEFLOW maintiennent des performances impressionnantes et des garanties de sécurité même dans des environnements hostiles, surpassant largement l'état de l'art. Ensemble, SAFEFLOW et SAFEFLOWBENCH posent les bases d'écosystèmes d'agents principiés, robustes et sécurisés, faisant progresser la frontière de l'autonomie fiable.
Les grands modèles de langage s'appuient fréquemment à la fois sur des entrées contextuelles et sur des connaissances paramétriques pour accomplir des tâches. Cependant, ces sources peuvent entrer en conflit, en particulier lorsque les documents récupérés contredisent les connaissances paramétriques du modèle. Nous proposons un cadre de diagnostic pour évaluer systématiquement le comportement des LLM en cas de conflit entre contexte et mémoire, où l'information contextuelle diverge de leurs croyances paramétriques. Nous construisons des données de diagnostic qui suscitent ces conflits et analysons la performance des modèles sur plusieurs types de tâches. Nos résultats révèlent que (1) le conflit de connaissances a un impact minimal sur les tâches ne nécessitant pas l'utilisation de connaissances, (2) la performance des modèles est systématiquement plus élevée lorsque les connaissances contextuelles et paramétriques sont alignées, (3) les modèles sont incapables de supprimer complètement leurs connaissances internes même lorsqu'ils y sont explicitement invités, et (4) fournir des justifications expliquant le conflit augmente la dépendance aux contextes. Ces observations soulèvent des inquiétudes quant à la validité de l'évaluation basée sur les modèles et mettent en lumière la nécessité de prendre en compte les conflits de connaissances dans le déploiement des LLM.
Sabri Eyuboglu, Ryan Ehrlich, Simran Arora, Neel Guha, Dylan Zinsley, Emily Liu, Will Tennien, Atri Rudra, James Zou, Azalia Mirhoseini, Christopher Re
52
Les grands modèles de langage sont souvent utilisés pour répondre à des requêtes basées sur de vastes corpus de texte (par exemple, des bases de code, des documents juridiques ou des historiques de chat) en plaçant l'intégralité du corpus dans la fenêtre de contexte et en exploitant l'apprentissage en contexte (ICL). Bien que les modèles actuels prennent en charge des contextes de 100 000 à 1 million de tokens, cette configuration est coûteuse à déployer car la consommation mémoire du cache KV augmente avec la longueur de l'entrée. Nous explorons une alternative : entraîner un cache KV plus petit hors ligne pour chaque corpus. Au moment de l'inférence, nous chargeons ce cache KV entraîné, que nous appelons une Cartouche, et décodons une réponse. De manière cruciale, le coût de l'entraînement d'une Cartouche peut être amorti sur toutes les requêtes faisant référence au même corpus. Cependant, nous constatons que l'approche naïve consistant à entraîner la Cartouche avec une prédiction de token suivant sur le corpus n'est pas compétitive par rapport à l'ICL. À la place, nous proposons l'auto-apprentissage, une méthode d'entraînement dans laquelle nous générons des conversations synthétiques sur le corpus et entraînons la Cartouche avec un objectif de distillation de contexte. Nous constatons que les Cartouches entraînées avec l'auto-apprentissage reproduisent la fonctionnalité de l'ICL, tout en étant nettement moins coûteuses à déployer. Sur des benchmarks exigeants en contexte long, les Cartouches entraînées avec l'auto-apprentissage égalent les performances de l'ICL tout en utilisant 38,6 fois moins de mémoire et en permettant un débit 26,4 fois plus élevé. L'auto-apprentissage étend également la longueur de contexte effective du modèle (par exemple, de 128 000 à 484 000 tokens sur MTOB) et, de manière surprenante, conduit à des Cartouches qui peuvent être composées au moment de l'inférence sans nécessiter de réentraînement.
Nikolas Belle, Dakota Barnes, Alfonso Amayuelas, Ivan Bercovich, Xin Eric Wang, William Wang
52
Les récents progrès des LLM (modèles de langage à grande échelle) ont permis leur utilisation en tant qu'agents autonomes pour une variété de tâches, mais ils continuent de rencontrer des difficultés à formuler et à adhérer à des stratégies cohérentes sur le long terme. Dans cet article, nous étudions si les agents basés sur des LLM peuvent s'auto-améliorer lorsqu'ils sont placés dans des environnements qui mettent explicitement à l'épreuve leurs capacités de planification stratégique. En utilisant le jeu de société Les Colons de Catane, accessible via le framework open-source Catanatron, nous évaluons une progression d'agents basés sur des LLM, allant d'un simple agent joueur à des systèmes capables de réécrire de manière autonome leurs propres prompts et le code de leur agent joueur. Nous introduisons une architecture multi-agents dans laquelle des rôles spécialisés (Analyseur, Chercheur, Codeur et Joueur) collaborent pour analyser de manière itérative les parties, rechercher de nouvelles stratégies et modifier la logique ou le prompt de l'agent. En comparant des agents conçus manuellement à ceux évoluant entièrement grâce aux LLM, nous évaluons dans quelle mesure ces systèmes peuvent diagnostiquer les échecs et s'adapter au fil du temps. Nos résultats montrent que les agents auto-évolutifs, en particulier lorsqu'ils sont alimentés par des modèles comme Claude 3.7 et GPT-4o, surpassent les bases de référence statiques en adoptant de manière autonome leurs stratégies, en transmettant des exemples de comportement aux agents joueurs et en démontrant un raisonnement adaptatif sur plusieurs itérations.
Dans ce travail, nous abordons la synthèse dynamique de vues à partir de vidéos monoculaires en tant que problème inverse dans un cadre sans apprentissage. En repensant la phase d'initialisation du bruit d'un modèle de diffusion vidéo pré-entraîné, nous permettons une synthèse dynamique de vues de haute fidélité sans aucune mise à jour des poids ni modules auxiliaires. Nous commençons par identifier un obstacle fondamental à l'inversion déterministe découlant des plannings de rapport signal-sur-bruit (SNR) à terminal zéro et le résolvons en introduisant une nouvelle représentation du bruit, appelée Représentation Récursive du Bruit d'Ordre K. Nous dérivons une expression en forme fermée pour cette représentation, permettant un alignement précis et efficace entre les latents encodés par VAE et ceux inversés par DDIM. Pour synthétiser les régions nouvellement visibles résultant du mouvement de la caméra, nous introduisons la Modulation Latente Stochastique, qui effectue un échantillonnage conscient de la visibilité dans l'espace latent pour compléter les régions occluses. Des expériences approfondies démontrent que la synthèse dynamique de vues peut être effectuée efficacement grâce à une manipulation structurée des latents lors de la phase d'initialisation du bruit.
Victor Barres, Honghua Dong, Soham Ray, Xujie Si, Karthik Narasimhan
42
Les benchmarks existants pour les agents conversationnels d'IA simulent des environnements à contrôle unique, où seul l'agent IA peut utiliser des outils pour interagir avec le monde, tandis que l'utilisateur reste un fournisseur d'informations passif. Cela diffère des scénarios réels comme le support technique, où les utilisateurs doivent participer activement à la modification de l'état du monde (partagé). Pour combler cette lacune, nous introduisons tau^2-bench, avec quatre contributions clés :
1) Un nouveau domaine de double contrôle dans le secteur des télécommunications modélisé comme un Dec-POMDP, où à la fois l'agent et l'utilisateur utilisent des outils pour agir dans un environnement dynamique partagé qui teste à la fois la coordination et la communication de l'agent,
2) Un générateur de tâches compositionnel qui crée programmatiquement des tâches diverses et vérifiables à partir de composants atomiques, garantissant une couverture du domaine et une complexité contrôlée,
3) Un simulateur d'utilisateur fiable étroitement couplé à l'environnement, dont le comportement est contraint par les outils et les états observables, améliorant la fidélité de la simulation,
4) Une analyse fine des performances de l'agent à travers plusieurs ablations, y compris la séparation des erreurs provenant du raisonnement par rapport à la communication/coordination.
En particulier, nos expériences montrent des baisses significatives de performance lorsque les agents passent d'un environnement sans utilisateur à un double contrôle, mettant en évidence les défis de guider les utilisateurs. Globalement, tau^2-bench fournit un banc d'essai contrôlé pour les agents qui doivent à la fois raisonner efficacement et guider les actions des utilisateurs.
Les modèles de langage multimodaux de grande taille (MLLMs) actuels peuvent rencontrer des difficultés à comprendre des vidéos longues ou complexes en raison des exigences computationnelles au moment du test, d'un manque de robustesse et d'une précision limitée, principalement attribuables à leur nature de traitement en flux direct. Ces limitations pourraient être plus sévères pour les modèles avec moins de paramètres. Pour remédier à ces limitations, nous proposons un nouveau cadre inspiré des principes cybernétiques, redéfinissant les MLLMs vidéo comme des systèmes adaptatifs capables de s'auto-surveiller, de s'auto-corriger et d'allouer dynamiquement des ressources pendant l'inférence. Notre approche, CyberV, introduit une boucle cybernétique composée d'un système d'inférence MLLM, d'un capteur et d'un contrôleur. Plus précisément, le capteur surveille les processus directs du MLLM et collecte des interprétations intermédiaires, telles que la dérive de l'attention, puis le contrôleur détermine quand et comment déclencher l'auto-correction et générer un retour pour guider le prochain cycle. Ce cadre d'adaptation au moment du test améliore les MLLMs figés sans nécessiter de réentraînement ou de composants supplémentaires. Les expériences démontrent des améliorations significatives : CyberV améliore Qwen2.5-VL-7B de 8,3 % et InternVL3-8B de 5,5 % sur VideoMMMU, surpassant le modèle propriétaire concurrent GPT-4o. Lorsqu'il est appliqué à Qwen2.5-VL-72B, il permet une amélioration de 10,0 %, atteignant des performances comparables à celles d'experts humains. De plus, notre méthode montre des gains constants sur des benchmarks à usage général, tels que VideoMME et WorldSense, mettant en évidence son efficacité et ses capacités de généralisation pour rendre les MLLMs plus robustes et précis pour la compréhension dynamique des vidéos. Le code est disponible à l'adresse https://github.com/marinero4972/CyberV.
Teng Hu, Zhentao Yu, Zhengguang Zhou, Jiangning Zhang, Yuan Zhou, Qinglin Lu, Ran Yi
32
Malgré les récents progrès dans la génération de vidéos, les modèles existants manquent encore de contrôlabilité fine, en particulier pour la personnalisation multi-sujets avec une identité et une interaction cohérentes. Dans cet article, nous proposons PolyVivid, un cadre de personnalisation vidéo multi-sujets qui permet une génération flexible et cohérente en termes d'identité. Pour établir des correspondances précises entre les images des sujets et les entités textuelles, nous concevons un module de fusion texte-image basé sur VLLM qui intègre les identités visuelles dans l'espace textuel pour un ancrage précis. Pour renforcer davantage la préservation de l'identité et l'interaction des sujets, nous proposons un module d'amélioration basé sur 3D-RoPE qui permet une fusion bidirectionnelle structurée entre les embeddings textuels et visuels. De plus, nous développons un module d'injection d'identité par héritage d'attention pour injecter efficacement les caractéristiques d'identité fusionnées dans le processus de génération vidéo, atténuant ainsi la dérive d'identité. Enfin, nous construisons un pipeline de données basé sur MLLM qui combine l'ancrage, la segmentation et une stratégie de consolidation des sujets basée sur les cliques pour produire des données multi-sujets de haute qualité, améliorant ainsi la distinction des sujets et réduisant l'ambiguïté dans la génération vidéo en aval. Des expériences approfondies démontrent que PolyVivid atteint des performances supérieures en termes de fidélité d'identité, de réalisme vidéo et d'alignement des sujets, surpassant les bases de référence open-source et commerciales existantes.
Michael K. Chen, Xikun Zhang, Jiaxing Huang, Dacheng Tao
32
Les grands modèles de langage (LLM) sont devenus la pierre angulaire de l'IA moderne. Cependant, le paradigme actuel de prédiction de token suivant limite fondamentalement leur capacité à former des concepts cohérents et de haut niveau, constituant ainsi un obstacle critique à une compréhension et un raisonnement proches de l'humain. Prenons l'exemple de l'expression "acide ribonucléique" : un LLM la décomposera d'abord en tokens, c'est-à-dire en fragments de texte artificiels ("rib", "on", ...), puis apprendra chaque token séquentiellement, plutôt que de saisir l'expression comme une entité sémantique unifiée et cohérente. Cette représentation fragmentée entrave une compréhension conceptuelle plus profonde et, en fin de compte, le développement de systèmes véritablement intelligents. En réponse, nous introduisons le Concept-Aware Fine-Tuning (CAFT), une nouvelle méthode d'entraînement multi-token qui redéfinit la manière dont les LLM sont affinés. En permettant l'apprentissage de séquences couvrant plusieurs tokens, cette méthode favorise un apprentissage plus conscient des concepts. Nos expériences démontrent des améliorations significatives par rapport aux méthodes conventionnelles d'affinage par prédiction de token suivant, sur diverses tâches, incluant des applications traditionnelles comme le résumé de texte et des applications spécifiques à un domaine comme la conception de novo de protéines. La prédiction multi-token n'était auparavant possible que lors de la phase de pré-entraînement, extrêmement coûteuse ; CAFT, à notre connaissance, est la première méthode à introduire le cadre multi-token dans la phase post-entraînement, démocratisant ainsi efficacement ses avantages pour la communauté plus large des praticiens et chercheurs. Enfin, l'efficacité inattendue de notre méthode suggère des implications plus larges pour la communauté de recherche en apprentissage automatique. Tous les codes et données sont disponibles à l'adresse https://github.com/michaelchen-lab/caft-llm.
Les récents progrès dans le raisonnement des modèles de langage de grande taille (LLM) ont montré que des comportements sophistiqués tels que la planification et l’auto-réflexion peuvent émerger grâce à l’apprentissage par renforcement (RL). Cependant, malgré ces succès, le RL dans sa forme actuelle reste insuffisant pour induire des capacités dépassant les limites du modèle de base, car il est principalement optimisé sur la base des connaissances existantes du modèle plutôt que de faciliter l’acquisition de nouvelles informations. Pour remédier à cette limitation, nous utilisons le fine-tuning supervisé (SFT) pour apprendre ce que le RL ne peut pas, ce qui permet d’intégrer de nouvelles connaissances et schémas de raisonnement en exploitant des données de démonstration de haute qualité. Nous analysons la dynamique d’entraînement du RL et du SFT pour le raisonnement des LLM et constatons que le RL excelle à maintenir et améliorer les performances sur des questions relevant des capacités initiales du modèle, tandis que le SFT est plus efficace pour permettre des progrès sur des questions dépassant le champ actuel du modèle. Motivés par les forces complémentaires du RL et du SFT, nous introduisons une nouvelle approche d’entraînement, ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). Dans ReLIFT, le modèle est principalement entraîné à l’aide du RL, mais lorsqu’il rencontre des questions difficiles, des solutions de haute qualité sont collectées pour le fine-tuning, et le processus d’entraînement alterne entre RL et fine-tuning pour améliorer les capacités de raisonnement du modèle. ReLIFT obtient une amélioration moyenne de plus de +5,2 points sur cinq benchmarks de niveau compétition et un benchmark hors distribution par rapport à d’autres modèles sans RL. De plus, nous démontrons que ReLIFT surpasse à la fois le RL et le SFT tout en utilisant seulement 13 % des données de démonstration détaillées, mettant en évidence sa scalabilité. Ces résultats fournissent des preuves convaincantes que ReLIFT surmonte les limitations fondamentales du RL et soulignent son potentiel significatif.
Récemment, des techniques telles que le raisonnement structuré explicite ont démontré un fort comportement de mise à l'échelle lors des tests en imposant une séparation entre le processus de "réflexion" interne du modèle et la réponse finale. Un facteur clé influençant la qualité des réponses dans ce contexte est la durée de l'étape de réflexion. Lorsque le raisonnement est trop court, le modèle peut échouer à saisir la complexité de la tâche. Inversement, lorsqu'il est trop long, le modèle peut surréfléchir, entraînant des calculs inutiles et une dégradation des performances. Cet article explore et exploite les mécanismes sous-jacents par lesquels les modèles de langage (LLMs) comprennent et régulent la durée de leur raisonnement lors de processus de pensée explicites. Premièrement, nous montrons que les LLMs encodent leur progression dans le processus de raisonnement et introduisons une visualisation interactive sous forme de barre de progression, utilisée ensuite pour révéler des insights sur la dynamique de planification du modèle. Deuxièmement, nous manipulons l'encodage interne de la progression lors de l'inférence pour réduire les étapes inutiles et générer une chaîne de pensées plus concise et décisive. Nos résultats empiriques démontrent que cette méthode de "surcadencement" atténue la surréflexion, améliore la précision des réponses et réduit la latence d'inférence. Notre code est disponible publiquement.
Les récents progrès dans les modèles de langage à grande échelle (LLMs) ont démontré des capacités remarquables dans divers domaines, en particulier dans le raisonnement mathématique, où la résolution de problèmes de géométrie reste un domaine difficile dans lequel la construction auxiliaire joue un rôle essentiel. Les approches existantes obtiennent soit des performances sous-optimales, soit reposent sur des LLMs massifs (par exemple, GPT-4o), entraînant des coûts de calcul considérables. Nous postulons que l'apprentissage par renforcement avec récompense vérifiable (par exemple, GRPO) offre une direction prometteuse pour entraîner des modèles plus petits qui combinent efficacement la construction auxiliaire avec un raisonnement géométrique robuste. Cependant, l'application directe de GRPO au raisonnement géométrique présente des limitations fondamentales en raison de sa dépendance à des récompenses inconditionnelles, ce qui conduit à des constructions auxiliaires indiscriminées et contre-productives. Pour relever ces défis, nous proposons l'Optimisation de Politique par Contraste de Groupe (GCPO), un nouveau cadre d'apprentissage par renforcement comportant deux innovations clés : (1) le Masquage par Contraste de Groupe, qui fournit de manière adaptative des signaux de récompense positifs ou négatifs pour la construction auxiliaire en fonction de l'utilité contextuelle, et (2) une récompense de longueur qui favorise des chaînes de raisonnement plus longues. En nous appuyant sur GCPO, nous développons GeometryZero, une famille de modèles de raisonnement géométrique de taille abordable qui déterminent de manière judicieuse quand employer la construction auxiliaire. Notre évaluation empirique approfondie sur des benchmarks géométriques populaires (Geometry3K, MathVista) démontre que les modèles GeometryZero surpassent systématiquement les baselines (par exemple, GRPO), avec une amélioration moyenne de 4,29 % sur tous les benchmarks.
Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun
32
Les modèles génératifs vidéo entraînés sur des démonstrations d'experts ont été utilisés comme planificateurs visuels performants conditionnés par le texte pour résoudre des tâches robotiques. Cependant, la généralisation à des tâches non vues reste un défi. Alors qu'une meilleure généralisation pourrait être facilitée en exploitant des connaissances préalables apprises à partir de sources de données hors ligne supplémentaires pré-collectées, telles que des ensembles de données vidéo à l'échelle du web, à l'ère de l'expérience, nous visons à concevoir des agents capables de s'améliorer continuellement de manière en ligne à partir de comportements auto-collectés. Dans ce travail, nous proposons donc la Boucle d'Amélioration Auto-Adaptative (SAIL), où un modèle vidéo dans le domaine se met à jour itérativement sur des trajectoires auto-produites, collectées grâce à l'adaptation avec un modèle vidéo pré-entraîné à l'échelle d'Internet, et améliore progressivement ses performances pour une tâche spécifique d'intérêt. Nous appliquons SAIL à une suite diversifiée de tâches MetaWorld, ainsi qu'à deux tâches de manipulation sur un bras robotique réel, et constatons que des améliorations de performances émergent continuellement sur plusieurs itérations pour des tâches nouvelles initialement non vues lors de l'entraînement original du modèle vidéo dans le domaine. De plus, nous découvrons que SAIL est étonnamment robuste concernant si et comment l'expérience auto-collectée est filtrée, ainsi que la qualité des démonstrations initiales dans le domaine. Grâce à l'adaptation avec des données résumées à l'échelle d'Internet, et à l'apprentissage par expérience en ligne, nous démontrons ainsi une manière de bootstraper itérativement un modèle vidéo haute performance pour résoudre des tâches robotiques nouvelles par auto-amélioration.
Yajie Zhou, Jiajun Ruan, Eric S. Wang, Sadjad Fouladi, Francis Y. Yan, Kevin Hsieh, Zaoxing Liu
33
Malgré l'intérêt croissant pour l'évaluation spécifique à un domaine des grands modèles de langage (LLM) et des agents, les évaluations actuelles se limitent à des ensembles de données statiques et à petite échelle, en particulier dans des tâches critiques comme les opérations réseau qui exigent une fiabilité pour les déploiements. Nous présentons NetPress, un cadre de génération automatisée de benchmarks pour évaluer les agents LLM dans les applications réseau. NetPress introduit une abstraction unifiée avec état et action, permettant la génération dynamique de divers ensembles de requêtes ainsi que des vérités terrain correspondantes. À l'exécution, les utilisateurs peuvent spécifier des configurations de benchmark pour générer des millions de requêtes à la volée. En plus de la construction dynamique de benchmarks, NetPress s'intègre à des émulateurs réseau pour fournir un retour d'environnement réaliste, soutenant une évaluation complète en termes de justesse, de sécurité et de latence. Nous instancions NetPress sur trois applications représentatives, révélant des différences fines et intéressantes dans le comportement des agents que les benchmarks statiques axés uniquement sur la justesse manquent souvent. NetPress fait progresser l'évaluation des LLM vers des tests réalistes et évolutifs dans des domaines centrés sur l'infrastructure, contribuant à combler l'écart entre les performances des benchmarks et la préparation au déploiement dans le monde réel. Le code est disponible à l'adresse https://github.com/Froot-NetSys/NetPress.
Nous présentons une méthode sans entraînement pour transplanter des tokenizers dans des grands modèles de langage (LLMs) préentraînés en reconstruisant les embeddings de tokens inconnus via la Poursuite Orthogonale par Correspondance (Orthogonal Matching Pursuit, OMP). Plus précisément, nous approximons chaque token hors vocabulaire comme une combinaison linéaire parcimonieuse de tokens partagés, en deux phases : d'abord, nous calculons la représentation de chaque nouveau token dans l'espace d'embedding du modèle donneur à l'aide d'un petit dictionnaire de tokens ancres partagés, puis nous transférons ces mêmes coefficients parcimonieux dans l'espace d'embedding du modèle de base.
Sur deux tâches inter-tokenizers complexes—LlamatoMistral NeMo (12B) et QwentoLlama (1B)—nous montrons que l'OMP obtient la meilleure préservation zéro-shot des performances du modèle de base sur plusieurs benchmarks, tandis que d'autres approches zéro-shot se dégradent significativement. Par rapport aux méthodes de référence (initialisation zéro, initialisation par la moyenne, et approches existantes comme WECHSEL, FOCUS, ZETT), l'OMP atteint systématiquement les meilleures performances globales, comblant efficacement les écarts importants entre tokenizers sans mise à jour des gradients. Notre analyse identifie en outre les schémas de tokenisation numérique incompatibles comme un défi critique pour préserver les capacités de raisonnement mathématique.
Cette technique permet la réutilisation directe des poids de modèles préentraînés avec de nouveaux tokenizers, facilitant la distillation de connaissances inter-tokenizers, le décodage spéculatif, l'assemblage, la fusion et les adaptations de vocabulaire spécifiques à un domaine. Nous intégrons notre méthode dans l'outil open-source mergekit-tokensurgeon pour un réalignement post hoc du vocabulaire.
Yichi Zhang, Xin Luna Dong, Zhaojiang Lin, Andrea Madotto, Anuj Kumar, Babak Damavandi, Joyce Chai, Seungwhan Moon
22
Les avancées récentes dans le domaine de l'IA conversationnelle ont été significatives, mais le développement de systèmes en temps réel pour le guidage de tâches perceptuelles reste un défi. Ces systèmes doivent fournir une assistance interactive et proactive basée sur des flux d'entrées visuelles, mais leur développement est limité par le processus coûteux et laborieux de collecte de données et d'évaluation du système. Pour surmonter ces limitations, nous présentons un cadre complet avec trois contributions clés. Premièrement, nous introduisons un pipeline novateur de curation de données qui synthétise des dialogues à partir de vidéos égocentriques annotées, aboutissant à \dataset, un ensemble de données de dialogues synthétiques à grande échelle couvrant plusieurs domaines. Deuxièmement, nous développons une série de métriques d'évaluation automatiques, validées par des études humaines approfondies. Troisièmement, nous proposons un modèle de bout en bout qui traite les flux vidéo en temps réel pour générer des réponses contextuellement appropriées, intégrant des techniques innovantes pour gérer les déséquilibres de données et les vidéos de longue durée. Ce travail pose les bases pour le développement d'assistants IA en temps réel et proactifs, capables de guider les utilisateurs à travers diverses tâches. Page du projet : https://pro-assist.github.io/
Fondamentaux pour la langue et la culture chinoises, les caractères chinois englobent des catégories extraordinairement vastes et en constante expansion, avec la dernière norme chinoise GB18030-2022 comprenant 87 887 catégories. La reconnaissance précise de ce nombre considérable de caractères, appelée reconnaissance méga-catégorielle, représente un défi redoutable mais crucial pour la préservation du patrimoine culturel et les applications numériques. Malgré des avancées significatives dans la reconnaissance optique de caractères (OCR), la reconnaissance méga-catégorielle reste inexplorée en raison de l'absence de jeux de données complets, le plus grand jeu de données existant ne contenant que 16 151 catégories. Pour combler cette lacune critique, nous présentons MegaHan97K, un jeu de données méga-catégoriel et à grande échelle couvrant un nombre sans précédent de 97 455 catégories de caractères chinois. Notre travail apporte trois contributions majeures : (1) MegaHan97K est le premier jeu de données à pleinement supporter la dernière norme GB18030-2022, offrant au moins six fois plus de catégories que les jeux de données existants ; (2) Il résout efficacement le problème de distribution à longue traîne en fournissant des échantillons équilibrés pour toutes les catégories grâce à ses trois sous-ensembles distincts : manuscrit, historique et synthétique ; (3) Des expériences de référencement exhaustives révèlent de nouveaux défis dans les scénarios méga-catégoriels, notamment des besoins accrus en stockage, la reconnaissance de caractères morphologiquement similaires et les difficultés d'apprentissage zero-shot, tout en ouvrant des opportunités substantielles pour les recherches futures. À notre connaissance, MegaHan97K est probablement le jeu de données avec le plus grand nombre de classes, non seulement dans le domaine de l'OCR, mais peut-être aussi dans le domaine plus large de la reconnaissance de formes. Le jeu de données est disponible à l'adresse suivante : https://github.com/SCUT-DLVCLab/MegaHan97K.
Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang
22
L'alignement des modèles de langage de grande taille (LLMs) est crucial pour garantir leur sécurité et leur fiabilité dans les applications pratiques. L'optimisation directe des préférences (Direct Preference Optimization, DPO) s'est imposée comme une méthode efficace qui optimise directement les modèles à l'aide de paires de préférences, réduisant ainsi considérablement les besoins en ressources. Cependant, l'efficacité de la DPO dépend fortement de la qualité des données, qui est souvent compromise par le bruit. Dans ce travail, nous proposons gamma-PO, un algorithme d'optimisation des préférences à marge cible dynamique qui ajuste les marges de récompense au niveau des paires. En introduisant une calibration de marge spécifique à chaque instance, gamma-PO priorise stratégiquement les paires à haute confiance (celles présentant des marges de récompense plus élevées) tout en supprimant le bruit potentiel des paires ambiguës. De plus, gamma-PO est une méthode plug-and-play, compatible avec les variantes de DPO qui reposent sur la marge de récompense entre les paires de préférences. Sur des benchmarks tels qu'AlpacaEval2 et Arena-Hard, gamma-PO obtient une amélioration moyenne de 4,4 % par rapport aux autres méthodes de référence, établissant ainsi de nouveaux standards pour les performances de pointe. Par ailleurs, gamma-PO nécessite des modifications de code minimales et a un impact négligeable sur l'efficacité de l'entraînement, ce qui en fait une solution robuste pour améliorer l'alignement des LLMs. Nos codes sont disponibles à l'adresse suivante : https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
Qianqi Yan, Hongquan Li, Shan Jiang, Yang Zhao, Xinze Guan, Ching-Chen Kuo, Xin Eric Wang
21
Les modèles de langage multimodal à grande échelle (MLLMs) sont de plus en plus déployés dans des environnements ouverts et réels, où les entrées sont désordonnées, sous-spécifiées et pas toujours fiables. Contrairement aux benchmarks soigneusement élaborés, ces contextes impliquent fréquemment des instructions qui font référence à des objets manquants ou à des faits contradictoires, reposent sur des références ambiguës ou demandent des actions irréalisables. Dans de tels cas, le succès ne dépend pas uniquement de l'exécution de la tâche, mais de la capacité du modèle à détecter quand quelque chose ne va pas silencieusement. Cet article présente une analyse systématique de la manière dont les MLLMs actuels gèrent ces scénarios de raisonnement implicite : des cas où le défaut n'est pas explicitement énoncé mais doit être déduit du contexte. En utilisant une suite diagnostique soigneusement élaborée couvrant quatre catégories de modes de défaillance du monde réel, nous évaluons six MLLMs, dont o3 et GPT-4o, et constatons que les modèles échouent fréquemment à révéler les problèmes cachés, même lorsqu'ils possèdent les compétences perceptuelles et de raisonnement nécessaires. Un incitatif explicite révèle que les capacités sous-jacentes existent mais sont souvent supprimées au profit de la conformité à l'utilisateur. Nous montrons en outre que des interventions simples au moment de l'inférence, comme l'incitation à une personnalité prudente et, en particulier, l'exigence d'une question de clarification, peuvent considérablement améliorer les performances. Nos résultats mettent en évidence un écart persistant entre la compétence de raisonnement et la conformité comportementale dans les MLLMs actuels et suggèrent des stratégies pratiques pour rendre ces modèles plus fiables dans des environnements sous-contraints.
Xiaorui Wu, Xiaofeng Mao, Xin Zhang, Fei Li, Chong Teng, Yuxiang Peng, Li Zheng, Donghong Ji, Zhuang Li
22
Les grands modèles de langage (LLMs) refusent fréquemment de répondre à des instructions pseudo-malveillantes : des requêtes d'entrée sémantiquement inoffensives qui provoquent des refus inutiles des LLMs en raison d'un alignement de sécurité trop conservateur, ce qui nuit considérablement à l'expérience utilisateur. La collecte de telles instructions est cruciale pour évaluer et atténuer les refus excessifs, mais les méthodes existantes de curation d'instructions, comme la création manuelle ou la réécriture d'instructions, manquent soit de scalabilité, soit ne parviennent pas à produire des prompts suffisamment diversifiés et efficaces pour induire des refus. Pour remédier à ces limitations, nous introduisons EVOREFUSE, une approche d'optimisation de prompts qui génère des instructions pseudo-malveillantes diversifiées suscitant systématiquement des refus confiants à travers les LLMs. EVOREFUSE utilise un algorithme évolutionnaire explorant l'espace des instructions dans des directions plus variées que les méthodes existantes via des stratégies de mutation et de recombinaison, et fait évoluer itérativement des instructions de départ pour maximiser la borne inférieure de l'évidence sur la probabilité de refus des LLMs. En utilisant EVOREFUSE, nous créons deux nouveaux jeux de données : EVOREFUSE-TEST, un benchmark de 582 instructions pseudo-malveillantes qui surpasse le meilleur benchmark existant avec un taux de déclenchement de refus moyen supérieur de 140,41 % sur 9 LLMs, une diversité lexicale accrue de 34,86 % et des scores de confiance des réponses des LLMs améliorés de 40,03 % ; et EVOREFUSE-ALIGN, qui fournit 3 000 instructions pseudo-malveillantes avec des réponses pour l'entraînement supervisé et basé sur les préférences en matière d'alignement. LLAMA3.1-8B-INSTRUCT, finement ajusté de manière supervisée sur EVOREFUSE-ALIGN, réalise jusqu'à 14,31 % de refus excessifs en moins que les modèles entraînés sur le deuxième meilleur jeu de données d'alignement, sans compromettre la sécurité. Notre analyse avec EVOREFUSE-TEST révèle que les modèles déclenchent des refus excessifs en se concentrant trop sur des mots-clés sensibles tout en ignorant le contexte global.
Maciej Chrabąszcz, Katarzyna Lorenc, Karolina Seweryn
12
Les grands modèles de langage (LLMs) ont démontré des capacités impressionnantes dans diverses tâches de traitement du langage naturel (NLP) ces dernières années. Cependant, leur vulnérabilité aux contournements (jailbreaks) et aux perturbations nécessite des évaluations supplémentaires. Bien que de nombreux LLMs soient multilingues, les données d'entraînement liées à la sécurité proviennent principalement de langues à ressources élevées comme l'anglais. Cela peut les rendre vulnérables aux perturbations dans des langues à ressources limitées, telles que le polonais. Nous montrons comment des attaques étonnamment puissantes peuvent être créées à moindre coût en modifiant seulement quelques caractères et en utilisant un petit modèle proxy pour calculer l'importance des mots. Nous constatons que ces attaques au niveau des caractères et des mots modifient radicalement les prédictions de différents LLMs, suggérant une vulnérabilité potentielle pouvant être exploitée pour contourner leurs mécanismes de sécurité internes. Nous validons notre méthodologie de construction d'attaques sur le polonais, une langue à ressources limitées, et identifions des vulnérabilités potentielles des LLMs dans cette langue. De plus, nous montrons comment cette approche peut être étendue à d'autres langues. Nous mettons à disposition les jeux de données et le code créés pour des recherches ultérieures.
Les grands modèles multimodaux (LMM) s'appuient souvent sur l'apprentissage en contexte (ICL) pour accomplir de nouvelles tâches avec un minimum de supervision. Cependant, les performances de l'ICL, en particulier pour les LMM plus petits, sont incohérentes et ne s'améliorent pas toujours de manière monotone avec l'augmentation des exemples. Nous émettons l'hypothèse que cela est dû au fait que le LMM est submergé par les informations supplémentaires présentes dans les embeddings d'images, qui ne sont pas nécessaires pour la tâche en aval. Pour remédier à cela, nous proposons une approche de méta-apprentissage qui offre une alternative pour induire des capacités few-shot dans les LMM, en utilisant un ensemble fixe de prompts souples distillés à partir des caractéristiques d'images pertinentes pour la tâche et pouvant être adaptés au moment du test avec quelques exemples. Pour faciliter cette distillation, nous introduisons un module de mappage d'attention qui peut être facilement intégré à l'architecture populaire LLaVA v1.5 et est appris conjointement avec les prompts souples, permettant l'adaptation des tâches dans les LMM dans des régimes de faible quantité de données avec seulement quelques étapes de gradient. L'évaluation sur le benchmark VL-ICL montre que notre méthode surpasse systématiquement l'ICL et les approches connexes de réglage de prompts, même sous perturbations d'images, améliorant l'induction de tâches et le raisonnement dans les tâches de question-réponse visuelle.