Articles de recherche en IA sélectionnés quotidiennement avec traductions
Nous présentons CASS, le premier ensemble de données à grande échelle et suite de modèles dédiés à la transpilation de code GPU inter-architecture, ciblant à la fois la traduction au niveau source (CUDA ↔ HIP) et au niveau assembleur (Nvidia SASS ↔ AMD RDNA3). Le jeu de données comprend 70 000 paires de code vérifiées, couvrant à la fois le code hôte et le code périphérique, comblant ainsi une lacune critique en matière de portabilité du code GPU de bas niveau. En exploitant cette ressource, nous entraînons la famille de modèles de langage spécifiques au domaine CASS, atteignant une précision de 95 % pour la traduction source et de 37,5 % pour la traduction assembleur, surpassant largement les solutions commerciales telles que GPT-4o, Claude et Hipify. Notre code généré correspond aux performances natives dans plus de 85 % des cas de test, préservant le comportement en temps d'exécution et en mémoire. Pour soutenir une évaluation rigoureuse, nous introduisons CASS-Bench, un benchmark soigneusement sélectionné couvrant 16 domaines GPU avec une exécution de référence. Toutes les données, modèles et outils d'évaluation sont publiés en open source pour favoriser les avancées dans les outils de compilation GPU, la compatibilité binaire et la traduction matérielle guidée par LLM. Le jeu de données et le benchmark sont disponibles sur https://huggingface.co/datasets/MBZUAI/cass{blue{HuggingFace}}, avec le code sur https://github.com/GustavoStahl/CASS{blue{GitHub}}.
Nous présentons Mutarjim, un modèle de langage compact mais puissant pour la traduction bidirectionnelle arabe-anglais. Bien que les grands modèles de langage (LLM) aient montré des progrès impressionnants dans les tâches de traitement du langage naturel, y compris la traduction automatique, les modèles plus petits peuvent également exceller. En tirant parti de cette idée, nous avons développé Mutarjim à partir de Kuwain-1.5B, un modèle de langage conçu spécifiquement pour l'arabe et l'anglais. Malgré sa taille modeste, Mutarjim surpasse des modèles beaucoup plus grands sur plusieurs benchmarks établis, grâce à une approche d'entraînement en deux phases optimisée et à un corpus d'entraînement de haute qualité soigneusement sélectionné. Les résultats expérimentaux montrent que Mutarjim rivalise avec des modèles jusqu'à 20 fois plus grands tout en réduisant considérablement les coûts de calcul et les besoins en entraînement. Nous introduisons également Tarjama-25, un nouveau benchmark conçu pour surmonter les limitations des jeux de données existants pour l'évaluation de la traduction arabe-anglais, telles que l'étroitesse des domaines, la longueur réduite des phrases et le biais en faveur de l'anglais comme langue source. Tarjama-25 comprend 5 000 paires de phrases expertisées et couvre un large éventail de domaines, offrant ainsi un cadre d'évaluation plus complet et équilibré. Notamment, Mutarjim atteint des performances de pointe sur la tâche de traduction anglais-arabe dans Tarjama-25, surpassant même des modèles nettement plus grands et propriétaires comme GPT-4o mini. Nous rendons Tarjama-25 public pour soutenir les recherches futures et faire progresser l'évaluation des systèmes de traduction arabe-anglais.
L'avancée rapide des grands modèles de langage (LLMs) et des modèles de langage multi-modaux (MLLMs) a historiquement reposé sur une mise à l'échelle centrée sur le modèle, en augmentant le nombre de paramètres de millions à des centaines de milliards pour améliorer les performances. Cependant, à mesure que nous approchons des limites matérielles concernant la taille des modèles, le goulot d'étranglement computationnel dominant a fondamentalement basculé vers le coût quadratique de l'auto-attention sur de longues séquences de tokens, désormais motivé par des contextes textuels ultra-longs, des images haute résolution et des vidéos prolongées. Dans ce document de position, nous soutenons que l'attention de la recherche pour une IA efficace se déplace d'une compression centrée sur le modèle vers une compression centrée sur les données. Nous positionnons la compression de tokens comme la nouvelle frontière, qui améliore l'efficacité de l'IA en réduisant le nombre de tokens pendant l'entraînement ou l'inférence du modèle. À travers une analyse approfondie, nous examinons d'abord les récents développements dans l'IA à contexte long à travers divers domaines et établissons un cadre mathématique unifié pour les stratégies existantes d'efficacité des modèles, démontrant pourquoi la compression de tokens représente un changement de paradigme crucial pour aborder les surcoûts liés aux contextes longs. Ensuite, nous passons en revue systématiquement le paysage de la recherche sur la compression de tokens, en analysant ses avantages fondamentaux et en identifiant ses atouts convaincants dans divers scénarios. De plus, nous fournissons une analyse approfondie des défis actuels dans la recherche sur la compression de tokens et esquissons des directions futures prometteuses. En fin de compte, notre travail vise à offrir une perspective nouvelle sur l'efficacité de l'IA, à synthétiser les recherches existantes et à catalyser des développements innovants pour relever les défis que posent les longueurs de contexte croissantes à l'avancement de la communauté de l'IA.
Le pré-entraînement confère aux modèles de génération d'images à partir de texte (T2I) une connaissance générale du monde, mais cela seul est souvent insuffisant pour atteindre une qualité esthétique élevée et un bon alignement. Par conséquent, le fine-tuning supervisé (SFT) est crucial pour un raffinement ultérieur. Cependant, son efficacité dépend fortement de la qualité du jeu de données utilisé pour le fine-tuning. Les jeux de données SFT publics existants ciblent fréquemment des domaines restreints (par exemple, l'anime ou des styles artistiques spécifiques), et la création de jeux de données SFT polyvalents et de haute qualité reste un défi majeur. Les méthodes actuelles de curation sont souvent coûteuses et peinent à identifier des échantillons véritablement impactants. Ce défi est encore compliqué par la rareté des jeux de données polyvalents publics, car les modèles leaders reposent souvent sur des données internes volumineuses, propriétaires et mal documentées, ce qui entrave les progrès de la recherche. Cet article présente une nouvelle méthodologie pour créer des jeux de données SFT polyvalents en exploitant un modèle génératif pré-entraîné comme estimateur d'échantillons d'entraînement à fort impact. Nous appliquons cette méthodologie pour construire et publier Alchemist, un jeu de données SFT compact (3 350 échantillons) mais très efficace. Les expériences démontrent qu'Alchemist améliore considérablement la qualité générative de cinq modèles T2I publics tout en préservant la diversité et le style. De plus, nous publions les poids des modèles fine-tunés pour le public.
Les grands modèles de langage excellent dans les tâches générales, mais évaluer leur fiabilité dans des domaines exigeant une logique rigoureuse et une précision critique, comme la finance, le droit et la santé, reste un défi. Pour y remédier, nous présentons BizFinBench, le premier benchmark spécifiquement conçu pour évaluer les LLM dans des applications financières réelles. BizFinBench comprend 6 781 requêtes bien annotées en chinois, couvrant cinq dimensions : calcul numérique, raisonnement, extraction d'informations, reconnaissance de prédictions et réponse à des questions basées sur des connaissances, regroupées en neuf catégories fines. Le benchmark inclut des métriques objectives et subjectives. Nous introduisons également IteraJudge, une nouvelle méthode d'évaluation des LLM qui réduit les biais lorsque les LLM servent d'évaluateurs dans les métriques objectives. Nous évaluons 25 modèles, incluant des systèmes propriétaires et open source. Des expériences approfondies montrent qu'aucun modèle ne domine toutes les tâches. Notre évaluation révèle des schémas de capacités distincts : (1) En Calcul Numérique, Claude-3.5-Sonnet (63,18) et DeepSeek-R1 (64,04) mènent, tandis que les petits modèles comme Qwen2.5-VL-3B (15,92) sont nettement à la traîne ; (2) En Raisonnement, les modèles propriétaires dominent (ChatGPT-o3 : 83,58, Gemini-2.0-Flash : 81,15), avec les modèles open source en retard de jusqu'à 19,49 points ; (3) En Extraction d'Informations, l'écart de performance est le plus important, avec DeepSeek-R1 à 71,46, tandis que Qwen3-1.7B obtient 11,23 ; (4) En Reconnaissance de Prédictions, la variance de performance est minimale, avec les meilleurs modèles obtenant des scores entre 39,16 et 50,00. Nous constatons que si les LLM actuels gèrent bien les requêtes financières routinières, ils peinent dans des scénarios complexes nécessitant un raisonnement interconceptuel. BizFinBench offre un benchmark rigoureux et aligné sur les besoins métiers pour les recherches futures. Le code et le jeu de données sont disponibles à l'adresse https://github.com/HiThink-Research/BizFinBench.
Les modèles de langage à grande échelle (LLMs) actuels adoptent généralement une stratégie de raisonnement fixe, qu'elle soit simple ou complexe, pour toutes les questions, indépendamment de leur difficulté. Cette négligence de la variation dans la complexité des tâches et des processus de raisonnement entraîne un déséquilibre entre performance et efficacité. Les méthodes existantes tentent de mettre en œuvre un système de commutation rapide-lent de la pensée sans entraînement pour gérer des problèmes de difficulté variable, mais elles sont limitées par des ajustements de stratégie au niveau des solutions trop grossiers. Pour résoudre ce problème, nous proposons un nouveau paradigme de raisonnement : le Commutateur de Mode de Pensée Adaptatif au Niveau du Processus (PATS), qui permet aux LLMs d'ajuster dynamiquement leur stratégie de raisonnement en fonction de la difficulté de chaque étape, optimisant ainsi l'équilibre entre précision et efficacité computationnelle. Notre approche intègre des Modèles de Récompense de Processus (PRMs) avec la Recherche en Faisceau, incorporant une commutation progressive de mode et des mécanismes de pénalisation des mauvaises étapes. Les expériences sur divers benchmarks mathématiques démontrent que notre méthodologie atteint une haute précision tout en maintenant une utilisation modérée de tokens. Cette étude met en lumière l'importance de l'adaptation de la stratégie de raisonnement au niveau du processus et consciente de la difficulté, offrant des perspectives précieuses pour l'inférence efficace des LLMs.
Les agents incarnés dotés de modèles de langage à grande échelle (LLMs) ont démontré des performances solides dans les tâches de réorganisation d'objets domestiques. Cependant, ces tâches se concentrent principalement sur des interactions en un seul tour avec des instructions simplifiées, ce qui ne reflète pas véritablement les défis liés à l'assistance significative aux utilisateurs. Pour fournir une assistance personnalisée, les agents incarnés doivent comprendre les sémantiques uniques que les utilisateurs attribuent au monde physique (par exemple, la tasse préférée, la routine du petit-déjeuner) en exploitant l'historique des interactions précédentes pour interpréter des instructions dynamiques et ancrées dans le monde réel. Pourtant, l'efficacité des agents incarnés à utiliser la mémoire pour une assistance personnalisée reste largement sous-explorée. Pour combler cette lacune, nous présentons MEMENTO, un cadre d'évaluation d'agents incarnés personnalisés conçu pour évaluer de manière exhaustive les capacités d'utilisation de la mémoire afin de fournir une assistance personnalisée. Notre cadre comprend un processus d'évaluation de la mémoire en deux étapes qui permet de quantifier l'impact de l'utilisation de la mémoire sur la performance des tâches. Ce processus permet d'évaluer la compréhension par les agents des connaissances personnalisées dans les tâches de réorganisation d'objets en se concentrant sur son rôle dans l'interprétation des objectifs : (1) la capacité à identifier des objets cibles en fonction de leur signification personnelle (sémantique des objets), et (2) la capacité à déduire les configurations objet-lieu à partir de modèles d'utilisateurs cohérents, tels que les routines (modèles d'utilisateurs). Nos expériences sur divers LLMs révèlent des limitations significatives dans l'utilisation de la mémoire, avec même des modèles de pointe comme GPT-4o enregistrant une baisse de performance de 30,5 % lorsqu'il est nécessaire de référencer plusieurs souvenirs, en particulier dans les tâches impliquant des modèles d'utilisateurs. Ces résultats, ainsi que nos analyses détaillées et études de cas, fournissent des insights précieux pour les recherches futures visant à développer des agents incarnés personnalisés plus efficaces. Site web du projet : https://connoriginal.github.io/MEMENTO
Bien que les grands modèles de raisonnement démontrent des performances solides sur des tâches complexes, ils manquent de la capacité à ajuster l'utilisation des tokens de raisonnement en fonction de la difficulté de la tâche. Cela conduit souvent au problème de "sur-réflexion" -- un raisonnement excessif et inutile -- qui, bien que potentiellement atténué par une intervention humaine pour contrôler le budget de tokens, contredit fondamentalement l'objectif d'atteindre une IA pleinement autonome. Dans ce travail, nous proposons le modèle de raisonnement adaptatif (Adaptive Reasoning Model, ARM), un modèle de raisonnement capable de sélectionner de manière adaptative les formats de raisonnement appropriés en fonction de la tâche à accomplir. Ces formats incluent trois formats efficaces -- Réponse Directe, CoT Court et Code -- ainsi qu'un format plus élaboré, CoT Long. Pour entraîner ARM, nous introduisons Ada-GRPO, une adaptation de l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO), qui résout le problème d'effondrement des formats dans le GRPO traditionnel. Ada-GRPO permet à ARM d'atteindre une grande efficacité en termes de tokens, réduisant les tokens en moyenne de 30 %, et jusqu'à 70 %, tout en maintenant des performances comparables au modèle qui repose uniquement sur le CoT Long. De plus, non seulement il améliore l'efficacité de l'inférence grâce à une génération réduite de tokens, mais il apporte également une accélération de 2x lors de l'entraînement. En plus du mode adaptatif par défaut, ARM prend en charge deux modes de raisonnement supplémentaires : 1) le mode guidé par instruction, qui permet aux utilisateurs de spécifier explicitement le format de raisonnement via des tokens spéciaux -- idéal lorsque le format approprié est connu pour un lot de tâches. 2) le mode guidé par consensus, qui agrège les sorties des trois formats efficaces et recourt au CoT Long en cas de désaccord, privilégiant la performance avec une utilisation plus élevée de tokens.
Les grands modèles de langage (LLMs), tels que o1 d'OpenAI et R1 de DeepSeek, excellent dans des tâches de raisonnement avancé comme les mathématiques et le codage grâce à l'apprentissage par renforcement avec récompenses vérifiables (RLVR), mais peinent encore à résoudre des énigmes que les humains peuvent résoudre sans connaissances spécifiques. Nous présentons Enigmata, la première suite complète conçue pour améliorer les compétences de raisonnement des LLMs sur les énigmes. Elle comprend 36 tâches réparties en sept catégories, chacune avec 1) un générateur produisant un nombre illimité d'exemples avec une difficulté contrôlable et 2) un vérificateur basé sur des règles pour une évaluation automatique. Cette conception générateur-vérificateur permet un entraînement RL multitâche évolutif, une analyse fine et une intégration fluide du RLVR. Nous proposons également Enigmata-Eval, un benchmark rigoureux, et développons des stratégies RLVR multitâches optimisées. Notre modèle entraîné, Qwen2.5-32B-Enigmata, surpasse systématiquement o3-mini-high et o1 sur les benchmarks de raisonnement d'énigmes comme Enigmata-Eval, ARC-AGI (32,8 %) et ARC-AGI 2 (0,6 %). Il généralise également bien aux benchmarks d'énigmes hors domaine et au raisonnement mathématique, avec un faible compromis multitâche. Lorsqu'il est entraîné sur des modèles plus grands comme Seed1.5-Thinking (20 milliards de paramètres activés et 200 milliards de paramètres totaux), les données d'énigmes d'Enigmata améliorent encore les performances de pointe sur des tâches de raisonnement mathématique et STEM avancées telles que AIME (2024-2025), BeyondAIME et GPQA (Diamond), montrant les avantages de généralisation d'Enigmata. Ce travail offre un cadre unifié et contrôlable pour faire progresser le raisonnement logique dans les LLMs. Les ressources de ce travail sont disponibles à l'adresse https://seed-enigmata.github.io.
Nous proposons un nouveau cadre pour comprendre les capacités de raisonnement des grands modèles de langage (LLMs) à travers le prisme du méta-apprentissage. En conceptualisant les trajectoires de raisonnement comme des mises à jour de pseudo-descente de gradient sur les paramètres du LLM, nous identifions des parallèles entre le raisonnement des LLMs et divers paradigmes de méta-apprentissage. Nous formalisons le processus d'entraînement pour les tâches de raisonnement comme une configuration de méta-apprentissage, où chaque question est traitée comme une tâche individuelle, et les trajectoires de raisonnement servent d'optimisation en boucle interne pour adapter les paramètres du modèle. Une fois entraîné sur un ensemble diversifié de questions, le LLM développe des capacités de raisonnement fondamentales qui peuvent se généraliser à des questions jamais vues auparavant. Des évaluations empiriques approfondies confirment le lien étroit entre le raisonnement des LLMs et le méta-apprentissage, explorant plusieurs questions d'intérêt majeur du point de vue du méta-apprentissage. Notre travail non seulement améliore la compréhension du raisonnement des LLMs, mais fournit également des insights pratiques pour améliorer ces modèles grâce à des techniques établies de méta-apprentissage.
Les grands modèles de langage (LLM) ont obtenu un succès remarquable dans les tâches de traitement du langage naturel, où l'apprentissage par renforcement joue un rôle clé pour les adapter à des applications spécifiques. Cependant, l'obtention de réponses de référence pour entraîner les LLM à la résolution de problèmes mathématiques est souvent difficile, coûteuse et parfois impossible. Cette recherche explore l'utilisation du format et de la longueur comme signaux substituts pour entraîner les LLM à la résolution de problèmes mathématiques, évitant ainsi le besoin de réponses de référence traditionnelles. Notre étude montre qu'une fonction de récompense centrée uniquement sur la correction du format peut engendrer des améliorations de performance comparables à celles de l'algorithme GRPO standard dans les phases initiales. Conscient des limites des récompenses basées uniquement sur le format dans les phases ultérieures, nous intégrons des récompenses basées sur la longueur. L'approche GRPO résultante, exploitant les signaux substituts de format-longueur, non seulement égalise mais dépasse la performance de l'algorithme GRPO standard reposant sur des réponses de référence dans certains scénarios, atteignant une précision de 40,0 % sur AIME2024 avec un modèle de base de 7B. À travers une exploration et une expérimentation systématiques, cette recherche propose non seulement une solution pratique pour entraîner les LLM à résoudre des problèmes mathématiques et réduire la dépendance à la collecte extensive de données de référence, mais révèle également l'essence du succès de notre approche sans étiquettes : le modèle de base est comme un excellent élève qui maîtrise déjà les compétences de raisonnement mathématique et logique, mais qui performe mal lors des examens. Il a simplement besoin de développer de bonnes habitudes de réponse pour obtenir des résultats exceptionnels, c'est-à-dire pour débloquer les capacités qu'il possède déjà.
Les grands modèles de langage (LLM) présentent souvent des biais marqués, par exemple contre les femmes ou en faveur du chiffre 7. Nous étudions si les LLM sont capables de produire des réponses moins biaisées lorsqu'ils peuvent observer leurs réponses précédentes à la même question dans une conversation à plusieurs tours. Pour comprendre quels types de questions suscitent des réponses plus biaisées, nous testons les LLM sur notre ensemble de questions proposé, qui couvre 9 thèmes et appartient à trois catégories : (1) Subjectives ; (2) Aléatoires ; et (3) Objectives. Fait intéressant, les LLM parviennent à se "débiaiser" dans une conversation à plusieurs tours en réponse à des questions qui cherchent une réponse aléatoire et non biaisée. Par ailleurs, nous proposons le B-score, une nouvelle métrique efficace pour détecter les biais dans les réponses à des questions Subjectives, Aléatoires, Faciles et Difficiles. Sur MMLU, HLE et CSQA, l'utilisation du B-score améliore considérablement la précision de vérification des réponses des LLM (c'est-à-dire accepter les réponses correctes et rejeter les incorrectes) par rapport à l'utilisation des scores de confiance verbalisés ou de la fréquence des réponses à un seul tour. Le code et les données sont disponibles à l'adresse : https://b-score.github.io.
L'entraînement de grands modèles de langage (LLMs) pour le raisonnement complexe via l'apprentissage par renforcement avec récompenses vérifiables (RLVR) est efficace mais limité par la dépendance à une supervision coûteuse et spécifique à un domaine. Nous explorons l'apprentissage par renforcement à partir de retours internes (RLIF), un cadre qui permet aux LLMs d'apprendre à partir de signaux intrinsèques sans récompenses externes ni données étiquetées. Nous proposons Intuitor, une méthode RLIF qui utilise la confiance propre du modèle, appelée auto-certitude, comme unique signal de récompense. Intuitor remplace les récompenses externes dans l'optimisation de politique relative par groupe (GRPO) par des scores d'auto-certitude, permettant un apprentissage entièrement non supervisé. Les expériences démontrent qu'Intuitor égalise les performances de GRPO sur des benchmarks mathématiques tout en obtenant une généralisation supérieure pour des tâches hors domaine comme la génération de code, sans nécessiter de solutions de référence ou de cas de test. Nos résultats montrent que les signaux intrinsèques du modèle peuvent piloter un apprentissage efficace à travers différents domaines, offrant une alternative scalable à RLVR pour les systèmes d'IA autonomes où les récompenses vérifiables sont indisponibles. Le code est disponible à l'adresse https://github.com/sunblaze-ucb/Intuitor.
Les signaux de récompense générés par les humains sont essentiels pour aligner les modèles génératifs sur les préférences humaines, guidant à la fois l'entraînement et les évaluations lors de l'inférence. Bien que les grands modèles de langage (LLMs) utilisés comme évaluateurs proxy, c'est-à-dire LLM-as-a-Judge, réduisent considérablement les coûts associés aux annotations manuelles, ils nécessitent généralement des données d'entraînement spécifiques à chaque modalité et peinent à généraliser efficacement à travers des tâches multimodales variées. Dans cet article, nous proposons Flex-Judge, un modèle juge multimodal guidé par le raisonnement, qui exploite un minimum de données de raisonnement textuel pour généraliser robustement à travers plusieurs modalités et formats d'évaluation. Notre intuition centrale est que les explications de raisonnement textuel structuré encodent intrinsèquement des schémas de prise de décision généralisables, permettant un transfert efficace vers des jugements multimodaux, par exemple avec des images ou des vidéos. Les résultats empiriques démontrent que Flex-Judge, bien qu'entraîné sur beaucoup moins de données textuelles, atteint des performances compétitives ou supérieures par rapport aux API commerciales de pointe et aux évaluateurs multimodaux intensivement entraînés. Notamment, Flex-Judge présente un impact significatif dans des modalités comme les molécules, où les benchmarks d'évaluation complets sont rares, soulignant ainsi sa valeur pratique dans des domaines aux ressources limitées. Notre cadre met en lumière la supervision textuelle basée sur le raisonnement comme une alternative puissante et rentable aux approches traditionnelles intensives en annotations, faisant progresser de manière substantielle le modèle-as-a-judge multimodal et scalable.
Les grands modèles de langage (LLMs) ont montré un potentiel prometteur dans l'automatisation de la génération d'hypothèses scientifiques, mais les approches existantes produisent principalement des hypothèses grossières, dépourvues de détails méthodologiques et expérimentaux critiques. Nous introduisons et définissons formellement la nouvelle tâche de découverte d'hypothèses scientifiques à granularité fine, qui consiste à générer des hypothèses détaillées et actionnables expérimentalement à partir de directions de recherche initiales grossières. Nous formulons cela comme un problème d'optimisation combinatoire et étudions les limites supérieures de la capacité des LLMs à le résoudre lorsqu'ils sont exploités au maximum. Plus précisément, nous explorons quatre questions fondamentales : (1) comment exploiter au mieux les heuristiques internes d'un LLM pour formuler l'hypothèse à granularité fine qu'il jugerait lui-même comme la plus prometteuse parmi toutes les hypothèses qu'il pourrait générer, en se basant sur son propre système de notation interne—définissant ainsi un paysage de récompense latent sur l'espace des hypothèses ; (2) si de telles hypothèses jugées meilleures par le LLM présentent un alignement plus fort avec des hypothèses de référence ; (3) si la structuration du paysage de récompense à l'aide d'un ensemble de LLMs diversifiés de capacité similaire produit de meilleurs résultats que sa définition avec des instances répétées du LLM le plus performant parmi eux ; et (4) si un ensemble de LLMs identiques fournit un paysage de récompense plus fiable qu'un seul LLM. Pour répondre à ces questions, nous proposons une méthode de recherche hiérarchique qui propose et intègre progressivement des détails dans l'hypothèse, passant de concepts généraux à des configurations expérimentales spécifiques. Nous montrons que ce processus hiérarchique lisse le paysage de récompense et permet une optimisation plus efficace. Les évaluations empiriques sur un nouveau benchmark d'hypothèses à granularité fine annotées par des experts, issues de la littérature récente en chimie, montrent que notre méthode surpasse systématiquement des bases de référence solides.
Les modèles de langage de grande taille (LLMs) ont réalisé des progrès impressionnants, mais leurs capacités croissantes les exposent également à des attaques de contournement hautement flexibles conçues pour contourner les mesures de sécurité. Bien que de nombreuses défenses existantes se concentrent sur des types d’attaques connus, il est plus crucial de préparer les LLMs à des attaques inédites qui pourraient survenir lors de leur déploiement. Pour répondre à ce défi, nous proposons un cadre d’alignement de sécurité continu qui permet aux LLMs de s’adapter en permanence à de nouvelles stratégies de contournement en évolution. Notre cadre introduit une configuration compétitive entre deux composants : un Méta-Attaqueur, entraîné à découvrir activement de nouvelles stratégies de contournement, et un Défenseur, entraîné à y résister. Pour amorcer efficacement le Méta-Attaqueur, nous exploitons d’abord l’API GPT-4o pour extraire des insights clés d’une vaste collection d’articles de recherche liés aux contournements. Grâce à un entraînement itératif, le Méta-Attaqueur de la première itération atteint un taux de réussite d’attaque (ASR) de 73 % sur RR et un ASR de transfert de 57 % sur LAT en utilisant uniquement des attaques en un seul tour. Parallèlement, le Défenseur améliore progressivement sa robustesse et réduit finalement le taux de réussite du Méta-Attaqueur à seulement 7 %, permettant un déploiement plus sûr et plus fiable des LLMs dans des environnements ouverts. Le code est disponible à l’adresse suivante : https://github.com/sail-sg/LifelongSafetyAlignment.
Les modèles de langage multimodaux de grande taille (MLLMs) ont récemment réalisé des progrès significatifs dans les tâches visuelles, notamment la compréhension sémantique des scènes et l'alignement texte-image, avec des variantes de raisonnement améliorant les performances sur des tâches complexes impliquant des mathématiques et de la logique. Cependant, leur capacité pour les tâches de raisonnement nécessitant une compréhension visuelle fine reste insuffisamment évaluée. Pour combler cette lacune, nous introduisons ReasonMap, un benchmark conçu pour évaluer les capacités de compréhension visuelle fine et de raisonnement spatial des MLLMs. ReasonMap englobe des cartes de transport en haute résolution provenant de 30 villes dans 13 pays et inclut 1 008 paires de questions-réponses couvrant deux types de questions et trois modèles. De plus, nous concevons un pipeline d'évaluation à deux niveaux qui évalue correctement l'exactitude et la qualité des réponses. Des évaluations complètes de 15 MLLMs populaires, incluant à la fois des modèles de base et des variantes de raisonnement, révèlent un schéma contre-intuitif : parmi les modèles open-source, les modèles de base surpassent ceux de raisonnement, tandis que la tendance inverse est observée pour les modèles propriétaires. Par ailleurs, les performances se dégradent généralement lorsque les entrées visuelles sont masquées, indiquant que bien que les MLLMs puissent exploiter des connaissances préalables pour répondre à certaines questions, les tâches de raisonnement visuel fin nécessitent une véritable perception visuelle pour obtenir de bonnes performances. Notre étude de benchmark offre de nouvelles perspectives sur le raisonnement visuel et contribue à l'exploration de l'écart entre les modèles open-source et propriétaires.
Malgré la prédominance des modèles de langage à décodeur uniquement, les encodeurs restent essentiels pour les applications à ressources limitées. Nous présentons ModernGBERT (134M, 1B), une famille entièrement transparente de modèles encodeurs allemands entraînés à partir de zéro, intégrant des innovations architecturales issues de ModernBERT. Pour évaluer les compromis pratiques de l'entraînement d'encodeurs à partir de zéro, nous présentons également LL\"aMmlein2Vec (120M, 1B, 7B), une famille d'encodeurs dérivés de modèles à décodeur uniquement allemands via LLM2Vec. Nous évaluons tous les modèles sur des tâches de compréhension du langage naturel, d'incorporation de texte et de raisonnement sur des contextes longs, permettant une comparaison contrôlée entre les encodeurs dédiés et les décodeurs convertis. Nos résultats montrent que ModernGBERT 1B surpasse les encodeurs allemands de pointe antérieurs ainsi que les encodeurs adaptés via LLM2Vec, en termes de performance et d'efficacité paramétrique. Tous les modèles, les données d'entraînement, les points de contrôle et le code sont disponibles publiquement, faisant progresser l'écosystème du TAL allemand avec des modèles encodeurs transparents et performants.
La génération visuelle et la compréhension visuelle sont deux aspects profondément interconnectés de l'intelligence humaine, mais ils ont traditionnellement été traités comme des tâches distinctes dans l'apprentissage automatique. Dans cet article, nous proposons Jodi, un cadre de diffusion qui unifie la génération visuelle et la compréhension en modélisant conjointement le domaine des images et plusieurs domaines d'étiquettes. Plus précisément, Jodi est construit sur un transformateur de diffusion linéaire accompagné d'un mécanisme de commutation de rôles, ce qui lui permet d'exécuter trois types de tâches particulières : (1) la génération conjointe, où le modèle génère simultanément des images et plusieurs étiquettes ; (2) la génération contrôlée, où les images sont générées en fonction de n'importe quelle combinaison d'étiquettes ; et (3) la perception d'image, où plusieurs étiquettes peuvent être prédites à partir d'une image donnée. Par ailleurs, nous présentons le jeu de données Joint-1.6M, qui contient 200 000 images de haute qualité collectées à partir de sources publiques, des étiquettes automatiques pour 7 domaines visuels, et des légendes générées par des modèles de langage (LLM). Des expériences approfondies démontrent que Jodi excelle à la fois dans les tâches de génération et de compréhension et présente une forte extensibilité à un éventail plus large de domaines visuels. Le code est disponible à l'adresse suivante : https://github.com/VIPL-GENUN/Jodi.
Alors que les modèles de langage de grande taille (LLMs) deviennent essentiels dans les flux de travail de développement logiciel, leur capacité à générer des sorties structurées est devenue cruciale. Nous présentons StructEval, un benchmark complet pour évaluer les capacités des LLMs à produire des formats structurés non rendus (JSON, YAML, CSV) et rendus (HTML, React, SVG). Contrairement aux benchmarks précédents, StructEval évalue systématiquement la fidélité structurelle à travers divers formats selon deux paradigmes : 1) les tâches de génération, produisant des sorties structurées à partir de prompts en langage naturel, et 2) les tâches de conversion, traduisant entre des formats structurés. Notre benchmark couvre 18 formats et 44 types de tâches, avec des métriques novatrices pour l'adhésion au format et la correction structurelle. Les résultats révèlent des écarts de performance significatifs, même les modèles de pointe comme o1-mini n'atteignent qu'un score moyen de 75,58, tandis que les alternatives open source accusent un retard d'environ 10 points. Nous constatons que les tâches de génération sont plus difficiles que les tâches de conversion, et que produire un contenu visuel correct est plus complexe que générer des structures textuelles uniquement.
En cette année 2025, à un moment charnière dans la quête de l'Intelligence Artificielle Générale (IAG), le réglage fin par renforcement (Reinforcement Fine-Tuning, RFT) a démontré un potentiel significatif pour améliorer les capacités de raisonnement des grands modèles de langage (Large Language Models, LLMs), conduisant au développement de modèles d'IA de pointe tels qu'OpenAI-o1 et DeepSeek-R1. De plus, l'application efficace du RFT pour renforcer les capacités de raisonnement des grands modèles de langage multimodaux (Multimodal Large Language Models, MLLMs) a suscité un intérêt considérable au sein de la communauté. Dans ce document de position, nous soutenons que le réglage fin par renforcement renforce les capacités de raisonnement des grands modèles de langage multimodaux. Pour commencer, nous fournissons une introduction détaillée aux connaissances de base que les chercheurs intéressés par ce domaine devraient maîtriser. Ensuite, nous résumons méticuleusement les améliorations apportées par le RFT dans le renforcement des capacités de raisonnement des MLLMs en cinq points clés : diversité des modalités, diversité des tâches et des domaines, meilleurs algorithmes d'entraînement, benchmarks abondants et cadres d'ingénierie florissants. Enfin, nous proposons cinq directions prometteuses pour les recherches futures que la communauté pourrait envisager. Nous espérons que ce document de position offrira des perspectives précieuses à la communauté à ce stade crucial de l'avancée vers l'IAG. Un résumé des travaux réalisés sur le RFT pour les MLLMs est disponible à l'adresse suivante : https://github.com/Sun-Haoyuan23/Awesome-RL-based-Reasoning-MLLMs.
La compréhension fine des pixels et le raisonnement audio-vidéo à long terme imposent des exigences contradictoires aux modèles omnimodaux : une couverture temporelle dense nécessite de nombreuses images à basse résolution, tandis qu'un ancrage précis exige des entrées à haute résolution. Nous abordons ce compromis avec une architecture à deux systèmes : un Système de Raisonnement Global sélectionne des images clés informatives et reformule la tâche à faible coût spatial, tandis qu'un Système de Compréhension des Détails effectue un ancrage au niveau des pixels sur les extraits sélectionnés à haute résolution. Étant donné que la sélection « optimale » des images clés et leur reformulation sont ambiguës et difficiles à superviser, nous les formulons comme un problème d'apprentissage par renforcement (RL) et présentons Omni-R1, un cadre RL de bout en bout basé sur l'Optimisation de Politique Relative par Groupes. Omni-R1 entraîne le Système de Raisonnement Global grâce à des récompenses hiérarchiques obtenues via une collaboration en ligne avec le Système de Compréhension des Détails, ne nécessitant qu'une seule époque de RL sur de petits sous-ensembles de tâches. Les expériences sur deux benchmarks exigeants, à savoir la Segmentation Audio-Visuelle Référencée (RefAVS) et la Segmentation d'Objets Vidéo par Raisonnement (REVOS), montrent qu'Omni-R1 dépasse non seulement des bases de référence supervisées solides, mais surpasse également des modèles spécialisés de pointe, tout en améliorant considérablement la généralisation hors domaine et en atténuant les hallucinations multimodales. Nos résultats démontrent la première application réussie de l'apprentissage par renforcement à grande échelle pour le raisonnement omnimodal et mettent en lumière une voie évolutive vers des modèles de fondation universels.
Nous présentons REARANK, un agent de reranking basé sur un modèle de langage de grande taille (LLM) utilisant un raisonnement par liste. REARANK raisonne explicitement avant de procéder au reranking, améliorant ainsi significativement à la fois les performances et l'interprétabilité. En tirant parti de l'apprentissage par renforcement et de l'augmentation de données, REARANK obtient des améliorations substantielles par rapport aux modèles de référence sur des benchmarks populaires en recherche d'information, tout en nécessitant seulement 179 échantillons annotés. Basé sur Qwen2.5-7B, notre modèle REARANK-7B démontre des performances comparables à celles de GPT-4 sur des benchmarks aussi bien en domaine qu'hors domaine, et dépasse même GPT-4 sur les benchmarks BRIGHT, qui requièrent un raisonnement intensif. Ces résultats soulignent l'efficacité de notre approche et mettent en évidence comment l'apprentissage par renforcement peut renforcer les capacités de raisonnement des LLM dans le contexte du reranking.
La diffusion discrète a récemment émergé comme un paradigme prometteur dans la modélisation de données discrètes. Cependant, les méthodes existantes reposent généralement sur une matrice de transition à taux fixe pendant l'entraînement, ce qui non seulement limite l'expressivité des représentations latentes, une force fondamentale des méthodes variationnelles, mais restreint également l'espace de conception global. Pour remédier à ces limitations, nous proposons Discrete Markov Bridge, un nouveau cadre spécifiquement conçu pour l'apprentissage de représentations discrètes. Notre approche repose sur deux composants clés : l'apprentissage de matrices et l'apprentissage de scores. Nous menons une analyse théorique rigoureuse, établissant des garanties de performance formelles pour l'apprentissage de matrices et prouvant la convergence du cadre global. De plus, nous analysons la complexité spatiale de notre méthode, en tenant compte des contraintes pratiques identifiées dans les études antérieures. Des évaluations empiriques approfondies valident l'efficacité du Discrete Markov Bridge proposé, qui atteint une borne inférieure d'évidence (ELBO) de 1,38 sur le jeu de données Text8, surpassant les bases de référence établies. Par ailleurs, le modèle proposé démontre des performances compétitives sur le jeu de données CIFAR-10, obtenant des résultats comparables à ceux des approches spécifiques à la génération d'images.
Nous proposons un système de physique neuronale pour des simulations de fluides interactives en temps réel. Les méthodes traditionnelles basées sur la physique, bien que précises, sont intensives en calcul et souffrent de problèmes de latence. Les méthodes récentes d'apprentissage automatique réduisent les coûts de calcul tout en préservant la fidélité ; cependant, la plupart ne parviennent toujours pas à satisfaire les contraintes de latence pour une utilisation en temps réel et manquent de support pour les applications interactives. Pour combler cette lacune, nous introduisons une méthode hybride novatrice qui intègre la simulation numérique, la physique neuronale et le contrôle génératif. Notre physique neuronale vise simultanément une simulation à faible latence et une haute fidélité physique en employant une sauvegarde de secours vers des solveurs numériques classiques. De plus, nous développons un contrôleur basé sur la diffusion, entraîné à l'aide d'une stratégie de modélisation inverse, pour générer des champs de force dynamiques externes permettant la manipulation des fluides. Notre système démontre une performance robuste dans divers scénarios 2D/3D, types de matériaux et interactions avec des obstacles, atteignant des simulations en temps réel à des taux de rafraîchissement élevés (11~29% de latence) tout en permettant un contrôle des fluides guidé par des esquisses manuelles conviviales. Nous présentons une avancée significative vers des simulations de fluides pratiques, contrôlables et physiquement plausibles pour des applications interactives en temps réel. Nous nous engageons à publier les modèles et les données dès leur acceptation.
Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement remarquables en mathématiques et en programmation, souvent renforcées par un post-entraînement sur les chaînes de pensée (CoTs) générées par des modèles plus performants. Cependant, les stratégies existantes pour constituer de telles données d'entraînement reposent principalement sur des heuristiques, limitant la généralisabilité et ne parvenant pas à capturer les subtilités sous-jacentes des données. Pour pallier ces limitations, nous exploitons les fonctions d'influence pour attribuer systématiquement la capacité de raisonnement des LLMs en mathématiques et en programmation à des exemples, séquences et tokens individuels d'entraînement, permettant ainsi une compréhension plus approfondie des caractéristiques efficaces des données. Notre méthode d'Attribution de Raisonnement basée sur l'Influence (Infra) révèle des effets inter-domaines non triviaux entre les tâches de mathématiques et de programmation : les exemples de mathématiques de haute difficulté améliorent à la fois le raisonnement mathématique et le raisonnement en programmation, tandis que les tâches de programmation de faible difficulté bénéficient le plus efficacement au raisonnement en programmation. Sur la base de ces résultats, nous introduisons une stratégie simple mais efficace de repondération des données en inversant la difficulté des tâches, ce qui double la précision de AIME24 de 10\% à 20\% et augmente la précision de LiveCodeBench de 33,8\% à 35,3\% pour Qwen2.5-7B-Instruct. De plus, notre attribution fine révèle que les comportements exploratoires au niveau des séquences améliorent les performances de raisonnement à la fois en mathématiques et en programmation, et que les modèles d'influence au niveau des tokens sont distincts pour le raisonnement mathématique et le raisonnement en programmation : le premier privilégie les connecteurs logiques en langage naturel, tandis que le second met l'accent sur la syntaxe structurelle.
Cette revue présente une analyse approfondie de deux paradigmes émergents dans le développement de logiciels assisté par l'IA : le codage intuitif (vibe coding) et le codage agentique (agentic coding). Bien que les deux s'appuient sur des modèles de langage de grande taille (LLMs), ils diffèrent fondamentalement en termes d'autonomie, de conception architecturale et de rôle du développeur. Le codage intuitif met l'accent sur une interaction intuitive et centrée sur l'humain, à travers des flux de travail conversationnels basés sur des prompts, qui soutiennent l'idéation, l'expérimentation et l'exploration créative. En revanche, le codage agentique permet un développement logiciel autonome grâce à des agents orientés par des objectifs, capables de planifier, exécuter, tester et itérer des tâches avec une intervention humaine minimale. Nous proposons une taxonomie détaillée couvrant les fondements conceptuels, les modèles d'exécution, les boucles de rétroaction, les mécanismes de sécurité, les stratégies de débogage et les écosystèmes d'outils réels. À travers une analyse comparative des flux de travail et 20 cas d'utilisation détaillés, nous illustrons comment les systèmes de codage intuitif prospèrent dans le prototypage précoce et l'éducation, tandis que les systèmes agentiques excellent dans l'automatisation de niveau entreprise, la refonte de bases de code et l'intégration CI/CD. Nous examinons également les tendances émergentes dans les architectures hybrides, où les interfaces en langage naturel sont couplées à des pipelines d'exécution autonomes. Enfin, nous articulons une feuille de route pour l'IA agentique, en décrivant l'infrastructure nécessaire pour des systèmes fiables, explicables et collaboratifs. Nos conclusions suggèrent que le succès de l'ingénierie logicielle IA ne reposera pas sur le choix d'un seul paradigme, mais sur l'harmonisation de leurs forces au sein d'un cycle de développement unifié et centré sur l'humain.
Les modèles modernes de raisonnement à grande échelle démontrent des capacités impressionnantes de résolution de problèmes en employant des stratégies de raisonnement sophistiquées. Cependant, ils éprouvent souvent des difficultés à équilibrer efficacité et performance, générant fréquemment des chaînes de raisonnement inutilement longues pour des problèmes simples. Dans ce travail, nous proposons AdaCtrl, un cadre novateur visant à soutenir à la fois une allocation adaptative du budget de raisonnement en fonction de la difficulté et un contrôle explicite de l'utilisateur sur la profondeur du raisonnement. AdaCtrl ajuste dynamiquement la longueur de son raisonnement en fonction de l'évaluation auto-perçue de la difficulté du problème, tout en permettant aux utilisateurs de contrôler manuellement le budget pour privilégier soit l'efficacité, soit la performance. Cela est réalisé grâce à un pipeline d'entraînement en deux étapes : une phase initiale de fine-tuning à froid pour inculquer la capacité d'auto-évaluer la difficulté et d'ajuster le budget de raisonnement, suivie d'une étape d'apprentissage par renforcement (RL) sensible à la difficulté qui affine les stratégies de raisonnement adaptatives du modèle et calibre ses évaluations de difficulté en fonction de ses capacités évolutives pendant l'entraînement en ligne. Pour permettre une interaction intuitive avec l'utilisateur, nous concevons des étiquettes explicites déclenchées par la longueur, qui servent d'interface naturelle pour le contrôle du budget. Les résultats empiriques montrent qu'AdaCtrl adapte la longueur du raisonnement en fonction de la difficulté estimée. Par rapport à la base de référence d'entraînement standard qui intègre également le fine-tuning et le RL, il améliore les performances tout en réduisant la longueur des réponses de 10,06 % et 12,14 % sur les ensembles de données plus exigeants AIME2024 et AIME2025, qui nécessitent un raisonnement élaboré, et de 62,05 % et 91,04 % sur les ensembles de données MATH500 et GSM8K, où des réponses plus concises suffisent. En outre, AdaCtrl permet un contrôle précis de l'utilisateur sur le budget de raisonnement, permettant des réponses sur mesure pour répondre à des besoins spécifiques.
Les modèles de raisonnement à grande échelle (LRMs) sont critiqués pour leur chaîne de pensée (Chain-of-Thought, CoT) excessivement longue afin de dériver la réponse finale, souffrant ainsi d'une latence élevée pour le premier jeton et globale. Typiquement, la CoT des LRMs mélange plusieurs unités de pensée ; chaque unité tente de produire une réponse candidate à la requête initiale. Par conséquent, une idée naturelle pour améliorer l'efficacité est de réduire le nombre d'unités. Cependant, le fait que les unités de pensée dans la CoT classique ne puissent pas être explicitement gérées rend cette tâche difficile. Cet article introduit la décomposition multi-tours (Multi-Turn Decomposition, MinD) pour décoder la CoT conventionnelle en une séquence d'interactions explicites, structurées et tour par tour, afin de combler cet écart. Dans MinD, le modèle fournit une réponse multi-tours à la requête, où chaque tour intègre une unité de pensée et produit une réponse correspondante. Les tours suivants peuvent réfléchir, vérifier, réviser ou explorer des approches alternatives à la fois pour la pensée et les réponses des tours précédents. Cela permet non seulement de délivrer la réponse plus rapidement, mais aussi d'offrir un contrôle explicite sur le processus de raisonnement itératif (c'est-à-dire que les utilisateurs peuvent arrêter ou continuer à tout moment). Nous suivons un paradigme de fine-tuning supervisé (SFT) puis d'apprentissage par renforcement (RL) pour réaliser MinD. Nous reformulons d'abord les sorties d'un LRM en formats multi-tours en incitant un autre LLM, puis ajustons le LRM avec ces données. Observant que le modèle ajusté a tendance à consommer encore plus de jetons que l'original (probablement parce que les formats multi-tours introduisent des jetons de réponse supplémentaires), nous préconisons d'utiliser des algorithmes de RL comme GRPO pour privilégier les sorties correctes avec moins de tours. Entraîné sur le jeu de données MATH en utilisant les modèles R1-Distill, MinD peut atteindre jusqu'à ~70 % de réduction à la fois dans l'utilisation des jetons de sortie et dans le temps jusqu'au premier jeton (TTFT), tout en maintenant des performances compétitives sur des benchmarks de raisonnement tels que MATH-500, AIME24, AMC23 et GPQA-Diamond.
La modélisation visuelle autorégressive (VAR) a suscité un intérêt considérable pour son approche innovante de prédiction à l'échelle suivante, qui apporte des améliorations substantielles en termes d'efficacité, de scalabilité et de généralisation zero-shot. Cependant, la méthodologie grossière-à-fine inhérente à VAR entraîne une croissance exponentielle du cache KV lors de l'inférence, provoquant une consommation de mémoire importante et une redondance computationnelle. Pour résoudre ces goulots d'étranglement, nous introduisons ScaleKV, un nouveau cadre de compression du cache KV spécialement conçu pour les architectures VAR. ScaleKV s'appuie sur deux observations critiques : les besoins variables en cache à travers les couches du transformateur et les motifs d'attention distincts à différentes échelles. Sur la base de ces insights, ScaleKV classe les couches du transformateur en deux groupes fonctionnels : les ébaucheurs (drafters) et les affineurs (refiners). Les ébaucheurs présentent une attention dispersée sur plusieurs échelles, nécessitant ainsi une plus grande capacité de cache. À l'inverse, les affineurs concentrent leur attention sur la carte de tokens actuelle pour traiter les détails locaux, nécessitant par conséquent une capacité de cache considérablement réduite. ScaleKV optimise le pipeline d'inférence multi-échelle en identifiant les ébaucheurs et affineurs spécifiques à chaque échelle, facilitant ainsi une gestion différenciée du cache adaptée à chaque échelle. L'évaluation sur la famille de modèles VAR text-to-image de pointe, Infinity, démontre que notre approche réduit efficacement la mémoire requise du cache KV à 10 % tout en préservant la fidélité au niveau des pixels.
Le langage parlé transmet du sens non seulement à travers les mots, mais aussi par l'intonation, l'émotion et l'emphase. L'accentuation phrastique, c'est-à-dire l'emphase placée sur des mots spécifiques dans une phrase, est cruciale pour transmettre l'intention du locuteur et a été largement étudiée en linguistique. Dans ce travail, nous présentons WHISTRESS, une approche sans alignement pour améliorer les systèmes de transcription avec la détection de l'accentuation phrastique. Pour soutenir cette tâche, nous proposons TINYSTRESS-15K, un ensemble de données d'entraînement synthétique et évolutif pour la détection de l'accentuation phrastique, issu d'un processus entièrement automatisé de création de données. Nous entraînons WHISTRESS sur TINYSTRESS-15K et l'évaluons par rapport à plusieurs bases de référence compétitives. Nos résultats montrent que WHISTRESS surpasse les méthodes existantes tout en ne nécessitant aucun a priori supplémentaire pendant l'entraînement ou l'inférence. Notamment, bien qu'entraîné sur des données synthétiques, WHISTRESS démontre une forte généralisation zero-shot sur divers benchmarks. Page du projet : https://pages.cs.huji.ac.il/adiyoss-lab/whistress.
La chaîne de raisonnement étendue (CoT) améliore significativement les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les traces de raisonnement étendues entraînent des inefficacités et un temps accru jusqu'au premier jeton (TTFT). Nous proposons un nouveau paradigme d'entraînement utilisant l'apprentissage par renforcement (RL) pour guider les LLM de raisonnement à intercaler pensée et réponse pour des questions à sauts multiples. Nous observons que les modèles possèdent intrinsèquement la capacité de réaliser un raisonnement intercalé, qui peut être encore amélioré par le RL. Nous introduisons une récompense basée sur des règles, simple mais efficace, pour inciter les étapes intermédiaires correctes, guidant ainsi le modèle de politique vers des chemins de raisonnement corrects en exploitant les signaux intermédiaires générés lors du raisonnement intercalé. Des expériences approfondies menées sur cinq ensembles de données diversifiés et trois algorithmes de RL (PPO, GRPO et REINFORCE++) démontrent des améliorations constantes par rapport au raisonnement traditionnel de type "penser-répondre", sans nécessiter d'outils externes. Plus précisément, notre approche réduit le TTFT de plus de 80 % en moyenne et améliore jusqu'à 19,3 % la précision Pass@1. De plus, notre méthode, entraînée uniquement sur des ensembles de données de questions-réponses et de raisonnement logique, montre une forte capacité de généralisation à des ensembles de données de raisonnement complexes tels que MATH, GPQA et MMLU. Enfin, nous menons une analyse approfondie pour révéler plusieurs insights précieux sur la modélisation conditionnelle des récompenses.
La distillation centrée sur les données, incluant l'augmentation, la sélection et le mélange de données, offre une voie prometteuse pour créer des modèles de langage de grande taille (LLMs) étudiants plus petits et plus efficaces, tout en conservant de solides capacités de raisonnement. Cependant, il manque encore un benchmark complet pour évaluer systématiquement l'effet de chaque approche de distillation. Cet article présente DC-CoT, le premier benchmark centré sur les données qui étudie la manipulation des données dans la distillation de chaînes de pensée (CoT) sous les angles de la méthode, du modèle et des données. En utilisant divers modèles enseignants (par exemple, o4-mini, Gemini-Pro, Claude-3.5) et architectures étudiantes (par exemple, 3B, 7B paramètres), nous évaluons rigoureusement l'impact de ces manipulations de données sur la performance des modèles étudiants à travers plusieurs ensembles de données de raisonnement, en mettant l'accent sur la généralisation en distribution (IID) et hors distribution (OOD), ainsi que sur le transfert inter-domaines. Nos résultats visent à fournir des insights actionnables et à établir les meilleures pratiques pour optimiser la distillation CoT grâce à des techniques centrées sur les données, facilitant ainsi le développement de modèles de raisonnement plus accessibles et performants. Le jeu de données est disponible à l'adresse https://huggingface.co/datasets/rana-shahroz/DC-COT, tandis que notre code est partagé sur https://anonymous.4open.science/r/DC-COT-FF4C/.
Les modèles vision-langage (VLMs) excellent dans de nombreuses tâches multimodales directes, mais peinent à traduire cette prouesse en une prise de décision efficace dans des environnements interactifs et visuellement riches comme les jeux. Cet écart entre « savoir et faire » limite considérablement leur potentiel en tant qu'agents autonomes, les VLMs leaders obtenant souvent de mauvais résultats dans des jeux simples. Pour remédier à cela, nous introduisons VLM-Gym, un environnement d'apprentissage par renforcement (RL) soigneusement conçu, proposant une variété de jeux visuels avec des interfaces unifiées et une difficulté ajustable et compositionnelle, spécialement conçu pour un entraînement parallèle multi-jeux évolutif. En exploitant VLM-Gym, nous entraînons des modèles G0 en utilisant une auto-évolution purement pilotée par RL, qui démontrent des schémas émergents de perception et de raisonnement. Pour atténuer davantage les défis liés à la diversité des jeux, nous développons des modèles G1. G1 intègre une phase de démarrage à froid améliorée par la perception avant un ajustement fin par RL. Nos modèles G1 résultants surpassent systématiquement leur enseignant dans tous les jeux et surpassent les modèles propriétaires leaders comme Claude-3.7-Sonnet-Thinking. Une analyse systématique révèle une découverte intrigante : les capacités de perception et de raisonnement se renforcent mutuellement tout au long du processus d'entraînement par RL. Le code source, incluant VLM-Gym et l'entraînement RL, est publié à l'adresse https://github.com/chenllliang/G1 pour favoriser les recherches futures visant à faire progresser les VLMs en tant qu'agents interactifs compétents.
Tirant parti des encodeurs visuels entraînés de manière contrastive sur des images à grande échelle de scènes naturelles, les Modèles Multimodaux de Grande Taille (LMMs) ont obtenu des performances remarquables dans diverses tâches de perception visuelle. Cependant, les limitations inhérentes à l'apprentissage contrastif basé sur des descriptions résumées restreignent fondamentalement les capacités des modèles en matière de raisonnement minutieux, en particulier dans des scénarios cruciaux de résolution de problèmes géométriques. Pour améliorer la compréhension géométrique, nous proposons un nouveau cadre d'apprentissage contrastif avec des négatifs difficiles pour l'encodeur visuel, qui combine l'apprentissage contrastif basé sur les images utilisant des négatifs difficiles générés par perturbation du code de génération de diagrammes, et l'apprentissage contrastif basé sur le texte utilisant des négatifs basés sur des règles dérivés de descriptions géométriques modifiées et des négatifs basés sur la récupération sélectionnés selon la similarité des légendes. Nous entraînons CLIP avec notre méthode d'apprentissage par négatifs forts, nommée MMCLIP (Multimodal Math CLIP), puis nous entraînons un LMM pour la résolution de problèmes géométriques. Les expériences montrent que notre modèle entraîné, MMGeoLM, surpasse significativement d'autres modèles open-source sur trois benchmarks de raisonnement géométrique. Même avec une taille de 7B, il peut rivaliser avec des modèles puissants et propriétaires comme GPT-4o. Nous étudions en outre l'impact des différentes méthodes de construction des échantillons négatifs et du nombre d'échantillons négatifs sur la performance en raisonnement géométrique des LMM, obtenant des conclusions fructueuses. Le code et le jeu de données sont disponibles à l'adresse https://github.com/THU-KEG/MMGeoLM.
Les récentes avancées dans les modèles de génération vidéo ont suscité un intérêt croissant pour les modèles de monde capables de simuler des environnements réalistes. Bien que la navigation ait été largement explorée, les interactions physiquement significatives qui imitent les forces du monde réel restent largement sous-étudiées. Dans ce travail, nous étudions l'utilisation des forces physiques comme signal de contrôle pour la génération vidéo et proposons des "force prompts" qui permettent aux utilisateurs d'interagir avec des images à travers des forces ponctuelles localisées, comme piquer une plante, et des champs de force globaux, comme le vent soufflant sur un tissu. Nous démontrons que ces "force prompts" peuvent permettre aux vidéos de réagir de manière réaliste aux signaux de contrôle physiques en exploitant les connaissances visuelles et de mouvement du modèle pré-entraîné d'origine, sans utiliser d'assets 3D ou de simulateur physique lors de l'inférence. Le principal défi des "force prompts" est la difficulté d'obtenir des données d'entraînement de haute qualité associant forces et vidéos, à la fois dans le monde réel en raison de la difficulté à obtenir des signaux de force, et dans les données synthétiques en raison des limitations de la qualité visuelle et de la diversité des domaines des simulateurs physiques. Notre découverte clé est que les modèles de génération vidéo peuvent généraliser remarquablement bien lorsqu'ils sont adaptés pour suivre un conditionnement par forces physiques à partir de vidéos synthétisées par Blender, même avec un nombre limité de démonstrations impliquant peu d'objets. Notre méthode peut générer des vidéos qui simulent des forces sur des géométries, des environnements et des matériaux divers. Nous cherchons également à comprendre la source de cette généralisation et effectuons des ablations qui révèlent deux éléments clés : la diversité visuelle et l'utilisation de mots-clés spécifiques pendant l'entraînement. Notre approche est entraînée sur seulement environ 15 000 exemples pendant une journée sur quatre GPU A100, et surpasse les méthodes existantes en termes d'adhésion aux forces et de réalisme physique, rapprochant les modèles de monde des interactions physiques du monde réel. Nous publions tous les ensembles de données, le code, les poids et les démos vidéo interactives sur notre page de projet.
Les récentes avancées dans les agents d'IA ont démontré leur potentiel croissant à stimuler et à soutenir la découverte scientifique. Dans ce travail, nous présentons MLR-Bench, un benchmark complet pour évaluer les agents d'IA dans le cadre de la recherche ouverte en apprentissage automatique. MLR-Bench comprend trois composants clés : (1) 201 tâches de recherche issues des ateliers de NeurIPS, ICLR et ICML, couvrant divers sujets en ML ; (2) MLR-Judge, un cadre d'évaluation automatisé combinant des évaluateurs basés sur des LLM avec des grilles de révision soigneusement conçues pour évaluer la qualité de la recherche ; et (3) MLR-Agent, une structure modulaire d'agent capable de réaliser des tâches de recherche à travers quatre étapes : génération d'idées, formulation de propositions, expérimentation et rédaction d'articles. Notre cadre prend en charge à la fois l'évaluation étape par étape de ces différentes phases de recherche et l'évaluation globale du document de recherche final. Nous utilisons ensuite MLR-Bench pour évaluer six LLM de pointe et un agent de codage avancé, constatant que si les LLM sont efficaces pour générer des idées cohérentes et des articles bien structurés, les agents de codage actuels produisent fréquemment (par exemple, dans 80 % des cas) des résultats expérimentaux fabriqués ou non validés—ce qui constitue un obstacle majeur à la fiabilité scientifique. Nous validons MLR-Judge par une évaluation humaine, montrant un fort accord avec les évaluateurs experts, soutenant son potentiel en tant qu'outil évolutif pour l'évaluation de la recherche. Nous rendons MLR-Bench open-source pour aider la communauté à évaluer, diagnostiquer et améliorer les agents de recherche en IA afin de favoriser une découverte scientifique fiable et transparente.
Cet article présente InfantAgent-Next, un agent généraliste capable d'interagir avec les ordinateurs de manière multimodale, englobant le texte, les images, l'audio et la vidéo. Contrairement aux approches existantes qui construisent soit des workflows complexes autour d'un seul grand modèle, soit ne fournissent qu'une modularité de workflow, notre agent intègre des agents basés sur des outils et des agents de vision pure au sein d'une architecture hautement modulaire, permettant à différents modèles de résoudre de manière collaborative des tâches découplées étape par étape. Notre généralité est démontrée par notre capacité à évaluer non seulement des benchmarks du monde réel basés uniquement sur la vision (c'est-à-dire OSWorld), mais aussi des benchmarks plus généraux ou intensifs en outils (par exemple, GAIA et SWE-Bench). Plus précisément, nous obtenons une précision de 7,27 % sur OSWorld, supérieure à celle de Claude-Computer-Use. Les codes et scripts d'évaluation sont open-source à l'adresse https://github.com/bin123apple/InfantAgent.
Les exigences croissantes en matière de calcul des grands modèles de langage (LLM) rendent les stratégies d'inférence et d'activation efficaces de plus en plus cruciales. Bien que des approches récentes, telles que le Mixture-of-Experts (MoE), exploitent une activation sélective mais nécessitent un entraînement spécialisé, les méthodes d'activation parcimonieuse sans entraînement offrent une applicabilité plus large et une efficacité supérieure des ressources grâce à leur conception plug-and-play. Cependant, de nombreuses méthodes existantes reposent uniquement sur les magnitudes des états cachés pour déterminer l'activation, ce qui entraîne des erreurs d'approximation élevées et une précision d'inférence sous-optimale. Pour remédier à ces limitations, nous proposons WINA (Weight Informed Neuron Activation), un nouveau cadre d'activation parcimonieuse simple et sans entraînement qui prend en compte conjointement les magnitudes des états cachés et les normes ell_2 colonne par colonne des matrices de poids. Nous montrons que cela conduit à une stratégie de parcimonie qui obtient des bornes d'erreur d'approximation optimales avec des garanties théoriques plus strictes que les techniques existantes. Empiriquement, WINA surpasse également les méthodes de pointe (par exemple, TEAL) jusqu'à 2,94 % en performance moyenne aux mêmes niveaux de parcimonie, sur un ensemble diversifié d'architectures de LLM et de jeux de données. Ces résultats positionnent WINA comme une nouvelle frontière de performance pour l'activation parcimonieuse sans entraînement dans l'inférence des LLM, faisant progresser les méthodes d'activation parcimonieuse sans entraînement et établissant une base robuste pour une inférence efficace. Le code source est disponible à l'adresse https://github.com/microsoft/wina.
Les récents progrès en Reconnaissance Automatique de la Parole (ASR) ont été largement alimentés par des corpus vocaux massifs. Cependant, étendre la couverture à des langues diverses avec des ressources limitées reste un défi de taille. Cet article présente la Traduction Inverse de la Parole (Speech Back-Translation), un pipeline évolutif qui améliore les modèles multilingues d'ASR en convertissant des corpus textuels à grande échelle en parole synthétique via des modèles de synthèse vocale (TTS) prêts à l'emploi. Nous démontrons que seulement quelques dizaines d'heures de parole transrite réelle peuvent efficacement entraîner des modèles TTS pour générer de la parole synthétique à des volumes des centaines de fois supérieurs tout en maintenant une qualité élevée. Pour évaluer la qualité de la parole synthétique, nous développons un cadre d'évaluation basé sur l'intelligibilité et établissons des seuils clairs pour déterminer quand les données synthétiques bénéficient à l'entraînement de l'ASR. En utilisant la Traduction Inverse de la Parole, nous générons plus de 500 000 heures de parole synthétique dans dix langues et poursuivons le pré-entraînement de Whisper-large-v3, obtenant des réductions moyennes des erreurs de transcription de plus de 30 %. Ces résultats mettent en évidence l'évolutivité et l'efficacité de la Traduction Inverse de la Parole pour améliorer les systèmes multilingues d'ASR.
Les modèles de langage multimodaux de grande taille (MLLMs) ont démontré des capacités remarquables dans diverses tâches, mais ils restent nettement en retard par rapport aux humains en matière de raisonnement spatial. Nous étudions cet écart à travers le raisonnement visuel piloté par les transformations (TVR), une tâche complexe nécessitant l'identification des transformations d'objets entre des images sous différents points de vue. Alors que l'affinage supervisé traditionnel (SFT) échoue à générer des chemins de raisonnement cohérents dans des configurations inter-vues, l'apprentissage par renforcement à récompense éparse (RL) souffre d'une exploration inefficace et d'une convergence lente. Pour pallier ces limitations, nous proposons STAR-R1, un cadre novateur qui intègre un paradigme RL en une seule étape avec un mécanisme de récompense granulaire spécifiquement conçu pour le TVR. Concrètement, STAR-R1 récompense la justesse partielle tout en pénalisant l'énumération excessive et l'inaction passive, permettant ainsi une exploration efficace et un raisonnement précis. Des évaluations approfondies montrent que STAR-R1 atteint des performances de pointe sur les 11 métriques, surpassant le SFT de 23 % dans les scénarios inter-vues. Une analyse plus poussée révèle le comportement anthropomorphique de STAR-R1 et met en lumière sa capacité unique à comparer tous les objets pour améliorer le raisonnement spatial. Notre travail fournit des insights critiques pour faire progresser la recherche sur les MLLMs et les modèles de raisonnement. Les codes, les poids du modèle et les données seront disponibles publiquement à l'adresse https://github.com/zongzhao23/STAR-R1.
Bien que les modèles de diffusion masquée (MDM), tels que LLaDA, représentent un paradigme prometteur pour la modélisation du langage, relativement peu d'efforts ont été consacrés à l'alignement de ces modèles avec les préférences humaines via l'apprentissage par renforcement. Le défi provient principalement de la forte variance des estimations de vraisemblance basées sur la borne inférieure de l'évidence (ELBO) nécessaires pour l'optimisation des préférences. Pour résoudre ce problème, nous proposons l'Optimisation des Préférences à Variance Réduite (VRPO), un cadre qui analyse formellement la variance des estimateurs ELBO et établit des bornes sur le biais et la variance des gradients d'optimisation des préférences. Sur la base de ces fondements théoriques, nous introduisons des stratégies de réduction de variance non biaisées, incluant l'allocation optimale du budget Monte Carlo et l'échantillonnage antitétique, qui améliorent significativement les performances de l'alignement des MDM. Nous démontrons l'efficacité de VRPO en l'appliquant à LLaDA, et le modèle résultant, LLaDA 1.5, surpasse systématiquement et significativement son prédécesseur basé uniquement sur l'apprentissage supervisé (SFT) sur des benchmarks mathématiques (GSM8K +4.7), de code (HumanEval +3.0, MBPP +1.8) et d'alignement (IFEval +4.0, Arena-Hard +4.3). De plus, LLaDA 1.5 démontre une performance mathématique très compétitive par rapport aux MDM et ARM linguistiques puissants. Page du projet : https://ml-gsai.github.io/LLaDA-1.5-Demo/.
Les grands modèles de langage excellent dans la reconnaissance de motifs, mais peinent souvent à généraliser de manière systématique et compositionnelle. Nous proposons le principe de couverture : un cadre centré sur les données montrant que les modèles reposant principalement sur la reconnaissance de motifs pour les tâches compositionnelles ne peuvent pas généraliser de manière fiable au-delà de la substitution de fragments produisant des résultats identiques dans les mêmes contextes. Nous démontrons que ce cadre possède un fort pouvoir prédictif concernant les capacités de généralisation des Transformers. Premièrement, nous établissons et confirmons empiriquement que les données d'entraînement nécessaires pour une généralisation à deux sauts croissent au moins de manière quadratique avec la taille de l'ensemble de tokens, et que l'efficacité des données d'entraînement ne s'améliore pas avec un scaling des paramètres de 20x. Deuxièmement, pour les tâches compositionnelles présentant une ambiguïté de chemin où une variable affecte la sortie via plusieurs chemins de calcul, nous montrons que les Transformers apprennent des représentations d'état dépendantes du contexte qui compromettent à la fois la performance et l'interopérabilité. Troisièmement, la supervision par chaîne de pensée améliore l'efficacité des données d'entraînement pour les tâches multi-sauts, mais continue de lutter avec l'ambiguïté de chemin. Enfin, nous esquissons une taxonomie basée sur les mécanismes qui distingue trois manières dont les réseaux de neurones peuvent généraliser : basée sur la structure (limitée par la couverture), basée sur les propriétés (exploitant les invariances algébriques), et basée sur les opérateurs partagés (via la réutilisation de fonctions). Cette lentille conceptuelle contextualise nos résultats et met en lumière où de nouvelles idées architecturales sont nécessaires pour atteindre une compositionnalité systématique. Globalement, le principe de couverture offre une perspective unifiée pour comprendre le raisonnement compositionnel, et souligne la nécessité d'innovations fondamentales en architecture ou en entraînement pour atteindre une véritable compositionnalité systématique.
Les attaques d'inférence d'appartenance (MIAs) les plus avancées nécessitent généralement l'entraînement de nombreux modèles de référence, ce qui rend difficile leur mise à l'échelle pour les grands modèles de langage pré-entraînés (LLMs). Par conséquent, les recherches antérieures se sont soit appuyées sur des attaques plus faibles évitant l'entraînement de modèles de référence (par exemple, des attaques par ajustement fin), soit sur des attaques plus fortes appliquées à des modèles et des jeux de données de petite taille. Cependant, il a été démontré que les attaques plus faibles sont fragiles - atteignant un succès quasi arbitraire - et que les insights tirés des attaques fortes dans des contextes simplifiés ne se traduisent pas dans les LLMs actuels. Ces défis ont soulevé une question importante : les limitations observées dans les travaux antérieurs sont-elles dues aux choix de conception des attaques, ou les MIAs sont-elles fondamentalement inefficaces sur les LLMs ? Nous abordons cette question en mettant à l'échelle LiRA - l'une des MIAs les plus puissantes - pour des architectures GPT-2 allant de 10M à 1B de paramètres, en entraînant des modèles de référence sur plus de 20B de tokens issus du jeu de données C4. Nos résultats font progresser la compréhension des MIAs sur les LLMs de trois manières clés : (1) les MIAs fortes peuvent réussir sur les LLMs pré-entraînés ; (2) leur efficacité, cependant, reste limitée (par exemple, AUC<0.7) dans des contextes pratiques ; et (3) la relation entre le succès des MIAs et les métriques de confidentialité associées n'est pas aussi directe que les travaux antérieurs l'ont suggéré.
Les modèles de fondation deviennent de plus en plus performants en tant que programmeurs autonomes, soulevant la perspective qu'ils pourraient également automatiser des cyber-opérations offensives dangereuses. Les audits actuels des modèles de pointe explorent les risques de cybersécurité liés à ces agents, mais la plupart ne prennent pas en compte les degrés de liberté disponibles pour les adversaires dans le monde réel. En particulier, avec des vérificateurs robustes et des incitations financières, les agents dédiés à la cybersécurité offensive sont susceptibles d'être améliorés de manière itérative par des adversaires potentiels. Nous soutenons que les évaluations devraient intégrer un modèle de menace élargi dans le contexte de la cybersécurité, en mettant l'accent sur les différents degrés de liberté qu'un adversaire peut posséder dans des environnements étatiques et non étatiques, tout en respectant un budget de calcul fixe. Nous démontrons que, même avec un budget de calcul relativement modeste (8 heures de GPU H100 dans notre étude), les adversaires peuvent améliorer les capacités de cybersécurité d'un agent sur InterCode CTF de plus de 40 % par rapport à la référence initiale — sans aucune assistance externe. Ces résultats soulignent la nécessité d'évaluer les risques de cybersécurité des agents de manière dynamique, offrant ainsi une représentation plus fidèle des risques encourus.
L'apprentissage par renforcement traditionnel à partir de retours humains (RLHF) repose souvent sur des modèles de récompense, supposant fréquemment des structures de préférences comme le modèle de Bradley-Terry, qui peuvent ne pas capturer avec précision les complexités des préférences humaines réelles (par exemple, l'intransitivité). L'apprentissage de Nash à partir de retours humains (NLHF) propose une alternative plus directe en formulant le problème comme la recherche d'un équilibre de Nash dans un jeu défini par ces préférences. Dans ce travail, nous introduisons Nash Mirror Prox (Nash-MP), un algorithme NLHF en ligne qui exploite le schéma d'optimisation Mirror Prox pour atteindre une convergence rapide et stable vers l'équilibre de Nash. Notre analyse théorique établit que Nash-MP présente une convergence linéaire de la dernière itération vers l'équilibre de Nash régularisé par beta. Plus précisément, nous prouvons que la divergence de Kullback-Leibler par rapport à la politique optimale diminue à un taux de l'ordre de (1+2beta)^{-N/2}, où N est le nombre de requêtes de préférences. Nous démontrons également une convergence linéaire de la dernière itération pour l'écart d'exploitabilité et uniformément pour la semi-norme de l'écart des log-probabilités, tous ces taux étant indépendants de la taille de l'espace d'actions. De plus, nous proposons et analysons une version approximative de Nash-MP où les étapes proximales sont estimées en utilisant des gradients de politique stochastiques, rapprochant ainsi l'algorithme des applications pratiques. Enfin, nous détaillons une stratégie d'implémentation pratique pour le réglage fin de grands modèles de langage et présentons des expériences qui démontrent ses performances compétitives et sa compatibilité avec les méthodes existantes.
L'apprentissage par renforcement montre un potentiel pour améliorer les capacités de raisonnement des grands modèles de langage, mais il est difficile de le mettre à l'échelle en raison de la faible efficacité des échantillons pendant la phase de déploiement. Les méthodes existantes tentent d'améliorer cette efficacité en planifiant les problèmes en fonction de leur difficulté. Cependant, ces approches souffrent d'estimations instables et biaisées de la difficulté des problèmes et ne parviennent pas à capturer l'alignement entre la compétence du modèle et la difficulté des problèmes lors de l'entraînement par renforcement, ce qui conduit à des résultats sous-optimaux. Pour surmonter ces limitations, cet article introduit l'**Échantillonnage Aligné sur la Compétence-Difficulté (CDAS)**, qui permet une estimation précise et stable de la difficulté des problèmes en agrégeant les écarts de performance historiques des problèmes. Ensuite, la compétence du modèle est quantifiée pour sélectionner de manière adaptative les problèmes dont la difficulté est alignée avec la compétence actuelle du modèle, en utilisant un système à point fixe. Les résultats expérimentaux sur une série de benchmarks mathématiques difficiles montrent que CDAS réalise des améliorations significatives en termes de précision et d'efficacité. CDAS atteint la précision moyenne la plus élevée par rapport aux méthodes de référence et présente des avantages significatifs en termes de vitesse par rapport à l'**Échantillonnage Dynamique**, une stratégie concurrente dans DAPO, qui est 2,33 fois plus lent que CDAS.
Avec le succès croissant des modèles de raisonnement dans des tâches complexes de traitement du langage naturel, les chercheurs de la communauté de la Recherche d'Information (RI) ont commencé à explorer comment des capacités de raisonnement similaires pourraient être intégrées dans des réorganisateurs de passages basés sur des modèles de langage à grande échelle (LLM). Ces méthodes utilisent généralement un LLM pour produire un processus de raisonnement explicite, étape par étape, avant d'arriver à une prédiction finale de pertinence. Mais le raisonnement améliore-t-il réellement la précision de la réorganisation ? Dans cet article, nous approfondissons cette question en étudiant l'impact du processus de raisonnement en comparant des réorganisateurs ponctuels basés sur le raisonnement (ReasonRR) à des réorganisateurs ponctuels standards sans raisonnement (StandardRR) dans des conditions d'entraînement identiques, et nous observons que StandardRR surpasse généralement ReasonRR. Sur la base de cette observation, nous étudions ensuite l'importance du raisonnement pour ReasonRR en désactivant son processus de raisonnement (ReasonRR-NoReason), et nous constatons que ReasonRR-NoReason est étonnamment plus efficace que ReasonRR. En examinant la cause de ce résultat, nos conclusions révèlent que les réorganisateurs basés sur le raisonnement sont limités par le processus de raisonnement du LLM, qui les pousse vers des scores de pertinence polarisés et ne parvient donc pas à considérer la pertinence partielle des passages, un facteur clé pour la précision des réorganisateurs ponctuels.
Les autoencodeurs parcimonieux (SAE) constituent un outil majeur en interprétabilité mécaniste (MI) pour décomposer les activations des réseaux de neurones en caractéristiques interprétables. Cependant, l'aspiration à identifier un ensemble canonique de caractéristiques est mise à mal par l'incohérence observée des caractéristiques apprises par les SAE entre différentes sessions d'entraînement, ce qui compromet la fiabilité et l'efficacité de la recherche en MI. Ce document de position soutient que l'interprétabilité mécaniste devrait privilégier la cohérence des caractéristiques dans les SAE -- c'est-à-dire la convergence fiable vers des ensembles de caractéristiques équivalents lors de sessions indépendantes. Nous proposons d'utiliser le coefficient de corrélation moyen par paires de dictionnaires (PW-MCC) comme métrique pratique pour opérationnaliser cette cohérence et démontrons que des niveaux élevés sont atteignables (0,80 pour les SAE TopK sur les activations de LLM) avec des choix architecturaux appropriés. Nos contributions incluent la description des avantages de privilégier la cohérence ; la fourniture d'un fondement théorique et d'une validation synthétique à l'aide d'un organisme modèle, qui confirme que le PW-MCC est un proxy fiable pour la récupération de la vérité terrain ; et l'extension de ces résultats à des données réelles de LLM, où une forte cohérence des caractéristiques est fortement corrélée à la similarité sémantique des explications des caractéristiques apprises. Nous appelons à un changement communautaire vers la mesure systématique de la cohérence des caractéristiques pour favoriser un progrès cumulatif robuste en MI.
Les grands modèles de langage (LLMs) ont démontré d'excellentes capacités dans le domaine des réponses aux questions biomédicales, mais leur application dans les consultations cliniques réelles rencontre encore des défis majeurs. Les systèmes existants reposent sur un mode de transmission d'information unidirectionnel où les patients doivent décrire complètement leurs symptômes en une seule fois, ce qui conduit à des recommandations diagnostiques non spécifiques lorsque les plaintes sont vagues. Les méthodes traditionnelles de dialogue multi-tours basées sur l'apprentissage supervisé sont limitées par des paradigmes statiques axés sur les données, manquant de généralisation et peinant à extraire intelligemment les informations cliniques clés. Pour surmonter ces limitations, nous proposons DoctorAgent-RL, un cadre collaboratif multi-agent basé sur l'apprentissage par renforcement (RL) qui modélise les consultations médicales comme un processus dynamique de prise de décision dans l'incertitude. L'agent médecin optimise continuellement sa stratégie de questionnement dans le cadre RL grâce à des interactions multi-tours avec l'agent patient, ajustant dynamiquement son chemin de collecte d'informations en fonction des récompenses globales de l'Évaluateur de Consultation. Ce mécanisme de réglage fin par RL permet aux LLMs de développer de manière autonome des stratégies d'interaction alignées sur la logique du raisonnement clinique, plutôt que d'imiter superficiellement les modèles dans les données de dialogue existantes. Notamment, nous avons construit MTMedDialog, le premier ensemble de données de consultation médicale multi-tours en anglais capable de simuler des interactions patient. Les expériences montrent que DoctorAgent-RL surpasse les modèles existants à la fois en capacité de raisonnement multi-tours et en performance diagnostique finale, démontrant une valeur pratique dans l'assistance aux consultations cliniques. https://github.com/JarvisUSTC/DoctorAgent-RL
Les récents progrès dans les modèles de langage à grande échelle (LLMs) ont introduit le raisonnement latent comme une alternative prometteuse au raisonnement autorégressif. En effectuant des calculs internes avec des états cachés issus des étapes précédentes, le raisonnement latent bénéficie de caractéristiques plus informatives plutôt que de l'échantillonnage d'un chemin discret de pensée en chaîne (CoT). Cependant, les approches de raisonnement latent sont souvent incompatibles avec les LLMs, car leur paradigme continu entre en conflit avec la nature discrète de la génération autorégressive. De plus, ces méthodes s'appuient sur des traces CoT pour l'entraînement et échouent ainsi à exploiter les schémas de raisonnement inhérents aux LLMs. Dans ce travail, nous explorons le raisonnement latent en tirant parti des capacités intrinsèques des LLMs via l'apprentissage par renforcement (RL). À cette fin, nous introduisons l'optimisation de politique de raisonnement hybride (HRPO), une approche de raisonnement latent hybride basée sur le RL qui (1) intègre les états cachés précédents dans les tokens échantillonnés avec un mécanisme de gating apprenable, et (2) initialise l'entraînement principalement avec des embeddings de tokens tout en incorporant progressivement davantage de caractéristiques cachées. Cette conception préserve les capacités génératives des LLMs et encourage un raisonnement hybride utilisant à la fois des représentations discrètes et continues. En outre, l'HRPO hybride introduit une stochastique dans le raisonnement latent via l'échantillonnage de tokens, permettant ainsi une optimisation basée sur le RL sans nécessiter de trajectoires CoT. Des évaluations approfondies sur divers benchmarks montrent que l'HRPO surpasse les méthodes antérieures dans des tâches à la fois intensives en connaissances et en raisonnement. De plus, les LLMs entraînés avec HRPO restent interprétables et présentent des comportements intrigants comme des schémas multilingues et des longueurs de complétion plus courtes, mettant en lumière le potentiel de notre approche basée sur le RL et offrant des perspectives pour les travaux futurs sur le raisonnement latent.
La cartographie active généralisable dans des environnements complexes et inconnus reste un défi critique pour les robots mobiles. Les méthodes existantes, limitées par des données d'entraînement insuffisantes et des stratégies d'exploration conservatrices, présentent une généralisabilité limitée à travers des scènes aux configurations variées et à la connectivité complexe. Pour permettre un entraînement scalable et une évaluation fiable, nous introduisons GLEAM-Bench, le premier benchmark à grande échelle conçu pour la cartographie active généralisable, comprenant 1 152 scènes 3D variées issues de jeux de données synthétiques et de scans réels. Sur cette base, nous proposons GLEAM, une politique d'exploration généralisée unifiée pour la cartographie active. Sa supériorité en termes de généralisabilité découle principalement de nos représentations sémantiques, d'objectifs navigables à long terme et de stratégies randomisées. Elle surpasse significativement les méthodes de pointe, atteignant une couverture de 66,50 % (+9,49 %) avec des trajectoires efficaces et une précision de cartographie améliorée sur 128 scènes complexes inédites. Page du projet : https://xiao-chen.tech/gleam/.
Les grands modèles de langage (LLMs) sont généralement alignés pour respecter les directives de sécurité en refusant les instructions nuisibles. Une attaque récente, appelée ablitération, isole et supprime la direction latente unique la plus responsable du comportement de refus, permettant au modèle de générer du contenu contraire à l'éthique. Nous proposons une défense qui modifie la manière dont les modèles génèrent les refus. Nous construisons un ensemble de données de refus étendu qui contient des invites nuisibles accompagnées d'une réponse complète justifiant la raison du refus. Nous affinons ensuite Llama-2-7B-Chat et Qwen2.5-Instruct (1,5 et 3 milliards de paramètres) sur notre ensemble de données de refus étendu, et évaluons les systèmes résultants sur un ensemble d'invites nuisibles. Dans nos expériences, les modèles de refus étendu maintiennent des taux de refus élevés, diminuant au maximum de 10 %, tandis que les taux de refus des modèles de base chutent de 70 à 80 % après ablitération. Une évaluation approfondie de la sécurité et de l'utilité montre que l'affinage par refus étendu neutralise l'attaque d'ablitération tout en préservant les performances générales.
L'apprentissage par renforcement (Reinforcement Learning, RL) a joué un rôle central dans l'essor récent des capacités mathématiques des LLMs (Large Language Models) en permettant l'auto-amélioration grâce à des signaux de vérification binaires. En revanche, l'apprentissage supervisé (Supervised Learning, SL) est rarement envisagé pour ce type d'entraînement basé sur la vérification, principalement en raison de sa forte dépendance aux réponses de référence et de son incapacité à réfléchir sur les erreurs. Dans ce travail, nous remettons en question l'idée prédominante selon laquelle l'auto-amélioration est exclusive au RL et proposons le Fine-Tuning Sensible aux Négatifs (Negative-aware Fine-Tuning, NFT) — une approche supervisée qui permet aux LLMs de réfléchir à leurs échecs et de s'améliorer de manière autonome sans enseignants externes. Dans l'entraînement en ligne, au lieu de rejeter les réponses négatives auto-générées, NFT construit une politique implicite négative pour les modéliser. Cette politique implicite est paramétrée avec le même LLM positif que nous cherchons à optimiser sur les données positives, permettant ainsi une optimisation directe de la politique sur toutes les générations des LLMs. Nous menons des expériences sur des modèles de 7B et 32B dans des tâches de raisonnement mathématique. Les résultats montrent systématiquement qu'en tirant parti des retours négatifs, NFT améliore significativement les performances par rapport aux bases de référence en SL comme le Fine-Tuning par échantillonnage de rejet, égalant voire surpassant des algorithmes de RL leaders comme GRPO et DAPO. De plus, nous démontrons que NFT et GRPO sont en fait équivalents dans un entraînement strictement sur-politique, bien qu'ils proviennent de fondements théoriques entièrement différents. Nos expériences et conclusions théoriques comblent le fossé entre les méthodes SL et RL dans les systèmes d'apprentissage à retour binaire.
Les grands modèles de langage (LLMs) sont sujets à des hallucinations, en particulier lors de tâches complexes nécessitant des raisonnements multiples, comme la résolution de problèmes mathématiques. Alors que les modèles de récompense basés sur les résultats vérifient uniquement les réponses finales, les modèles de récompense basés sur le processus (PRMs) évaluent chaque étape intermédiaire pour orienter la génération vers des solutions cohérentes. Nous présentons PathFinder-PRM, un nouveau PRM discriminatif hiérarchique et conscient des erreurs qui classe d'abord les erreurs mathématiques et de cohérence à chaque étape, puis combine ces signaux fins pour estimer la justesse de l'étape. Pour entraîner PathFinder-PRM, nous avons construit un ensemble de données de 400 000 échantillons en enrichissant le corpus PRM800K annoté manuellement et les traces RLHFlow Mistral avec des étiquettes tridimensionnelles au niveau des étapes. Sur PRMBench, PathFinder-PRM atteint un nouveau record avec un PRMScore de 67,7, surpassant le précédent meilleur score (65,5) tout en utilisant trois fois moins de données. Lorsqu'il est appliqué à une recherche gloutonne guidée par récompense, notre modèle obtient un prm@8 de 48,3, soit une amélioration de 1,5 point par rapport au meilleur modèle de référence. Ces résultats démontrent que la détection d'erreurs découplée et l'estimation des récompenses non seulement améliorent la détection fine des erreurs, mais améliorent également de manière significative le raisonnement mathématique guidé par récompense de bout en bout, avec une meilleure efficacité des données.
Depuis près d'une décennie, la communauté académique étudie les backdoors dans les réseaux de neurones, en se concentrant principalement sur les tâches de classification où les adversaires manipulent les prédictions du modèle. Bien que clairement malveillantes, l'impact concret de ces attaques altérant les prédictions est resté incertain. Dans cet article, nous introduisons une nouvelle classe de backdoors, bien plus puissante, qui s'appuie sur les avancées récentes en matière de backdoors architecturales. Nous démontrons comment ces backdoors peuvent être spécifiquement conçues pour exploiter l'inférence par lots, une technique courante pour optimiser l'utilisation du matériel, permettant ainsi la manipulation et le vol à grande échelle des données utilisateurs. En ciblant le processus de batching, ces backdoors architecturales facilitent la fuite d'informations entre les requêtes utilisateurs concurrentes et permettent aux attaquants de contrôler entièrement les réponses du modèle destinées à d'autres utilisateurs au sein du même lot. En d'autres termes, un attaquant capable de modifier l'architecture du modèle peut définir et voler les entrées et sorties du modèle d'autres utilisateurs dans le même lot. Nous montrons que de telles attaques sont non seulement réalisables, mais aussi alarmamment efficaces, peuvent être facilement injectées dans les architectures de modèles prévalentes, et représentent une menace véritablement malveillante pour la confidentialité des utilisateurs et l'intégrité du système. De manière cruciale, pour contrer cette nouvelle classe de vulnérabilités, nous proposons une stratégie de mitigation déterministe qui offre des garanties formelles contre ce nouveau vecteur d'attaque, contrairement aux travaux antérieurs qui s'appuyaient sur les modèles de langage de grande taille pour détecter les backdoors. Notre stratégie de mitigation utilise un nouveau mécanisme de Contrôle de Flux d'Information qui analyse le graphe du modèle et prouve la non-interférence entre les différentes entrées utilisateurs au sein du même lot. En utilisant notre stratégie de mitigation, nous réalisons une analyse à grande échelle des modèles hébergés sur Hugging Face et identifions plus de 200 modèles qui introduisent (involontairement) des fuites d'information entre les entrées de lots en raison de l'utilisation de la quantification dynamique.
Le post-entraînement a démontré son importance pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Les principales méthodes de post-entraînement peuvent être classées en deux catégories : le réglage fin supervisé (SFT) et le réglage fin par renforcement (RFT). Le SFT est efficace et bien adapté aux petits modèles de langage, mais il peut entraîner un surajustement et limiter les capacités de raisonnement des modèles plus grands. En revanche, le RFT offre généralement une meilleure généralisation, mais dépend fortement de la robustesse du modèle de base. Pour surmonter les limites du SFT et du RFT, nous proposons le réglage fin unifié (UFT), un nouveau paradigme de post-entraînement qui unifie le SFT et le RFT en un processus unique et intégré. L'UFT permet au modèle d'explorer efficacement des solutions tout en intégrant des signaux de supervision informatifs, comblant ainsi l'écart entre la mémorisation et la réflexion inhérents aux méthodes existantes. De manière notable, l'UFT surpasse à la fois le SFT et le RFT en général, quelle que soit la taille du modèle. Par ailleurs, nous démontrons théoriquement que l'UFT brise le goulot d'étranglement exponentiel de la complexité d'échantillonnage inhérent au RFT, montrant pour la première fois qu'un entraînement unifié peut accélérer exponentiellement la convergence sur des tâches de raisonnement à long terme.
Les modèles de langage de grande taille (LLMs) excellent dans le raisonnement complexe grâce à des algorithmes de recherche, mais les stratégies actuelles souffrent souvent d'une consommation massive de tokens en raison de l'exploration redondante d'étapes sémantiquement équivalentes. Les méthodes existantes de similarité sémantique peinent à identifier avec précision une telle équivalence dans des contextes spécifiques comme le raisonnement mathématique. Pour remédier à cela, nous proposons EquivPruner, une approche simple mais efficace qui identifie et élimine les actions sémantiquement équivalentes lors de la recherche de raisonnement des LLMs. Nous introduisons également MathEquiv, le premier ensemble de données que nous avons créé pour l'équivalence des énoncés mathématiques, permettant l'entraînement d'un détecteur d'équivalence léger. Des expériences approfondies sur divers modèles et tâches démontrent qu'EquivPruner réduit significativement la consommation de tokens, améliorant l'efficacité de la recherche et souvent renforçant la précision du raisonnement. Par exemple, lorsqu'il est appliqué à Qwen2.5-Math-7B-Instruct sur GSM8K, EquivPruner a réduit la consommation de tokens de 48,1 % tout en améliorant la précision. Notre code est disponible à l'adresse https://github.com/Lolo1222/EquivPruner.
Un nombre croissant de modèles autorégressifs, tels que MAR, FlowAR, xAR et Harmon, adoptent l'échantillonnage par diffusion pour améliorer la qualité de la génération d'images. Cependant, cette stratégie entraîne une faible efficacité d'inférence, car il faut généralement entre 50 et 100 étapes de diffusion pour échantillonner un token. Cet article explore comment résoudre efficacement ce problème. Notre motivation clé est qu'à mesure que davantage de tokens sont générés au cours du processus autorégressif, les tokens suivants suivent des distributions plus contraintes et sont plus faciles à échantillonner. Pour l'expliquer intuitivement, si un modèle a généré une partie d'un chien, les tokens restants doivent compléter le chien et sont donc plus contraints. Des preuves empiriques soutiennent notre motivation : aux étapes ultérieures de la génération, les tokens suivants peuvent être bien prédits par un perceptron multicouche, présentent une faible variance et suivent des trajectoires de débruitage plus proches de lignes droites, du bruit au token. Sur la base de cette découverte, nous introduisons l'**annealing des étapes de diffusion (DiSA)**, une méthode sans entraînement qui utilise progressivement moins d'étapes de diffusion à mesure que davantage de tokens sont générés, par exemple en utilisant 50 étapes au début et en diminuant progressivement à 5 étapes aux étapes ultérieures. Comme DiSA découle de notre découverte spécifique à la diffusion dans les modèles autorégressifs, elle est complémentaire aux méthodes d'accélération existantes conçues uniquement pour la diffusion. DiSA peut être implémentée en quelques lignes de code sur les modèles existants, et bien que simple, elle permet une inférence 5 à 10 fois plus rapide pour MAR et Harmon, et 1,4 à 2,5 fois plus rapide pour FlowAR et xAR, tout en maintenant la qualité de la génération.
La quantification de l'incertitude est essentielle pour évaluer la fiabilité et la crédibilité des systèmes d'IA modernes. Parmi les approches existantes, l'incertitude verbalisée, où les modèles expriment leur confiance à travers le langage naturel, s'est imposée comme une solution légère et interprétable dans les grands modèles de langage (LLM). Cependant, son efficacité dans les modèles vision-langage (VLM) reste insuffisamment étudiée. Dans ce travail, nous menons une évaluation complète de la confiance verbalisée dans les VLM, couvrant trois catégories de modèles, quatre domaines de tâches et trois scénarios d'évaluation. Nos résultats montrent que les VLM actuels présentent souvent une mauvaise calibration notable à travers diverses tâches et configurations. Notamment, les modèles de raisonnement visuel (c'est-à-dire, penser avec des images) affichent systématiquement une meilleure calibration, suggérant que le raisonnement spécifique à la modalité est crucial pour une estimation fiable de l'incertitude. Pour mieux répondre aux défis de calibration, nous introduisons le Visual Confidence-Aware Prompting, une stratégie d'invitation en deux étapes qui améliore l'alignement de la confiance dans les contextes multimodaux. Globalement, notre étude met en lumière la mauvaise calibration inhérente des VLM à travers les modalités. Plus largement, nos résultats soulignent l'importance fondamentale de l'alignement des modalités et de la fidélité des modèles pour faire progresser les systèmes multimodaux fiables.
Les récents modèles de langage de grande envergure tels que Gemini-1.5, DeepSeek-V3 et Llama-4 adoptent de plus en plus des architectures de type Mixture-of-Experts (MoE), qui offrent un compromis efficacité-performance en activant seulement une fraction du modèle par token. Cependant, les chercheurs académiques manquent encore d'une plateforme MoE entièrement ouverte et de bout en bout pour étudier la mise à l'échelle, le routage et le comportement des experts. Nous présentons FLAME-MoE, une suite de recherche entièrement open-source composée de sept modèles décodeurs uniquement, allant de 38 millions à 1,7 milliard de paramètres actifs, dont l'architecture—64 experts avec un gating top-8 et 2 experts partagés—reflète étroitement les modèles de langage modernes en production. Tous les pipelines de données d'entraînement, scripts, logs et points de contrôle sont publiquement disponibles pour permettre une expérimentation reproductible. Sur six tâches d'évaluation, FLAME-MoE améliore la précision moyenne jusqu'à 3,4 points par rapport aux modèles denses entraînés avec un nombre identique d'opérations en virgule flottante (FLOPs). En tirant parti de la transparence complète des traces d'entraînement, nous présentons des analyses initiales montrant que (i) les experts se spécialisent de plus en plus sur des sous-ensembles distincts de tokens, (ii) les matrices de co-activation restent clairsemées, reflétant une utilisation diversifiée des experts, et (iii) le comportement de routage se stabilise tôt dans l'entraînement. Tous les codes, logs d'entraînement et points de contrôle des modèles sont disponibles à l'adresse https://github.com/cmu-flame/FLAME-MoE.
Les générateurs d'images multimodaux récents, tels que GPT-4o, Gemini 2.0 Flash et Gemini 2.5 Pro, excellent dans le suivi d'instructions complexes, l'édition d'images et le maintien de la cohérence des concepts. Cependant, ils sont encore évalués par des ensembles d'outils disjoints : des benchmarks de génération de texte à image (T2I) qui manquent de conditionnement multimodal, et des benchmarks de génération d'images personnalisées qui négligent la sémantique compositionnelle et les connaissances communes. Nous proposons MMIG-Bench, un benchmark complet de génération d'images multimodales qui unifie ces tâches en associant 4 850 prompts textuels richement annotés à 1 750 images de référence multivues couvrant 380 sujets, incluant des humains, des animaux, des objets et des styles artistiques. MMIG-Bench est équipé d'un cadre d'évaluation à trois niveaux : (1) des métriques de bas niveau pour les artefacts visuels et la préservation de l'identité des objets ; (2) un nouveau score d'alignement d'aspect (AMS) : une métrique de niveau intermédiaire basée sur des questions-réponses visuelles (VQA) qui offre un alignement fin entre le prompt et l'image et montre une forte corrélation avec les jugements humains ; et (3) des métriques de haut niveau pour l'esthétique et les préférences humaines. En utilisant MMIG-Bench, nous évaluons 17 modèles de pointe, dont Gemini 2.5 Pro, FLUX, DreamBooth et IP-Adapter, et validons nos métriques avec 32 000 évaluations humaines, fournissant des insights approfondis sur l'architecture et la conception des données. Nous publierons le jeu de données et le code d'évaluation pour favoriser une évaluation rigoureuse et unifiée et accélérer les futures innovations dans la génération d'images multimodales.
Les grands modèles de langage (LLMs) actuels ont démontré des capacités émergentes dans des tâches d'intelligence sociale, notamment la résolution d'implicature (Sravanthi et al., 2024) et le raisonnement théorie de l'esprit (Shapira et al., 2024), qui nécessitent toutes deux une compréhension pragmatique approfondie. Cependant, la manière dont les LLMs acquièrent cette compétence au cours du processus d'entraînement reste mal comprise. Dans ce travail, nous introduisons ALTPRAG, un ensemble de données fondé sur le concept pragmatique d'alternatives, conçu pour évaluer si les LLMs à différents stades d'entraînement peuvent inférer avec précision les intentions nuancées d'un locuteur. Chaque instance associe deux continuations contextuellement appropriées mais pragmatiquement distinctes, permettant une évaluation fine à la fois de l'interprétation pragmatique et du raisonnement contrastif. Nous évaluons systématiquement 22 LLMs à travers les étapes clés de l'entraînement : pré-entraînement, fine-tuning supervisé (SFT) et optimisation des préférences, afin d'examiner le développement de la compétence pragmatique. Nos résultats montrent que même les modèles de base présentent une sensibilité notable aux indices pragmatiques, qui s'améliore de manière cohérente avec l'augmentation de l'échelle des modèles et des données. De plus, le SFT et le RLHF contribuent à des gains supplémentaires, en particulier dans le raisonnement cognitivo-pragmatique. Ces résultats mettent en lumière la compétence pragmatique comme une propriété émergente et compositionnelle de l'entraînement des LLMs et offrent de nouvelles perspectives pour aligner les modèles sur les normes de communication humaines.
Les grands modèles fondationnels multimodaux, en particulier dans les domaines du langage et de la vision, ont considérablement fait progresser diverses tâches, notamment la robotique, la conduite autonome, la recherche d'information et l'ancrage. Cependant, beaucoup de ces modèles perçoivent les objets comme indivisibles, négligeant les composants qui les constituent. Comprendre ces composants et leurs affordances associées fournit des informations précieuses sur la fonctionnalité d'un objet, ce qui est fondamental pour accomplir une large gamme de tâches. Dans ce travail, nous introduisons un nouveau benchmark en conditions réelles, InstructPart, comprenant des annotations de segmentation de parties étiquetées manuellement et des instructions orientées tâches pour évaluer la performance des modèles actuels dans la compréhension et l'exécution de tâches au niveau des parties dans des contextes quotidiens. À travers nos expériences, nous démontrons que la segmentation de parties orientée tâches reste un problème complexe, même pour les modèles vision-langage (VLMs) de pointe. En plus de notre benchmark, nous introduisons une base de référence simple qui permet d'améliorer les performances par un facteur deux grâce à un affinage avec notre jeu de données. Avec notre jeu de données et notre benchmark, nous visons à faciliter la recherche sur la segmentation de parties orientée tâches et à améliorer l'applicabilité des VLMs dans divers domaines, notamment la robotique, la réalité virtuelle, la recherche d'information et d'autres domaines connexes. Site web du projet : https://zifuwan.github.io/InstructPart/.
Les avancées récentes, telles que le *Chain-of-Thought prompting*, ont considérablement amélioré les grands modèles de langage (LLMs) dans le raisonnement médical en *zero-shot*. Cependant, les méthodes basées sur l’incitation restent souvent superficielles et instables, tandis que les LLMs médicaux affinés souffrent d’une mauvaise généralisation face aux changements de distribution et d’une adaptabilité limitée à des scénarios cliniques inédits. Pour répondre à ces limitations, nous présentons TAGS, un cadre opérationnel en temps réel qui combine un généraliste polyvalent avec un spécialiste spécifique au domaine pour offrir des perspectives complémentaires sans aucun affinement de modèle ni mise à jour de paramètres. Pour soutenir ce processus de raisonnement généraliste-spécialiste, nous introduisons deux modules auxiliaires : un mécanisme de récupération hiérarchique qui fournit des exemples multi-échelles en sélectionnant des cas basés sur des similarités sémantiques et de raisonnement, ainsi qu’un évaluateur de fiabilité qui juge la cohérence du raisonnement pour guider l’agrégation finale des réponses. TAGS obtient des performances solides sur neuf benchmarks MedQA, augmentant la précision de GPT-4o de 13,8 %, celle de DeepSeek-R1 de 16,8 %, et améliorant un modèle 7B standard de 14,1 % à 23,9 %. Ces résultats surpassent plusieurs LLMs médicaux affinés, sans aucune mise à jour de paramètres. Le code sera disponible à l’adresse https://github.com/JianghaoWu/TAGS.
Avec les avancées des modèles audio-langage de grande échelle (LALMs), qui enrichissent les modèles de langage de grande échelle (LLMs) avec des capacités auditives, ces modèles sont censés démontrer une compétence universelle dans diverses tâches auditives. Bien que de nombreux benchmarks aient émergé pour évaluer les performances des LALMs, ils restent fragmentés et manquent d'une taxonomie structurée. Pour combler cette lacune, nous menons une étude approfondie et proposons une taxonomie systématique pour les évaluations des LALMs, les catégorisant en quatre dimensions basées sur leurs objectifs : (1) Conscience et traitement auditif général, (2) Connaissance et raisonnement, (3) Capacité orientée dialogue, et (4) Équité, sécurité et fiabilité. Nous fournissons des aperçus détaillés pour chaque catégorie et mettons en lumière les défis dans ce domaine, offrant des perspectives sur les directions futures prometteuses. À notre connaissance, il s'agit de la première étude spécifiquement axée sur les évaluations des LALMs, fournissant des lignes directrices claires pour la communauté. Nous publierons la collection des articles étudiés et la maintiendrons activement pour soutenir les avancées continues dans ce domaine.
Malgré les progrès récents en robotique polyvalente, les politiques robotiques restent encore loin derrière les capacités humaines de base dans le monde réel. Les humains interagissent constamment avec le monde physique, pourtant cette riche ressource de données reste largement inexploitée dans l'apprentissage des robots. Nous proposons EgoZero, un système minimal qui apprend des politiques de manipulation robustes à partir de démonstrations humaines capturées avec les lunettes intelligentes Project Aria, et sans aucune donnée robotique. EgoZero permet : (1) l'extraction d'actions complètes et exécutables par un robot à partir de démonstrations humaines égocentriques en conditions réelles, (2) la compression des observations visuelles humaines en représentations d'état indépendantes de la morphologie, et (3) l'apprentissage de politiques en boucle fermée qui généralisent morphologiquement, spatialement et sémantiquement. Nous déployons les politiques d'EgoZero sur un robot Franka Panda équipé d'une pince et démontrons un transfert zero-shot avec un taux de réussite de 70 % sur 7 tâches de manipulation, avec seulement 20 minutes de collecte de données par tâche. Nos résultats suggèrent que les données humaines en conditions réelles peuvent servir de fondation évolutive pour l'apprentissage des robots dans le monde réel - ouvrant la voie vers un avenir de données d'entraînement abondantes, diversifiées et naturalistes pour les robots. Le code et les vidéos sont disponibles à l'adresse https://egozero-robot.github.io.
L'extraction de métadonnées est essentielle pour le catalogage et la préservation des ensembles de données, permettant une découverte et une reproductibilité efficaces de la recherche, en particulier compte tenu de la croissance exponentielle actuelle de la recherche scientifique. Bien que Masader (Alyafeai et al., 2021) ait posé les bases pour l'extraction d'un large éventail d'attributs de métadonnées à partir d'articles scientifiques sur les ensembles de données en traitement automatique du langage naturel (TALN) en arabe, il repose fortement sur l'annotation manuelle. Dans cet article, nous présentons MOLE, un cadre qui exploite les modèles de langage de grande taille (LLMs) pour extraire automatiquement les attributs de métadonnées à partir d'articles scientifiques couvrant des ensembles de données dans des langues autres que l'arabe. Notre méthodologie basée sur un schéma traite des documents entiers dans plusieurs formats d'entrée et intègre des mécanismes de validation robustes pour une sortie cohérente. De plus, nous introduisons un nouveau benchmark pour évaluer les progrès de la recherche sur cette tâche. À travers une analyse systématique de la longueur du contexte, de l'apprentissage par quelques exemples (few-shot learning) et de l'intégration de la navigation web, nous démontrons que les LLMs modernes montrent des résultats prometteurs dans l'automatisation de cette tâche, soulignant la nécessité d'améliorations futures pour garantir des performances cohérentes et fiables. Nous mettons à disposition le code : https://github.com/IVUL-KAUST/MOLE et l'ensemble de données : https://huggingface.co/datasets/IVUL-KAUST/MOLE pour la communauté de recherche.
Cet article étudie l'émergence de caractéristiques catégoriques interprétables au sein des grands modèles de langage (LLMs), en analysant leur comportement à travers les points de contrôle d'entraînement (temps), les couches de transformateurs (espace) et les tailles variables des modèles (échelle). En utilisant des autoencodeurs parcimonieux pour l'interprétabilité mécaniste, nous identifions quand et où des concepts sémantiques spécifiques émergent au sein des activations neuronales. Les résultats indiquent des seuils temporels et spécifiques à l'échelle clairs pour l'émergence des caractéristiques dans plusieurs domaines. Notamment, l'analyse spatiale révèle une réactivation sémantique inattendue, avec des caractéristiques des couches précoces réapparaissant dans les couches ultérieures, remettant en question les hypothèses standard sur la dynamique représentationnelle dans les modèles de transformateurs.
Les méthodes de pilotage ont émergé comme des outils efficaces et ciblés pour guider le comportement des grands modèles de langage (LLMs) sans modifier leurs paramètres. Cependant, les grands modèles de langage multimodaux (MLLMs) ne bénéficient pas actuellement de la même panoplie de techniques, en partie à cause de leur récence et de leur diversité architecturale. Inspirés par cette lacune, nous explorons si les MLLMs peuvent être pilotés en utilisant des vecteurs dérivés de leur architecture de base textuelle (LLM), via des autoencodeurs épars (SAEs), le décalage moyen (mean shift) et la sonde linéaire (linear probing). Nous constatons que le pilotage basé sur le texte améliore systématiquement la précision multimodale à travers diverses architectures de MLLMs et tâches visuelles. En particulier, le décalage moyen augmente la précision des relations spatiales sur CV-Bench jusqu'à +7,3 % et la précision du comptage jusqu'à +3,3 %, surpassant les techniques d'incitation (prompting) et montrant une forte généralisation aux ensembles de données hors distribution. Ces résultats mettent en évidence les vecteurs de pilotage textuels comme un mécanisme puissant et efficace pour améliorer l'ancrage dans les MLLMs avec un surcoût minimal en collecte de données et en calcul.
L'apprentissage par renforcement hors ligne conditionné par objectifs (GCRL) propose un paradigme d'apprentissage pratique où les politiques de réalisation d'objectifs sont entraînées à partir de vastes ensembles de données non étiquetées (sans récompense) sans interaction supplémentaire avec l'environnement. Cependant, le GCRL hors ligne rencontre toujours des difficultés avec les tâches à long horizon, même avec les avancées récentes qui utilisent des structures de politiques hiérarchiques, comme HIQL. En identifiant la cause profonde de ce défi, nous observons les constats suivants : Premièrement, les goulots d'étranglement de performance proviennent principalement de l'incapacité de la politique de haut niveau à générer des sous-objectifs appropriés. Deuxièmement, lors de l'apprentissage de la politique de haut niveau dans le régime à long horizon, le signe du signal d'avantage devient fréquemment incorrect. Ainsi, nous soutenons qu'améliorer la fonction de valeur pour produire un signal d'avantage clair pour l'apprentissage de la politique de haut niveau est essentiel. Dans cet article, nous proposons une solution simple mais efficace : l'apprentissage de valeur abstraite temporellement conscient des options, baptisé OTA, qui intègre l'abstraction temporelle dans le processus d'apprentissage par différence temporelle. En modifiant la mise à jour de la valeur pour qu'elle soit consciente des options, le schéma d'apprentissage proposé réduit la longueur effective de l'horizon, permettant de meilleures estimations de l'avantage même dans les régimes à long horizon. Nous montrons expérimentalement que la politique de haut niveau extraite en utilisant la fonction de valeur OTA obtient de solides performances sur des tâches complexes issues d'OGBench, un benchmark récemment proposé pour le GCRL hors ligne, incluant la navigation dans des labyrinthes et des environnements de manipulation robotique visuelle.