Articles de recherche en IA sélectionnés quotidiennement avec traductions
Text-to-SQL vise à traduire des requêtes en langage naturel en instructions SQL, ce qui est pratique car cela permet à quiconque de récupérer facilement les informations souhaitées à partir de bases de données. Récemment, de nombreuses approches existantes abordent ce problème en utilisant des modèles de langage de grande taille (LLMs), en exploitant leur forte capacité à comprendre les requêtes des utilisateurs et à générer le code SQL correspondant. Cependant, les connaissances paramétriques des LLMs pourraient être limitées pour couvrir toutes les requêtes diversifiées et spécifiques à un domaine qui nécessitent un ancrage dans différents schémas de bases de données, ce qui rend souvent les SQL générés moins précis. Pour résoudre ce problème, nous proposons de construire une base de connaissances pour text-to-SQL, une source fondamentale de connaissances, à partir de laquelle nous récupérons et générons les connaissances nécessaires pour les requêtes données. En particulier, contrairement aux approches existantes qui annotent manuellement les connaissances ou ne génèrent que quelques éléments de connaissances pour chaque requête, notre base de connaissances est exhaustive. Elle est construite sur la base d'une combinaison de toutes les questions disponibles et de leurs schémas de bases de données associés, ainsi que de leurs connaissances pertinentes, et peut être réutilisée pour des bases de données non vues provenant de différents ensembles de données et domaines. Nous validons notre approche sur plusieurs ensembles de données text-to-SQL, en considérant à la fois les scénarios de bases de données chevauchantes et non chevauchantes, où elle surpasse substantiellement les bases de référence pertinentes.
Le suivi d'instructions (Instruction Following, IF) est une capacité essentielle pour les grands modèles de langage (Large Language Models, LLMs). Cependant, la gestion d'instructions complexes comportant de multiples contraintes reste un défi. Les méthodes précédentes sélectionnent généralement des paires de préférences en fonction du nombre de contraintes qu'elles satisfont, introduisant ainsi du bruit où les exemples choisis peuvent échouer à respecter certaines contraintes, tandis que les exemples rejetés peuvent exceller sur certains aspects par rapport aux exemples choisis. Pour relever le défi de l'alignement sur plusieurs préférences, nous proposons une méthode simple mais efficace appelée Optimisation Inverse des Préférences (Reverse Preference Optimization, RPO). Elle atténue le bruit dans les paires de préférences en inversant dynamiquement les contraintes au sein de l'instruction pour garantir que la réponse choisie est parfaite, réduisant ainsi la nécessité d'un échantillonnage et d'un filtrage extensifs pour collecter des réponses parfaites. De plus, l'inversion élargit également l'écart entre les réponses choisies et rejetées, clarifiant ainsi la direction de l'optimisation et la rendant plus robuste au bruit. Nous évaluons RPO sur deux benchmarks de suivi d'instructions multi-tours, Sysbench et Multi-IF, démontrant des améliorations moyennes par rapport à la base de référence DPO de 4,6 et 2,5 points (sur Llama-3.1 8B), respectivement. Par ailleurs, RPO s'adapte efficacement à différentes tailles de modèles (de 8B à 70B paramètres), avec le modèle RPO 70B surpassant GPT-4o.
Cet article vise à surmonter un obstacle majeur dans la mise à l'échelle de l'apprentissage par renforcement (RL) pour le raisonnement avec des modèles de langage de grande taille (LLMs), à savoir l'effondrement de l'entropie de la politique. Ce phénomène est systématiquement observé dans de vastes exécutions de RL sans intervention sur l'entropie, où l'entropie de la politique chute brusquement dès les premières étapes de l'entraînement. Cette diminution de la capacité d'exploration s'accompagne toujours d'une saturation des performances de la politique. En pratique, nous établissons une équation de transformation R=-a*e^H+b entre l'entropie H et la performance en aval R. Cette loi empirique indique fortement que la performance de la politique est échangée contre l'entropie de la politique, et donc limitée par son épuisement, avec un plafond entièrement prévisible H=0, R=-a+b. Notre découverte nécessite une gestion de l'entropie pour une exploration continue visant à mettre à l'échelle les calculs pour le RL. À cette fin, nous étudions la dynamique de l'entropie à la fois théoriquement et empiriquement. Notre dérivation met en évidence que la variation de l'entropie de la politique est pilotée par la covariance entre la probabilité d'action et la variation des logits, qui est proportionnelle à son avantage lors de l'utilisation d'algorithmes de type Policy Gradient. Une étude empirique montre que les valeurs du terme de covariance et des différences d'entropie correspondent exactement, soutenant la conclusion théorique. De plus, le terme de covariance reste majoritairement positif tout au long de l'entraînement, expliquant davantage pourquoi l'entropie de la politique diminue de manière monotone. En comprenant le mécanisme derrière la dynamique de l'entropie, nous sommes motivés à contrôler l'entropie en limitant la mise à jour des tokens à forte covariance. Plus précisément, nous proposons deux techniques simples mais efficaces, à savoir Clip-Cov et KL-Cov, qui appliquent respectivement un clipping et une pénalité KL aux tokens à forte covariance. Les expériences montrent que ces méthodes encouragent l'exploration, aidant ainsi la politique à échapper à l'effondrement de l'entropie et à atteindre de meilleures performances en aval.
Les agents basés sur LLM ont démontré des capacités prometteuses dans un nombre croissant de tâches de génie logiciel (SWE). Cependant, l'avancement de ce domaine est confronté à deux défis majeurs. Premièrement, les données d'entraînement de haute qualité sont rares, en particulier celles qui reflètent des scénarios réels de SWE, où les agents doivent interagir avec des environnements de développement, exécuter du code et adapter leur comportement en fonction des résultats de leurs actions. Les ensembles de données existants se limitent soit à la génération de code en une seule étape, soit à de petites collections manuellement curatées de tâches interactives, manquant à la fois d'échelle et de diversité. Deuxièmement, le manque de tâches interactives récentes en SWE affecte l'évaluation des modèles en amélioration rapide, car les benchmarks statiques deviennent rapidement obsolètes en raison de problèmes de contamination. Pour répondre à ces limitations, nous introduisons un pipeline novateur, automatisé et évolutif pour extraire en continu des tâches interactives de SWE issues de divers dépôts GitHub. En utilisant ce pipeline, nous construisons SWE-rebench, un ensemble de données public comprenant plus de 21 000 tâches interactives basées sur Python, adapté à l'apprentissage par renforcement d'agents de SWE à grande échelle. De plus, nous utilisons un flux continu de tâches récentes collectées grâce à la méthodologie SWE-rebench pour construire un benchmark exempt de contamination pour le génie logiciel agentique. Nous comparons les résultats de divers LLM sur ce benchmark à ceux de SWE-bench Verified et montrons que les performances de certains modèles de langage pourraient être surévaluées en raison de problèmes de contamination.
Les modèles de langage de grande taille (LLMs) atteignent des capacités de raisonnement impressionnantes au prix d'une surcharge d'inférence substantielle, posant d'importants défis de déploiement. Bien que les modèles de langage de petite taille (SLMs) distillés améliorent considérablement l'efficacité, leurs performances pâtissent du fait qu'ils ne parviennent pas à suivre les chemins de raisonnement des LLMs. Heureusement, nous révélons que seule une petite fraction des tokens diverge véritablement les chemins de raisonnement entre les LLMs et les SLMs. La plupart des tokens générés sont soit identiques, soit présentent des différences neutres, telles que des variations mineures dans les abréviations ou les expressions. En exploitant cette observation, nous introduisons **Roads to Rome (R2R)**, une méthode de routage neuronal de tokens qui utilise sélectivement les LLMs uniquement pour ces tokens critiques et divergents, tout en laissant la majorité de la génération de tokens au SLM. Nous développons également un pipeline de génération de données automatique qui identifie les tokens divergents et génère des étiquettes de routage au niveau des tokens pour entraîner le routeur léger. Nous appliquons R2R pour combiner les modèles R1-1.5B et R1-32B de la famille DeepSeek, et évaluons sur des benchmarks exigeants en mathématiques, codage et questions-réponses. Avec une taille moyenne de paramètres activés de 5,6 milliards, R2R dépasse la précision moyenne de R1-7B par un facteur de 1,6x, surpassant même le modèle R1-14B. Par rapport à R1-32B, il offre une accélération en temps réel de 2,8x avec des performances comparables, repoussant la frontière de Pareto de l'efficacité de mise à l'échelle en temps de test. Notre code est disponible à l'adresse https://github.com/thu-nics/R2R.
Le succès de DeepSeek-R1 souligne le rôle significatif de l'apprentissage par renforcement (RL) dans l'amélioration des capacités de raisonnement des grands modèles de langage (LLMs). Dans ce travail, nous présentons Skywork-OR1, une implémentation efficace et scalable de RL pour les modèles à longues chaînes de pensée (CoT). En s'appuyant sur la série de modèles DeepSeek-R1-Distill, notre approche RL obtient des gains de performance notables, augmentant la précision moyenne sur AIME24, AIME25 et LiveCodeBench de 57,8 % à 72,8 % (+15,0 %) pour le modèle 32B et de 43,6 % à 57,5 % (+13,9 %) pour le modèle 7B. Notre modèle Skywork-OR1-32B surpasse à la fois DeepSeek-R1 et Qwen3-32B sur les benchmarks AIME24 et AIME25, tout en obtenant des résultats comparables sur LiveCodeBench. Les modèles Skywork-OR1-7B et Skywork-OR1-Math-7B démontrent des capacités de raisonnement compétitives parmi les modèles de taille similaire. Nous effectuons des études d'ablation complètes sur les composants clés de notre pipeline d'entraînement pour valider leur efficacité. De plus, nous étudions en profondeur le phénomène d'effondrement de l'entropie, identifions les facteurs clés affectant la dynamique de l'entropie, et démontrons que l'atténuation de l'effondrement prématuré de l'entropie est cruciale pour améliorer les performances en test. Pour soutenir la recherche communautaire, nous ouvrons entièrement les poids de nos modèles, le code d'entraînement et les jeux de données d'entraînement.
Les modèles de raisonnement vision-langage (VLMs) ont démontré des performances prometteuses sur des tâches multimodales complexes. Cependant, ils rencontrent encore des défis significatifs : ils sont très sensibles aux erreurs de raisonnement, nécessitent de grands volumes de données annotées ou des vérificateurs précis, et peinent à généraliser au-delà de domaines spécifiques. Pour surmonter ces limitations, nous explorons l'auto-correction comme stratégie pour améliorer les VLMs de raisonnement. Nous menons d'abord une analyse approfondie des capacités d'auto-correction des VLMs et identifions les lacunes clés. Sur la base de nos observations, nous introduisons Sherlock, un cadre d'entraînement pour l'auto-correction et l'auto-amélioration. Sherlock intègre un objectif d'auto-correction au niveau de la trajectoire, une méthode de construction de données de préférence basée sur des perturbations visuelles, et un bêta dynamique pour l'ajustement des préférences. Une fois que le modèle acquiert des capacités d'auto-correction en utilisant seulement 20k données annotées échantillonnées aléatoirement, il continue à s'auto-améliorer sans supervision externe. Basé sur le modèle Llama3.2-Vision-11B, Sherlock obtient des résultats remarquables sur huit benchmarks, atteignant une précision moyenne de 64,1 avec une génération directe et de 65,4 après auto-correction. Il surpasse LLaVA-CoT (63,2), Mulberry (63,9) et LlamaV-o1 (63,4) tout en utilisant moins de 20 % des données annotées.
L'amélioration des modèles de langage multi-modaux (MLLMs) lors de l'étape post-entraînement repose généralement sur le fine-tuning supervisé (SFT) ou l'apprentissage par renforcement (RL). Cependant, ces méthodes supervisées nécessitent des données multi-modales annotées manuellement, une ressource coûteuse et finalement non durable. Bien que des efforts récents aient exploré l'entraînement postérieur non supervisé, leurs méthodes sont complexes et difficiles à itérer. Dans ce travail, nous sommes les premiers à étudier l'utilisation de GRPO, un algorithme de RL en ligne stable et évolutif, pour permettre une amélioration continue sans aucune supervision externe. Nous proposons MM-UPT, un cadre simple mais efficace pour l'entraînement postérieur non supervisé des MLLMs. MM-UPT s'appuie sur GRPO, remplaçant les signaux de récompense traditionnels par un mécanisme d'auto-récompense basé sur un vote majoritaire parmi plusieurs réponses échantillonnées. Nos expériences démontrent que MM-UPT améliore significativement la capacité de raisonnement de Qwen2.5-VL-7B (par exemple, 66,3 % → 72,9 % sur MathVista, 62,9 % → 68,7 % sur We-Math), en utilisant un ensemble de données standard sans étiquettes de vérité terrain. MM-UPT surpasse également les bases de référence non supervisées précédentes et approche même les résultats de GRPO supervisé. De plus, nous montrons que l'incorporation de questions synthétiques, générées uniquement par le MLLM lui-même, peut également améliorer les performances, mettant en lumière une approche prometteuse pour une amélioration auto-scalable. Globalement, MM-UPT offre un nouveau paradigme pour l'amélioration continue et autonome des MLLMs en l'absence de supervision externe. Notre code est disponible à l'adresse https://github.com/waltonfuture/MM-UPT.
Les modèles modernes de super-résolution d'image unique (SISR) produisent des résultats photo-réalistes pour les facteurs d'échelle sur lesquels ils sont entraînés, mais échouent lorsqu'ils sont sollicités pour des agrandissements bien au-delà de ce régime. Nous abordons ce goulot d'étranglement de scalabilité avec Chain-of-Zoom (CoZ), un cadre indépendant du modèle qui factorise la SISR en une chaîne autorégressive d'états d'échelle intermédiaires avec des prompts conscients de l'échelle multiple. CoZ réutilise de manière répétée un modèle SR de base, décomposant la probabilité conditionnelle en sous-problèmes traitables pour atteindre des résolutions extrêmes sans entraînement supplémentaire. Étant donné que les indices visuels s'estompent à fort grossissement, nous enrichissons chaque étape de zoom avec des prompts textuels conscients de l'échelle multiple, générés par un modèle vision-langage (VLM). L'extracteur de prompts lui-même est affiné à l'aide de l'Optimisation de Politique par Récompense Généralisée (GRPO) avec un VLM critique, alignant ainsi les instructions textuelles sur les préférences humaines. Les expériences montrent qu'un modèle de diffusion SR 4x standard encapsulé dans CoZ atteint des agrandissements dépassant 256x avec une qualité perceptuelle et une fidélité élevées. Page du projet : https://bryanswkim.github.io/chain-of-zoom/ .
L'efficacité de l'attention est cruciale car sa complexité temporelle croît de manière quadratique avec la longueur de la séquence. SageAttention2 aborde ce problème en utilisant la quantification pour accélérer les multiplications matricielles (Matmul) dans l'attention. Pour accélérer davantage SageAttention2, nous proposons d'utiliser l'instruction plus rapide de Matmul FP8 accumulée en FP16. Cette instruction est 2 fois plus rapide que la Matmul FP8 utilisée dans SageAttention2. Nos expériences montrent que SageAttention2++ atteint une accélération de 3,9 fois par rapport à FlashAttention tout en maintenant la même précision d'attention que SageAttention2. Cela signifie que SageAttention2++ accélère efficacement divers modèles, y compris ceux pour la génération de langage, d'images et de vidéos, avec une perte négligeable des métriques de bout en bout. Le code sera disponible à l'adresse https://github.com/thu-ml/SageAttention.
Les récents progrès des grands modèles de langage (LLMs) ont démontré des capacités impressionnantes de raisonnement en chaîne de pensée, où l'apprentissage par renforcement (RL) joue un rôle crucial dans cette avancée. Bien que les modèles de "moment eurêka"—où les modèles s'auto-corrigent par réflexion—soient souvent attribués à des propriétés émergentes du RL, nous montrons d'abord que ces modèles existent dans les LLMs multimodaux (MLLMs) avant l'entraînement au RL, mais ne sont pas nécessairement corrélés à une amélioration des performances de raisonnement. Sur la base de ces observations, nous présentons une étude approfondie sur l'amélioration du raisonnement multimodal grâce à une approche en deux étapes : (1) un réglage fin supervisé (SFT) comme démarrage à froid avec des modèles structurés de raisonnement en chaîne de pensée, suivi de (2) l'apprentissage par renforcement via GRPO pour affiner davantage ces capacités. Nos expériences approfondies montrent que cette approche combinée surpasse systématiquement les méthodes utilisant uniquement le SFT ou le RL sur des benchmarks exigeants de raisonnement multimodal. Les modèles résultants atteignent des performances de pointe parmi les MLLMs open-source aux échelles de 3B et 7B, avec notre modèle 7B montrant des améliorations substantielles par rapport aux modèles de base (par exemple, 66,3 % → 73,4 % sur MathVista, 62,9 % → 70,4 % sur We-Math) et notre modèle 3B atteignant des performances comparables à plusieurs modèles 7B. Globalement, ce travail fournit des conseils pratiques pour la construction de modèles de raisonnement multimodal avancés. Notre code est disponible à l'adresse https://github.com/waltonfuture/RL-with-Cold-Start.
Nous présentons RenderFormer, un pipeline de rendu neuronal qui génère directement une image à partir d'une représentation d'une scène basée sur des triangles, avec des effets d'illumination globale complets, et qui ne nécessite ni entraînement ni ajustement spécifique à la scène. Plutôt que d'adopter une approche centrée sur la physique pour le rendu, nous formulons ce dernier comme une transformation séquence-à-séquence où une séquence de tokens représentant des triangles avec des propriétés de réflectance est convertie en une séquence de tokens de sortie représentant de petites zones de pixels. RenderFormer suit un pipeline en deux étapes : une étape indépendante de la vue qui modélise le transport de lumière entre triangles, et une étape dépendante de la vue qui transforme un token représentant un faisceau de rayons en les valeurs de pixels correspondantes, guidée par la séquence de triangles issue de l'étape indépendante de la vue. Les deux étapes sont basées sur l'architecture Transformer et sont apprises avec un minimum de contraintes préalables. Nous démontrons et évaluons RenderFormer sur des scènes présentant des complexités variées en termes de formes et de transport de lumière.
La prédiction du prochain jeton constitue la tâche d'apprentissage fondamentale permettant le raisonnement dans les LLM. Mais quelle devrait être la tâche d'apprentissage lorsqu'il s'agit d'équiper les MLLM de capacités de raisonnement temporel sur des entrées vidéo ? Les tâches existantes, telles que la réponse à des questions sur des vidéos, reposent souvent sur des annotations humaines ou sur des MLLM beaucoup plus performantes, tandis que la description de vidéos tend à mêler le raisonnement temporel avec des informations spatiales. Pour combler cette lacune, nous proposons la prédiction du prochain événement (NEP), une tâche d'apprentissage qui exploite les segments vidéo futurs comme un signal riche et auto-supervisé pour favoriser le raisonnement temporel. Nous segmentons chaque vidéo en images passées et futures : le MLLM prend les images passées en entrée et prédit un résumé des événements dérivés des images futures, encourageant ainsi le modèle à raisonner temporellement pour accomplir la tâche. Pour soutenir cette tâche, nous avons constitué V1-33K, un ensemble de données comprenant 33 000 segments vidéo extraits automatiquement et couvrant divers scénarios du monde réel. Nous explorons également une gamme de stratégies de réglage d'instructions vidéo pour étudier leurs effets sur le raisonnement temporel. Pour évaluer les progrès, nous introduisons FutureBench afin d'évaluer la cohérence dans la prédiction d'événements futurs inconnus. Les expériences valident que la NEP offre un paradigme d'entraînement scalable et efficace pour favoriser le raisonnement temporel dans les MLLM.
Les systèmes de recherche approfondie représentent une classe émergente de méthodes de recherche d'information agentiques qui génèrent des rapports complets et bien étayés en réponse à des requêtes complexes. Cependant, la plupart des frameworks existants s'appuient sur des API de recherche commerciales dynamiques, qui posent des problèmes de reproductibilité et de transparence en plus de leur coût. Pour pallier ces limitations, nous présentons DeepResearchGym, un bac à sable open-source qui combine une API de recherche reproductible avec un protocole d'évaluation rigoureux pour le benchmarking des systèmes de recherche approfondie. L'API indexe des corpus web publics à grande échelle, notamment ClueWeb22 et FineWeb, en utilisant un récupérateur dense de pointe et une recherche de voisins approximatifs via DiskANN. Elle offre une latence inférieure à celle des API commerciales populaires tout en garantissant des classements de documents stables entre les exécutions, et est librement disponible pour un usage de recherche. Pour évaluer les sorties des systèmes de recherche approfondie, nous étendons le benchmark Researchy Questions avec des métriques automatiques via des évaluations LLM-as-a-judge afin de mesurer l'alignement avec les besoins d'information des utilisateurs, la fidélité de la récupération et la qualité des rapports. Les résultats expérimentaux montrent que les systèmes intégrés à DeepResearchGym atteignent des performances comparables à celles utilisant des API commerciales, avec des classements de performance restant cohérents entre les métriques d'évaluation. Une étude d'évaluation humaine confirme en outre que notre protocole automatique est aligné avec les préférences humaines, validant la capacité du framework à soutenir une évaluation contrôlée des systèmes de recherche approfondie. Notre code et la documentation de l'API sont disponibles à l'adresse https://www.deepresearchgym.ai.
Les systèmes de recherche d'entreprise rencontrent souvent des difficultés à extraire des informations précises et spécifiques à un domaine en raison d'incompatibilités sémantiques et de terminologies qui se chevauchent. Ces problèmes peuvent dégrader les performances des applications en aval telles que la gestion des connaissances, le support client et les agents de génération assistée par la recherche. Pour relever ce défi, nous proposons un cadre évolutif d'extraction de négatifs difficiles spécifiquement conçu pour les données d'entreprise spécifiques à un domaine. Notre approche sélectionne dynamiquement des documents sémantiquement complexes mais contextuellement non pertinents pour améliorer les modèles de reclassement déployés. Notre méthode intègre divers modèles d'embedding, effectue une réduction de dimensionnalité et sélectionne de manière unique des négatifs difficiles, garantissant ainsi une efficacité computationnelle et une précision sémantique. L'évaluation sur notre corpus d'entreprise propriétaire (domaine des services cloud) démontre des améliorations substantielles de 15 % en MRR@3 et de 19 % en MRR@10 par rapport aux meilleures méthodes de référence et autres techniques d'échantillonnage de négatifs. Une validation supplémentaire sur des ensembles de données publics spécifiques à un domaine (FiQA, Climate Fever, TechQA) confirme la généralisabilité de notre méthode et son aptitude à être déployée dans des applications réelles.
Dans ce travail, nous proposons Few Shot Domain Adapting Graph (FS-DAG), une architecture de modèle évolutive et efficace pour la compréhension de documents visuellement riches (VRDU) dans des contextes de few-shot. FS-DAG exploite des backbones spécifiques au domaine et spécifiques au langage/vision au sein d'un cadre modulaire pour s'adapter à divers types de documents avec un minimum de données. Le modèle est robuste face aux défis pratiques tels que la gestion des erreurs de reconnaissance optique de caractères (OCR), les fautes d'orthographe et les décalages de domaine, qui sont critiques dans les déploiements réels. FS-DAG est très performant avec moins de 90 millions de paramètres, ce qui le rend particulièrement adapté aux applications complexes du monde réel pour les tâches d'extraction d'information (IE) où les ressources computationnelles sont limitées. Nous démontrons les capacités de FS-DAG à travers des expériences approfondies pour la tâche d'extraction d'information, montrant des améliorations significatives en termes de vitesse de convergence et de performance par rapport aux méthodes de pointe. De plus, ce travail met en lumière les progrès continus dans le développement de modèles plus petits et plus efficaces qui ne compromettent pas la performance. Code : https://github.com/oracle-samples/fs-dag
Les modèles de langage de grande taille (LLMs) ont démontré des capacités générales remarquables, mais l'amélioration de compétences telles que le raisonnement exige souvent des ressources computationnelles substantielles et peut compromettre leur généralisation. Bien que les méthodes de réglage fin efficace en paramètres (PEFT) offrent une alternative plus économe en ressources, elles nécessitent généralement un réentraînement pour chaque architecture de LLM en raison de dépendances architecturales. Pour relever ces défis, nous proposons ici Universal Reasoner (UniR) - un module de raisonnement unique, léger, composable et plug-and-play qui peut être utilisé avec n'importe quel LLM figé pour lui conférer des capacités de raisonnement spécialisées. Plus précisément, UniR décompose la récompense en un module de raisonnement autonome qui est entraîné indépendamment à l'aide de récompenses prédéfinies, traduisant efficacement les signaux au niveau de la trajectoire en un guidage au niveau des tokens. Une fois entraîné, UniR peut être combiné avec n'importe quel LLM figé au moment de l'inférence en ajoutant simplement ses logits de sortie à ceux de l'architecture de LLM. Cette structure additive permet naturellement une composition modulaire : plusieurs modules UniR entraînés pour différentes tâches peuvent être appliqués conjointement en sommant leurs logits, permettant un raisonnement complexe via la composition. Les résultats expérimentaux sur des tâches de raisonnement mathématique et de traduction automatique montrent qu'UniR surpasse significativement les méthodes de réglage fin existantes utilisant le modèle Llama3.2. De plus, UniR démontre une forte généralisation de faible à fort : les modules de raisonnement entraînés sur des modèles plus petits guident efficacement des LLM beaucoup plus grands. Cela fait d'UniR une solution rentable, adaptable et robuste pour améliorer le raisonnement dans les LLM sans compromettre leurs capacités fondamentales. Le code est open-source à l'adresse https://github.com/hangeol/UniR.
La résolution de problèmes complexes du monde réel nécessite une recherche approfondie d'informations et un raisonnement en plusieurs étapes. Les récents progrès dans les systèmes agentiques, illustrés par Deep Research, mettent en lumière le potentiel de la recherche autonome multi-étapes. Dans ce travail, nous présentons un paradigme cohérent pour construire des agents de recherche d'informations de bout en bout, en adoptant une perspective centrée sur les données et axée sur l'étape d'entraînement. Notre approche se compose de quatre étapes clés : (1) la construction de données de navigation, (2) l'échantillonnage de trajectoires, (3) le fine-tuning supervisé pour un démarrage à froid efficace, et (4) l'apprentissage par renforcement pour une meilleure généralisation. Nous instancions ce cadre dans un agent web basé sur ReAct, WebDancer. Les évaluations empiriques sur les benchmarks exigeants de recherche d'informations, GAIA et WebWalkerQA, démontrent les performances solides de WebDancer, obtenant des résultats significatifs et mettant en évidence l'efficacité de notre paradigme d'entraînement. Une analyse approfondie de l'entraînement des agents fournit des insights précieux et des voies systématiques et actionnables pour développer des modèles agentiques plus performants. Les codes et la démo seront disponibles sur https://github.com/Alibaba-NLP/WebAgent.
Des données d'entraînement multilingues de haute qualité sont essentielles pour le pré-entraînement efficace des grands modèles de langage (LLMs). Cependant, la disponibilité de jeux de données multilingues open-source appropriés reste limitée. Les jeux de données actuels de pointe reposent principalement sur des méthodes de filtrage heuristique, ce qui limite à la fois leur transférabilité interlingue et leur évolutivité. Nous présentons ici JQL, une approche systématique qui permet de constituer efficacement des données multilingues diversifiées et de haute qualité à grande échelle, tout en réduisant considérablement les besoins en calcul. JQL distille les capacités d'annotation des LLMs en annotateurs légers basés sur des embeddings multilingues pré-entraînés. Ces modèles démontrent des performances multilingues et interlingues robustes, même pour des langues et des scripts non vus pendant l'entraînement. Évalué empiriquement sur 35 langues, le pipeline d'annotation qui en résulte surpasse largement les méthodes de filtrage heuristique actuelles comme Fineweb2. JQL améliore notablement la qualité de l'entraînement des modèles en aval et augmente les taux de rétention des données. Notre recherche fournit des insights pratiques et des ressources précieuses pour la curation de données multilingues, élevant les standards de développement des jeux de données multilingues.
Les modèles de langage autoregressifs (LM) génèrent un token à la fois, alors que le raisonnement humain opère sur des abstractions de plus haut niveau - phrases, propositions et concepts. Ce contraste soulève une question centrale : les LM peuvent-ils également apprendre à raisonner sur des unités sémantiques structurées plutôt que sur des séquences brutes de tokens ? Dans ce travail, nous étudions si les LM pré-entraînés peuvent être élevés vers de tels espaces de raisonnement abstrait en s'appuyant sur leurs représentations apprises. Nous présentons un cadre qui adapte un LM pré-entraîné au niveau des tokens pour opérer dans l'espace des phrases en prédictant de manière autoregressive les embeddings continus des phrases suivantes. Nous explorons deux paradigmes d'embedding inspirés de l'apprentissage de représentations classique : 1) les embeddings sémantiques, appris via auto-encodage pour préserver le sens de surface ; et 2) les embeddings contextuels, entraînés via la prédiction de la phrase suivante pour encoder la structure anticipatoire. Nous évaluons les deux sous deux régimes d'inférence : Discretisé, qui décode chaque embedding prédit en texte avant de le ré-encoder ; et Continu, qui raisonne entièrement dans l'espace d'embedding pour une efficacité améliorée. À travers quatre domaines - mathématiques, logique, bon sens et planification - les embeddings contextuels sous inférence continue montrent des performances compétitives avec le Chain-of-Thought (CoT) tout en réduisant en moyenne de moitié les FLOPs au moment de l'inférence. Nous présentons également des signes précoces de scalabilité et d'adaptation modulaire. Enfin, pour visualiser les trajectoires latentes, nous introduisons SentenceLens, un outil de diagnostic qui décode les états intermédiaires du modèle en phrases interprétables. Ensemble, nos résultats indiquent que les LM pré-entraînés peuvent effectivement transitionner vers un raisonnement abstrait et structuré au sein d'espaces d'embedding latents.
Le récent essor des modèles de diffusion texte-image, tels que Stable Diffusion, a stimulé la recherche visant à les adapter à la génération de panoramas à 360 degrés. Les travaux antérieurs ont démontré la faisabilité d'utiliser des techniques conventionnelles d'adaptation à faible rang sur des modèles de diffusion pré-entraînés pour générer des images panoramiques. Cependant, l'écart de domaine substantiel entre les images en perspective et les images panoramiques soulève des questions sur les mécanismes sous-jacents permettant ce succès empirique. Nous émettons l'hypothèse et examinons que les composants entraînables présentent des comportements distincts lorsqu'ils sont affinés sur des données panoramiques, et qu'une telle adaptation masque un mécanisme intrinsèque permettant de tirer parti des connaissances préalables contenues dans les modèles de diffusion pré-entraînés. Notre analyse révèle les points suivants : 1) les matrices de requête et de clé dans les modules d'attention sont responsables des informations communes pouvant être partagées entre les domaines panoramique et en perspective, et sont donc moins pertinentes pour la génération de panoramas ; et 2) les matrices de valeur et de poids de sortie se spécialisent dans l'adaptation des connaissances pré-entraînées au domaine panoramique, jouant un rôle plus critique lors de l'affinage pour la génération de panoramas. Nous vérifions empiriquement ces insights en introduisant un cadre simple appelé UniPano, avec pour objectif d'établir une base élégante pour les recherches futures. UniPano surpasse non seulement les méthodes existantes, mais réduit également de manière significative l'utilisation de la mémoire et le temps d'entraînement par rapport aux approches à double branche précédentes, le rendant évolutif pour la génération de panoramas de bout en bout avec une résolution plus élevée. Le code sera publié.
Une caractéristique essentielle de l'innovation humaine réside dans le processus de recombinaison – la création d'idées originales en intégrant des éléments de mécanismes et de concepts existants. Dans ce travail, nous exploitons automatiquement la littérature scientifique pour construire CHIMERA : une base de connaissances (KB) à grande échelle d'exemples de recombinaison. CHIMERA peut être utilisée pour explorer empiriquement et à grande échelle comment les scientifiques recombinent des concepts et s'inspirent de différents domaines, ou pour entraîner des modèles d'apprentissage supervisé capables de prédire de nouvelles directions créatives transdisciplinaires. Pour construire cette base de connaissances, nous présentons une nouvelle tâche d'extraction d'information visant à extraire des recombinaisons à partir des résumés d'articles scientifiques, collectons un corpus de haute qualité composé de centaines de résumés annotés manuellement, et l'utilisons pour entraîner un modèle d'extraction basé sur un LLM (modèle de langage de grande taille). Ce modèle est appliqué à un vaste corpus d'articles dans le domaine de l'IA, produisant une base de connaissances de plus de 28 000 exemples de recombinaison. Nous analysons CHIMERA pour explorer les propriétés de la recombinaison dans différents sous-domaines de l'IA. Enfin, nous entraînons un modèle de génération d'hypothèses scientifiques utilisant cette base de connaissances, qui prédit de nouvelles directions de recombinaison que les chercheurs du monde réel trouvent inspirantes. Nos données et notre code sont disponibles à l'adresse suivante : https://github.cs.huji.ac.il/tomhope-lab/CHIMERA.
Le routage robuste face à l'incertitude est essentiel pour la logistique dans le monde réel, mais la plupart des benchmarks supposent des configurations statiques et idéalisées. Nous présentons SVRPBench, le premier benchmark ouvert à capturer des dynamiques stochastiques de haute fidélité pour le routage de véhicules à l'échelle urbaine. Couvrant plus de 500 instances avec jusqu'à 1000 clients, il simule des conditions de livraison réalistes : congestion dépendante du temps, retards log-normaux, accidents probabilistes et fenêtres temporelles empiriquement fondées pour les clients résidentiels et commerciaux. Notre pipeline génère des scénarios diversifiés et riches en contraintes, incluant des configurations multi-dépôts et multi-véhicules. Le benchmarking révèle que les solveurs RL de pointe comme POMO et AM se dégradent de plus de 20 % en cas de décalage distributionnel, tandis que les méthodes classiques et métaheuristiques restent robustes. Pour permettre une recherche reproductible, nous publions le jeu de données et la suite d'évaluation. SVRPBench lance un défi à la communauté : concevoir des solveurs qui généralisent au-delà des hypothèses synthétiques et s'adaptent à l'incertitude du monde réel.
Les grands modèles de langage (LLM) génèrent généralement des réponses identiques ou similaires pour tous les utilisateurs face à la même instruction, ce qui pose des risques de sécurité importants dans des applications critiques où les vulnérabilités des utilisateurs varient considérablement. Les évaluations de sécurité existantes reposent principalement sur des mesures indépendantes du contexte - telles que la factualité, les biais ou la toxicité - négligeant le fait qu'une même réponse peut présenter des risques divergents selon le profil ou la situation de l'utilisateur. Nous introduisons le concept de sécurité personnalisée pour combler cette lacune et présentons PENGUIN - un benchmark comprenant 14 000 scénarios couvrant sept domaines sensibles, avec des variantes riches en contexte et sans contexte. En évaluant six LLM leaders, nous démontrons que les informations personnalisées sur l'utilisateur améliorent significativement les scores de sécurité de 43,2 %, confirmant l'efficacité de la personnalisation dans l'alignement de la sécurité. Cependant, tous les attributs contextuels ne contribuent pas de manière égale à l'amélioration de la sécurité. Pour répondre à ce problème, nous développons RAISE - un cadre d'agent en deux étapes, sans entraînement, qui acquiert stratégiquement des informations spécifiques à l'utilisateur. RAISE améliore les scores de sécurité jusqu'à 31,6 % par rapport à six LLM standard, tout en maintenant un faible coût d'interaction de seulement 2,7 requêtes utilisateur en moyenne. Nos résultats soulignent l'importance d'une collecte sélective d'informations dans les domaines critiques pour la sécurité et proposent une solution pratique pour personnaliser les réponses des LLM sans réentraînement du modèle. Ce travail établit une base pour la recherche en sécurité qui s'adapte aux contextes individuels des utilisateurs plutôt que de supposer un standard universel de préjudice.
Dans les architectures Transformer, les tokens — unités discrètes dérivées de données brutes — sont formés en segmentant les entrées en blocs de longueur fixe. Chaque token est ensuite mappé à un embedding, permettant des calculs d'attention parallèles tout en préservant les informations essentielles de l'entrée. En raison de la complexité computationnelle quadratique des mécanismes d'auto-attention des Transformers, la réduction de tokens a principalement été utilisée comme une stratégie d'efficacité. Cela est particulièrement vrai dans les domaines de la vision et du langage, où elle aide à équilibrer les coûts computationnels, l'utilisation de la mémoire et la latence d'inférence. Malgré ces avancées, cet article soutient que la réduction de tokens devrait transcender son rôle traditionnel axé sur l'efficacité à l'ère des grands modèles génératifs. Nous la positionnons plutôt comme un principe fondamental en modélisation générative, influençant de manière critique à la fois l'architecture des modèles et leurs applications plus larges. Plus précisément, nous affirmons que, dans les systèmes de vision, de langage et multimodaux, la réduction de tokens peut : (i) faciliter une intégration et un alignement multimodaux plus profonds, (ii) atténuer la "surréflexion" et les hallucinations, (iii) maintenir la cohérence sur des entrées longues, et (iv) améliorer la stabilité de l'entraînement, entre autres. Nous redéfinissons la réduction de tokens comme allant au-delà d'une simple mesure d'efficacité. Ce faisant, nous esquissons des directions futures prometteuses, incluant la conception d'algorithmes, la réduction de tokens guidée par l'apprentissage par renforcement, l'optimisation des tokens pour l'apprentissage en contexte, ainsi que des domaines plus larges de l'apprentissage automatique et des sciences. Nous mettons en lumière son potentiel à inspirer de nouvelles architectures de modèles et stratégies d'apprentissage qui améliorent la robustesse, augmentent l'interprétabilité et s'alignent mieux sur les objectifs de la modélisation générative.
Alors que les modèles de langage de grande taille (LLMs) participent de plus en plus aux interactions humain-IA, l'évaluation de leurs capacités de théorie de l'esprit (ToM) - en particulier leur aptitude à suivre les états mentaux dynamiques - devient cruciale. Bien que les benchmarks existants évaluent les capacités de base en ToM, ils se concentrent principalement sur des instantanés statiques des états mentaux, négligeant l'évolution temporelle qui caractérise les interactions sociales réelles. Nous présentons DynToM, un nouveau benchmark spécifiquement conçu pour évaluer la capacité des LLMs à comprendre et à suivre la progression temporelle des états mentaux à travers des scénarios interconnectés. Grâce à un cadre systématique en quatre étapes, nous générons 1 100 contextes sociaux englobant 5 500 scénarios et 78 100 questions, chacun validé pour son réalisme et sa qualité. Notre évaluation approfondie de dix LLMs de pointe révèle que leur performance moyenne est inférieure de 44,7 % à celle des humains, avec une dégradation significative des performances lors du suivi et du raisonnement sur l'évolution des états mentaux. Cet écart de performance met en lumière des limitations fondamentales dans la capacité des LLMs actuels à modéliser la nature dynamique des états mentaux humains.
Nous présentons "Thinking with Generated Images", un nouveau paradigme qui transforme fondamentalement la manière dont les grands modèles multimodaux (LMMs) abordent le raisonnement visuel en leur permettant de penser nativement à travers les modalités texte et vision grâce à la génération spontanée d'étapes intermédiaires de pensée visuelle. Actuellement, le raisonnement visuel avec les LMMs se limite soit au traitement d'images fixes fournies par l'utilisateur, soit à un raisonnement exclusivement textuel basé sur une chaîne de pensée (CoT). "Thinking with Generated Images" ouvre une nouvelle dimension de capacité cognitive où les modèles peuvent activement construire des pensées visuelles intermédiaires, critiquer leurs propres hypothèses visuelles et les affiner en tant que composantes intégrales de leur processus de raisonnement. Nous démontrons l'efficacité de notre approche à travers deux mécanismes complémentaires : (1) la génération visuelle avec des sous-objectifs visuels intermédiaires, où les modèles décomposent des tâches visuelles complexes en composants gérables qui sont générés et intégrés progressivement, et (2) la génération visuelle avec auto-critique, où les modèles génèrent une hypothèse visuelle initiale, analysent ses lacunes par un raisonnement textuel, et produisent des résultats affinés basés sur leurs propres critiques. Nos expériences sur des benchmarks de génération visuelle montrent des améliorations substantielles par rapport aux approches de base, avec nos modèles atteignant jusqu'à 50% (de 38% à 57%) d'amélioration relative dans la gestion de scénarios complexes à objets multiples. Des biochimistes explorant de nouvelles structures protéiques, aux architectes itérant sur des conceptions spatiales, en passant par les analystes médico-légaux reconstruisant des scènes de crime, et les joueurs de basket-ball envisageant des stratégies de jeu, notre approche permet aux modèles d'IA de s'engager dans le type d'imagination visuelle et d'affinement itératif qui caractérise la pensée créative, analytique et stratégique humaine. Nous mettons à disposition notre suite open-source à l'adresse suivante : https://github.com/GAIR-NLP/thinking-with-generated-images.
Cet article explore des approches pour améliorer les capacités de raisonnement des agents basés sur des modèles de langage de grande taille (LLM) en utilisant l'apprentissage par renforcement (RL). Plus précisément, nous nous concentrons sur des scénarios d'utilisation d'outils en plusieurs étapes, qui peuvent être naturellement modélisés comme des processus de décision markoviens (MDP). Alors que les approches existantes entraînent souvent les agents LLM multi-étapes avec une estimation des avantages au niveau de la trajectoire dans des contextes de bandit, elles peinent à attribuer les crédits au niveau de chaque étape à travers plusieurs décisions, limitant ainsi leurs performances sur des tâches de raisonnement multi-étapes. Pour remédier à cela, nous introduisons une stratégie d'estimation des avantages fine au niveau de chaque étape, permettant une attribution de crédits plus précise dans les interactions multi-étapes des agents. Cette stratégie est générale et peut être intégrée dans divers algorithmes de RL, tels que l'optimisation des préférences relatives par groupe (GRPO). Notre évaluation expérimentale sur des tâches de raisonnement multi-étapes et d'utilisation d'outils basées sur la recherche, avec des implémentations de GRPO, met en évidence l'efficacité du cadre MDP et de l'attribution de crédits au niveau de chaque étape pour améliorer les capacités de raisonnement multi-étapes des agents LLM dans des contextes de prise de décision complexes. Notre méthode atteint un taux de réussite de 100 % dans l'exécution des outils et une précision de 50 % dans la correspondance exacte des réponses, surpassant significativement les méthodes de référence, qui échouent à invoquer les outils et n'atteignent qu'une précision de correspondance exacte de 20 à 30 %.
Les grands modèles de langage (LLMs) ont démontré des capacités de raisonnement remarquables grâce à des approches de mise à l'échelle au moment du test, en particulier lorsqu'ils sont affinés avec des données de chaîne de pensée (CoT) distillées à partir de modèles de raisonnement plus puissants (LRMs). Cependant, ces chaînes de raisonnement contiennent souvent des éléments verbeux qui reflètent la résolution de problèmes humaine, catégorisés comme raisonnement progressif (le chemin essentiel de développement de la solution) et éléments fonctionnels (processus de vérification, approches alternatives de solution et corrections d'erreurs). Bien que le raisonnement progressif soit crucial, les éléments fonctionnels augmentent considérablement les demandes de calcul lors de l'inférence au moment du test. Nous introduisons PIR (Perplexity-based Importance Refinement), un cadre méthodologique qui évalue quantitativement l'importance de chaque étape de raisonnement en fonction de son impact sur la confiance de prédiction de la réponse. PIR identifie systématiquement et élagage sélectivement uniquement les étapes fonctionnelles de faible importance tout en préservant les composants de raisonnement progressif, créant ainsi des données d'entraînement optimisées qui maintiennent l'intégrité du chemin de solution principal tout en réduisant la verbosité. Les modèles affinés sur des données optimisées par PIR présentent des propriétés de mise à l'échelle au moment du test supérieures, générant des chaînes de raisonnement plus concises tout en atteignant une précision améliorée (+0,9\% à +6,6\%) avec une utilisation significativement réduite de tokens (-3\% à -41\%) sur des benchmarks de raisonnement difficiles (AIME, AMC et GPQA Diamond). Notre approche démontre une forte généralisabilité à travers différentes tailles de modèles, sources de données et budgets de tokens, offrant une solution pratique pour déployer des LLMs capables de raisonnement dans des scénarios où une mise à l'échelle efficace au moment du test, un temps de réponse et une efficacité computationnelle sont des contraintes précieuses.
La récupération, le raisonnement et la compréhension efficaces d'informations visuellement riches restent un défi pour les méthodes RAG (Retrieval-Augmented Generation). Les méthodes traditionnelles basées sur le texte ne peuvent pas gérer les informations liées au visuel. D'autre part, les approches RAG actuelles basées sur la vision sont souvent limitées par des pipelines fixes et peinent à raisonner efficacement en raison de l'activation insuffisante des capacités fondamentales des modèles. Comme l'apprentissage par renforcement (RL) s'est avéré bénéfique pour le raisonnement des modèles, nous introduisons VRAG-RL, un nouveau cadre RL conçu pour le raisonnement complexe sur des informations visuellement riches. Avec ce cadre, les modèles de langage visuel (VLMs) interagissent avec les moteurs de recherche, échantillonnant de manière autonome des trajectoires de raisonnement en un ou plusieurs tours à l'aide de tokens de perception visuelle et subissant une optimisation continue basée sur ces échantillons. Notre approche met en lumière les limites clés du RL dans les domaines RAG : (i) Les approches RAG multi-modales antérieures tendent à simplement incorporer des images dans le contexte, conduisant à une allocation insuffisante de tokens de raisonnement et négligeant la perception spécifique au visuel ; et (ii) Lorsque les modèles interagissent avec les moteurs de recherche, leurs requêtes échouent souvent à récupérer des informations pertinentes en raison de l'incapacité à articuler les besoins, ce qui entraîne des performances sous-optimales. Pour relever ces défis, nous définissons un espace d'actions adapté aux entrées visuellement riches, incluant des actions telles que le recadrage et la mise à l'échelle, permettant au modèle de collecter des informations d'une perspective grossière à fine. De plus, pour combler l'écart entre les requêtes originales des utilisateurs et le récupérateur, nous utilisons une récompense simple mais efficace qui intègre la réécriture de requêtes et la performance de récupération avec une récompense basée sur le modèle. Notre VRAG-RL optimise les VLMs pour les tâches RAG en utilisant des stratégies RL spécialement conçues, alignant le modèle avec les applications réelles. Le code est disponible à l'adresse https://github.com/Alibaba-NLP/VRAG{https://github.com/Alibaba-NLP/VRAG}.
Les approches récentes sur le contrôle de caméra 3D dans les modèles de diffusion vidéo (VDMs) créent souvent des vidéos d'ancrage pour guider les modèles de diffusion en tant que prior structuré, en rendant des nuages de points estimés suivant des trajectoires de caméra annotées. Cependant, les erreurs inhérentes à l'estimation des nuages de points conduisent souvent à des vidéos d'ancrage imprécises. De plus, la nécessité d'annotations extensives des trajectoires de caméra augmente davantage les demandes en ressources. Pour pallier ces limitations, nous introduisons EPiC, un cadre d'apprentissage de contrôle de caméra efficace et précis qui construit automatiquement des vidéos d'ancrage de haute qualité sans annotations coûteuses de trajectoires de caméra. Concrètement, nous créons des vidéos d'ancrage très précises pour l'entraînement en masquant les vidéos sources en fonction de la visibilité de la première image. Cette approche garantit un alignement élevé, élimine le besoin d'annotations de trajectoires de caméra, et peut donc être facilement appliquée à toute vidéo in-the-wild pour générer des paires d'entraînement image-à-vidéo (I2V). En outre, nous introduisons Anchor-ControlNet, un module de conditionnement léger qui intègre le guidage des vidéos d'ancrage dans les régions visibles aux VDMs pré-entraînés, avec moins de 1 % des paramètres du modèle de base. En combinant les données de vidéo d'ancrage proposées et le module ControlNet, EPiC permet un entraînement efficace avec nettement moins de paramètres, d'étapes d'entraînement et de données, sans nécessiter de modifications du modèle de base de diffusion typiquement requises pour atténuer les désalignements de rendu. Bien qu'entraîné sur des vidéos d'ancrage basées sur le masquage, notre méthode se généralise robustement aux vidéos d'ancrage créées avec des nuages de points lors de l'inférence, permettant un contrôle de caméra 3D informé précis. EPiC atteint des performances SOTA sur RealEstate10K et MiraData pour la tâche de contrôle de caméra I2V, démontrant une capacité de contrôle de caméra précise et robuste à la fois quantitativement et qualitativement. Notamment, EPiC montre également une forte généralisation zero-shot aux scénarios vidéo-à-vidéo.
La recaptioning d'images est largement utilisé pour générer des ensembles de données d'entraînement de qualité améliorée pour diverses tâches multimodales. Les méthodes de recaptioning existantes reposent généralement sur des modèles de langage multimodaux puissants (MLLMs) pour enrichir les descriptions textuelles, mais souffrent souvent d'inexactitudes dues à des hallucinations et à une incomplétude causée par l'absence de détails fins. Pour pallier ces limitations, nous proposons RICO, un nouveau cadre qui affine les légendes par reconstruction visuelle. Plus précisément, nous utilisons un modèle texte-à-image pour reconstruire une légende en une image de référence, et incitons un MLLM à identifier les écarts entre l'image originale et l'image reconstruite afin d'affiner la légende. Ce processus est effectué de manière itérative, favorisant progressivement la génération de descriptions plus fidèles et complètes. Pour atténuer le coût computationnel supplémentaire induit par le processus itératif, nous introduisons RICO-Flash, qui apprend à générer des légendes comme RICO en utilisant DPO. Des expériences approfondies démontrent que notre approche améliore significativement la précision et l'exhaustivité des légendes, surpassant la plupart des méthodes de référence d'environ 10 % sur CapsBench et CompreCap. Le code est disponible à l'adresse https://github.com/wangyuchi369/RICO.
Le RLHF traditionnel optimise les modèles de langage avec des récompenses scalaires grossières qui masquent les raisons détaillées derrière les succès ou les échecs, conduisant à un apprentissage lent et opaque. Des travaux récents enrichissent le RL avec des critiques textuelles via des incitations ou des réflexions, améliorant l'interprétabilité mais laissant les paramètres du modèle inchangés. Nous introduisons Text2Grad, un paradigme d'apprentissage par renforcement qui transforme les retours textuels libres en gradients au niveau des segments. Étant donné des critiques humaines (ou programmatiques), Text2Grad aligne chaque phrase de retour avec les segments de tokens pertinents, convertit ces alignements en signaux de récompense différentiables, et effectue des mises à jour de gradient qui affinent directement les portions problématiques de la politique du modèle. Cela produit des ajustements précis et conditionnés par les retours plutôt que des ajustements globaux. Text2Grad est réalisé à travers trois composants : (1) un pipeline d'annotation de retours de haute qualité qui associe les critiques aux segments de tokens ; (2) un modèle de récompense granulaire qui prédit la récompense au niveau des segments tout en générant des critiques explicatives ; et (3) un optimiseur de politique au niveau des segments qui rétropropage les gradients en langage naturel. Sur des tâches de résumé, de génération de code et de réponse à des questions, Text2Grad surpasse systématiquement le RL à récompense scalaire et les bases de référence basées uniquement sur des incitations, offrant à la fois des métriques de tâche plus élevées et une interprétabilité plus riche. Nos résultats démontrent que les retours en langage naturel, lorsqu'ils sont convertis en gradients, constituent un signal puissant pour l'optimisation granulaire des politiques. Le code de notre méthode est disponible à l'adresse https://github.com/microsoft/Text2Grad.
Les modèles de langage visuel (VLMs) associent généralement un encodeur visuel de taille modeste à un grand modèle de langage (LLM), par exemple Llama-70B, faisant du décodeur la principale charge computationnelle pendant l'entraînement. Pour réduire les coûts, une stratégie potentiellement prometteuse consiste à d'abord entraîner l'encodeur visuel à l'aide d'un petit modèle de langage avant de le transférer vers un modèle plus grand. Nous construisons de petits "modèles de substitution" qui partagent le même espace d'incorporation et le même langage de représentation que le grand LLM cible en héritant directement de ses couches superficielles. Les encodeurs visuels entraînés sur le modèle de substitution peuvent ensuite être directement transférés vers le modèle plus grand, un processus que nous appelons greffage en zero-shot — lorsqu'ils sont directement intégrés au LLM cible de pleine taille, la paire greffée surpasse la paire encodeur-substitut et, sur certains benchmarks, atteint même des performances comparables à un entraînement complet du décodeur avec le LLM cible. De plus, notre approche d'entraînement par substitution réduit les coûts globaux d'entraînement des VLMs d'environ 45 % lorsque Llama-70B est utilisé comme décodeur.
La génération d'images transparentes multicouches de haute qualité à partir de prompts textuels peut ouvrir un nouveau niveau de contrôle créatif, permettant aux utilisateurs de modifier chaque couche aussi facilement qu'ils éditeraient des sorties textuelles de modèles de langage (LLMs). Cependant, le développement de modèles génératifs multicouches est à la traîne par rapport aux modèles conventionnels de texte-à-image, en raison de l'absence d'un vaste corpus de données transparentes multicouches de haute qualité. Dans cet article, nous relevons ce défi fondamental en : (i) publiant le premier jeu de données ouvert et ultra-haute fidélité PrismLayers (PrismLayersPro) de 200K (20K) images transparentes multicouches avec des mattes alpha précises, (ii) introduisant un pipeline de synthèse sans entraînement qui génère de telles données à la demande en utilisant des modèles de diffusion disponibles sur le marché, et (iii) proposant un modèle génératif multicouche open-source performant, ART+, qui rivalise avec l'esthétique des modèles modernes de génération texte-à-image. Les contributions techniques clés incluent : LayerFLUX, qui excelle dans la génération de couches transparentes uniques de haute qualité avec des mattes alpha précises, et MultiLayerFLUX, qui compose plusieurs sorties de LayerFLUX en images complètes, guidé par une disposition sémantique annotée par des humains. Pour garantir une qualité supérieure, nous appliquons une étape de filtrage rigoureuse pour éliminer les artefacts et les incohérences sémantiques, suivie d'une sélection humaine. Le fine-tuning du modèle ART de pointe sur notre jeu de données synthétique PrismLayersPro donne naissance à ART+, qui surpasse l'ART original dans 60% des comparaisons directes lors d'études utilisateurs et rivalise même avec la qualité visuelle des images générées par le modèle FLUX.1-[dev]. Nous anticipons que notre travail établira une base solide de données pour la tâche de génération d'images transparentes multicouches, permettant des recherches et des applications nécessitant une imagerie multicouche précise, éditable et visuellement captivante.
Les vérificateurs fiables sont essentiels au succès de l'apprentissage par renforcement avec récompense vérifiable (RLVR), qui constitue la méthodologie centrale derrière divers modèles de raisonnement à grande échelle tels que DeepSeek-R1. Dans des domaines complexes comme le raisonnement mathématique, les vérificateurs basés sur des règles ont été largement adoptés dans les travaux précédents pour entraîner des modèles de raisonnement performants. Cependant, la fiabilité de ces vérificateurs et leur impact sur le processus d'entraînement par renforcement restent mal compris. Dans cette étude, nous prenons le raisonnement mathématique comme cas d'analyse et menons une évaluation approfondie de divers vérificateurs dans des scénarios d'évaluation statique et d'entraînement par renforcement. Tout d'abord, nous constatons que les vérificateurs basés sur des règles actuellement disponibles en open source échouent souvent à reconnaître des réponses équivalentes présentées sous différents formats dans plusieurs ensembles de données mathématiques couramment utilisés, ce qui entraîne des taux non négligeables de faux négatifs. Cette limitation affecte négativement les performances de l'entraînement par renforcement et devient plus prononcée à mesure que le modèle de politique se renforce. Par la suite, nous explorons les vérificateurs basés sur des modèles comme solution potentielle pour surmonter ces limites. Bien que l'évaluation statique montre que les vérificateurs basés sur des modèles atteignent une précision de vérification significativement plus élevée, des analyses approfondies et les résultats de l'entraînement par renforcement suggèrent qu'ils sont très vulnérables au piratage, où ils classent à tort certains motifs dans les réponses comme corrects (c'est-à-dire des faux positifs). Cette vulnérabilité est exploitée lors de l'optimisation du modèle de politique, conduisant à des récompenses artificiellement gonflées. Nos résultats mettent en évidence les risques uniques inhérents aux vérificateurs basés sur des règles et sur des modèles, visant à offrir des insights précieux pour développer des systèmes de récompense plus robustes dans l'apprentissage par renforcement.
La nature diversifiée des tâches de prédiction protéique a traditionnellement nécessité des modèles spécialisés, entravant le développement de modèles de langage protéique (PLM) largement applicables et efficaces sur le plan computationnel. Dans ce travail, nous présentons Prot2Token, un cadre unifié qui surmonte ces défis en convertissant un large éventail de prédictions liées aux protéines, allant des propriétés au niveau de la séquence et des attributs spécifiques aux résidus aux interactions inter-protéiques complexes, en un format standardisé de prédiction du prochain token. Au cœur de Prot2Token se trouve un décodeur autoregressif, conditionné par des embeddings issus d'encodeurs protéiques pré-entraînés et guidé par des tokens de tâches apprenables, pour effectuer des prédictions variées. Cette architecture facilite de manière unique l'apprentissage multitâche, permettant à un seul modèle de maîtriser de nombreuses tâches avec une efficacité accrue. Nous présentons une validation expérimentale approfondie sur une variété de benchmarks, démontrant la forte puissance prédictive de Prot2Token dans différents types de tâches de prédiction protéique. Les résultats clés incluent des accélérations significatives (par exemple, près de 1000x par rapport à AlphaFold2 avec MSA) et des performances souvent égales ou supérieures aux approches spécialisées. Au-delà de cela, nous introduisons une approche de pré-entraînement auto-supervisé du décodeur pour améliorer les performances des tâches sensibles à l'espace. Prot2Token représente ainsi une avancée significative vers un paradigme polyvalent et à haut débit pour la modélisation protéique, promettant d'accélérer les découvertes biologiques et le développement de nouvelles thérapies. Le code est disponible à l'adresse suivante : https://github.com/mahdip72/prot2token.
Le manga, ou bande dessinée japonaise, est une forme narrative richement multimodale qui combine images et texte de manière complexe. Enseigner aux grands modèles multimodaux (LMMs) à comprendre ces récits à un niveau proche de celui des humains pourrait aider les créateurs de manga à réfléchir et à affiner leurs histoires. Dans cette optique, nous introduisons deux benchmarks pour la compréhension multimodale du manga : MangaOCR, qui cible la reconnaissance de texte dans les pages, et MangaVQA, un nouveau benchmark conçu pour évaluer la compréhension contextuelle à travers des questions-réponses visuelles. MangaVQA se compose de 526 paires de questions-réponses de haute qualité, construites manuellement, permettant une évaluation fiable dans divers scénarios narratifs et visuels. Sur la base de ces benchmarks, nous développons MangaLMM, un modèle spécialisé dans le manga, affiné à partir du LMM open-source Qwen2.5-VL pour gérer conjointement les deux tâches. À travers des expériences approfondies, incluant des comparaisons avec des modèles propriétaires tels que GPT-4o et Gemini 2.5, nous évaluons dans quelle mesure les LMMs comprennent le manga. Notre benchmark et notre modèle fournissent une base complète pour évaluer et faire progresser les LMMs dans le domaine richement narratif du manga.
Les modèles de diffusion Texte-à-Image (T2I) ont réalisé des avancées remarquables dans la modélisation générative ; cependant, ils sont confrontés à un compromis entre la vitesse d'inférence et la qualité de l'image, posant des défis pour un déploiement efficace. Les modèles T2I distillés existants peuvent générer des images de haute fidélité avec moins d'étapes d'échantillonnage, mais ils peinent souvent à maintenir la diversité et la qualité, en particulier dans les modèles à une étape. D'après notre analyse, nous observons des calculs redondants dans les encodeurs UNet. Nos résultats suggèrent que, pour les modèles de diffusion T2I, les décodeurs sont plus aptes à capturer des informations sémantiques plus riches et plus explicites, tandis que les encodeurs peuvent être efficacement partagés entre les décodeurs de différentes étapes temporelles. Sur la base de ces observations, nous introduisons le premier Encodeur Unifié Indépendant du Temps (TiUE) pour l'architecture UNet du modèle étudiant, qui est une approche de génération d'images sans boucle pour la distillation des modèles de diffusion T2I. En utilisant un schéma à passage unique, TiUE partage les caractéristiques de l'encodeur entre plusieurs étapes temporelles du décodeur, permettant un échantillonnage parallèle et réduisant significativement la complexité temporelle de l'inférence. De plus, nous intégrons un terme de divergence KL pour régulariser la prédiction du bruit, ce qui améliore le réalisme perceptuel et la diversité des images générées. Les résultats expérimentaux démontrent que TiUE surpasse les méthodes de pointe, y compris LCM, SD-Turbo et SwiftBrushv2, en produisant des résultats plus diversifiés et réalistes tout en maintenant l'efficacité computationnelle.
Les modèles d'IA générative apprennent et reproduisent souvent des informations erronées présentes dans leurs corpus d'entraînement. Ce document de position soutient que, par analogie avec l'immunisation biologique, où une exposition contrôlée à un agent pathogène atténué renforce l'immunité, les modèles d'IA devraient être affinés sur de petits ensembles de faussetés explicitement étiquetées et mises en quarantaine, agissant comme un "vaccin" contre la désinformation. Ces exemples de faussetés soigneusement sélectionnés sont injectés périodiquement lors de l'affinage, renforçant la capacité du modèle à reconnaître et à rejeter les affirmations trompeuses tout en préservant sa précision sur les entrées véridiques. Une étude de cas illustrative montre que les modèles immunisés génèrent nettement moins de désinformation que les modèles de référence. À notre connaissance, il s'agit du premier cadre d'entraînement qui traite les faussetés vérifiées elles-mêmes comme un vaccin supervisé, plutôt que de s'appuyer sur des perturbations d'entrée ou des signaux génériques de retour humain, pour renforcer les modèles contre la désinformation future. Nous décrivons également des garde-fous éthiques et des contrôles de gouvernance pour garantir l'utilisation sûre des données erronées. L'immunisation des modèles offre un paradigme proactif pour aligner les systèmes d'IA sur la factualité.
La stylisation instantanée de scènes 3D tout en préservant la cohérence multi-vues et en ressemblant fidèlement à une image de style reste un défi majeur. Les méthodes actuelles de pointe pour la stylisation 3D impliquent généralement une optimisation intensive au moment du test pour transférer des caractéristiques artistiques dans une représentation 3D pré-entraînée, nécessitant souvent des images d'entrée denses et posées. En revanche, en tirant parti des avancées récentes dans les modèles de reconstruction en flux direct, nous démontrons une nouvelle approche pour réaliser une stylisation 3D directe en moins d'une seconde à l'aide d'images de scène non posées à vue éparse et d'une image de style arbitraire. Pour résoudre le découplage inhérent entre la reconstruction et la stylisation, nous introduisons une architecture ramifiée qui sépare la modélisation de la structure et l'ombrage de l'apparence, empêchant efficacement le transfert stylistique de déformer la structure sous-jacente de la scène 3D. De plus, nous adaptons une fonction de perte d'identité pour faciliter le pré-entraînement de notre modèle de stylisation à travers la tâche de synthèse de nouvelles vues. Cette stratégie permet également à notre modèle de conserver ses capacités de reconstruction originales tout en étant affiné pour la stylisation. Des évaluations approfondies, utilisant à la fois des ensembles de données intra-domaines et extra-domaines, démontrent que notre approche produit un contenu 3D stylisé de haute qualité qui atteint un mélange supérieur de style et d'apparence de scène, tout en surpassant les méthodes existantes en termes de cohérence multi-vues et d'efficacité.
La sélection efficace des données est cruciale pour l'entraînement performant des modèles de langage de grande taille (LLMs) modernes. Cet article présente Influence Distillation, un cadre novateur et mathématiquement justifié pour la sélection des données, qui utilise des informations de second ordre pour pondérer de manière optimale les échantillons d'entraînement. En distillant l'influence de chaque échantillon sur une distribution cible, notre méthode attribue des poids spécifiques au modèle, utilisés pour sélectionner les données d'entraînement lors du réglage fin des LLMs, orientant ainsi le modèle vers une performance optimale dans le domaine cible. Nous dérivons ces poids optimaux pour les optimiseurs Gradient Descent et Adam. Pour garantir l'évolutivité et réduire les coûts de calcul, nous proposons une approximation basée sur des points de repère : l'influence est calculée avec précision pour un petit sous-ensemble d'échantillons "points de repère", puis propagée efficacement à tous les autres échantillons pour déterminer leurs poids. Nous validons Influence Distillation en l'appliquant au réglage par instruction sur le jeu de données Tulu V2, ciblant une gamme de tâches incluant GSM8k, SQuAD et MMLU, sur plusieurs modèles des familles Llama et Qwen. Les expériences montrent qu'Influence Distillation égal ou surpasse les performances de pointe tout en réalisant une sélection jusqu'à 3,5 fois plus rapide.
Les récentes avancées dans les modèles de langage visuel (VLMs) ont démontré des performances exceptionnelles dans les tâches de raisonnement visuel. Cependant, la géolocalisation présente des défis uniques, nécessitant l'extraction d'indices visuels multi-granulaires à partir d'images et leur intégration avec des connaissances externes du monde pour un raisonnement systématique. Les approches actuelles des tâches de géolocalisation manquent souvent de mécanismes de raisonnement robustes et d'explicabilité, limitant ainsi leur efficacité. Pour pallier ces limitations, nous proposons la suite Geo Reason Enhancement (GRE), un cadre novateur qui enrichit les VLMs avec des chaînes de raisonnement structurées pour une inférence de localisation précise et interprétable. La suite GRE est systématiquement développée selon trois dimensions clés : ensemble de données, modèle et benchmark. Tout d'abord, nous introduisons GRE30K, un ensemble de données de raisonnement de géolocalisation de haute qualité conçu pour faciliter une analyse visuelle et contextuelle fine. Ensuite, nous présentons le modèle GRE, qui utilise une stratégie de raisonnement en plusieurs étapes pour inférer progressivement les attributs de la scène, les détails locaux et les caractéristiques sémantiques, réduisant ainsi les régions géographiques potentielles avec une précision accrue. Enfin, nous construisons le benchmark d'évaluation Geo Reason (GREval-Bench), un cadre d'évaluation complet qui évalue les VLMs à travers diverses scènes urbaines, naturelles et de points d'intérêt pour mesurer les performances de localisation à la fois grossières (par exemple, pays, continent) et fines (par exemple, ville, rue). Les résultats expérimentaux montrent que GRE surpasse significativement les méthodes existantes à toutes les granularités des tâches de géolocalisation, soulignant l'efficacité des VLMs enrichis de raisonnement dans l'inférence géographique complexe. Le code et les données seront disponibles à l'adresse https://github.com/Thorin215/GRE.
L'explosion des modèles génératifs de vidéo a amplifié la demande pour une préservation fiable des droits d'auteur des contenus générés par l'IA. Bien que populaire dans la synthèse d'images, le tatouage génératif invisible reste largement inexploré dans la génération de vidéos. Pour combler cette lacune, nous proposons Safe-Sora, le premier cadre permettant d'intégrer des tatouages graphiques directement dans le processus de génération vidéo. Motivés par l'observation que la performance du tatouage est étroitement liée à la similarité visuelle entre le tatouage et le contenu de couverture, nous introduisons un mécanisme hiérarchique d'adaptation grossier à fin. Plus précisément, l'image du tatouage est divisée en patches, chacun étant assigné à la frame vidéo la plus visuellement similaire, puis localisé dans la région spatiale optimale pour une intégration fluide. Pour permettre la fusion spatiotemporelle des patches de tatouage à travers les frames vidéo, nous développons une architecture Mamba améliorée par une transformée en ondelettes 3D avec une nouvelle stratégie de balayage local spatiotemporel, modélisant efficacement les dépendances à longue portée lors de l'intégration et de la récupération du tatouage. À notre connaissance, il s'agit de la première tentative d'application des modèles à espace d'état au tatouage, ouvrant de nouvelles voies pour une protection efficace et robuste des tatouages. Des expériences approfondies démontrent que Safe-Sora atteint des performances de pointe en termes de qualité vidéo, fidélité du tatouage et robustesse, attribuées en grande partie à nos propositions. Nous publierons notre code après la publication.
L'apprentissage par renforcement (RL) a permis des avancées significatives en robotique, mais sa complexité et ses temps d'entraînement longs restent des obstacles majeurs. Dans ce rapport, nous présentons FastTD3, un algorithme de RL simple, rapide et performant qui accélère considérablement l'entraînement pour les robots humanoïdes dans des environnements populaires tels que HumanoidBench, IsaacLab et MuJoCo Playground. Notre approche est remarquablement simple : nous entraînons un agent TD3 hors politique avec plusieurs modifications — simulation parallèle, mises à jour par lots de grande taille, un critique distributionnel et des hyperparamètres soigneusement ajustés. FastTD3 résout une série de tâches de HumanoidBench en moins de 3 heures sur une seule GPU A100, tout en restant stable pendant l'entraînement. Nous fournissons également une implémentation légère et facile à utiliser de FastTD3 pour accélérer la recherche en RL en robotique.
Le réglage fin des modèles de langage de grande taille (LLMs) a considérablement amélioré leurs capacités à suivre des instructions, mais les mécanismes computationnels sous-jacents qui pilotent ces améliorations restent mal compris. Cette étude examine systématiquement comment le réglage fin reconfigure les calculs des LLMs en isolant et en analysant les composants clairsemés spécifiques aux instructions, c'est-à-dire les neurones dans les modèles denses ainsi que les neurones et les experts dans les architectures de type Mixture-of-Experts (MoE). En particulier, nous introduisons HexaInst, un ensemble de données d'instructions soigneusement sélectionné et équilibré couvrant six catégories distinctes, et proposons SPARCOM, un nouveau cadre analytique comprenant trois contributions clés : (1) une méthode pour identifier ces composants clairsemés, (2) une évaluation de leur généralité fonctionnelle et de leur unicité, et (3) une comparaison systématique de leurs modifications. À travers des expériences, nous démontrons la généralité fonctionnelle, l'unicité et le rôle critique de ces composants dans l'exécution des instructions. En élucidant la relation entre les adaptations induites par le réglage fin et les substrats computationnels clairsemés, ce travail fournit des insights plus profonds sur la manière dont les LLMs internalisent le comportement de suivi d'instructions pour la communauté des LLMs dignes de confiance.
Les systèmes de tutorat intelligents combinés à des modèles de langage de grande taille offrent une approche prometteuse pour répondre aux besoins divers des étudiants et promouvoir un apprentissage auto-efficace. Bien que les modèles de langage de grande taille possèdent une bonne connaissance de base en génie électrique, ils restent insuffisamment capables de répondre à des questions spécifiques sur les circuits électriques. Dans cet article, nous présentons AITEE, un système de tutorat basé sur des agents pour le génie électrique, conçu pour accompagner les étudiants tout au long de leur processus d'apprentissage, offrir un soutien individualisé et promouvoir l'apprentissage autonome. AITEE prend en charge les circuits dessinés à la main et numériques grâce à un processus de reconstruction de circuit adapté, permettant une interaction naturelle avec les étudiants. Notre nouvelle mesure de similarité basée sur les graphes identifie le contexte pertinent à partir des supports de cours grâce à une approche de génération augmentée par récupération, tandis qu'une simulation Spice parallèle améliore encore la précision dans l'application des méthodologies de résolution. Le système met en œuvre un dialogue socratique pour favoriser l'autonomie de l'apprenant à travers des questions guidées. Les évaluations expérimentales démontrent qu'AITEE surpasse significativement les approches de référence dans l'application des connaissances spécifiques au domaine, avec même des modèles de langage de taille moyenne montrant des performances acceptables. Nos résultats mettent en lumière le potentiel des tuteurs agentiques pour fournir des environnements d'apprentissage évolutifs, personnalisés et efficaces pour l'éducation en génie électrique.
Les modèles vision-langage (VLMs) ont réalisé des progrès significatifs dans les tâches multimodales. Cependant, leurs performances se dégradent souvent dans des scénarios à contexte étendu, en particulier pour les vidéos longues. Bien que l'incorporation de position rotative (RoPE) ait été largement adoptée pour la généralisation de longueur dans les grands modèles de langage (LLMs), étendre la RoPE classique pour capturer les dépendances spatio-temporelles complexes dans les vidéos reste un défi non résolu. Les méthodes existantes attribuent généralement différentes fréquences au sein de la RoPE pour encoder les informations de position 3D. Cependant, ces stratégies d'attribution reposent principalement sur des heuristiques, manquant d'une analyse théorique approfondie. Dans cet article, nous étudions d'abord comment différentes stratégies d'attribution impactent les capacités de contexte étendu des VLMs. Notre analyse révèle que les RoPE multimodales actuelles ne parviennent pas à capturer de manière fiable les similarités sémantiques sur des contextes étendus. Pour résoudre ce problème, nous proposons HoPE, une incorporation de position hybride conçue pour améliorer les capacités de contexte étendu des VLMs. HoPE introduit une stratégie d'attribution de fréquences hybrides pour une modélisation sémantique fiable sur des contextes arbitrairement longs, ainsi qu'un mécanisme de mise à l'échelle temporelle dynamique pour faciliter un apprentissage robuste et une inférence flexible sur des longueurs de contexte variées. Des expériences approfondies sur quatre benchmarks vidéo pour des tâches de compréhension et de recherche de vidéos longues démontrent que HoPE surpasse systématiquement les méthodes existantes, confirmant son efficacité. Le code est disponible à l'adresse https://github.com/hrlics/HoPE.
La croissance rapide des ressources open source en apprentissage automatique (ML), telles que les modèles et les ensembles de données, a accéléré la recherche en recherche d'information (IR). Cependant, les plateformes existantes comme Hugging Face n'utilisent pas explicitement de représentations structurées, limitant ainsi les requêtes et analyses avancées telles que le suivi de l'évolution des modèles et la recommandation d'ensembles de données pertinents. Pour combler cette lacune, nous construisons HuggingKG, le premier graphe de connaissances à grande échelle issu de la communauté Hugging Face pour la gestion des ressources ML. Avec 2,6 millions de nœuds et 6,2 millions de relations, HuggingKG capture des relations spécifiques au domaine ainsi que des attributs textuels riches. Cela nous permet de présenter HuggingBench, un benchmark multi-tâches avec trois nouvelles collections de tests pour des tâches IR incluant la recommandation de ressources, la classification et le suivi. Nos expériences révèlent des caractéristiques uniques de HuggingKG et des tâches qui en découlent. Ces deux ressources sont publiquement disponibles et devraient faire progresser la recherche dans le partage et la gestion des ressources open source.
La compréhension des représentations fonctionnelles au sein du cortex visuel supérieur constitue une question fondamentale en neurosciences computationnelles. Bien que les réseaux de neurones artificiels pré-entraînés sur des ensembles de données à grande échelle présentent un alignement remarquable avec les réponses neuronales humaines, l'apprentissage de modèles calculables d'images du cortex visuel repose sur des ensembles de données IRMf individuels à grande échelle. La nécessité d'une acquisition de données coûteuse, chronophage et souvent peu pratique limite la généralisabilité des encodeurs à de nouveaux sujets et stimuli. BraInCoRL utilise l'apprentissage en contexte pour prédire les réponses neuronales voxel par voxel à partir de quelques exemples, sans nécessiter de réglage supplémentaire pour de nouveaux sujets et stimuli. Nous exploitons une architecture de transformateur capable de s'adapter de manière flexible à un nombre variable de stimuli visuels en contexte, apprenant un biais inductif sur plusieurs sujets. Pendant l'entraînement, nous optimisons explicitement le modèle pour l'apprentissage en contexte. En conditionnant conjointement sur les caractéristiques des images et les activations voxel, notre modèle apprend à générer directement des modèles voxel par voxel plus performants du cortex visuel supérieur. Nous démontrons que BraInCoRL surpasse systématiquement les conceptions existantes d'encodeurs voxel par voxel dans un régime de faible quantité de données lorsqu'il est évalué sur des images entièrement nouvelles, tout en présentant un comportement de mise à l'échelle robuste au moment du test. Le modèle généralise également à un nouvel ensemble de données IRMf visuelles, utilisant des sujets différents et des paramètres d'acquisition de données IRMf distincts. De plus, BraInCoRL facilite une meilleure interprétabilité des signaux neuronaux dans le cortex visuel supérieur en se concentrant sur des stimuli sémantiquement pertinents. Enfin, nous montrons que notre cadre permet des correspondances interprétables entre des requêtes en langage naturel et la sélectivité voxel.
Bien que les capacités des modèles de langage de grande taille (LLMs) aient été étudiées en chinois simplifié et traditionnel, il reste incertain si ces modèles présentent des performances différentielles lorsqu'ils sont sollicités dans ces deux variantes écrites du chinois. Cette compréhension est cruciale, car des disparités dans la qualité des réponses des LLMs peuvent perpétuer des préjudices de représentation en ignorant les différents contextes culturels sous-jacents au chinois simplifié par rapport au traditionnel, et peuvent exacerber les préjudices en aval dans les processus décisionnels facilités par les LLMs dans des domaines tels que l'éducation ou le recrutement. Pour étudier les disparités potentielles de performance des LLMs, nous concevons deux tâches de référence reflétant des scénarios réels : le choix de termes régionaux (sollicitant le LLM pour nommer un objet décrit différemment en Chine continentale et à Taïwan), et le choix de noms régionaux (sollicitant le LLM pour choisir qui recruter parmi une liste de noms en chinois simplifié et traditionnel). Pour ces deux tâches, nous auditons les performances de 11 services commerciaux de LLMs et de modèles open-source — couvrant ceux principalement entraînés sur l'anglais, le chinois simplifié ou le traditionnel. Nos analyses indiquent que les biais dans les réponses des LLMs dépendent à la fois de la tâche et de la langue de sollicitation : tandis que la plupart des LLMs favorisaient de manière disproportionnée les réponses en chinois simplifié dans la tâche de choix de termes régionaux, ils favorisaient étonnamment les noms en chinois traditionnel dans la tâche de choix de noms régionaux. Nous constatons que ces disparités peuvent découler des différences dans la représentation des données d'entraînement, les préférences de caractères écrits, et la tokenisation du chinois simplifié et traditionnel. Ces résultats soulignent la nécessité d'une analyse approfondie des biais des LLMs ; à cet effet, nous fournissons un ensemble de données de référence open-source pour favoriser des évaluations reproductibles du comportement futur des LLMs à travers les variantes de la langue chinoise (https://github.com/brucelyu17/SC-TC-Bench).
La compréhension de l'orientation des objets constitue un défi fondamental dans la perception visuelle, essentiel pour des applications telles que la manipulation robotique et la réalité augmentée. Les benchmarks actuels en vision et langage ne parviennent pas à isoler cette capacité, la confondant souvent avec les relations positionnelles et la compréhension générale des scènes. Nous présentons DORI (Discriminative Orientation Reasoning Intelligence), un benchmark complet qui établit la perception de l'orientation des objets comme cible principale d'évaluation. DORI évalue quatre dimensions de la compréhension de l'orientation : l'alignement frontal, les transformations rotationnelles, les relations directionnelles relatives et la compréhension de l'orientation canonique. Grâce à des tâches soigneusement sélectionnées à partir de 11 ensembles de données couvrant 67 catégories d'objets dans des scénarios synthétiques et réels, DORI offre des insights sur la manière dont les systèmes multimodaux comprennent les orientations des objets. Notre évaluation de 15 modèles de pointe en vision et langage révèle des limitations critiques : même les meilleurs modèles n'atteignent que 54,2 % de précision sur les tâches grossières et 33,0 % sur les jugements d'orientation granulaires, avec une performance qui se détériore pour les tâches nécessitant des changements de référentiel ou des rotations composées. Ces résultats démontrent la nécessité de mécanismes de représentation dédiés à l'orientation, car les modèles montrent une incapacité systématique à effectuer des estimations angulaires précises, à suivre les changements d'orientation entre les points de vue et à comprendre les rotations composées, suggérant des limitations dans leurs représentations spatiales 3D internes. En tant que premier cadre diagnostique spécifiquement conçu pour la conscience de l'orientation dans les systèmes multimodaux, DORI offre des implications pour l'amélioration du contrôle robotique, la reconstruction de scènes 3D et l'interaction humain-IA dans des environnements physiques. Données DORI : https://huggingface.co/datasets/appledora/DORI-Benchmark
La compréhension temporelle des vidéos est essentielle pour les modèles de langage multimodaux de grande envergure (MLLMs) afin de raisonner sur les événements dans les vidéos. Malgré les progrès récents dans la compréhension générale des vidéos, les MLLMs actuels rencontrent encore des difficultés avec le raisonnement temporel fin. Bien que l'apprentissage par renforcement (RL) ait été exploré récemment pour résoudre ce problème, les approches existantes en RL restent limitées en termes d'efficacité. Dans ce travail, nous proposons MUSEG, une nouvelle méthode basée sur le RL qui améliore la compréhension temporelle en introduisant un ancrage multi-segments conscient des timestamps. MUSEG permet aux MLLMs d'aligner les requêtes avec plusieurs segments vidéo pertinents, favorisant ainsi un raisonnement temporel plus complet. Pour faciliter un apprentissage efficace, nous concevons une recette d'entraînement RL personnalisée avec des récompenses phasées qui guident progressivement le modèle vers un raisonnement temporel ancré. Des expériences approfondies sur des tâches d'ancrage temporel et de question-réponse vidéo sensibles au temps démontrent que MUSEG surpasse significativement les méthodes existantes et généralise bien à travers divers scénarios de compréhension temporelle. Consultez notre projet à l'adresse https://github.com/THUNLP-MT/MUSEG.
Les grands modèles de langage (LLM) acquièrent souvent des connaissances lors du prétraitement qui sont indésirables dans les déploiements en aval, par exemple des informations sensibles ou du contenu protégé par des droits d'auteur. Les approches existantes pour supprimer ces connaissances reposent sur le réglage fin, l'entraînement d'adaptateurs de bas rang ou l'édition au niveau des faits, mais celles-ci sont soit trop grossières, soit trop superficielles, ou inefficaces. Dans ce travail, nous proposons PISCES (Suppression précise in-paramètre pour l'effacement de concepts), un nouveau cadre pour effacer précisément des concepts entiers des paramètres du modèle en modifiant directement les directions qui les encodent dans l'espace des paramètres. PISCES utilise un modèle de désentrelacement pour décomposer les vecteurs MLP en caractéristiques interprétables, identifie celles associées à un concept cible à l'aide de techniques d'interprétabilité automatisées, et les supprime des paramètres du modèle. Les expériences sur Gemma 2 et Llama 3.1 pour divers concepts montrent que PISCES obtient des gains modestes en efficacité par rapport aux principales méthodes d'effacement, réduisant la précision sur le concept cible à seulement 7,7 %, tout en améliorant considérablement la spécificité de l'effacement (jusqu'à 31 %) et la robustesse (jusqu'à 38 %). Globalement, ces résultats démontrent que l'édition in-paramètre basée sur les caractéristiques permet une approche plus précise et fiable pour supprimer les connaissances conceptuelles dans les modèles de langage.
Le pré-entraînement langage-image a démontré des performances solides dans l'imagerie médicale 2D, mais son succès dans les modalités 3D telles que la tomodensitométrie (CT) et l'imagerie par résonance magnétique (IRM) reste limité en raison des exigences computationnelles élevées des données volumétriques, qui constituent un obstacle majeur à l'entraînement sur des études cliniques non triées à grande échelle. Dans cette étude, nous introduisons l'attention hiérarchique pour le pré-entraînement langage-image (HLIP), un cadre de pré-entraînement évolutif pour l'imagerie médicale 3D. HLIP adopte un mécanisme d'attention hiérarchique léger inspiré par la hiérarchie naturelle des données radiologiques : coupe, examen et étude. Ce mécanisme présente une forte généralisabilité, par exemple, une augmentation de 4,3 % de l'AUC macro sur le benchmark Rad-ChestCT lorsqu'il est pré-entraîné sur CT-RATE. De plus, l'efficacité computationnelle de HLIP permet un entraînement direct sur des ensembles de données non triés. Entraîné sur 220 000 patients avec 3,13 millions d'examens pour l'IRM cérébrale et 240 000 patients avec 1,44 million d'examens pour la tomodensitométrie crânienne, HLIP atteint des performances de pointe, par exemple, une augmentation de 32,4 % de l'exactitude équilibrée sur le benchmark d'IRM cérébrale Pub-Brain-5 proposé et accessible au public ; des augmentations de 1,4 % et 6,9 % de l'AUC macro sur les benchmarks de tomodensitométrie crânienne RSNA et CQ500, respectivement. Ces résultats démontrent qu'avec HLIP, le pré-entraînement direct sur des ensembles de données cliniques non triés constitue une direction évolutive et efficace pour le pré-entraînement langage-image dans l'imagerie médicale 3D. Le code est disponible à l'adresse suivante : https://github.com/Zch0414/hlip.
Comprendre et inférer des relations causales à partir de textes est un aspect fondamental de la cognition humaine et est essentiel pour faire progresser les grands modèles de langage (LLMs) vers une intelligence artificielle générale. Les travaux existants se concentrent principalement sur des textes générés de manière synthétique qui impliquent des relations causales simples explicitement mentionnées dans le texte. Cela ne reflète pas les complexités des tâches du monde réel. Dans cet article, nous examinons si les LLMs sont capables d'inférer des relations causales à partir de textes du monde réel. Nous développons un benchmark tiré de la littérature académique réelle, qui inclut des textes variés en termes de longueur, de complexité des relations (différents niveaux d'explicitation, nombre d'événements et relations causales), ainsi que de domaines et sous-domaines. À notre connaissance, notre benchmark est le premier ensemble de données du monde réel pour cette tâche. Nos expériences sur les LLMs de pointe évalués sur notre benchmark proposé démontrent des défis significatifs, le modèle le plus performant atteignant un score F1 moyen de seulement 0,477. L'analyse révèle des écueils communs : difficulté avec les informations implicites, à distinguer les facteurs causaux pertinents des détails contextuels environnants, et à relier les informations causales pertinentes dispersées dans des passages textuels longs. En caractérisant systématiquement ces lacunes, notre benchmark offre des insights ciblés pour des recherches futures visant à améliorer le raisonnement causal des LLMs.
La mise à l'échelle au moment du test (TTS), qui implique une allocation dynamique de ressources de calcul pendant l'inférence, offre une voie prometteuse pour améliorer le raisonnement dans les grands modèles de langage. Bien que les méthodes TTS existantes fonctionnent bien, elles reposent souvent sur des chemins de décodage longs ou nécessitent la génération d'un grand nombre d'échantillons, ce qui augmente l'utilisation de tokens et la latence d'inférence. Nous observons le fait surprenant que, pour les tâches de raisonnement, les traces plus courtes sont beaucoup plus susceptibles d'être correctes que les traces plus longues. Motivés par cela, nous introduisons la recherche du premier terminé (FFS), une stratégie de décodage parallèle sans apprentissage qui lance n échantillons indépendants et retourne dès que l'un d'eux se termine. Nous évaluons FFS aux côtés du décodage simple, de la recherche en faisceau, du vote majoritaire et du forçage budgétaire sur quatre modèles de raisonnement (DeepSeek-R1, R1-Distill-Qwen-32B, QwQ-32B et Phi-4-Reasoning-Plus) et à travers quatre ensembles de données (AIME24, AIME25-I, AIME25-II et GPQA Diamond). Avec DeepSeek-R1, FFS atteint une précision de 82,23 % sur les ensembles de données AIME, une amélioration de 15 % par rapport à la précision autonome de DeepSeek-R1, approchant presque la performance d'OpenAI o4-mini. Notre analyse théorique explique pourquoi s'arrêter à la trace la plus courte est susceptible de produire une réponse correcte et identifie les conditions sous lesquelles un arrêt précoce peut être sous-optimal. L'élégance et la simplicité de FFS démontrent que des stratégies TTS simples peuvent fonctionner remarquablement bien, révélant le potentiel inexploité des approches simples au moment de l'inférence.
Bien que les grands modèles vision-langage (VLMs) aient démontré des performances remarquables dans un large éventail de tâches multimodales, leurs véritables capacités de raisonnement sur des tests de QI humains restent peu explorées. Pour faire avancer la recherche sur l'intelligence fluide des VLMs, nous introduisons **IQBench**, un nouveau benchmark conçu pour évaluer les VLMs sur des tests de QI visuels standardisés. Nous nous concentrons sur l'évaluation des capacités de raisonnement des VLMs, que nous considérons comme plus importantes que la précision de la prédiction finale. **Notre benchmark est visuellement centré, minimisant la dépendance à un contenu textuel superflu**, encourageant ainsi les modèles à dériver des réponses principalement à partir d'informations basées sur l'image plutôt que de connaissances textuelles apprises. À cette fin, nous avons collecté et annoté manuellement 500 questions de QI visuel pour **éviter toute fuite de données involontaire lors de l'entraînement**. Contrairement aux travaux antérieurs qui se concentrent principalement sur la précision de la réponse finale, nous évaluons la capacité de raisonnement des modèles en examinant leurs explications et les schémas utilisés pour résoudre chaque problème, ainsi que la précision de la prédiction finale et l'évaluation humaine. Nos expériences montrent qu'il existe des disparités de performance substantielles entre les tâches, avec des modèles tels que `o4-mini`, `gemini-2.5-flash` et `claude-3.7-sonnet` atteignant les précisions moyennes les plus élevées de 0,615, 0,578 et 0,548, respectivement. Cependant, tous les modèles rencontrent des difficultés avec les tâches de raisonnement spatial 3D et les anagrammes, mettant en lumière des limitations significatives dans les capacités de raisonnement général des VLMs actuels. En termes de scores de raisonnement, `o4-mini`, `gemini-2.5-flash` et `claude-3.7-sonnet` ont atteint les moyennes les plus élevées de 0,696, 0,586 et 0,516, respectivement. Ces résultats soulignent des incohérences entre les processus de raisonnement des modèles et leurs réponses finales, mettant en évidence l'importance d'évaluer la précision du raisonnement en plus des prédictions finales.