papers.description
Le classement par liste basé sur les modèles de langage de grande taille (LLM) a démontré des performances supérieures dans de nombreuses tâches de classement de passages. Avec le développement des modèles de raisonnement de grande taille, de nombreuses études ont montré que le raisonnement étape par étape pendant le temps de test contribue à améliorer les performances du classement par liste. Cependant, en raison de la rareté des données d'entraînement intensives en raisonnement, les reclassificateurs existants obtiennent de mauvais résultats dans de nombreux scénarios de classement complexes, et la capacité de classement des reclassificateurs intensifs en raisonnement reste largement sous-développée. Dans cet article, nous proposons d'abord un cadre automatisé de synthèse de données d'entraînement intensives en raisonnement, qui puise des requêtes et des passages d'entraînement dans divers domaines et applique DeepSeek-R1 pour générer des étiquettes d'entraînement de haute qualité. Un mécanisme de filtrage des données par auto-cohérence est conçu pour garantir la qualité des données. Pour doter le reclassificateur par liste d'une forte capacité de raisonnement, nous proposons en outre une approche d'entraînement postérieur en deux étapes, comprenant une étape de réglage fin supervisé (SFT) à froid pour l'apprentissage des modèles de raisonnement et une étape d'apprentissage par renforcement (RL) pour améliorer davantage la capacité de classement. Durant l'étape RL, en nous basant sur la nature du classement par liste, nous concevons une récompense de classement multi-vues, qui s'avère plus efficace qu'une récompense basée sur une métrique de classement. Des expériences approfondies démontrent que notre reclassificateur intensif en raisonnement ReasonRank surpasse significativement les bases de référence existantes et obtient également une latence bien inférieure à celle du reclassificateur ponctuel Rank1. À travers des expériences supplémentaires, notre ReasonRank a atteint une performance de pointe (SOTA) de 40,6 sur le tableau de bord BRIGHT\footnote{https://brightbenchmark.github.io/.} Nos codes sont disponibles à l'adresse https://github.com/8421BCD/ReasonRank.
De la recherche professionnelle à la planification quotidienne, de nombreuses tâches sont entravées par la recherche d'informations à grande échelle, qui est plus répétitive que cognitivement complexe. Avec le développement rapide des modèles de langage à grande échelle (LLMs), les agents de recherche automatisés alimentés par ces LLMs offrent une solution prometteuse pour libérer les humains de ce travail fastidieux. Cependant, la capacité de ces agents à effectuer une collecte d'informations dans un "contexte large" de manière fiable et complète reste largement non évaluée en raison d'un manque de benchmarks appropriés. Pour combler cette lacune, nous introduisons WideSearch, un nouveau benchmark conçu pour évaluer la fiabilité des agents sur ces tâches de collecte à grande échelle. Le benchmark comprend 200 questions soigneusement sélectionnées (100 en anglais, 100 en chinois) provenant de plus de 15 domaines divers, ancrées dans des requêtes réelles d'utilisateurs. Chaque tâche exige que les agents collectent des informations atomiques à grande échelle, qui peuvent être vérifiées une par une de manière objective, et les organisent en une sortie bien structurée. Un pipeline rigoureux de contrôle qualité en cinq étapes garantit la difficulté, l'exhaustivité et la vérifiabilité du jeu de données. Nous évaluons plus de 10 systèmes de recherche agentique de pointe, incluant des frameworks mono-agent, multi-agents et des systèmes commerciaux de bout en bout. La plupart des systèmes atteignent des taux de réussite globaux proches de 0\%, le meilleur performant atteignant à peine 5\%. Cependant, avec suffisamment de temps, une validation croisée par plusieurs testeurs humains peut atteindre un taux de réussite proche de 100\%. Ces résultats démontrent que les agents de recherche actuels présentent des lacunes critiques dans la recherche d'informations à grande échelle, soulignant des domaines urgents pour la recherche et le développement futurs dans la recherche agentique. Notre jeu de données, pipeline d'évaluation et résultats de benchmark ont été rendus publics à l'adresse https://widesearch-seed.github.io/.
Les récents progrès dans les modèles de langage de grande envergure ont suscité un intérêt croissant pour les agents d’IA capables de résoudre des tâches complexes et réelles. Cependant, la plupart des systèmes d’agents existants reposent sur des configurations manuellement conçues qui restent statiques après leur déploiement, limitant ainsi leur capacité à s’adapter à des environnements dynamiques et évolutifs. Dans cette optique, des recherches récentes ont exploré des techniques d’évolution des agents visant à améliorer automatiquement les systèmes d’agents en fonction des données d’interaction et des retours d’environnement. Cette direction émergente pose les bases des agents d’IA auto-évolutifs, qui comblent les capacités statiques des modèles de base avec l’adaptabilité continue requise par les systèmes agentiques à long terme. Dans cette étude, nous proposons une revue exhaustive des techniques existantes pour les systèmes agentiques auto-évolutifs. Plus précisément, nous introduisons d’abord un cadre conceptuel unifié qui abstrait la boucle de rétroaction sous-jacente à la conception des systèmes agentiques auto-évolutifs. Ce cadre met en lumière quatre composants clés : les entrées du système, le système d’agents, l’environnement et les optimiseurs, servant de base pour comprendre et comparer différentes stratégies. Sur la base de ce cadre, nous examinons systématiquement une large gamme de techniques auto-évolutives ciblant différents composants du système d’agents. Nous étudions également des stratégies d’évolution spécifiques à des domaines développées pour des champs spécialisés tels que la biomédecine, la programmation et la finance, où les objectifs d’optimisation sont étroitement liés aux contraintes du domaine. En outre, nous proposons une discussion dédiée sur l’évaluation, la sécurité et les considérations éthiques pour les systèmes agentiques auto-évolutifs, qui sont essentielles pour garantir leur efficacité et leur fiabilité. Cette étude vise à offrir aux chercheurs et aux praticiens une compréhension systématique des agents d’IA auto-évolutifs, posant ainsi les bases pour le développement de systèmes agentiques plus adaptatifs, autonomes et à long terme.
Les effets visuels (VFX) sont des améliorations visuelles essentielles à la production cinématographique moderne. Bien que les modèles de génération vidéo offrent des solutions rentables pour la production de VFX, les méthodes actuelles sont limitées par l'entraînement LoRA par effet, ce qui restreint la génération à des effets uniques. Cette limitation fondamentale entrave les applications nécessitant des effets composites spatialement contrôlables, c'est-à-dire la génération simultanée de multiples effets à des emplacements désignés. Cependant, l'intégration de divers effets dans un cadre unifié pose des défis majeurs : l'interférence des variations d'effets et l'incontrôlabilité spatiale lors de l'entraînement conjoint multi-VFX. Pour relever ces défis, nous proposons Omni-Effects, un premier cadre unifié capable de générer des effets guidés par des prompts et des effets composites spatialement contrôlables. Le cœur de notre cadre repose sur deux innovations clés : (1) le LoRA-based Mixture of Experts (LoRA-MoE), qui utilise un groupe de LoRAs experts, intégrant divers effets dans un modèle unifié tout en atténuant efficacement les interférences inter-tâches. (2) le Spatial-Aware Prompt (SAP) incorpore des informations de masque spatial dans le token texte, permettant un contrôle spatial précis. De plus, nous introduisons un module Independent-Information Flow (IIF) intégré au SAP, isolant les signaux de contrôle correspondant à des effets individuels pour éviter tout mélange indésirable. Pour faciliter cette recherche, nous construisons un ensemble de données VFX complet, Omni-VFX, via une nouvelle pipeline de collecte de données combinant l'édition d'images et la synthèse First-Last Frame-to-Video (FLF2V), et introduisons un cadre d'évaluation VFX dédié pour valider les performances du modèle. Des expériences approfondies démontrent qu'Omni-Effects permet un contrôle spatial précis et une génération d'effets diversifiés, permettant aux utilisateurs de spécifier à la fois la catégorie et l'emplacement des effets souhaités.
Les agents de Deep-Research, qui intègrent des modèles de langage de grande taille (LLMs) avec des outils de recherche, ont démontré leur efficacité pour améliorer la prise en charge de requêtes complexes nécessitant une planification itérative de la recherche et un raisonnement sur les résultats. Les évaluations sur les benchmarks actuels comme BrowseComp, qui reposent sur des API de recherche web en temps réel en boîte noire, présentent des limitations notables en termes de (1) équité : les API web dynamiques et opaques entravent les comparaisons équitables et la reproductibilité des méthodes de deep-research ; (2) transparence : le manque de contrôle sur le corpus de documents rend difficile l'isolation des contributions du système de récupération. En d'autres termes, les évaluations actuelles peuvent comparer un système complet de deep-research à un moment donné, mais elles ne favorisent pas des expériences bien contrôlées pour fournir des insights sur les capacités des LLMs sous-jacents en deep-research. Pour répondre à ces défis, nous introduisons BrowseComp-Plus, un benchmark dérivé de BrowseComp, utilisant un corpus fixe et soigneusement sélectionné. Chaque requête dans BrowseComp-Plus inclut des documents de support vérifiés par des humains et des négatifs difficiles extraits, permettant une expérimentation contrôlée. Ce benchmark s'avère efficace pour distinguer les performances des systèmes de deep-research. Par exemple, le modèle open-source Search-R1, associé au récupérateur BM25, atteint une précision de 3,86 %, tandis que GPT-5 atteint 55,9 %. L'intégration de GPT-5 avec le récupérateur Qwen3-Embedding-8B améliore encore sa précision à 70,1 % avec moins d'appels de recherche. Ce benchmark permet une évaluation complète et une analyse découplée des agents de deep-research et des méthodes de récupération, favorisant des insights sur l'efficacité de la récupération, la précision des citations et l'ingénierie du contexte dans les systèmes de Deep-Research.
Le raisonnement est au cœur de l'action intentionnelle, pourtant la plupart des modèles de base en robotique associent directement perception et instructions au contrôle, ce qui limite l'adaptabilité, la généralisation et l'ancrage sémantique. Nous présentons les **Modèles de Raisonnement d'Action (ARMs)**, une classe de modèles vision-langage-action qui intègrent perception, planification et contrôle via un pipeline structuré en trois étapes. Notre modèle, **MolmoAct**, encode les observations et les instructions en tokens de perception prenant en compte la profondeur, génère des plans spatiaux de niveau intermédiaire sous forme de traces de trajectoires modifiables, et prédit des actions de bas niveau précises, permettant un comportement explicable et pilotable. **MolmoAct-7B-D** obtient des performances solides en simulation et dans des environnements réels : 70,5 % de précision en zero-shot sur les tâches de **SimplerEnv Visual Matching**, surpassant les modèles propriétaires **Pi-0** et **GR00T N1** ; 86,6 % de succès moyen sur **LIBERO**, incluant un gain supplémentaire de 6,3 % par rapport à **ThinkAct** sur les tâches à long terme ; et lors d'un réglage fin dans le monde réel, une progression supplémentaire de 10 % (bras unique) et de 22,7 % (bimanuel) par rapport à **Pi-0-FAST**. Il surpasse également les modèles de référence de 23,3 % en généralisation hors distribution et obtient les meilleurs scores de préférence humaine pour le suivi d'instructions ouvertes et le pilotage de trajectoires. Par ailleurs, nous publions pour la première fois le **MolmoAct Dataset** — un ensemble de données robotiques intermédiaires comprenant plus de 10 000 trajectoires robotiques de haute qualité couvrant divers scénarios et tâches. L'entraînement avec cet ensemble de données améliore les performances générales de 5,5 % en moyenne par rapport au modèle de base. Nous publions tous les poids du modèle, le code d'entraînement, notre ensemble de données collecté et notre ensemble de données de raisonnement d'action, établissant **MolmoAct** à la fois comme un modèle de base robotique de pointe et comme un plan ouvert pour construire des ARMs qui transforment la perception en action intentionnelle via un raisonnement structuré. Blogpost : https://allenai.org/blog/molmoact
Nous présentons Klear-Reasoner, un modèle doté de capacités de raisonnement étendu qui démontre une délibération minutieuse lors de la résolution de problèmes, obtenant des performances exceptionnelles sur plusieurs benchmarks. Bien qu'il existe déjà de nombreux travaux remarquables liés aux modèles d'inférence dans la communauté actuelle, la reproduction de modèles d'inférence à haute performance reste problématique en raison de la divulgation incomplète des détails d'entraînement. Ce rapport propose une analyse approfondie du modèle de raisonnement, couvrant l'ensemble du flux de travail post-entraînement, de la préparation des données et du fine-tuning supervisé avec chaîne de pensée étendue (long CoT SFT) à l'apprentissage par renforcement (RL), ainsi que des études d'ablation détaillées pour chaque composant expérimental. Pour les données de SFT, nos expériences montrent qu'un petit nombre de sources de données de haute qualité est plus efficace qu'un grand nombre de sources diversifiées, et que les échantillons difficiles peuvent donner de meilleurs résultats sans filtrage de précision. De plus, nous étudions deux problèmes clés des mécanismes de clipping actuels en RL : le clipping supprime les signaux d'exploration critiques et ignore les trajectoires sous-optimales. Pour relever ces défis, nous proposons l'Optimisation de Politique avec Clipping Préservant le Gradient (GPPO), qui propage doucement les gradients des tokens clippés. GPPO améliore non seulement la capacité d'exploration du modèle, mais aussi son efficacité à apprendre à partir d'échantillons négatifs. Klear-Reasoner démontre des capacités de raisonnement exceptionnelles en mathématiques et en programmation, obtenant des scores de 90,5 % sur AIME 2024, 83,2 % sur AIME 2025, 66,0 % sur LiveCodeBench V5 et 58,1 % sur LiveCodeBench V6.
Le modèle récemment proposé, le Large Concept Model (LCM), génère du texte en prédisant une séquence d'embeddings au niveau de la phrase et en s'entraînant avec des objectifs d'erreur quadratique moyenne ou de diffusion. Nous présentons SONAR-LLM, un transformeur à décodeur unique qui « pense » dans le même espace d'embedding continu SONAR, mais qui est supervisé via une entropie croisée au niveau des tokens propagée par le décodeur SONAR figé. Cet objectif hybride conserve l'abstraction sémantique du LCM tout en éliminant son échantillonneur de diffusion et en restaurant un signal d'entraînement basé sur la vraisemblance. Pour des tailles de modèle allant de 39 millions à 1,3 milliard de paramètres, SONAR-LLM atteint une qualité de génération compétitive. Nous rapportons les tendances de mise à l'échelle, les ablations, les résultats de benchmarks, et publions l'intégralité du code d'entraînement ainsi que tous les points de contrôle pré-entraînés pour favoriser la reproductibilité et les recherches futures.
Les agents basés sur les modèles de langage de grande taille (LLMs) ont réalisé des progrès impressionnants en matière de raisonnement et d'utilisation d'outils, leur permettant de résoudre des tâches complexes. Cependant, leur capacité à collaborer de manière proactive avec les utilisateurs, en particulier lorsque les objectifs sont vagues, évolutifs ou exprimés indirectement, reste peu explorée. Pour combler cette lacune, nous introduisons UserBench, un benchmark centré sur l'utilisateur conçu pour évaluer les agents dans des interactions multi-tours et guidées par les préférences. UserBench met en scène des utilisateurs simulés qui commencent avec des objectifs mal définis et révèlent leurs préférences de manière progressive, exigeant des agents qu'ils clarifient activement les intentions et prennent des décisions éclairées à l'aide d'outils. Notre évaluation des LLMs open-source et propriétaires les plus performants révèle un décalage significatif entre l'exécution des tâches et l'alignement avec les besoins de l'utilisateur. Par exemple, les modèles fournissent des réponses entièrement alignées avec toutes les intentions de l'utilisateur seulement 20 % du temps en moyenne, et même les modèles les plus avancés découvrent moins de 30 % des préférences utilisateur par le biais d'interactions actives. Ces résultats mettent en lumière les défis liés à la création d'agents qui ne sont pas seulement des exécuteurs de tâches compétents, mais de véritables partenaires collaboratifs. UserBench offre un environnement interactif pour mesurer et faire progresser cette capacité critique.
L'apprentissage par renforcement pour le raisonnement des modèles de langage de grande taille (LLM) a rapidement émergé comme un domaine de recherche majeur, marqué par une augmentation significative des études portant à la fois sur les innovations algorithmiques et les applications pratiques. Malgré ces avancées, plusieurs défis critiques subsistent, notamment l'absence de lignes directrices standardisées pour l'utilisation des techniques d'apprentissage par renforcement (RL) et une compréhension fragmentée de leurs mécanismes sous-jacents. De plus, des configurations expérimentales incohérentes, des variations dans les données d'entraînement et des différences dans l'initialisation des modèles ont conduit à des conclusions contradictoires, obscurcissant les caractéristiques clés de ces techniques et créant de la confusion parmi les praticiens lors du choix des méthodes appropriées. Cet article passe en revue de manière systématique les techniques de RL largement adoptées, à travers des reproductions rigoureuses et des évaluations isolées dans un cadre open-source unifié. Nous analysons les mécanismes internes, les scénarios applicables et les principes fondamentaux de chaque technique grâce à des expériences granulaires, incluant des jeux de données de difficulté variable, des tailles de modèles et des architectures différentes. Sur la base de ces observations, nous proposons des lignes directrices claires pour sélectionner les techniques de RL adaptées à des configurations spécifiques, et fournissons une feuille de route fiable pour les praticiens naviguant dans le domaine du RL pour les LLM. Enfin, nous révélons qu'une combinaison minimaliste de deux techniques peut débloquer la capacité d'apprentissage des politiques sans critique en utilisant une simple perte PPO. Les résultats démontrent que notre combinaison simple améliore systématiquement les performances, surpassant des stratégies comme GRPO et DAPO.
Les récentes avancées à l'intersection de l'apprentissage par renforcement (RL) et de l'intelligence visuelle ont permis de développer des agents capables non seulement de percevoir des scènes visuelles complexes, mais aussi de raisonner, de générer et d'agir au sein de celles-ci. Cette étude propose une synthèse critique et actualisée du domaine. Nous commençons par formaliser les problèmes de RL visuelle et retraçons l'évolution des stratégies d'optimisation des politiques, depuis le RLHF jusqu'aux paradigmes de récompense vérifiables, et de l'Optimisation de Politique Proximale à l'Optimisation de Politique Relative par Groupe. Nous organisons ensuite plus de 200 travaux représentatifs en quatre piliers thématiques : les modèles de langage multi-modaux de grande taille, la génération visuelle, les cadres de modèles unifiés et les modèles vision-langage-action. Pour chaque pilier, nous examinons la conception algorithmique, l'ingénierie des récompenses, les progrès en matière de benchmarks, et nous distillons des tendances telles que l'entraînement piloté par curriculum, la diffusion alignée sur les préférences et la modélisation unifiée des récompenses. Enfin, nous passons en revue les protocoles d'évaluation couvrant la fidélité au niveau des ensembles, les préférences au niveau des échantillons et la stabilité au niveau des états, et nous identifions les défis ouverts, notamment l'efficacité des échantillons, la généralisation et le déploiement sécurisé. Notre objectif est de fournir aux chercheurs et aux praticiens une carte cohérente du paysage en expansion rapide de la RL visuelle et de mettre en lumière des directions prometteuses pour les recherches futures. Les ressources sont disponibles à l'adresse suivante : https://github.com/weijiawu/Awesome-Visual-Reinforcement-Learning.
Les modèles de langage de grande taille (LLMs) ont démontré une amélioration des performances de génération grâce à la génération augmentée par récupération (RAG) suivant le paradigme récupérateur-lecteur, qui enrichit les entrées du modèle avec des connaissances récupérées de manière externe. Cependant, les travaux antérieurs évaluent souvent la RAG de manière holistique, en examinant conjointement le récupérateur et le lecteur, ce qui rend difficile l'isolation de la véritable contribution de la récupération, en particulier compte tenu de la sensibilité des LLMs utilisés comme lecteurs aux prompts. Nous introduisons le Score de Projection du Spectre (SPS), une métrique légère et sans supervision qui permet au lecteur d'évaluer l'alignement sémantique d'un résumé récupéré avec sa représentation cachée en comparant la surface formée par les tokens générés à partir du résumé et les directions principales du sous-espace dans le lecteur, afin de mesurer la pertinence. En nous appuyant sur le SPS, nous présentons xCompress, un cadre de contrôle en temps d'inférence qui échantillonne, classe et compresse dynamiquement les candidats de résumés récupérés. Des expériences approfondies sur cinq benchmarks de questions-réponses avec quatre LLMs open source montrent que le SPS non seulement améliore les performances sur une gamme de tâches, mais offre également une perspective théorique sur l'interaction entre la récupération et la génération.
L'architecture Mixture of Experts (MoE) est une pierre angulaire des modèles de langage de grande taille (LLM) modernes à l'état de l'art (SOTA). Les modèles MoE facilitent la scalabilité en permettant une activation parcimonieuse des paramètres. Cependant, l'architecture MoE traditionnelle utilise des experts homogènes de taille uniforme, activant un nombre fixe de paramètres indépendamment de la complexité de l'entrée, ce qui limite l'efficacité computationnelle. Pour surmonter cette limitation, nous introduisons Grove MoE, une nouvelle architecture intégrant des experts de tailles variées, inspirée par l'architecture hétérogène big.LITTLE des CPU. Cette architecture comprend des experts adjugés innovants avec un mécanisme d'activation dynamique, permettant une expansion de la capacité du modèle tout en maintenant une surcharge computationnelle gérable. Sur la base de cette architecture, nous présentons GroveMoE-Base et GroveMoE-Inst, des LLM de 33 milliards de paramètres développés en appliquant une stratégie de recyclage au modèle Qwen3-30B-A3B-Base pendant et après l'entraînement. Les modèles GroveMoE activent dynamiquement 3,14 à 3,28 milliards de paramètres en fonction de la complexité des tokens et atteignent des performances comparables aux modèles open-source SOTA de taille similaire ou même plus grande.
Les grands modèles de langage excellent dans le raisonnement abstrait, mais leur capacité à raisonner en tant qu'agents incarnés reste largement inexplorée. Nous présentons OmniEAR, un cadre complet pour évaluer comment les modèles de langage raisonnent sur les interactions physiques, l'utilisation d'outils et la coordination multi-agents dans des tâches incarnées. Contrairement aux benchmarks existants qui fournissent des ensembles d'outils prédéfinis ou des directives de collaboration explicites, OmniEAR exige que les agents acquièrent dynamiquement des capacités et déterminent de manière autonome des stratégies de coordination en fonction des exigences de la tâche. Grâce à une représentation textuelle de l'environnement, nous modélisons des propriétés physiques continues et des relations spatiales complexes à travers 1 500 scénarios couvrant les domaines domestiques et industriels. Notre évaluation systématique révèle une dégradation sévère des performances lorsque les modèles doivent raisonner à partir de contraintes : bien qu'ils atteignent un taux de réussite de 85 à 96 % avec des instructions explicites, les performances chutent à 56-85 % pour le raisonnement sur les outils et à 63-85 % pour la collaboration implicite, avec des taux d'échec dépassant 50 % pour les tâches complexes. Étonnamment, une information environnementale complète dégrade les performances de coordination, indiquant que les modèles ne parviennent pas à filtrer les contraintes pertinentes pour la tâche. Le fine-tuning améliore considérablement les tâches mono-agent (de 0,6 % à 76,3 %) mais ne procure que des gains minimes en multi-agent (de 1,5 % à 5,5 %), révélant des limitations architecturales fondamentales. Ces résultats démontrent que le raisonnement incarné pose des défis fondamentalement différents de ceux que les modèles actuels peuvent résoudre, établissant OmniEAR comme un benchmark rigoureux pour évaluer et faire progresser les systèmes d'IA incarnés. Notre code et nos données sont inclus dans les matériaux supplémentaires et seront rendus publics après acceptation.
Les modèles de langage auto-récompensants proposent une architecture dans laquelle les grands modèles de langage (LLMs) génèrent à la fois des réponses et évaluent leurs propres sorties via le mécanisme LLM-as-a-Judge, améliorant dynamiquement leurs capacités génératives grâce à une optimisation directe des préférences (DPO) itérative. Cependant, notre analyse révèle une limitation critique des paradigmes existants d'auto-récompense : l'amélioration synchronisée des réponses choisies et rejetées réduit progressivement la différence de représentation entre les échantillons contrastés, compromettant ainsi l'apprentissage efficace des préférences. Nous proposons des modèles de langage auto-récompensants temporels qui coordonnent stratégiquement les générations passées, présentes et futures du modèle pour maintenir les signaux d'apprentissage. Notre cadre en deux phases introduit : (1) le rejet ancré - fixation des réponses rejetées en utilisant les sorties du modèle initial passé, et (2) le choix guidé par l'avenir - curation dynamique des échantillons choisis en utilisant les prédictions du modèle de la prochaine génération. Des expériences approfondies sur trois familles de modèles (Llama, Qwen, Mistral) et différentes tailles de modèles (Llama3B/8B/70B) démontrent des améliorations significatives lors de l'entraînement avec notre méthode par rapport à l'auto-récompense utilisant les mêmes ressources de calcul. Par exemple, Llama3.1-8B atteint un taux de victoire de 29,44 sur AlpacaEval 2.0 avec notre méthode, surpassant la base de référence d'auto-récompense (19,69) de 9,75. Notamment, notre méthode démontre également une généralisation hors distribution supérieure dans des tâches de raisonnement mathématique (GSM8K), de questions-réponses basées sur la connaissance (ARC, TruthfulQA) et de génération de code (HumanEval), bien que nous ne collections pas spécifiquement de telles données d'entraînement.
Les grands modèles de raisonnement atteignent des performances élevées grâce à une mise à l'échelle au moment du test, mais engendrent une surcharge computationnelle importante, notamment en raison de la génération excessive de tokens lors du traitement de prompts d'entrée courts. Bien que les mécanismes d'attention parcimonieuse puissent réduire la latence et l'utilisation de la mémoire, les approches existantes souffrent d'une dégradation significative de la précision due à l'accumulation d'erreurs lors de raisonnements à long terme. Ces méthodes nécessitent généralement soit des taux de rétention de tokens élevés, soit un réentraînement coûteux. Nous présentons LessIsMore, un mécanisme d'attention parcimonieuse sans entraînement pour les tâches de raisonnement, qui exploite les modèles d'attention globaux plutôt que de s'appuyer sur des optimisations locales spécifiques à chaque tête. LessIsMore agrège les sélections de tokens des têtes d'attention locales avec des informations contextuelles récentes, permettant un classement unifié des tokens pour les couches de décodage futures. Cette sélection unifiée améliore la généralisation et l'efficacité en évitant la nécessité de maintenir des sous-ensembles de tokens distincts par tête. L'évaluation sur diverses tâches de raisonnement et benchmarks montre que LessIsMore préserve — et dans certains cas améliore — la précision tout en obtenant une accélération moyenne du décodage de 1,1 fois par rapport à l'attention complète. De plus, LessIsMore traite 2 fois moins de tokens sans perte de précision, atteignant une accélération de bout en bout de 1,13 fois par rapport aux méthodes d'attention parcimonieuse existantes.
Les politiques robotiques généralistes entraînées sur des ensembles de données à grande échelle tels que Open X-Embodiment (OXE) démontrent des performances solides sur une large gamme de tâches. Cependant, elles peinent souvent à généraliser au-delà de la distribution de leurs données d'entraînement. Dans cet article, nous étudions la cause sous-jacente de cette capacité de généralisation limitée. Nous identifions l'apprentissage par raccourci — la dépendance à des caractéristiques non pertinentes pour la tâche — comme un obstacle majeur à la généralisation. À travers une analyse théorique et empirique approfondie, nous mettons en lumière deux contributeurs principaux à l'apprentissage par raccourci : (1) la diversité limitée au sein des sous-ensembles de données individuels, et (2) les disparités distributionnelles significatives entre les sous-ensembles de données, conduisant à une fragmentation des ensembles de données. Ces problèmes découlent de la structure inhérente des ensembles de données à grande échelle comme OXE, qui sont généralement composés de multiples sous-ensembles de données collectés indépendamment dans divers environnements et incarnations. Nos résultats fournissent des insights critiques sur les stratégies de collecte de données qui peuvent réduire l'apprentissage par raccourci et améliorer la capacité de généralisation des politiques robotiques généralistes. De plus, dans les scénarios où l'acquisition de nouvelles données à grande échelle est impraticable, nous démontrons que des stratégies d'augmentation de données robotiques soigneusement sélectionnées peuvent efficacement réduire l'apprentissage par raccourci dans les ensembles de données hors ligne existants, améliorant ainsi les capacités de généralisation des politiques robotiques généralistes, par exemple pi_0, à la fois en simulation et dans des environnements réels. Plus d'informations sur https://lucky-light-sun.github.io/proj/shortcut-learning-in-grps/.
Bien que les modèles récents d'édition d'images basés sur les flux démontrent des capacités polyvalentes sur diverses tâches, ils peinent souvent à se spécialiser dans des scénarios complexes — en particulier ceux impliquant des transformations de forme à grande échelle. Lors de telles modifications structurelles, ces méthodes échouent soit à réaliser le changement de forme souhaité, soit altèrent involontairement des régions non ciblées, ce qui dégrade la qualité de l'arrière-plan. Nous proposons Follow-Your-Shape, un cadre sans apprentissage et sans masque qui permet une édition précise et contrôlable des formes d'objets tout en préservant strictement le contenu non ciblé. Motivés par la divergence entre les trajectoires d'inversion et d'édition, nous calculons une Carte de Divergence de Trajectoire (TDM) en comparant les différences de vitesse par token entre les chemins d'inversion et de débruitage. La TDM permet une localisation précise des régions éditables et guide un mécanisme d'Injection KV Planifiée qui assure une édition stable et fidèle. Pour faciliter une évaluation rigoureuse, nous introduisons ReShapeBench, un nouveau benchmark comprenant 120 nouvelles images et des paires de prompts enrichies spécialement conçues pour l'édition consciente de la forme. Les expériences démontrent que notre méthode atteint une éditabilité et une fidélité visuelle supérieures, en particulier dans les tâches nécessitant un remplacement de forme à grande échelle.
L'architecture Mixture-of-Experts (MoE) est devenue un paradigme prédominant pour la mise à l'échelle des grands modèles de langage (LLM). Bien qu'elle offre des performances solides et une efficacité computationnelle, les grands LLM basés sur MoE comme DeepSeek-V3-0324 et Kimi-K2-Instruct posent des défis sérieux en raison de leurs exigences mémoire substantielles lors du déploiement. Bien que des travaux récents aient exploré la compression de MoE pour résoudre ce problème, les méthodes existantes souffrent souvent de baisses de précision considérables (par exemple, 7 à 14 % en termes relatifs) même à des taux de compression modestes. Cet article introduit une nouvelle méthode appelée Mixture-of-Basis-Experts (MoBE) qui permet la compression du modèle tout en entraînant des baisses de précision minimales. Plus précisément, chaque matrice up/gate dans un expert est décomposée via une décomposition de rang sous la forme W = AB, où la matrice A est unique à chaque expert. La matrice B, relativement plus grande, est ensuite re-paramétrée comme une combinaison linéaire de matrices de base {Bi} partagées entre tous les experts au sein d'une couche MoE donnée. La factorisation est apprise en minimisant l'erreur de reconstruction par rapport aux matrices de poids originales. Les expériences démontrent que MoBE entraîne des baisses de précision nettement plus faibles par rapport aux travaux précédents. Par exemple, MoBE peut réduire le nombre de paramètres de Qwen3-235B-A22B-2507, DeepSeek-V3-0324 (671B) et Kimi-K2-Instruct (1T) de 24 % à 30 % avec seulement une baisse de précision de 1 % à 2 % (environ 2 % de baisse en termes relatifs).
La classification est l'une des tâches les plus répandues dans les applications d'IA, servant souvent d'étape initiale pour filtrer, trier et catégoriser les données. Étant donné que les systèmes d'IA modernes doivent gérer de grands volumes de données d'entrée et que les premières étapes du pipeline peuvent propager des erreurs en aval, il est crucial d'atteindre une efficacité et une précision élevées. De plus, les exigences de classification peuvent évoluer dynamiquement en fonction des besoins des utilisateurs, nécessitant des modèles dotés de solides capacités zero-shot. Bien que les modèles de langage génératifs (LLM) soient devenus la norme pour la classification zero-shot en raison de leur polyvalence, ils souffrent d'une incohérence dans le suivi des instructions et d'une inefficacité computationnelle. Les cross-encodeurs, couramment utilisés comme réorganisateurs dans les pipelines RAG, font face à un autre goulot d'étranglement : ils doivent traiter les paires texte-étiquette de manière séquentielle, ce qui réduit considérablement l'efficacité avec de grands ensembles d'étiquettes. Les approches basées sur les embeddings offrent une bonne efficacité mais peinent à gérer des scénarios complexes impliquant des contraintes logiques et sémantiques. Nous proposons GLiClass, une nouvelle méthode qui adapte l'architecture GLiNER pour les tâches de classification de séquences. Notre approche atteint une précision et une efficacité comparables aux méthodes basées sur les embeddings, tout en conservant la flexibilité nécessaire pour les scénarios d'apprentissage zero-shot et few-shot. De plus, nous avons adapté l'optimisation de politique proximale (PPO) pour la classification de texte multi-étiquettes, permettant ainsi d'entraîner des classificateurs dans des conditions de données limitées ou à partir de retours humains.
La majorité des données organisationnelles dans le monde sont stockées sous forme de documents, et la recherche visuelle joue un rôle crucial pour débloquer l'intelligence collective contenue dans ces documents. Cependant, les benchmarks existants se concentrent principalement sur la recherche de documents en anglais ou ne considèrent que des questions-réponses multilingues sur des images d'une seule page. Pour combler cette lacune, nous introduisons VisR-Bench, un benchmark multilingue conçu pour la recherche multimodale pilotée par des questions dans des documents longs. Notre benchmark comprend plus de 35 000 paires de questions-réponses de haute qualité réparties sur 1 200 documents, permettant une évaluation fine de la recherche multimodale. VisR-Bench couvre seize langues avec trois types de questions (figures, texte et tableaux), offrant ainsi une diversité linguistique et une couverture variée des questions. Contrairement aux jeux de données précédents, nous incluons des requêtes sans réponses explicites, empêchant les modèles de s'appuyer sur une correspondance superficielle de mots-clés. Nous évaluons divers modèles de recherche, incluant des méthodes basées sur le texte, des encodeurs multimodaux et des MLLMs (modèles de langage multimodaux), fournissant ainsi des insights sur leurs forces et leurs limites. Nos résultats montrent que, bien que les MLLMs surpassent significativement les modèles basés sur le texte et les encodeurs multimodaux, ils rencontrent encore des difficultés avec les tableaux structurés et les langues à ressources limitées, mettant en lumière des défis clés dans la recherche visuelle multilingue.
Les grands modèles de langage (LLMs) utilisant l'incitation en chaîne de pensée (Chain-of-Thought, CoT) excellent dans le raisonnement complexe, mais génèrent des processus de pensée verbeux avec une redondance considérable, entraînant des coûts d'inférence accrus et une efficacité réduite. Nous introduisons un nouveau cadre de compression CoT basé sur l'entropie des étapes, une métrique qui quantifie la contribution informationnelle des étapes de raisonnement individuelles pour identifier la redondance. Grâce à une analyse théorique et une validation empirique approfondie sur des benchmarks de raisonnement mathématique, nous démontrons que les étapes à faible entropie sont en effet hautement redondantes. Nos expériences révèlent qu'un étonnant 80 % des étapes intermédiaires à faible entropie peuvent être élaguées avec une dégradation mineure de la précision des réponses finales sur DeepSeek-R1-7B, 14B et Qwen3-8B. Cette observation contraste fortement avec l'élagage aléatoire ou à haute entropie, qui altère gravement les performances de raisonnement. Sur cette base, nous proposons une nouvelle stratégie d'entraînement en deux étapes combinant le réglage fin supervisé (Supervised Fine-Tuning, SFT) et l'optimisation de politique relative par groupe (Group Relative Policy Optimization, GRPO) en apprentissage par renforcement. Cette approche permet aux LLMs d'apprendre de manière autonome à générer des CoTs compressés lors de l'inférence en incorporant stratégiquement des jetons [SKIP]. Notre méthode améliore significativement l'efficacité de l'inférence des LLMs tout en préservant rigoureusement la précision, offrant des implications profondes pour le déploiement pratique des LLMs et une compréhension plus approfondie des structures de raisonnement.
L'intérêt croissant pour l'intégration de capacités de synthèse visuelle haute fidélité dans les grands modèles de langage (LLMs) sans compromettre leurs solides capacités de raisonnement est notable. Les méthodes existantes qui entraînent directement les LLMs ou relient les LLMs aux modèles de diffusion souffrent généralement d'un entraînement coûteux, car les LLMs de base n'ont pas été exposés à des représentations d'images lors du pré-entraînement. Nous présentons Bifrost-1, un cadre unifié qui relie les LLMs multimodaux (MLLMs) pré-entraînés et les modèles de diffusion en utilisant des embeddings d'images CLIP au niveau des patches comme variables latentes, qui sont naturellement alignées avec l'encodeur visuel CLIP du MLLM. Ces embeddings d'images au niveau des patches sont intégrés dans le modèle de diffusion grâce à une adaptation légère de son ControlNet. Pour préserver les capacités de raisonnement multimodal originales des MLLMs, nous dotons le MLLM d'une branche de génération visuelle initialisée à partir des paramètres originaux du MLLM lors de la prédiction des embeddings d'images au niveau des patches. En intégrant de manière transparente les MLLMs pré-entraînés et les modèles de diffusion avec des latents CLIP au niveau des patches, notre cadre permet une génération d'images contrôlée haute fidélité avec une efficacité d'entraînement significative. Nos expériences démontrent que Bifrost-1 atteint des performances comparables ou supérieures aux méthodes précédentes en termes de fidélité visuelle et de compréhension multimodale, avec une consommation de calcul nettement moindre pendant l'entraînement. Nous fournissons également des études d'ablation complètes montrant l'efficacité de nos choix de conception.
Les systèmes d'IA à poids ouverts offrent des avantages uniques, notamment une transparence accrue, une recherche ouverte et un accès décentralisé. Cependant, ils sont vulnérables aux attaques de manipulation qui peuvent efficacement provoquer des comportements nuisibles en modifiant les poids ou les activations. Actuellement, il n'existe pas encore une science robuste de la gestion des risques pour les modèles à poids ouverts. Les méthodes existantes de fine-tuning de sécurité et d'autres techniques post-entraînement ont eu du mal à rendre les LLM résistants à plus de quelques dizaines d'étapes de fine-tuning adversaire. Dans cet article, nous étudions si le filtrage de textes sur des sujets à double usage dans les données d'entraînement peut empêcher des capacités indésirables et servir de protection plus résistante à la manipulation. Nous introduisons un pipeline multi-étapes pour le filtrage scalable des données et montrons qu'il offre une méthode praticable et efficace pour minimiser les connaissances proxy sur les menaces biologiques dans les LLM. Nous pré-entraînons plusieurs modèles de 6,9 milliards de paramètres à partir de zéro et constatons qu'ils présentent une résistance substantielle aux attaques de fine-tuning adversaire sur jusqu'à 10 000 étapes et 300 millions de tokens de texte lié aux menaces biologiques — surpassant les références post-entraînement existantes de plus d'un ordre de grandeur — sans dégradation observée des capacités non liées. Cependant, bien que les modèles filtrés ne possèdent pas de connaissances dangereuses internalisées, nous constatons qu'ils peuvent toujours exploiter ces informations lorsqu'elles sont fournies en contexte (par exemple, via une augmentation par outil de recherche), démontrant la nécessité d'une approche de défense en profondeur. Globalement, ces résultats contribuent à établir la curation des données de pré-entraînement comme une couche de défense prometteuse pour les systèmes d'IA à poids ouverts.
Les systèmes de vérification des faits les plus avancés luttent contre la désinformation à grande échelle en employant des agents autonomes basés sur des modèles de langage (LLM) pour décomposer des affirmations complexes en sous-affirmations plus petites, vérifier chaque sous-affirmation individuellement, et agréger les résultats partiels pour produire des verdicts accompagnés de justifications (des explications rationnelles pour les verdicts). La sécurité de ces systèmes est cruciale, car des vérificateurs de faits compromis, qui tendent à être facilement sous-explorés, peuvent amplifier la désinformation. Ce travail présente Fact2Fiction, le premier cadre d'attaque par empoisonnement ciblant ces systèmes de vérification des faits basés sur des agents. Fact2Fiction reflète la stratégie de décomposition et exploite les justifications générées par le système pour créer des preuves malveillantes sur mesure qui compromettent la vérification des sous-affirmations. Des expériences approfondies démontrent que Fact2Fiction atteint des taux de réussite d'attaque de 8,9 % à 21,2 % supérieurs à ceux des attaques les plus avancées, pour différents budgets d'empoisonnement. Fact2Fiction expose les faiblesses de sécurité des systèmes actuels de vérification des faits et souligne la nécessité de mesures défensives.
La conversion d'expressions mathématiques parlées est une tâche complexe qui consiste à transcrire la parole en une représentation symbolique strictement structurée tout en traitant l'ambiguïté inhérente à la prononciation des équations. Bien que des progrès significatifs aient été réalisés en reconnaissance automatique de la parole (ASR) et en modèles de langage (LM), le problème de la conversion des mathématiques parlées en LaTeX reste peu exploré. Cette tâche s'applique directement aux domaines éducatifs et de recherche, tels que la transcription de cours ou la création de notes. Basé sur la post-correction ASR, les travaux antérieurs nécessitent 2 transcriptions, se concentrent uniquement sur des équations isolées, disposent d'un ensemble de tests limité et ne fournissent ni données d'entraînement ni couverture multilingue. Pour résoudre ces problèmes, nous présentons le premier ensemble de données entièrement open-source à grande échelle, comprenant plus de 66 000 échantillons audio annotés manuellement d'équations mathématiques et de phrases en anglais et en russe, issus de divers domaines scientifiques. En plus des modèles de post-correction ASR et de l'incitation en peu de coups, nous appliquons des modèles de langage audio, démontrant des résultats comparables en taux d'erreur de caractère (CER) sur le benchmark MathSpeech (28 % contre 30 %) pour la conversion des équations. En revanche, sur le benchmark S2L-equations proposé, nos modèles surpassent le modèle MathSpeech par une marge substantielle de plus de 40 points de pourcentage, même après prise en compte des artefacts de formatage LaTeX (27 % contre 64 %). Nous établissons le premier benchmark pour la reconnaissance de phrases mathématiques (S2L-sentences) et atteignons un CER d'équation de 40 %. Ce travail pose les bases pour les avancées futures en IA multimodale, avec un accent particulier sur la reconnaissance de contenu mathématique.
De nombreux observateurs ont constaté que le développement et le déploiement des modèles d'apprentissage automatique (ML) génératifs et d'intelligence artificielle (IA) suivent un schéma distinctif dans lequel des modèles pré-entraînés sont adaptés et affinés pour des tâches spécifiques en aval. Cependant, il existe peu de travaux empiriques examinant la structure de ces interactions. Cet article analyse 1,86 million de modèles sur Hugging Face, une plateforme de production collaborative de premier plan pour le développement de modèles. Notre étude des arbres généalogiques de modèles — des réseaux reliant les modèles affinés à leur base ou parent — révèle des lignées d'affinage étendues qui varient considérablement en taille et en structure. En adoptant une perspective de biologie évolutive pour étudier les modèles de ML, nous utilisons les métadonnées des modèles et les fiches de modèles pour mesurer la similarité génétique et la mutation des traits au sein des familles de modèles. Nous constatons que les modèles tendent à présenter une ressemblance familiale, ce qui signifie que leurs marqueurs génétiques et traits présentent plus de chevauchements lorsqu'ils appartiennent à la même famille de modèles. Cependant, ces similitudes s'écartent à certains égards des modèles standards de reproduction asexuée, car les mutations sont rapides et dirigées, de sorte que deux modèles « frères » tendent à présenter plus de similarité que les paires parent/enfant. Une analyse plus approfondie des dérives directionnelles de ces mutations révèle des insights qualitatifs sur l'écosystème ouvert de l'apprentissage automatique : les licences évoluent de manière contre-intuitive, passant de licences restrictives et commerciales à des licences permissives ou copyleft, souvent en violation des termes des licences en amont ; les modèles évoluent d'une compatibilité multilingue vers une compatibilité uniquement en anglais ; et les fiches de modèles se raccourcissent et se standardisent en recourant plus souvent à des modèles et à du texte généré automatiquement. Globalement, ce travail représente un pas vers une compréhension empiriquement fondée de l'affinage des modèles et suggère que les modèles et méthodes écologiques peuvent apporter de nouvelles perspectives scientifiques.
Alors que les grands modèles de langage s'intègrent de plus en plus dans la vie quotidienne, l'audio est devenu une interface clé pour l'interaction humain-IA. Cependant, cette commodité introduit également de nouvelles vulnérabilités, faisant de l'audio une surface d'attaque potentielle pour les adversaires. Notre recherche présente WhisperInject, un cadre d'attaque audio adversarial en deux étapes capable de manipuler les modèles de langage audio les plus avancés pour générer du contenu nuisible. Notre méthode utilise des perturbations imperceptibles dans les entrées audio qui restent bénignes pour les auditeurs humains. La première étape utilise une nouvelle méthode d'optimisation basée sur les récompenses, l'apprentissage par renforcement avec descente de gradient projetée (RL-PGD), pour guider le modèle cible à contourner ses propres protocoles de sécurité et générer des réponses natives nuisibles. Cette réponse native nuisible sert ensuite de cible pour la deuxième étape, l'injection de charge utile, où nous utilisons la descente de gradient projetée (PGD) pour optimiser des perturbations subtiles intégrées dans des supports audio bénins, tels que des requêtes météorologiques ou des messages de salutation. Validé sous le cadre d'évaluation de sécurité rigoureux StrongREJECT, LlamaGuard, ainsi que l'évaluation humaine, nos expériences démontrent un taux de réussite dépassant 86% sur Qwen2.5-Omni-3B, Qwen2.5-Omni-7B et Phi-4-Multimodal. Notre travail met en lumière une nouvelle classe de menaces audio natives pratiques, dépassant les exploits théoriques pour révéler une méthode réalisable et discrète de manipulation du comportement de l'IA.
L'évaluation des agents d'intelligence artificielle dans des environnements complexes et interactifs reflétant les défis du monde réel est essentielle pour comprendre leurs capacités pratiques. Bien que les benchmarks existants pour les agents évaluent efficacement des compétences telles que l'utilisation d'outils ou la performance sur des tâches structurées, ils ne capturent souvent pas pleinement la capacité d'un agent à opérer de manière autonome dans des environnements exploratoires qui exigent un raisonnement autodirigé et soutenu sur un contexte long et évolutif. Pour stimuler le développement d'agents capables d'un raisonnement intrinsèque plus robuste sur de longues périodes, nous présentons TextQuests, un benchmark basé sur la suite Infocom de jeux de fiction interactive. Ces aventures textuelles, qui peuvent prendre plus de 30 heures aux joueurs humains et nécessiter des centaines d'actions précises pour être résolues, servent de proxy efficace pour évaluer les agents d'IA sur des tâches ciblées et étatiques. Le benchmark est spécifiquement conçu pour évaluer la capacité d'un agent de modèle de langage (LLM) à résoudre des problèmes de manière autonome en excluant l'utilisation d'outils externes, se concentrant ainsi sur les capacités de raisonnement intrinsèque à long contexte dans un environnement exploratoire caractérisé par la nécessité d'un apprentissage par essais et erreurs et d'une résolution de problèmes soutenue au sein d'une seule session interactive. Nous mettons TextQuests à disposition sur https://textquests.ai.