papers.description
Les systèmes de mémoire sont des composants clés qui permettent aux systèmes d'IA tels que les LLM et les agents IA d'atteindre un apprentissage à long terme et une interaction soutenue. Cependant, lors du stockage et de la récupération des souvenirs, ces systèmes présentent fréquemment des hallucinations mnésiques, incluant des fabrications, des erreurs, des conflits et des omissions. Les évaluations existantes des hallucinations mnésiques sont principalement des tests de question-réponse de bout en bout, ce qui rend difficile la localisation de l'étape opérationnelle au sein du système de mémoire où les hallucinations surviennent. Pour remédier à cela, nous présentons le benchmark d'évaluation des hallucinations en mémoire (HaluMem), premier benchmark d'évaluation des hallucinations au niveau opérationnel spécifiquement conçu pour les systèmes de mémoire. HaluMem définit trois tâches d'évaluation (extraction de mémoire, mise à jour de mémoire et question-réponse sur la mémoire) pour révéler complètement les comportements hallucinatoires à travers les différentes étapes opérationnelles de l'interaction. Pour soutenir l'évaluation, nous avons construit des jeux de données d'interaction humain-IA multi-tours centrés sur l'utilisateur, HaluMem-Medium et HaluMem-Long. Les deux incluent environ 15k points de mémoire et 3,5k questions de types multiples. La longueur moyenne de dialogue par utilisateur atteint respectivement 1,5k et 2,6k tours, avec des longueurs de contexte dépassant 1 million de tokens, permettant d'évaluer les hallucinations à travers différentes échelles de contexte et complexités de tâches. Les études empiriques basées sur HaluMem montrent que les systèmes de mémoire existants tendent à générer et accumuler des hallucinations durant les étapes d'extraction et de mise à jour, qui propagent ensuite les erreurs à l'étape de question-réponse. Les recherches futures devraient se concentrer sur le développement de mécanismes d'opération mémoire interprétables et contraints qui suppriment systématiquement les hallucinations et améliorent la fiabilité de la mémoire.
Les récents progrès des agents de recherche approfondie montrent un potentiel pour la construction autonome de connaissances grâce au raisonnement dynamique sur des sources externes. Cependant, les approches existantes reposent sur un paradigme monocontextuel qui accumule toutes les informations dans une fenêtre de contexte unique et expansive, entraînant un étouffement contextuel et une contamination par le bruit qui limitent leur efficacité sur les tâches à long horizon. Nous présentons IterResearch, un nouveau paradigme de recherche approfondie itérative qui reformule la recherche à long horizon comme un Processus de Décision Markovien avec reconstruction stratégique de l'espace de travail. En maintenant un rapport évolutif comme mémoire et en synthétisant périodiquement les insights, notre approche préserve une capacité de raisonnement cohérente quelle que soit la profondeur d'exploration. Nous développons également l'Optimisation de Politique Sensible à l'Efficacité (EAPO), un cadre d'apprentissage par renforcement qui incite à l'exploration efficace grâce à un escompte géométrique des récompenses et permet un entraînement distribué stable via un sous-échantillonnage adaptatif. Des expériences approfondies démontrent qu'IterResearch obtient des améliorations substantielles par rapport aux agents open-source existants, avec une progression moyenne de +14,5 points de pourcentage sur six benchmarks, et réduit l'écart avec les systèmes propriétaires de pointe. Fait remarquable, notre paradigme présente une scalabilité d'interaction sans précédent, s'étendant jusqu'à 2048 interactions avec des gains de performance spectaculaires (de 3,5 % à 42,5 %), et sert de stratégie d'incitation efficace, améliorant les modèles de pointe jusqu'à 19,2 pp par rapport à ReAct sur les tâches à long horizon. Ces résultats positionnent IterResearch comme une solution polyvalente pour le raisonnement à long horizon, efficace à la fois comme agent entraîné et comme paradigme d'incitation pour les modèles frontières.
Les modèles récents privilégiant le raisonnement (par exemple, OpenAI o1, DeepSeek R1) ont suscité un regain d'intérêt pour l'Apprentissage par Renforcement avec Rétroaction Verbale (RLVR). Néanmoins, les progrès sont dominés par les mathématiques (par exemple, AIME), la génération de code pour la programmation compétitive étant sous-explorée et la curation des données recevant moins d'attention que la conception des algorithmes de RL. Nous étudions comment construire des ensembles de données pour le RLVR (c'est-à-dire les prompts de RL) et présentons des techniques d'entraînement pratiques qui offrent de fortes performances en génération de code pour la programmation compétitive. Notre pipeline commence par un réglage fin supervisé (SFT) distillé à partir de modèles open-source performants, augmenté par des données généralistes et exigeantes en raisonnement. Le RL suit ensuite un processus en deux étapes avec des récompenses exécutables basées sur des cas de test : premièrement, un entraînement sur un large ensemble de problèmes de programmation compétitive uniformément distribués en utilisant l'Optimisation de Politique Relative par Groupe (GRPO) avec 8 déploiements par prompt et une fenêtre de génération de réponse relativement courte (par exemple, 32k pendant le SFT et 24k à cette étape) pour augmenter l'entropie et atténuer la répétition et la troncation ; deuxièmement, nous effectuons un Pré-GRPO : une mise à jour sur un petit ensemble de haute qualité de problèmes difficiles avec un budget de déploiement important (64 déploiements par prompt) selon un curriculum à focalisation stricte qui conserve continuellement les instances les plus difficiles tout au long de l'entraînement. Nous implémentons notre méthode sur Qwen2.5-32B et évaluons sur les concours hebdomadaires LeetCode et Codeforces pour éviter les fuites de données. Le modèle résultant atteint des performances de pointe parmi les modèles d'échelle similaire et est comparable aux systèmes leaders tels que DeepSeek v3.1 et Doubao-1.5-Thinking. Nous examinons également les tendances de mise à l'échelle et observons un fort potentiel de scaling du RL sur un grand modèle MoE interne. Notre étude dégage des meilleures pratiques concises pour la curation des données, l'expansion de l'entropie et la conception de curriculum dans le RLVR pour la génération de code en programmation compétitive.
Nous présentons STATION, un environnement multi-agents en monde ouvert qui modélise un écosystème scientifique miniature. Tirant parti de leurs fenêtres de contexte étendues, les agents de la Station peuvent s'engager dans de longs parcours scientifiques incluant la lecture d'articles de pairs, la formulation d'hypothèses, la soumission de code, la réalisation d'analyses et la publication de résultats. Fait important, il n'existe aucun système centralisé coordonnant leurs activités - les agents sont libres de choisir leurs propres actions et de développer leurs propres récits au sein de la Station. Les expériences démontrent que les agents d'IA de la Station atteignent de nouvelles performances state-of-the-art sur un large éventail de benchmarks, allant des mathématiques à la biologie computationnelle en passant par l'apprentissage automatique, surpassant notamment AlphaEvolve dans le problème de l'empilement de cercles. Une riche tapisserie de récits émerge tandis que les agents poursuivent des recherches indépendantes, interagissent avec leurs pairs et s'appuient sur une histoire cumulative. De ces récits émergents naissent organiquement de nouvelles méthodes, comme un algorithme densité-adaptatif novateur pour l'intégration de lots de données scRNA-seq. La Station représente une première étape vers la découverte scientifique autonome pilotée par le comportement émergent dans un environnement en monde ouvert, incarnant un nouveau paradigme qui dépasse l'optimisation rigide.
Nous présentons PhysWorld, un cadre permettant l'apprentissage robotique par génération de vidéos via la modélisation du monde physique. Les modèles récents de génération vidéo peuvent synthétiser des démonstrations visuelles photoréalistes à partir de commandes langagières et d'images, offrant une source de signaux d'apprentissage puissante mais encore peu explorée pour la robotique. Cependant, le transfert direct des mouvements pixeliques des vidéos générées vers les robots néglige la physique, conduisant souvent à des manipulations inexactes. PhysWorld résout cette limitation en couplant la génération vidéo avec la reconstruction du monde physique. À partir d'une image unique et d'une commande de tâche, notre méthode génère des vidéos conditionnées par la tâche et reconstruit le monde physique sous-jacent à partir des vidéos. Les mouvements vidéo générés sont ancrés en actions physiquement précises grâce à un apprentissage par renforcement résiduel centré sur les objets utilisant le modèle du monde physique. Cette synergie transforme les guidages visuels implicites en trajectoires robotiques physiquement exécutables, éliminant le besoin de collecte de données robotiques réelles et permettant une manipulation robotique généralisable à zéro-shot. Les expériences sur diverses tâches du monde réel démontrent que PhysWorld améliore substantiellement la précision manipulationnelle comparé aux approches antérieures. Consultez https://pointscoder.github.io/PhysWorld_Web/ pour plus de détails.
Les modèles texte-image ont rapidement évolué d'outils de création grand public vers des systèmes professionnels, atteignant des niveaux inédits de qualité d'image et de réalisme. Pourtant, la plupart des modèles sont entraînés à transformer de courts prompts en images détaillées, créant un décalage entre des entrées textuelles minimales et des sorties visuelles riches. Cette inadéquation réduit la contrôlabilité, car les modèles comblent souvent les détails manquants de manière arbitraire, avec un biais vers les préférences utilisateur moyennes, limitant ainsi la précision pour un usage professionnel. Nous abordons cette limitation en entraînant le premier modèle texte-image open-source sur des descriptions longues et structurées, où chaque échantillon d'apprentissage est annoté avec le même ensemble d'attributs granulaires. Cette conception maximise la couverture expressive et permet un contrôle désentrelacé des facteurs visuels. Pour traiter efficacement les longues descriptions, nous proposons DimFusion, un mécanisme de fusion qui intègre les tokens intermédiaires d'un LLM léger sans augmenter la longueur des tokens. Nous introduisons également le protocole d'évaluation Text-as-a-Bottleneck Reconstruction (TaBR). En évaluant dans quelle mesure les images réelles peuvent être reconstruites via une boucle description-génération, TaBR mesure directement la contrôlabilité et l'expressivité, même pour des descriptions très longues où les méthodes d'évaluation existantes échouent. Enfin, nous démontrons nos contributions en entraînant le modèle à grande échelle FIBO, atteignant un alignement prompt-image state-of-the-art parmi les modèles open-source. Les poids du modèle sont disponibles publiquement à l'adresse https://huggingface.co/briaai/FIBO.
Les modèles de mélange d'experts parcimonieux (MoE) ont été largement adoptés dans les grands modèles de langage récents car ils permettent d'augmenter efficacement la capacité du modèle sans augmenter le coût d'inférence. Cependant, les évaluations sur un large éventail de tâches en aval révèlent une sous-optimalité persistante des routeurs dans les modèles MoE existants, ce qui entraîne un écart de performance important (par exemple, 10 à 20 % en précision) par rapport au routage optimal. Dans cet article, nous montrons qu'aligner la variété des poids de routage avec celle de l'incorporation des tâches peut efficacement réduire cet écart et améliorer la performance de généralisation des modèles MoE. Notre méthode, « Alignement de Variété de Routage (RoMA) », introduit un terme de régularisation de variété supplémentaire dans l'objectif de post-formation et ne nécessite qu'un réglage fin léger des routeurs (les autres paramètres étant gelés). Spécifiquement, la régularisation encourage les poids de routage de chaque échantillon à être proches de ceux de ses voisins réussis (dont les poids de routage conduisent à des réponses correctes) dans un espace d'incorporation de tâches. Par conséquent, les échantillons ciblant des tâches similaires partageront des choix d'experts similaires à travers les couches. Établir de telles liaisons entre les tâches et les experts sur différents échantillons est essentiel pour obtenir une meilleure généralisation. De plus, RoMA démontre l'avantage d'unifier la compréhension des tâches (par les modèles d'incorporation) avec la génération de solutions (par les modèles MoE). Dans les expériences, nous affinons les routeurs dans OLMoE, DeepSeekMoE et Qwen3-MoE en utilisant RoMA. Les évaluations sur divers benchmarks et les comparaisons approfondies avec les lignes de base montrent l'amélioration substantielle apportée par RoMA.
En tant que médium clé pour l'interaction humaine et l'échange d'informations, les services de réseaux sociaux (SNS) présentent des défis uniques pour les grands modèles de langage (LLM) : des charges de travail hétérogènes, des normes et un argot en évolution rapide, ainsi que des corpus multilingues et culturellement diversifiés induisant un décalage de distribution marqué. Le fine-tuning supervisé (SFT) peut spécialiser les modèles mais déclenche souvent un effet de « balancier » entre les gains en distribution interne et la robustesse hors distribution, particulièrement pour les modèles plus petits. Pour relever ces défis, nous présentons RedOne 2.0, un LLM orienté SNS entraîné avec un paradigme post-entraînement progressif et priorisé par apprentissage par renforcement (RL) conçu pour une adaptation rapide et stable. Le pipeline consiste en trois étapes : (1) un Apprentissage Exploratoire sur des corpus SNS triés pour établir un alignement initial et identifier les faiblesses systématiques ; (2) un Fine-Tuning Ciblé qui applique sélectivement le SFT pour combler les lacunes diagnostiquées tout en mélangeant une petite fraction de données générales pour atténuer l'oubli ; et (3) un Apprentissage de Raffinement qui réapplique le RL avec des signaux centrés sur les SNS pour consolider les améliorations et harmoniser les compromis entre les tâches. Sur diverses tâches couvrant trois catégories, notre modèle à l'échelle 4B offre une amélioration moyenne d'environ 2,41 points par rapport au baseline sous-optimal de 7B. De plus, RedOne 2.0 réalise une amélioration moyenne des performances d'environ 8,74 points par rapport au modèle de base avec moins de la moitié des données requises par la méthode centrée sur le SFT RedOne, démontrant une efficacité et une stabilité des données supérieures à des échelles compactes. Globalement, RedOne 2.0 établit un baseline compétitif et rentable pour les LLM spécifiques à un domaine dans le scénario des SNS, faisant progresser les capacités sans sacrifier la robustesse.
La résolution de tâches complexes nécessite généralement que les LLM génèrent de longues chaînes de raisonnement en plusieurs étapes. Des travaux antérieurs ont montré que la vérification de l'exactitude des étapes de raisonnement individuelles peut améliorer davantage les performances et l'efficacité des LLM sur ces tâches et renforcer l'interprétabilité des solutions. Cependant, les approches de vérification existantes, telles que les modèles de récompense de processus (PRM), sont soit informatiquement coûteuses, limitées à des domaines spécifiques, soit nécessitent des annotations à grande échelle générées par des humains ou des modèles. Ainsi, nous proposons une alternative légère pour la vérification du raisonnement au niveau des étapes, basée sur des scores d'incertitude issus des données. Nous entraînons des têtes de quantification de l'incertitude (UHeads) basées sur des transformateurs, qui utilisent les états internes d'un LLM figé pour estimer l'incertitude de ses étapes de raisonnement pendant la génération. L'approche est entièrement automatique : les étiquettes cibles sont générées soit par un autre LLM plus grand (par exemple, DeepSeek R1), soit de manière auto-supervisée par le modèle original lui-même. Les UHeads sont à la fois efficaces et légers, contenant moins de 10 millions de paramètres. Sur plusieurs domaines, incluant les mathématiques, la planification et la réponse à des questions de culture générale, elles égalent ou même surpassent les performances des PRM qui sont jusqu'à 810 fois plus grandes. Nos résultats suggèrent que les états internes des LLM encodent leur incertitude et peuvent servir de signaux fiables pour la vérification du raisonnement, offrant une voie prometteuse vers des LLM introspectifs, évolutifs et généralisables.
Les récents progrès des modèles de langage à récurrence en profondeur montrent que la récurrence peut découpler le calcul d'entraînement et le nombre de paramètres du calcul d'inférence. Dans ce travail, nous étudions comment convertir des modèles de langage pré-entraînés non récurrents existants en modèles à récurrence en profondeur. Nous constatons qu'utiliser un curriculum de récurrences pour augmenter progressivement la profondeur effective du modèle au cours de l'entraînement préserve les performances tout en réduisant le coût computationnel total. Dans nos expériences en mathématiques, nous observons que la conversion de modèles pré-entraînés en modèles récurrents donne de meilleures performances pour un budget de calcul donné que le simple post-entraînement du modèle de langage non récurrent original.
Le paradigme de la pensée souple (soft-thinking) pour le raisonnement des grands modèles de langage (LLM) peut surpasser le raisonnement conventionnel par chaîne de pensée (CoT) à tokens discrets dans certains scénarios, soulignant ainsi sa valeur pour la recherche et les applications. Cependant, alors que le schéma de raisonnement CoT à tokens discrets peut être renforcé via des algorithmes d'optimisation de politique tels que l'optimisation de politique relative par groupe (GRPO), l'extension du modèle de pensée souple avec l'apprentissage par renforcement (RL) reste difficile. Cette difficulté découle de la complexité liée à l'injection de stochasticité dans les tokens de pensée souple et à la mise à jour des politiques de pensée souple en conséquence. Par conséquent, les tentatives précédentes pour combiner la pensée souple avec GRPO obtiennent généralement des performances inférieures à leurs équivalents GRPO à tokens discrets. Pour libérer pleinement le potentiel de la pensée souple, cet article présente un nouvel algorithme d'optimisation de politique, SofT-GRPO, pour renforcer les LLM selon le schéma de raisonnement par pensée souple. SofT-GRPO injecte du bruit de Gumbel dans les logits, utilise la technique Gumbel-Softmax pour éviter que les tokens de pensée souple ne sortent de l'espace d'embedding pré-entraîné, et tire parti de l'astuce de reparamétrage dans le gradient de politique. Nous menons des expériences sur des LLM de base allant de 1,5 à 7 milliards de paramètres, et les résultats démontrent que SofT-GRPO permet aux LLM utilisant la pensée souple de surpasser légèrement le GRPO à tokens discrets sur Pass@1 (+0,13% en précision moyenne), tout en affichant une amélioration substantielle sur Pass@32 (+2,19% en précision moyenne). Les codes et les poids sont disponibles sur https://github.com/zz1358m/SofT-GRPO-master.
L'émergence des modèles de langage multimodaux de grande taille (MLLMs) a étendu les capacités de l'IA aux modalités visuelles. Cependant, les benchmarks d'évaluation existants se limitent à la compréhension de vidéos uniques, négligeant le besoin critique de compréhension multi-vidéos dans des scénarios réels (par exemple, l'analyse sportive et la conduite autonome). Pour combler cette lacune importante, nous présentons MVU-Eval, le premier benchmark complet pour évaluer la compréhension multi-vidéos des MLLMs. Plus précisément, notre MVU-Eval évalue principalement huit compétences fondamentales à travers 1 824 paires question-réponse méticuleusement constituées, couvrant 4 959 vidéos issues de domaines variés et abordant à la fois des tâches de perception fondamentale et des tâches de raisonnement d'ordre supérieur. Ces capacités sont rigoureusement alignées sur des applications réelles telles que la synthèse multi-capteurs dans les systèmes autonomes et l'analyse sportive multi-angles. Grâce à une évaluation approfondie des modèles open-source et propriétaires les plus avancés, nous révélons des écarts de performance significatifs et des limitations dans la capacité des MLLMs actuels à réaliser une compréhension à travers plusieurs vidéos. Le benchmark sera rendu public pour favoriser les recherches futures.
Nous présentons l'Apprentissage par Renforcement (RL) avec Environnements Vérifiables Adaptatifs (RLVE), une approche utilisant des environnements vérifiables qui génèrent procéduralement des problèmes et fournissent des récompenses algorithmiquement vérifiables, pour intensifier l'apprentissage par renforcement pour les modèles de langage (LM). RLVE permet à chaque environnement vérifiable d'adapter dynamiquement la distribution de difficulté des problèmes aux capacités du modèle de politique au fur et à mesure de l'entraînement. En revanche, les distributions de données statiques conduisent souvent à la disparition des signaux d'apprentissage lorsque les problèmes sont soit trop faciles, soit trop difficiles pour la politique. Pour implémenter RLVE, nous créons RLVE-Gym, une suite à grande échelle de 400 environnements vérifiables soigneusement développés par ingénierie manuelle des environnements. En utilisant RLVE-Gym, nous montrons que la mise à l'échelle des environnements, c'est-à-dire l'expansion de la collection d'environnements d'entraînement, améliore systématiquement les capacités de raisonnement généralisables. RLVE avec entraînement conjoint sur l'ensemble des 400 environnements de RLVE-Gym produit une amélioration absolue moyenne de 3,37 % sur six benchmarks de raisonnement, en partant de l'un des modèles de langage de raisonnement 1,5B les plus performants. En comparaison, la poursuite de l'entraînement RL original de ce LM ne produit qu'un gain absolu moyen de 0,49 % malgré l'utilisation de plus de 3 fois plus de calcul. Nous publions notre code ouvertement.
Les agents autonomes pilotés par les modèles de langage de grande taille (LLM) ont révolutionné le raisonnement et la résolution de problèmes, mais ils restent statiques après leur entraînement, incapables de progresser par l'expérience comme le font les êtres intelligents lors de leur déploiement. Nous présentons l'apprentissage prospectif par expérience (FLEX), un paradigme d'apprentissage sans gradient qui permet aux agents LLM d'évoluer continuellement grâce à l'accumulation d'expériences. Concrètement, FLEX cultive une évolution évolutive et héritable en construisant une bibliothèque d'expériences structurée grâce à une réflexion continue sur les succès et les échecs lors de l'interaction avec l'environnement. FLEX apporte des améliorations substantielles en raisonnement mathématique, rétrosynthèse chimique et prédiction de fitness protéique (jusqu'à 23% sur AIME25, 10% sur USPTO50k et 14% sur ProteinGym). Nous identifions en outre une loi d'échelle claire de la croissance expérientielle et le phénomène d'héritage d'expérience entre agents, marquant un pas vers une évolution continue d'agents évolutive et héritable. Page du projet : https://flex-gensi-thuair.github.io.
Nous présentons llama-embed-nemotron-8b, un modèle d'incorporation de texte à poids ouverts qui atteint des performances de pointe au classement Multilingual Massive Text Embedding Benchmark (MMTEB) en date du 21 octobre 2025. Bien que les modèles récents affichent de solides performances, leurs données ou méthodologies d'entraînement sont souvent peu divulguées. Nous visons à remédier à cela en développant un modèle entièrement open-source, en publiant publiquement ses poids et des études d'ablation détaillées, et en prévoyant de partager les ensembles de données d'entraînement curatés. Notre modèle démontre des performances supérieures dans toutes les tâches d'incorporation majeures — incluant la recherche d'information, la classification et la similarité sémantique textuelle (STS) — et excelle dans des scénarios multilingues complexes, tels que les langues peu dotées et les configurations multilingues croisées. Ces performances de pointe sont obtenues grâce à un mélange de données novateur de 16,1 millions de paires requête-document, réparties entre 7,7 millions d'échantillons provenant de jeux de données publics et 8,4 millions d'exemples générés synthétiquement à partir de divers LLM à poids ouverts. Une de nos contributions clés est une étude d'ablation détaillée analysant les choix de conception fondamentaux, incluant une comparaison des implémentations de perte contrastive, une évaluation des stratégies de génération de données synthétiques (SDG), et l'impact de la fusion de modèles. Le modèle llama-embed-nemotron-8b est sensible aux instructions, prenant en charge des instructions définies par l'utilisateur pour améliorer les performances pour des cas d'usage spécifiques. Cette combinaison de performances de premier plan, d'applicabilité étendue et de flexibilité pilotée par l'utilisateur lui permet de servir de solution universelle d'incorporation de texte.
La génération de modèles CAO 3D éditables à partir du langage naturel reste un défi, car les systèmes texte-à-CAO existants produisent soit des maillages, soit s'appuient sur des données historiques de conception rares. Nous présentons NURBGen, le premier cadre capable de générer des modèles CAO 3D haute fidélité directement à partir de texte en utilisant les B-splines rationnelles non uniformes (NURBS). Pour y parvenir, nous affinons un grand modèle de langage (LLM) pour traduire des textes en forme libre en représentations JSON contenant les paramètres de surface NURBS (c'est-à-dire les points de contrôle, les vecteurs de nœuds, les degrés et les poids rationnels), qui peuvent être directement convertis au format BRep à l'aide de Python. Nous proposons en outre une représentation hybride qui combine les NURBS non rognées avec des primitives analytiques pour gérer plus robustement les surfaces rognées et les régions dégénérées, tout en réduisant la complexité des tokens. De plus, nous introduisons partABC, un sous-ensemble organisé de la base de données ABC constitué de composants CAO individuels, annotés avec des légendes détaillées à l'aide d'un pipeline d'annotation automatisé. NURBGen démontre de solides performances sur des invites variées, surpassant les méthodes antérieures en termes de fidélité géométrique et de précision dimensionnelle, comme le confirment des évaluations d'experts. Le code et l'ensemble de données seront rendus publics.
L'apprentissage par renforcement (RL) est souvent crédité d'améliorer le raisonnement et la généralisation des modèles linguistiques au détriment de la dégradation des connaissances mémorisées. Nous remettons en cause ce récit en observant que les modèles optimisés par RL surpassent systématiquement leurs homologues de base et affinés par apprentissage supervisé (SFT) sur des tâches de rappel pur de connaissances, en particulier celles nécessitant le parcours de connaissances structurées hiérarchiques (par exemple, les codes médicaux). Nous émettons l'hypothèse que ces gains ne proviennent pas de nouvelles données acquises, mais de compétences procédurales améliorées pour naviguer et rechercher dans les hiérarchies de connaissances existantes au sein des paramètres du modèle. Pour étayer cette hypothèse, nous montrons que l'incitation structurée, qui guide explicitement les modèles SFT à travers un parcours hiérarchique, comble la majeure partie de l'écart de performance (réduisant de 24 points de pourcentage à 7 pp sur MedConceptsQA pour DeepSeek-V3/R1). Nous constatons en outre que si l'incitation améliore la précision de la réponse finale, les modèles optimisés par RL conservent une capacité supérieure à rappeler les chemins procéduraux corrects dans les tâches de récupération profonde. Enfin, notre analyse des activations internes couche par couche révèle que si les représentations factuelles (par exemple, les activations pour l'énoncé "le code 57.95 fait référence à une infection urinaire") maintiennent une similarité cosinus élevée entre les modèles SFT et RL, les représentations des requêtes (par exemple, "qu'est-ce que le code 57.95") divergent notablement, indiquant que le RL transforme principalement la façon dont les modèles parcourent les connaissances plutôt que la représentation des connaissances elle-même.
Bien que l'apprentissage par renforcement pour les récompenses vérifiables (RLVR) soit puissant pour entraîner de grands modèles de raisonnement, sa dynamique d'entraînement cache un défi critique : le surapprentissage en RL, où les modèles obtiennent des récompenses à l'entraînement mais perdent en généralisation. Notre analyse révèle que ce phénomène est causé par une sur-spécialisation de la politique et un oubli catastrophique des solutions diverses générées pendant l'entraînement. Les méthodes d'optimisation standard ignorent cette précieuse diversité des politiques entre les étapes. Pour résoudre ce problème, nous présentons RLoop, un cadre auto-améliorant basé sur une initialisation itérative des politiques. RLoop transforme le processus d'entraînement standard en un cercle vertueux : il utilise d'abord le RL pour explorer l'espace des solutions à partir d'une politique donnée, puis filtre les trajectoires réussies pour créer un jeu de données expert. Ce jeu de données est utilisé via un réglage fin par échantillonnage de rejet (RFT) pour affiner la politique initiale, créant ainsi un point de départ supérieur pour l'itération suivante. Cette boucle d'exploration et d'exploitation via une ré-initialisation itérative convertit efficacement les variations transitoires des politiques en gains de performance robustes. Nos expériences montrent que RLoop atténue l'oubli et améliore considérablement la généralisation, augmentant la précision moyenne de 9 % et le pass@32 de plus de 15 % par rapport au RL standard.
Les modèles de diffusion texte-image produisent des images de haute qualité, mais leur alignement avec les préférences humaines reste un défi. Nous revisitons l'optimisation directe des préférences (DPO) basée sur la diffusion pour ces modèles et identifions une pathologie critique : élargir la marge de préférence n'améliore pas nécessairement la qualité de génération. En particulier, l'objectif standard Diffusion-DPO peut augmenter l'erreur de reconstruction des branches gagnante et perdante. Par conséquent, la dégradation des sorties moins préférées peut devenir suffisamment sévère pour affecter négativement la branche préférée même lorsque la marge augmente. Pour résoudre ce problème, nous introduisons Diffusion-SDPO, une règle de mise à jour sécurisée qui préserve le gagnant en mettant à l'échelle de manière adaptative le gradient du perdant selon son alignement avec le gradient du gagnant. Une analyse du premier ordre produit un coefficient d'échelle sous forme fermée qui garantit que l'erreur de la sortie préférée est non croissante à chaque étape d'optimisation. Notre méthode est simple, agnostique au modèle, largement compatible avec les cadres d'alignement existants de type DPO et n'ajoute qu'une surcharge computationnelle marginale. Sur les benchmarks standards texte-image, Diffusion-SDPO apporte des gains constants par rapport aux bases de référence d'apprentissage par préférences sur les métriques automatisées de préférence, d'esthétique et d'alignement avec l'invite. Le code est disponible publiquement à l'adresse https://github.com/AIDC-AI/Diffusion-SDPO.
Les progrès rapides des grands modèles de langage (LLM) ont fait avancer de nombreuses applications, mais l'inférence efficace par lot unique reste vitale pour l'intelligence embarquée. Bien que les FPGA offrent un contrôle granulaire des données et une haute efficacité énergétique, les optimisations récentes des GPU ont réduit leur avantage, particulièrement dans les calculs arithmétiques. Pour surmonter cela, nous exploitons la mémoire embarquée abondante des FPGA pour transformer l'inférence des LLM de calculs arithmétiques en calculs basés sur la mémoire via des consultations de table. Nous présentons LUT-LLM, le premier accélérateur FPGA permettant l'inférence de LLM de 1 milliard+ de paramètres via des opérations mémoire vectorielles quantifiées. Notre analyse identifie la co-quantification activation-poids comme le schéma le plus efficace, soutenu par (1) une recherche de centroïdes parallèle sensible à la bande passante, (2) des consultations de table 2D efficaces, et (3) une conception hybride spatio-temporelle minimisant la mise en cache des données. Implémenté sur un FPGA AMD V80 pour un modèle personnalisé Qwen 3 1.7B, LUT-LLM atteint une latence 1.66 fois inférieure à l'AMD MI210 et une efficacité énergétique 1.72 fois supérieure à la NVIDIA A100, avec une extensibilité aux modèles 32B offrant un gain d'efficacité de 2.16x par rapport à l'A100.
Les progrès récents en raisonnement multimodal ont été largement motivés par des jeux de données non divulgués et des recettes propriétaires de synthèse de données, laissant ouvertes les questions sur la manière de construire systématiquement des jeux de données de raisonnement à grande scale et centrés sur la vision, particulièrement pour des tâches dépassant les mathématiques visuelles. Dans ce travail, nous introduisons un nouveau cadre de génération de données de raisonnement couvrant des compétences diverses et des niveaux de complexité variés, avec plus d’un million de questions synthétiques de haute qualité centrées sur la vision. Le jeu de données inclut également des données de préférence et des prompts d’instruction supportant à la fois l’apprentissage par renforcement (RL) hors ligne et en ligne. Notre cadre de synthèse procède en deux étapes : (1) l’échelle ; et (2) la complexité. Les traces de raisonnement sont ensuite synthétisées via un processus en deux phases exploitant des modèles vision-langage (VLM) et des modèles de langage dédiés au raisonnement (LLM), produisant des traces de raisonnement en chaîne (CoT) pour les VLM qui capturent la richesse et les divers comportements cognitifs présents dans les modèles de raisonnement de pointe. Fait remarquable, nous montrons que le fine-tuning de Qwen2.5-VL-7B sur nos données surpasse toutes les bases de référence ouvertes sur l’ensemble des benchmarks vision-centrés évalués, et dépasse même des modèles fermés solides tels que MiMo-VL-7B-RL sur V* Bench, CV-Bench et MMStar-V. Plus surprenant encore, bien qu’entièrement centré sur la vision, nos données transfèrent positivement vers le raisonnement purement textuel (MMLU-Pro) et le raisonnement audio (MMAU), démontrant ainsi son efficacité. De même, bien qu’il ne contienne pas de vidéos ou de données visuelles embodiées, nous observons des gains notables lors de l’évaluation sur un benchmark de questions-réponses embodiées à preuve unique (NiEH). Enfin, nous utilisons nos données pour analyser l’ensemble du pipeline de post-formation des VLM. Notre analyse empirique met en évidence que (i) le SFT sur des données de haute qualité avec des traces de raisonnement non linéaires est essentiel pour un RL en ligne efficace, (ii) le RL hors ligne par étapes atteint les performances du RL en ligne tout en réduisant les besoins en calcul, et (iii) un SFT minutieux sur des données de qualité peut considérablement améliorer le transfert hors domaine et cross-modalité.
Les agents d'IA capables de contrôler les interfaces utilisateur ont le potentiel de transformer l'interaction humaine avec les appareils numériques. Pour accélérer cette transformation, deux éléments fondamentaux sont essentiels : des jeux de données de haute qualité permettant aux agents d'atteindre des objectifs complexes et pertinents pour les humains, et des méthodes d'évaluation robustes permettant aux chercheurs et aux praticiens d'améliorer rapidement les performances des agents. Dans cet article, nous présentons DigiData, un jeu de données multimodal, à grande échelle, de haute qualité et diversifié, conçu pour l'entraînement d'agents de contrôle mobiles. Contrairement aux jeux de données existants, qui dérivent leurs objectifs d'interactions non structurées, DigiData est méticuleusement construit grâce à une exploration exhaustive des fonctionnalités des applications, ce qui se traduit par une plus grande diversité et une complexité accrue des objectifs. De plus, nous présentons DigiData-Bench, un benchmark pour l'évaluation des agents de contrôle mobiles sur des tâches complexes du monde réel. Nous démontrons que la métrique de précision par étape couramment utilisée est insuffisante pour évaluer de manière fiable les agents de contrôle mobiles et, pour remédier à cela, nous proposons des protocoles d'évaluation dynamique et des évaluations assistées par l'IA comme alternatives rigoureuses pour l'évaluation des agents. Nos contributions visent à faire progresser significativement le développement des agents de contrôle mobiles, ouvrant la voie à des interactions homme-appareil plus intuitives et efficaces.
En raison de leur capacité à suivre des instructions en langage naturel, les modèles vision-langage-action (VLA) deviennent de plus en plus répandus dans le domaine de l'IA incarnée, suite au succès généralisé de leurs précurseurs – les modèles de langage de grande taille (LLM) et les modèles vision-langage (VLM). Dans cet article, nous abordons dix étapes majeures du développement continu des modèles VLA : la multimodalité, le raisonnement, les données, l'évaluation, la généralisation des actions inter-robots, l'efficacité, la coordination corporelle globale, la sécurité, les agents et la coordination avec les humains. De plus, nous examinons les tendances émergentes telles que l'utilisation de la compréhension spatiale, la modélisation des dynamiques du monde, l'après-entraînement et la synthèse de données – toutes visant à atteindre ces jalons. À travers ces discussions, nous espérons attirer l'attention sur les pistes de recherche susceptibles d'accélérer le développement des modèles VLA vers une acceptabilité plus large.
La peinture induite par la musique est une pratique artistique unique où des œuvres visuelles sont créées sous l'influence de la musique. Évaluer si une peinture reflète fidèlement la musique qui l'a inspirée constitue une tâche d'évaluation perceptive difficile. Les méthodes existantes reposent principalement sur des modèles de reconnaissance des émotions pour évaluer la similarité entre la musique et la peinture, mais ces modèles introduisent un bruit considérable et négligent les indices perceptifs au-delà de l'émotion. Pour résoudre ces limitations, nous proposons un nouveau cadre d'évaluation de la peinture induite par la musique qui modélise directement la cohérence perceptive entre la musique et l'art visuel. Nous présentons MPD, la première base de données à grande échelle de paires musique-peinture annotées par des experts du domaine sur la base de la cohérence perceptive. Pour mieux traiter les cas ambigus, nous collectons en outre des annotations de préférence par paires. Sur la base de cet ensemble de données, nous présentons MPJudge, un modèle qui intègre des caractéristiques musicales dans un encodeur visuel via un mécanisme de fusion par modulation. Pour apprendre efficacement à partir de cas ambigus, nous adoptons l'optimisation directe des préférences pour l'entraînement. Des expériences approfondies démontrent que notre méthode surpasse les approches existantes. Les résultats qualitatifs montrent en outre que notre modèle identifie plus précisément les régions pertinentes de la musique dans les peintures.
La compréhension des anomalies vidéo (VAU) vise à fournir une interprétation détaillée et une compréhension sémantique des événements anormaux dans les vidéos, palliant les limitations des méthodes traditionnelles qui se concentrent uniquement sur la détection et la localisation des anomalies. Cependant, les approches existantes négligent souvent les relations causales profondes et les interactions entre les objets, qui sont essentielles pour comprendre les comportements anormaux. Dans cet article, nous proposons VADER, un framework piloté par LLM pour la compréhension des anomalies vidéo, qui intègre les caractéristiques relationnelles des objets dans les images clés avec des indices visuels pour améliorer la compréhension des anomalies à partir de la vidéo. Concrètement, VADER applique d'abord un Évaluateur d'Anomalies pour attribuer des scores d'anomalie par image, suivi d'une stratégie d'Échantillonnage Sensible au Contexte (CAES) pour capturer le contexte causal de chaque événement anormal. Un Extracteur de Caractéristiques Relationnelles et un Encodeur Relationnel par Contraste (CORE) modélisent conjointement les interactions dynamiques entre objets, produisant des représentations relationnelles compactes pour le raisonnement en aval. Ces indices visuels et relationnels sont intégrés aux LLM pour générer des descriptions détaillées et fondées causalement, et supporter un système robuste de réponse à des questions liées aux anomalies. Les expériences sur plusieurs benchmarks VAU du monde réel démontrent que VADER obtient des résultats solides dans les tâches de description, d'explication et de raisonnement causal des anomalies, repoussant les frontières de l'analyse explicable des anomalies vidéo.
Nous présentons DIMO, une approche générative capable de générer des mouvements 3D diversifiés pour des objets arbitraires à partir d'une seule image. L'idée centrale de notre travail est d'exploiter les riches connaissances a priori des modèles vidéo pré-entraînés pour extraire les motifs de mouvement communs, puis de les intégrer dans un espace latent partagé de faible dimension. Plus précisément, nous générons d'abord plusieurs vidéos du même objet avec des mouvements variés. Nous intégrons ensuite chaque mouvement dans un vecteur latent et entraînons un décodeur de mouvement partagé pour apprendre la distribution des mouvements représentés par une représentation motionnelle structurée et compacte, à savoir les trajectoires de points clés neuronaux. Les Gaussiennes 3D canoniques sont ensuite animées par ces points clés et fusionnées pour modéliser la géométrie et l'apparence. Durant l'inférence avec l'espace latent appris, nous pouvons échantillonner instantanément des mouvements 3D diversifiés en une seule passe avant et prendre en charge plusieurs applications intéressantes, notamment l'interpolation de mouvements 3D et la génération de mouvements guidée par le langage. Notre page projet est disponible à l'adresse https://linzhanm.github.io/dimo.
L'optimisation des performances des dépôts logiciels à grande échelle nécessite une expertise en raisonnement sur le code et en génie logiciel (SWE) pour réduire le temps d'exécution tout en préservant l'exactitude des programmes. Cependant, la plupart des benchmarks mettent l'accent sur ce qu'il faut corriger plutôt que sur la manière de corriger le code. Nous présentons SWE-fficiency, un benchmark pour évaluer l'optimisation des performances au niveau du dépôt sur des charges de travail réelles. Notre suite contient 498 tâches couvrant neuf dépôts largement utilisés en science des données, apprentissage automatique et calcul haute performance (par exemple, numpy, pandas, scipy) : étant donné une base de code complète et une charge de travail lente, un agent doit étudier la sémantique du code, localiser les goulots d'étranglement et les tests pertinents, et produire un correctif qui atteint ou dépasse l'accélération experte tout en passant les mêmes tests unitaires. Pour permettre cette évaluation du "comment corriger", notre pipeline automatisé extrait les demandes de pull GitHub pour les modifications d'amélioration des performances, combinant filtrage par mots-clés, analyse statique, outils de couverture et validation d'exécution pour confirmer à la fois les bases de référence d'accélération experte et identifier les tests unitaires pertinents du dépôt. L'évaluation empirique des agents les plus avancés révèle une sous-performance significative. En moyenne, les agents atteignent moins de 0,15 fois l'accélération experte : les agents éprouvent des difficultés à localiser les opportunités d'optimisation, à raisonner sur l'exécution à travers les fonctions et à maintenir l'exactitude des modifications proposées. Nous publions le benchmark et le pipeline de données associé pour faciliter la recherche sur l'ingénierie des performances automatisée et le raisonnement logiciel à long terme.
Bien que les modèles vision-langage (VLM) post-entraînés par apprentissage par renforcement (RL) démontrent des capacités de raisonnement général impressionnantes, leur évaluation se limite souvent à des tâches dominées par le langage (par exemple, les mathématiques). Cela soulève une question cruciale : le post-entraînement par RL peut-il véritablement repousser la limite des capacités intrinsèques d'un VLM de base, en particulier pour les tâches spatiales centrées sur la vision où il échoue initialement ? Pour investiguer cela, nous présentons Ariadne, un cadre utilisant des labyrinthes synthétiques pour un raisonnement spatial multi-étapes où la difficulté de la tâche (par exemple, la longueur du chemin, les virages) est précisément contrôlée. Nous exploitons cet environnement contrôlable pour entraîner les VLM en utilisant l'Apprentissage par Renforcement avec Récompenses Vérifiées (RLVR) selon un curriculum sensible à la difficulté. De manière surprenante, après l'entraînement RLVR, le VLM atteint une précision supérieure à 50 % sur un ensemble de problèmes où le modèle de base obtenait 0 %, démontrant que notre approche étend la limite de capacité initiale du modèle. Pour évaluer la viabilité en conditions réelles, nous évaluons la généralisation hors-distribution (OOD) sur des benchmarks pratiques. Bien qu'entraîné uniquement sur des échantillons de labyrinthes synthétiques, Ariadne obtient des améliorations significatives en zéro-shot, avec en moyenne 16 % sur MapBench (par exemple, la navigation dans un musée) et 24 % sur ReasonMap (tâches de correspondance de métro). Ces résultats confirment que notre méthode élargit non seulement les limites fondamentales du modèle, mais améliore également sa généralisation au raisonnement spatial en monde réel. Nous reconnaissons que notre étude se limite à la phase de post-entraînement, étant donné l'opacité des données de pré-entraînement, et nous espérons que nos recherches motiveront des travaux futurs sur un alignement spécialisé, visant à étendre les capacités.
La reconnaissance des émotions dans les conversations (ERC) est une tâche cruciale pour comprendre les émotions humaines et permettre une interaction naturelle entre l'homme et la machine. Bien que les grands modèles de langage (LLM) aient récemment montré un grand potentiel dans ce domaine, leur capacité à saisir les liens intrinsèques entre émotions explicites et implicites reste limitée. Nous proposons un nouveau cadre d'apprentissage pour l'ERC, PRC-Emo, qui intègre l'ingénierie des prompts, la récupération de démonstrations et l'apprentissage curriculaire, dans le but d'explorer si les LLM peuvent percevoir efficacement les émotions dans des contextes conversationnels. Plus précisément, nous concevons des modèles de prompts sensibles aux émotions basés sur des indices émotionnels explicites et implicites pour mieux guider le modèle dans la compréhension des états psychologiques du locuteur. Nous construisons le premier référentiel dédié de récupération de démonstrations pour l'ERC, qui inclut des échantillons d'entraînement provenant de jeux de données largement utilisés, ainsi que des exemples de dialogues de haute qualité générés par des LLM et vérifiés manuellement. De plus, nous introduisons une stratégie d'apprentissage curriculaire dans le processus de réglage fin LoRA, incorporant des transitions émotionnelles pondérées entre les énoncés du même locuteur et de locuteurs différents pour attribuer des niveaux de difficulté aux échantillons de dialogue, qui sont ensuite organisés selon une séquence d'entraînement allant du facile au difficile. Les résultats expérimentaux sur deux jeux de données de référence – IEMOCAP et MELD – montrent que notre méthode atteint de nouvelles performances optimales (state-of-the-art), démontrant l'efficacité et la généralisabilité de notre approche pour améliorer la compréhension émotionnelle basée sur les LLM.
Les grands modèles de langage (LLM) ont récemment obtenu des résultats impressionnants en reconnaissance de la parole à travers de multiples modalités, incluant la reconnaissance auditive de la parole (ASR), la reconnaissance visuelle de la parole (VSR) et la reconnaissance audio-visuelle de la parole (AVSR). Malgré ces progrès, les approches actuelles basées sur les LLM traitent généralement chaque tâche indépendamment, entraînant des modèles distincts qui augmentent l'utilisation des ressources computationnelles et de déploiement tout en négligeant les synergies potentielles entre les tâches. Elles reposent également sur une compression de tokens à débit fixe, ce qui limite la flexibilité pour équilibrer précision et efficacité. Ces limitations soulignent la nécessité d'un cadre unifié capable de prendre en charge l'ASR, la VSR et l'AVSR tout en permettant une inférence élastique. Dans cette optique, nous présentons Omni-AVSR, un LLM audio-visuel unifié qui combine un entraînement multi-granularité efficace avec une adaptation paramétriquement efficiente. Plus précisément, nous adaptons le paradigme d'apprentissage de représentations matriochka pour entraîner efficacement le modèle à travers de multiples granularités audio et visuelles, réduisant ainsi l'utilisation inhérente des ressources d'entraînement. De plus, nous explorons trois stratégies basées sur LoRA pour adapter le LLM de base, équilibrant spécialisation partagée et spécifique aux tâches. Les expériences sur LRS2 et LRS3 montrent qu'Omni-AVSR atteint une précision comparable ou supérieure aux meilleures méthodes de référence tout en n'entraînant qu'un seul modèle avec une utilisation substantiellement réduite des ressources d'entraînement et de déploiement. Le modèle demeure également robuste face au bruit acoustique, et nous analysons son comportement de mise à l'échelle avec l'augmentation de la taille du LLM, fournissant des insights sur le compromis entre performance et efficacité.