papers.description
Dans les modèles de Transformateurs de Diffusion (DiT), en particulier pour la génération de vidéos, la latence d'attention constitue un goulot d'étranglement majeur en raison de la longueur des séquences et de la complexité quadratique. Nous constatons que les poids d'attention peuvent être séparés en deux parties : une petite fraction de poids élevés de rang élevé et les poids restants de rang très faible. Cela suggère naturellement d'appliquer une accélération parcimonieuse à la première partie et une accélération de bas rang à la seconde. Sur la base de cette observation, nous proposons SLA (Sparse-Linear Attention), une méthode d'attention entraînable qui fusionne l'attention parcimonieuse et linéaire pour accélérer les modèles de diffusion. SLA classe les poids d'attention en catégories critiques, marginales et négligeables, appliquant une attention de complexité O(N²) aux poids critiques, une attention de complexité O(N) aux poids marginaux, et ignorant les poids négligeables. SLA combine ces calculs dans un seul noyau GPU et prend en charge les passes avant et arrière. Avec seulement quelques étapes de réglage fin utilisant SLA, les modèles DiT atteignent une réduction de 20x dans le calcul de l'attention, entraînant une accélération significative sans perte de qualité de génération. Les expériences montrent que SLA réduit le calcul de l'attention de 95 % sans dégrader la qualité de génération de bout en bout, surpassant les méthodes de référence. De plus, nous implémentons un noyau GPU efficace pour SLA, qui permet une accélération de 13,7x dans le calcul de l'attention et une accélération de 2,2x de bout en bout dans la génération de vidéos sur Wan2.1-1.3B.
Les tokenizers sémantiques de parole prédominants, conçus pour capturer le contenu linguistique, s'avèrent étonnamment fragiles. Nous constatons qu'ils ne sont pas robustes face à des perturbations acoustiques sans impact sur le sens ; même à des rapports signal sur bruit (SNR) élevés où la parole reste parfaitement intelligible, leurs séquences de tokens en sortie peuvent changer radicalement, augmentant ainsi la charge d'apprentissage pour les modèles de langage (LLMs) en aval. Cette instabilité découle de deux défauts : une architecture de quantification à chemin unique fragile et un signal d'apprentissage distant indifférent à la stabilité des tokens intermédiaires. Pour remédier à cela, nous introduisons StableToken, un tokenizer qui atteint la stabilité grâce à un mécanisme basé sur le consensus. Son architecture multi-branches traite l'audio en parallèle, et ces représentations sont fusionnées via un puissant mécanisme de vote bit à bit pour former une séquence de tokens unique et stable. StableToken établit un nouvel état de l'art en matière de stabilité des tokens, réduisant considérablement la distance d'édition unitaire (UED) dans diverses conditions de bruit. Cette stabilité fondamentale se traduit directement par des avantages en aval, améliorant significativement la robustesse des SpeechLLMs sur une variété de tâches.
L'apprentissage par renforcement à partir de retours humains (RLHF) est devenu le paradigme standard pour aligner les grands modèles de langage (LLMs) sur les préférences humaines. Cependant, les méthodes basées sur les récompenses, fondées sur l'hypothèse de Bradley-Terry, peinent à capturer la nature non transitive et hétérogène des préférences du monde réel. Pour résoudre ce problème, des études récentes ont reformulé l'alignement comme un jeu de Nash à deux joueurs, donnant naissance à l'apprentissage de Nash à partir de retours humains (NLHF). Bien que cette perspective ait inspiré des algorithmes tels que INPO, ONPO et EGPO, dotés de garanties théoriques et empiriques solides, ils restent fondamentalement limités à des interactions à deux joueurs, créant un biais de l'adversaire unique qui ne parvient pas à capturer toute la complexité des structures de préférences réalistes. Dans ce travail, nous introduisons l'Optimisation des Préférences de Nash Multi-joueurs (MNPO), un cadre novateur qui généralise le NLHF au régime multi-joueurs. Il formule l'alignement comme un jeu à n joueurs, où chaque politique rivalise avec une population d'adversaires tout en étant régularisée vers un modèle de référence. Notre cadre établit des équilibres de Nash bien définis dans des contextes multi-joueurs et étend le concept d'écart de dualité pour quantifier la qualité de l'approximation. Nous démontrons que MNPO hérite des garanties d'équilibre des méthodes à deux joueurs tout en permettant des dynamiques compétitives plus riches et une meilleure couverture des structures de préférences diversifiées. À travers une évaluation empirique approfondie, nous montrons que MNPO surpasse systématiquement les bases de référence NLHF existantes sur des benchmarks de suivi d'instructions, atteignant une qualité d'alignement supérieure dans des conditions d'annotateurs hétérogènes et des scénarios d'évaluation de politiques mixtes. Ensemble, ces résultats établissent MNPO comme un cadre princié et scalable pour aligner les LLMs sur des préférences humaines complexes et non transitives. Le code est disponible à l'adresse https://github.com/smiles724/MNPO.
La performance des modèles multimodaux unifiés pour la génération et l'édition d'images est fondamentalement limitée par la qualité et l'exhaustivité de leurs données d'entraînement. Bien que les ensembles de données existants couvrent des tâches de base comme le transfert de style et la manipulation simple d'objets, ils manquent souvent de la structure systématique et des scénarios complexes nécessaires pour des applications réelles. Pour résoudre ce problème, nous présentons OpenGPT-4o-Image, un ensemble de données à grande échelle construit à l'aide d'une nouvelle méthodologie qui combine une taxonomie hiérarchique des tâches avec une génération automatisée de données. Notre taxonomie inclut non seulement des capacités fondamentales telles que le rendu de texte et le contrôle de style, mais introduit également des catégories hautement pratiques mais complexes, comme les illustrations scientifiques pour la chimie et l'édition d'instructions complexes nécessitant l'exécution simultanée de multiples opérations. Grâce à un pipeline automatisé exploitant des pools de ressources structurées et GPT-4o, nous générons 80 000 paires instruction-image de haute qualité avec une diversité contrôlée, couvrant 11 domaines principaux et 51 sous-tâches. Des expériences approfondies montrent que l'affinage des modèles de pointe sur notre ensemble de données permet des gains de performance significatifs sur plusieurs benchmarks, avec des améliorations allant jusqu'à 18 % sur les tâches d'édition (UniWorld-V1 sur ImgEdit-Bench) et 13 % sur les tâches de génération (Harmon sur GenEval). Notre travail démontre que la construction systématique de données est essentielle pour faire progresser les capacités de l'IA multimodale.
Une perspective dominante dans l'apprentissage par renforcement pour des récompenses vérifiables (RLVR) interprète les progrès récents à travers le prisme d'un compromis exploration-exploitation, une vision largement influencée par des métriques au niveau des tokens. Nous réexaminons cette perspective, en proposant que ce compromis perçu pourrait ne pas être une contrainte fondamentale, mais plutôt un artefact du niveau de mesure. Pour explorer cette idée, nous déplaçons l'analyse vers l'espace des états cachés sémantiquement riche, en adoptant le Rang Effectif (ER) pour quantifier l'exploration et en proposant ses dérivées premières et secondes inédites, nommées Vitesse du Rang Effectif (ERV) et Accélération du Rang Effectif (ERA), pour capturer les dynamiques d'exploitation. Notre analyse révèle qu'au niveau des états cachés, l'exploration et l'exploitation pourraient être découplées (Section 4). Cette découverte met en lumière une opportunité d'améliorer simultanément ces deux capacités. Cette intuition motive notre méthode, Velocity-Exploiting Rank-Learning (VERL), la première à opérationnaliser le principe d'amélioration synergique de l'exploration-exploitation en façonnant directement la fonction d'avantage de l'apprentissage par renforcement. L'innovation clé réside dans l'utilisation de l'ERA théoriquement stable comme méta-contrôleur prédictif pour créer une structure incitative synergique à double canal. Au lieu d'imposer un compromis, VERL amplifie prospectivement les récompenses pour l'exploration afin de prévenir la surconfiance et renforce les gains d'exploitation pour consolider le raisonnement. Les expériences menées sur divers modèles de langage (LLMs) et benchmarks de raisonnement montrent des gains constants, y compris une amélioration absolue de précision allant jusqu'à 21,4 % sur le jeu de données difficile Gaokao 2024.
Les modèles de langage par diffusion (DLM) possèdent une forte efficacité théorique, mais sont limités par un décodage de longueur fixe et une incompatibilité avec les caches clé-valeur (KV). La diffusion par blocs atténue ces problèmes, mais impose toujours une taille de bloc fixe et nécessite un entraînement coûteux. Nous introduisons la prédiction de séquence suivante (Next Sequence Prediction, NSP), qui unifie la prédiction du prochain jeton et du prochain bloc, permettant au modèle de déterminer de manière adaptative la longueur de génération à chaque étape. Lorsque la longueur est fixée à 1, NSP se réduit à la prédiction standard du prochain jeton. En s'appuyant sur NSP, nous proposons le modèle de langage par diffusion séquentielle (Sequential Diffusion Language Model, SDLM), qui peut adapter des modèles de langage autorégressifs pré-entraînés (ALM) à un coût minimal. Concrètement, SDLM effectue une inférence par diffusion au sein de blocs de masque de taille fixe, mais décode dynamiquement des sous-séquences consécutives en fonction de la confiance du modèle, préservant ainsi la compatibilité avec les caches KV et améliorant la robustesse face à l'incertitude et à la sémantique variables le long de la séquence. Les expériences montrent que SDLM égale ou dépasse les modèles autorégressifs de référence en utilisant seulement 3,5 millions d'échantillons d'entraînement, tout en atteignant un débit 2,1 fois supérieur à celui de Qwen-2.5. Notamment, le modèle SDLM-32B offre des gains d'efficacité encore plus marqués, démontrant le fort potentiel de scalabilité de notre paradigme de modélisation. Page du projet et codes : https://github.com/OpenGVLab/SDLM.
L'intégration de la compréhension et de la génération visuelles dans des modèles multimodaux unifiés représente un pas significatif vers une IA à usage général. Cependant, une question fondamentale reste sans réponse par les benchmarks existants : cette unification architecturale permet-elle réellement une interaction synergique entre les capacités constitutives ? Les paradigmes d'évaluation actuels, qui évaluent principalement la compréhension et la génération de manière isolée, sont insuffisants pour déterminer si un modèle unifié peut exploiter sa compréhension pour améliorer sa génération, ou utiliser la simulation générative pour faciliter une compréhension plus profonde. Pour combler cette lacune critique, nous introduisons RealUnify, un benchmark spécifiquement conçu pour évaluer la synergie bidirectionnelle des capacités. RealUnify comprend 1 000 instances méticuleusement annotées par des humains, couvrant 10 catégories et 32 sous-tâches. Il est structuré autour de deux axes principaux : 1) La Compréhension Améliore la Génération, qui nécessite un raisonnement (par exemple, de bon sens, logique) pour guider la génération d'images, et 2) La Génération Améliore la Compréhension, qui nécessite une simulation ou une reconstruction mentale (par exemple, d'entrées visuelles transformées ou désordonnées) pour résoudre des tâches de raisonnement. Une contribution clé est notre protocole d'évaluation dual, qui combine une évaluation directe de bout en bout avec une évaluation diagnostique étape par étape qui décompose les tâches en phases distinctes de compréhension et de génération. Ce protocole nous permet de discerner précisément si les goulots d'étranglement de performance proviennent de déficiences dans les capacités de base ou d'un échec à les intégrer. À travers des évaluations à grande échelle de 12 modèles unifiés leaders et de 6 baselines spécialisées, nous constatons que les modèles unifiés actuels ont encore du mal à atteindre une synergie efficace, indiquant que l'unification architecturale seule est insuffisante. Ces résultats mettent en évidence la nécessité de nouvelles stratégies d'entraînement et de biais inductifs pour débloquer pleinement le potentiel de la modélisation unifiée.
Nous présentons SANA-Video, un petit modèle de diffusion capable de générer efficacement des vidéos jusqu'à une résolution de 720x1280 et d'une durée d'une minute. SANA-Video synthétise des vidéos haute résolution, de haute qualité et de longue durée avec un fort alignement texte-vidéo à une vitesse remarquablement rapide, déployable sur une GPU RTX 5090. Deux conceptions clés assurent notre génération de vidéos efficaces, performantes et longues : (1) Linear DiT : Nous exploitons l'attention linéaire comme opération centrale, qui est plus efficace que l'attention classique compte tenu du grand nombre de tokens traités dans la génération de vidéos. (2) Cache KV à mémoire constante pour l'attention linéaire par blocs : nous concevons une approche autorégressive par blocs pour la génération de vidéos longues en utilisant un état à mémoire constante, dérivé des propriétés cumulatives de l'attention linéaire. Ce cache KV fournit au Linear DiT un contexte global à un coût mémoire fixe, éliminant le besoin d'un cache KV traditionnel et permettant une génération de vidéos d'une minute efficace. De plus, nous explorons des filtres de données efficaces et des stratégies d'entraînement du modèle, réduisant le coût d'entraînement à 12 jours sur 64 GPU H100, ce qui représente seulement 1 % du coût de MovieGen. Grâce à son faible coût, SANA-Video atteint des performances compétitives par rapport aux modèles de diffusion modernes de pointe (par exemple, Wan 2.1-1.3B et SkyReel-V2-1.3B) tout en étant 16 fois plus rapide en latence mesurée. Par ailleurs, SANA-Video peut être déployé sur des GPU RTX 5090 avec une précision NVFP4, accélérant la vitesse d'inférence pour générer une vidéo 720p de 5 secondes de 71s à 29s (accélération de 2,4x). En résumé, SANA-Video permet une génération de vidéos de haute qualité à faible coût.
Les scientifiques en IA développent des systèmes computationnels qui servent de partenaires collaboratifs dans la découverte. Ces systèmes restent difficiles à construire car ils sont sur mesure, liés à des workflows rigides et manquent d'environnements partagés qui unifient les outils, les données et les analyses dans un écosystème commun. Dans le domaine des omiques, les écosystèmes unifiés ont transformé la recherche en permettant l'interopérabilité, la réutilisation et le développement piloté par la communauté ; les scientifiques en IA nécessitent une infrastructure comparable. Nous présentons ToolUniverse, un écosystème pour construire des scientifiques en IA à partir de n'importe quel langage ou modèle de raisonnement, qu'il soit ouvert ou fermé. TOOLUNIVERSE standardise la manière dont les scientifiques en IA identifient et appellent les outils, intégrant plus de 600 modèles d'apprentissage automatique, ensembles de données, API et packages scientifiques pour l'analyse de données, la récupération de connaissances et la conception expérimentale. Il affine automatiquement les interfaces des outils pour une utilisation correcte par les scientifiques en IA, crée de nouveaux outils à partir de descriptions en langage naturel, optimise itérativement les spécifications des outils et compose les outils en workflows agentiques. Dans une étude de cas sur l'hypercholestérolémie, ToolUniverse a été utilisé pour créer un scientifique en IA afin d'identifier un analogue puissant d'un médicament avec des propriétés prédites favorables. L'open-source ToolUniverse est disponible à l'adresse https://aiscientist.tools.
Les modèles de langage de grande taille (LLMs) dotés de capacités de raisonnement ont atteint des performances de pointe sur un large éventail de tâches. Malgré leur succès empirique, les tâches et les échelles de modèles pour lesquelles le raisonnement devient efficace, ainsi que les coûts d’entraînement et d’inférence, restent insuffisamment explorés. Dans ce travail, nous nous appuyons sur un cadre de distillation de données synthétiques pour mener une étude supervisée à grande échelle. Nous comparons le réglage fin par instruction (Instruction Fine-Tuning, IFT) et les modèles de raisonnement de tailles variées, sur un large éventail de tâches centrées sur les mathématiques et à usage général, en évaluant à la fois les formats à choix multiples et à réponse ouverte. Notre analyse révèle que le raisonnement améliore systématiquement les performances des modèles, atteignant souvent ou dépassant celles de systèmes IFT significativement plus grands. Notamment, bien que l’IFT reste Pareto-optimal en termes de coûts d’entraînement et d’inférence, les modèles de raisonnement deviennent de plus en plus précieux à mesure que la taille des modèles augmente, surpassant les limites de performance de l’IFT sur les tâches intensives en raisonnement et à réponse ouverte.
L'apprentissage par renforcement appliqué au post-entraînement a récemment émergé comme un paradigme puissant pour améliorer les capacités d'alignement et de raisonnement des modèles de langage multimodaux de grande taille (MLLMs). Bien qu'un post-entraînement centré sur la vision soit crucial pour renforcer la compréhension intrinsèque des signaux visuels par les MLLMs, les paradigmes actuels de post-entraînement sont principalement centrés sur le texte, où les entrées visuelles denses ne sont utilisées que pour extraire des indices épars pour le raisonnement basé sur le texte. Il existe quelques approches dans cette direction, mais elles reposent souvent encore sur le texte comme médiateur intermédiaire ou introduisent des conceptions génératives visuelles supplémentaires. Dans ce travail, nous présentons Visual Jigsaw, un cadre générique de post-entraînement auto-supervisé conçu pour renforcer la compréhension visuelle dans les MLLMs. Visual Jigsaw est formulé comme une tâche générale de réorganisation : les entrées visuelles sont partitionnées, mélangées, et le modèle doit reconstruire l'information visuelle en produisant la permutation correcte en langage naturel. Cela s'aligne naturellement avec l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR), ne nécessite aucun composant génératif visuel supplémentaire, et dérive son signal de supervision automatiquement sans aucune annotation. Nous instancions Visual Jigsaw à travers trois modalités visuelles, incluant les images, les vidéos et les données 3D. Des expériences approfondies démontrent des améliorations substantielles dans la perception fine, le raisonnement temporel et la compréhension spatiale 3D. Nos résultats mettent en lumière le potentiel des tâches auto-supervisées centrées sur la vision dans le post-entraînement des MLLMs et visent à inspirer des recherches supplémentaires sur les conceptions de prétextes centrés sur la vision. Page du projet : https://penghao-wu.github.io/visual_jigsaw/
L'édition d'images guidée par instructions a réalisé des progrès remarquables, mais les modèles actuels rencontrent encore des difficultés avec des instructions complexes et nécessitent souvent plusieurs échantillons pour produire un résultat souhaité. L'apprentissage par renforcement (RL) offre une solution prometteuse, mais son adoption dans l'édition d'images a été fortement entravée par l'absence d'un signal de récompense fidèle et efficace. Dans ce travail, nous présentons une méthodologie complète pour surmonter cet obstacle, centrée sur le développement d'un modèle de récompense spécialisé de pointe. Nous introduisons d'abord EditReward-Bench, un benchmark complet pour évaluer systématiquement les modèles de récompense sur la qualité de l'édition. Sur la base de ce benchmark, nous développons EditScore, une série de modèles de récompense (7B-72B) pour évaluer la qualité de l'édition d'images guidée par instructions. Grâce à une curation et un filtrage méticuleux des données, EditScore correspond efficacement aux performances des modèles de langage visuel (VLM) propriétaires. De plus, couplé à une stratégie d'auto-ensemble efficace adaptée à la nature générative d'EditScore, notre plus grande variante dépasse même GPT-5 dans le benchmark. Nous démontrons ensuite qu'un modèle de récompense fidèle est la clé pour débloquer le RL en ligne pour l'édition d'images. Nos expériences montrent que, même les plus grands VLM open source ne parviennent pas à fournir un signal d'apprentissage efficace, EditScore permet une optimisation de politique robuste et efficiente. L'application de notre cadre à un modèle de base solide, OmniGen2, aboutit à un modèle final qui montre une amélioration substantielle et constante des performances. Globalement, ce travail fournit le premier chemin systématique du benchmarking à la modélisation de récompense jusqu'à l'entraînement RL dans l'édition d'images, montrant qu'un modèle de récompense fidèle et spécialisé dans le domaine est la clé pour débloquer tout le potentiel du RL dans ce domaine.
Les modèles de vision et langage (VLMs) réalisent une modélisation unifiée des images et du texte, leur permettant d'accomplir des tâches complexes du monde réel grâce à la perception, la planification et le raisonnement. Parmi ces tâches, le raisonnement est particulièrement représentatif, avec le raisonnement mathématique comme exemple marquant. Il met en évidence la capacité de haut niveau des VLMs à comprendre les informations mathématiques dans les images et à effectuer un raisonnement sophistiqué. Récemment, de nombreux benchmarks de raisonnement mathématique visuel ont été proposés, mais ils se limitent souvent à la géométrie, manquent de couverture des problèmes de mots mathématiques et évaluent rarement le raisonnement sur plusieurs images. Pour combler ces lacunes, nous introduisons GSM8K-V, un benchmark de raisonnement mathématique visuel multi-images purement visuel. GSM8K-V est construit en mappant systématiquement chaque échantillon du GSM8K basé sur du texte largement utilisé sous forme visuelle. Grâce à un pipeline automatisé de génération d'images soigneusement conçu combiné à une annotation humaine méticuleuse, nous avons sélectionné 1 319 échantillons de haute qualité. Nous évaluons une large gamme de modèles open-source et propriétaires sur GSM8K-V. Les résultats montrent que bien que les VLMs existants aient presque saturé les performances sur GSM8K basé sur du texte, il reste une marge d'amélioration substantielle sur GSM8K-V. Par exemple, le modèle le plus performant, Gemini-2.5-Pro, atteint une précision de 95,22 % sur GSM8K mais seulement 46,93 % sur GSM8K-V. Nous menons une analyse approfondie de GSM8K-V, examinant les limites des modèles actuels ainsi que les directions potentielles d'amélioration. GSM8K-V offre une nouvelle perspective sur le raisonnement mathématique visuel et établit un benchmark pour guider le développement de VLMs plus robustes et généralisables.
Le pilotage des grands modèles de langage (LLM) est apparu comme un paradigme prometteur pour contrôler le comportement des modèles au moment de l'inférence grâce à la manipulation ciblée des états cachés, offrant une alternative légère à l'apprentissage coûteux. Cependant, les cadres de pilotage existants souffrent de limitations critiques : inefficacité computationnelle, extensibilité limitée et fonctionnalités restreintes qui entravent à la fois les progrès de la recherche et le déploiement pratique. Nous présentons EasySteer, un cadre unifié pour un pilotage performant et extensible des LLM, construit sur vLLM. Notre système propose une architecture modulaire avec des interfaces interchangeables pour les méthodes basées sur l'analyse et sur l'apprentissage, un contrôle fin des paramètres, des vecteurs de pilotage précalculés pour huit domaines d'application, et un système de démonstration interactif. Grâce à une intégration approfondie avec le moteur d'inférence optimisé de vLLM, EasySteer atteint une accélération de 5,5 à 11,4 fois par rapport aux cadres existants. Des expériences approfondies démontrent son efficacité dans la réduction de la surréflexion, la diminution des hallucinations et d'autres applications clés. EasySteer transforme le pilotage d'une technique de recherche en une capacité prête pour la production, établissant une infrastructure essentielle pour des modèles de langage déployables et contrôlables.
Bien que les modèles de langage par diffusion (DLMs) offrent une alternative prometteuse aux modèles autorégressifs (ARs), les DLMs open-source existants souffrent d'une latence d'inférence élevée. Ce goulot d'étranglement est principalement dû à la complexité quadratique de l'attention par rapport à la longueur du contexte lors du calcul de toutes les paires requête-clé. Intuitivement, pour réduire cette complexité, une stratégie naturelle consiste à restreindre l'attention à des motifs clairsemés qui ne conservent que les connexions les plus pertinentes. De telles approches sont bien établies dans les ARs, où l'attention suit des motifs clairsemés fixes et clairement définis. Cependant, dans les DLMs, nous observons des comportements de sparsité distincts : (1) les motifs d'attention varient selon les têtes, (2) les motifs d'attention dans chaque tête restent très similaires à travers les étapes de débruitage, et (3) les premières étapes de débruitage sont cruciales pour la génération. Ces constatations rendent les méthodes d'attention clairsemée conçues pour les ARs largement incompatibles avec les DLMs, car elles ne parviennent pas à capturer les structures spécifiques aux têtes et risquent de dégrader la génération lorsqu'elles sont appliquées lors des premières étapes de débruitage. Pour relever ces défis, nous proposons SparseD, une nouvelle méthode d'attention clairsemée pour les DLMs. En tirant parti de ces observations, SparseD ne nécessite de pré-calculer les motifs clairsemés spécifiques aux têtes qu'une seule fois, et les réutilise à travers toutes les étapes. Cela évite de recalculer les motifs clairsemés à chaque étape de débruitage. Parallèlement, SparseD utilise une attention complète dans les premières étapes, puis passe à une attention clairsemée plus tard pour maintenir la qualité de la génération. Ensemble, ces éléments établissent SparseD comme une solution pratique et efficace pour déployer les DLMs dans des applications à contexte long. Les résultats expérimentaux démontrent que SparseD permet une accélération sans perte, offrant jusqu'à 1,50 fois d'accélération par rapport à FlashAttention pour une longueur de contexte de 64k avec 1 024 étapes de débruitage.
Les Agents de Recherche Approfondie (ARA) sont capables de mener de manière autonome des investigations complexes et de générer des rapports détaillés, démontrant ainsi un fort potentiel d’application dans le monde réel. Cependant, les évaluations existantes reposent principalement sur des benchmarks à questions fermées, tandis que les benchmarks ouverts pour la recherche approfondie restent rares et négligent généralement les scénarios personnalisés. Pour combler cette lacune, nous introduisons le Personalized Deep Research Bench, le premier benchmark conçu pour évaluer la personnalisation dans les ARA. Il associe 50 tâches de recherche variées couvrant 10 domaines à 25 profils utilisateurs authentiques, combinant des attributs de persona structurés avec des contextes dynamiques issus du monde réel, produisant ainsi 250 requêtes utilisateur-tâche réalistes. Pour évaluer la performance des systèmes, nous proposons le Cadre d’Évaluation PQR, qui mesure conjointement (P) l’Alignement de la Personnalisation, (Q) la Qualité du Contenu et (R) la Fiabilité Factuelle. Nos expériences sur une gamme de systèmes mettent en lumière les capacités actuelles et les limites dans la gestion de la recherche approfondie personnalisée. Ce travail établit une base rigoureuse pour le développement et l’évaluation de la prochaine génération d’assistants de recherche IA véritablement personnalisés.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est apparu comme un paradigme prometteur pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Les méthodes actuelles reposent principalement sur des cadres d'optimisation de politiques tels que PPO et GRPO, qui suivent une itération de politique généralisée alternant entre l'évaluation de la valeur de la politique actuelle et l'amélioration de la politique basée sur cette évaluation. Bien qu'elles soient efficaces, elles souffrent souvent d'instabilité lors de l'entraînement et d'un effondrement de la diversité, nécessitant des astuces heuristiques complexes et un réglage minutieux. Nous observons que le RLVR standard en raisonnement mathématique peut être formalisé comme un processus de décision markovien à horizon fini spécialisé, avec des transitions d'état déterministes, une dynamique structurée en arbre et des récompenses terminales binaires. Bien que de grande échelle, la structure sous-jacente est plus simple que les cadres de contrôle généralisés pour lesquels les algorithmes de RL populaires (par exemple, PPO) ont été développés, suggérant que plusieurs techniques sophistiquées dans les méthodes existantes pourraient être réduites voire omises. Sur la base de cette observation, nous démontrons un résultat surprenant : l'action optimale peut être récupérée à partir de la fonction Q d'une politique uniformément aléatoire fixe, contournant ainsi la boucle d'itération de politique généralisée et ses heuristiques associées. Nous introduisons l'Évaluation de Politique Aléatoire pour un Raisonnement Diversifié (ROVER) pour traduire ce principe en un algorithme pratique et scalable pour le raisonnement mathématique des LLM, une méthode de RL minimaliste mais hautement efficace qui échantillonne les actions à partir d'un softmax sur ces valeurs Q de politique uniforme. ROVER préserve la diversité tout au long de l'entraînement, permettant une exploration soutenue de multiples voies valides. Sur plusieurs modèles de base et benchmarks standards de raisonnement mathématique, ROVER démontre une performance supérieure à la fois en qualité (+8,2 sur pass@1, +16,8 sur pass@256) et en diversité (+17,6\%), malgré sa simplification radicale par rapport aux méthodes existantes fortes et complexes.
La génération de vidéos en flux continu, en tant que composant fondamental des modèles interactifs du monde et des moteurs de jeux neuronaux, vise à produire des flux vidéo longs de haute qualité, à faible latence et cohérents temporellement. Cependant, la plupart des travaux existants souffrent d'une accumulation d'erreurs importante qui dégrade souvent de manière significative les vidéos générées sur de longues durées. Nous concevons **Rolling Forcing**, une nouvelle technique de génération vidéo qui permet de diffuser des vidéos longues avec une accumulation d'erreurs minimale. Rolling Forcing repose sur trois innovations majeures. Premièrement, au lieu d'échantillonner itérativement des images individuelles, ce qui accélère la propagation des erreurs, nous proposons un schéma de débruitage conjoint qui débruite simultanément plusieurs images avec des niveaux de bruit progressivement croissants. Cette conception relâche la causalité stricte entre images adjacentes, supprimant efficacement la croissance des erreurs. Deuxièmement, nous introduisons le mécanisme de **point d'attention** dans la tâche de génération de vidéos en flux continu sur de longues durées, permettant au modèle de conserver les états de valeur clé des images initiales comme ancre contextuelle globale, améliorant ainsi la cohérence globale à long terme. Troisièmement, nous concevons un algorithme d'entraînement efficace qui permet une distillation en quelques étapes sur des fenêtres de débruitage largement étendues. Cet algorithme opère sur des fenêtres non chevauchantes et atténue le biais d'exposition conditionné par les historiques auto-générés. Des expériences approfondies montrent que Rolling Forcing permet la génération en temps réel de vidéos de plusieurs minutes sur un seul GPU, avec une accumulation d'erreurs considérablement réduite.
Les récents progrès dans la génération de texte-à-vidéo ont produit un contenu de plus en plus réaliste et diversifié, mais l'évaluation de ces vidéos reste un défi fondamental en raison de leur nature multidimensionnelle, englobant la qualité visuelle, l'alignement sémantique et la cohérence physique. Les évaluateurs et modèles de récompense existants se limitent à des scores uniques et opaques, manquent d'interprétabilité ou ne fournissent qu'une analyse grossière, ce qui les rend insuffisants pour capturer la nature complète de l'évaluation de la qualité vidéo. Nous présentons VideoScore2, un cadre multidimensionnel, interprétable et aligné sur l'humain, qui évalue explicitement la qualité visuelle, l'alignement texte-à-vidéo et la cohérence physique/de bon sens tout en produisant des justifications détaillées en chaîne de pensée. Notre modèle est entraîné sur un jeu de données à grande échelle, VideoFeedback2, contenant 27 168 vidéos annotées par des humains avec des scores et des traces de raisonnement sur trois dimensions, en utilisant un pipeline en deux étapes : un réglage fin supervisé suivi d'un apprentissage par renforcement avec l'optimisation de politique relative par groupe (GRPO) pour renforcer la robustesse analytique. Des expériences approfondies démontrent que VideoScore2 atteint une performance supérieure avec une précision de 44,35 (+5,94) sur notre benchmark interne VideoScore-Bench-v2 et une performance moyenne de 50,37 (+4,32) sur quatre benchmarks externes (VideoGenReward-Bench, VideoPhy2, etc.), tout en fournissant des évaluations interprétables qui comblent le fossé entre l'évaluation et la génération contrôlée grâce à une modélisation efficace des récompenses pour l'échantillonnage Best-of-N. Page du projet : https://tiger-ai-lab.github.io/VideoScore2/
Nous présentons HunyuanImage 3.0, un modèle multimodal natif qui unifie la compréhension et la génération multimodales dans un cadre autoregressif, avec son module de génération d’images rendu public. La réalisation de HunyuanImage 3.0 repose sur plusieurs composants clés, incluant une curation minutieuse des données, une conception architecturale avancée, un schéma natif de Chaîne de Pensées (Chain-of-Thoughts), un pré-entraînement progressif du modèle, un post-entraînement intensif, ainsi qu’une infrastructure efficace permettant un entraînement et une inférence à grande échelle. Grâce à ces avancées, nous avons réussi à entraîner un modèle de Mélange d’Experts (Mixture-of-Experts, MoE) comprenant plus de 80 milliards de paramètres au total, avec 13 milliards de paramètres activés par token lors de l’inférence, ce qui en fait le modèle génératif d’images open source le plus grand et le plus puissant à ce jour. Nous avons mené des expériences approfondies, et les résultats des évaluations automatiques et humaines concernant l’alignement texte-image et la qualité visuelle démontrent que HunyuanImage 3.0 rivalise avec les modèles de pointe précédents. En publiant le code et les poids de HunyuanImage 3.0, nous visons à permettre à la communauté d’explorer de nouvelles idées avec un modèle de fondation de pointe, favorisant ainsi un écosystème multimodal dynamique et vivant. Tous les actifs open source sont disponibles publiquement à l’adresse suivante : https://github.com/Tencent-Hunyuan/HunyuanImage-3.0.
L'apprentissage par renforcement (RL) permet-il aux LLM d'acquérir de véritables nouvelles compétences, ou se contente-t-il d'activer celles déjà existantes ? Cette question est au cœur des débats actuels sur le rôle du RL dans le post-entraînement des LLM. D'un côté, des résultats empiriques solides peuvent être obtenus avec le RL même sans fine-tuning supervisé préalable ; de l'autre, certains critiques soutiennent que le RL ne contribue guère au-delà d'une revalorisation des stratégies de raisonnement existantes. Ce travail apporte des preuves concrètes que les LLM peuvent acquérir de véritables nouvelles compétences pendant le RL en composant celles déjà acquises, reflétant ainsi l'un des mécanismes centraux par lesquels les humains développent de nouvelles capacités cognitives. Pour atténuer les effets de la contamination des données et d'autres facteurs confondants, et pour permettre un contrôle précis de la complexité des tâches, nous avons développé un cadre synthétique pour notre étude. Plus précisément, nous définissons une compétence comme la capacité à déduire la sortie d'une fonction de transformation de chaînes f(x) étant donné x. Lorsqu'un LLM a déjà appris f et g avant le RL, nos expériences révèlent que le RL lui permet d'apprendre des compositions inédites de celles-ci, h(x)=g(f(x)). De plus, cette capacité compositionnelle se généralise à des problèmes plus complexes, tels que des compositions de plus de deux fonctions non vues pendant l'entraînement RL. Étonnamment, nos expériences montrent que la compétence compositionnelle acquise sur une tâche source se transfère à une tâche cible différente. Ce transfert se produit même sans entraînement compositionnel sur la cible, nécessitant seulement une connaissance préalable des compétences atomiques de la cible. Notre analyse qualitative montre que le RL modifie fondamentalement les comportements de raisonnement des modèles. En revanche, un entraînement par prédiction du token suivant avec les mêmes données ne produit aucun de ces résultats. Nos expériences systématiques apportent de nouveaux éclairages sur l'apprentissage des LLM, suggérant la valeur de construire d'abord des modèles de base avec des compétences élémentaires, puis d'utiliser le RL pour encourager des compétences avancées et généralisables pour résoudre des problèmes complexes.
L'apprentissage par renforcement (Reinforcement Learning, RL) est devenu un paradigme d'entraînement populaire, en particulier lorsqu'il est associé à des modèles de raisonnement. Bien qu'efficace, il se concentre principalement sur la génération de réponses et manque de mécanismes pour favoriser explicitement la critique ou la réflexion. Plusieurs études récentes, comme le Critique-Fine-Tuning (CFT) et le Critique-Guided-Distillation (CGD), ont montré les avantages d'enseigner explicitement aux grands modèles de langage (LLM) comment critiquer. Motivés par ces travaux, nous proposons le Critique Reinforcement Learning (CRL), où le modèle est chargé de générer une critique pour une paire (question, solution) donnée. La récompense est déterminée uniquement par l'alignement du jugement final c dans {Vrai, Faux} de la critique générée avec le jugement de référence c^*. Sur cette base, nous introduisons Critique-Coder, qui est entraîné sur un mélange de RL et de CRL en remplaçant 20 % des données standard de RL par des données de CRL. Nous affinons plusieurs modèles (Critique-Coder) et les évaluons sur différents benchmarks pour montrer leurs avantages par rapport aux modèles uniquement basés sur le RL. Nous démontrons que Critique-Coder surpasse systématiquement les modèles de référence uniquement basés sur le RL sur tous les benchmarks évalués. Notamment, notre Critique-Coder-8B atteint plus de 60 % sur LiveCodeBench (v5), surpassant d'autres modèles de raisonnement comme DeepCoder-14B et GPT-o1. Au-delà de la génération de code, Critique-Coder montre également des capacités de raisonnement général améliorées, comme en témoigne sa meilleure performance sur les tâches de raisonnement logique du dataset BBEH. Cela indique que l'application du CRL sur des datasets de codage améliore les capacités de raisonnement général et de critique, qui sont transférables à un large éventail de tâches. Par conséquent, nous pensons que le CRL constitue un excellent complément au RL standard pour le raisonnement des LLM.
Les récentes avancées dans les modèles de langage de grande taille (LLMs) pour les tâches de raisonnement reposent fortement sur des ensembles de données massifs et de haute qualité, généralement annotés par des humains et donc difficiles à étendre. Bien que la synthèse ou la distillation de données offre une alternative prometteuse, les méthodes existantes peinent à maintenir une qualité de données cohérente et à s'adapter dynamiquement aux capacités évolutives du modèle, ce qui entraîne des signaux d'entraînement sous-optimaux. Pour surmonter ces limitations, nous introduisons Socratic-Zero, un cadre entièrement autonome qui génère des données d'entraînement de haute qualité à partir d'exemples de départ minimaux grâce à la coévolution de trois agents : l'Enseignant, le Solveur et le Générateur. Le Solveur affine continuellement son raisonnement en apprenant à partir de retours de préférence sur les trajectoires réussies et échouées ; l'Enseignant conçoit de manière adaptative des questions de plus en plus complexes en fonction des faiblesses du Solveur ; et le Générateur distille la stratégie de conception de questions de l'Enseignant pour permettre une génération de curriculum évolutive et de haute fidélité. Ce système en boucle fermée produit un curriculum auto-améliorant, ne nécessitant aucune tâche ou étiquette préexistante. De manière remarquable, en partant de seulement 100 questions de départ, notre Socratic-Solver-8B obtient un gain moyen de +20,2 points de pourcentage par rapport aux méthodes de synthèse de données précédentes sur sept benchmarks de raisonnement mathématique (AMC23, AIME24-25, Olympiade, MATH-500, Minerva et GSM8K), avec des gains constants sur les modèles des séries Qwen3 et GLM4. Plus surprenant encore, les données synthétiques de Socratic-Generator-32B permettent aux LLMs étudiants d'atteindre des performances supérieures à celles d'autres LLMs commerciaux de pointe sur ces benchmarks, notamment Qwen3-235B-A22B, DeepSeek-V3.1-671B, GPT-5, Gemini-2.5-Pro, Grok-4 et Claude-4.1-Opus.
Les agents d'analyse de données émergent comme un catalyseur clé pour la découverte scientifique automatisée et pour la vision de l'Innovation en IA. Cependant, les approches actuelles reposent fortement sur l'ingénierie des prompts sur des modèles propriétaires, tandis que les modèles open-source peinent à gérer des fichiers de données à grande échelle et de formats divers, ainsi que des raisonnements multi-étapes et à long horizon que requiert l'analyse en contexte réel. Cet article présente DataMind, une méthode évolutive de synthèse de données et de formation d'agents conçue pour construire des agents d'analyse de données généralistes. DataMind aborde trois défis majeurs dans la construction d'agents d'analyse de données open-source, incluant l'insuffisance des ressources de données, une stratégie de formation inappropriée et un déploiement multi-tours basé sur du code instable. Concrètement, DataMind applique 1) une taxonomie fine des tâches et un mécanisme de composition récursive de tâches faciles à difficiles pour augmenter la diversité et la complexité des requêtes synthétisées ; 2) une stratégie d'échantillonnage de trajectoires enrichie par des connaissances, suivie d'un filtrage basé sur des modèles et des règles ; 3) un objectif de formation ajustable dynamiquement combinant les pertes SFT et RL ; 4) un cadre de déploiement multi-tours basé sur du code, économe en mémoire et stable. Basé sur DataMind, nous avons constitué DataMind-12K, un ensemble de trajectoires de haute qualité couvrant divers domaines, catégories de tâches et formats de fichiers pour les tâches d'analyse de données. Formé sur DataMind-12K, notre modèle DataMind-14B atteint l'état de l'art avec un score moyen de 71,16 % sur plusieurs benchmarks d'analyse de données, surpassant les meilleurs modèles propriétaires DeepSeek-V3.1 et GPT-5. Notre modèle DataMind-7B se classe également premier parmi tous les modèles open-source avec un score de 68,10 %. Nous intégrons également certaines observations empiriques issues de nos essais exploratoires dans les expériences d'analyse, dans le but de fournir des insights exploitables sur la formation des agents pour la communauté. Nous publierons DataMind-12K ainsi que les modèles DataMind-7B et 14B pour les recherches futures de la communauté.
Nous étudions le problème de l'application des modèles de fondation 3D (3DFMs) à la synthèse dense de nouvelles vues (NVS). Malgré des progrès significatifs dans la synthèse de nouvelles vues alimentée par NeRF et 3DGS, les approches actuelles restent dépendantes d'attributs 3D précis (par exemple, les poses de caméra et les nuages de points) acquis à partir de la Structure-from-Motion (SfM), qui est souvent lente et fragile dans les captures à faible texture ou faible chevauchement. Les récents 3DFMs montrent une accélération de plusieurs ordres de grandeur par rapport au pipeline traditionnel et un grand potentiel pour la NVS en ligne. Mais la plupart des validations et conclusions sont limitées à des configurations de vues éparses. Notre étude révèle que la mise à l'échelle naïve des 3DFMs à des vues denses rencontre deux barrières fondamentales : une augmentation dramatique de la charge en VRAM et des sorties imparfaites qui dégradent l'entraînement 3D sensible à l'initialisation. Pour surmonter ces barrières, nous introduisons VGGT-X, incorporant une implémentation de VGGT économe en mémoire qui s'adapte à plus de 1 000 images, un alignement global adaptatif pour l'amélioration des sorties de VGGT, et des pratiques robustes d'entraînement 3DGS. Des expériences approfondies montrent que ces mesures réduisent considérablement l'écart de fidélité avec les pipelines initialisés par COLMAP, atteignant des résultats de pointe dans la NVS dense sans COLMAP et l'estimation de pose. De plus, nous analysons les causes des écarts restants avec le rendu initialisé par COLMAP, fournissant des insights pour le développement futur des modèles de fondation 3D et de la NVS dense. Notre page de projet est disponible à l'adresse https://dekuliutesla.github.io/vggt-x.github.io/
Les grands modèles de langage (LLMs) excellent en raisonnement mathématique général mais échouent de manière catastrophique sur les mathématiques techniques spécialisées. Dans le domaine des communications sans fil, où les problèmes nécessitent une manipulation précise des bornes de la théorie de l'information, des contraintes d'optimisation et des formulations de traitement du signal, même les modèles les plus avancés peinent à atteindre une performance compétente. Nous présentons WirelessMathLM, démontrant que des modèles compacts (0,5B à 7B paramètres) peuvent égaler ou surpasser des modèles beaucoup plus grands grâce à un apprentissage par renforcement spécifique au domaine avec des récompenses vérifiables. Notre idée clé est que les problèmes de mathématiques des communications sans fil possèdent une propriété unique—la vérifiabilité de la correction—qui permet un apprentissage par renforcement efficace sans retour humain. Nous construisons WirelessMathBench-XL, un benchmark complet de 4 027 problèmes issus de 970 articles. En utilisant l'optimisation de politique relative par groupe (GRPO) avec des récompenses de vérification binaires, nous entraînons les modèles directement à partir de points de contrôle de base sans amorçage supervisé. Notre modèle de 7B atteint une précision de 39,5 % sur WirelessMathBench-XL, approchant celle de GPT-4o (40,4 %) tout en utilisant environ 100 fois moins de paramètres que DeepSeek-R1 (671B, 57,4 %). Remarquablement, l'entraînement GRPO double presque la performance à toutes les échelles de modèles (0,5B +11 %, 3B +103 %, 7B +81 %), avec un transfert positif vers les benchmarks de mathématiques générales—nos modèles gagnent en moyenne +8,4 points sur MATH, Minerva-Math, OlympiadBench, AMC et AIME sans aucun entraînement sur ces tâches.
Nous postulons que pour parvenir à une amélioration continue des modèles et à un alignement multidimensionnel, les modèles futurs doivent apprendre à partir d'interactions humaines naturelles. Les modèles conversationnels actuels sont alignés à l'aide de retours humains pré-annotés, générés par des experts. Dans ce travail, nous introduisons l'apprentissage par renforcement à partir d'interactions humaines (Reinforcement Learning from Human Interaction, RLHI), un paradigme qui apprend directement à partir de conversations d'utilisateurs en situation réelle. Nous développons deux méthodes complémentaires : (1) le RLHI avec réécritures guidées par l'utilisateur, qui modifie les sorties insatisfaisantes du modèle en fonction des réponses de suivi en langage naturel des utilisateurs, et (2) le RLHI avec récompenses basées sur l'utilisateur, qui apprend via un modèle de récompense conditionné par la connaissance de l'historique d'interaction à long terme de l'utilisateur (appelé persona). Ensemble, ces méthodes relient les personas utilisateurs à long terme aux préférences au niveau des tours de conversation via une optimisation des préférences conditionnée par la persona. Entraînés sur des conversations issues de WildChat, les deux variantes du RLHI surpassent des bases de référence solides en matière de personnalisation et de suivi des instructions, et des retours similaires améliorent les performances sur des benchmarks de raisonnement. Ces résultats suggèrent que l'interaction humaine organique offre une supervision scalable et efficace pour un alignement personnalisé.
L'intelligence spatiale englobe un ensemble riche de capacités, incluant la visualisation et la transformation de formes, la rotation mentale d'objets, l'évaluation des positions relationnelles et des contenances, ainsi que l'estimation de la numérosité. Cependant, cela reste un défi critique non résolu pour les Modèles de Langage Multimodaux de Grande Taille (MLLMs). Pour combler cette lacune, nous proposons de traiter la résolution de problèmes de géométrie euclidienne comme une tâche substitutive. Plus précisément, nous avons méticuleusement construit un ensemble de données multimodales soigneusement sélectionné, appelé Euclid30K, comprenant environ 30 000 problèmes de géométrie plane et solide. Pour permettre au modèle d'acquérir et d'appliquer les principes euclidiens à partir de ces problèmes de géométrie, nous avons utilisé l'Optimisation de Politique Relative par Groupe (GRPO) pour affiner les familles Qwen2.5VL et RoboBrain2.0, incitant les modèles à identifier des formes, compter, relier des entités et effectuer un raisonnement déductif en plusieurs étapes en utilisant les principes euclidiens. Nos expériences démontrent que les modèles résultants obtiennent des gains substantiels en zéro-shot sur quatre benchmarks de raisonnement spatial (Super-CLEVR, Omni3DBench, VSI-Bench et MindCube) sans aucune adaptation spécifique à la tâche. Notamment, après l'entraînement sur Euclid30K, la précision moyenne sur VSI-Bench de tous les modèles évalués est passée de 34,5 % à 40,5 %, soit une amélioration de 5,5 points de pourcentage. Parmi eux, RoboBrain2.0-Euclid-7B atteint une précision de 49,6 %, surpassant le précédent modèle de pointe, Spatial-MLLM. À notre connaissance, il s'agit de la première étude systématique montrant qu'un affinage centré sur la géométrie peut conférer aux modèles vision-langage des compétences spatiales largement transférables. Le code et l'ensemble de données Euclid30K sont disponibles à l'adresse suivante : https://zgca-ai4edu.github.io/Euclids_Gift.
Nous présentons MGM-Omni, un modèle de langage omni-modal unifié (Omni LLM) pour la compréhension omni-modale et la génération expressive de parole à long horizon. Contrairement aux pipelines en cascade qui isolent la synthèse vocale, MGM-Omni adopte une conception "cerveau-bouche" avec une architecture à double voie basée sur des tokens, qui découple proprement le raisonnement multimodal de la génération de parole en temps réel. Cette conception permet une interaction intermodale efficace et une génération de parole en flux continu à faible latence. Pour la compréhension, une stratégie d'entraînement unifiée couplée à une conception de double encodeur audio permet une perception audio de longue durée dans diverses conditions acoustiques. Pour la génération, un schéma de décodage parallèle par segments réduit l'écart entre les taux de tokens texte et parole, accélérant l'inférence et supportant le clonage vocal en flux continu en zero-shot avec un timbre stable sur de longues durées. Par rapport aux travaux concurrents, MGM-Omni atteint ces capacités avec un entraînement nettement plus efficace en termes de données. Des expériences approfondies démontrent que MGM-Omni surpasse les modèles open source existants en préservant l'identité du timbre sur des séquences étendues, en produisant une parole naturelle et contextuellement pertinente, et en atteignant une compréhension supérieure de l'audio long format et omni-modale. MGM-Omni établit un paradigme efficace et end-to-end pour la compréhension omni-modale et la génération de parole contrôlée et personnalisée à long horizon.
Les grands modèles vision-langage (LVLMs) obtiennent des performances solides sur les tâches multimodales, mais ils ont souvent tendance à se reposer sur leur a priori linguistique (LP) — des motifs textuels mémorisés lors du pré-entraînement — tout en sous-utilisant les indices visuels. Les analyses précédentes du LP reposent principalement sur des sondages entrée-sortie, qui ne parviennent pas à révéler les mécanismes internes régissant quand et comment la vision influence le comportement du modèle. Pour combler cette lacune, nous présentons la première analyse systématique de l'a priori linguistique à travers le prisme de la chaîne d'incorporation, qui examine la dynamique des représentations couche par couche au sein des LVLMs. Notre analyse révèle un phénomène universel : chaque modèle présente un Point d'Intégration Visuelle (VIP), une couche critique à partir de laquelle l'information visuelle commence à remodeler de manière significative les représentations cachées et à influencer le décodage. En nous appuyant sur cette observation, nous introduisons l'estimateur d'Intégration Visuelle Totale (TVI), qui agrège la distance des représentations au-delà du VIP pour quantifier à quel point la requête visuelle influence la génération de la réponse. À travers 54 combinaisons modèle-dataset couvrant 9 LVLMs contemporains et 6 benchmarks, nous démontrons que le VIP émerge de manière cohérente et que le TVI prédit de manière fiable la force de l'a priori linguistique. Cela offre une boîte à outils méthodologique pour diagnostiquer et comprendre l'a priori linguistique dans les LVLMs.
Les modèles de langage de grande taille (LLMs) d'aujourd'hui sont des résolveurs de problèmes puissants dans de nombreux domaines, et ils continuent de se renforcer à mesure qu'ils augmentent en taille de modèle, en taille d'ensemble d'entraînement et en qualité d'ensemble d'entraînement, comme le démontrent des recherches et des expérimentations approfondies à travers l'industrie. L'entraînement d'un modèle de pointe aujourd'hui nécessite de l'ordre de dizaines à centaines de yottaflops, ce qui représente un investissement massif en temps, en calcul et en énergie. Améliorer l'efficacité du pré-entraînement est donc essentiel pour permettre la prochaine génération de LLMs encore plus performants. Bien que l'entraînement en virgule flottante 8 bits (FP8) soit désormais largement adopté, la transition vers une précision encore plus étroite, telle que la virgule flottante 4 bits (FP4), pourrait débloquer des améliorations supplémentaires en vitesse de calcul et en utilisation des ressources. Cependant, la quantification à ce niveau pose des défis en matière de stabilité de l'entraînement, de convergence et d'implémentation, notamment pour les modèles de grande taille entraînés sur de longues séquences de tokens. Dans cette étude, nous introduisons une nouvelle approche pour un entraînement stable et précis de modèles de langage de grande taille (LLMs) en utilisant le format NVFP4. Notre méthode intègre des transformations de Hadamard aléatoires (RHT) pour limiter les valeurs aberrantes au niveau des blocs, emploie un schéma de quantification bidimensionnel pour des représentations cohérentes à la fois lors des passes avant et arrière, utilise un arrondi stochastique pour une estimation non biaisée des gradients, et incorpore des couches sélectives en haute précision. Nous validons notre approche en entraînant un modèle de 12 milliards de paramètres sur 10 000 milliards de tokens — la plus longue séquence d'entraînement documentée publiquement en précision 4 bits à ce jour. Nos résultats montrent que le modèle entraîné avec notre technique de pré-entraînement basée sur NVFP4 atteint une perte d'entraînement et des précisions sur des tâches en aval comparables à une référence FP8. Ces résultats soulignent que NVFP4, combiné à notre approche d'entraînement, représente une avancée majeure dans les algorithmes d'entraînement de LLMs en précision étroite.
L'estimation de profondeur monoculaire (Monocular Depth Estimation, MDE) est une tâche fondamentale en vision par ordinateur. Les méthodes traditionnelles sont limitées par la rareté et la qualité des données, ce qui affecte leur robustesse. Pour surmonter cela, nous proposons BRIDGE, un framework de génération d'images à partir de profondeur (Depth-to-Image, D2I) optimisé par apprentissage par renforcement (RL), qui synthétise plus de 20 millions d'images RGB réalistes et géométriquement précises, chacune intrinsèquement associée à sa profondeur de référence, à partir de cartes de profondeur sources variées. Nous entraînons ensuite notre modèle d'estimation de profondeur sur cet ensemble de données, en utilisant une stratégie de supervision hybride qui intègre des pseudo-labels issus d'un modèle enseignant avec les profondeurs de référence pour un entraînement complet et robuste. Ce paradigme innovant de génération de données et d'entraînement permet à BRIDGE de réaliser des avancées en termes d'échelle et de diversité de domaines, surpassant systématiquement les approches de pointe existantes sur le plan quantitatif et dans la capture de détails de scènes complexes, favorisant ainsi l'apprentissage de caractéristiques de profondeur générales et robustes. Le code et les modèles sont disponibles à l'adresse https://dingning-liu.github.io/bridge.github.io/.
Le traitement de longues séquences est une capacité essentielle pour les grands modèles de langage modernes. Cependant, le mécanisme d'auto-attention dans l'architecture standard du Transformer rencontre de sévères goulots d'étranglement en termes de calcul et de mémoire lors du traitement de longues séquences. Bien que les méthodes d'attention sparse entraînables offrent une solution prometteuse, les approches existantes telles que NSA introduisent un nombre excessif de paramètres supplémentaires et perturbent le flux de travail conventionnel de pré-entraînement sur des séquences courtes et de fine-tuning sur des séquences longues, entraînant une convergence lente et des difficultés d'accélération. Pour surmonter ces limitations, nous introduisons un cadre d'attention dense-sparse commutables, appelé InfLLM-V2. InfLLM-V2 est une attention sparse entraînable qui adapte de manière transparente les modèles des séquences courtes aux séquences longues. Plus précisément, InfLLM-V2 réutilise les paramètres de l'attention dense grâce à une modification architecturale sans paramètres, maintenant ainsi la cohérence entre le traitement des séquences courtes et longues. De plus, InfLLM-V2 assure une efficacité computationnelle pour toutes les longueurs de séquences, en utilisant l'attention dense pour les entrées courtes et en passant progressivement à l'attention sparse pour les séquences longues. Pour réaliser une accélération pratique, nous introduisons également une implémentation efficace d'InfLLM-V2 qui réduit significativement la surcharge computationnelle. Nos expériences sur la compréhension de contextes longs et le raisonnement en chaîne de pensée démontrent qu'InfLLM-V2 est 4 fois plus rapide que l'attention dense tout en conservant respectivement 98,1 % et 99,7 % des performances. Sur la base du cadre InfLLM-V2, nous avons entraîné et ouvert MiniCPM4.1 (https://huggingface.co/openbmb/MiniCPM4.1-8B), un modèle de raisonnement hybride, fournissant une implémentation reproductible pour la communauté de recherche.
La personnalisation visuelle est essentielle dans les systèmes d'IA destinés aux utilisateurs, tels que les maisons intelligentes et les soins de santé, où l'alignement du comportement du modèle sur des concepts centrés sur l'utilisateur est crucial. Cependant, les récents modèles de vision et langage (VLMs) à grande échelle, malgré leur applicabilité étendue, restent peu explorés dans leur capacité à s'adapter aux utilisateurs individuels. Dans cet article, nous présentons MMPB, le premier benchmark complet pour évaluer les VLMs sur la personnalisation. MMPB comprend 10 000 paires image-requête et inclut 111 concepts personnalisables répartis en quatre catégories : humains, animaux, objets et personnages, avec la catégorie humaine enrichie de requêtes basées sur les préférences. Nous structurons la personnalisation en trois types de tâches principaux, chacun mettant en avant une propriété clé différente des VLMs. En utilisant 23 VLMs largement utilisés, incluant des modèles open-source et propriétaires, nous évaluons la performance de personnalisation via un protocole en trois étapes : injection de concepts, dialogue multi-tours et requêtes personnalisées. Nos résultats indiquent que la plupart des VLMs (y compris certains modèles propriétaires) éprouvent des difficultés avec la personnalisation, en particulier pour maintenir la cohérence dans les dialogues, gérer les préférences des utilisateurs et s'adapter aux indices visuels. Notre analyse révèle que les défis de la personnalisation des VLMs (tels que les comportements de refus et l'oubli de contexte long) mettent en évidence une marge d'amélioration substantielle. En identifiant ces limites et en proposant un benchmark évolutif, MMPB offre des insights précieux et une base solide pour les recherches futures visant à développer une IA multi-modale véritablement personnalisée. Page du projet : aidaslab.github.io/MMPB
Nous présentons SIRI, Scaling Iterative Reinforcement Learning with Interleaved Compression, une approche simple mais efficace d'apprentissage par renforcement (RL) pour les modèles de raisonnement à grande échelle (LRMs), permettant un raisonnement plus efficace et précis. Les études existantes ont observé des schémas de pensée répétitifs dans les LRMs, et les tentatives pour les réduire se font souvent au détriment des performances. Dans cet article, nous montrons que ce compromis peut être surmonté grâce à un régime d'entraînement qui alterne de manière itérative entre la compression et l'expansion du budget de raisonnement, en ajustant dynamiquement la longueur maximale de déploiement pendant l'entraînement. La phase de compression réduit la longueur de déploiement, forçant le modèle à prendre des décisions précises et pertinentes dans un contexte limité, ce qui réduit efficacement les tokens redondants et augmente la densité de raisonnement. La phase d'expansion relâche ensuite la limite de longueur, offrant un espace au modèle pour explorer et planifier dans des scénarios à long terme. De manière remarquable, nous constatons qu'après chaque cycle de compression-expansion, les performances du modèle s'améliorent même si la longueur de sa sortie diminue, le rapprochant progressivement de la frontière de Pareto dans le compromis performance-efficacité. En entraînant sur DeepSeek-R1-Distill-Qwen-1.5B, SIRI-low améliore les performances sur AIME24 de 43,2 % tout en réduisant l'utilisation de tokens de 46,9 % après trois itérations, et SIRI-high atteint la plus haute précision par rapport à toutes les autres méthodes (Figure 1). Nos résultats mettent en lumière le potentiel d'osciller périodiquement la longueur de troncature de sortie du LRM pendant l'entraînement pour équilibrer dynamiquement l'exploration et l'efficacité dans le raisonnement, convergeant vers un "point optimal" entre les deux. Nos modèles sont disponibles publiquement.
Les agents d'interface graphique (GUI) basés sur des modèles vision-langage (VLM) montrent un potentiel prometteur pour automatiser des tâches complexes sur ordinateur et mobile, mais ils rencontrent des défis significatifs dans l'application de l'apprentissage par renforcement (RL) : (1) des interactions multi-tours lentes avec les environnements GUI pour le déploiement des politiques, et (2) des interactions de qualité insuffisante entre l'agent et l'environnement pour l'apprentissage des politiques. Pour relever ces défis, nous proposons DART, un cadre de formation d'apprentissage par renforcement découplé pour les agents GUI, qui coordonne des modules hétérogènes de manière hautement découplée. DART sépare le système de formation en quatre modules asynchrones : cluster d'environnement, service de déploiement, gestionnaire de données et formateur. Cette conception permet une communication non bloquante, une formation asynchrone, un échantillonnage de trajectoires par déploiement et une synchronisation des modèles par travailleur, améliorant significativement l'efficacité du système : 1,6* d'utilisation du GPU pour le déploiement, 1,9* de débit de formation et 5,5* d'utilisation de l'environnement. Pour faciliter un apprentissage efficace à partir d'échantillons abondants, nous introduisons un schéma de curation de données adaptatif : (1) pré-collecter des trajectoires réussies pour des tâches difficiles afin de compléter les succès rares dans l'échantillonnage en ligne ; (2) ajuster dynamiquement le nombre de déploiements et la longueur des trajectoires en fonction de la difficulté de la tâche ; (3) former sélectivement sur les étapes à haute entropie pour prioriser les décisions critiques ; (4) stabiliser l'apprentissage via un échantillonnage d'importance tronqué pour les incompatibilités de politique entre le déploiement et la mise à jour des politiques. Sur le benchmark OSWorld, DART-GUI-7B atteint un taux de réussite des tâches de 42,13 %, soit un gain absolu de 14,61 % par rapport au modèle de base, et 7,34 % de plus que l'état de l'art open-source. Nous allons ouvrir entièrement notre cadre de formation, les données et les points de contrôle du modèle via computer-use-agents.github.io/dart-gui, ce que nous considérons comme une contribution opportune à la communauté open-source de la formation d'apprentissage par renforcement agentique.
Le Raisonnement Intégré aux Outils (TIR) permet aux grands modèles de langage (LLMs) d'améliorer leur capacité de raisonnement interne en intégrant des outils externes. Cependant, les modèles utilisant le TIR présentent souvent des comportements sous-optimaux, tels qu'une utilisation insuffisante ou excessive des outils et une surréflexion après les appels d'outils. Le défi d'inciter les LLMs à effectuer le TIR de manière efficace et précise, tout en stabilisant le processus de raisonnement, reste une question ouverte. Dans cet article, nous commençons par explorer l'impact des appels d'outils sur le raisonnement du modèle du point de vue de l'entropie informationnelle. Nos résultats indiquent que les résultats des appels d'outils entraînent un changement distinct dans l'entropie informationnelle du raisonnement subséquent, avec l'entropie globale de la chaîne de raisonnement variant en fonction du nombre d'appels d'outils. Sur la base de ces observations, nous proposons Tool-Light, un cadre conçu pour encourager les LLMs à effectuer le TIR de manière efficace et précise. Notre cadre comprend la construction de jeux de données et un affinage en plusieurs étapes. Pour la construction des jeux de données, nous utilisons un échantillonnage auto-évolutif continu en utilisant le modèle affiné, intégrant à la fois un échantillonnage classique et un échantillonnage guidé par l'entropie. En outre, nous établissons des critères stricts pour la sélection de paires positives-négatives lors de l'échantillonnage. Le processus de formation implique une approche en deux étapes, comprenant un Affinage Supervisé (SFT) et une Optimisation Directe des Préférences Auto-Évolutive (DPO). Les résultats expérimentaux sur 10 jeux de données démontrent l'efficacité de Tool-Light, améliorant significativement l'efficacité du modèle dans l'exécution des tâches de TIR.
Le Test-Time Scaling (TTS) améliore la capacité de raisonnement des grands modèles de langage (LLMs) en allouant des ressources de calcul supplémentaires lors de l'inférence. Cependant, les approches existantes reposent principalement sur un échantillonnage au niveau de la sortie, tout en négligeant le rôle de l'architecture du modèle. Dans les LLMs basés sur le Mixture-of-Experts (MoE) couramment utilisés, nous observons que la variation du nombre d'experts activés produit des ensembles de solutions complémentaires avec une précision stable, révélant ainsi une source de diversité nouvelle et peu explorée. Motivés par cette observation, nous proposons le Dynamic Experts Search (DES), une stratégie de TTS qui élève l'activation des experts en une dimension contrôlable de l'espace de recherche. DES intègre deux composants clés : (1) le Dynamic MoE, qui permet un contrôle direct du nombre d'experts pendant l'inférence pour générer des trajectoires de raisonnement diversifiées sans coût supplémentaire ; et (2) l'Expert Configuration Inheritance, qui maintient un nombre d'experts cohérent au sein d'un chemin de raisonnement tout en le variant entre les exécutions, équilibrant ainsi stabilité et diversité tout au long de la recherche. Des expériences approfondies sur diverses architectures MoE, vérificateurs et benchmarks de raisonnement (par exemple, mathématiques, code et connaissances) démontrent que DES surpasse de manière fiable les approches de TTS de référence, améliorant la précision et la stabilité sans coût supplémentaire. Ces résultats mettent en avant DES comme une forme pratique et évolutive de TTS conscient de l'architecture, illustrant comment la flexibilité structurelle des LLMs modernes peut faire progresser le raisonnement.
Les agents de modèles de langage de grande taille (LLM), qui intègrent des modules de planification, de mémoire, de réflexion et d'utilisation d'outils, ont montré des résultats prometteurs dans la résolution de tâches complexes et multi-étapes. Cependant, leurs architectures sophistiquées amplifient leur vulnérabilité aux défaillances en cascade, où une seule erreur à la racine se propage à travers les décisions ultérieures, entraînant l'échec de la tâche. Les systèmes actuels manquent d'un cadre capable de comprendre de manière exhaustive et systémique les erreurs des agents, et donc échouent à détecter ces erreurs de manière appropriée. Nous comblons cette lacune avec trois contributions. Premièrement, nous introduisons l'AgentErrorTaxonomy, une classification modulaire des modes de défaillance couvrant la mémoire, la réflexion, la planification, l'action et les opérations au niveau système. Deuxièmement, nous construisons AgentErrorBench, le premier ensemble de données de trajectoires de défaillance annotées systématiquement provenant d'ALFWorld, GAIA et WebShop, ancrant l'analyse des erreurs dans des déploiements réels d'agents. Troisièmement, nous proposons AgentDebug, un cadre de débogage qui isole les défaillances à la racine et fournit un retour correctif, permettant aux agents de récupérer et de s'améliorer de manière itérative. Les expériences sur AgentErrorBench montrent qu'AgentDebug atteint une précision totale correcte 24 % plus élevée et une précision par étape 17 % plus élevée par rapport à la base de référence la plus solide. Au-delà de la détection, le retour ciblé généré par AgentDebug permet aux agents LLM de récupérer de manière itérative des échecs, entraînant des améliorations relatives allant jusqu'à 26 % dans le succès des tâches sur ALFWorld, GAIA et WebShop. Ces résultats établissent le débogage méthodique comme une voie vers des agents LLM plus fiables et adaptatifs. Le code et les données seront disponibles à l'adresse https://github.com/ulab-uiuc/AgentDebug.
Nous introduisons une nouvelle approche pour la distillation de modèles de langage de grande taille (LLM) en la formulant comme un problème d'apprentissage par renforcement contraint. Bien que des travaux récents aient commencé à explorer l'intégration de récompenses spécifiques aux tâches dans les processus de distillation, les méthodes existantes reposent généralement sur une pondération ad hoc des récompenses. Nous proposons un cadre d'optimisation fondé sur des principes qui maximise les récompenses spécifiques aux tâches tout en contraignant la divergence par rapport au modèle enseignant à rester en dessous d'un seuil spécifié. Notre approche adapte l'apprentissage par renforcement contraint avec augmentation d'état au contexte de la distillation, en introduisant une fonction de récompense modifiée qui maintient des garanties théoriques de satisfaction des contraintes sans nécessiter d'augmentation d'état ni d'accès au modèle enseignant pendant le déploiement, et sans la surcharge computationnelle des méthodes duales de Lagrange. À travers des expériences approfondies sur des tâches de raisonnement mathématique, nous démontrons que notre méthode atteint de meilleurs taux de satisfaction des contraintes et un meilleur raisonnement par rapport aux bases de référence de relaxation douce de Lagrange, tout en maintenant une performance compétitive sur les tâches. Notre cadre offre une solution théoriquement fondée et pratiquement efficace pour la distillation consciente des récompenses dans des contextes à ressources limitées.
Les progrès récents, tels que DeepSeek-R1, ont montré que l'algorithme GRPO, une approche d'apprentissage par renforcement (Reinforcement Learning, RL), peut efficacement entraîner le raisonnement en chaîne de pensées (Chain-of-Thought, CoT) dans les grands modèles de langage (Large Language Models, LLMs) et les modèles vision-langage (Vision-Language Models, VLMs). Dans cet article, nous analysons trois défis liés à GRPO : le couplage des gradients entre les pensées et les réponses, les signaux de récompense épars causés par un échantillonnage parallèle limité, et l'estimation instable de l'avantage. Pour atténuer ces défis, nous proposons GRPO-MA, une méthode simple mais théoriquement fondée qui exploite la génération de multiples réponses à partir de chaque processus de pensée, permettant une optimisation plus robuste et efficace. Théoriquement, nous montrons que la variance de l'avantage des pensées diminue à mesure que le nombre de réponses par pensée augmente. Empiriquement, notre analyse des gradients confirme cet effet, montrant que GRPO-MA réduit les pics de gradient par rapport à GRPO. Les expériences sur des tâches mathématiques, de programmation et multimodales variées démontrent que GRPO-MA améliore considérablement les performances et l'efficacité de l'entraînement. Nos études d'ablation révèlent en outre qu'augmenter le nombre de réponses par pensée améliore systématiquement les performances du modèle.
Les architectures prédictives à incorporation conjointe vidéo (V-JEPA) apprennent des représentations vidéo généralisables prêtes à l'emploi en prédisant des régions masquées dans l'espace latent à l'aide d'un enseignant mis à jour par moyenne mobile exponentielle (EMA). Bien que l'EMA empêche l'effondrement des représentations, elle complique la sélection de modèles évolutifs et couple les architectures de l'enseignant et de l'élève. Nous revisitons la prédiction dans l'espace latent masqué et montrons qu'un enseignant figé suffit. Concrètement, nous (i) entraînons un encodeur cible avec un objectif simple de reconstruction de pixels sous le masquage V-JEPA, puis (ii) le gelons et entraînons un élève à prédire les latents de l'enseignant sur les régions masquées. Cela conduit à un schéma en deux étapes, non régularisé, que nous appelons SALT (Static-teacher Asymmetric Latent Training). SALT découple l'optimisation en reconstruction de pixels (enseignant) et prédiction de latents masqués (élève), augmentant la transparence, l'efficacité et l'évolutivité tout en préservant la capacité de la représentation à généraliser sous évaluation figée. Empiriquement, nos modèles élèves surpassent les encodeurs V-JEPA 2 récemment proposés sous évaluation de backbone figé sur divers benchmarks. Ils sont également plus optimaux en termes de calcul : à nombre de FLOPs de pré-entraînement équivalent, notre méthode atteint une précision de sondage plus élevée, et ses courbes de mise à l'échelle dominent la frontière de Pareto précision-FLOPs de V-JEPA. Enfin, nous constatons que la qualité de l'élève est remarquablement robuste à la qualité de l'enseignant : des élèves performants émergent même avec des enseignants petits et sous-optimaux. Cela suggère une allocation de budget de calcul qui devrait largement favoriser l'élève. Ces résultats positionnent SALT comme une alternative simple, évolutive et efficace en calcul à l'auto-distillation basée sur l'EMA pour l'apprentissage de représentations vidéo.
La Génération Augmentée par Récupération (Retrieval-Augmented Generation, RAG) vise à réduire les hallucinations dans les grands modèles de langage (LLMs) en ancrant les réponses dans des documents récupérés. Pourtant, les LLMs basés sur RAG continuent de produire des hallucinations même lorsqu'ils disposent d'un contexte correct et suffisant. Un nombre croissant de travaux suggère que cela découle d'un déséquilibre entre la manière dont les modèles utilisent le contexte externe et leurs connaissances internes, et plusieurs approches ont tenté de quantifier ces signaux pour la détection des hallucinations. Cependant, les méthodes existantes nécessitent un réglage approfondi des hyperparamètres, limitant ainsi leur généralisabilité. Nous proposons LUMINA, un cadre novateur qui détecte les hallucinations dans les systèmes RAG à travers des signaux de contexte-connaissance : l'utilisation du contexte externe est quantifiée via une distance distributionnelle, tandis que l'utilisation des connaissances internes est mesurée en suivant l'évolution des tokens prédits à travers les couches du transformateur. Nous introduisons également un cadre pour valider statistiquement ces mesures. Les expériences sur des benchmarks courants d'hallucinations RAG et quatre LLMs open-source montrent que LUMINA atteint des scores AUROC et AUPRC constamment élevés, surpassant les méthodes basées sur l'utilisation précédentes jusqu'à +13% AUROC sur HalluRAG. De plus, LUMINA reste robuste sous des hypothèses assouplies concernant la qualité de la récupération et l'appariement des modèles, offrant à la fois efficacité et praticabilité.
L'ajustement fin des grands modèles de langage pré-entraînés (LLMs) pour des tâches en aval constitue une étape cruciale dans le pipeline de déploiement de l'IA. L'apprentissage par renforcement (RL) est sans doute la méthode d'ajustement fin la plus répandue, ayant contribué à l'émergence de nombreux LLMs de pointe. En revanche, les stratégies d'évolution (ES), qui avaient autrefois démontré des performances comparables au RL sur des modèles de quelques millions de paramètres, ont été négligées en raison d'une perception pessimiste de leur évolutivité vers des modèles plus grands. Dans ce travail, nous rapportons la première tentative réussie de mise à l'échelle des ES pour l'ajustement fin de l'ensemble des paramètres des LLMs, révélant le fait surprenant que les ES peuvent explorer efficacement des milliards de paramètres et surpasser les méthodes d'ajustement fin par RL à plusieurs égards, notamment en termes d'efficacité d'échantillonnage, de tolérance aux récompenses à long terme, de robustesse face à différents LLMs de base, de moindre tendance au piratage des récompenses et de performances plus stables entre les exécutions. Cela ouvre donc la voie à une nouvelle direction dans l'ajustement fin des LLMs, au-delà de ce que les techniques actuelles de RL offrent. Les codes sources sont disponibles à l'adresse suivante : https://github.com/VsonicV/es-fine-tuning-paper.
Alors que les grands modèles de langage (LLMs) sont de plus en plus appliqués au raisonnement scientifique, la complexité des formats de réponse et la diversité des expressions équivalentes rendent la vérification des réponses une tâche cruciale mais difficile. Les études de vérification existantes dans les domaines scientifiques souffrent de deux limitations majeures : (a) l'absence de normes d'évaluation systématiques et une couverture disciplinaire insuffisante, ce qui entrave leur évaluation complète ; et (b) une forte dépendance à la conception fastidieuse de règles ou à l'ingénierie de prompts, ce qui réduit leur efficacité dans des scénarios de raisonnement complexe ou limite leur généralisation interdisciplinaire. Pour relever ces défis, nous proposons des solutions à la fois au niveau des données et des modèles. Du côté des données, nous construisons SCI-VerifyBench, un benchmark interdisciplinaire couvrant les mathématiques, la physique, la biologie, la chimie et les questions-réponses scientifiques générales. Ce benchmark est construit à partir de réponses réelles de LLMs et enrichi par des transformations d'équivalence spécifiques à chaque domaine, générant ainsi des données difficiles et réalistes. Des annotations basées sur des modèles et des experts garantissent à la fois la qualité et la diversité, permettant une évaluation rigoureuse des capacités de vérification. Du côté des modèles, nous mettons l'accent sur l'importance du raisonnement pour la vérification et introduisons SCI-Verifier, un vérificateur unifié renforcé par le raisonnement pour les domaines scientifiques. Grâce à un post-entraînement, SCI-Verifier démontre de solides capacités de raisonnement logique et de jugement d'équivalence tout en maintenant des sorties concises et stables. Ensemble, SCI-VerifyBench et SCI-Verifier fournissent un cadre méthodique pour la vérification scientifique, offrant à la fois une évaluation systématique et des voies pratiques pour améliorer la fiabilité et l'applicabilité des LLMs dans les domaines scientifiques.
Les modèles de langage récents spécialisés en raisonnement (RLMs), en particulier ceux entraînés avec un apprentissage par renforcement basé sur des vérificateurs, obtiennent souvent de moins bons résultats avec le raisonnement en chaîne (CoT) en few-shot qu'avec des réponses directes. Nous revisitons ce paradoxe en utilisant des traces de raisonnement de haute qualité provenant de DeepSeek-R1 comme démonstrations et constatons que l'ajout de plus d'exemples dégrade systématiquement la précision, même lorsque les démonstrations sont optimales. Une analyse détaillée révèle deux mécanismes derrière ce déclin : (i) l'égarement sémantique, où une forte similarité textuelle amène le modèle à traiter la cible comme identique à l'exemple et à copier les étapes intermédiaires mot pour mot ; et (ii) l'échec du transfert de stratégie, où le modèle peine à extraire des stratégies de raisonnement utiles et à les appliquer aux questions cibles. Guidés par ces observations, nous introduisons Insight-to-Solve (I2S), une procédure séquentielle au moment du test qui transforme les démonstrations en insights explicites et réutilisables et dérive une trace de raisonnement spécifique à la cible ; optionnellement, le raisonnement est auto-affiné pour la cohérence et la correction (I2S+). Des expériences approfondies sur divers benchmarks montrent que I2S et I2S+ surpassent systématiquement à la fois les réponses directes et les bases de référence de mise à l'échelle au moment du test, sur des modèles open-source et propriétaires. Même pour les modèles GPT, notre méthode est bénéfique : sur AIME'25, GPT-4.1 progresse de +14,0 %, et o1-mini s'améliore de +2,7 % sur AIME et +1,7 % sur GPQA, indiquant que les démonstrations en contexte peuvent être exploitées efficacement via le cadre insight-affiner-résoudre.
Les modèles de diffusion texte-image existants excellent dans la génération d'images de haute qualité, mais rencontrent des défis d'efficacité significatifs lorsqu'ils sont mis à l'échelle pour des résolutions élevées, comme la génération d'images 4K. Bien que des recherches antérieures aient accéléré les modèles de diffusion sous divers aspects, elles traitent rarement la redondance inhérente à l'espace latent. Pour combler cette lacune, cet article présente DC-Gen, un cadre général qui accélère les modèles de diffusion texte-image en exploitant un espace latent profondément compressé. Plutôt qu'une approche coûteuse de formation à partir de zéro, DC-Gen utilise un pipeline efficace post-formation pour préserver la qualité du modèle de base. Un défi clé dans ce paradigme est l'écart de représentation entre l'espace latent du modèle de base et un espace latent profondément compressé, ce qui peut entraîner une instabilité lors de l'ajustement fin direct. Pour surmonter cela, DC-Gen comble d'abord l'écart de représentation avec un entraînement léger d'alignement des embeddings. Une fois les embeddings latents alignés, seule une petite quantité d'ajustement fin LoRA est nécessaire pour débloquer la qualité de génération inhérente du modèle de base. Nous vérifions l'efficacité de DC-Gen sur SANA et FLUX.1-Krea. Les modèles résultants DC-Gen-SANA et DC-Gen-FLUX atteignent une qualité comparable à leurs modèles de base mais avec une accélération significative. Plus précisément, DC-Gen-FLUX réduit la latence de la génération d'images 4K par 53x sur le GPU NVIDIA H100. Lorsqu'il est combiné avec NVFP4 SVDQuant, DC-Gen-FLUX génère une image 4K en seulement 3,5 secondes sur un seul GPU NVIDIA 5090, atteignant une réduction totale de latence de 138x par rapport au modèle de base FLUX.1-Krea. Code : https://github.com/dc-ai-projects/DC-Gen.
Les modèles de langage à diffusion masquée (MDLM) ont récemment émergé comme une alternative prometteuse aux modèles de langage autorégressifs (AR), offrant des propriétés telles que le décodage parallèle, des ordres de génération flexibles et la possibilité de réduire le nombre d'étapes d'inférence. Malgré ces avantages, les stratégies de décodage et les algorithmes d'apprentissage par renforcement (RL) adaptés aux MDLM restent peu explorés. Une approche naïve consiste à transférer directement les techniques bien établies pour les modèles AR aux MDLM. Cependant, cela soulève une question immédiate : un tel transfert naïf est-il vraiment optimal ? Par exemple, 1) les stratégies de décodage par blocs et semi-autorégressives ne sont pas utilisées lors de l'entraînement des MDLM, alors pourquoi surpassent-elles le décodage de style diffusion complet lors de l'inférence ? 2) L'application directe des algorithmes RL conçus pour les modèles AR aux MDLM présente une incohérence entre l'entraînement et l'inférence, car le décodage des MDLM est non-causal (parallèle). Cela entraîne des incohérences entre la trajectoire de déploiement et la trajectoire d'optimisation. Pour relever ces défis, nous proposons le rejet précoce EOS (EOSER) et le planificateur de décodage à pas ascendants (ASS), qui permettent aux MDLM de réaliser un décodage de style diffusion complet, atteignant des performances compétitives avec moins d'étapes de décodage. De plus, nous introduisons l'optimisation relative de politique par groupe de trajectoire de cohérence (CJ-GRPO) pour maîtriser les MDLM, qui met l'accent sur la cohérence entre la trajectoire de déploiement et la trajectoire d'optimisation, et réduit les erreurs d'optimisation causées par l'optimisation à pas sautés. Nous menons des expériences approfondies sur des tâches de raisonnement, telles que des benchmarks mathématiques et de planification, en utilisant LLaDA-8B-Instruct. Les résultats démontrent que les mécanismes EOSER et ASS proposés, ainsi que CJ-GRPO, offrent des perspectives significatives pour maîtriser efficacement et efficacement les MDLM. Code : https://github.com/yjyddq/EOSER-ASS-RL.
Les modèles autorégressifs (AR) sont prometteurs pour la génération d'images, mais les variantes AR à jetons continus restent souvent en retrait par rapport aux modèles de diffusion latente et de génération masquée. Le problème central réside dans l'hétérogénéité de la variance des latents des VAE, qui est amplifiée lors du décodage AR, en particulier sous le guidage sans classifieur (CFG), et peut entraîner un effondrement de la variance. Nous proposons SphereAR pour résoudre ce problème. Son concept central consiste à contraindre toutes les entrées et sorties AR — y compris après CFG — à se situer sur une hypersphère de rayon fixe (norme ell_2 constante), en exploitant les VAE hypersphériques. Notre analyse théorique montre que la contrainte hypersphérique élimine la composante d'échelle (principale cause de l'effondrement de la variance), stabilisant ainsi le décodage AR. Empiriquement, sur la génération d'ImageNet, SphereAR-H (943M) établit un nouvel état de l'art pour les modèles AR, atteignant un FID de 1,34. Même à des échelles plus réduites, SphereAR-L (479M) atteint un FID de 1,54 et SphereAR-B (208M) atteint 1,92, égalant ou surpassant des modèles de référence bien plus volumineux tels que MAR-H (943M, 1,55) et VAR-d30 (2B, 1,92). À notre connaissance, c'est la première fois qu'un générateur d'images AR pur basé sur le prédiction du jeton suivant avec un ordre raster surpasse les modèles de diffusion et de génération masquée à des échelles de paramètres comparables.
Les grands modèles de langage (LLM) ont démontré une efficacité croissante dans les tâches de conversion de texte en SQL (Text-to-SQL). Cependant, un autre problème étroitement lié, la traduction SQL inter-systèmes (ou SQL-to-SQL), qui consiste à adapter une requête écrite pour un système de base de données (par exemple, MySQL) en son équivalent pour un autre système (par exemple, ClickHouse), revêt une importance pratique considérable mais reste peu exploré. Les benchmarks SQL existants ne sont pas bien adaptés à l'évaluation SQL-to-SQL, car (1) ils se concentrent sur un ensemble limité de systèmes de base de données (souvent uniquement SQLite) et (2) ils ne peuvent pas capturer de nombreux dialectes SQL spécifiques aux systèmes (par exemple, fonctions personnalisées, types de données et règles de syntaxe). Ainsi, dans cet article, nous introduisons PARROT, un benchmark pratique et réaliste pour la traduction SQL inter-systèmes. PARROT comprend 598 paires de traductions issues de 38 benchmarks open source et de services commerciaux réels, spécifiquement préparées pour mettre à l'épreuve la compréhension des dialectes SQL spécifiques aux systèmes (par exemple, les LLM obtiennent en moyenne une précision inférieure à 38,53 %). Nous proposons également plusieurs variantes du benchmark, notamment PARROT-Diverse avec 28 003 traductions (pour des tests de syntaxe approfondis) et PARROT-Simple avec 5 306 échantillons représentatifs (pour des tests de stress ciblés), couvrant 22 systèmes de base de données de niveau production. Pour promouvoir les recherches futures, nous mettons à disposition un classement public et le code source à l'adresse suivante : https://code4db.github.io/parrot-bench/.
Le feedback humain joue un rôle central dans l'alignement des grands modèles de langage (LLMs) avec les préférences humaines. Cependant, ce feedback est souvent bruité ou incohérent, ce qui peut dégrader la qualité des modèles de récompense et entraver l'alignement. Bien que diverses méthodes automatisées de nettoyage des données aient été proposées pour atténuer ce problème, une évaluation systématique de leur efficacité et de leur généralisabilité fait encore défaut. Pour combler cette lacune, nous introduisons le premier benchmark complet pour évaluer 13 méthodes de nettoyage des données de préférence dans le contexte de l'alignement des LLMs. PrefCleanBench propose un protocole standardisé pour évaluer les stratégies de nettoyage en termes de performance d'alignement et de généralisabilité sur divers ensembles de données, architectures de modèles et algorithmes d'optimisation. En unifiant des méthodes disparates et en les comparant rigoureusement, nous mettons en lumière les facteurs clés qui déterminent le succès du nettoyage des données dans les tâches d'alignement. Ce benchmark jette les bases d'approches méthodiques et reproductibles pour améliorer l'alignement des LLMs grâce à une meilleure qualité des données, soulignant ainsi le rôle crucial mais encore peu exploré du prétraitement des données dans le développement responsable de l'IA. Nous publions des implémentations modulaires de toutes les méthodes pour catalyser la recherche future : https://github.com/deeplearning-wisc/PrefCleanBench.
La compréhension des vidéos longues reste un défi pour les modèles récents de langage et vidéo de grande envergure (LVLMs) en raison du conflit entre la compréhension temporelle de long terme et la perception spatiale détaillée. Les LVLMs utilisant un mécanisme d'échantillonnage uniforme des images, qui prélève des images avec une taille égale et un taux d'échantillonnage fixe, sacrifient inévitablement soit les indices temporels, soit les détails spatiaux, conduisant à des solutions sous-optimales. Pour atténuer ce dilemme, nous proposons LOVE-R1, un modèle capable de zoomer de manière adaptative sur un clip vidéo. Le modèle reçoit d'abord des images densément échantillonnées mais avec une faible résolution. Si certains détails spatiaux sont nécessaires, le modèle peut zoomer sur une séquence d'intérêt avec une résolution d'image plus grande, basée sur son raisonnement, jusqu'à obtenir les informations visuelles clés. L'ensemble du processus est implémenté comme un raisonnement multi-étapes. Pour entraîner cette capacité de raisonnement, nous affinons d'abord le modèle sur nos 38k données de haute qualité CoT collectées, puis l'améliorons avec un affinage par renforcement découplé. Comme les récompenses de résultat ne peuvent pas fournir une supervision fine du processus, nous découplons le raisonnement multi-étapes en plusieurs raisonnements mono-étapes et optimisons explicitement la capacité de zoom interne. Les expériences sur les benchmarks de compréhension de vidéos longues montrent que notre modèle, avec le mécanisme d'échantillonnage adaptatif lent-rapide, atteint un excellent compromis entre la densité d'échantillonnage et les résolutions d'image, et LOVE-R1 surpasse notre baseline Qwen2.5-VL de 3,1 points en moyenne sur 4 benchmarks courants de compréhension de vidéos longues.
La tâche de conversion de page web en code nécessite que les modèles comprennent les représentations visuelles des pages web et génèrent le code correspondant. Cependant, les benchmarks existants se concentrent principalement sur des tâches statiques de conversion de captures d'écran en code, négligeant ainsi les interactions dynamiques fondamentales aux applications web réelles. Pour pallier cette limitation, cet article présente IWR-Bench, un nouveau benchmark conçu pour évaluer les capacités des grands modèles vision-langage (LVLMs) dans la reconstruction interactive de pages web à partir de vidéos. IWR-Bench comprend 113 tâches soigneusement sélectionnées provenant de 100 sites web réels, avec 1 001 actions et présentant des complexités d'interaction variées (par exemple, des jeux web), des styles visuels et des domaines divers. Conformément aux pratiques standard de développement web, chaque tâche inclut non seulement des vidéos d'interaction utilisateur, mais aussi tous les assets statiques crawlés (par exemple, images, vidéos). Ce benchmark évalue les modèles sur deux défis fondamentaux : le raisonnement multimodal complet pour déduire la logique d'interaction à partir de la vidéo et des assets, et la génération de code avancée pour traduire cette logique en code fonctionnel. Un cadre agent-comme-juge avec un système de métrique complet évalue automatiquement la correction fonctionnelle et la fidélité visuelle des pages web générées. Des expériences approfondies sur 28 LVLMs révèlent un défi significatif : le meilleur modèle atteint un score global de seulement 36,35 %, car la correction fonctionnelle (24,39 % IFS) est nettement en retard par rapport à la fidélité visuelle (64,25 % VFS). Ces résultats mettent en lumière des limitations critiques dans la capacité des modèles actuels à raisonner sur la dynamique temporelle et à synthétiser une logique pilotée par événements, établissant IWR-Bench comme une frontière difficile pour la recherche vision-langage. Le benchmark et le code d'évaluation seront rendus publics. Le code est disponible à l'adresse https://github.com/L-O-I/IWR-Bench.
Nous présentons DafnyCOMP, un benchmark pour évaluer les modèles de langage de grande taille (LLMs) sur la génération de spécifications compositionnelles en Dafny. Contrairement aux benchmarks antérieurs qui se concentrent sur des tâches à fonction unique, DafnyCOMP cible des programmes composés de plusieurs fonctions interactives avec des dépendances de données, nécessitant un raisonnement à travers les limites des composants. Le benchmark comprend 300 programmes multifonctionnels synthétisés automatiquement. Nous évaluons plusieurs familles de LLM de pointe et constatons que, bien qu'ils performent bien sur la vérification de fonctions uniques, leur performance chute considérablement sur les tâches compositionnelles. L'analyse révèle des échecs systématiques dans le raisonnement inter-fonctionnel, incluant des spécifications fragiles, un désalignement entre les implémentations et les preuves, ainsi qu'un raisonnement instable. DafnyCOMP offre ainsi un outil diagnostique pour mesurer les progrès vers une génération de code fiable, vérifiable et compositionnelle avec les LLMs.
Les LLM (modèles de langage de grande taille) augmentés par la recherche peinent souvent à accomplir des tâches de raisonnement complexe en raison d'une récupération multi-sauts inefficace et d'une capacité de raisonnement limitée. Nous proposons AceSearcher, un cadre de jeu coopératif auto-supervisé qui entraîne un seul LLM à alterner entre deux rôles : un décomposeur qui fragmente les requêtes complexes et un solveur qui intègre les contextes récupérés pour générer des réponses. AceSearcher combine un ajustement supervisé sur un mélange diversifié de tâches de recherche, de raisonnement et de décomposition avec un ajustement par renforcement optimisé pour la précision des réponses finales, éliminant ainsi le besoin d'annotations intermédiaires. Des expériences approfondies sur trois tâches intensives en raisonnement à travers 10 ensembles de données montrent qu'AceSearcher surpasse les modèles de référence actuels, obtenant une amélioration moyenne de 7,6 % en termes de correspondance exacte. De manière remarquable, sur des tâches de raisonnement financier au niveau documentaire, AceSearcher-32B atteint les performances du modèle DeepSeek-V3 en utilisant moins de 5 % de ses paramètres. Même à des échelles plus petites (1,5B et 8B), AceSearcher surpasse souvent les LLM augmentés par la recherche existants avec jusqu'à 9 fois plus de paramètres, mettant en évidence son efficacité et son efficience exceptionnelles pour aborder des tâches de raisonnement complexe. Notre code sera publié sur https://github.com/ritaranx/AceSearcher et https://huggingface.co/AceSearcher.
La génération d'images multi-sujets vise à synthétiser des sujets fournis par l'utilisateur dans une seule image tout en préservant la fidélité des sujets, en assurant la cohérence avec l'invite et en s'alignant sur les préférences esthétiques humaines. Cependant, les méthodes existantes, en particulier celles basées sur le paradigme d'apprentissage en contexte (In-Context-Learning), sont limitées par leur dépendance à des objectifs simples de reconstruction, ce qui entraîne à la fois une fuite sévère d'attributs compromettant la fidélité des sujets et un échec à s'aligner sur les préférences humaines nuancées. Pour remédier à cela, nous proposons MultiCrafter, un cadre qui garantit une génération de haute fidélité et alignée sur les préférences. Tout d'abord, nous identifions que la cause principale de la fuite d'attributs est un enchevêtrement significatif de l'attention entre différents sujets lors du processus de génération. Par conséquent, nous introduisons une supervision positionnelle explicite pour séparer clairement les régions d'attention pour chaque sujet, atténuant ainsi efficacement la fuite d'attributs. Pour permettre au modèle de planifier avec précision la région d'attention des différents sujets dans divers scénarios, nous utilisons une architecture de type Mixture-of-Experts (MoE) pour améliorer la capacité du modèle, permettant à différents experts de se concentrer sur différents scénarios. Enfin, nous concevons un nouveau cadre d'apprentissage par renforcement en ligne pour aligner le modèle sur les préférences humaines, comprenant un mécanisme de notation pour évaluer avec précision la fidélité multi-sujets et une stratégie d'entraînement plus stable adaptée à l'architecture MoE. Les expériences valident que notre cadre améliore significativement la fidélité des sujets tout en s'alignant mieux sur les préférences humaines.
Les modèles de vision et langage (VLMs) peuvent aborder de manière flexible diverses tâches visuelles grâce à des interactions textuelles. Bien que performants dans la compréhension sémantique, les VLMs de pointe, y compris GPT-5, peinent encore à comprendre la 3D à partir d'entrées 2D. D'un autre côté, les modèles de vision pure experts atteignent une précision surhumaine dans l'estimation de la profondeur métrique, une tâche clé de compréhension 3D. Cependant, ils nécessitent des architectures et des fonctions de perte spécifiques à la tâche. Cette différence nous amène à poser la question : Les VLMs peuvent-ils atteindre une précision de niveau expert sans modification de l'architecture ou de la fonction de perte ? Nous prenons l'estimation de la profondeur métrique par pixel comme tâche représentative et montrons que la réponse est oui ! Étonnamment, une analyse approfondie révèle qu'un ajustement supervisé basé sur le texte avec des annotations éparses suffit aux VLMs pour débloquer une compréhension 3D robuste, sans nécessiter de tête de prédiction dense ou de fonction de perte complexe de régression/régularisation. Le goulot d'étranglement pour les VLMs réside en réalité dans la référence pixel et l'ambiguïté de la caméra entre les jeux de données, que nous résolvons grâce à l'incitation visuelle et à l'augmentation conditionnée intrinsèque. Avec des modèles bien plus petits, notre méthode DepthLM dépasse la précision des VLMs les plus avancés de plus de 2 fois, rendant pour la première fois les VLMs comparables aux modèles de vision pure. Fait intéressant, sans imposition explicite pendant l'entraînement, les VLMs entraînés avec DepthLM évitent naturellement le lissage excessif, présentant beaucoup moins de points flottants dans les régions de bordure que les modèles de vision pure. La simplicité de DepthLM permet également à un seul VLM de couvrir diverses tâches 3D au-delà de la profondeur métrique. Notre code et modèle seront publiés au lien ci-dessous.
L'optimisation des préférences est cruciale pour aligner les grands modèles de langage (LLM) avec les valeurs et intentions humaines. Un défi majeur dans ce processus est l'inadéquation de distribution entre les données de préférences pré-collectées hors ligne et la politique évolutive du modèle. Les méthodes existantes tentent de réduire cet écart en utilisant des heuristiques statiques ou des stratégies d'échantillonnage en ligne découplées, mais elles échouent souvent à s'adapter à l'état d'apprentissage dynamique du modèle. Pour combler cet écart, nous proposons Meta-Weighted Adaptive Preference Optimization (MetaAPO), un cadre novateur qui couple dynamiquement la génération de données avec l'entraînement du modèle. MetaAPO utilise un méta-apprenant léger, en tant qu'"estimateur de l'écart d'alignement", pour évaluer les bénéfices potentiels de l'échantillonnage sur la politique par rapport aux données hors ligne. Cela guide la génération en ligne ciblée et attribue des méta-poids spécifiques à chaque échantillon pour l'objectif d'optimisation, équilibrant dynamiquement la qualité et la distribution des données en ligne et hors ligne. Les expériences sur AlpacaEval 2, Arena-Hard et MT-Bench démontrent que MetaAPO surpasse systématiquement les approches existantes d'optimisation des préférences dans divers contextes, tout en réduisant de 42 % les coûts d'annotation en ligne.
Cet article présente MathBode, un diagnostic dynamique pour le raisonnement mathématique dans les grands modèles de langage (LLMs). Plutôt que de se focaliser sur la précision en une seule étape, MathBode traite chaque problème paramétrique comme un système : nous modulons sinusoïdalement un seul paramètre et ajustons les réponses de premier harmonique des sorties du modèle et des solutions exactes. Cela produit des métriques interprétables et résolues en fréquence — gain (suivi d'amplitude) et phase (décalage) — qui forment des empreintes de style Bode. À travers cinq familles de problèmes en forme close (résolution linéaire, rapport/saturation, intérêt composé, systèmes linéaires 2x2, triangles similaires), le diagnostic révèle un comportement systématique de type passe-bas et un décalage de phase croissant que la précision seule masque. Nous comparons plusieurs modèles à une référence symbolique qui étalonne l'instrument (G ≈ 1, φ ≈ 0). Les résultats distinguent les modèles de pointe des modèles intermédiaires sur la dynamique, fournissant un protocole compact et reproductible qui complète les benchmarks standards avec des mesures actionnables de fidélité et de cohérence du raisonnement. Nous mettons à disposition le jeu de données et le code en open source pour permettre des recherches approfondies et une adoption plus large.
L'apprentissage par renforcement (Reinforcement Learning, RL) est devenu un paradigme central pour faire progresser les modèles de langage de grande taille (Large Language Models, LLMs), où le pré-entraînement et le post-entraînement par RL partagent la même formulation de log-vraisemblance. En revanche, les approches récentes de RL pour les modèles de diffusion, notamment l'optimisation de politique par débruitage (Denoising Diffusion Policy Optimization, DDPO), optimisent un objectif différent de ceux du pré-entraînement—la perte d'appariement de score/flux. Dans ce travail, nous établissons une nouvelle analyse théorique : DDPO est une forme implicite d'appariement de score/flux avec des cibles bruitées, ce qui augmente la variance et ralentit la convergence. Sur la base de cette analyse, nous introduisons l'appariement pondéré par avantage (Advantage Weighted Matching, AWM), une méthode de gradient de politique pour la diffusion. Elle utilise la même perte d'appariement de score/flux que le pré-entraînement pour obtenir un objectif à variance réduite et repondère chaque échantillon par son avantage. En pratique, AWM augmente l'influence des échantillons à haute récompense et supprime ceux à faible récompense tout en maintenant l'objectif de modélisation identique au pré-entraînement. Cela unifie conceptuellement et pratiquement le pré-entraînement et le RL, est cohérent avec la théorie du gradient de politique, réduit la variance et permet une convergence plus rapide. Cette conception simple mais efficace offre des avantages substantiels : sur les benchmarks GenEval, OCR et PickScore, AWM offre jusqu'à une accélération de 24 fois par rapport à Flow-GRPO (qui s'appuie sur DDPO), lorsqu'il est appliqué à Stable Diffusion 3.5 Medium et FLUX, sans compromettre la qualité de génération. Le code est disponible à l'adresse https://github.com/scxue/advantage_weighted_matching.
Les images structurées (par exemple, les graphiques et les diagrammes géométriques) restent un défi pour les modèles de langage multimodaux de grande envergure (MLLMs), car les erreurs de perception peuvent entraîner des conclusions erronées. Des indices visuels intermédiaires peuvent orienter le raisonnement ; cependant, les méthodes existantes basées sur ces indices sont limitées par un traitement d'image de faible fidélité et des schémas de raisonnement linéaires et rigides, ce qui réduit leur efficacité sur des tâches complexes impliquant des images structurées. Dans cet article, nous proposons PixelCraft, un nouveau système multi-agent pour un traitement d'image haute fidélité et un raisonnement visuel flexible sur des images structurées. Le système comprend un répartiteur, un planificateur, un raisonneur, des critiques et un ensemble d'agents d'outils visuels. Pour atteindre un traitement haute fidélité, nous construisons un corpus de haute qualité et affinons un MLLM en un modèle d'ancrage, dont les localisations au niveau des pixels sont intégrées à des algorithmes traditionnels de vision par ordinateur (CV) dans les agents d'outils. Sur cette base, PixelCraft facilite un raisonnement visuel flexible grâce à un flux de travail dynamique en trois étapes : sélection d'outils, discussion entre agents et auto-critique. De plus, contrairement aux schémas de raisonnement linéaires antérieurs qui se contentent d'ajouter des images historiques, PixelCraft maintient une mémoire d'images permettant au planificateur de revisiter de manière adaptative les étapes visuelles précédentes, d'explorer des branches de raisonnement alternatives et d'ajuster dynamiquement la trajectoire de raisonnement pendant la discussion. Des expériences approfondies sur des benchmarks complexes de graphiques et de géométrie démontrent que PixelCraft améliore significativement les performances de raisonnement visuel pour les MLLMs avancés, établissant une nouvelle norme pour le raisonnement sur les images structurées. Notre code sera disponible à l'adresse https://github.com/microsoft/PixelCraft.
La modélisation vidéo unifiée qui combine les capacités de génération et de compréhension devient de plus en plus importante, mais elle est confrontée à deux défis majeurs : maintenir la fidélité sémantique lors de la génération basée sur le flux en raison du déséquilibre entre les tokens textuels et visuels, ainsi que les limitations de l'attention intermodale uniforme tout au long de la trajectoire du flux, et étendre efficacement les modèles de langage multimodaux (MLLM) centrés sur l'image à la vidéo sans nécessiter un réentraînement coûteux. Nous présentons UniVid, une architecture unifiée qui couple un MLLM avec un décodeur de diffusion via un adaptateur léger, permettant à la fois la compréhension et la génération de vidéos. Nous introduisons l'alignement modal par température pour améliorer l'adhésion aux prompts et la réflexion pyramidale pour un raisonnement temporel efficace via la sélection dynamique d'images clés. Des expériences approfondies sur des benchmarks standards démontrent des performances de pointe, avec une amélioration de 2,2 % sur le score total de VBench-Long par rapport à EasyAnimateV5.1, et des gains de précision de 1,0 % et 3,3 % sur MSVD-QA et ActivityNet-QA, respectivement, par rapport aux meilleurs modèles de référence antérieurs de 7 milliards de paramètres.
L'évolutivité a été un moteur des récents progrès en modélisation générative, mais ses principes restent peu explorés dans le cadre de l'apprentissage adversarial. Nous étudions l'évolutivité des réseaux antagonistes génératifs (GANs) à travers deux choix de conception qui se sont avérés efficaces dans d'autres types de modèles génératifs : l'entraînement dans un espace latent compact de type Variational Autoencoder et l'adoption de générateurs et discriminateurs basés exclusivement sur des transformeurs. L'entraînement dans l'espace latent permet un calcul efficace tout en préservant la fidélité perceptuelle, et cette efficacité s'associe naturellement avec des transformeurs simples, dont les performances évoluent avec le budget de calcul. En nous appuyant sur ces choix, nous analysons les modes d'échec qui émergent lors d'une mise à l'échelle naïve des GANs. Plus précisément, nous identifions des problèmes tels que la sous-utilisation des couches initiales du générateur et l'instabilité de l'optimisation à mesure que le réseau grandit. En conséquence, nous proposons des solutions simples et adaptées à la mise à l'échelle, comme une supervision intermédiaire légère et un ajustement du taux d'apprentissage en fonction de la largeur du réseau. Nos expériences montrent que GAT, un GAN basé exclusivement sur des transformeurs et opérant dans l'espace latent, peut être entraîné de manière fiable sur une large gamme de capacités (de S à XL). De plus, GAT-XL/2 atteint des performances de pointe en génération conditionnelle par classe en une seule étape (FID de 2,96) sur ImageNet-256 en seulement 40 époques, soit 6 fois moins d'époques que les modèles de référence.
La quête d'agents artificiels capables d'apprendre à maîtriser des environnements complexes a conduit à des succès remarquables, mais les méthodes dominantes d'apprentissage par renforcement profond reposent souvent sur une expérience immense, encodant leurs connaissances de manière opaque dans les poids des réseaux de neurones. Nous proposons un paradigme différent, dans lequel un agent apprend à jouer en raisonnant et en planifiant. Nous introduisons Cogito, ergo ludo (CEL), une architecture d'agent novatrice qui exploite un modèle de langage de grande taille (LLM) pour construire une compréhension explicite, basée sur le langage, des mécanismes de son environnement et de sa propre stratégie. Partant d'un état de tabula rasa sans connaissance préalable (à l'exception de l'ensemble des actions), CEL fonctionne selon un cycle d'interaction et de réflexion. Après chaque épisode, l'agent analyse sa trajectoire complète pour effectuer deux processus d'apprentissage simultanés : l'Induction de Règles, où il affine son modèle explicite de la dynamique de l'environnement, et la Synthèse de Stratégie et de Playbook, où il distille ses expériences en un playbook stratégique actionnable. Nous évaluons CEL sur diverses tâches de monde en grille (c'est-à-dire, Démineur, Lac Gelé et Sokoban), et montrons que l'agent CEL apprend avec succès à maîtriser ces jeux en découvrant de manière autonome leurs règles et en développant des politiques efficaces à partir de récompenses éparses. Des études d'ablation confirment que le processus itératif est crucial pour un apprentissage soutenu. Notre travail démontre une voie vers des agents plus généraux et interprétables qui non seulement agissent efficacement, mais construisent également un modèle transparent et amélioré de leur monde grâce à un raisonnement explicite sur l'expérience brute.
Le déploiement croissant d'agents basés sur des modèles de langage de grande taille (LLM) interagissant avec des environnements externes a créé de nouvelles surfaces d'attaque pour la manipulation malveillante. Une menace majeure est l'injection indirecte de prompts, où les attaquants intègrent des instructions malveillantes dans les sorties de l'environnement externe, incitant les agents à les interpréter et à les exécuter comme s'il s'agissait de prompts légitimes. Alors que les recherches précédentes se sont principalement concentrées sur les attaques par injection en texte brut, nous identifions une vulnérabilité importante mais peu explorée : la dépendance des LLM aux modèles de chat structurés et leur sensibilité à la manipulation contextuelle via des dialogues persuasifs en plusieurs tours. À cette fin, nous introduisons ChatInject, une attaque qui formate des charges utiles malveillantes pour imiter les modèles de chat natifs, exploitant ainsi les tendances naturelles des modèles à suivre les instructions. Sur cette base, nous développons une variante Multi-tours axée sur la persuasion, qui prépare l'agent au fil des tours de conversation à accepter et exécuter des actions autrement suspectes. À travers des expériences approfondies sur des LLM de pointe, nous démontrons trois résultats critiques : (1) ChatInject atteint des taux de réussite d'attaque moyens significativement plus élevés que les méthodes traditionnelles d'injection de prompts, passant de 5,18 % à 32,05 % sur AgentDojo et de 15,13 % à 45,90 % sur InjecAgent, avec des dialogues multi-tours montrant une performance particulièrement forte à un taux de réussite moyen de 52,33 % sur InjecAgent, (2) les charges utiles basées sur des modèles de chat démontrent une forte transférabilité entre les modèles et restent efficaces même contre des LLM propriétaires, malgré leurs structures de modèles inconnues, et (3) les défenses existantes basées sur les prompts sont largement inefficaces contre cette approche d'attaque, en particulier contre les variantes Multi-tours. Ces résultats mettent en lumière les vulnérabilités des systèmes d'agents actuels.
Wikipedia est le plus grand corpus de connaissances ouvert, largement utilisé dans le monde entier et servant de ressource clé pour l'entraînement des grands modèles de langage (LLM) et des systèmes de génération augmentée par la recherche d'information (RAG). Assurer son exactitude est donc crucial. Mais à quel point Wikipedia est-il précis, et comment pouvons-nous l'améliorer ? Nous nous concentrons sur les incohérences, un type spécifique d'inexactitude factuelle, et introduisons la tâche de détection d'incohérences au niveau du corpus. Nous présentons CLAIRE, un système agentique qui combine le raisonnement des LLM avec la recherche d'information pour identifier des affirmations potentiellement incohérentes ainsi que des preuves contextuelles pour une revue humaine. Dans une étude utilisateur avec des éditeurs expérimentés de Wikipedia, 87,5 % ont rapporté une confiance accrue lors de l'utilisation de CLAIRE, et les participants ont identifié 64,7 % d'incohérences supplémentaires dans le même laps de temps. En combinant CLAIRE avec l'annotation humaine, nous contribuons WIKICOLLIDE, le premier benchmark d'incohérences réelles de Wikipedia. En utilisant un échantillonnage aléatoire avec une analyse assistée par CLAIRE, nous constatons qu'au moins 3,3 % des faits de l'édition anglaise de Wikipedia contredisent un autre fait, avec des incohérences se propageant dans 7,3 % des exemples de FEVEROUS et 4,0 % de ceux d'AmbigQA. L'évaluation de modèles de référence solides sur cet ensemble de données révèle une marge d'amélioration substantielle : le meilleur système entièrement automatisé atteint une AUROC de seulement 75,1 %. Nos résultats montrent que les contradictions sont une composante mesurable de Wikipedia et que les systèmes basés sur les LLM comme CLAIRE peuvent fournir un outil pratique pour aider les éditeurs à améliorer la cohérence des connaissances à grande échelle.
La navigation guidée par le langage et orientée vers un objectif nécessite des capacités d'exploration robustes pour que les agents puissent se déplacer vers des cibles spécifiées dans des environnements inconnus sans instructions étape par étape. Les méthodes existantes ont tendance à utiliser exclusivement des trajectoires de plus court chemin, manquant de préalables d'exploration efficaces pour entraîner les agents de navigation. Pour relever ces défis, nous présentons SID, une approche d'apprentissage de la navigation guidée par le langage et orientée vers un objectif avec des Démonstrations Auto-Améliorantes. Concrètement, SID apprend un agent initial sur des données de plus court chemin échantillonnées dans les environnements, puis exploite cet agent pour générer de nouvelles trajectoires d'exploration. Ces nouvelles trajectoires fournissent des démonstrations avec des stratégies d'exploration plus solides pour entraîner un meilleur agent, qui à son tour produit des démonstrations de meilleure qualité pour le prochain cycle d'entraînement. Nous montrons que ce pipeline itératif d'auto-amélioration s'adapte facilement à de nouveaux environnements, et que les démonstrations résultantes peuvent être transférées à travers une variété de tâches de navigation guidée par le langage, élevant le plafond de performance dans diverses tâches de navigation orientée vers un objectif. Des expériences approfondies démontrent que SID améliore significativement les capacités d'exploration et la généralisation des agents de navigation. L'agent résultant atteint de nouvelles performances de pointe dans les tâches de navigation guidée par le langage et orientée vers un objectif, notamment REVERIE et SOON, atteignant un taux de réussite de 50,9 % sur les ensembles de validation inédits de SOON, surpassant les approches précédentes de 13,9 %.
Les progrès rapides des modèles multimodaux de grande taille (LMMs) et des agents d'IA basés sur le cloud transforment la collaboration humain-IA en une interaction bidirectionnelle et multimodale. Cependant, les codecs existants restent optimisés pour une communication unidirectionnelle et unimodale, entraînant une dégradation répétée dans les pipelines conventionnels de compression-transmission-reconstruction. Pour pallier cette limitation, nous proposons UniMIC, un cadre de codage interactif multimodal unifié basé sur des tokens, qui relie les appareils périphériques et les agents d'IA cloud. Au lieu de transmettre des pixels bruts ou du texte brut, UniMIC utilise des représentations tokenisées compactes comme support de communication, permettant une transmission efficace à faible débit tout en maintenant la compatibilité avec les LMMs. Pour améliorer encore la compression, des modèles d'entropie légers basés sur des Transformers, conçus spécifiquement pour différents scénarios—génériques, masqués et conditionnés par le texte—réduisent efficacement la redondance inter-tokens. Des expériences approfondies sur la génération d'images à partir de texte, l'inpainting guidé par le texte, l'outpainting et la réponse à des questions visuelles montrent qu'UniMIC permet des économies substantielles de débit et reste robuste même à des débits ultra-faibles (<0,05 bpp), sans compromettre les performances des tâches en aval. Ces résultats établissent UniMIC comme un paradigme pratique et tourné vers l'avenir pour la communication interactive multimodale de nouvelle génération.
Lors de l'édition directe à partir de la réalité, les photographes ont trouvé trop difficile de percevoir simultanément à la fois le bleu et le ciel. Le photographe et conservateur Szarkowski a révélé de manière perspicace l'un des écarts notables entre la compréhension visuelle générale et esthétique : tandis que la première se concentre sur l'identification de l'élément factuel dans une image (le ciel), la seconde transcende une telle identification d'objet, la considérant plutôt comme un composant esthétique – un bloc de couleur pure (le bleu). Ces distinctions fondamentales entre la compréhension visuelle générale (détection, localisation, etc.) et esthétique (couleur, éclairage, composition, etc.) représentent un défi majeur pour les Modèles de Langage Multimodaux à Grande Échelle (MLLMs). Bien que certains travaux récents aient effectué des explorations initiales, ils se limitent souvent à des notions générales et basiques de sens esthétique. Par conséquent, ils échouent fréquemment dans des scénarios réels (Fig. 1), qui nécessitent une expertise approfondie – incluant des techniques photographiques, des connaissances en pré/post-traitement de photos, et plus encore – pour fournir une analyse et une description détaillées. Pour améliorer fondamentalement la compréhension esthétique des MLLMs, nous introduisons d'abord un nouveau jeu de données, PhotoCritique, dérivé de discussions approfondies entre photographes professionnels et amateurs, et caractérisé par son ampleur, son expertise et sa diversité. Ensuite, pour mieux apprendre l'esthétique visuelle à partir de PhotoCritique, nous proposons en outre un nouveau modèle, PhotoEye, doté d'un mécanisme de fusion de vision multi-vues guidé par le langage pour comprendre l'esthétique des images sous plusieurs perspectives. Enfin, nous présentons un nouveau benchmark, PhotoBench, un benchmark complet et professionnel pour la compréhension esthétique visuelle. Sur les benchmarks existants et sur PhotoBench, notre modèle démontre des avantages clairs par rapport aux modèles existants.
Le développement piloté par les tests (Test-Driven Development, TDD) est une pratique largement adoptée en ingénierie logicielle qui exige des développeurs de créer et d'exécuter des tests parallèlement à l'implémentation du code, garantissant ainsi que le comportement du logiciel est continuellement validé et affiné. À l'ère du "vibe coding", où les développeurs délègent de plus en plus l'écriture du code à des modèles de langage de grande taille (LLMs) en spécifiant des intentions de haut niveau, le TDD devient encore plus crucial, car les cas de test servent de spécifications exécutables qui définissent et vérifient explicitement la fonctionnalité souhaitée, au-delà de ce que les descriptions en langage naturel et le contexte du code peuvent exprimer. Bien que le "vibe coding" sous TDD soit prometteur, il existe trois défis principaux : (1) sélectionner une suite de tests petite mais efficace pour améliorer la précision de la génération et contrôler la charge d'exécution, (2) récupérer efficacement le contexte, tel que le code pertinent, et (3) utiliser systématiquement les retours des tests pour un affinement efficace du code. Pour relever ces défis, nous présentons TENET, un agent LLM dédié à la génération de fonctions dans des dépôts complexes du monde réel dans un cadre TDD. TENET se compose de trois éléments : (1) un mécanisme innovant de harnais de test qui sélectionne une suite de tests concise pour maximiser la diversité des scénarios d'utilisation cibles ; (2) un ensemble d'outils d'agent personnalisé qui effectue une récupération efficace du code pertinent avec un débogage interactif ; et (3) un workflow d'affinement basé sur la réflexion qui analyse itérativement les échecs, complète le contexte et applique l'affinement du code. TENET atteint respectivement 69,08 % et 81,77 % de Pass@1 sur les benchmarks RepoCod et RepoEval, surpassant les meilleurs agents de référence de 9,49 et 2,17 points de pourcentage. De plus, il s'agit de la première étude sur la génération de code pilotée par les tests avec un contexte au niveau du dépôt, examinant comment différents aspects des suites de tests affectent les performances des agents LLM dans un cadre TDD.
Cet article présente BPMN Assistant, un outil qui exploite les modèles de langage de grande taille (LLMs) pour la création et la modification de diagrammes BPMN basées sur le langage naturel. Une représentation spécialisée basée sur JSON est introduite comme alternative structurée à la manipulation directe de XML, afin d'améliorer la précision des modifications de processus. La qualité de la génération des processus est évaluée à l'aide de la Distance d'Édition de Graphe (GED) et de la Distance d'Édition de Graphe Relative (RGED), tandis que la performance des modifications est évaluée avec une métrique de succès binaire. Les résultats montrent que JSON et XML obtiennent des scores de similarité comparables en génération, mais JSON offre une plus grande fiabilité, un traitement plus rapide et des taux de succès significativement plus élevés pour les modifications. Nous discutons des compromis clés, des limitations et des améliorations futures. L'implémentation est disponible à l'adresse https://github.com/jtlicardo/bpmn-assistant.
Les données appariées RGB-thermiques sont essentielles pour la fusion de capteurs visuels-thermiques et les tâches de cross-modalité, incluant des applications importantes telles que l'alignement et la recherche d'images multi-modales. Cependant, la rareté de paires d'images RGB-thermiques synchronisées et calibrées constitue un obstacle majeur aux progrès dans ces domaines. Pour surmonter ce défi, la traduction d'images RGB vers thermique (RGB-T) est apparue comme une solution prometteuse, permettant la synthèse d'images thermiques à partir de jeux de données RGB abondants à des fins d'entraînement. Dans cette étude, nous proposons ThermalGen, un modèle génératif basé sur des flux adaptatifs pour la traduction d'images RGB-T, intégrant une architecture de conditionnement d'images RGB et un mécanisme de séparation de style. Pour soutenir un entraînement à grande échelle, nous avons constitué huit jeux de données publics appariés RGB-T issus de satellites, de prises de vue aériennes et de prises de vue au sol, et avons introduit trois nouveaux jeux de données RGB-T à grande échelle issus de satellites et de prises de vue aériennes—DJI-day, Bosonplus-day et Bosonplus-night—capturés à différents moments, avec différents types de capteurs et dans diverses régions géographiques. Des évaluations approfondies sur plusieurs benchmarks RGB-T démontrent que ThermalGen atteint des performances de traduction comparables ou supérieures à celles des méthodes existantes basées sur les GAN et la diffusion. À notre connaissance, ThermalGen est le premier modèle de traduction d'images RGB-T capable de synthétiser des images thermiques reflétant des variations significatives de points de vue, de caractéristiques des capteurs et de conditions environnementales. Page du projet : http://xjh19971.github.io/ThermalGen
Les systèmes d'intelligence artificielle (IA), et en particulier les modèles de langage de grande taille (LLM), sont de plus en plus utilisés pour des tâches créatives telles que la génération d'idées scientifiques, constituant ainsi une forme de généralisation à partir de données d'entraînement qui n'est pas abordée par les cadres conceptuels existants. Bien qu'elle présente des similitudes avec la généralisation compositionnelle (CG), la créativité combinatoire (CC) est une capacité ouverte. Plutôt que d'évaluer la précision ou l'exactitude par rapport à des cibles fixes, ce qui contredirait la nature ouverte de la CC, nous proposons un cadre théorique et une tâche algorithmique pour évaluer les productions en fonction de leur degré de nouveauté et d'utilité. À partir de là, nous apportons plusieurs contributions empiriques importantes : (1) Nous obtenons les premiers aperçus du comportement de mise à l'échelle de la créativité pour les LLM. (2) Nous découvrons que, pour des budgets de calcul fixes, il existe des profondeurs et des largeurs optimales de modèles pour la capacité créative. (3) Nous constatons que l'écart entre l'idéation et l'exécution, où les LLM excellent à générer des idées scientifiques novatrices mais peinent à en assurer la faisabilité pratique, pourrait s'expliquer par un compromis plus fondamental entre nouveauté et utilité, caractéristique des algorithmes de créativité en général. De manière cruciale, ce compromis persiste même à grande échelle, jetant un doute sur le potentiel créatif à long terme des LLM dans leur forme actuelle. Ensemble, notre cadre conceptuel et nos résultats empiriques fournissent une base pour comprendre et améliorer la créativité dans les modèles d'IA modernes, comblant ainsi l'écart entre l'intelligence humaine et l'intelligence artificielle.
Prédire la mobilité humaine est intrinsèquement complexe en raison des dépendances à longue portée et des comportements périodiques multi-échelles. Pour y remédier, nous présentons RHYTHM (Reasoning with Hierarchical Temporal Tokenization for Human Mobility), un cadre unifié qui exploite les grands modèles de langage (LLMs) comme prédicteurs spatio-temporels polyvalents et raisonneurs de trajectoires. Méthodologiquement, RHYTHM utilise une tokenisation temporelle pour diviser chaque trajectoire en segments quotidiens et les encoder en tokens discrets avec une attention hiérarchique qui capture à la fois les dépendances quotidiennes et hebdomadaires, réduisant ainsi significativement la longueur des séquences tout en préservant les informations cycliques. De plus, nous enrichissons les représentations des tokens en ajoutant des embeddings de prompts pré-calculés pour les segments de trajectoire et les cibles de prédiction via un LLM figé, puis en réinjectant ces embeddings combinés dans le cœur du LLM pour capturer les interdépendances complexes. Sur le plan computationnel, RHYTHM fige le cœur pré-entraîné du LLM pour réduire la complexité de l'attention et les coûts mémoire. Nous évaluons notre modèle par rapport aux méthodes de pointe sur trois jeux de données réels. Notamment, RHYTHM obtient une amélioration de 2,4 % en précision globale, une augmentation de 5,0 % les week-ends, et une réduction de 24,6 % du temps d'entraînement. Le code est disponible publiquement à l'adresse https://github.com/he-h/rhythm.
La capacité à résumer de manière concise des documents longs est de plus en plus importante dans la vie quotidienne en raison de la surcharge d'information. Cependant, il existe un manque notable de tels résumés pour les documents en espagnol en général, et dans le domaine juridique en particulier. Dans ce travail, nous présentons BOE-XSUM, un ensemble de données soigneusement constitué comprenant 3 648 résumés concis et rédigés en langage clair de documents provenant du « Boletín Oficial del Estado » (BOE), le Journal Officiel de l'État espagnol. Chaque entrée de l'ensemble de données comprend un résumé court, le texte original et son étiquette de type de document. Nous évaluons la performance de modèles de langage de grande taille (LLMs) de taille moyenne, affinés sur BOE-XSUM, en les comparant à des modèles génératifs polyvalents dans un contexte de zero-shot. Les résultats montrent que les modèles affinés surpassent significativement leurs homologues non spécialisés. Notamment, le modèle le plus performant — BERTIN GPT-J 6B (précision 32 bits) — obtient un gain de performance de 24 % par rapport au meilleur modèle zero-shot, DeepSeek-R1 (précisions de 41,6 % contre 33,5 %).
Comprendre comment les grands modèles de langage (LLMs) effectuent des raisonnements complexes et identifier leurs mécanismes d'échec constitue un défi majeur dans la recherche sur l'interprétabilité. Pour offrir une perspective d'analyse géométrique mesurable, nous définissons le concept de **Variété de Raisonnement**, une structure géométrique latente de faible dimension formée par les représentations internes correspondant à toutes les générations correctement raisonnées. Cette structure peut être conceptualisée comme l'incarnation des chemins de pensée efficaces que le modèle a appris à suivre pour résoudre avec succès une tâche donnée. Sur la base de ce concept, nous construisons **REMA**, un cadre qui explique les origines des échecs en comparant quantitativement les relations spatiales des représentations internes du modèle correspondant à des échantillons de raisonnement erronés et corrects. Concrètement, REMA quantifie d'abord la déviation géométrique de chaque représentation erronée en calculant la distance de ses k-plus proches voisins par rapport à la variété approximée formée par les représentations correctes, fournissant ainsi un signal d'échec unifié. Il localise ensuite les points de divergence où ces déviations deviennent significatives en suivant cette métrique de déviation à travers les couches du modèle et en la comparant à une base de fluctuations internes issues des représentations correctes, identifiant ainsi où la chaîne de raisonnement commence à dévier. Nos expériences approfondies sur divers modèles de langage et multimodaux, ainsi que sur différentes tâches, démontrent la nature de faible dimension de la variété de raisonnement et la forte séparabilité entre les représentations de raisonnement erronées et correctes. Les résultats valident également l'efficacité du cadre REMA dans l'analyse des origines des échecs de raisonnement. Cette recherche relie les échecs de raisonnement abstraits à des déviations géométriques mesurables dans les représentations, ouvrant de nouvelles voies pour une compréhension approfondie et un diagnostic des processus de calcul internes des modèles boîte noire.
Les modèles de raisonnement à grande échelle (Large Reasoning Models, LRMs) ont démontré des capacités remarquables dans la résolution de problèmes complexes grâce au raisonnement en chaîne de pensée (Chain-of-Thought, CoT). Cependant, la nature multi-étapes du CoT introduit de nouveaux défis en matière de sécurité qui vont au-delà de l'alignement conventionnel des modèles de langage. Nous identifions un mode de défaillance dans les méthodes actuelles de réglage de sécurité du CoT : l'effet boule de neige, où des écarts mineurs dans le raisonnement s'amplifient progressivement tout au long du processus de pensée, conduisant soit à une conformité nuisible, soit à un refus excessif. Cet effet découle du fait que les modèles sont entraînés à imiter des scripts de raisonnement parfaits sans apprendre à s'autocorriger. Pour pallier cette limitation, nous proposons AdvChain, un paradigme d'alignement qui enseigne aux modèles l'autocorrection dynamique via un réglage adversarial du CoT. Notre méthode consiste à construire un ensemble de données contenant des échantillons de Tentation-Correction et Hésitation-Correction, où les modèles apprennent à se rétablir après des dérives de raisonnement nuisibles et des précautions inutiles. Des expériences approfondies montrent qu'AdvChain améliore significativement la robustesse contre les attaques de jailbreak et le détournement du CoT, tout en réduisant considérablement le sur-refus sur des invites bénignes, atteignant ainsi un équilibre supérieur entre sécurité et utilité sans compromettre les capacités de raisonnement. Notre travail établit une nouvelle direction pour la construction de modèles de raisonnement plus robustes et fiables.
Au cours de la dernière décennie, la Linguistique Informatique (LI) et le Traitement Automatique des Langues (TAL) ont évolué rapidement, notamment avec l’émergence des modèles de langage de grande taille (LLMs) basés sur les Transformers. Ce changement a redéfini les objectifs et les priorités de la recherche, passant des ressources lexicales et sémantiques à la modélisation du langage et à la multimodalité. Dans cette étude, nous retraçons les tendances de recherche de la communauté italienne en LI et TAL à travers une analyse des contributions à CLiC-it, considéré comme la conférence italienne de référence dans ce domaine. Nous avons compilé les actes des 10 premières éditions de la conférence CLiC-it (de 2014 à 2024) dans le Corpus CLiC-it, offrant une analyse approfondie à la fois de ses métadonnées, incluant la provenance des auteurs, leur genre, leurs affiliations, et plus encore, ainsi que du contenu des articles eux-mêmes, qui abordent divers sujets. Notre objectif est de fournir aux communautés de recherche italienne et internationale des insights précieux sur les tendances émergentes et les développements clés au fil du temps, soutenant ainsi des décisions éclairées et des orientations futures dans le domaine.
Nous présentons ADAM (A Diverse Archive of Mankind), un cadre pour évaluer et améliorer les modèles de langage multimodaux de grande envergure (MLLMs) dans le raisonnement biographique. À notre connaissance, il s’agit du premier travail à examiner systématiquement les capacités des LLM dans le domaine des biographies, une dimension critique mais peu explorée des connaissances factuelles. Au cœur de ce projet, AdamDB est un ensemble de données multilingue et multimodal couvrant plus de 4 millions d’individus à travers la géographie, le temps et les professions, tandis qu’AdamBench propose des évaluations structurées cognitivement basées sur la taxonomie de Bloom, couvrant six niveaux de raisonnement en anglais et dans les langues natives. Pour lutter contre les hallucinations, en particulier pour les individus moins connus, nous proposons AdamRAG, un système de génération augmentée par la recherche (RAG) adapté aux contextes biographiques. Les expériences montrent qu’AdamRAG améliore considérablement les modèles open-source et apporte des bénéfices modestes aux modèles closed-source, avec les gains les plus importants sur les raisonnements de niveau inférieur. La popularité influence fortement la précision, et l’apport multimodal via des images faciales offre des améliorations plus faibles et moins cohérentes que la recherche. ADAM établit le premier benchmark et cadre d’évaluation biographique ancré cognitivement, culturellement et multimodalement, favorisant le développement de MLLMs multilingues, précis et résistants aux hallucinations.
La génération d'estimations de confiance précises et calibrées est essentielle pour le déploiement des LLM (modèles de langage de grande taille) dans des applications à enjeux élevés ou destinées aux utilisateurs, et reste un défi ouvert. Les recherches antérieures ont souvent abordé la confiance comme un problème d'élicitation de la « connaissance de soi » d'un modèle, c'est-à-dire la capacité d'un LLM à juger si ses propres réponses sont correctes ; cette approche suppose implicitement qu'il existe une information privilégiée sur la justesse de la réponse, accessible au modèle lui-même. Cependant, nos expériences révèlent qu'un LLM tentant de prédire la justesse de ses propres sorties ne performe généralement pas mieux qu'un LLM non lié. De plus, nous émettons l'hypothèse qu'un facteur clé dans la construction d'un « Modèle de Justesse » (Correctness Model, CM) est l'exposition aux prédictions historiques d'un modèle cible. Nous proposons plusieurs méthodes pour injecter cette information historique de justesse, créant ainsi un Modèle de Justesse Généralisé (Generalized Correctness Model, GCM). Nous montrons d'abord que les GCM peuvent être entraînés sur des données de justesse provenant de nombreux LLM et apprendre des motifs de prédiction de justesse applicables à travers différents jeux de données et modèles. Nous utilisons ensuite les CM comme un prisme pour étudier la source de la capacité de prédiction de justesse et sa généralisation, en contrôlant systématiquement leurs données d'entraînement et en constatant que la formulation des réponses est un prédicteur fort de la justesse. Nous explorons également des méthodes alternatives d'injection d'historique sans entraîner un LLM, en constatant que l'inclusion de l'historique comme exemples en contexte peut améliorer la prédiction de justesse, et qu'une calibration post-hoc peut fournir des réductions complémentaires de l'erreur de calibration. Nous évaluons les GCM basés sur Qwen3-8B à travers 5 familles de modèles ainsi que les jeux de données MMLU et TriviaQA, ainsi que sur une tâche de prédiction sélective en aval, en concluant que l'estimation fiable de la confiance des LLM est une compétence généralisable et indépendante du modèle, apprise par l'encodage systématique de l'historique de justesse, plutôt qu'une compétence spécifique au modèle reposant sur l'introspection.
Les légendes vidéo offrent des aperçus concis des acteurs, objets et actions présents dans une vidéo, constituant ainsi des ressources précieuses pour des applications telles que la réponse à des questions et la localisation d'événements. Cependant, l'acquisition d'annotations humaines pour les légendes vidéo est coûteuse, voire impraticable, en particulier lorsqu'il s'agit de domaines vidéo variés. Les modèles existants entraînés sur des ensembles de données supervisés rencontrent des difficultés pour évaluer leurs performances à travers différents domaines en raison de leur dépendance à des protocoles d'évaluation basés sur des références, qui nécessitent des légendes de référence. Cette hypothèse est irréaliste pour évaluer des vidéos dans des contextes réels. Pour surmonter ces limitations, nous proposons un cadre d'évaluation sans référence qui ne nécessite pas de légendes de référence, en se concentrant sur l'ancrage factuel pour garantir une évaluation précise de la qualité des légendes. Nous introduisons VC-Inspector, un nouvel évaluateur de qualité de légendes à la fois sans référence et ancré dans les faits. En utilisant des modèles de langage de grande taille, nous générons des légendes pseudo-référentielles de qualité variable basées sur des données supervisées, qui sont ensuite utilisées pour entraîner un modèle multimodal (c'est-à-dire Qwen2.5-VL) en tant qu'évaluateur. Notre approche démontre une meilleure concordance avec les jugements humains sur l'ensemble de données VATEX-Eval, surpassant les méthodes existantes. Les performances se généralisent également aux ensembles de données de légendes d'images, Flickr8K-Expert et Flickr8K-CF, lorsque les images sont considérées comme des vidéos d'une seule image. Globalement, VC-Inspector offre une solution évolutive et généralisable pour évaluer la précision factuelle des légendes vidéo, ouvrant la voie à des méthodologies d'évaluation plus efficaces et objectives dans divers domaines vidéo.
L'apprentissage par renforcement avec contrôle optimal stochastique offre un cadre prometteur pour le réglage fin de modèles de diffusion, où un modèle de diffusion pré-entraîné est optimisé pour générer des trajectoires menant à une distribution biaisée par une récompense. Bien que ces approches permettent une optimisation sans accès à des échantillons explicites de la distribution optimale, elles nécessitent un entraînement sur des déploiements sous le modèle actuellement réglé, les rendant vulnérables au renforcement de trajectoires sous-optimales produisant de faibles récompenses. Pour surmonter ce défi, nous introduisons TRee Search Guided TRajectory-Aware Fine-Tuning for Discrete Diffusion (TR2-D2), un nouveau cadre qui optimise les trajectoires de diffusion discrète guidées par récompense à l'aide de la recherche arborescente pour construire des mémoires tampons de rejeu destinées au réglage fin prenant en compte les trajectoires. Ces mémoires tampons sont générées à l'aide de la recherche arborescente de Monte Carlo (MCTS) et utilisées ensuite pour régler finement un modèle de diffusion discrète pré-entraîné sous un objectif de contrôle optimal stochastique. Nous validons notre cadre sur le réglage fin mono- et multi-objectif de modèles de diffusion de séquences biologiques, mettant en évidence l'efficacité globale de TR2-D2 pour un réglage fin fiable guidé par récompense dans la génération de séquences discrètes.