papers.description
La détection des hallucinations reste un défi fondamental pour le déploiement sûr et fiable des grands modèles de langage (LLMs), en particulier dans les applications nécessitant une exactitude factuelle. Les benchmarks existants pour la détection des hallucinations opèrent souvent au niveau de la séquence et se limitent à l'anglais, manquant ainsi de la supervision fine et multilingue nécessaire pour une évaluation complète. Dans ce travail, nous présentons PsiloQA, un jeu de données à grande échelle et multilingue annoté avec des hallucinations au niveau des segments dans 14 langues. PsiloQA est construit grâce à un pipeline automatisé en trois étapes : la génération de paires question-réponse à partir de Wikipédia en utilisant GPT-4o, l'obtention de réponses potentiellement hallucinées à partir de divers LLMs dans un contexte sans information, et l'annotation automatique des segments hallucinés en utilisant GPT-4o en les comparant aux réponses de référence et au contexte récupéré. Nous évaluons une large gamme de méthodes de détection des hallucinations — incluant la quantification de l'incertitude, le marquage basé sur les LLMs et les modèles encodeurs affinés — et montrons que les modèles basés sur des encodeurs obtiennent les meilleures performances à travers les langues. De plus, PsiloQA démontre une généralisation interlangue efficace et supporte un transfert de connaissances robuste vers d'autres benchmarks, tout en étant nettement plus rentable que les jeux de données annotés manuellement. Notre jeu de données et nos résultats font progresser le développement d'une détection d'hallucinations scalable et fine dans des contextes multilingues.
Récemment, l’apprentissage par renforcement agentique (Agentic RL) a réalisé des progrès significatifs dans l’incitation des capacités d’utilisation d’outils multi-tours et à long horizon des agents web. Bien que les algorithmes principaux de l’Agentic RL explorent de manière autonome les étapes d’appel d’outils à forte incertitude sous la guidance de l’entropie, une dépendance excessive aux signaux d’entropie peut imposer des contraintes supplémentaires, conduisant à un effondrement de l’entraînement. Dans cet article, nous examinons les défis causés par l’entropie et proposons l’Optimisation de Politique à Entropie Équilibrée Agentique (AEPO), un algorithme d’Agentic RL conçu pour équilibrer l’entropie à la fois dans les phases de déploiement et de mise à jour de la politique. AEPO comprend deux composants principaux : (1) un mécanisme de déploiement à entropie équilibrée dynamique qui alloue de manière adaptative le budget d’échantillonnage global et par branche grâce à une pré-surveillance de l’entropie, tout en imposant une pénalité de branche sur les étapes consécutives d’appel d’outils à haute entropie pour éviter les problèmes de sur-branchement ; et (2) l’Optimisation de Politique à Entropie Équilibrée qui insère une opération d’arrêt de gradient dans le terme de découpage à haute entropie pour préserver et redimensionner correctement les gradients sur les tokens à haute entropie, tout en intégrant une estimation d’avantage sensible à l’entropie pour prioriser l’apprentissage sur les tokens à forte incertitude. Les résultats sur 14 ensembles de données difficiles montrent que AEPO surpasse systématiquement 7 algorithmes de RL principaux. Avec seulement 1 000 échantillons de RL, Qwen3-14B avec AEPO obtient des résultats impressionnants : 47,6 % sur GAIA, 11,2 % sur Humanity's Last Exam et 43,0 % sur WebWalker pour Pass@1 ; 65,0 % sur GAIA, 26,0 % sur Humanity's Last Exam et 70,0 % sur WebWalker pour Pass@5. Une analyse approfondie révèle que AEPO améliore la diversité de l’échantillonnage de déploiement tout en maintenant une entropie de politique stable, facilitant ainsi l’entraînement scalable des agents web.
La génération cohérente d'identité est devenue un axe majeur dans la recherche sur la génération d'images à partir de texte, avec des modèles récents obtenant des succès notables dans la production d'images alignées avec une identité de référence. Cependant, la rareté de jeux de données appariés à grande échelle contenant plusieurs images d'une même personne contraint la plupart des approches à adopter un entraînement basé sur la reconstruction. Cette dépendance conduit souvent à un mode d'échec que nous appelons *copier-coller*, où le modèle reproduit directement le visage de référence plutôt que de préserver l'identité à travers des variations naturelles de pose, d'expression ou d'éclairage. Une telle sur-similarité compromet la contrôlabilité et limite la puissance expressive de la génération. Pour surmonter ces limitations, nous (1) construisons un jeu de données apparié à grande échelle, MultiID-2M, conçu pour des scénarios multi-personnes, fournissant des références diversifiées pour chaque identité ; (2) introduisons un benchmark qui quantifie à la fois les artefacts de copier-coller et le compromis entre fidélité à l'identité et variation ; et (3) proposons un nouveau paradigme d'entraînement avec une fonction de perte d'identité contrastive qui exploite les données appariées pour équilibrer fidélité et diversité. Ces contributions aboutissent à WithAnyone, un modèle basé sur la diffusion qui atténue efficacement le copier-coller tout en préservant une forte similarité d'identité. Des expériences qualitatives et quantitatives approfondies démontrent que WithAnyone réduit significativement les artefacts de copier-coller, améliore la contrôlabilité sur la pose et l'expression, et maintient une qualité perceptuelle élevée. Des études utilisateurs valident en outre que notre méthode atteint une haute fidélité d'identité tout en permettant une génération expressive et contrôlable.
À une époque où l'IA évolue d'un outil passif vers un compagnon actif et adaptatif, nous introduisons l'IA pour les services (AI4Service), un nouveau paradigme qui permet une assistance proactive et en temps réel dans la vie quotidienne. Les services d'IA existants restent largement réactifs, répondant uniquement aux commandes explicites des utilisateurs. Nous soutenons qu'un assistant véritablement intelligent et utile devrait être capable d'anticiper les besoins des utilisateurs et d'agir de manière proactive lorsque cela est approprié. Pour réaliser cette vision, nous proposons Alpha-Service, un cadre unifié qui aborde deux défis fondamentaux : Savoir Quand intervenir en détectant les opportunités de service à partir de flux vidéo égocentriques, et Savoir Comment fournir des services à la fois généralisés et personnalisés. Inspiré par l'architecture informatique de von Neumann et basé sur des lunettes intelligentes, Alpha-Service se compose de cinq éléments clés : une Unité d'Entrée pour la perception, une Unité Centrale de Traitement pour la planification des tâches, une Unité Arithmétique et Logique pour l'utilisation des outils, une Unité de Mémoire pour la personnalisation à long terme, et une Unité de Sortie pour une interaction humaine naturelle. En tant qu'exploration initiale, nous implémentons Alpha-Service à travers un système multi-agent déployé sur des lunettes intelligentes. Des études de cas, incluant un conseiller en temps réel pour le Blackjack, un guide de musée et un assistant d'essayage pour les achats, démontrent sa capacité à percevoir de manière fluide l'environnement, à déduire les intentions de l'utilisateur et à fournir une assistance utile et opportune sans demandes explicites.
L'édifice des modèles de vision-langage natifs (VLMs) s'est imposé comme un concurrent croissant face aux VLMs modulaires classiques, façonnés par des architectures de modèles et des paradigmes d'entraînement en évolution. Cependant, deux nuages persistants jettent une ombre sur leur exploration et leur promotion généralisées : (-) Quelles contraintes fondamentales distinguent les VLMs natifs des modèles modulaires, et dans quelle mesure ces barrières peuvent-elles être surmontées ? (-) Comment rendre la recherche sur les VLMs natifs plus accessible et démocratisée, accélérant ainsi les progrès dans ce domaine. Dans cet article, nous clarifions ces défis et esquissons des principes directeurs pour la construction de VLMs natifs. Plus précisément, un primitif de VLM natif devrait : (i) aligner efficacement les représentations de pixels et de mots dans un espace sémantique partagé ; (ii) intégrer de manière fluide les forces des modules de vision et de langage autrefois séparés ; (iii) incarner intrinsèquement diverses propriétés intermodales qui soutiennent l'encodage, l'alignement et le raisonnement unifiés entre vision et langage. Ainsi, nous lançons NEO, une nouvelle famille de VLMs natifs construits à partir de principes fondamentaux, capables de rivaliser avec les meilleurs modèles modulaires dans divers scénarios réels. Avec seulement 390 millions d'exemples image-texte, NEO développe efficacement la perception visuelle à partir de zéro tout en atténuant les conflits vision-langage au sein d'un modèle dense et monolithique conçu à partir de nos primitifs élaborés. Nous positionnons NEO comme une pierre angulaire pour des VLMs natifs évolutifs et puissants, accompagnés d'un ensemble riche de composants réutilisables qui favorisent un écosystème rentable et extensible. Notre code et nos modèles sont disponibles publiquement à l'adresse : https://github.com/EvolvingLMMs-Lab/NEO.
Dans ce rapport, nous proposons PaddleOCR-VL, un modèle à la pointe de la technologie et économe en ressources, spécialement conçu pour l'analyse de documents. Son composant central est PaddleOCR-VL-0.9B, un modèle vision-langage (VLM) compact mais puissant qui intègre un encodeur visuel à résolution dynamique de type NaViT avec le modèle de langage ERNIE-4.5-0.3B pour permettre une reconnaissance précise des éléments. Ce modèle innovant prend en charge efficacement 109 langues et excelle dans la reconnaissance d'éléments complexes (par exemple, texte, tableaux, formules et graphiques), tout en maintenant une consommation de ressources minimale. Grâce à des évaluations approfondies sur des benchmarks publics largement utilisés et des benchmarks internes, PaddleOCR-VL atteint des performances de pointe à la fois dans l'analyse de documents au niveau de la page et dans la reconnaissance au niveau des éléments. Il surpasse significativement les solutions existantes, démontre une forte compétitivité face aux meilleurs VLM et offre des vitesses d'inférence rapides. Ces atouts le rendent particulièrement adapté à un déploiement pratique dans des scénarios réels.
Les modèles de génération vidéo ont réalisé des progrès remarquables, excellant particulièrement dans des scénarios réalistes ; cependant, leurs performances se dégradent notablement dans des scénarios imaginatifs. Ces prompts impliquent souvent des concepts rarement co-occurrents avec des relations sémantiques à longue distance, sortant des distributions d'apprentissage. Les méthodes existantes appliquent généralement un ajustement à l'inférence pour améliorer la qualité vidéo, mais leurs espaces de recherche fixes et leurs fonctions de récompense statiques limitent leur adaptabilité aux scénarios imaginatifs. Pour combler cette lacune, nous proposons ImagerySearch, une stratégie de recherche adaptative guidée par le prompt qui ajuste dynamiquement à la fois l'espace de recherche d'inférence et la fonction de récompense en fonction des relations sémantiques du prompt. Cela permet de générer des vidéos plus cohérentes et visuellement plausibles dans des contextes imaginatifs complexes. Pour évaluer les progrès dans cette direction, nous introduisons LDT-Bench, le premier benchmark dédié aux prompts sémantiques à longue distance, composé de 2 839 paires de concepts divers et d'un protocole automatisé pour évaluer les capacités de génération créative. Des expériences approfondies montrent qu'ImagerySearch surpasse systématiquement les modèles de génération vidéo de référence et les approches d'ajustement à l'inférence existantes sur LDT-Bench, et obtient des améliorations compétitives sur VBench, démontrant son efficacité sur divers types de prompts. Nous publierons LDT-Bench et le code pour faciliter les recherches futures sur la génération vidéo imaginative.
Dans cet article, nous présentons BitNet Distillation (BitDistill), un pipeline léger qui affine des modèles de langage (LLM) en précision complète disponibles sur le marché (par exemple, Qwen) pour les convertir en une précision de 1,58 bits (c'est-à-dire des poids ternaires {-1, 0, 1}) pour des tâches spécifiques en aval, atteignant ainsi des performances solides pour ces tâches avec un coût computationnel minimal. Plus précisément, BitDistill intègre trois techniques clés : le module SubLN, tel qu'introduit dans BitNet ; la distillation d'attention multi-têtes, basée sur MiniLM ; et un pré-entraînement continu, qui sert d'étape de préchauffage cruciale pour atténuer le problème d'évolutivité lié à l'écart de performance entre les LLM en précision complète affinés et ceux en 1,58 bits sur des tâches spécifiques. Les résultats expérimentaux montrent que BitDistill atteint des performances comparables à celles des modèles en précision complète, quelle que soit la taille du modèle, tout en permettant des économies de mémoire allant jusqu'à 10x et une inférence 2,65x plus rapide sur les CPU. Le code est disponible à l'adresse suivante : https://github.com/microsoft/BitNet.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a récemment émergé comme un paradigme central pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). Pour pallier le manque de signaux de vérification lors des tests, les études antérieures intègrent l'entraînement de la capacité d'auto-vérification du modèle dans le processus standard de RLVR, unifiant ainsi les capacités de raisonnement et de vérification au sein d'un seul LLM. Cependant, les pratiques précédentes nécessitent que le LLM génère séquentiellement des solutions et des auto-vérifications en utilisant deux modèles de prompts distincts, ce qui réduit considérablement l'efficacité. Dans ce travail, nous révélons théoriquement que la solution en forme fermée à l'objectif de RL d'auto-vérification peut être réduite à une forme remarquablement simple : la récompense de raisonnement vraie d'une solution est égale à son score d'auto-récompense du dernier token, calculé comme la différence entre la probabilité logarithmique du token suivant assignée par le modèle de politique à un token prédéfini au dernier token de la solution et une constante précalculée, mise à l'échelle par le coefficient de KL. Sur la base de cette intuition, nous proposons LaSeR (Reinforcement Learning with Last-Token Self-Rewarding), un algorithme qui augmente simplement la perte RLVR originale avec une perte MSE qui aligne les scores d'auto-récompense du dernier token avec les récompenses de raisonnement basées sur un vérificateur, optimisant conjointement les capacités de raisonnement et d'auto-récompense des LLM. Les scores d'auto-récompense optimisés peuvent être utilisés à la fois pendant l'entraînement et les tests pour améliorer les performances du modèle. Notamment, notre algorithme dérive ces scores à partir de la distribution de probabilité prédite du token suivant du dernier token immédiatement après la génération, entraînant seulement le coût supplémentaire minimal d'une inférence de token supplémentaire. Les expériences montrent que notre méthode améliore non seulement les performances de raisonnement du modèle, mais lui confère également une capacité d'auto-récompense remarquable, renforçant ainsi ses performances de mise à l'échelle lors de l'inférence.
Ce travail étudie comment recalculer de manière adaptative les caches clé-valeur (KV) pour les grands modèles de langage à diffusion (DLM) afin de maximiser la précision des prédictions tout en minimisant la latence de décodage. Les méthodes précédentes recalculent QKV pour tous les tokens à chaque étape de débruitage et à chaque couche, bien que les états KV changent peu à travers la plupart des étapes, en particulier dans les couches superficielles, ce qui entraîne une redondance substantielle. Nous faisons trois observations : (1) les tokens {bf MASK} distants agissent principalement comme un biais de longueur et peuvent être mis en cache par blocs au-delà de la fenêtre de prédiction active ; (2) la dynamique des KV augmente avec la profondeur, suggérant qu'un rafraîchissement sélectif à partir des couches plus profondes est suffisant ; et (3) le token le plus fréquemment sollicité présente la plus faible dérive des KV, fournissant une limite inférieure conservatrice sur le changement de cache pour les autres tokens. Sur cette base, nous proposons {bf Elastic-Cache}, une stratégie sans apprentissage et indépendante de l'architecture qui décide conjointement {quand} rafraîchir (via un test de dérive basé sur l'attention pour le token le plus sollicité) et {où} rafraîchir (via un calendrier basé sur la profondeur qui recalcule à partir d'une couche choisie tout en réutilisant les caches des couches superficielles et les caches MASK hors fenêtre). Contrairement aux schémas à période fixe, Elastic-Cache effectue des mises à jour de cache adaptatives et conscientes de la couche pour les DLM, réduisant les calculs redondants et accélérant le décodage avec une perte négligeable de qualité de génération. Les expériences sur LLaDA-Instruct, LLaDA-1.5 et LLaDA-V à travers des tâches de raisonnement mathématique et de génération de code démontrent des accélérations constantes : 8,7 fois sur GSM8K (256 tokens), 45,1 fois sur des séquences plus longues, et 4,8 fois sur HumanEval, tout en maintenant systématiquement une précision plus élevée que la référence. Notre méthode atteint un débit significativement plus élevé (6,8 fois sur GSM8K) que les approches existantes basées sur la confiance tout en préservant la qualité de génération, permettant un déploiement pratique des DLM.
Les agents basés sur des modèles de langage de grande taille (LLM) sont de plus en plus entraînés à l'aide de l'apprentissage par renforcement (RL) pour améliorer leur capacité à interagir avec des environnements externes via l'utilisation d'outils, en particulier dans des contextes de recherche nécessitant un raisonnement multi-tours et une acquisition de connaissances. Cependant, les approches existantes reposent généralement sur des récompenses basées sur les résultats, qui ne sont fournies qu'à la réponse finale. Cette rareté des récompenses devient particulièrement problématique dans les scénarios multi-tours, où les longues trajectoires exacerbent deux problèmes critiques : (i) l'effondrement de l'avantage, où tous les déploiements reçoivent des récompenses identiques et ne fournissent aucun signal d'apprentissage utile, et (ii) le manque d'attribution de crédit fine, où les dépendances entre les tours sont obscurcies, en particulier dans les tâches à long terme. Dans cet article, nous proposons l'Optimisation de Politique basée sur le Gain d'Information (IGPO), un cadre RL simple mais efficace qui fournit une supervision dense et intrinsèque pour l'entraînement d'agents multi-tours. IGPO modélise chaque tour d'interaction comme un processus incrémental d'acquisition d'informations sur la vérité terrain, et définit les récompenses au niveau du tour comme l'augmentation marginale de la probabilité de la politique de produire la réponse correcte. Contrairement aux approches précédentes de récompense au niveau du processus qui dépendent de modèles de récompense externes ou d'estimations coûteuses de Monte Carlo, IGPO dérive des récompenses intrinsèques directement des mises à jour de croyance du modèle lui-même. Ces récompenses intrinsèques au niveau du tour sont combinées avec une supervision au niveau des résultats pour former des trajectoires de récompense denses. Des expériences approfondies sur des benchmarks intra-domaines et extra-domaines démontrent qu'IGPO surpasse systématiquement les bases de référence solides dans les scénarios multi-tours, atteignant une précision plus élevée et une efficacité d'échantillonnage améliorée.
Les grands modèles de langage (LLM) pour le code reposent sur des tokeniseurs sous-mots, tels que l'encodage par paires d'octets (BPE), appris à partir d'un mélange de texte en langage naturel et de code de langage de programmation, mais guidés par des statistiques plutôt que par la grammaire. En conséquence, des extraits de code sémantiquement identiques peuvent être tokenisés différemment en fonction de facteurs superficiels tels que les espaces blancs ou la dénomination des identifiants. Pour mesurer l'impact de ce désalignement, nous introduisons TokDrift, un cadre qui applique des règles de réécriture préservant la sémantique pour créer des variantes de code différant uniquement par la tokenisation. À travers neuf LLM pour le code, y compris des modèles de grande taille avec plus de 30 milliards de paramètres, même des changements mineurs de formatage peuvent provoquer des variations substantielles dans le comportement du modèle. Une analyse couche par couche montre que le problème trouve son origine dans les premières couches d'embedding, où la segmentation en sous-mots échoue à capturer les limites des tokens grammaticaux. Nos résultats identifient la tokenisation désalignée comme un obstacle caché à la compréhension et à la génération fiable du code, soulignant la nécessité d'une tokenisation consciente de la grammaire pour les futurs LLM pour le code.
Bien que les modèles de langage de grande taille (LLMs) excellent dans le raisonnement textuel, ils peinent dans les domaines mathématiques comme la géométrie, qui reposent intrinsèquement sur des aides visuelles. Les approches existantes de la Chaîne de Pensée Visuelle (VCoT) sont souvent limitées par des outils externes rigides ou échouent à générer des diagrammes de haute fidélité et stratégiquement synchronisés, nécessaires pour résoudre des problèmes complexes. Pour combler cette lacune, nous introduisons MathCanvas, un cadre complet conçu pour doter les modèles multimodaux de grande taille unifiés (LMMs) de capacités intrinsèques de VCoT pour les mathématiques. Notre approche se compose de deux phases. Premièrement, une étape de Manipulation Visuelle pré-entraîne le modèle sur un nouveau corpus de 15,2 millions de paires, comprenant 10 millions de paires légende-diagramme (MathCanvas-Imagen) et 5,2 millions de trajectoires d'édition étape par étape (MathCanvas-Edit), pour maîtriser la génération et l'édition de diagrammes. Deuxièmement, une étape de Raisonnement Stratégique Assisté Visuellement affine le modèle sur MathCanvas-Instruct, un nouvel ensemble de données de 219 000 exemples de chemins de raisonnement visuel-textuel entrelacés, lui apprenant quand et comment tirer parti des aides visuelles. Pour faciliter une évaluation rigoureuse, nous introduisons MathCanvas-Bench, un benchmark exigeant avec 3 000 problèmes nécessitant que les modèles produisent des solutions visuelles-textuelles entrelacées. Notre modèle, BAGEL-Canvas, entraîné dans ce cadre, réalise une amélioration relative de 86 % par rapport aux solides modèles de base LMM sur MathCanvas-Bench, démontrant une excellente généralisation sur d'autres benchmarks mathématiques publics. Notre travail fournit une boîte à outils complète - cadre, ensembles de données et benchmark - pour débloquer un raisonnement assisté visuellement complexe et semblable à celui des humains dans les LMMs. Page du projet : https://mathcanvas.github.io/
Nous proposons et testons l’hypothèse de la « Dégénérescence Cognitive des LLM » (LLM Brain Rot Hypothesis) : une exposition continue à des textes de faible qualité sur le web induit un déclin cognitif durable chez les grands modèles de langage (LLM). Pour isoler causalement la qualité des données, nous menons des expériences contrôlées sur des corpus réels de Twitter/X, en construisant des ensembles de données de faible qualité et des ensembles de contrôle inversés via deux opérationnalisations orthogonales : M1 (degré d’engagement) et M2 (qualité sémantique), avec une échelle de tokens et des opérations d’entraînement équivalentes entre les conditions. Contrairement au groupe de contrôle, un pré-entraînement continu de quatre LLM sur l’ensemble de données de faible qualité entraîne des déclins non négligeables (Hedges' g > 0,3) dans le raisonnement, la compréhension de contextes longs, la sécurité et l’amplification de « traits sombres » (par exemple, psychopathie, narcissisme). Les mélanges graduels entre les données de faible qualité et les données de contrôle montrent également une décroissance cognitive dose-réponse : par exemple, sous M1, ARC-Challenge avec Chain Of Thoughts chute de 74,9 à 57,2 et RULER-CWE de 84,4 à 52,3 lorsque le ratio de données de faible qualité passe de 0 % à 100 %. L’analyse des erreurs révèle plusieurs insights clés. Premièrement, nous identifions le « saut de pensée » comme la principale lésion : les modèles tronquent ou sautent de plus en plus les chaînes de raisonnement, expliquant la majorité de la croissance des erreurs. Deuxièmement, une guérison partielle mais incomplète est observée : l’augmentation du réglage par instruction et du pré-entraînement sur des données propres améliore la cognition dégradée, mais ne permet pas de restaurer les capacités de base, suggérant une dérive représentationnelle persistante plutôt qu’un simple décalage de format. Enfin, nous découvrons que la popularité, une métrique non sémantique, d’un tweet est un meilleur indicateur de l’effet de Dégénérescence Cognitive que la longueur dans M1. Ensemble, ces résultats fournissent des preuves significatives et multi-perspectives que la qualité des données est un facteur causal du déclin des capacités des LLM, repositionnant la curation pour le pré-entraînement continu comme un problème de sécurité à l’entraînement et motivant des « bilans de santé cognitive » réguliers pour les LLM déployés.
Les avancées récentes dans les modèles de récompense multimodaux (RMs) ont considérablement amélioré l’après-entraînement des modèles génératifs visuels. Cependant, les RMs actuels présentent des limitations inhérentes : (1) les entrées visuelles consomment un budget de contexte important, limitant le nombre de trames et entraînant une perte de détails fins ; et (2) toutes les informations visuelles sont intégrées dans l’invite initiale, exacerbant les hallucinations et les oublis lors du raisonnement en chaîne de pensée. Pour surmonter ces problèmes, nous introduisons VideoReward Thinker (VR-Thinker), un cadre de pensée avec images qui équipe le RM d’opérations de raisonnement visuel (par exemple, sélection de trame) et d’une fenêtre de mémoire visuelle configurable. Cela permet au RM d’acquérir et de mettre à jour activement les preuves visuelles dans les limites du contexte, améliorant ainsi la fidélité et la fiabilité du raisonnement. Nous activons le raisonnement visuel via un pipeline de réglage fin par renforcement : (i) Démarrage à froid avec des données de chaîne de pensée visuelle soigneusement sélectionnées pour distiller les compétences de raisonnement de base et le formatage des opérations ; (ii) sélection des échantillons dont les jugements par dimension et globaux sont tous corrects, puis réalisation d’un réglage fin par échantillonnage de rejet sur ces traces de haute qualité pour renforcer davantage le raisonnement ; et (iii) application de l’Optimisation Relative de Politique par Groupe (GRPO) pour renforcer le raisonnement. Notre approche atteint une précision de pointe parmi les modèles open-source sur les benchmarks de préférence vidéo, en particulier pour les vidéos plus longues : un VR-Thinker de 7B atteint 80,5 % sur VideoGen Reward, 82,3 % sur GenAI-Bench et 75,6 % sur MJ-Bench-Video. Ces résultats valident l’efficacité et la promesse de la modélisation de récompense multimodale avec pensée par images.
Des travaux récents suggèrent que les grands modèles de langage (LLMs) encodent des signaux de factualité dans leurs représentations internes, telles que les états cachés, les poids d'attention ou les probabilités de tokens, impliquant que les LLMs pourraient « savoir ce qu'ils ne savent pas ». Cependant, les LLMs peuvent également produire des erreurs factuelles en s'appuyant sur des raccourcis ou des associations fallacieuses. Ces erreurs sont motivées par le même objectif d'entraînement qui encourage des prédictions correctes, soulevant la question de savoir si les calculs internes peuvent distinguer de manière fiable les sorties factuelles des hallucinations. Dans ce travail, nous menons une analyse mécaniste de la manière dont les LLMs traitent en interne les requêtes factuelles en comparant deux types d'hallucinations basées sur leur dépendance à l'information du sujet. Nous constatons que lorsque les hallucinations sont associées à la connaissance du sujet, les LLMs emploient le même processus de rappel interne que pour les réponses correctes, conduisant à des géométries d'états cachés qui se chevauchent et sont indiscernables. En revanche, les hallucinations détachées de la connaissance du sujet produisent des représentations distinctes et regroupées qui les rendent détectables. Ces résultats révèlent une limitation fondamentale : les LLMs n'encodent pas la véracité dans leurs états internes mais seulement des schémas de rappel de connaissances, démontrant que « les LLMs ne savent pas vraiment ce qu'ils ne savent pas ».
Les systèmes modernes de recherche d'information (IR) sont de plus en plus sollicités pour répondre à des requêtes complexes et multidimensionnelles qui nécessitent un raisonnement approfondi plutôt qu’un simple appariement de mots-clés ou sémantique. Bien que l’IR basé sur les modèles de langage de grande taille (LLM) ait montré un grand potentiel, le paradigme dominant de récupération puis reclassement hérite des limitations de la récupération basée sur les embeddings ; les approches génératives paramétriques sont difficiles à mettre à jour avec de nouvelles informations ; et les méthodes à contexte long, qui placent l’intégralité du corpus dans le contexte, sont informatiquement irréalisables pour de grandes collections de documents. Pour relever ces défis, nous introduisons LATTICE, un cadre de récupération hiérarchique qui permet à un LLM de raisonner et de naviguer dans de grands corpus avec une complexité de recherche logarithmique en imposant une structure arborescente sémantique au corpus. Notre approche se compose de deux étapes : (1) une phase hors ligne qui organise le corpus en une hiérarchie sémantique via une stratégie agglomérative ascendante ou une stratégie divisive descendante en utilisant des résumés multi-niveaux, et (2) une phase de parcours en ligne où un LLM de recherche navigue dans cet arbre. Un défi central dans une telle recherche guidée par LLM est que les jugements de pertinence du modèle sont bruyants, dépendants du contexte et inconscients de la hiérarchie, rendant les comparaisons inter-branches et inter-niveaux difficiles. Pour surmonter cela, nous proposons un algorithme de parcours qui estime des scores de pertinence latents calibrés à partir des sorties locales du LLM et les agrège en une métrique globale de pertinence du chemin. Notre cadre sans apprentissage atteint des performances de pointe en zéro-shot sur le benchmark BRIGHT, intensif en raisonnement, démontrant une amélioration allant jusqu’à 9 % en Recall@100 et 5 % en nDCG@10 par rapport à la meilleure baseline zéro-shot. De plus, par rapport à la méthode SOTA fine-tunée DIVER-v2, LATTICE obtient des résultats comparables sur les sous-ensembles de BRIGHT qui utilisent un corpus statique pour l’évaluation.
Les modèles actuels vision-langage-action (VLA), pré-entraînés sur des données robotiques à grande échelle, démontrent de solides capacités multitâches et généralisent bien aux variations des instructions visuelles et linguistiques pour la manipulation. Cependant, leur taux de réussite chute de manière significative lorsqu'ils sont confrontés à des concepts d'objets en dehors des données d'entraînement, tels que des descriptions et textures d'objets non vus dans le jeu de données. Pour remédier à cela, nous proposons un nouveau cadre agentique, VLA^2, qui exploite OpenVLA comme épine dorsale d'exécution et intègre efficacement des modules externes tels que la recherche web et la détection d'objets pour fournir des connaissances visuelles et textuelles sur les objets cibles au modèle VLA. Cette approche atténue les échecs de généralisation lors de la manipulation d'objets hors distribution. Sur la base de l'environnement de simulation LIBERO, nous avons introduit de nouveaux objets et descriptions d'objets pour construire un nouveau benchmark d'évaluation avec trois niveaux de difficulté afin de tester l'efficacité de notre méthode. Notre cadre surpasse avec succès les modèles actuels de pointe sur notre benchmark de généralisation de niveau difficile. Par rapport à la base de référence OpenVLA autonome, VLA^2 réalise une amélioration de 44,2 % du taux de réussite dans le benchmark de niveau difficile et une amélioration moyenne de 20,2 % dans tous les environnements personnalisés, sans aucune dégradation des performances sur les tâches en domaine. Site du projet : https://vla-2.github.io.
À mesure que les grands modèles de langage (LLMs) deviennent plus performants et largement utilisés, garantir la sécurité de leurs sorties devient de plus en plus crucial. Les modèles de garde-fous existants, bien qu'utiles dans des contextes d'évaluation statique, présentent deux limitations majeures dans les applications réelles : (1) ils produisent généralement uniquement des étiquettes binaires « sûr/non sûr », qui peuvent être interprétées de manière incohérente selon les différentes politiques de sécurité, les rendant incapables de s'adapter aux tolérances de sécurité variables selon les domaines ; et (2) ils nécessitent des sorties complètes du modèle avant d'effectuer des vérifications de sécurité, ce qui les rend fondamentalement incompatibles avec l'inférence en flux continu des LLMs, empêchant ainsi une intervention en temps réel pendant la génération et augmentant l'exposition à des sorties partielles nuisibles. Pour relever ces défis, nous présentons Qwen3Guard, une série de modèles de garde-fous multilingues avec deux variantes spécialisées : Generative Qwen3Guard, qui transforme la classification de sécurité en une tâche de suivi d'instructions pour permettre des jugements tri-classes granulaires (sûr, controversé, non sûr) ; et Stream Qwen3Guard, qui introduit une tête de classification au niveau des tokens pour une surveillance de sécurité en temps réel pendant la génération incrémentielle de texte. Les deux variantes sont disponibles en trois tailles (0,6B, 4B et 8B paramètres) et prennent en charge jusqu'à 119 langues et dialectes, offrant une modération de sécurité complète, évolutive et à faible latence pour les déploiements mondiaux de LLMs. Évalué sur des benchmarks en anglais, chinois et multilingues, Qwen3Guard atteint des performances de pointe dans la classification de sécurité des prompts et des réponses. Tous les modèles sont publiés sous licence Apache 2.0 pour un usage public.
Les grands modèles de langage présentent des lacunes systématiques en matière d'écriture créative, en particulier dans des contextes non anglophones où les données d'entraînement sont rares et manquent de supervision au niveau des processus. Nous présentons COIG-Writer, un nouveau jeu de données chinois pour l'écriture créative qui capture à la fois des productions diversifiées et leurs processus de pensée sous-jacents grâce à une ingénierie inverse systématique de textes de haute qualité. Contrairement aux jeux de données existants qui ne fournissent que des paires entrée-sortie, COIG-Writer comprend 1 665 triplets soigneusement sélectionnés couvrant 51 genres, chacun contenant : (1) une consigne reconstruite par ingénierie inverse, (2) un raisonnement créatif détaillé documentant les processus de prise de décision, et (3) le texte final. À travers des expériences approfondies, nous identifions un modèle à deux composantes de l'écriture créative : la logique narrative (fournie par la supervision des processus) et l'expression linguistique (maintenue par des données généralistes). Nos résultats révèlent trois insights critiques : (1) La supervision des processus est très efficace mais nécessite une stabilisation avec des données générales. Un ratio d'au moins un échantillon créatif pour douze échantillons généraux est nécessaire pour atteindre une performance optimale ; en dessous de ce seuil, le taux de réussite se dégrade progressivement (de 62,75 % à 35,78 %). (2) Les capacités créatives sont culturellement liées, sans transfert translinguistique (un écart de 89,26 points de pourcentage entre les performances en chinois et en anglais). (3) La diversité lexicale est inversement corrélée à la qualité créative (paradoxe TTR), suggérant qu'une grande diversité signale un comportement compensatoire pour des lacunes logiques. Ces résultats établissent que l'excellence créative émerge de l'interaction entre un échafaudage logique et un ancrage linguistique, de manière analogue à la façon dont le raisonnement mathématique améliore mais ne peut remplacer la compétence linguistique dans les modèles de base.
Dans ce travail, nous présentons les modèles mxbai-edge-colbert-v0, disponibles en deux tailles de paramètres : 17M et 32M. Dans le cadre de nos recherches, nous menons de nombreuses expériences visant à améliorer les modèles de recherche et d'interaction tardive, que nous souhaitons distiller en modèles plus petits comme preuves de concept. Notre objectif ultime est de soutenir la recherche à toutes les échelles, depuis la recherche à grande échelle hébergée dans le cloud jusqu'aux modèles pouvant fonctionner localement sur n'importe quel appareil. mxbai-edge-colbert-v0 est un modèle que nous espérons voir servir de fondation solide pour toutes les expériences futures, représentant la première version d'une longue série de petites preuves de concept. Dans le cadre du développement de mxbai-edge-colbert-v0, nous avons réalisé plusieurs études d'ablation, dont nous rapportons les résultats. En termes de performance en aval, mxbai-edge-colbert-v0 est un petit modèle particulièrement performant, surpassant ColBERTv2 sur des benchmarks courants de texte court (BEIR) et marquant une avancée significative dans les tâches de contexte long, avec une efficacité sans précédent.
La recherche approfondie -- produisant des rapports complets et étayés par des citations en recherchant et en synthétisant des informations provenant de centaines de sources web en direct -- représente une frontière importante pour les systèmes agentiques. Pour évaluer rigoureusement cette capacité, quatre principes sont essentiels : les tâches doivent être (1) centrées sur l'utilisateur, reflétant des besoins d'information réalistes, (2) dynamiques, nécessitant des informations à jour au-delà des connaissances paramétriques, (3) non ambiguës, garantissant une interprétation cohérente entre les utilisateurs, et (4) multidimensionnelles et intensives en recherche, nécessitant une exploration de nombreuses sources web et une analyse approfondie. Les benchmarks existants ne répondent pas à ces principes, se concentrant souvent sur des domaines étroits ou posant des questions ambiguës qui entravent une comparaison équitable. Guidés par ces principes, nous introduisons LiveResearchBench, un benchmark de 100 tâches expertement sélectionnées couvrant la vie quotidienne, l'entreprise et le monde académique, chacune nécessitant une recherche web dynamique, en temps réel et une synthèse approfondie. Construit avec plus de 1 500 heures de travail humain, LiveResearchBench offre une base rigoureuse pour une évaluation systématique. Pour évaluer les rapports détaillés étayés par des citations, nous introduisons DeepEval, une suite complète couvrant à la fois la qualité du contenu et du rapport, incluant la couverture, la présentation, la précision et l'association des citations, ainsi que la cohérence et la profondeur de l'analyse. DeepEval intègre quatre protocoles d'évaluation complémentaires, chacun conçu pour garantir une évaluation stable et un fort accord avec les jugements humains. En utilisant LiveResearchBench et DeepEval, nous menons une évaluation complète de 17 systèmes de recherche approfondie de pointe, incluant des systèmes de recherche web à agent unique, des systèmes de recherche approfondie à agent unique et des systèmes multi-agents. Notre analyse révèle les forces actuelles, les modes d'échec récurrents et les composants clés nécessaires pour faire progresser une recherche approfondie fiable et perspicace.
Les méthodes actuelles d'apprentissage des préférences atteignent une précision élevée sur les benchmarks standards, mais présentent une dégradation significative des performances lorsque les signaux de qualité objective sont supprimés. Nous introduisons WritingPreferenceBench, un ensemble de données de 1 800 paires de préférences annotées par des humains (1 200 en anglais, 600 en chinois) couvrant 8 genres d'écriture créative, où les réponses sont appariées pour leur exactitude objective, leur précision factuelle et leur longueur. Sur ce benchmark, les modèles de récompense basés sur les séquences—l'architecture standard pour l'apprentissage par renforcement à partir de feedback humain (RLHF)—n'atteignent qu'une précision moyenne de 52,7 %, tandis que les juges de modèles de langage en zero-shot obtiennent 53,9 %. En revanche, les modèles de récompense génératifs qui produisent des chaînes de raisonnement explicites atteignent une précision de 81,8 %. Nous observons une variance élevée au sein des modèles selon les genres : les modèles individuels varient de 18,2 % à 81,8 % de précision selon les catégories d'écriture, avec des écarts-types moyens de 10,1 %. Cette variance persiste indépendamment de l'échelle du modèle, les modèles à 27 milliards de paramètres ne montrant aucune amélioration systématique par rapport aux variantes à 8 milliards. Nos résultats suggèrent que les méthodes actuelles de RLHF apprennent principalement à détecter les erreurs objectives plutôt qu'à capturer les préférences de qualité subjective (par exemple, la créativité, le style ou la résonance émotionnelle), et qu'une modélisation réussie des préférences pourrait nécessiter des représentations de raisonnement intermédiaires plutôt qu'une classification directe.
Nous présentons AnyUp, une méthode de suréchantillonnage de caractéristiques applicable à toute caractéristique visuelle à n'importe quelle résolution, sans entraînement spécifique à un encodeur. Les suréchantillonneurs basés sur l'apprentissage existants, tels que DINO ou CLIP, nécessitent d'être ré-entraînés pour chaque extracteur de caractéristiques et ne généralisent donc pas à différents types de caractéristiques lors de l'inférence. Dans ce travail, nous proposons une architecture de suréchantillonnage agnostique aux caractéristiques au moment de l'inférence pour atténuer cette limitation et améliorer la qualité du suréchantillonnage. Dans nos expériences, AnyUp établit un nouvel état de l'art pour les caractéristiques suréchantillonnées, généralise à différents types de caractéristiques, et préserve la sémantique des caractéristiques tout en étant efficace et facile à appliquer à un large éventail de tâches en aval.
La conception de machines complexes représente à la fois un marqueur de l'intelligence humaine et un pilier de la pratique de l'ingénierie. Compte tenu des avancées récentes dans les modèles de langage à grande échelle (LLMs), nous nous demandons s'ils peuvent, eux aussi, apprendre à créer. Nous abordons cette question sous l'angle de la conception mécanique compositionnelle : une tâche dans laquelle des machines sont assemblées à partir de composants standardisés pour répondre à des besoins fonctionnels tels que la locomotion ou la manipulation dans un environnement physique simulé. Pour soutenir cette investigation, nous introduisons BesiegeField, un banc d'essai basé sur le jeu de construction mécanique Besiege, qui permet la construction modulaire, la simulation physique et l'évaluation basée sur des récompenses. En utilisant BesiegeField, nous évaluons les LLMs de pointe avec des workflows agentiques et identifions les compétences clés nécessaires pour réussir, notamment le raisonnement spatial, l'assemblage stratégique et le suivi des instructions. Comme les modèles open-source actuels présentent des lacunes, nous explorons l'apprentissage par renforcement (RL) comme voie d'amélioration : nous constituons un ensemble de données de démarrage à froid, menons des expériences de fine-tuning par RL et mettons en lumière les défis ouverts à l'intersection du langage, de la conception mécanique et du raisonnement physique.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a fait progresser les capacités de raisonnement des grands modèles de langage (LLM). Cependant, les méthodes RLVR dominantes présentent un biais systématique en faveur de l'exploitation plutôt que de l'exploration, comme en témoigne une amélioration des performances pass@1 mais une réduction des performances pass@K (K>1). Pour comprendre ce problème, nous analysons la dynamique d'entraînement des méthodes RLVR en suivant les distributions de probabilité au niveau des tokens sur les candidats du vocabulaire. Notre analyse révèle un effet de concentration de probabilité consistant, où le candidat top-1 accumule de plus en plus de masse de probabilité et supprime celle des autres candidats. Plus important encore, une sur-concentration plus forte est corrélée à de moins bonnes performances pass@K. Inspirés par cette observation, nous proposons l'Optimisation Simple de Pass@K (SimKO), une méthode conçue pour atténuer le problème de sur-concentration, encourageant ainsi l'exploration. SimKO fonctionne de manière asymétrique. Pour les réponses vérifiées comme correctes, elle augmente les probabilités des candidats top-K. Pour les réponses vérifiées comme incorrectes, elle applique des pénalités plus fortes au candidat top-1. Nous observons que cette conception asymétrique est particulièrement efficace pour atténuer la sur-concentration lorsqu'elle est appliquée aux tokens à forte entropie. Sur divers benchmarks de mathématiques et de raisonnement logique, SimKO produit systématiquement des performances pass@K plus élevées pour une large gamme de K, offrant ainsi une manière simple d'améliorer l'exploration dans le cadre du RLVR.
Les modèles Vision-Langage-Action (VLA) connaissent un développement rapide et démontrent des capacités prometteuses dans les tâches de manipulation robotique. Cependant, la mise à l'échelle des modèles VLA présente plusieurs défis critiques : (1) L'entraînement de nouveaux modèles VLA à partir de zéro nécessite des ressources computationnelles substantielles et des jeux de données étendus. Compte tenu de la rareté actuelle des données robotiques, il devient particulièrement précieux de tirer pleinement parti des poids de modèles VLA pré-entraînés lors du processus de mise à l'échelle. (2) Le contrôle en temps réel nécessite un équilibre minutieux entre la capacité du modèle et l'efficacité computationnelle. Pour relever ces défis, nous proposons AdaMoE, une architecture de type Mixture-of-Experts (MoE) qui hérite des poids pré-entraînés de modèles VLA denses et met à l'échelle l'expert en action en remplaçant les couches feedforward par des couches MoE activées de manière parcimonieuse. AdaMoE utilise une technique de découplage qui sépare la sélection des experts de la pondération des experts grâce à un adapteur d'échelle indépendant fonctionnant conjointement avec le routeur traditionnel. Cela permet aux experts d'être sélectionnés en fonction de la pertinence de la tâche tout en contribuant avec des poids contrôlés indépendamment, favorisant une utilisation collaborative des experts plutôt qu'une dynamique de type "le gagnant prend tout". Notre approche démontre que l'expertise n'a pas besoin de monopoliser. Au contraire, grâce à une utilisation collaborative des experts, nous pouvons atteindre des performances supérieures tout en maintenant l'efficacité computationnelle. AdaMoE surpasse systématiquement le modèle de référence sur plusieurs benchmarks clés, avec des gains de performance de 1,8 % sur LIBERO et de 9,3 % sur RoboTwin. Plus important encore, une amélioration substantielle de 21,5 % dans les expériences en conditions réelles valide son efficacité pratique pour les tâches de manipulation robotique.
Les modèles Vision-Langage-Action (VLA) offrent un immense potentiel pour permettre la manipulation robotique généraliste. Cependant, la meilleure manière de les construire reste une question ouverte. Les approches actuelles ajoutent souvent de la complexité, comme la modification du vocabulaire existant d'un modèle Vision-Langage (VLM) avec des tokens d'action ou l'introduction de têtes d'action spéciales. Curieusement, la stratégie la plus simple consistant à représenter directement les actions sous forme de texte est restée largement inexplorée. Ce travail introduit VLA-0 pour explorer cette idée. Nous constatons que VLA-0 est non seulement efficace, mais aussi étonnamment puissant. Avec la bonne conception, VLA-0 surpasse des modèles plus complexes. Sur LIBERO, un benchmark populaire pour évaluer les VLA, VLA-0 surpasse toutes les méthodes existantes entraînées sur les mêmes données robotiques, y compris pi_0.5-KI, OpenVLA-OFT et SmolVLA. De plus, sans entraînement à grande échelle spécifique à la robotique, il surpasse des méthodes entraînées sur des données robotiques à grande échelle, comme pi_0.5-KI, pi_0, GR00T-N1 et MolmoAct. Ces résultats se traduisent également dans le monde réel, où VLA-0 surpasse SmolVLA, un modèle VLA pré-entraîné sur des données réelles à grande échelle. Cet article résume nos découvertes inattendues et détaille les techniques spécifiques nécessaires pour débloquer les hautes performances de cette conception VLA simple mais puissante. Les résultats visuels, le code et les modèles entraînés sont disponibles ici : https://vla0.github.io/.
Les grands modèles de langage (LLMs) ont suscité un intérêt croissant pour les agents de recherche en apprentissage automatique autonomes. Parmi eux, les agents capables de proposer des idées et de mener des expériences en apprentissage automatique de manière autonome sont particulièrement prometteurs, car ils maximisent l'automatisation de la recherche et accélèrent le progrès scientifique en affinant itérativement les idées sur la base des résultats expérimentaux. Cependant, l'évaluation complète de tels agents reste un défi. Les benchmarks existants ont tendance à survaloriser les aspects techniques tout en négligeant la rigueur académique, créant des obstacles qui brouillent une évaluation claire des capacités scientifiques d'un agent dans la recherche en apprentissage automatique. Ils souffrent également d'une diversité limitée des tâches, d'une survalorisation des tâches orientées application par rapport aux problèmes de recherche fondamentaux, et d'une extensibilité limitée aux contextes de recherche réalistes. Pour répondre à ces limitations, nous introduisons FML-bench, un benchmark conçu pour évaluer les agents de recherche en apprentissage automatique autonomes sur 8 problèmes de recherche en apprentissage automatique divers et fondamentaux. Il réduit la charge de codage, met l'accent sur les problèmes fondamentaux plutôt que sur des cas d'utilisation spécifiques, offre une grande diversité de tâches, et est extensible aux dépôts GitHub d'apprentissage automatique du monde réel. De plus, nous présentons un cadre d'évaluation unifié avec cinq métriques complémentaires, conçu pour évaluer de manière exhaustive la performance des agents sur notre benchmark. Nous évaluons les agents de recherche autonomes de pointe sur FML-bench, et constatons que les agents employant des stratégies d'exploration de recherche large surpassent ceux se concentrant sur une exploration étroite mais approfondie. Ces résultats suggèrent que mettre l'accent sur l'étendue de l'exploration peut conduire à des résultats de recherche plus efficaces que de se concentrer uniquement sur un affinement incrémental. Notre benchmark est disponible à l'adresse https://github.com/qrzou/FML-bench.
Les modèles génératifs basés sur la diffusion ou les flux en quelques étapes distillent généralement un enseignant prédictif de vitesse en un étudiant qui prédit un raccourci vers des données débruitées. Ce décalage de format a conduit à des procédures de distillation complexes qui souffrent souvent d'un compromis entre qualité et diversité. Pour résoudre ce problème, nous proposons des modèles de flux basés sur des politiques (pi-Flow). pi-Flow modifie la couche de sortie d'un modèle de flux étudiant pour prédire une politique sans réseau à un pas de temps. La politique produit ensuite des vitesses de flux dynamiques aux sous-étapes futures avec un surcoût négligeable, permettant une intégration rapide et précise des équations différentielles ordinaires (EDO) sur ces sous-étapes sans évaluations supplémentaires du réseau. Pour faire correspondre la trajectoire EDO de la politique à celle de l'enseignant, nous introduisons une nouvelle approche de distillation par imitation, qui aligne la vitesse de la politique sur celle de l'enseignant le long de la trajectoire de la politique en utilisant une perte de correspondance de flux standard ell_2. En imitant simplement le comportement de l'enseignant, pi-Flow permet un entraînement stable et évolutif et évite le compromis qualité-diversité. Sur ImageNet 256^2, il atteint un FID à 1-NFE de 2,85, surpassant MeanFlow de la même architecture DiT. Sur FLUX.1-12B et Qwen-Image-20B à 4 NFEs, pi-Flow obtient une diversité nettement meilleure que les méthodes de pointe en quelques étapes, tout en maintenant une qualité équivalente à celle de l'enseignant.
Le raisonnement multi-étapes s'est imposé comme une stratégie efficace pour améliorer les capacités de raisonnement des petits modèles de langage en décomposant des problèmes complexes en sous-étapes séquentielles. Cependant, cela se fait au prix d'une latence accrue. Nous observons que les techniques d'accélération adaptatives existantes, telles que le saut de couches, peinent à équilibrer efficacité et précision dans ce contexte en raison de deux défis majeurs : (1) la variation de sensibilité au saut selon les étapes, et (2) la génération de tokens de sortie redondants. Pour y remédier, nous proposons LiteStage, un cadre de saut de couches conscient de la latence pour le raisonnement multi-étapes. LiteStage combine une recherche hors ligne par étape qui alloue des budgets de couches optimaux avec une sortie anticipée de génération basée sur la confiance en ligne pour supprimer le décodage inutile. Les expériences sur trois benchmarks, tels que OBQA, CSQA et StrategyQA, montrent que LiteStage atteint une accélération jusqu'à 1,70x avec une perte de précision inférieure à 4,0 %, surpassant les méthodes de saut de couches antérieures sans entraînement.
Les progrès rapides des modèles pré-entraînés de grande taille pour la génération de contenu visuel et la reconstruction 3D ouvrent de nouvelles possibilités pour la génération de texte-à-3D. Intuitivement, on pourrait obtenir un générateur de scènes 3D impressionnant en combinant la puissance d'un modèle moderne de texte-à-vidéo latent en tant que "générateur" avec les capacités géométriques d'un système récent de reconstruction 3D (à propagation directe) en tant que "décodeur". Nous présentons VIST3A, un cadre général qui réalise précisément cela, en abordant deux défis principaux. Premièrement, les deux composants doivent être assemblés de manière à préserver les connaissances riches encodées dans leurs poids. Nous revisitons le concept de "model stitching", c'est-à-dire que nous identifions la couche du décodeur 3D qui correspond le mieux à la représentation latente produite par le générateur texte-à-vidéo et nous assemblons les deux parties. Cette opération nécessite seulement un petit ensemble de données et aucune étiquette. Deuxièmement, le générateur texte-à-vidéo doit être aligné avec le décodeur 3D assemblé, afin de garantir que les latents générés soient décodables en une géométrie de scène 3D cohérente et perceptuellement convaincante. Pour cela, nous adaptons le "direct reward finetuning", une technique populaire pour l'alignement des préférences humaines. Nous évaluons l'approche VIST3A proposée avec différents générateurs vidéo et modèles de reconstruction 3D. Toutes les combinaisons testées montrent une amélioration notable par rapport aux modèles texte-à-3D antérieurs qui produisent des splats gaussiens. De plus, en choisissant un modèle de base 3D approprié, VIST3A permet également une génération de texte-à-carte de points de haute qualité.
Les modèles récents d'édition d'images ont obtenu des résultats impressionnants en suivant des instructions d'édition en langage naturel, mais ils reposent sur un ajustement supervisé avec de grands ensembles de données de paires entrée-cible. Cela constitue un goulot d'étranglement critique, car de telles paires naturellement disponibles sont difficiles à constituer à grande échelle. Les solutions actuelles utilisent des paires d'entraînement synthétiques qui exploitent les capacités zero-shot des modèles existants. Cependant, cela peut propager et amplifier les artefacts du modèle pré-entraîné dans le modèle final entraîné. Dans ce travail, nous présentons un nouveau paradigme d'entraînement qui élimine entièrement le besoin de données appariées. Notre approche optimise directement un modèle de diffusion en quelques étapes en le déroulant pendant l'entraînement et en exploitant les retours des modèles vision-langage (VLMs). Pour chaque entrée et instruction d'édition, le VLM évalue si une modification suit l'instruction et préserve le contenu inchangé, fournissant des gradients directs pour une optimisation de bout en bout. Pour garantir la fidélité visuelle, nous intégrons une perte de correspondance de distribution (DMD), qui contraint les images générées à rester dans la variété d'images apprise par les modèles pré-entraînés. Nous évaluons notre méthode sur des benchmarks standard et incluons une étude d'ablation approfondie. Sans aucune donnée appariée, notre méthode performe au même niveau que divers modèles de diffusion d'édition d'images entraînés sur des données appariées supervisées étendues, dans le cadre d'un réglage en quelques étapes. Avec le même VLM comme modèle de récompense, nous surpassons également les techniques basées sur l'apprentissage par renforcement comme Flow-GRPO.
Les modèles génératifs vidéo ont récemment réalisé des avancées notables en termes de qualité de synthèse. Cependant, la génération de mouvements complexes reste un défi critique, car les modèles existants peinent souvent à produire des mouvements naturels, fluides et contextuellement cohérents. Cet écart entre les mouvements générés et ceux du monde réel limite leur applicabilité pratique. Pour résoudre ce problème, nous introduisons RealDPO, un nouveau paradigme d'alignement qui exploite des données réelles comme échantillons positifs pour l'apprentissage par préférence, permettant une synthèse de mouvements plus précise. Contrairement au réglage fin supervisé traditionnel (SFT), qui offre un retour correctif limité, RealDPO utilise l'Optimisation Directe des Préférences (DPO) avec une fonction de perte adaptée pour améliorer le réalisme des mouvements. En confrontant des vidéos du monde réel aux sorties erronées du modèle, RealDPO permet une auto-correction itérative, affinant progressivement la qualité des mouvements. Pour soutenir l'après-entraînement dans la synthèse de mouvements complexes, nous proposons RealAction-5K, un ensemble de données soigneusement sélectionné de vidéos de haute qualité capturant des activités quotidiennes humaines avec des détails de mouvement riches et précis. Des expériences approfondies démontrent que RealDPO améliore significativement la qualité vidéo, l'alignement textuel et le réalisme des mouvements par rapport aux modèles de pointe et aux techniques existantes d'optimisation des préférences.
Le développement des grands modèles de langage repose sur des corpus d’entraînement à grande échelle, mais la plupart contiennent des données dont le statut juridique est incertain, limitant ainsi le développement de modèles véritablement ouverts. Ce problème est exacerbé pour les langues non anglophones, où les textes sous licence ouverte restent extrêmement rares. Nous présentons le German Commons, la plus grande collection de textes allemands sous licence ouverte à ce jour. Il compile des données provenant de 41 sources couvrant sept domaines, incluant des textes juridiques, scientifiques, culturels, politiques, d’actualité, économiques et web. Grâce à un approvisionnement systématique auprès de fournisseurs de données établis et dont les licences sont vérifiables, il offre 154,56 milliards de tokens de texte de haute qualité pour l’entraînement de modèles de langage. Notre pipeline de traitement met en œuvre un filtrage de qualité approfondi, une déduplication et des corrections de formatage de texte, garantissant une qualité cohérente à travers des sources textuelles hétérogènes. Tous les sous-ensembles de domaines sont assortis de licences d’au moins CC-BY-SA 4.0 ou équivalent, assurant ainsi la conformité juridique pour l’entraînement des modèles et leur redistribution. Le German Commons comble donc une lacune critique en matière de données de pré-entraînement allemandes sous licence ouverte et permet le développement de modèles de langage allemands véritablement ouverts. Nous publions également le code pour la construction du corpus et le filtrage des données adapté aux textes en langue allemande, rendant le German Commons entièrement reproductible et extensible.
Les modèles de langage à profondeur récurrente, également appelés universels ou en boucle dans le contexte des transformateurs, se définissent par leur capacité à augmenter leur puissance de calcul grâce à la répétition de couches. Les récents efforts en matière de pré-entraînement ont démontré que ces architectures peuvent s'adapter aux tâches modernes de modélisation du langage tout en présentant des avantages dans les tâches de raisonnement. Dans ce travail, nous examinons la relation entre les modèles à profondeur récurrente et les modèles de langage par diffusion. En nous appuyant sur leurs similitudes, nous développons un nouvel échantillonneur de forçage par diffusion pour ces modèles afin d'accélérer la génération. Cet échantillonneur progresse en décodant de nouveaux tokens à chaque passage avant du modèle, tandis que les états latents de ces tokens peuvent être affinés en parallèle grâce à la récurrence. Théoriquement, la génération avec notre échantillonneur est strictement plus expressive que la génération autorégressive de référence utilisant le même budget temporel sur du matériel moderne. De plus, cet échantillonneur, basé sur des principes issus de la littérature sur la diffusion, peut être directement appliqué à des transformeurs à profondeur récurrente de 3,5 milliards de paramètres sans aucun réglage, conduisant à une accélération pouvant atteindre un facteur 5. Par conséquent, nos résultats fournissent non seulement un mécanisme efficace pour paralléliser le calcul supplémentaire dans les modèles à profondeur récurrente lors de l'inférence, mais suggèrent également que ces modèles peuvent être naturellement considérés comme de puissants modèles de langage par diffusion continus, bien que causaux.
La généralisation systématique et compositionnelle au-delà de la distribution d'entraînement reste un défi central en apprentissage automatique — et un goulot d'étranglement critique pour les capacités de raisonnement émergentes des modèles de langage modernes. Ce travail étudie la généralisation hors distribution (OOD) dans les réseaux Transformer en utilisant une tâche d'arithmétique modulaire sur des graphes computationnels de style GSM8K comme banc d'essai. Nous introduisons et explorons un ensemble de quatre mécanismes architecturaux visant à améliorer la généralisation OOD : (i) récurrence adaptative aux entrées ; (ii) supervision algorithmique ; (iii) représentations latentes ancrées via un goulot d'étranglement discret ; et (iv) un mécanisme explicite de correction d'erreurs. Collectivement, ces mécanismes constituent une approche architecturale pour un raisonnement natif et évolutif dans l'espace latent des réseaux Transformer, dotée de capacités robustes de généralisation algorithmique. Nous complétons ces résultats empiriques par une analyse détaillée d'interprétation mécaniste qui révèle comment ces mécanismes engendrent des capacités robustes de généralisation OOD.
Les agents numériques nécessitent des trajectoires d’interface utilisateur (UI) diversifiées et à grande échelle pour généraliser leurs performances à des tâches du monde réel. Cependant, la collecte de telles données est extrêmement coûteuse en termes d’annotation humaine, d’infrastructure et d’ingénierie. Pour répondre à ce défi, nous introduisons UI-Simulator, un paradigme évolutif qui génère des états et des transitions structurés d’interface utilisateur afin de synthétiser des trajectoires d’entraînement à grande échelle. Notre paradigme intègre un simulateur de monde numérique pour produire des états d’UI variés, un processus de déploiement guidé pour une exploration cohérente, et un enveloppeur de trajectoires qui génère des trajectoires de haute qualité et diversifiées pour l’entraînement des agents. Nous proposons également UI-Simulator-Grow, une stratégie de mise à l’échelle ciblée qui permet un déploiement plus rapide et plus efficace en priorisant les tâches à fort impact et en synthétisant des variantes de trajectoires informatives. Les expériences menées sur WebArena et AndroidWorld montrent que UI-Simulator rivalise ou surpasse les agents open-source entraînés sur des interfaces utilisateur réelles, avec une robustesse significativement meilleure, malgré l’utilisation de modèles enseignants moins performants. De plus, UI-Simulator-Grow atteint les performances de Llama-3-70B-Instruct en utilisant uniquement Llama-3-8B-Instruct comme modèle de base, mettant en évidence le potentiel du paradigme de synthèse ciblée pour améliorer continuellement et efficacement les agents numériques.
Les langues de contact comme l'anglais présentent de riches variations régionales sous la forme de dialectes, souvent utilisés par les locuteurs de ces dialectes lorsqu'ils interagissent avec des modèles génératifs. Cependant, les modèles génératifs multimodaux peuvent-ils produire efficacement du contenu à partir d'une entrée textuelle dialectale ? Dans ce travail, nous étudions cette question en construisant un nouveau benchmark à grande échelle couvrant six dialectes anglais courants. Nous collaborons avec des locuteurs de dialectes pour collecter et vérifier plus de 4200 prompts uniques, et nous évaluons 17 modèles génératifs d'images et de vidéos. Nos résultats d'évaluation automatique et humaine montrent que les modèles génératifs multimodaux actuels les plus performants subissent une dégradation de performance de 32,26 % à 48,17 % lorsqu'un seul mot dialectal est utilisé dans le prompt. Les méthodes courantes d'atténuation, telles que le fine-tuning et la réécriture des prompts, ne permettent d'améliorer que marginalement la performance sur les dialectes (< 7 %), tout en risquant de provoquer une dégradation significative de la performance sur l'anglais américain standard (SAE). À cette fin, nous concevons une stratégie générale d'atténuation basée sur un encodeur pour les modèles génératifs multimodaux. Notre méthode apprend au modèle à reconnaître de nouvelles caractéristiques dialectales tout en préservant la performance sur le SAE. Les expériences sur des modèles tels que Stable Diffusion 1.5 montrent que notre méthode permet d'augmenter simultanément la performance sur cinq dialectes pour la mettre au niveau du SAE (+34,4 %), tout en engendrant un coût quasi nul pour la performance sur le SAE.
Le pré-entraînement au niveau du dépôt est couramment utilisé pour permettre aux grands modèles de langage dédiés au code de tirer parti du contexte à l'échelle d'une base de code. Cela améliore leur capacité à générer des complétions de code précises et adaptées au contexte. Dans ce travail, nous étudions comment différentes stratégies de traitement des dépôts affectent l'apprentissage en contexte dans OpenCoder, un modèle de 1,5 milliard de paramètres. Nous étendons sa fenêtre contextuelle de 4 096 à 16 384 tokens en l'entraînant sur un milliard de tokens supplémentaires de données de dépôt soigneusement sélectionnées. Bien que notre modèle s'appuie sur un ensemble de données plus petit que ceux des modèles concurrents (qui utilisent souvent des centaines de milliards de tokens), il atteint des performances comparables sur le benchmark Long Code Arena. Nous constatons que diverses techniques de traitement des dépôts produisent des résultats similaires et robustes, le gain principal provenant de l'adaptation à un nouveau paramètre de mise à l'échelle des embeddings positionnels rotatifs (RoPE). Enfin, nous montrons qu'une approche d'entraînement plus simple au niveau des fichiers, avec la longueur de séquence d'origine, reste très efficace, ouvrant ainsi la recherche sur la complétion de code au niveau du dépôt à des contextes où les données et les ressources de calcul sont plus limitées.
La mise à l'échelle au moment du test est une stratégie puissante pour améliorer les performances des grands modèles de langage sur des tâches de raisonnement complexes. Bien que les approches de pointe utilisent souvent des vérificateurs génératifs pour sélectionner la meilleure solution parmi un ensemble de candidats, cette méthode entraîne des coûts de calcul prohibitifs, limitant ainsi sa praticabilité. Dans ce travail, nous recentrons notre attention sur un paradigme plus respectueux du budget : la vérification discriminative. Nous menons une analyse empirique approfondie et démontrons que, bien que les vérificateurs discriminatifs puissent sous-performer isolément, leur combinaison avec l'auto-cohérence dans une approche hybride crée un mécanisme de mise à l'échelle au moment du test à la fois puissant et efficace. De manière notable, avec un budget de calcul fixe, cette approche hybride surpasse les vérifications génératives de pointe par une marge significative : atteignant jusqu'à 15,3 % de précision supplémentaire sur AIME2025. Nos résultats établissent que, pour des applications pratiques et réelles, la mise à l'échelle respectueuse du budget avec des vérificateurs discriminatifs constitue non seulement une amélioration "gratuite" par rapport à l'auto-cohérence, mais aussi une alternative plus efficace et efficiente aux techniques génératives coûteuses. Le code est disponible à l'adresse suivante : https://github.com/wang-research-lab/verification.
Les poses interactives en proximité humaine-humaine véhiculent des informations contextuelles riches sur la dynamique des interactions. À partir de telles poses, les humains peuvent intuitivement déduire le contexte et anticiper les dynamiques passées et futures possibles, en s'appuyant sur des connaissances préalables solides du comportement humain. Inspirés par cette observation, nous proposons Ponimator, un cadre simple ancré sur les poses interactives proximales pour l'animation polyvalente des interactions. Nos données d'entraînement consistent en des poses de deux personnes en contact étroit et leur contexte temporel environnant, extraits de jeux de données d'interaction par capture de mouvement. En exploitant les connaissances préalables sur les poses interactives, Ponimator utilise deux modèles de diffusion conditionnels : (1) un animateur de poses qui utilise le contexte temporel pour générer des séquences de mouvements dynamiques à partir de poses interactives, et (2) un générateur de poses qui applique le contexte spatial pour synthétiser des poses interactives à partir d'une seule pose, d'un texte, ou des deux lorsque les poses interactives ne sont pas disponibles. Collectivement, Ponimator prend en charge diverses tâches, y compris l'animation d'interaction basée sur l'image, l'animation de réaction, et la synthèse d'interaction à partir de texte, facilitant ainsi le transfert de connaissances sur les interactions à partir de données de capture de mouvement de haute qualité vers des scénarios en monde ouvert. Des expériences empiriques sur divers jeux de données et applications démontrent l'universalité des connaissances préalables sur les poses ainsi que l'efficacité et la robustesse de notre cadre.
Les lois d'échelle ont transformé notre compréhension des grands modèles de langage en établissant des liens entre des métriques amont, comme la perte d'entropie croisée, et des facteurs de conception tels que la taille du modèle, les données d'entrainement et la puissance de calcul. Cependant, ces lois conventionnelles ne parviennent pas à capturer la performance en aval, où le contexte joue un rôle critique. Dans ce travail, nous proposons un cadre simple et interprétable qui modélise conjointement la performance en aval en fonction de la puissance de calcul d'entrainement et du contexte fourni. Nous validons empiriquement notre cadre en l'ajustant sur les performances observées en aval des variantes à contexte étendu de Llama-2-7B et Llama-2-13B, sur 65 500 instances uniques couvrant trois tâches : le raisonnement arithmétique, le raisonnement de bon sens et la traduction automatique. Nos résultats démontrent que notre cadre modélise avec précision la performance en aval dans la distribution, généralise sur trois ordres de grandeur en puissance de calcul d'entrainement, et extrapole de manière fiable la performance à mesure que la quantité de contexte augmente. Ces résultats offrent des insights précieux sur l'interaction entre la puissance de calcul d'entrainement et l'utilisation du contexte, fournissant des orientations pour concevoir des LLMs à long contexte plus efficaces pour diverses tâches en aval. Notre code est disponible à l'adresse https://github.com/wang-research-lab/context-scaling.
Les agents de « recherche approfondie » basés sur le web visent à résoudre des tâches complexes de question-réponse grâce à des interactions à long terme avec des outils en ligne. Ces tâches restent difficiles, car les modèles de langage sous-jacents ne sont souvent pas optimisés pour le raisonnement et l'exploration à long terme. Les travaux antérieurs ont proposé des workflows pour construire des ensembles de données d'ajustement par instruction, en s'appuyant souvent sur des graphes de connaissances. Cependant, ces méthodes manquent généralement de contrôle fin sur la difficulté et la qualité, produisant des données synthétiques qui ne parviennent pas à capturer la complexité nécessaire au raisonnement à long terme. De plus, de nombreuses études confondent les effets des données et de l'entraînement en comparant des modèles formés selon différentes recettes d'optimisation, ce qui rend difficile l'isolation et l'évaluation de l'efficacité des données elles-mêmes. Nous introduisons un pipeline de synthèse de données à deux volets qui génère des paires question-réponse en augmentant progressivement la complexité des tâches jusqu'à ce qu'un agent web de référence échoue. Cet agent de référence joue plusieurs rôles dans ce processus : tenter de répondre aux questions, valider la factualité, vérifier les réponses alternatives et appliquer des filtres. Pour évaluer l'efficacité de nos méthodes de synthèse, nous adoptons un cadre d'entraînement contrôlé basé sur la distillation à partir d'agents web performants. Les expériences menées sur plusieurs benchmarks web montrent que notre ensemble de données – bien que plus petit – permet d'entraîner des agents web plus efficaces que les ensembles de données existants. En particulier, nos données présentent une diversité deux fois plus grande dans les actions d'utilisation d'outils, permettant aux modèles formés sur celles-ci d'obtenir de meilleures performances tout en évitant les comportements répétitifs d'appel d'outils.
Le paradigme traditionnel de RAG, qui consiste généralement à comprendre des segments de texte pertinents en réponse à des requêtes reçues, limite intrinsèquement à la fois la profondeur de l'intériorisation des connaissances et les capacités de raisonnement. Pour pallier cette limitation, notre recherche transforme le traitement du texte dans RAG d'un découpage passif à une compréhension proactive, définissant ce processus comme l'extraction de mémoire documentaire avec pour objectif de simuler les processus cognitifs humains lors de la lecture. Sur cette base, nous proposons le cadre Mixtures of scenario-aware document Memories (MoM), conçu pour gérer efficacement des documents issus de multiples domaines et entraîner des modèles de langage de petite taille (SLMs) à acquérir la capacité d'explorer et de construire de manière proactive des mémoires documentaires. Le MoM commence par instruire des modèles de langage de grande taille (LLMs) pour simuler des experts de domaine dans la génération de plans logiques de documents, orientant ainsi le découpage structuré et l'extraction du contenu central. Il emploie un mécanisme d'échantillonnage multi-chemins et d'évaluation multi-perspectives, concevant spécifiquement des métriques complètes qui représentent la clarté des segments et l'exhaustivité de l'extraction pour sélectionner les mémoires documentaires optimales. De plus, pour insuffler des capacités de lecture plus profondes et similaires à celles des humains lors de l'entraînement des SLMs, nous intégrons une stratégie de raisonnement inverse, qui déduit des chemins de pensée experts raffinés à partir de résultats de haute qualité. Enfin, en exploitant diverses formes de contenu générées par MoM, nous développons un mécanisme de récupération de mémoire documentaire à trois niveaux, qui s'appuie sur notre preuve théorique du point de vue de la modélisation probabiliste. Les résultats expérimentaux approfondis dans trois domaines distincts démontrent que le cadre MoM non seulement résout les défis de découpage de texte dans les systèmes RAG existants, fournissant aux LLMs des mémoires documentaires sémantiquement complètes, mais ouvre également la voie aux SLMs pour atteindre un traitement de texte intelligent centré sur l'humain.
La modélisation persistante de scènes dynamiques pour le suivi et la synthèse de nouvelles vues reste un défi en raison de la difficulté à capturer des déformations précises tout en maintenant une efficacité computationnelle. Nous proposons SCas4D, un cadre d'optimisation en cascade qui exploite les motifs structurels dans le *3D Gaussian Splatting* pour les scènes dynamiques. L'idée clé est que les déformations dans le monde réel présentent souvent des motifs hiérarchiques, où des groupes de Gaussiennes partagent des transformations similaires. En affinant progressivement les déformations, du niveau grossier des parties au niveau fin des points, SCas4D atteint la convergence en moins de 100 itérations par intervalle de temps et produit des résultats comparables aux méthodes existantes avec seulement un vingtième des itérations d'entraînement. Cette approche démontre également son efficacité dans la segmentation auto-supervisée d'objets articulés, la synthèse de nouvelles vues et les tâches de suivi dense de points.
Les grands modèles de langage (LLMs) sont de plus en plus utilisés comme agents de jeu de rôle, mais leur capacité à incarner fidèlement et de manière cohérente des personnages spécifiques à une version — par exemple, des super-héros à travers les univers de bandes dessinées et cinématographiques — reste peu explorée. Les canons de super-héros tels que Marvel et DC offrent un terrain d'essai riche : des décennies de narration ont donné naissance à de multiples incarnations d'un même personnage, chacune avec des histoires, des valeurs et des codes moraux distincts. Pour étudier ce problème, nous introduisons Beyond One World, un benchmark pour le jeu de rôle ancré dans des personnages, couvrant 30 héros iconiques et 90 versions spécifiques à un canon. Le benchmark comprend deux tâches : (i) Événements Canoniques, qui teste la capacité à se souvenir des étapes clés de la vie, et (ii) Dilemmes Moraux, qui confronte les modèles à des scénarios éthiquement chargés. Nous évaluons les réponses en termes de précision canonique et de fidélité du raisonnement selon un cadre qui sépare la délibération interne (« penser ») des décisions externes (« agir »). Nous proposons également Think-Act Matching, une métrique qui quantifie l'alignement entre les raisons et les actions et sert de proxy pour la fiabilité du modèle. Les expériences menées sur des modèles orientés et non orientés vers le raisonnement révèlent trois conclusions : (1) l'incitation en chaîne de pensée améliore la cohérence narrative dans les modèles plus faibles mais peut réduire la précision canonique dans les modèles plus performants ; (2) la généralisation inter-versions au sein d'un même personnage reste un obstacle majeur ; et (3) les modèles excellent souvent soit dans la pensée, soit dans l'action, mais rarement dans les deux. Beyond One World met en lumière des lacunes critiques en matière de cohérence multiverselle et d'alignement du raisonnement, offrant une évaluation exigeante pour les LLMs de jeu de rôle.
La capacité des modèles de langage dans les systèmes RAG à refuser sélectivement de répondre en se basant sur un contexte défaillant est cruciale pour la sécurité, mais reste un point de défaillance majeur. Notre étude à grande échelle révèle que même les modèles les plus avancés peinent dans ce contexte, avec une précision de refus tombant en dessous de 50 % pour les tâches multi-documents, tout en manifestant soit une confiance excessive dangereuse, soit une prudence exagérée. Les benchmarks statiques échouent à évaluer de manière fiable cette capacité, car les modèles exploitent des artefacts spécifiques aux jeux de données et mémorisent les instances de test. Nous introduisons RefusalBench, une méthodologie générative qui crée programmatiquement des cas de test diagnostiques par perturbation linguistique contrôlée. Notre cadre utilise 176 stratégies de perturbation distinctes réparties en six catégories d'incertitude informationnelle et trois niveaux d'intensité. L'évaluation de plus de 30 modèles révèle des schémas de défaillance systématiques : le refus comprend des compétences distinctes de détection et de catégorisation, et ni l'échelle ni le raisonnement étendu n'améliorent les performances. Nous constatons que le refus sélectif est une capacité entraînable et sensible à l'alignement, offrant une voie claire pour l'amélioration. Nous publions deux benchmarks — RefusalBench-NQ (document unique) et RefusalBench-GaRAGe (multi-documents) — ainsi que notre cadre de génération complet pour permettre une évaluation continue et dynamique de cette capacité critique.
La Génération Augmentée par Récupération (RAG) atténue les principales limitations des Modèles de Langage à Grande Échelle (LLMs), telles que les erreurs factuelles, les connaissances obsolètes et les hallucinations, en récupérant dynamiquement des informations externes. Des travaux récents étendent ce paradigme à travers des systèmes RAG agentiques, où les LLMs agissent comme des agents pour planifier, récupérer et raisonner de manière itérative sur des requêtes complexes. Cependant, ces systèmes peinent encore à répondre à des questions multi-sauts complexes, et leurs capacités de raisonnement intermédiaire restent sous-explorées. Pour y remédier, nous proposons RAGCap-Bench, un benchmark orienté capacités pour l'évaluation fine des tâches intermédiaires dans les workflows RAG agentiques. Nous analysons les sorties des systèmes les plus avancés pour identifier les tâches courantes et les capacités essentielles nécessaires à leur exécution, puis construisons une taxonomie des erreurs typiques des LLMs afin de concevoir des questions d'évaluation ciblées. Les expériences montrent que les modèles à "pensée lente" avec une meilleure performance RAGCap obtiennent de meilleurs résultats de bout en bout, soulignant la validité du benchmark et l'importance d'améliorer ces capacités intermédiaires.
Les modèles de récompense de processus (PRM) visent à améliorer le raisonnement multi-étapes dans les grands modèles de langage (LLM) en supervisant les étapes intermédiaires et en identifiant les erreurs. Cependant, la construction de PRM efficaces reste un défi en raison du manque d'annotations évolutives et de haute qualité. Les approches existantes reposent sur un étiquetage humain coûteux, une auto-évaluation basée sur les LLM sujette à l'hallucination, ou une estimation par Monte Carlo (MC), qui déduit la qualité des étapes uniquement à partir des résultats finaux et introduit souvent une supervision bruyante et mal alignée en raison d'une mauvaise attribution des crédits. Ces problèmes entraînent trois limitations principales : des récompenses bruyantes, une faible fidélité factuelle et un désalignement avec les objectifs de raisonnement au niveau des étapes. Pour relever ces défis, nous introduisons GroundedPRM, un cadre de supervision automatique des processus guidé par arbre et conscient de la fidélité. Pour réduire le bruit des récompenses et permettre une attribution fine des crédits, nous construisons des chemins de raisonnement structurés via la recherche arborescente Monte Carlo (MCTS). Pour éliminer la supervision hallucinée, nous validons chaque étape intermédiaire à l'aide d'un outil externe, fournissant des signaux de correction ancrés dans l'exécution. Pour combiner à la fois la validation au niveau des étapes et l'évaluation globale des résultats, nous concevons un mécanisme d'agrégation hybride des récompenses qui fusionne la vérification basée sur des outils avec les retours dérivés de la MCTS. Enfin, nous formatons le signal de récompense en une structure générative enrichie de justifications pour promouvoir l'interprétabilité et la compatibilité avec les LLM ajustés par instruction. GroundedPRM est entraîné sur seulement 40 000 échantillons étiquetés automatiquement, représentant seulement 10 % des données utilisées par le meilleur PRM entraîné avec une supervision auto-étiquetée. Néanmoins, il permet une amélioration relative allant jusqu'à 26 % en performance moyenne sur ProcessBench. Lorsqu'il est utilisé pour une recherche gloutonne guidée par les récompenses, GroundedPRM surpasse même les PRM entraînés avec une supervision étiquetée par des humains, offrant une voie évolutive et vérifiable vers un raisonnement de haute qualité au niveau des processus.
Le décodage spéculatif accélère l'inférence des modèles de langage (LLM) en utilisant un modèle de brouillon pour anticiper, mais les gains sont limités par le coût de la génération autoregressive du brouillon : augmenter la taille du brouillon améliore les taux d'acceptation mais introduit une latence supplémentaire, exacerbant le compromis vitesse-précision. Les méthodes précédentes (Medusa, Hydra, EAGLE) réduisent partiellement le coût du brouillon mais dégradent soit l'acceptation, soit introduisent des surcharges qui limitent la mise à l'échelle. Nous présentons le décodage spéculatif en miroir (Mirror-SD), un algorithme d'inférence qui rompt le compromis latence-acceptation. Mirror-SD lance des déploiements complets de branches à partir de signaux de sortie anticipée en parallèle avec le suffixe du modèle cible et cartographie explicitement les calculs sur des accélérateurs hétérogènes (GPU et NPU) pour exploiter le parallélisme inter-appareils. Le brouillon spécule des continuations futures pour que le modèle cible les vérifie, tandis que le modèle cible spécule simultanément des chemins de correction pour le brouillon, transformant la spéculation en deux pipelines d'exécution complémentaires. Pour réduire davantage la latence du brouillon sans affaiblir la sémantique d'acceptation, nous ajoutons un streaming spéculatif permettant au brouillon d'émettre plusieurs tokens par étape. Cette double stratégie d'exécution hétérogène parallèle combinée à un streaming spéculatif multi-tokens pousse le décodage spéculatif vers son régime idéal de haute acceptation avec une faible surcharge. Sur SpecBench avec des modèles à l'échelle serveur allant de 14B à 66B paramètres, Mirror-SD offre des gains cohérents de bout en bout, atteignant des accélérations en temps réel de 2,8x à 5,8x sur diverses tâches et une amélioration relative moyenne de 30 % par rapport au meilleur état de l'art, EAGLE3.