papers.description
Bien que les agents logiciels autonomes (SWE) redéfinissent les paradigmes de programmation, ils souffrent actuellement d'une limitation de « monde clos » : ils tentent de corriger les bogues à partir de zéro ou uniquement en utilisant le contexte local, ignorant l'immense expérience humaine historique disponible sur des plateformes comme GitHub. L'accès à cette expérience en monde ouvert est entravé par la nature non structurée et fragmentée des données réelles de suivi des problèmes. Dans cet article, nous présentons MemGovern, un cadre conçu pour gouverner et transformer les données brutes de GitHub en une mémoire expérientielle exploitable par les agents. MemGovern utilise la gouvernance de l'expérience pour convertir l'expérience humaine en cartes d'expérience adaptées aux agents et introduit une stratégie de recherche expérientielle agentique qui permet une récupération logique de l'expertise humaine. En produisant 135 000 cartes d'expérience gouvernées, MemGovern réalise une amélioration significative des performances, augmentant les taux de résolution sur le banc d'essai SWE-bench Verified de 4,65%. En tant qu'approche plug-in, MemGovern fournit une solution pour une infrastructure mémoire adaptée aux agents.
Nous présentons Solar Open, un modèle de langage bilingue de type Mixture-of-Experts comptant 102 milliards de paramètres, conçu pour les langues sous-représentées. Solar Open illustre une méthodologie systématique pour développer des modèles de langage de grande taille compétitifs en relevant trois défis interconnectés. Premièrement, pour un entraînement efficace malgré la rareté des données pour les langues sous-représentées, nous synthétisons 4,5 billions de tokens de données de haute qualité, spécifiques à un domaine et orientées apprentissage par renforcement. Deuxièmement, nous organisons ces données via un curriculum progressif optimisant conjointement la composition, les seuils de qualité et la couverture des domaines sur 20 billions de tokens. Troisièmement, pour doter le modèle de capacités de raisonnement via un apprentissage par renforcement scalable, nous appliquons notre cadre SnapPO pour une optimisation efficace. Sur des benchmarks en anglais et en coréen, Solar Open obtient des performances compétitives, démontrant l'efficacité de cette méthodologie pour le développement de l'IA dans les langues sous-représentées.
Les référentiels existants pour la mémoire à long terme utilisent principalement des dialogues multi-tours ou des historiques d'utilisateurs synthétiques, ce qui fait que les performances en matière de recherche d'information constituent un indicateur imparfait de la compréhension de la personne. Nous présentons \BenchName, un référentiel publiable construit à partir de récits autobiographiques détaillés, où les actions, le contexte et les pensées intimes fournissent des preuves tangibles pour déduire des motivations stables et des principes décisionnels. \BenchName~reconstruit chaque récit en un flux ancré temporellement avec prise en compte des retours en arrière, et évalue les modèles avec des questions liées aux preuves couvrant le rappel factuel, l'attribution d'états subjectifs et le raisonnement au niveau des principes. Sur diverses sources narratives, les systèmes à recherche augmentée améliorent principalement la précision factuelle, tandis que les erreurs persistent sur les explications temporellement ancrées et les inférations de plus haut niveau, soulignant le besoin de mécanismes de mémoire allant au-delà de la simple recherche. Nos données sont disponibles sur KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
Le récent changement de paradigme vers les grands modèles de raisonnement (LRM) en tant qu'agents autonomes a intensifié la demande de capacités sophistiquées d'utilisation d'outils en conversations multiples. Cependant, les ensembles de données existants et les approches de génération de données sont limités par des ensembles d'outils statiques et prédéfinis qui ne peuvent pas s'adapter à la complexité de la collaboration ouverte entre humains et agents. Pour y remédier, nous avons initialement développé un cadre pour la génération automatique à grande échelle de dialogues multi-tours orientés tâche, utilisant un simulateur basé sur un LRM pour générer dynamiquement des outils à forte valeur ajoutée et spécifiques à un domaine afin de résoudre des tâches données. Cependant, nous observons qu'une conception purement axée sur la tâche produit souvent des trajectoires de "résolution unique de tâche", où l'agent atteint l'objectif avec une interaction minimale, sans générer les conversations à nombreux tours typiques des scénarios réalistes. Pour combler cette lacune, nous nous orientons vers un paradigme de simulation centré sur l'utilisateur. En dissociant la génération de tâches d'un simulateur d'utilisateur dédié qui reproduit les comportements humains - tels que la formulation de demandes incrémentielles et les retours d'information tour par tour - nous favorisons des dialogues multi-tours plus authentiques et prolongés, reflétant la nature itérative de la résolution de problèmes réels. Notre pipeline de génération fonctionne comme un module polyvalent plug-and-play capable d'initier la génération à partir de n'importe quel état, garantissant une grande évolutivité dans la production de données étendues sur l'utilisation d'outils. De plus, en permettant l'accomplissement de multiples tâches dans une seule trajectoire, il produit un jeu de données à haute densité qui reflète les demandes multidimensionnelles des interactions réelles entre humains et agents.
La création d'agents intelligents capables de manipulations dextres est essentielle pour parvenir à une automatisation humanoïde dans les domaines de la robotique et des environnements numériques. Cependant, les agents d'interface graphique (GUI) existants reposent sur des prédictions de clics discrets (x,y), ce qui interdit les trajectoires en boucle fermée et de forme libre (par exemple, faire glisser une barre de progression) qui nécessitent une perception et un ajustement continus et en temps réel. Dans ce travail, nous développons ShowUI-π, le premier modèle génératif basé sur des flux (flow-based) servant de main dextre pour les GUI, avec les conceptions suivantes : (i) Actions Unifiées Discrètes-Continues, intégrant les clics discrets et les glissés continus dans un modèle partagé, permettant une adaptation flexible à travers divers modes d'interaction ; (ii) Génération d'Actions par Flux pour la modélisation du glissé, qui prédit les ajustements incrémentiels du curseur à partir d'observations visuelles continues via un expert d'action léger, garantissant des trajectoires fluides et stables ; (iii) Données d'Entraînement et Benchmark pour le Glissé, où nous collectons et synthétisons manuellement 20 000 trajectoires de glissé couvrant cinq domaines (par exemple, PowerPoint, Adobe Premiere Pro), et introduisons ScreenDrag, un benchmark avec des protocoles d'évaluation en ligne et hors ligne complets pour évaluer les capacités de glissé des agents GUI. Nos expériences montrent que les agents GUI propriétaires peinent encore sur ScreenDrag (par exemple, Operator obtient 13,27, et le meilleur, Gemini-2.5-CUA, atteint 22,18). En revanche, ShowUI-π atteint 26,98 avec seulement 450M de paramètres, soulignant à la fois la difficulté de la tâche et l'efficacité de notre approche. Nous espérons que ce travail fera progresser les agents GUI vers un contrôle dextre de type humain dans le monde numérique. Le code est disponible à l'adresse https://github.com/showlab/showui-pi.
Le raisonnement complexe dans les cadres d'agents assistés d'outils est intrinsèquement de long horizon, entraînant une accumulation de traces de raisonnement et d'artefacts temporaires qui sollicitent excessivement le contexte de travail limité des grands modèles de langage. Sans mécanismes de mémoire explicites, cette accumulation perturbe la continuité logique et compromet l'alignement sur la tâche. Cela positionne la mémoire non pas comme une préoccupation accessoire d'efficacité, mais comme une composante essentielle pour maintenir un raisonnement cohérent et orienté vers un objectif sur de longues séquences. Nous proposons MemoBrain, un modèle de mémoire exécutive pour agents assistés d'outils qui construit une mémoire consciente des dépendances entre les étapes de raisonnement, capturant les états intermédiaires saillants et leurs relations logiques. Fonctionnant comme un co-pilote aux côtés de l'agent de raisonnement, MemoBrain organise la progression du raisonnement sans bloquer l'exécution et gère activement le contexte de travail. Plus précisément, il élimine les étapes invalides, condense les sous-trajectoires terminées et préserve une structure de raisonnement compacte et à forte saillance dans un budget de contexte fixe. Ensemble, ces mécanismes permettent un contrôle cognitif explicite des trajectoires de raisonnement plutôt qu'une accumulation passive de contexte. Nous évaluons MemoBrain sur des benchmarks exigeants de long horizon, incluant GAIA, WebWalker et BrowseComp-Plus, démontrant des améliorations constantes par rapport à des bases de référence solides.
L'apprentissage par renforcement a considérablement amélioré les performances des agents LLM sur les tâches ayant des résultats vérifiables, mais il peine encore sur les tâches agentives ouvertes aux vastes espaces de solutions (par exemple, la planification de voyages complexes). En l'absence de vérité terrain objective pour ces tâches, les algorithmes de RL actuels reposent largement sur des modèles de récompense qui attribuent des scores scalaires à des réponses individuelles. Nous soutenons qu'un tel scoring ponctuel souffre d'un effondrement de la discrimination inhérent : le modèle de récompense a du mal à distinguer les avantages subtils entre différentes trajectoires, ce qui entraîne une compression des scores au sein d'un groupe dans une plage étroite. Par conséquent, le signal de récompense effectif est dominé par le bruit du modèle de récompense, conduisant à une stagnation de l'optimisation. Pour y remédier, nous proposons ArenaRL, un paradigme d'apprentissage par renforcement qui passe d'un scoring scalaire ponctuel à un classement relatif intra-groupe. ArenaRL introduit un mécanisme d'évaluation par paires conscient du processus, utilisant des grilles d'évaluation multi-niveaux pour attribuer des scores relatifs fins aux trajectoires. De plus, nous construisons une arène adversarial intra-groupe et concevons un système de classement basé sur un tournoi pour obtenir des signaux d'avantage stables. Les résultats empiriques confirment que le système de tournoi à élimination directe que nous avons construit atteint une précision d'estimation de l'avantage presque équivalente aux comparaisons par paires complètes de complexité O(N²), tout en opérant avec une complexité de seulement O(N), établissant un équilibre optimal entre efficacité et précision. Par ailleurs, pour pallier le manque de benchmarks en cycle complet pour les agents ouverts, nous avons construit Open-Travel et Open-DeepResearch, deux benchmarks de haute qualité présentant un pipeline complet couvrant le SFT, l'entraînement par RL et une évaluation multidimensionnelle. Des expériences approfondies montrent qu'ArenaRL surpasse substantiellement les méthodes de référence standards en RL, permettant aux agents LLM de générer des solutions plus robustes pour des tâches réelles complexes.
Nous présentons la série Ministral 3, une famille de modèles de langage denses à paramètres efficaces, conçue pour les applications à ressources de calcul et de mémoire limitées, disponible en trois tailles : 3B, 8B et 14B de paramètres. Pour chaque taille, nous publions trois variantes : un modèle de base pré-entraîné pour un usage général, un modèle affiné sur instructions et un modèle de raisonnement pour la résolution de problèmes complexes. De plus, nous présentons notre méthode pour obtenir les modèles Ministral 3 par Distillation en Cascade, une technique de taille itérative et de poursuite de l'entraînement avec distillation. Chaque modèle intègre des capacités de compréhension d'images, le tout sous licence Apache 2.0.
Les agents autonomes basés sur les grands modèles de langage (LLM) évoluent rapidement pour traiter des tâches à tours multiples, mais garantir leur fiabilité reste un défi critique. Un pilier fondamental de cette fiabilité est l'étalonnage, qui désigne la capacité d'un agent à exprimer une confiance qui reflète fidèlement ses performances réelles. Bien que l'étalonnage soit bien établi pour les modèles statiques, sa dynamique dans les workflows agentiels intégrant des outils reste peu explorée. Dans ce travail, nous étudions systématiquement l'étalonnage verbalisé chez les agents utilisant des outils, révélant une dichotomie fondamentale de la confiance induite par le type d'outil. Plus précisément, notre étude pilote identifie que les outils de preuve (par exemple, la recherche web) induisent systématiquement une surconfiance sévère en raison du bruit inhérent aux informations récupérées, tandis que les outils de vérification (par exemple, les interpréteurs de code) peuvent ancrer le raisonnement via un retour déterministe et atténuer le mauvais étalonnage. Pour améliorer robustement l'étalonnage across tool types, nous proposons un cadre de réglage fin par apprentissage par renforcement (RL) qui optimise conjointement la précision des tâches et l'étalonnage, soutenu par un benchmark holistique de conceptions de récompense. Nous démontrons que nos agents entraînés atteignent non seulement un étalonnage supérieur, mais présentent également une généralisation robuste des environnements d'entraînement locaux vers des paramètres web bruités et vers des domaines distincts tels que le raisonnement mathématique. Nos résultats soulignent la nécessité de stratégies d'étalonnage spécifiques au domaine pour les agents utilisant des outils. Plus largement, ce travail jette les bases pour construire des agents conscients d'eux-mêmes capables de communiquer fièrement l'incertitude dans des déploiements réels à enjeux élevés.
Les méthodes de segmentation d'objets vidéo comme SAM2 atteignent des performances élevées grâce à des architectures à mémoire, mais peinent face à d'importants changements de point de vue en raison de leur dépendance aux caractéristiques d'apparence. Les méthodes traditionnelles de segmentation 3D par instance garantissent la cohérence du point de vue, mais nécessitent des poses de caméra, des cartes de profondeur et un prétraitement coûteux. Nous présentons 3AM, une amélioration lors de l'entraînement qui intègre des caractéristiques 3D de MUSt3R dans SAM2. Notre module de fusion de caractéristiques léger combine les caractéristiques multi-niveaux de MUSt3R qui encodent des correspondances géométriques implicites. Combinées aux caractéristiques d'apparence de SAM2, le modèle réalise une reconnaissance géométriquement cohérente fondée à la fois sur la position spatiale et la similarité visuelle. Nous proposons une stratégie d'échantillonnage sensible au champ de vision garantissant que les images observent des régions d'objets spatialement cohérentes pour un apprentissage fiable des correspondances 3D. Fait crucial, notre méthode ne nécessite que des entrées RVB lors de l'inférence, sans poses de caméra ni prétraitement. Sur des ensembles de données complexes avec un mouvement à large base (ScanNet++, Replica), 3AM surpasse substantiellement SAM2 et ses extensions, atteignant 90,6 % d'IoU et 71,7 % d'IoU positif sur le sous-ensemble sélectionné de ScanNet++, améliorant les méthodes de segmentation vidéo d'état de l'art de +15,9 et +30,4 points. Page du projet : https://jayisaking.github.io/3AM-Page/
La Génération Augmentée par Récupération fait face à un compromis : la concaténation de documents dans un long contexte permet un raisonnement multi-document mais crée des goulots d'étranglement en pré-remplissage, tandis que l'encodage séparé des caches KV des documents offre de la vitesse mais rompt l'interaction transdocument. Nous proposons le Décodage Parallèle des Contexte-Experts (Pced), un cadre sans entraînement qui déplace l'agrégation des preuves du mécanisme d'attention vers le décodage. Pced traite les documents récupérés comme des "experts" isolés, synchronisant leurs prédictions via une nouvelle règle de décodage contrastif sensible à la récupération, qui pondère les logits des experts par rapport à l'a priori du modèle. Cette approche retrouve les capacités de raisonnement transdocument sans construire une attention partagée entre les documents.
Les systèmes de génération augmentée par récupération (RAG) doivent relever des défis dépassant la simple récupération de documents uniques, tels que l'interprétation d'éléments visuels (tableaux, graphiques, images), la synthèse d'informations issues de multiples documents et l'attribution précise des sources. Les benchmarks existants ne capturent pas cette complexité, se concentrant souvent sur des données textuelles, la compréhension de documents uniques, ou l'évaluation isolée de la récupération et de la génération. Nous présentons ViDoRe v3, un benchmark multimodal complet pour RAG, incluant des requêtes de types variés sur des corpus de documents visuellement riches. Il couvre 10 jeux de données provenant de divers domaines professionnels, comprenant environ 26 000 pages de documents associées à 3 099 requêtes vérifiées manuellement, chacune disponible en 6 langues. Grâce à 12 000 heures de travail d'annotation humaine, nous fournissons des annotations de haute qualité pour la pertinence de la récupération, la localisation par boîtes englobantes et des réponses de référence vérifiées. Notre évaluation des pipelines RAG les plus avancés révèle que les systèmes de récupération visuelle surpassent les systèmes textuels, que les modèles à interaction tardive et le reranking textuel améliorent substantiellement les performances, et que les contextes hybrides ou purement visuels améliorent la qualité de la génération de réponses. Cependant, les modèles actuels peinent encore avec les éléments non textuels, les requêtes ouvertes et l'ancrage visuel fin. Pour encourager les progrès dans la résolution de ces défis, le benchmark est publié sous une licence commerciale permissive à l'adresse https://hf.co/vidore.
Les récents progrès des transformers de diffusion (DiTs) ont établi de nouveaux standards en génération d'images, mais restent impraticables pour un déploiement sur appareil en raison de leurs coûts de calcul et de mémoire élevés. Dans ce travail, nous présentons un cadre DiT efficace conçu pour les appareils mobiles et périphériques, qui atteint une qualité de génération équivalente aux transformers sous des contraintes strictes de ressources. Notre conception combine trois éléments clés. Premièrement, nous proposons une architecture DiT compacte avec un mécanisme d'attention éparse globale-locale adaptative qui équilibre la modélisation du contexte global et la préservation des détails locaux. Deuxièmement, nous proposons un cadre d'entraînement élastique qui optimise conjointement des sous-DiTs de capacités variables au sein d'un super-réseau unifié, permettant à un modèle unique de s'ajuster dynamiquement pour une inférence efficace sur différents matériels. Enfin, nous développons la distillation par appariement de distributions guidée par la connaissance, un pipeline de distillation par étapes qui intègre l'objectif DMD avec un transfert de connaissance depuis des modèles enseignants à faible nombre d'étapes, produisant une génération haute fidélité et à faible latence (par exemple, 4 étapes) adaptée à une utilisation en temps réel sur appareil. Ensemble, ces contributions permettent des modèles de diffusion évolutifs, efficaces et de haute qualité pour un déploiement sur divers matériels.
Malgré les progrès rapides des modèles de génération vidéo, le rôle des données dans l'influence du mouvement reste mal compris. Nous présentons Motive (MOTIon attribution for Video gEneration), un cadre d'attribution des données basé sur les gradients et centré sur le mouvement, qui s'adapte aux jeux de données vidéo modernes, volumineux et de haute qualité, ainsi qu'aux modèles correspondants. Nous l'utilisons pour étudier quels clips de fine-tuning améliorent ou dégradent la dynamique temporelle. Motive isole la dynamique temporelle de l'apparence statique via des masques de perte pondérés par le mouvement, permettant un calcul d'influence spécifique au mouvement efficace et évolutif. Sur les modèles texte-à-vidéo, Motive identifie les clips qui affectent fortement le mouvement et guide la curation de données qui améliore la cohérence temporelle et la plausibilité physique. Avec les données à forte influence sélectionnées par Motive, notre méthode améliore à la fois la fluidité du mouvement et le degré dynamique sur VBench, obtenant un taux de préférence humaine de 74,1 % par rapport au modèle de base pré-entraîné. À notre connaissance, il s'agit du premier cadre à attribuer le mouvement plutôt que l'apparence visuelle dans les modèles génératifs vidéo et à l'utiliser pour curater les données de fine-tuning.
Les modèles VLA ont montré un potentiel prometteur en navigation incarnée en unifiant la perception et la planification, tout en héritant des fortes capacités de généralisation des grands modèles visio-linguistiques. Cependant, la plupart des modèles VLA existants reposent sur des mappages réactifs directs des observations aux actions, manquant des capacités de raisonnement explicite et de mémoire persistante nécessaires aux tâches de navigation complexes à long terme. Pour relever ces défis, nous proposons VLingNav, un modèle VLA pour la navigation incarnée fondé sur une cognition pilotée par le langage. Premièrement, inspirés par la théorie du double processus de la cognition humaine, nous introduisons un mécanisme adaptatif de raisonnement en chaîne qui déclenche dynamiquement un raisonnement explicite uniquement lorsque nécessaire, permettant à l'agent de passer fluidement entre une exécution rapide et intuitive et une planification lente et réfléchie. Deuxièmement, pour gérer les dépendances spatiales à long terme, nous développons un module de mémoire linguistique assistée visuellement qui construit une mémoire sémantique multimodale persistante, permettant à l'agent de se souvenir des observations passées pour éviter une exploration répétitive et d'inférer les tendances de mouvement dans des environnements dynamiques. Pour l'entraînement, nous construisons Nav-AdaCoT-2.9M, le plus grand jeu de données de navigation incarnée avec annotations de raisonnement à ce jour, enrichi d'annotations de raisonnement adaptatif qui induisent un paradigme de raisonnement capable d'ajuster à la fois quand réfléchir et à quoi réfléchir. De plus, nous incorporons une phase d'apprentissage par renforcement en ligne guidée par un expert, permettant au modèle de dépasser l'apprentissage par imitation pur et d'acquérir des comportements de navigation plus robustes et auto-explorés. Des expériences approfondies démontrent que VLingNav atteint des performances state-of-the-art sur un large éventail de benchmarks de navigation incarnée. Notamment, VLingNav se transfère à des plateformes robotiques réelles de manière zero-shot, exécutant diverses tâches de navigation et démontrant une forte généralisation inter-domaines et inter-tâches.
Le remplacement contrôlé de personnages vidéo avec une identité fournie par l'utilisateur reste un problème difficile en raison du manque de données vidéo appariées. Les travaux antérieurs ont principalement reposé sur un paradigme basé sur la reconstruction qui nécessite des masques de segmentation par image et des guidages structurels explicites (par exemple, squelette, profondeur). Cette dépendance limite toutefois sévèrement leur généralisabilité dans des scénarios complexes impliquant des occlusions, des interactions personnage-objet, des poses inhabituelles ou un éclairage difficile, conduisant souvent à des artefacts visuels et des incohérences temporelles. Dans cet article, nous proposons MoCha, un cadre novateur qui contourne ces limitations en n'exigeant qu'un seul masque arbitraire sur une image. Pour adapter efficacement la condition d'entrée multi-modale et renforcer l'identité faciale, nous introduisons un RoPE sensible aux conditions et employons une étape de post-entraînement basée sur l'apprentissage par renforcement. De plus, pour pallier la rareté de données d'entraînement appariées de qualité, nous proposons un pipeline complet de construction de données. Plus précisément, nous concevons trois ensembles de données spécialisés : un ensemble de données rendu en haute fidélité construit avec Unreal Engine 5 (UE5), un ensemble de données piloté par les expressions synthétisé par les techniques actuelles d'animation de portrait, et un ensemble de données augmenté dérivé de paires vidéo-masques existantes. Des expériences approfondies démontrent que notre méthode surpasse substantiellement les approches état de l'art existantes. Nous publierons le code pour faciliter les recherches futures. Veuillez consulter notre page projet pour plus de détails : orange-3dv-team.github.io/MoCha
L'amélioration des capacités de raisonnement des grands modèles de langage (LLM) repose largement sur un auto-apprentissage itératif avec des données générées par le modèle. Bien qu'efficaces pour augmenter la précision, les approches existantes renforcent principalement les chemins de raisonnement réussis, entraînant un coût de calibration substantiel : les modèles deviennent trop confiants et perdent la capacité de représenter l'incertitude. Cet échec a été caractérisé comme une forme d'effondrement du modèle lors de l'alignement, où les distributions prédictives dégénèrent vers des estimations ponctuelles à faible variance. Nous abordons ce problème en reformulant l'entraînement au raisonnement comme un problème d'apprentissage épistémique, dans lequel les modèles doivent apprendre non seulement à raisonner, mais aussi quand leur raisonnement peut être jugé fiable. Nous proposons le raisonnement à calibration épistémique (EpiCaR) comme un objectif d'entraînement qui optimise conjointement la performance du raisonnement et sa calibration, et nous l'instancions dans un cadre d'affinage supervisé itératif en utilisant des signaux explicites d'auto-évaluation. Les expériences sur les familles Llama-3 et Qwen-3 démontrent que notre approche atteint une supériorité de Pareto par rapport aux lignes de base standard en termes de précision et de calibration, en particulier pour les modèles disposant d'une capacité de raisonnement suffisante (par exemple, 3B+). Ce cadre se généralise efficacement au raisonnement mathématique hors distribution (GSM8K) et à la génération de code (MBPP). En définitive, notre approche permet une réduction par 3 de la puissance de calcul à l'inférence, égalant la performance K=30 de STaR avec seulement K=10 échantillons dans les modèles capables.
L'apprentissage par renforcement avec récompenses vérifiables (RLVR) est devenu un paradigme standard pour le raisonnement dans les grands modèles de langage. Cependant, l'optimisation uniquement pour l'exactitude de la réponse finale pousse souvent les modèles vers une exploration vague et verbeuse, où ils s'appuient sur des tactiques d'essai-erreur exhaustives plutôt que sur une planification structurée pour parvenir aux solutions. Bien que des contraintes heuristiques comme les pénalités de longueur puissent réduire la verbosité, elles tronquent souvent des étapes de raisonnement essentielles, créant un compromis difficile entre l'efficacité et la vérification. Dans cet article, nous soutenons que la capacité discriminative est un prérequis pour une génération efficace : en apprenant à distinguer les solutions valides, un modèle peut internaliser un signal de guidage qui élagage l'espace de recherche. Nous proposons JudgeRLVR, un paradigme en deux étapes « juger puis générer ». Dans la première étape, nous entraînons le modèle à juger des réponses-solutions avec des réponses vérifiables. Dans la deuxième étape, nous affinons le même modèle avec un RLVR génératif standard initialisé à partir du juge. Par rapport au RLVR standard utilisant les mêmes données d'entraînement du domaine mathématique, JudgeRLVR atteint un meilleur compromis qualité-efficacité pour Qwen3-30B-A3B : sur les mathématiques du domaine d'entraînement, il offre un gain de précision moyen d'environ +3,7 points avec une longueur de génération moyenne réduite de 42 % ; sur des benchmarks hors domaine, il offre une amélioration de précision moyenne d'environ +4,5 points, démontrant une généralisation accrue.
Avec les progrès rapides de la génération d'images, l'édition de texte visuel à l'aide d'instructions en langage naturel suscite une attention croissante. Le principal défi de cette tâche est de comprendre pleinement l'instruction et l'image de référence pour générer un texte visuel stylistiquement cohérent avec l'image. Les méthodes antérieures impliquent souvent des étapes complexes de spécification du contenu textuel et des attributs (taille de police, couleur, mise en page) sans considérer la cohérence stylistique avec l'image de référence. Pour y remédier, nous proposons UM-Text, un modèle multimodal unifié pour la compréhension contextuelle et l'édition de texte visuel par instructions en langage naturel. Spécifiquement, nous introduisons un modèle visio-linguistique (VLM) pour traiter l'instruction et l'image de référence, permettant de concevoir méticuleusement le contenu textuel et la mise en page selon le contexte informationnel. Pour générer une image textuelle visuelle précise et harmonieuse, nous proposons en outre l'UM-Encodeur pour combiner les embeddings des diverses informations conditionnelles, cette combinaison étant configurée automatiquement par le VLM selon l'instruction d'entrée. Durant l'entraînement, nous proposons une perte de cohérence régionale pour offrir une supervision plus efficace de la génération de glyphes dans les espaces latent et RVB, et concevons une stratégie d'entraînement en trois étapes sur mesure pour améliorer davantage les performances du modèle. De plus, nous contribuons avec UM-DATA-200K, un vaste jeu de données d'images textuelles visuelles couvrant des scènes diversifiées pour l'entraînement des modèles. Des résultats qualitatifs et quantitatifs approfondis sur plusieurs benchmarks publics démontrent que notre méthode atteint des performances à l'état de l'art.
Ce document présente VideoLoom, un modèle de langage de grande taille unifié pour vidéo (Video LLM) destiné à la compréhension spatio-temporelle conjointe. Pour faciliter le développement de capacités de localisation fine spatiales et temporelles, nous constituons LoomData-8.7k, un jeu de données vidéo centré sur l'humain, comportant des descriptions temporellement ancrées et spatialement localisées. Grâce à cela, VideoLoom obtient des performances à l'état de l'art ou très compétitives sur une variété de benchmarks spatiaux et temporels (par exemple, 63,1 J&F sur ReVOS pour la segmentation d'objets vidéo par référence, et 48,3 R1@0,7 sur Charades-STA pour l'ancrage temporel). De plus, nous présentons LoomBench, un nouveau benchmark constitué de paires vidéo-question temporelles, spatiales et compositionnelles, permettant une évaluation complète des Video LLMs sous divers aspects. Collectivement, ces contributions offrent une suite universelle et efficace pour la compréhension vidéo spatio-temporelle conjointe, établissant une nouvelle référence en intelligence multimodale.
Les systèmes de conversion texte-visualisation (Text2Vis) traduisent des requêtes en langage naturel sur des données tabulaires en réponses concises et visualisations exécutables. Bien que les LLM propriétaires génèrent du code fonctionnel, les graphiques résultants manquent souvent d'alignement sémantique et de clarté, des qualités qui ne peuvent être évaluées qu'après exécution. Les modèles open source peinent davantage, produisant fréquemment des résultats non exécutables ou de piètre qualité visuelle. Bien qu'un fine-tuning supervisé puisse améliorer l'exécutabilité du code, il n'améliore pas la qualité globale de la visualisation, car la perte SFT traditionnelle ne peut capter les retours post-exécution. Pour combler cette lacune, nous proposons RL-Text2Vis, le premier cadre d'apprentissage par renforcement pour la génération Text2Vis. Fondée sur l'optimisation de politique relative par groupe (GRPO), notre méthode utilise une nouvelle récompense multi-objectif qui optimise conjointement la précision textuelle, la validité du code et la qualité visuelle en utilisant un retour post-exécution. En entraînant des modèles Qwen2.5 (7B et 14B), RL-Text2Vis obtient une amélioration relative de 22 % de la qualité des graphiques par rapport à GPT-4o sur le benchmark Text2Vis et porte le taux de succès d'exécution du code de 78 % à 97 % par rapport à son baseline zero-shot. Nos modèles surpassent significativement les baselines zero-shot et supervisées robustes et démontrent également une généralisation solide sur des jeux de données hors domaine comme VIS-Eval et NVBench. Ces résultats établissent le GRPO comme une stratégie efficace pour le raisonnement multimodal structuré dans la génération de visualisations. Nous publions notre code à l'adresse https://github.com/vis-nlp/RL-Text2Vis.
La discrétisation du mouvement (motion tokenization) a récemment permis aux grands modèles de langage (LLM) de servir d'architectures polyvalentes pour la compréhension du mouvement et le raisonnement liant mouvement et langage. Cependant, les pipelines existants dissocient généralement l'étape de quantification du mouvement de l'apprentissage des plongements sémantiques, ne les reliant que par des identifiants de tokens. Cette approche ne parvient pas à aligner efficacement la géométrie intrinsèque de l'espace des mouvements avec l'espace des plongements, entravant ainsi la capacité du LLM à effectuer un raisonnement nuancé sur le mouvement. Nous soutenons que l'alignement est le plus efficace lorsque les deux modalités partagent une base géométrique unifiée. Par conséquent, au lieu de forcer le LLM à reconstruire de zéro la géométrie complexe entre les tokens de mouvement, nous présentons un nouveau cadre qui impose explicitement l'orthogonalité à la fois au codebook de mouvement et à l'espace de plongement du LLM, garantissant que leurs structures relationnelles se reflètent naturellement. Plus précisément, nous utilisons un quantifieur à décodeur seul avec Gumbel-Softmax pour un apprentissage différentiable et une utilisation équilibrée du codebook. Pour faire le lien entre les modalités, nous utilisons une projection parcimonieuse qui mappe les codes de mouvement dans l'espace de plongement du LLM tout en préservant l'orthogonalité. Enfin, un plan de régularisation orthonormale en deux étapes impose des contraintes souples pendant l'entraînement du tokenizer et le fine-tuning du LLM pour maintenir l'alignement géométrique sans entraver l'adaptation sémantique. Des expériences approfondies sur HumanML3D démontrent que notre cadre atteint une amélioration des performances de 20 % par rapport aux méthodes état de l'art actuelles, validant qu'une base géométrique unifiée renforce efficacement la capacité du LLM pour un raisonnement nuancé sur le mouvement.
Les modèles de langage de grande taille (LLM) sont de plus en plus déployés dans les systèmes réels de vérification des faits, mais les évaluations existantes se concentrent principalement sur la vérification des affirmations et négligent le processus complet de vérification, incluant l'extraction des affirmations et la collecte des preuves. Cette focalisation étroite empêche les benchmarks actuels de révéler les échecs de raisonnement systématique, les angles morts factuels et les limites de robustesse des LLM modernes. Pour combler cette lacune, nous présentons FactArena, un cadre d'évaluation de style arène entièrement automatisé qui réalise un benchmarking complet et par étapes des LLM sur l'ensemble du pipeline de vérification des faits. FactArena intègre trois composants clés : (i) un processus de vérification des faits piloté par LLM qui standardise la décomposition des affirmations, la collecte de preuves via des interactions outillées, et la prédiction de verdicts basée sur des justifications ; (ii) un mécanisme de jugement de style arène guidé par des référentiels consolidés pour garantir des comparaisons par paires impartiales et cohérentes entre des agents évaluateurs hétérogènes ; et (iii) un module d'évolution des affirmations piloté par l'arène qui génère de manière adaptative des affirmations plus difficiles et sémantiquement contrôlées pour tester la robustesse factuelle des LLM au-delà des données initiales fixes. Sur 16 LLM de pointe couvrant sept familles de modèles, FactArena produit des classements stables et interprétables. Nos analyses révèlent en outre des écarts significatifs entre la précision statique de vérification des affirmations et la compétence de vérification des faits de bout en bout, soulignant la nécessité d'une évaluation holistique. Le cadre proposé offre un paradigme évolutif et fiable pour diagnostiquer le raisonnement factuel des LLM, orienter le développement futur des modèles et faire progresser le déploiement fiable des LLM dans les applications de vérification des faits critiques pour la sécurité.