papers.description
Nous présentons Kling-Omni, un cadre génératif généraliste conçu pour synthétiser des vidéos de haute fidélité directement à partir de données multimodales de langage visuel. Adoptant une perspective de bout en bout, Kling-Omni comble la séparation fonctionnelle entre les diverses tâches de génération, d'édition et de raisonnement intelligent de vidéos, en les intégrant dans un système holistique. Contrairement aux approches par pipelines disjoints, Kling-Omni prend en charge un large éventail d'entrées utilisateur, incluant des instructions textuelles, des images de référence et des contextes vidéo, qu'il traite en une représentation multimodale unifiée pour produire une création de contenu vidéo de qualité cinématographique et hautement intelligente. Pour soutenir ces capacités, nous avons construit un système de données complet qui sert de fondement à la création vidéo multimodale. Le cadre est en outre renforcé par des stratégies de pré-entraînement à grande échelle efficaces et des optimisations d'infrastructure pour l'inférence. Des évaluations exhaustives révèlent que Kling-Omni démontre des capacités exceptionnelles en génération contextuelle, en édition basée sur le raisonnement et en suivi d'instructions multimodales. Au-delà d'un simple outil de création de contenu, nous pensons que Kling-Omni représente une avancée décisive vers des simulateurs de monde multimodaux capables de percevoir, de raisonner, de générer et d'interagir avec des mondes dynamiques et complexes.
Les systèmes d'IA agentiques de pointe sont construits sur des modèles de fondation qui peuvent être adaptés pour planifier, raisonner et interagir avec des outils externes afin d'exécuter des tâches de plus en plus complexes et spécialisées. À mesure que ces systèmes gagnent en capacité et en portée, l'adaptation devient un mécanisme central pour améliorer les performances, la fiabilité et la généralisation. Dans cet article, nous unifions le paysage de recherche en expansion rapide en un cadre systématique qui couvre à la fois les adaptations de l'agent et les adaptations des outils. Nous décomposons en outre ces adaptations en formes signalées par l'exécution des outils et signalées par la sortie de l'agent pour l'adaptation de l'agent, ainsi qu'en formes agnostiques à l'agent et supervisées par l'agent pour l'adaptation des outils. Nous démontrons que ce cadre permet de clarifier l'espace de conception des stratégies d'adaptation dans l'IA agentique, rend leurs compromis explicites et fournit des conseils pratiques pour sélectionner ou alterner entre les stratégies lors de la conception du système. Nous passons ensuite en revue les approches représentatives dans chaque catégorie, analysons leurs forces et leurs limites, et mettons en lumière les principaux défis ouverts et les opportunités futures. Globalement, cet article vise à offrir un fondement conceptuel et une feuille de route pratique aux chercheurs et aux praticiens cherchant à construire des systèmes d'IA agentiques plus performants, efficaces et fiables.
Ce document présente LLaDA2.0 -- un tuple de modèles de langage de grande taille à diffusion discrète (dLLM) atteignant jusqu'à 100 milliards de paramètres totaux grâce à une conversion systématique de modèles autorégressifs (AR) -- établissant un nouveau paradigme pour le déploiement à l'échelle des modèles de pointe. Plutôt qu'un coûteux entraînement from scratch, LLaDA2.0 maintient les principes d'héritage des connaissances, d'adaptation progressive et de conception axée sur l'efficacité, et convertit de manière transparente un modèle AR pré-entraîné en dLLM grâce à un nouveau schéma d'entraînement en 3 phases basé sur la WSD au niveau des blocs : augmentation progressive de la taille des blocs dans la diffusion par blocs (échauffement), diffusion à grande échelle sur des séquences complètes (phase stable) et retour à une diffusion par blocs de taille réduite (décroissance). Couplé à un alignement post-entraînement via SFT et DPO, nous obtenons LLaDA2.0-mini (16B) et LLaDA2.0-flash (100B), deux variantes à mixture d'experts (MoE) fine-tunées sur instructions et optimisées pour un déploiement pratique. En préservant les avantages du décodage parallèle, ces modèles offrent des performances et une efficacité supérieures à l'échelle des modèles de pointe. Les deux modèles ont été rendus open-source.
Inspirés par le succès du pré-entraînement génératif en traitement du langage naturel, nous nous demandons si les mêmes principes peuvent produire des apprenants visuels auto-supervisés performants. Au lieu d’entraîner des modèles à produire des caractéristiques pour une utilisation en aval, nous les entraînons à générer des embeddings pour effectuer directement des tâches prédictives. Ce travail explore un tel passage de l’apprentissage de représentations à l’apprentissage de modèles. Concrètement, les modèles apprennent à prédire les embeddings de patchs futurs conditionnés par ceux du passé, en utilisant un masquage causal et un arrêt du gradient, approche que nous nommons Autoregression Prédictive du Prochain Embedding (APPE). Nous démontrons qu’un simple Transformer pré-entraîné sur ImageNet-1k avec la prédiction du prochain embedding comme unique objectif d’apprentissage est efficace – sans reconstruction de pixels, tokens discrets, perte contrastive ou têtes spécifiques aux tâches. Cette formulation préserve la simplicité et l’évolutivité architecturales, sans nécessiter de complexité de conception supplémentaire. APPE obtient des résultats solides sur diverses tâches, atteignant une précision top-1 de 83,8 % et 85,3 % sur ImageNet-1K avec des backbones ViT-B et ViT-L après ajustement fin, et se transfère efficacement à la segmentation sémantique sur ADE20K. Nous pensons que le pré-entraînement génératif à partir d’embeddings offre une alternative simple, évolutive et potentiellement agnostique à la modalité pour l’apprentissage auto-supervisé visuel.
La croissance rapide des écrans stéréoscopiques, incluant les casques de réalité virtuelle et les cinémas 3D, a entraîné une demande croissante de contenu vidéo stéréo de haute qualité. Cependant, la production de vidéos 3D reste coûteuse et complexe, tandis que la conversion automatique monoculaire-stéréo est entravée par les limitations du pipeline multi-étapes « Depth-Warp-Inpaint » (DWI). Ce paradigme souffre de propagation d'erreurs, d'ambiguïté de profondeur et d'incohérence de format entre les configurations stéréo parallèles et convergentes. Pour relever ces défis, nous présentons UniStereo, le premier jeu de données unifié à grande échelle pour la conversion vidéo stéréo, couvrant les deux formats stéréo pour permettre un benchmarking équitable et un entraînement robuste des modèles. S'appuyant sur ce jeu de données, nous proposons StereoPilot, un modèle feed-forward efficace qui synthétise directement la vue cible sans s'appuyer sur des cartes de profondeur explicites ou un échantillonnage itératif par diffusion. Équipé d'un commutateur de domaine adaptable et d'une perte de cohérence cyclique, StereoPilot s'adapte de manière transparente aux différents formats stéréo et atteint une cohérence améliorée. Des expériences approfondies démontrent que StereoPilot surpasse significativement les méthodes de l'état de l'art, à la fois en fidélité visuelle et en efficacité computationnelle. Page du projet : https://hit-perfect.github.io/StereoPilot/.
Les progrès récents en génération vidéo ont ouvert la voie à une production audiovisuelle unifiée. Dans ce travail, nous présentons Seedance 1.5 pro, un modèle fondamental spécialement conçu pour la génération native simultanée audio-vidéo. S'appuyant sur une architecture Dual-branch Diffusion Transformer, le modèle intègre un module conjoint cross-modal avec un pipeline de données multi-étapes spécialisé, atteignant une synchronisation audiovisuelle exceptionnelle et une qualité de génération supérieure. Pour garantir son utilité pratique, nous mettons en œuvre des optimisations post-entraînement méticuleuses, incluant un Fine-Tuning Supervisé (SFT) sur des jeux de données de haute qualité et un Apprentissage par Renforcement à partir de Retours Humains (RLHF) avec des modèles de récompense multidimensionnels. De plus, nous introduisons un framework d'accélération qui multiplie la vitesse d'inférence par plus de 10. Seedance 1.5 pro se distingue par sa précision dans le lip-sync multilingue et dialectal, son contrôle dynamique de caméra cinématographique et sa cohérence narrative renforcée, le positionnant comme un moteur robuste pour la création de contenu professionnel. Seedance 1.5 pro est désormais accessible sur Volcano Engine à l'adresse https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.
Dans ce travail, nous présentons un modèle fondamental de métrique de profondeur panoramique qui généralise à travers diverses distances de scène. Nous explorons un paradigme de données en boucle fermée du point de vue de la construction des données et de la conception du cadre. Nous collectons un jeu de données à grande échelle en combinant des ensembles de données publics, des données synthétiques de haute qualité provenant de notre simulateur UE5 et de modèles texte-image, ainsi que des images panoramiques réelles provenant du web. Pour réduire les écarts de domaine entre les données intérieur/extérieur et synthétiques/réelles, nous introduisons un pipeline de curation d'étiquettes pseudo en trois étapes pour générer une vérité terrain fiable pour les images non étiquetées. Pour le modèle, nous adoptons DINOv3-Large comme architecture de base pour sa forte généralisation pré-entraînée, et nous introduisons une tête de masque de plage prête à l'emploi, une optimisation axée sur la netteté et une optimisation axée sur la géométrie pour améliorer la robustesse aux distances variables et renforcer la cohérence géométrique entre les vues. Les expériences sur plusieurs benchmarks (par exemple, Stanford2D3D, Matterport3D et Deep360) démontrent des performances solides et une généralisation zero-shot, avec des prédictions métriques particulièrement robustes et stables dans diverses scènes du monde réel. La page du projet peut être consultée à l'adresse : https://insta360-research-team.github.io/DAP_website/
Le contrôle de la profondeur de champ est essentiel en photographie, mais obtenir la mise au point parfaite nécessite souvent plusieurs essais ou un équipement spécialisé. La remise au point sur une image unique reste difficile. Elle implique de restaurer un contenu net et de créer un flou d'arrière-plan (bokeh) réaliste. Les méthodes actuelles présentent des inconvénients majeurs : elles nécessitent des images entièrement nettes en entrée, dépendent de données synthétiques issues de simulateurs et offrent un contrôle limité sur l'ouverture. Nous présentons la Remise au Point par Génération (Generative Refocusing), un processus en deux étapes utilisant DeblurNet pour restaurer des images entièrement nettes à partir de diverses entrées et BokehNet pour créer un bokeh contrôlable. Notre innovation principale réside dans l'apprentissage semi-supervisé. Cette méthode combine des données appariées synthétiques avec des images réelles de bokeh non appariées, en utilisant les métadonnées EXIF pour capturer les caractéristiques optiques réelles au-delà de ce que les simulateurs peuvent fournir. Nos expériences montrent que nous obtenons des performances optimales dans les benchmarks de débruitage de flou de défocalisation, de synthèse de bokeh et de remise au point. De plus, notre méthode de Remise au Point par Génération permet des ajustements guidés par le texte et l'utilisation de formes d'ouverture personnalisées.
Les modèles de diffusion contextuelle permettent aux utilisateurs de modifier des images avec une facilité et un réalisme remarquables. Cependant, cette même puissance soulève de sérieuses préoccupations en matière de vie privée : des images personnelles peuvent être facilement manipulées pour l'usurpation d'identité, la désinformation ou d'autres utilisations malveillantes, le tout sans le consentement du propriétaire. Si des travaux antérieurs ont exploré les perturbations en entrée pour se protéger contre les mauvais usages dans la génération d'images personnalisées par texte, la robustesse des modèles contextuels modernes à grande échelle basés sur DiT reste largement inexplorée. Dans cet article, nous proposons DeContext, une nouvelle méthode pour protéger les images d'entrée contre l'édition contextuelle non autorisée. Notre idée clé est que l'information contextuelle de l'image source se propage vers la sortie principalement via les couches d'attention multimodales. En injectant de petites perturbations ciblées qui affaiblissent ces chemins d'attention croisée, DeContext rompt ce flux, découplant efficacement le lien entre l'entrée et la sortie. Cette défense simple est à la fois efficace et robuste. Nous montrons en outre que les premières étapes de débruitage et certains blocs de transformateurs dominent la propagation du contexte, ce qui nous permet de concentrer les perturbations là où elles comptent le plus. Les expériences sur Flux Kontext et Step1X-Edit montrent que DeContext bloque systématiquement les modifications d'images non souhaitées tout en préservant la qualité visuelle. Ces résultats soulignent l'efficacité des perturbations basées sur l'attention comme une défense puissante contre la manipulation d'images.
Les récents progrès des modèles génératifs Texte-Image (T2I) tels qu'Imagen, Stable Diffusion et FLUX ont conduit à des améliorations remarquables de la qualité visuelle. Cependant, leurs performances sont fondamentalement limitées par la qualité des données d'entraînement. Les ensembles de données d'images issues du web ou synthétiques contiennent souvent des échantillons de faible qualité ou redondants, ce qui entraîne une dégradation de la fidélité visuelle, un entraînement instable et un calcul inefficace. Par conséquent, une sélection efficace des données est cruciale pour améliorer l'efficacité des données. Les approches existantes reposent sur une curation manuelle coûteuse ou sur un score heuristique basé sur des caractéristiques unidimensionnelles dans le filtrage des données Texte-Image. Bien que des méthodes basées sur le méta-apprentissage aient été explorées dans les LLM, il n'existe pas d'adaptation pour les modalités image. Pour cela, nous proposons **Alchemist**, un cadre basé sur les méta-gradients pour sélectionner un sous-ensemble approprié à partir de vastes ensembles de paires texte-image. Notre approche apprend automatiquement à évaluer l'influence de chaque échantillon en optimisant itérativement le modèle d'un point de vue centré sur les données. Alchemist se compose de deux étapes clés : l'évaluation des données et l'élagage des données. Nous entraînons un évaluateur léger pour estimer l'influence de chaque échantillon sur la base d'informations de gradient, enrichies par une perception multi-granularité. Nous utilisons ensuite la stratégie Shift-Gsampling pour sélectionner des sous-ensemble informatifs pour un entraînement efficace du modèle. Alchemist est le premier cadre automatique, évolutif et basé sur les méta-gradients pour la sélection de données pour l'entraînement des modèles Texte-Image. Les expériences menées sur des ensembles de données synthétiques et issus du web démontrent qu'Alchemist améliore constamment la qualité visuelle et les performances en aval. L'entraînement sur seulement 50 % des données sélectionnées par Alchemist peut surpasser l'entraînement sur l'ensemble complet des données.
Nous présentons WorldCanvas, un cadre pour la génération d'événements mondiaux pilotables par prompt, qui permet une simulation riche et dirigée par l'utilisateur en combinant texte, trajectoires et images de référence. Contrairement aux approches purement textuelles et aux méthodes vidéo-from-image existantes contrôlées par trajectoires, notre approche multimodale combine des trajectoires – encodant le mouvement, le timing et la visibilité – avec le langage naturel pour l'intention sémantique et des images de référence pour l'ancrage visuel de l'identité des objets. Cela permet la génération d'événements cohérents et contrôlables incluant des interactions multi-agents, l'entrée/sortie d'objets, l'apparence guidée par référence et des événements contre-intuitifs. Les vidéos résultantes démontrent non seulement une cohérence temporelle mais aussi une cohérence émergente, préservant l'identité des objets et la scène malgré des disparitions temporaires. En permettant la génération expressive d'événements mondiaux, WorldCanvas fait évoluer les modèles du monde de prédicteurs passifs vers des simulateurs interactifs façonnés par l'utilisateur. Notre page projet est disponible à l'adresse : https://worldcanvas.github.io/.
Les modèles de diffusion latente (LDM) atteignent l'état de l'art en synthèse d'images, mais leur objectif de débruitage de type reconstruction ne fournit qu'une supervision sémantique indirecte : la sémantique de haut niveau émerge lentement, nécessitant un entraînement plus long et limitant la qualité des échantillons. Des travaux récents injectent la sémantique des modèles de fondation vision (VFM) soit extérieurement via un alignement des représentations, soit intérieurement en modélisant conjointement seulement une fraction étroite des caractéristiques des VFM au sein du processus de diffusion, sous-utilisant la sémantique spatiale riche, non linéaire et multicouche disponible. Nous présentons REGLUE (Representation Entanglement with Global-Local Unified Encoding), un framework de diffusion latente unifié qui modélise conjointement (i) les latents d'image VAE, (ii) la sémantique VFM locale compacte (au niveau des patchs), et (iii) un token global [CLS] (au niveau de l'image) au sein d'un unique backbone SiT. Un compresseur sémantique convolutionnel léger agrège non linéairement les caractéristiques multicouches des VFM en une représentation de faible dimension et structure spatiale, qui est intriquée avec les latents VAE dans le processus de diffusion. Une loss d'alignement externe régularise en outre les représentations internes vers des cibles VFM gelées. Sur ImageNet 256x256, REGLUE améliore constamment le FID et accélère la convergence par rapport aux baselines SiT-B/2 et SiT-XL/2, ainsi que par rapport à REPA, ReDi et REG. Des expériences approfondies montrent que (a) la sémantique spatiale des VFM est cruciale, (b) la compression non linéaire est essentielle pour en tirer pleinement profit, et (c) les tokens globaux et l'alignement externe agissent comme des améliorations légères et complémentaires au sein de notre framework de modélisation conjointe global-local-latent. Le code est disponible à l'adresse https://github.com/giorgospets/reglue.
Si les modèles multimodaux actuels peuvent répondre à des questions basées sur des images 2D, ils manquent d'une perception intrinsèque des objets 3D, ce qui limite leur capacité à comprendre les relations spatiales et les indices de profondeur dans les scènes 3D. Dans ce travail, nous proposons N3D-VLM, une nouvelle architecture unifiée qui intègre de manière transparente la perception native des objets 3D avec un raisonnement visuel conscient de la 3D, permettant à la fois un ancrage 3D précis et une compréhension spatiale interprétable. Contrairement aux modèles conventionnels de bout en bout qui prédisent directement les réponses à partir d'entrées RVB ou RVB-D, notre approche dote le modèle de capacités de perception native des objets 3D, lui permettant de localiser directement des objets dans l'espace 3D sur la base de descriptions textuelles. En s'appuyant sur une localisation précise des objets en 3D, le modèle effectue ensuite un raisonnement explicite en trois dimensions, obtenant ainsi une compréhension spatiale plus structurée et interprétable. Pour soutenir un apprentissage robuste de ces capacités, nous avons développé un pipeline évolutif de construction de données qui utilise l'estimation de profondeur pour transformer de grandes annotations 2D en espace 3D, augmentant considérablement la diversité et la couverture des données pour l'ancrage d'objets 3D, produisant un jeu de données plus de six fois supérieur au plus grand jeu de données existant de détection 3D sur image unique. De plus, le pipeline génère des je de données de questions-réponses spatiales qui ciblent le raisonnement par enchaînement de pensées (Chain-of-Thought, CoT) en 3D, facilitant l'apprentissage conjoint pour la localisation d'objets 3D et le raisonnement spatial 3D. Les résultats expérimentaux démontrent que notre cadre unifié atteint non seulement des performances de pointe dans les tâches d'ancrage 3D, mais surpasse également constamment les méthodes existantes en matière de raisonnement spatial 3D dans les modèles vision-langage.
Les récents progrès en apprentissage par renforcement pour les grands modèles de langage convergent vers une complexité croissante : pipelines d'entraînement multi-étapes, planifications dynamiques des hyperparamètres et stratégies d'apprentissage curriculaire. Cela soulève une question fondamentale : cette complexité est-elle nécessaire ? Nous présentons JustRL, une approche minimale utilisant un entraînement mono-étape avec des hyperparamètres fixes, qui atteint des performances de pointe sur deux modèles de raisonnement de 1,5 milliard de paramètres (54,9 % et 64,3 % de précision moyenne sur neuf benchmarks mathématiques) tout en utilisant deux fois moins de calcul que les approches sophistiquées. Les mêmes hyperparamètres se transfèrent entre les deux modèles sans réglage, et l'entraînement présente une amélioration régulière et monotone sur plus de 4 000 étapes, sans les effondrements ou plateaux qui motivent habituellement les interventions. Fait crucial, les études d'ablation révèlent que l'ajout de « techniques standard » comme les pénalités de longueur explicites et les vérificateurs robustes peut dégrader les performances en réduisant l'exploration. Ces résultats suggèrent que le domaine pourrait ajouter de la complexité pour résoudre des problèmes qui disparaissent avec une base de référence stable et à grande échelle. Nous publions nos modèles et notre code pour établir une base de référence simple et validée pour la communauté.
Les avancées récentes ont montré que les modèles de langage multimodaux (MLLM) bénéficient d'une réflexion en chaîne intermodale avec des interactions d'outils visuels. Cependant, les modèles open-source existants présentent souvent des schémas de raisonnement aveugles à l'utilisation d'outils, invoquant des outils visuels même lorsqu'ils sont superflus, ce qui augmente considérablement la surcharge d'inférence et dégrade les performances du modèle. Pour y remédier, nous proposons AdaTooler-V, un MLLM qui réalise une utilisation adaptative des outils en déterminant si un problème visuel nécessite véritablement leur emploi. Premièrement, nous introduisons AT-GRPO, un algorithme d'apprentissage par renforcement qui ajuste dynamiquement les échelles de récompense en fonction du Score de Bénéfice de l'Outil de chaque échantillon, encourageant le modèle à n'invoquer des outils que lorsqu'ils apportent une réelle amélioration. De plus, nous avons constitué deux jeux de données pour l'entraînement : AdaTooler-V-CoT-100k pour l'amorçage SFT et AdaTooler-V-300k pour l'apprentissage par renforcement avec des récompenses vérifiables sur des données à image unique, multi-images et vidéo. Les expériences menées sur douze benchmarks démontrent la forte capacité de raisonnement d'AdaTooler-V, surpassant les méthodes existantes dans diverses tâches de raisonnement visuel. Notamment, AdaTooler-V-7B atteint une précision de 89,8 % sur le benchmark haute résolution V*, dépassant le modèle propriétaire commercial GPT-4o et Gemini 1.5 Pro. L'ensemble du code, des modèles et des données est publié.
Alors que l'édition d'images a progressé rapidement, l'édition vidéo reste moins explorée, confrontée à des défis en matière de cohérence, de contrôle et de généralisation. Nous étudions l'espace de conception des données, de l'architecture et du contrôle, et présentons EasyV2V, un cadre simple et efficace pour l'édition vidéo basée sur des instructions. Côté données, nous combinons des modèles experts existants avec des inverses rapides pour constituer des paires vidéo diversifiées, transformons des paires d'édition d'images en vidéos via un apprentissage image par image et des paires pseudo-aléatoires avec un mouvement affine partagé, exploitons des clips à descriptions denses pour créer des paires vidéo, et ajoutons un apprentissage des transitions pour enseigner comment les modifications se déroulent. Côté modèle, nous observons que les modèles pré-entraînés de texte-à-vidéo possèdent une capacité d'édition, justifiant une conception simplifiée. Une simple concaténation de séquences pour le conditionnement avec un finetuning léger par LoRA suffit à entraîner un modèle performant. Pour le contrôle, nous unifions le contrôle spatiotemporel via un mécanisme à masque unique et prenons en charge les images de référence optionnelles. Globalement, EasyV2V fonctionne avec des entrées flexibles, par exemple vidéo+texte, vidéo+masque+texte, vidéo+masque+référence+texte, et obtient des résultats d'édition vidéo à la pointe, surpassant les systèmes concurrents et commerciaux. Page du projet : https://snap-research.github.io/easyv2v/
Les méthodes actuelles d'accélération par diffusion pour l'animation de portraits longs peinent à assurer la cohérence identitaire. Cet article présente FlashPortrait, un transformeur de vidéo par diffusion de bout en bout capable de synthétiser des vidéos de longueur infinie tout en préservant l'identité, avec une accélération d'inference pouvant atteindre 6x. FlashPortrait calcule d'abord les caractéristiques d'expression faciale indépendantes de l'identité à l'aide d'un extractor standard. Il introduit ensuite un Bloc d'Expression Faciale Normalisé pour aligner les caractéristiques faciales avec les latents de diffusion en les normalisant selon leurs moyennes et variances respectives, améliorant ainsi la stabilité identitaire dans la modélisation faciale. Lors de l'inférence, FlashPortrait adopte un schéma dynamique de fenêtre glissante avec fusion pondérée dans les zones de chevauchement, garantissant des transitions fluides et une cohérence identitaire dans les animations longues. Dans chaque fenêtre contextuelle, basée sur le taux de variation des latents à des étapes temporelles spécifiques et le rapport d'amplitude des dérivées entre les couches de diffusion, FlashPortrait utilise des dérivées latentes d'ordre supérieur à l'étape courante pour prédire directement les latents des étapes futures, sautant ainsi plusieurs étapes de débruitage et atteignant une accélération de vitesse 6x. Les expériences sur des benchmarks démontrent l'efficacité de FlashPortrait tant sur le plan qualitatif que quantitatif.
Les modèles de récompense (RMs) sont essentiels pour l'entraînement des grands modèles de langage (LLMs), mais restent peu explorés pour les modèles omni qui traitent des séquences entrelacées d'images et de texte. Nous présentons Multimodal RewardBench 2 (MMRB2), le premier benchmark complet pour les modèles de récompense sur la compréhension multimodale et la génération (entrelacée). MMRB2 couvre quatre tâches : texte-à-image, édition d'image, génération entrelacée et raisonnement multimodal (« penser-avec-des-images »), fournissant 1 000 paires de préférences annotées par des experts par tâche, provenant de 23 modèles et agents à travers 21 tâches sources. MMRB2 est conçu avec : (1) des invites pratiques mais difficiles ; (2) des réponses de modèles et d'agents de pointe ; et (3) des paires de préférences avec un fort consensus d'experts humains, sélectionnées via une stratégie de filtrage par ensemble. En utilisant MMRB2, nous étudions les juges existants pour chaque sous-tâche, incluant les LLM multimodaux utilisés comme juges et les modèles entraînés avec des préférences humaines. Le dernier Gemini 3 Pro atteint une précision de 75 à 80 %. GPT-5 et Gemini 2.5 Pro atteignent une précision de 66 à 75 %, contre plus de 90 % pour les humains, mais surpassent le largement utilisé GPT-4o (59 %). Le meilleur modèle open-source, Qwen3-VL-32B, obtient des précisions similaires à Gemini 2.5 Flash (64 %). Nous montrons également que les performances sur MMRB2 sont fortement corrélées avec le succès sur les tâches en aval en utilisant l'échantillonnage Best-of-N et menons une analyse approfondie qui identifie les domaines clés à améliorer pour les futurs modèles de récompense.
Ce travail examine le compromis exploration-exploitation dans l'apprentissage par renforcement avec récompenses vérifiables (RLVR), un cadre visant à améliorer le raisonnement des grands modèles de langage (LLM). Des études récentes suggèrent que le RLVR peut susciter un raisonnement mathématique solide dans les LLM via deux mécanismes apparemment paradoxaux : les récompenses fallacieuses, qui suppriment l'exploitation en récompensant des résultats sans lien avec la vérité terrain, et la minimisation de l'entropie, qui supprime l'exploration en poussant le modèle vers des sorties plus confiantes et déterministes. Cela met en lumière une dynamique déroutante : décourager à la fois l'exploitation et l'exploration améliore les performances de raisonnement, mais les principes sous-jacents qui concilient ces effets restent mal compris. Nous nous concentrons sur deux questions fondamentales : (i) comment l'entropie de la politique est liée aux performances, et (ii) si les récompenses fallacieuses produisent des gains, potentiellement via l'interaction du biais d'écrêtage et de la contamination du modèle. Nos résultats montrent que le biais d'écrêtage sous des récompenses fallacieuses réduit l'entropie de la politique, conduisant à des sorties plus confiantes et déterministes, tandis que la minimisation de l'entropie seule est insuffisante pour obtenir une amélioration. Nous proposons en outre un modèle de désalignement des récompenses expliquant pourquoi les récompenses fallacieuses peuvent améliorer les performances au-delà des contextes contaminés. Nos résultats clarifient les mécanismes sous-tendant les bénéfices des récompenses fallacieuses et fournissent des principes pour un entraînement RLVR plus efficace.
L'édition d'images basée sur des instructions permet un contrôle en langage naturel des modifications visuelles, mais les modèles existants échouent face à la Complexité Instruction-Visuelle (IV-Complexité), où des instructions complexes rencontrent des scènes encombrées ou ambiguës. Nous présentons RePlan (Planification Alignée sur les Régions), un cadre planifier-puis-exécuter qui couple un planificateur vision-langage avec un éditeur à diffusion. Le planificateur décompose les instructions via un raisonnement étape par étape et les ancre explicitement à des régions cibles ; l'éditeur applique ensuite les modifications à l'aide d'un mécanisme d'injection de régions par attention sans apprentissage, permettant des éditions multi-régions précises et parallèles sans inpaintage itératif. Pour renforcer la planification, nous appliquons un apprentissage par renforcement basé sur GRPO en utilisant 1 000 exemples contenant uniquement des instructions, ce qui entraîne des gains substantiels en fidélité de raisonnement et en fiabilité du format. Nous présentons également IV-Edit, un benchmark axé sur l'ancrage fin et les éditions nécessitant des connaissances approfondies. Dans des contextes à forte IV-Complexité, RePlan surpasse systématiquement des modèles de référence solides entraînés sur des jeux de données bien plus vastes, améliorant la précision régionale et la fidélité globale. Notre page de projet : https://replan-iv-edit.github.io
Nous présentons ModelTables, un benchmark de tables dans les lacs de modèles qui capture la sémantique structurée des tableaux de performances et de configuration souvent négligés par la recherche textuelle seule. Le corpus est construit à partir des fiches de modèles Hugging Face, des fichiers README GitHub et des articles scientifiques référencés, en associant chaque tableau à son contexte de modèle et de publication. Comparées aux tables des lacs de données ouverts, les tables de modèles sont plus petites mais présentent des relations inter-tables plus denses, reflétant l'évolution étroitement couplée des modèles et des benchmarks. La version actuelle couvre plus de 60 000 modèles et 90 000 tableaux. Pour évaluer la relation entre modèles et tables, nous construisons une vérité terrain multi-sources utilisant trois signaux complémentaires : (1) les liens de citation d'articles, (2) les liens explicites entre fiches de modèles et l'héritage, et (3) les jeux de données d'entraînement partagés. Nous présentons un cas d'usage empirique étendu pour ce benchmark : la recherche de tables. Nous comparons les opérateurs de recherche canoniques des lacs de données (unionables, joignables, mots-clés) et les bases de référence en recherche d'information (recherche dense, creuse, hybride) sur ce benchmark. La recherche sémantique de tables par union atteint 54,8 % de P@1 global (54,6 % sur les citations, 31,3 % sur l'héritage, 30,6 % sur les signaux de jeux de données partagés) ; la recherche dense basée sur les tables atteint 66,5 % de P@1, et la recherche hybride avec métadonnées obtient 54,1 %. Cette évaluation indique une marge d'amélioration claire pour développer de meilleures méthodes de recherche de tables. En publiant ModelTables et son protocole de création, nous fournissons le premier benchmark à grande échelle de données structurées décrivant des modèles d'IA. Notre cas d'usage sur la découverte de tables dans les lacs de modèles fournit une intuition et des preuves pour développer une recherche sémantique plus précise, une comparaison structurée et une organisation méthodique des connaissances structurées sur les modèles. Le code source, les données et autres artefacts sont disponibles à l'adresse https://github.com/RJMillerLab/ModelTables.
La localisation d'interface graphique est un élément crucial dans le développement d'agents GUI performants. Cependant, les benchmarks existants en matière de localisation présentent des limitations importantes : ils offrent soit un volume de données insuffisant et une couverture de domaine restreinte, soit se concentrent excessivement sur une seule plateforme et nécessitent des connaissances domaines hautement spécialisées. Dans ce travail, nous présentons VenusBench-GD, un benchmark bilingue complet pour la localisation GUI couvrant multiples plateformes, permettant une évaluation hiérarchique pour les applications réelles. VenusBench-GD apporte trois contributions principales : (i) nous introduisons un benchmark multi-plateforme à grande échelle avec une couverture étendue d'applications, des éléments d'interface diversifiés et des données annotées riches, (ii) nous établissons un pipeline de construction de données de haute qualité pour les tâches de localisation, atteignant une précision d'annotation supérieure aux benchmarks existants, et (iii) nous étendons le champ de la localisation d'éléments en proposant une taxonomie hiérarchique des tâches qui divise la localisation en catégories basique et avancée, englobant six sous-tâches distinctes conçues pour évaluer les modèles sous des perspectives complémentaires. Nos résultats expérimentaux révèlent des insights critiques : les modèles multimodaux généralistes égalent ou surpassent désormais les modèles GUI spécialisés sur les tâches de localisation basique. En revanche, les tâches avancées favorisent encore les modèles spécialisés en GUI, bien qu'ils présentent un surapprentissage significatif et une faible robustesse. Ces résultats soulignent la nécessité de cadres d'évaluation complets et multi-niveaux.
Alors que les modèles de langage de grande taille (LLM) s'étendent au-delà du texte, l'intégration de la parole comme modalité native a donné naissance aux SpeechLLM, qui visent à traduire directement la langue parlée, contournant ainsi les pipelines traditionnels basés sur la transcription. La question de savoir si cette intégration améliore la qualité de la traduction parole-texte par rapport aux architectures en cascade établies reste cependant ouverte. Nous présentons Hearing to Translate, la première suite de tests complète évaluant rigoureusement 5 SpeechLLM de pointe contre 16 systèmes directs et en cascade performants, associant des modèles de fondation audio (SFM) leaders à des LLM multilingues. Notre analyse couvre 16 benchmarks, 13 paires de langues et 9 conditions difficiles, incluant la parole hésitante, bruitée et de longue durée. À travers cette évaluation extensive, nous constatons que les systèmes en cascade restent globalement les plus fiables, tandis que les SpeechLLM actuels n'égalent les cascades que dans des contextes spécifiques, et que les SFM sont à la traîne des deux, soulignant qu'intégrer un LLM, que ce soit au sein du modèle ou dans un pipeline, est essentiel pour une traduction parole-texte de haute qualité.
Les méthodes d'évaluation conventionnelles pour les modèles de langage multimodaux (MLLM) manquent d'interprétabilité et s'avèrent souvent insuffisantes pour révéler complètement les écarts de capacités significatifs entre les modèles. Pour remédier à cela, nous présentons AuditDM, un cadre automatisé qui découvre et corrige activement les modes de défaillance des MLLM en auditant leur divergence. AuditDM affine un MLLM en tant qu'auditeur via l'apprentissage par renforcement pour générer des questions difficiles et des images contrefactuelles qui maximisent le désaccord entre les modèles cibles. Une fois entraîné, l'auditeur découvre des exemples diversifiés et interprétables qui révèlent les faiblesses des modèles et servent de données sans annotation pour la correction. Appliqué à des modèles state-of-the-art comme Gemma-3 et PaliGemma-2, AuditDM découvre plus de 20 types de défaillance distincts. L'affinage sur ces découvertes améliore constamment tous les modèles sur 16 benchmarks, et permet à un modèle de 3B de surpasser son homologue de 28B. Nos résultats suggèrent qu'avec la saturation des gains par l'augmentation des données, l'audit ciblé des modèles offre une voie efficace pour le diagnostic et l'amélioration des modèles.
Les données chronologiques sont essentielles dans de nombreux domaines scientifiques et industriels, notamment l'analyse environnementale, l'agriculture, les transports et la finance. Cependant, l'extraction de connaissances à partir de ces données nécessite généralement une expertise approfondie du domaine, un processus à la fois long et laborieux. Dans cet article, nous proposons Insight Miner, un modèle multimodal à grande échelle conçu pour générer des descriptions de séries temporelles de haute qualité et complètes, enrichies de connaissances spécifiques au domaine. Pour faciliter cela, nous présentons TS-Insights, le premier jeu de données général pour l'alignement des séries temporelles et du langage. TS-Insights contient 100 000 fenêtres de séries temporelles échantillonnées à partir de 20 jeux de données de prévision. Nous avons construit ce jeu de données en utilisant un nouveau flux de travail agentique, où nous utilisons des outils statistiques pour extraire des caractéristiques des séries temporelles brutes avant de les synthétiser en descriptions de tendances cohérentes avec GPT-4. Après un réglage par instruction sur TS-Insights, Insight Miner surpasse les modèles multimodaux de pointe, tels que LLaVA et GPT-4, dans la génération de descriptions et d'analyses de séries temporelles. Nos résultats suggèrent une voie prometteuse pour l'exploitation des modèles multimodaux dans l'analyse des séries temporelles et constituent une étape fondamentale vers la capacité des grands modèles de langage à interpréter les séries temporelles comme une modalité d'entrée native.
Les Transformers de Diffusion (DiTs) établissent l'état de l'art en génération visuelle, mais leur coût quadratique d'auto-attention limite fondamentalement la mise à l'échelle vers de longues séquences de tokens. Les approches récentes d'attention creuse Top-K réduisent le calcul des DiTs en compressant les tokens en une représentation par blocs et en sélectionnant un petit ensemble de blocs clés pertinents, mais souffrent toujours (i) d'un coût de sélection quadratique sur les tokens compressés et (ii) d'un K requis croissant pour maintenir la qualité du modèle à mesure que les séquences s'allongent. Nous identifions que leur inefficacité est due à la conception à niveau unique, un niveau grossier unique étant insuffisant pour représenter la structure globale. Dans cet article, nous présentons Log-linear Sparse Attention (LLSA), un mécanisme d'attention creuse entraînable pour des séquences de tokens extrêmement longues qui réduit les coûts de sélection et d'attention d'une complexité quadratique à log-linéaire en utilisant une structure hiérarchique. LLSA effectue une sélection Top-K hiérarchique, adoptant progressivement une sélection Top-K creuse avec les indices trouvés au niveau précédent, et introduit un mécanisme d'Enrichissement Hiérarchique KV qui préserve le contexte global tout en utilisant moins de tokens de granularité différente pendant le calcul d'attention. Pour supporter un entraînement efficace, nous développons une implémentation GPU haute performance qui n'utilise que des indices creux pour les passes avant et arrière, éliminant le besoin de masques d'attention denses. Nous évaluons LLSA sur la génération d'images en haute résolution dans l'espace pixel sans utiliser de patchification ni d'encodage VAE. LLSA accélère l'inférence d'attention par 28.27x et l'entraînement des DiT par 6.09x sur des séquences de tokens d'images 256x256 pixels, tout en maintenant la qualité de génération. Les résultats démontrent que LLSA offre une direction prometteuse pour entraîner efficacement des DiT à longues séquences. Le code est disponible à l'adresse : https://github.com/SingleZombie/LLSA
Le rendu neuronal pour applications interactives nécessite la traduction des propriétés géométriques et matérielles (G-buffer) en images photoréalistes avec un éclairage réaliste sur une base image par image. Bien que les approches récentes basées sur la diffusion soient prometteuses pour la synthèse d'images conditionnée par le G-buffer, elles présentent des limitations critiques : les modèles mono-image comme RGBX génèrent les images indépendamment sans cohérence temporelle, tandis que les modèles vidéo comme DiffusionRenderer sont trop gourmands en calculs pour la plupart des configurations de jeu grand public et nécessitent des séquences complètes a priori, ce qui les rend inadaptés aux applications interactives où les images futures dépendent de l'entrée utilisateur. Nous présentons FrameDiffuser, un cadre de rendu neuronal autorégressif qui génère des images photoréalistes et temporellement cohérentes en se conditionnant sur les données du G-buffer et sur la sortie précédente du modèle. Après une image initiale, FrameDiffuser fonctionne uniquement sur les données de G-buffer entrantes, comprenant la géométrie, les matériaux et les propriétés de surface, tout en utilisant l'image qu'il a générée précédemment pour le guidage temporel, maintenant ainsi une génération stable et cohérente sur des centaines à des milliers d'images. Notre architecture à double conditionnement combine ControlNet pour le guidage structurel avec ControlLoRA pour la cohérence temporelle. Une stratégie d'entraînement en trois étapes permet une génération autorégressive stable. Nous spécialisons notre modèle à des environnements individuels, en privilégiant la cohérence et la vitesse d'inférence par rapport à une généralisation large, démontrant qu'un entraînement spécifique à l'environnement permet d'atteindre une qualité photoréaliste supérieure avec un éclairage, des ombres et des reflets précis par rapport aux approches généralisées.
Les Flots de Normalisation (NFs) se sont imposés comme un cadre théorique solide pour la modélisation générative. Les NFs standard comprennent un processus direct et un processus inverse : le processus direct transforme les données en bruit, tandis que le processus inverse génère des échantillons en l'inversant. Les transformations directes typiques des NFs sont contraintes par une inversibilité explicite, garantissant que le processus inverse puisse servir d'inverse analytique exact. Les développements récents de TARFlow et de ses variantes ont revitalisé les méthodes NF en combinant les Transformers et les flots autorégressifs, mais ont également mis en évidence le décodage causal comme un goulot d'étranglement majeur. Dans ce travail, nous présentons le Flot de Normalisation Bidirectionnel (BiFlow), un cadre qui supprime le besoin d'une inverse analytique exacte. BiFlow apprend un modèle inverse qui approxime le mapping inverse sous-jacent bruit-vers-données, permettant des fonctions de perte et des architectures plus flexibles. Les expériences sur ImageNet démontrent que BiFlow, comparé à sa contrepartie à décodage causal, améliore la qualité de génération tout en accélérant l'échantillonnage jusqu'à deux ordres de grandeur. BiFlow produit des résultats à l'état de l'art parmi les méthodes basées sur les NFs et des performances compétitives parmi les méthodes à évaluation unique (« 1-NFE »). Suite aux progrès encourageants récents sur les NFs, nous espérons que notre travail attirera une attention accrue sur ce paradigme classique.
Si l'apprentissage par renforcement a réalisé des progrès impressionnants dans le raisonnement des modèles de langage, il reste contraint par la nécessité de récompenses vérifiables. Les méthodes récentes de RL sans vérificateur abordent cette limitation en utilisant les probabilités intrinsèques des LLMs pour générer des réponses de référence comme signaux de récompense. Cependant, ces approches échantillonnent généralement des traces de raisonnement conditionnées uniquement sur la question. Cette conception découple l'échantillonnage des traces de raisonnement des informations de réponse, conduisant à une exploration inefficace et à une incohérence entre les traces et les réponses finales. Dans cet article, nous proposons \b{Coupled Variational Reinforcement Learning} (CoVRL), qui relie l'inférence variationnelle et l'apprentissage par renforcement en couplant des distributions a priori et a posteriori grâce à une stratégie d'échantillonnage hybride. En construisant et en optimisant une distribution composite qui intègre ces deux distributions, CoVRL permet une exploration efficace tout en préservant une forte cohérence pensée-réponse. Des expériences approfondies sur des benchmarks de raisonnement mathématique et général montrent que CoVRL améliore les performances de 12,4 % par rapport au modèle de base et obtient une amélioration supplémentaire de 2,3 % par rapport aux solides méthodes de référence de RL sans vérificateur, fournissant un cadre princié pour améliorer les capacités de raisonnement général des modèles de langage.
L'animation de personnages 3D est une tâche fondamentale en informatique graphique et vision par ordinateur. Cependant, les méthodes existantes comme l'auto-rigging et la génération conditionnée par la pose rencontrent des difficultés telles que la prédiction imprécise des poids d'enveloppe, les imperfections topologiques et le faible respect de la pose, limitant ainsi leur robustesse et leur généralisation. Pour surmonter ces limitations, nous présentons Make-It-Poseable, une nouvelle architecture feed-forward qui reformule l'animation des personnages comme un problème de transformation dans l'espace latent. Au lieu de déformer les vertices du maillage comme dans les approches traditionnelles, notre méthode reconstruit le personnage dans de nouvelles poses en manipulant directement sa représentation latente. Au cœur de notre méthode se trouve un transformeur d'animation latente qui manipule les tokens de forme basés sur le mouvement squelettique. Ce processus est facilité par une représentation dense de la pose pour un contrôle précis. Pour garantir une géométrie haute fidélité et accommoder les changements topologiques, nous introduisons également une stratégie de supervision dans l'espace latent et un module d'achèvement adaptatif. Notre méthode démontre des performances supérieures en qualité d'animation. Elle s'étend naturellement à des applications d'édition 3D comme le remplacement et l'affinage de parties.
Les manipulateurs mobiles domestiques doivent à la fois naviguer et manipuler. Cela nécessite une représentation de scène compacte et sémantiquement riche qui capture la localisation des objets, leur fonctionnalité et les parties actionnables. Les graphes de scène constituent un choix naturel, mais les travaux antérieurs séparent souvent les relations spatiales et fonctionnelles, traitent les scènes comme des instantanés statiques sans états d'objets ni mises à jour temporelles, et négligent les informations les plus pertinentes pour accomplir la tâche en cours. Pour résoudre ces limitations, nous présentons MomaGraph, une représentation de scène unifiée pour agents incarnés qui intègre les relations spatiales-fonctionnelles et les éléments interactifs au niveau des parties. Cependant, faire progresser une telle représentation nécessite à la fois des données appropriées et une évaluation rigoureuse, qui ont largement fait défaut. Nous contribuons donc MomaGraph-Scenes, la première base de données à grande échelle de graphes de scène riches en annotations et orientés tâche dans des environnements domestiques, ainsi que MomaGraph-Bench, une suite d'évaluation systématique couvrant six capacités de raisonnement allant de la planification de haut niveau à la compréhension fine de la scène. Sur cette base, nous développons ensuite MomaGraph-R1, un modèle vision-langage de 7B entraîné par apprentissage par renforcement sur MomaGraph-Scenes. MomaGraph-R1 prédit des graphes de scène orientés tâche et sert de planificateur de tâches zero-shot selon un cadre Graph-then-Plan. Des expériences approfondies démontrent que notre modèle atteint des résultats state-of-the-art parmi les modèles open-source, avec une précision de 71,6% sur le benchmark (+11,4% par rapport au meilleur baseline), tout en généralisant sur des benchmarks publics et en se transférant efficacement à des expériences sur robot réel.
Les progrès récents des modèles de langage multimodaux (MLLM) ont considérablement amélioré la compréhension et le raisonnement intermodaux en intégrant un raisonnement en chaîne de pensée (CoT) dans l'espace sémantique. Sur cette base, des études récentes étendent le mécanisme CoT à la modalité visuelle, permettant aux modèles d'intégrer des informations visuelles durant le raisonnement via des outils externes ou une génération explicite d'images. Cependant, ces méthodes restent dépendantes d'un raisonnement pas-à-pas explicite, d'une interaction perception-raisonnement instable et d'une surcharge computationnelle notable. Inspirés par la cognition humaine, nous postulons que la pensée se déroule non pas linéairement, mais par l'entrelacement dynamique du raisonnement et de la perception au sein de l'esprit. Motivés par cette perspective, nous proposons DMLR, un cadre de raisonnement latent multimodal dynamique en temps de test, qui utilise une optimisation par gradient de politique latente guidée par la confiance pour affiner des tokens de pensée latente en vue d'un raisonnement approfondi. Par ailleurs, une stratégie d'injection visuelle dynamique est introduite, qui récupère les caractéristiques visuelles les plus pertinentes à chaque token de pensée latente et met à jour l'ensemble des meilleurs patchs visuels. Les patchs mis à jour sont ensuite injectés dans le token de pensée latente pour réaliser un entrelacement visuel-textuel dynamique. Les expériences menées sur sept benchmarks de raisonnement multimodal et diverses architectures de modèles démontrent que DMLR améliore significativement les performances de raisonnement et de perception tout en maintenant une haute efficacité d'inférence.
La création de nouveaux concepts visuels nécessite souvent de relier des idées distinctes par leurs attributs partagés les plus pertinents — leur ambiance. Nous présentons le *Vibe Blending*, une nouvelle tâche de génération d'hybrides cohérents et significatifs qui révèlent ces attributs communs entre des images. Réaliser de tels mélanges est un défi pour les méthodes actuelles, qui peinent à identifier et à parcourir des chemins non linéaires reliant des concepts distants dans l'espace latent. Nous proposons le *Vibe Space*, une variété graphique hiérarchique qui apprend des géodésiques en faible dimension dans des espaces de caractéristiques comme CLIP, permettant des transitions fluides et sémantiquement cohérentes entre les concepts. Pour évaluer la qualité créative, nous concevons un cadre inspiré de la cognition combinant des jugements humains, un raisonnement par LLM et un score de difficulté géométrique basé sur le chemin. Nous constatons que le Vibe Space produit des mélanges que les humains jugent systématiquement plus créatifs et cohérents que les méthodes actuelles.
L'évaluation de la qualité des tableaux générés par les grands modèles de langage (LLM) reste un défi ouvert : les métriques existantes soit aplatissent les tableaux en texte, ignorant la structure, soit reposent sur des références fixes qui limitent la généralisation. Nous présentons TabReX, un cadre sans référence et axé sur les propriétés pour évaluer la génération tabulaire via un raisonnement basé sur les graphes. TabReX convertit à la fois le texte source et les tableaux générés en graphes de connaissances canoniques, les aligne via un processus d'appariement guidé par un LLM, et calcule des scores interprétables, conscients d'une grille d'évaluation, qui quantifient la fidélité structurelle et factuelle. La métrique qui en résulte offre des compromis contrôlables entre sensibilité et spécificité, produisant des jugements alignés avec l'humain et des traces d'erreur au niveau cellulaire. Pour évaluer systématiquement la robustesse des métriques, nous introduisons TabReX-Bench, un benchmark à grande échelle couvrant six domaines et douze types de perturbations pilotés par un planificateur sur trois niveaux de difficulté. Les résultats empiriques montrent que TabReX atteint la plus haute corrélation avec les classements d'experts, reste stable sous des perturbations plus difficiles, et permet une analyse fine modèle-contre-prompt, établissant un nouveau paradigme pour l'évaluation fiable et explicable des systèmes de génération structurée.
Le partage de paramètres dans les transformers récursifs réduit la taille du modèle mais entraîne un effondrement de l'expressivité par couche. Nous proposons Mixture of LoRAs (MoL), un mécanisme de calcul conditionnel léger qui insère des experts d'Adaptation de Bas Rang (LoRA) au sein d'un réseau feed-forward partagé (FFN). MoL permet une modulation conditionnelle par token dans l'espace des poids du FFN partagé sans délier les paramètres de la structure de base, contrairement aux approches antérieures qui ajoutent des adaptateurs fixes ou externes. Nous pré-entraînons une architecture récursive modernisée, ModernALBERT, intégrant des embeddings rotationnels, GeGLU, FlashAttention et une initialisation par distillation. Sur GLUE, SQuAD-v2 et BEIR, ModernALBERT (50M–120M) obtient des performances à l'état de l'art parmi les modèles compacts et surpasse des modèles de référence entièrement paramétrés et plus grands. Nous proposons également une procédure de fusion d'experts qui compresse MoL en un seul adaptateur lors de l'inférence tout en préservant la précision, permettant un déploiement efficace. Nos résultats montrent que la modulation conditionnelle dans l'espace des poids restaure efficacement l'expressivité perdue lors d'un partage agressif des paramètres dans les transformers récursifs.
La compréhension visuelle des émotions (VEC) vise à déduire les polarités sentimentales ou les catégories émotionnelles à partir des indices affectifs intégrés dans les images. Ces dernières années, les modèles de langage multimodaux de grande taille (MLLMs) ont établi un paradigme populaire en VEC, tirant parti de leur généralisabilité pour unifier les tâches de VEC définies selon diverses taxonomies émotionnelles. Bien que ce paradigme obtienne un succès notable, il formule généralement la VEC comme une tâche déterministe, exigeant que le modèle produise une étiquette émotionnelle unique et définitive pour chaque image. Une telle formulation ne rend pas suffisamment compte de la subjectivité inhérente à la perception des émotions, négligeant les interprétations alternatives qui pourraient être également plausibles pour différents observateurs. Pour remédier à cette limitation, nous proposons d'équiper les MLLMs de capacités à verbaliser leur confiance dans les prédictions émotionnelles. Ce signal supplémentaire fournit aux utilisateurs une estimation à la fois de la plausibilité des interprétations alternatives et de la compétence auto-évaluée des MLLMs, améliorant ainsi la fiabilité en pratique. Sur la base de cette idée, nous introduisons un cadre d'entraînement en trois étapes qui dote progressivement le modèle d'un raisonnement structuré, lui apprend à verbaliser sa confiance et calibre l'expression de cette confiance, aboutissant à EmoCaliber, un MLLM conscient de la confiance pour la VEC. Grâce à des évaluations équitables et complètes sur le benchmark unifié VECBench, EmoCaliber démontre une supériorité globale par rapport aux méthodes existantes à la fois en prédiction émotionnelle et en estimation de la confiance. Ces résultats valident l'efficacité de notre approche et marquent une étape réalisable vers des systèmes VEC plus fiables. Page du projet : https://github.com/wdqqdw/EmoCaliber.
La supervision de haute qualité du raisonnement mathématique nécessite une diversité de styles de raisonnement, des traces détaillées et une intégration efficace d'outils, des capacités que les ensembles de données existants ne fournissent que de manière limitée. En tirant parti de la capacité de génération multi-mode de gpt-oss-120b, nous présentons Nemotron-Math, un vaste ensemble de données de raisonnement mathématique contenant 7,5 millions de traces de résolution réparties en modes de raisonnement élevé, moyen et faible, chacun disponible avec et sans raisonnement intégrant l'outil Python (TIR). Cet ensemble intègre 85 000 problèmes triés d'AoPS avec 262 000 problèmes communautaires de StackExchange-Math, combinant ainsi des tâches structurées de compétition avec des requêtes mathématiques variées issues du monde réel. Nous menons des évaluations contrôlées pour estimer la qualité de l'ensemble de données. Nemotron-Math surpasse systématiquement l'original OpenMathReasoning sur les problèmes AoPS comparables. L'intégration de StackExchange-Math améliore substantiellement la robustesse et la généralisation, particulièrement sur HLE-Math, tout en préservant la précision sur les benchmarks de compétitions mathématiques. Pour supporter un entraînement efficace en contexte long, nous développons une stratégie séquentielle groupée qui accélère le fine-tuning sur des contextes de 128K par un facteur 2 à 3 sans perte significative de précision. Globalement, Nemotron-Math permet d'atteindre des performances de pointe, incluant une précision maj@16 de 100 % sur AIME 2024 et 2025 avec TIR Python.
L'émergence des grands modèles de langage (LLM) a introduit un nouveau type de programmation : la programmation en langage naturel. En rédigeant des instructions qui dirigent les LLM pour effectuer du traitement du langage naturel, de la génération de code, du raisonnement, etc., les utilisateurs écrivent du code en langage naturel — du code en langage naturel — que le LLM exécute. Un domaine de recherche émergent permet l'interopérabilité entre le code en langage naturel et les langages formels tels que Python. Nous présentons une nouvelle abstraction de programmation, l'état de programme partagé, qui élimine le travail manuel nécessaire pour permettre l'interopérabilité entre le code en langage naturel et l'état du programme. Avec l'état de programme partagé, les programmeurs peuvent écrire du code naturel qui écrit directement des variables de programme, effectue des calculs avec des objets du programme et implémente le flux de contrôle dans le programme. Nous présentons un schéma pour spécifier des interfaces de fonctions naturelles qui étendent les systèmes de programmation pour prendre en charge le code naturel, et nous utilisons ce schéma pour spécifier l'état de programme partagé comme une interface de fonction naturelle. Nous implémentons l'état de programme partagé dans le système de programmation Nightjar. Nightjar permet aux programmeurs d'écrire des programmes Python qui contiennent du code naturel partageant l'état du programme Python. Nous montrons que les programmes Nightjar atteignent une précision de tâche comparable ou supérieure à celle des implémentations manuelles (+4 à 19 %), tout en réduisant le nombre de lignes de code de 39,6 % en moyenne. Le compromis de l'utilisation de Nightjar est qu'il peut entraîner une surcharge d'exécution (temps d'exécution de 0,4 à 4,3 fois celui des implémentations manuelles).