papers.description
Nous présentons Qwen3-VL, le modèle vision-langage le plus performant de la série Qwen à ce jour, atteignant des résultats supérieurs sur un large éventail de benchmarks multimodaux. Il prend nativement en charge des contextes entrelacés allant jusqu'à 256K tokens, intégrant de manière transparente le texte, les images et la vidéo. La famille de modèles comprend des variantes denses (2B/4B/8B/32B) et à mixture d'experts (30B-A3B/235B-A22B) pour s'adapter à différents compromis latence-qualité. Qwen3-VL repose sur trois piliers fondamentaux : (i) une compréhension du texte pur nettement plus solide, surpassant dans plusieurs cas des modèles de base uniquement textuels comparables ; (ii) une compréhension robuste des contextes longs avec une fenêtre native de 256K tokens pour les entrées textuelles et multimodales entrelacées, permettant une rétention, une récupération et un renvoi fidèles dans de longs documents et vidéos ; et (iii) un raisonnement multimodal avancé pour les tâches sur image unique, images multiples et vidéo, démontrant des performances leaders sur des évaluations complètes telles que MMMU et les benchmarks de raisonnement visuo-mathématique (par exemple, MathVista et MathVision). Sur le plan architectural, nous introduisons trois améliorations clés : (i) un MRoPE entrelacé amélioré pour une modélisation spatio-temporelle plus forte sur les images et la vidéo ; (ii) l'intégration de DeepStack, qui exploite efficacement les caractéristiques ViT multi-niveaux pour resserrer l'alignement vision-langage ; et (iii) un alignement temporel textuel pour la vidéo, évoluant du T-RoPE vers un alignement explicite par horodatages textuels pour un ancrage temporel plus précis. Sous des budgets de tokens et des contraintes de latence comparables, Qwen3-VL atteint des performances supérieures dans les architectures denses et à mixture d'experts (MoE). Nous envisageons Qwen3-VL comme un moteur fondamental pour le raisonnement ancré sur l'image, la prise de décision agentique et l'intelligence du code multimodal dans les flux de travail réels.
Les modèles Vision-Langage-Action (VLA), entraînés via des objectifs d'appariement de flux ou de diffusion, excellent dans l'apprentissage de comportements complexes à partir de jeux de données multi-modales à grande échelle (par exemple, la téléopération humaine, les politiques scriptées). Cependant, comme les VLA intègrent des modes de données divers au stade du pré-entraînement, et que le jeu de données de fine-tuning contient souvent des données de démonstration collectées de manière cinématiquement sous-optimale ou indésirable, il existe des modes d'action redondants qui sont étrangers aux modes d'action de succès de la tâche en aval. Concrètement, nous observons une fragilité critique au moment de l'inférence parmi divers bruits échantillonnés après un fine-tuning supervisé de VLA pré-entraînés. Dans cet article, nous attribuons cette instabilité au décalage de distribution entre la politique du VLA et la politique induite par les modes de succès stables du jeu de données de la tâche en aval. Ainsi, nous proposons TACO, un cadre de mise à l'échelle au moment du test (TTS) qui applique un estimateur de pseudo-comptage léger comme vérificateur haute fidélité de segments d'action. Les modèles VLA intégrés à TACO peuvent exécuter les actions avec le pseudo-comptage maximum parmi tous les segments d'action échantillonnés, empêchant ainsi les décalages de distribution tout en préservant la capacité de généralisation des VLA puisque la contrainte n'est appliquée que pendant l'inférence. Notre méthode ressemble au principe classique d'anti-exploration en apprentissage par renforcement hors-ligne (RL), et étant sans gradient, elle offre des avantages computationnels significatifs par rapport à une mise à jour RL, surtout pour les VLA basés sur des flux ou la diffusion où la mise à jour RL est difficile en raison du processus de débruitage. Des expériences approfondies sur quatre benchmarks de simulation (RoboTwin2.0, Robotwin, LIBERO, SimplerEnv) et une plateforme bi-manuelle démontrent que notre méthode améliore significativement la stabilité de l'inférence et les taux de succès dans les adaptations de tâches en aval.
Imiter le comportement humain pour apprendre activement de l'expérience générale et réaliser l'intelligence artificielle générale a toujours été un rêve humain. Les modèles récents de raisonnement à grande échelle basés sur l'apprentissage par renforcement (RL) démontrent des capacités impressionnantes de niveau expert, par exemple en informatique et en mathématiques, mais reposent encore largement sur des récompenses vérifiables dans des domaines spécifiques, créant un goulot d'étranglement important pour étendre les limites des capacités de raisonnement général. Dans ce travail, nous proposons PretrainZero, un cadre d'apprentissage actif par renforcement construit sur un corpus de pré-entraînement pour étendre le RL du post-entraînement spécifique à un domaine au pré-entraînement général. PretrainZero présente les caractéristiques suivantes : 1) Pré-entraînement actif : s'inspirant de la capacité d'apprentissage actif des humains, PretrainZero apprend une politique de raisonnement unifiée pour identifier activement des contenus pertinents et informatifs dans le corpus de pré-entraînement, et raisonne pour prédire ces contenus via le RL. 2) Apprentissage auto-supervisé : sans aucune étiquette vérifiable, modèle de récompense pré-entraîné ou ajustement fin supervisé, nous pré-entraînons directement des raisonneurs à partir de modèles de base de 3 à 30B sur le corpus général de Wikipédia en utilisant le RL, brisant ainsi significativement le mur des données de vérification pour le raisonnement général. 3) Mise à l'échelle par la vérification : en s'attaquant à des segments masqués de plus en plus difficiles, PretrainZero améliore substantiellement les capacités de raisonnement général des modèles de base pré-entraînés. Lors du pré-entraînement par renforcement, PretrainZero améliore Qwen3-4B-Base de 8,43, 5,96 et 10,60 points respectivement sur les benchmarks MMLU-Pro, SuperGPQA et la moyenne mathématique. En post-entraînement, les modèles pré-entraînés peuvent également servir de modèles de fondation pour le raisonnement dans des tâches RLVR en aval.
Comprendre les différences visuelles entre scènes dynamiques nécessite la perception comparative des changements compositionnels, spatiaux et temporels - une capacité qui reste sous-explorée dans les systèmes vision-langage existants. Si les travaux antérieurs sur la description des différences d'images (IDC) ont permis aux modèles de décrire les changements sémantiques entre images statiques, ces approches échouent à capturer la continuité du mouvement, l'évolution des événements ou la cohérence des modifications dans le temps. Nous introduisons la tâche ViDiC (Description des Différences Vidéo) et son jeu de données correspondant ViDiC-1K, conçu pour évaluer la capacité des Modèles de Langage Multimodaux de Grande Taille (MLLM) à fournir des descriptions granulaires des similarités et différences entre paires de vidéos. ViDiC-1K comprend 1 000 paires de vidéos sélectionnées annotées avec plus de 4 000 éléments de liste de contrôle comparative, couvrant sept catégories : sujet, style, arrière-plan, cinématographie, mouvement, lieu et techniques de lecture. Pour garantir une évaluation fiable, nous proposons un cadre à double liste de contrôle qui mesure séparément la précision des similarités et des différences, basé sur le protocole LLM-comme-juge. Les expériences sur dix-neuf modèles multimodaux représentatifs révèlent un écart de performance significatif dans leurs capacités de description comparative et de perception des différences. Nous espérons que ViDiC-1K pourra constituer un benchmark exigeant jetant des bases solides pour faire progresser la compréhension vidéo, la conscience des modifications et le raisonnement comparatif dans l'intelligence multimodale.
L'apprentissage par renforcement (RL) a récemment obtenu des succès remarquables pour susciter le raisonnement visuel dans les Modèles de Langage Multimodaux de Grande Taille (MLLMs). Cependant, les approches existantes entraînent généralement des modèles séparés pour différentes tâches et traitent le raisonnement sur images et sur vidéos comme des domaines disjoints. Cela limite l'évolutivité vers un généraliste du raisonnement multimodal, ce qui restreint la versatilité pratique et entrave le partage potentiel des connaissances entre les tâches et les modalités. À cette fin, nous proposons OneThinker, un modèle de raisonnement tout-en-un qui unifie la compréhension d'images et de vidéos pour diverses tâches visuelles fondamentales, incluant la réponse à des questions, la description d'images, le repérage spatial et temporel, le suivi et la segmentation. Pour y parvenir, nous avons constitué le corpus d'entraînement OneThinker-600k couvrant toutes ces tâches et avons employé des modèles commerciaux pour l'annotation par Chaîne de Pensée (CoT), produisant ainsi OneThinker-SFT-340k pour un démarrage à froid par Supervised Fine-Tuning (SFT). De plus, nous proposons EMA-GRPO pour gérer l'hétérogénéité des récompenses dans le RL multi-tâches en suivant les moyennes mobiles par tâche des écarts-types des récompenses afin d'optimiser un équilibre. Des expériences approfondies sur divers benchmarks visuels montrent qu'OneThinker offre de solides performances sur 31 benchmarks, couvrant 10 tâches fondamentales de compréhension visuelle. De plus, il présente un transfert de connaissances efficace entre certaines tâches et une capacité préliminaire de généralisation zero-shot, marquant une étape vers un généraliste unifié du raisonnement multimodal. L'ensemble du code, des modèles et des données est publié.
Les modèles de vision et langage (VLM) démontrent une solide compréhension visuelle qualitative, mais peinent avec le raisonnement spatial métriquement précis requis pour les applications embarquées. Le paradigme agentique promet que les VLM peuvent utiliser une grande variété d'outils susceptibles d'augmenter ces capacités, tels que les estimateurs de profondeur, les modèles de segmentation et les estimateurs de pose. Pourtant, la manière de concrétiser cette vision sans se reposer uniquement sur des stratégies d'invitation artisanales ou sur l'imposition de pipelines d'outils prédéfinis et fixes, qui limitent la capacité des VLM à découvrir des schémas optimaux d'utilisation des outils, reste un défi ouvert. L'apprentissage par renforcement pourrait combler cette lacune, mais a jusqu'à présent été limité au raisonnement avec un seul outil visuel en raison du large espace de recherche dans le raisonnement multi-outils. Nous présentons le Double Apprentissage par Renforcement Interactif (DIRL), un framework d'entraînement en deux phases où les VLM apprennent à coordonner plusieurs outils par l'exploration interactive et la rétroaction. Dans la phase d'enseignement, nous combinons des démonstrations d'un spécialiste d'outil unique entraîné via l'apprentissage par renforcement interactif avec des traces d'un modèle de frontière utilisant tous les outils. Dans la phase d'exploration, le modèle affine davantage la coordination multi-outils grâce à un apprentissage par renforcement continu. Notre modèle, SpaceTools, doté d'une capacité de raisonnement spatial augmentée par les outils, obtient des performances de pointe sur des benchmarks de compréhension spatiale (RoboSpatial-Home, BLINK, BOP-ASK) et démontre une manipulation fiable dans le monde réel en utilisant un robot à 7 degrés de liberté comme outil. DIRL apporte des améliorations substantielles par rapport aux lignes de base de l'apprentissage supervisé simple (+12% sur RoboSpatial) et de l'apprentissage par renforcement (+16% sur RoboSpatial). Page du projet : https://spacetools.github.io/.
L'alignement précis entre l'intention de l'utilisateur et les visuels générés reste un défi central dans la génération texte-visuel, car une seule tentative échoue souvent à produire le résultat souhaité. Pour y remédier, les approches antérieures consistent principalement à mettre à l'échelle le processus de génération visuelle (par exemple, en augmentant les étapes d'échantillonnage ou les germes aléatoires), mais cela atteint rapidement un plateau de qualité. Cette limitation provient du fait que l'instruction (prompt), cruciale pour guider la génération, reste fixe. Pour résoudre ce problème, nous proposons le Reparamétrage des Instructions pour la Mise à l'Échelle à l'Inférence (PRIS), un cadre qui révise adaptativement l'instruction pendant l'inférence en réponse aux générations visuelles mises à l'échelle. L'idée centrale de PRIS est d'examiner les visuels générés, d'identifier les motifs d'échec récurrents parmi eux, et de repenser l'instruction en conséquence avant de régénérer les visuels avec l'instruction révisée. Pour fournir un retour d'alignement précis destiné à la révision des instructions, nous introduisons un nouveau vérificateur, la correction factuelle au niveau élémentaire, qui évalue l'alignement entre les attributs de l'instruction et les visuels générés à un niveau granulaire, obtenant des évaluations plus précises et interprétables que les mesures holistiques. Des expériences approfondies sur des benchmarks de génération texte-image et texte-vidéo démontrent l'efficacité de notre approche, incluant un gain de 15% sur VBench 2.0. Ces résultats soulignent que la mise à l'échelle conjointe des instructions et des visuels est essentielle pour tirer pleinement parti des lois d'échelle lors de l'inférence. Les visualisations sont disponibles sur le site : https://subin-kim-cv.github.io/PRIS.
Un modèle mondial véritablement interactif nécessite trois ingrédients clés : un streaming longue durée en temps réel, une mémoire spatiale cohérente et un contrôle utilisateur précis. Cependant, la plupart des approches existantes n'abordent qu'un seul de ces aspects de manière isolée, car atteindre les trois simultanément est extrêmement difficile – par exemple, les mécanismes de mémoire à long terme dégradent souvent les performances en temps réel. Dans ce travail, nous présentons RELIC, un cadre unifié qui relève ces trois défis conjointement. À partir d'une seule image et d'une description textuelle, RELIC permet une exploration avec mémoire et de longue durée de scènes arbitraires en temps réel. Construit sur des techniques récentes de distillation de diffusion vidéo autorégressive, notre modèle représente la mémoire à long horizon en utilisant des jetons latents historiques hautement compressés, encodés avec des actions relatives et des poses de caméra absolues dans le cache KV. Cette structure de mémoire compacte et consciente de la caméra supporte une récupération de contenu implicite cohérente en 3D et assure une cohérence à long terme avec une surcharge computationnelle minimale. En parallèle, nous affinons un modèle enseignant vidéo bidirectionnel pour générer des séquences au-delà de son horizon d'entraînement initial de 5 secondes, et le transformons en un générateur étudiant causal en utilisant un nouveau paradigme d'auto-forçage économe en mémoire qui permet une distillation en contexte complet sur de longues séquences enseignantes ainsi que sur de longues auto-générations étudiantes. Implémenté sous la forme d'un modèle de 14 milliards de paramètres et entraîné sur un jeu de données soigneusement sélectionné rendu avec Unreal Engine, RELIC atteint une génération en temps réel à 16 FPS tout en démontrant un suivi d'action plus précis, un streaming longue durée plus stable et une récupération de mémoire spatiale plus robuste que les travaux antérieurs. Ces capacités établissent RELIC comme une base solide pour la prochaine génération de modélisation mondiale interactive.
Les modèles de langage multimodaux (MLLM) qui raisonnent avec des images peuvent utiliser des outils de manière interactive pour traiter des entrées visuelles, mais les approches actuelles reposent souvent sur un ensemble restreint d'outils présentant une utilité pratique et une évolutivité limitées. Dans ce travail, nous révélons d'abord une faiblesse critique et jusqu'alors négligée : même les MLLM les plus avancés sont étonnamment fragiles, affichant une dégradation significative des performances sur des images subissant de simples changements d'orientation ou des corruptions naturelles, ce qui souligne la nécessité d'un raisonnement basé sur les outils plus robuste. Pour y remédier, nous proposons CodeVision, un cadre flexible et évolutif où le code sert d'outil universel : le modèle génère du code comme interface pour invoquer n'importe quelle opération image, dépassant ainsi les registres d'outils fixes. Nous entraînons notre modèle selon une méthodologie en deux étapes, commençant par un Fine-Tuning Supervisé (SFT) sur un jeu de données de haute qualité conçu pour la composition d'outils multi-tours complexes et la récupération d'erreurs, suivi d'un Apprentissage par Renforcement (RL) avec une nouvelle fonction de récompense de processus dense pour encourager une utilisation stratégique et efficace des outils. Pour faciliter cette recherche, nous construisons de nouveaux jeux de données pour le SFT et le RL et introduisons une nouvelle suite de benchmarks exigeants conçue pour évaluer rigoureusement la robustesse aux changements d'orientation et le raisonnement multi-outils. Les expériences sur les séries Qwen2.5-VL et Qwen3-VL montrent que notre approche améliore significativement les performances du modèle et favorise l'émergence de capacités telles que la composition flexible d'outils, l'exécution enchaînée efficace et la récupération robuste des erreurs via les retours d'exécution. Le code est disponible à l'adresse https://github.com/ByteDance-BandAI/CodeVision.
Les Flots de Normalisation (NFs) sont une classe de modèles génératifs caractérisés par une architecture mathématiquement inversible, où la passe avant transforme les données en un espace latent pour l'estimation de densité, et la passe arrière génère de nouveaux échantillons à partir de cet espace. Cette caractéristique crée une synergie intrinsèque entre l'apprentissage de représentations et la génération de données. Cependant, la qualité générative des NFs standards est limitée par de faibles représentations sémantiques issues de l'optimisation de vraisemblance logarithmique. Pour y remédier, nous proposons une nouvelle stratégie d'alignement qui exploite créativement l'inversibilité des NFs : au lieu de régulariser la passe avant, nous alignons les caractéristiques intermédiaires de la passe générative (arrière) avec les représentations d'un modèle de fondation visuel puissant, démontrant une efficacité supérieure à un alignement naïf. Nous introduisons également un nouvel algorithme d'optimisation à l'inférence, sans apprentissage supplémentaire, pour la classification, qui fournit une évaluation plus intrinsèque des connaissances sémantiques encodées dans le NF. Des expériences complètes démontrent que notre approche accélère l'entraînement des NFs par plus de 3,3 fois, tout en apportant des améliorations significatives tant en qualité générative qu'en précision classification. De nouveaux résultats state-of-the-art pour les NFs sont établis sur ImageNet 64×64 et 256×256. Notre code est disponible à l'adresse https://github.com/MCG-NJU/FlowBack.
L'alignement des grands modèles de langage (LLM) avec les préférences humaines repose généralement sur une supervision externe, qui présente des limites critiques : les annotations humaines sont rares et subjectives, les modèles de récompense sont vulnérables au détournement de récompense, et les méthodes d'auto-évaluation souffrent de sensibilité aux prompts et de biais. Dans ce travail, nous proposons le rang stable, un signal de qualité intrinsèque et sans annotation dérivé des représentations du modèle. Le rang stable mesure la dimension effective des états cachés en calculant le ratio de la variance totale sur la variance dans la direction dominante, capturant la qualité via la manière dont l'information se répartit entre les dimensions de représentation. Empiriquement, le rang stable atteint une précision de 84,04 % sur RewardBench et améliore la précision des tâches de 11,3 points de pourcentage en moyenne par rapport au décodage glouton via un échantillonnage Best-of-N. En tirant parti de cette idée, nous introduisons l'Optimisation de Politique Relative par Groupe de Rangs Stables (SR-GRPO), qui utilise le rang stable comme signal de récompense pour l'apprentissage par renforcement. Sans supervision externe, SR-GRPO améliore les performances de Qwen2.5-1.5B-Instruct de 10 % sur les STEM et de 19 % sur le raisonnement mathématique, surpassant à la fois les modèles de récompense appris et les lignes de base en auto-évaluation. Nos résultats démontrent que des signaux de qualité peuvent être extraits de la géométrie interne du modèle, ouvrant une voie vers un alignement scalable sans supervision externe.
Bien que les unités de traitement neuronal (NPU) offrent une efficacité théorique élevée pour l'IA de périphérie, les modèles vision-langage (VLM) de pointe conçus pour les GPU échouent souvent sur ces substrats matériels. Nous attribuons cette inadéquation matériel-modèle à deux facteurs principaux : la fragilité des Vision Transformers (ViT) face à la quantification et la nature liée aux entrées-sorties des mécanismes d'attention autorégressifs, qui n'exploitent pas le débit arithmétique élevé des NPU. Pour combler cet écart, nous proposons AutoNeural, une architecture VLM native des NPU co-conçue pour une inférence en entiers uniquement. Nous remplaçons l'encodeur ViT standard par un squelette de type MobileNetV5 utilisant des convolutions séparables en profondeur, garantissant des distributions d'activation bornées pour une quantification INT4/8/16 stable. En complément, notre squelette linguistique intègre les principes des modèles à espace d'états (SSM) avec des couches Transformer, employant des convolutions à porte efficace pour atteindre une complexité linéaire. Cette conception hybride élimine la surcharge importante d'E/S mémoire due à la mise en cache des clés-valeurs pendant la génération. Notre approche procure des gains d'efficacité substantiels, réduisant l'erreur de quantification de l'encodeur visuel jusqu'à 7 fois et la latence de bout en bout de 14 fois par rapport aux solutions conventionnelles. AutoNeural offre également une vitesse de décodage 3 fois supérieure et une fenêtre de contexte 4 fois plus longue que la référence. Nous validons ces améliorations via une étude de cas automobile réaliste sur le SoC Qualcomm SA8295P, démontrant des performances en temps réel pour les applications d'habitacle. Nos résultats soulignent que repenser la topologie des modèles spécifiquement pour les contraintes des NPU est un prérequis pour une intelligence multi-modale robuste en périphérie.
La cuisine est une activité séquentielle et visuellement ancrée, où chaque étape telle que la découpe, le mélange ou la friture possède à la fois une logique procédurale et une sémantique visuelle. Bien que les modèles de diffusion récents aient démontré de solides capacités en génération d'images à partir de texte, ils peinent à gérer des scénarios structurés à multiples étapes comme l'illustration de recettes. De plus, les méthodes actuelles d'illustration de recettes sont incapables de s'adapter à la variabilité naturelle de la longueur des recettes, générant un nombre fixe d'images indépendamment de la structure réelle des instructions. Pour résoudre ces limitations, nous présentons CookAnything, un cadre flexible et cohérent basé sur la diffusion qui génère des séquences d'images cohérentes et sémantiquement distinctes à partir d'instructions culinaires textuelles de longueur arbitraire. Le cadre introduit trois composants clés : (1) le Contrôle Régional par Étape (SRC), qui aligne les étapes textuelles avec les régions d'image correspondantes dans un seul processus de débruitage ; (2) le RoPE Flexible, un mécanisme d'encodage positionnel sensible aux étapes qui améliore à la fois la cohérence temporelle et la diversité spatiale ; et (3) le Contrôle de Cohérence Trans-Étapes (CSCC), qui maintient la cohérence fine des ingrédients à travers les étapes. Les résultats expérimentaux sur des benchmarks d'illustration de recettes montrent que CookAnything surpasse les méthodes existantes dans des contextes avec et sans apprentissage. Le cadre proposé prend en charge la synthèse visuelle évolutive et de haute qualité d'instructions complexes à multiples étapes et présente un potentiel significatif pour des applications étendues dans les médias pédagogiques et la création de contenu procédural.
Depuis 2019, le Hugging Face Model Hub constitue la principale plateforme mondiale pour le partage de modèles d'IA à poids ouverts. En publiant un jeu de données retraçant l'historique complet des téléchargements hebdomadaires de modèles (juin 2020 - août 2025) ainsi que les métadonnées associées, nous proposons l'analyse la plus rigoureuse à ce jour des dynamiques de concentration et des caractéristiques évolutives de l'économie des modèles ouverts. Notre analyse porte sur 851 000 modèles, plus de 200 attributs agrégés par modèle et 2,2 milliards de téléchargements. Nous constatons une reconfiguration fondamentale des rapports de force économiques : la domination de l'industrie américaine (Google, Meta, OpenAI) sur les modèles à poids ouverts a considérablement diminué au profit de développeurs indépendants, d'organisations communautaires et, à partir de 2025, de l'industrie chinoise, les modèles DeepSeek et Qwen annonçant potentiellement une nouvelle consolidation du pouvoir de marché. Nous identifions des changements statistiquement significatifs dans les propriétés des modèles : une multiplication par 17 de la taille moyenne des modèles, une croissance rapide de la génération multimodale (x3,4), de la quantification (x5) et des architectures de type mixture d'experts (x7), parallèlement à un déclin préoccupant de la transparence des données, les modèles à poids ouverts dépassant pour la première fois en 2025 les modèles véritablement open source. Nous mettons en lumière l'émergence d'une nouvelle couche d'intermédiaires techniques, spécialisés dans la quantification et l'adaptation des modèles de base pour des gains d'efficacité et une expressivité artistique. Pour favoriser la poursuite des recherches et la surveillance du secteur, nous publions le jeu de données complet ainsi qu'un tableau de bord interactif permettant un suivi en temps réel des dynamiques de concentration et de l'évolution des propriétés dans l'économie des modèles ouverts.
Nous présentons Jina-VLM, un modèle vision-langage de 2,4 milliards de paramètres qui atteint des performances de pointe en question-réponse visuelle multilingue parmi les VLM ouverts de taille comparable (environ 2B). Le modèle associe un encodeur visuel SigLIP2 à un backbone linguistique Qwen3 via un connecteur par pooling d'attention qui permet un traitement efficace en tokens d'images à résolution arbitraire. Sur des benchmarks standards d'évaluation VQA et des évaluations multilingues, Jina-VLM surpasse les modèles comparables tout en conservant des performances compétitives en traitement de texte seul.
L'évaluation des modèles d'alignement image-texte comme CLIP est cruciale pour relier les représentations visuelles et linguistiques. Cependant, les benchmarks existants reposent sur des perturbations basées sur des règles ou des légendes courtes, limitant leur capacité à mesurer l'alignement fin. Nous présentons AlignBench, un benchmark qui fournit un nouvel indicateur d'alignement image-texte en évaluant des paires image-légende détaillées générées par divers modèles image-texte et texte-image. Chaque phrase est annotée pour sa justesse, permettant l'évaluation directe des modèles de vision et langage (VLM) en tant qu'évaluateurs d'alignement. L'analyse comparative d'un large éventail de VLM à décodeur révèle trois résultats clés : (i) les modèles basés sur CLIP, même ceux conçus pour le raisonnement compositionnel, restent quasiment aveugles ; (ii) les détecteurs surestiment systématiquement les premières phrases ; et (iii) ils présentent une forte auto-préférence, favorisant leurs propres sorties et nuisant aux performances de détection. Notre page projet sera disponible à l'adresse https://dahlian00.github.io/AlignBench/.
Nous présentons Doublespeak, une attaque simple de détournement de représentation contextuelle contre les grands modèles de langage (LLM). Cette attaque fonctionne en remplaçant systématiquement un mot-clé nocif (par exemple, bombe) par un jeton anodin (par exemple, carotte) dans plusieurs exemples contextuels, étant donné un préfixe à une requête dangereuse. Nous démontrons que cette substitution conduit la représentation interne du jeton anodin à converger vers celle du terme nocif, intégrant efficacement la sémantique dangereuse sous un euphémisme. En conséquence, des invites superficiellement innocentes (par exemple, « Comment construire une carotte ? ») sont interprétées en interne comme des instructions interdites (par exemple, « Comment construire une bombe ? »), contournant ainsi l'alignement de sécurité du modèle. Nous utilisons des outils d'interprétabilité pour montrer que cette réécriture sémantique émerge couche par couche, les significations bénignes des premières couches convergeant vers une sémantique nocive dans les couches ultérieures. Doublespeak ne nécessite aucune optimisation, est largement transférable entre familles de modèles, et obtient des taux de réussite élevés sur les systèmes propriétaires et open-source, atteignant 74 % de taux d'attaque réussie (ASR) sur Llama-3.3-70B-Instruct avec une simple phrase de substitution contextuelle. Nos résultats mettent en lumière une nouvelle surface d'attaque dans l'espace latent des LLM, révélant que les stratégies d'alignement actuelles sont insuffisantes et devraient plutôt opérer au niveau des représentations.
Le déploiement de grands modèles de langage (LLM) sur les plates-formes mobiles rencontre des défis significatifs en raison de la mémoire limitée et des ressources computationnelles partagées de l'appareil. La disponibilité des ressources peut poser problème car elle est directement impactée par la charge de travail actuelle de l'appareil, ajoutant à l'incertitude du déploiement des modèles. Nous présentons UniQL, un cadre unifié de quantification après entraînement et de compression de faible rang avec des taux d'élagage configurables sur l'appareil pour les LLMs en périphérie. UniQL est un cadre général qui intègre la quantification et la compression de faible rang pour les Transformers, les modèles à espace d'états (SSM) et les modèles hybrides afin de prendre en charge diverses applications de périphérie. Dans notre cadre conjoint proposé, nous introduisons une méthode efficace de tri structurel des poids qui accélère les calculs par 20x, une décomposition en valeurs singulières (SVD) sensible à la quantification pour minimiser les erreurs de quantification, un tri des poids tenant compte de l'état pour les SSMs, et un noyau fusionné pour l'encodage positionnel rotatif (RoPE) dans les modèles élagués. Notre cadre effectue le tri des poids, le réglage fin et la quantification dans le cloud via un flux de travail en une seule passe, tout en permettant des taux d'élagage configurables sur l'appareil allant jusqu'à 35%. Nos expériences montrent que les modèles quantifiés et élagués atteignent une réduction de mémoire de 4x à 5.7x et une amélioration du débit de tokens de 2.7x à 3.4x, tout en maintenant une précision à moins de 5% des modèles originaux avec un élagage de 15% pour les Transformers (Llama3 et Qwen2.5), les SSMs (Mamba2) et les modèles hybrides (Nemotron-H et Bamba-v2). Le code et les modèles quantifiés sont disponibles à l'adresse : https://github.com/enyac-group/UniQL.
Les modèles de raisonnement exploitant de longues chaînes de pensée mobilisent diverses compétences cognitives, telles que la vérification de leurs réponses, le retour en arrière, la réessai par une méthode alternative, et plus encore. Des travaux antérieurs ont montré que lorsqu'un modèle de langage de base présente ces compétences, un entraînement supplémentaire de ce modèle par apprentissage par renforcement (RL) peut lui apprendre à les exploiter. Comment pouvons-nous amener les modèles à exploiter des compétences qui ne sont pas présentes dans les modèles de base ? Notre travail, SkillFactory, est une méthode de fine-tuning qui permet aux modèles d'acquérir approximativement ces compétences lors d'une étape de fine-tuning supervisé (SFT) avant le RL. Notre approche ne repose pas sur la distillation d'un modèle plus performant, mais utilise plutôt des échantillons provenant du modèle lui-même, réorganisés pour fournir des données d'entraînement correspondant au format de ces compétences. Ces traces SFT "argentées" peuvent être imparfaites, mais elles restent efficaces pour préparer un modèle à acquérir des compétences pendant le RL. Notre évaluation montre que (1) partir d'une initialisation SFT par SkillFactory aide un modèle à généraliser sur des variantes plus difficiles d'une tâche après le RL, malgré des performances inférieures avant le RL ; (2) les compétences cognitives sont bien utilisées par le modèle ; (3) les modèles SkillFactory entraînés par RL sont plus robustes face à la régression sur des tâches hors domaine que les modèles de base entraînés par RL. Notre travail suggère que les biais inductifs appris avant le RL aident les modèles à acquérir une utilisation robuste des compétences cognitives.
L'application des modèles multimodaux de grande taille (LMMs) à la compréhension de vidéos longues est limitée par la longueur de contexte restreinte et le coût computationnel prohibitif du traitement des tokens vidéo denses. Par conséquent, les recherches récentes se sont concentrées sur la sélection de trames sensible à la requête, des méthodes qui entraînent souvent une surcharge computationnelle significative. Cet article remet en cause l'hypothèse selon laquelle de tels mécanismes de recherche complexes sont universellement nécessaires. Nous identifions et validons d'abord une typologie de requêtes distinguant la requête globale de la requête localisée. Nous démontrons que si l'échantillonnage uniforme est à la fois efficace et efficient pour les requêtes globales, les requêtes localisées nécessitent effectivement une sélection sensible à la requête pour des performances optimales. En nous appuyant sur cette observation, nous proposons DIG, un cadre de sélection de trames sans apprentissage qui adapte sa stratégie en fonction du type de requête. Concrètement, DIG utilise un échantillonnage uniforme efficace pour les requêtes globales tout en activant un pipeline spécialisé pour extraire les trames pertinentes pour les requêtes localisées. Les expériences menées sur trois benchmarks de compréhension de vidéos longues démontrent que DIG surpasse constamment les méthodes de référence existantes et améliore robustement les performances des LMM, même lorsque le nombre de trames en entrée est augmenté jusqu'à 256.
Les modèles vision-langage (VLM) ont obtenu des succès remarquables dans les tâches de question-réponse visuelle, mais leur dépendance à un grand nombre de tokens visuels introduit une surcharge computationnelle significative. Bien que les approches existantes de VLM efficaces réduisent les tokens visuels par une compression à ratio fixe, elles opèrent passivement et manquent de capacité à s'adapter aux exigences variables des tâches. Cela soulève une question fondamentale : Les VLM peuvent-ils déterminer de manière autonome le nombre minimum de tokens visuels requis pour chaque échantillon ? Inspiré par les mécanismes de vision active humaine, nous introduisons AdaptVision, un paradigme de VLM efficace qui permet l'acquisition adaptative de tokens visuels via une approche grossière à fine. Notre modèle traite d'abord des tokens visuels compressés provenant d'images basse résolution et acquiert sélectivement des informations visuelles supplémentaires en invoquant un outil de boîte englobante pour recadrer les régions clés lorsque nécessaire. Nous entraînons AdaptVision en utilisant un cadre d'apprentissage par renforcement qui équilibre soigneusement précision et efficacité. Au cœur de notre approche se trouve l'Optimisation de Politique à Tours Découplés (DTPO), qui dissocie l'objectif d'apprentissage en deux composantes : (1) l'apprentissage d'outil, qui optimise l'utilisation correcte de l'outil, et (2) l'amélioration de la précision, qui affine les réponses générées pour améliorer l'exactitude des réponses. Sur la base de cette formulation, nous découplons davantage l'estimation de l'avantage en calculant des avantages distincts pour les tokens associés à chaque objectif. Cette formulation permet une optimisation plus efficace pour AdaptVision comparée au GRPO standard. Des expériences complètes sur plusieurs benchmarks de VQA démontrent qu'AdaptVision atteint une performance supérieure tout en consommant substantiellement moins de tokens visuels que les méthodes état de l'art de VLM efficaces.
Les modèles de diffusion montrent un potentiel pour le débruitage dynamique des scènes ; cependant, les études existantes ne parviennent souvent pas à exploiter la nature intrinsèque du processus de flou au sein des modèles de diffusion, limitant ainsi leur plein potentiel. Pour résoudre ce problème, nous présentons un modèle de diffusion de flou (BlurDM), qui intègre de manière transparente le processus de formation du flou dans la diffusion pour le débruitage d'image. En observant que le flou de mouvement provient d'une exposition continue, BlurDM modélise implicitement le processus de formation du flou grâce à un schéma avant de double diffusion, diffusant à la fois le bruit et le flou sur une image nette. Durant le processus de génération inverse, nous dérivons une formulation de double débruitage et de défloutage, permettant à BlurDM de restaurer l'image nette en débruitant et défloutant simultanément, à partir d'un bruit gaussien pur conditionné par l'image floue en entrée. De plus, pour intégrer efficacement BlurDM dans les réseaux de défloutage, nous exécutons BlurDM dans l'espace latent, formant un réseau de génération de prior flexible pour le défloutage. Des expériences approfondies démontrent que BlurDM améliore significativement et constamment les méthodes de défloutage existantes sur quatre ensembles de données de référence. Le code source est disponible à l'adresse https://github.com/Jin-Ting-He/BlurDM.
Les mécanismes d'attention constituent le cœur des modèles de fondation, mais leur complexité quadratique reste un goulot d'étranglement critique pour leur passage à l'échelle. Ce défi a motivé le développement de mécanismes d'attention efficaces, la parcimonie émergeant comme le paradigme dominant. Les méthodes actuelles conservent ou rejettent généralement des blocs clé-valeur entiers avec des masques binaires, entraînant une perte d'information substantielle sous forte sparsité. Pour combler cet écart, nous présentons Pyramid Sparse Attention (PSA), un module polyvalent applicable aux tâches de compréhension et de génération vidéo. Au lieu d'un masquage binaire, PSA introduit des représentations KV poolées multi-niveaux, permettant une granularité de masque plus fine. Plus précisément, chaque bloc de requêtes alloue dynamiquement des niveaux de pooling inférieurs aux blocs KV critiques et des niveaux supérieurs aux moins importants, créant une interpolation informative entre la rétention complète et l'élagage total. Cette conception, analogue à la quantification en virgule fixe et aux réseaux pyramidaux classiques en vision par ordinateur, atténue efficacement la perte d'information tout en préservant l'efficacité computationnelle avec un budget de calcul réduit. Elle fonctionne avec un noyau natif, adapté au matériel, qui tire parti d'une conception bloc-tuile découplée pour garantir une exécution efficace. Sur les benchmarks de compréhension et de génération vidéo, PSA préserve l'information contextuelle et la fidélité visuelle, surpassant constamment ou atteignant des performances comparables aux bases de référence d'attention parcimonieuse existantes avec des compromis efficacité-qualité supérieurs. Notre code et les poids des modèles sont disponibles publiquement à l'adresse : http://ziplab.co/PSA
La conception graphique constitue la pierre angulaire de la communication visuelle moderne, servant de médium essentiel à la promotion d'événements culturels et commerciaux. Des avancées récentes ont exploré l'automatisation de ce processus à l'aide de modèles multimodaux de grande taille (LMM), mais les méthodes existantes produisent souvent des mises en page géométriquement inexactes et manquent de capacités d'édition itératives et spécifiques aux calques nécessaires aux flux de travail professionnels. Pour résoudre ces limitations, nous présentons PosterCopilot, un cadre qui fait progresser le raisonnement spatial et l'édition contrôlable pour la conception graphique professionnelle. Spécifiquement, nous introduisons une stratégie d'entraînement progressive en trois étapes dotant les LMM de compréhension géométrique et de raisonnement esthétique pour la conception de mises en page, comprenant : le Fine-Tuning Supervisé Perturbé, l'Apprentissage par Renforcement pour l'Alignement Visuel-Réalité, et l'Apprentissage par Renforcement à partir de Retours Esthétiques. De plus, nous développons un flux de travail complet couplant le modèle de conception basé sur LMM entraîné avec des modèles génératifs, permettant une édition itérative contrôlable par calques pour un affinage précis des éléments tout en préservant la cohérence visuelle globale. Des expérimentations approfondies démontrent que PosterCopilot produit des mises en page géométriquement précises et esthétiquement supérieures, offrant une contrôlabilité sans précédent pour la conception itérative professionnelle.
Nous présentons l'attaque par confusion antagoniste, une nouvelle classe de menaces contre les modèles de langage multimodaux de grande taille (MLLM). Contrairement aux contournements de sécurité ou aux erreurs de classification ciblées, l'objectif est d'induire une perturbation systématique amenant le modèle à générer des sorties incohérentes ou incorrectes avec une confiance élevée. Les applications pratiques incluent l'intégration de telles images antagoniques dans des sites web pour empêcher les agents IA alimentés par des MLLM de fonctionner de manière fiable. L'attaque proposée maximise l'entropie du token suivant en utilisant un petit ensemble de MLLM open-source. Dans le scénario en boîte blanche, nous montrons qu'une seule image antagonique peut perturber tous les modèles de l'ensemble, tant dans le contexte d'image complète que dans le cadre d'Adversarial CAPTCHA. Bien que reposant sur une technique antagoniste basique (PGD), l'attaque génère des perturbations qui se transfèrent à la fois vers des modèles open-source non vus (par exemple, Qwen3-VL) et propriétaires (par exemple, GPT-5.1).