InternVL-U : Démocratisation des modèles multimodaux unifiés pour la compréhension, le raisonnement, la génération et l'édition

Résumé

Les modèles multimodaux unifiés (UMM) qui intègrent la compréhension, le raisonnement, la génération et l'édition sont confrontés à des compromis inhérents entre le maintien d'une forte compréhension sémantique et l'acquisition de puissantes capacités de génération. Dans ce rapport, nous présentons InternVL-U, un UMM léger de 4 milliards de paramètres qui démocratise ces capacités au sein d'un cadre unifié. Guidé par les principes de modélisation contextuelle unifiée et de conception modulaire spécifique aux modalités avec des représentations visuelles découplées, InternVL-U intègre un modèle de langage multimodal (MLLM) de pointe avec une tête de génération visuelle spécialisée basée sur MMDiT. Pour combler davantage l'écart entre la génération esthétique et l'intelligence de haut niveau, nous construisons un pipeline complet de synthèse de données ciblant des tâches à haute densité sémantique, telles que le rendu de texte et le raisonnement scientifique, sous un paradigme centré sur le raisonnement qui exploite le « Chain-of-Thought » (Chaîne de Pensée, CoT) pour mieux aligner l'intention abstraite de l'utilisateur avec les détails fins de la génération visuelle. Des expériences approfondies démontrent qu'InternVL-U atteint un équilibre performance-efficacité supérieur. Bien qu'il n'utilise que 4 milliards de paramètres, il surpasse systématiquement les modèles de base unifiés ayant des tailles plus de 3 fois supérieures, tels que BAGEL (14B), sur diverses tâches de génération et d'édition, tout en conservant de solides capacités de compréhension et de raisonnement multimodal.

English

Unified multimodal models (UMMs) that integrate understanding, reasoning, generation, and editing face inherent trade-offs between maintaining strong semantic comprehension and acquiring powerful generation capabilities. In this report, we present InternVL-U, a lightweight 4B-parameter UMM that democratizes these capabilities within a unified framework. Guided by the principles of unified contextual modeling and modality-specific modular design with decoupled visual representations, InternVL-U integrates a state-of-the-art Multimodal Large Language Model (MLLM) with a specialized MMDiT-based visual generation head. To further bridge the gap between aesthetic generation and high-level intelligence, we construct a comprehensive data synthesis pipeline targeting high-semantic-density tasks, such as text rendering and scientific reasoning, under a reasoning-centric paradigm that leverages Chain-of-Thought (CoT) to better align abstract user intent with fine-grained visual generation details. Extensive experiments demonstrate that InternVL-U achieves a superior performance - efficiency balance. Despite using only 4B parameters, it consistently outperforms unified baseline models with over 3x larger scales such as BAGEL (14B) on various generation and editing tasks, while retaining strong multimodal understanding and reasoning capabilities.

InternVL-U : Démocratisation des modèles multimodaux unifiés pour la compréhension, le raisonnement, la génération et l'édition

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Résumé

Support