Lance : Modélisation multimodale unifiée par synergie multi-tâches

Résumé

Nous présentons Lance, un modèle unifié natif et léger prenant en charge la compréhension, la génération et l'édition multimodales pour les images et les vidéos. Plutôt que de reposer sur une augmentation de la capacité du modèle ou des conceptions dominées par le texte-image, Lance explore un paradigme pratique pour la modélisation multimodale unifiée via un apprentissage collaboratif multi-tâches. Il repose sur deux principes fondamentaux : la modélisation unifiée du contexte et les voies de capacité découplées. Spécifiquement, Lance est entraîné à partir de zéro et utilise une architecture dual-stream mixture-of-experts sur des séquences multimodales entrelacées partagées, permettant un apprentissage conjoint du contexte tout en découplant les voies pour la compréhension et la génération. Nous introduisons en outre un encodage positionnel rotatif sensible à la modalité pour atténuer les interférences entre les tokens visuels hétérogènes et améliorer l'alignement inter-tâches. Pendant l'entraînement, Lance adopte un paradigme d'entraînement multi-tâches par étapes avec des objectifs orientés capacités et un ordonnancement adaptatif des données pour renforcer à la fois la compréhension sémantique et les performances de génération visuelle. Les résultats expérimentaux montrent que Lance surpasse substantiellement les modèles unifiés open-source existants en génération d'images et de vidéos, tout en conservant de fortes capacités de compréhension multimodale. La page d'accueil est disponible à l'adresse https://lance-project.github.io.

English

We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.