Lance: Einheitliche multimodale Modellierung durch Multitask-Synergie

Zusammenfassung

Wir stellen Lance vor, ein leichtgewichtiges natives Unified-Modell, das multimodales Verständnis, Generierung und Editing sowohl für Bilder als auch Videos unterstützt. Anstatt auf eine Skalierung der Modellkapazität oder textbilddominante Designs zu setzen, erforscht Lance ein praktisches Paradigma für unified multimodale Modellierung durch kollaboratives Multi-Task-Training. Es basiert auf zwei Kernprinzipien: unified Kontextmodellierung und entkoppelte Fähigkeitspfade. Konkret wird Lance von Grund auf trainiert und verwendet eine Dual-Stream-Mixture-of-Experts-Architektur auf gemeinsam genutzten verschränkten multimodalen Sequenzen, die gemeinsames Kontextlernen ermöglicht, während die Pfade für Verständnis und Generierung entkoppelt werden. Wir führen ferner modalitätsbewusste rotierende Positionskodierung ein, um Interferenzen zwischen heterogenen visuellen Tokens zu mildern und die Cross-Task-Ausrichtung zu verbessern. Während des Trainings verwendet Lance ein gestaffeltes Multi-Task-Trainingsparadigma mit fähigkeitsorientierten Zielen und adaptiver Datenplanung, um sowohl das semantische Verständnis als auch die visuelle Generierungsleistung zu stärken. Experimentelle Ergebnisse zeigen, dass Lance bestehende Open-Source-Unified-Modelle in der Bild- und Videogenerierung deutlich übertrifft, während es gleichzeitig starke multimodale Verständnisfähigkeiten beibehält. Die Homepage ist verfügbar unter https://lance-project.github.io.

English

We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.