Lance: Verenigd multimodaal modelleren via multi-task synergie

Samenvatting

Wij presenteren Lance, een lichtgewicht native verenigd model dat multimodale begrip, generatie en bewerking voor zowel afbeeldingen als video's ondersteunt. In plaats van te vertrouwen op schaling van modelcapaciteit of tekst-afbeelding-dominante ontwerpen, verkent Lance een praktisch paradigma voor verenigd multimodaal modelleren via collaboratieve multi-taak training. Het is gebaseerd op twee kernprincipes: verenigde contextmodellering en ontkoppelde capaciteitspaden. Specifiek wordt Lance vanaf nul getraind en maakt het gebruik van een dual-stream mixture-of-experts architectuur op gedeelde interleaved multimodale sequenties, wat gezamenlijk contextleren mogelijk maakt terwijl de paden voor begrip en generatie worden ontkoppeld. We introduceren verder modaliteitsbewuste rotatiepositiescodering om interferentie tussen heterogene visuele tokens te verminderen en cross-taak afstemming te verbeteren. Tijdens de training hanteert Lance een getrapt multi-taak trainingsparadigma met capaciteitsgerichte doelstellingen en adaptieve dataplanning om zowel semantisch begrip als visuele generatieprestaties te versterken. Experimentele resultaten tonen aan dat Lance aanzienlijk beter presteert dan bestaande open-source verenigde modellen in beeld- en videogeneratie, terwijl het sterke multimodale begripscapaciteiten behoudt. De homepage is beschikbaar op https://lance-project.github.io.

English

We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.