Ланс: единое мультимодальное моделирование посредством синергии множества задач

Аннотация

Мы представляем Lance — легковесную нативную унифицированную модель, поддерживающую мультимодальное понимание, генерацию и редактирование как изображений, так и видео. Вместо того чтобы полагаться на масштабирование ёмкости модели или архитектуры с доминированием текста и изображений, Lance исследует практическую парадигму унифицированного мультимодального моделирования посредством коллаборативного мультизадачного обучения. Она основана на двух ключевых принципах: унифицированное контекстное моделирование и раздельные каналы способностей. В частности, Lance обучается с нуля и использует двухпоточную архитектуру «смесь экспертов» на общих перемежающихся мультимодальных последовательностях, что обеспечивает совместное обучение контексту при разделении каналов для понимания и генерации. Мы дополнительно вводим модально-осведомлённое вращательное позиционное кодирование для снижения интерференции между гетерогенными визуальными токенами и улучшения кросс-задачного выравнивания. В процессе обучения Lance применяет поэтапную мультизадачную парадигму с целевыми функциями, ориентированными на способности, и адаптивным планированием данных для усиления как семантического понимания, так и производительности визуальной генерации. Экспериментальные результаты показывают, что Lance существенно превосходит существующие открытые унифицированные модели в генерации изображений и видео, сохраняя при этом высокие способности к мультимодальному пониманию. Домашняя страница доступна по адресу https://lance-project.github.io.

English

We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.