ChatPaper.aiChatPaper

Ланс: единое мультимодальное моделирование посредством синергии множества задач

Lance: Unified Multimodal Modeling by Multi-Task Synergy

May 18, 2026
Авторы: Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang
cs.AI

Аннотация

Мы представляем Lance — легковесную нативную унифицированную модель, поддерживающую мультимодальное понимание, генерацию и редактирование как изображений, так и видео. Вместо того чтобы полагаться на масштабирование ёмкости модели или архитектуры с доминированием текста и изображений, Lance исследует практическую парадигму унифицированного мультимодального моделирования посредством коллаборативного мультизадачного обучения. Она основана на двух ключевых принципах: унифицированное контекстное моделирование и раздельные каналы способностей. В частности, Lance обучается с нуля и использует двухпоточную архитектуру «смесь экспертов» на общих перемежающихся мультимодальных последовательностях, что обеспечивает совместное обучение контексту при разделении каналов для понимания и генерации. Мы дополнительно вводим модально-осведомлённое вращательное позиционное кодирование для снижения интерференции между гетерогенными визуальными токенами и улучшения кросс-задачного выравнивания. В процессе обучения Lance применяет поэтапную мультизадачную парадигму с целевыми функциями, ориентированными на способности, и адаптивным планированием данных для усиления как семантического понимания, так и производительности визуальной генерации. Экспериментальные результаты показывают, что Lance существенно превосходит существующие открытые унифицированные модели в генерации изображений и видео, сохраняя при этом высокие способности к мультимодальному пониманию. Домашняя страница доступна по адресу https://lance-project.github.io.
English
We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.