Lance: Modelagem Multimodal Unificada por Sinergia de Múltiplas Tarefas

Resumo

Apresentamos o Lance, um modelo nativo unificado e leve que suporta compreensão, geração e edição multimodais tanto para imagens quanto para vídeos. Em vez de depender de escalonamento da capacidade do modelo ou de projetos dominados por texto-imagem, o Lance explora um paradigma prático para modelagem multimodal unificada por meio de treinamento colaborativo multitarefa. Ele se fundamenta em dois princípios centrais: modelagem unificada de contexto e caminhos de capacidade desacoplados. Especificamente, o Lance é treinado do zero e emprega uma arquitetura de mistura de especialistas de fluxo duplo em sequências multimodais intercaladas compartilhadas, possibilitando aprendizado conjunto de contexto enquanto desacopla os caminhos para compreensão e geração. Adicionalmente, introduzimos a codificação posicional rotativa ciente de modalidade para mitigar interferências entre tokens visuais heterogêneos e impulsionar o alinhamento entre tarefas. Durante o treinamento, o Lance adota um paradigma de treinamento multitarefa em etapas com objetivos orientados a capacidade e agendamento adaptativo de dados para fortalecer tanto a compreensão semântica quanto o desempenho de geração visual. Resultados experimentais demonstram que o Lance supera substancialmente os modelos unificados de código aberto existentes em geração de imagem e vídeo, ao mesmo tempo em que mantém capacidades robustas de compreensão multimodal. A página inicial está disponível em https://lance-project.github.io.

English

We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.