Lance: Modelado multimodal unificado mediante sinergia multitarea

Resumen

Presentamos Lance, un modelo unificado nativo ligero que admite comprensión, generación y edición multimodal tanto para imágenes como para videos. En lugar de depender del escalado de la capacidad del modelo o de diseños dominantes texto-imagen, Lance explora un paradigma práctico para el modelado unificado multimodal mediante entrenamiento colaborativo multitarea. Este enfoque se fundamenta en dos principios básicos: modelado de contexto unificado y rutas de capacidad desacopladas. Específicamente, Lance se entrena desde cero y emplea una arquitectura de mezcla de expertos de doble flujo sobre secuencias multimodales intercaladas compartidas, lo que permite un aprendizaje conjunto del contexto mientras se desacoplan las rutas para comprensión y generación. Además, introducimos una codificación posicional rotatoria con conciencia de modalidad para mitigar la interferencia entre tokens visuales heterogéneos y potenciar la alineación entre tareas. Durante el entrenamiento, Lance adopta un paradigma de entrenamiento multitarea por etapas con objetivos orientados a capacidades y programación adaptativa de datos para fortalecer tanto la comprensión semántica como el rendimiento de generación visual. Los resultados experimentales demuestran que Lance supera sustancialmente a los modelos unificados de código abierto existentes en generación de imágenes y videos, manteniendo al mismo tiempo sólidas capacidades de comprensión multimodal. La página de inicio está disponible en https://lance-project.github.io.

English

We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.