Lance: Modelado multimodal unificado mediante sinergia multitarea
Lance: Unified Multimodal Modeling by Multi-Task Synergy
May 18, 2026
Autores: Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang
cs.AI
Resumen
Presentamos Lance, un modelo unificado nativo ligero que admite comprensión, generación y edición multimodal tanto para imágenes como para videos. En lugar de depender del escalado de la capacidad del modelo o de diseños dominantes texto-imagen, Lance explora un paradigma práctico para el modelado unificado multimodal mediante entrenamiento colaborativo multitarea. Este enfoque se fundamenta en dos principios básicos: modelado de contexto unificado y rutas de capacidad desacopladas. Específicamente, Lance se entrena desde cero y emplea una arquitectura de mezcla de expertos de doble flujo sobre secuencias multimodales intercaladas compartidas, lo que permite un aprendizaje conjunto del contexto mientras se desacoplan las rutas para comprensión y generación. Además, introducimos una codificación posicional rotatoria con conciencia de modalidad para mitigar la interferencia entre tokens visuales heterogéneos y potenciar la alineación entre tareas. Durante el entrenamiento, Lance adopta un paradigma de entrenamiento multitarea por etapas con objetivos orientados a capacidades y programación adaptativa de datos para fortalecer tanto la comprensión semántica como el rendimiento de generación visual. Los resultados experimentales demuestran que Lance supera sustancialmente a los modelos unificados de código abierto existentes en generación de imágenes y videos, manteniendo al mismo tiempo sólidas capacidades de comprensión multimodal. La página de inicio está disponible en https://lance-project.github.io.
English
We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.