Informe Técnico de LongCat-Imagen
LongCat-Image Technical Report
December 8, 2025
Autores: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu
cs.AI
Resumen
Presentamos LongCat-Image, un modelo fundacional pionero, de código abierto y bilingüe (chino-inglés) para generación de imágenes, diseñado para abordar los desafíos centrales en la representación de texto multilingüe, el fotorrealismo, la eficiencia de despliegue y la accesibilidad para desarrolladores, problemas prevalentes en los modelos líderes actuales. 1) Lo logramos mediante rigurosas estrategias de curación de datos en las etapas de pre-entrenamiento, entrenamiento intermedio y SFT (Fine-Tuning Supervisado), complementadas con el uso coordinado de modelos de recompensa curados durante la fase de RL (Aprendizaje por Refuerzo). Esta estrategia establece al modelo como un nuevo estado del arte (SOTA), ofreciendo capacidades superiores de representación de texto, un notable fotorrealismo y una mejora significativa en la calidad estética. 2) Cabe destacar que establece un nuevo estándar en la industria para la representación de caracteres chinos. Al admitir incluso caracteres complejos y raros, supera a las principales soluciones tanto de código abierto como comerciales en cobertura, logrando también una precisión superior. 3) El modelo alcanza una eficiencia notable gracias a su diseño compacto. Con un modelo de difusión central de solo 6B de parámetros, es significativamente más pequeño que las arquitecturas Mixture-of-Experts (MoE) de casi 20B o más, comunes en el campo. Esto garantiza un uso mínimo de VRAM y una inferencia rápida, reduciendo significativamente los costos de despliegue. Más allá de la generación, LongCat-Image también sobresale en la edición de imágenes, logrando resultados SOTA en benchmarks estándar con una consistencia de edición superior en comparación con otros trabajos de código abierto. 4) Para empoderar plenamente a la comunidad, hemos establecido el ecosistema de código abierto más completo hasta la fecha. No solo estamos liberando múltiples versiones del modelo para texto-a-imagen y edición de imágenes, incluyendo puntos de control (*checkpoints*) posteriores a las etapas de entrenamiento intermedio y post-entrenamiento, sino también toda la cadena de herramientas del procedimiento de entrenamiento. Creemos que la apertura de LongCat-Image proporcionará un soporte robusto para desarrolladores e investigadores, impulsando las fronteras de la creación de contenido visual.
English
We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.