Relatório Técnico do LongCat-Image
LongCat-Image Technical Report
December 8, 2025
Autores: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu
cs.AI
Resumo
Apresentamos o LongCat-Image, um modelo de base pioneiro, de código aberto e bilíngue (chinês-inglês) para geração de imagens, concebido para enfrentar os principais desafios na renderização de texto multilíngue, no fotorrealismo, na eficiência de implantação e na acessibilidade para programadores, que são predominantes nos modelos líderes atuais. 1) Conseguimos isso através de estratégias rigorosas de curadoria de dados nas fases de pré-treinamento, meio-treinamento e SFT (Fine-Tuning Supervisionado), complementadas pelo uso coordenado de modelos de recompensa curados durante a fase de RL (Aprendizagem por Reforço). Esta estratégia estabelece o modelo como um novo estado da arte (SOTA), oferecendo capacidades superiores de renderização de texto e um fotorrealismo notável, além de melhorar significativamente a qualidade estética. 2) Notavelmente, ele estabelece um novo padrão da indústria para a renderização de caracteres chineses. Ao suportar até mesmo caracteres complexos e raros, supera tanto as principais soluções de código aberto quanto as comerciais em cobertura, ao mesmo tempo que alcança uma precisão superior. 3) O modelo atinge uma eficiência notável através do seu design compacto. Com um modelo de difusão central de apenas 6B de parâmetros, é significativamente menor do que as arquiteturas de Mistura de Especialistas (MoE) de cerca de 20B ou mais, comuns na área. Isso garante um uso mínimo de VRAM e uma inferência rápida, reduzindo significativamente os custos de implantação. Para além da geração, o LongCat-Image também se destaca na edição de imagens, alcançando resultados SOTA em benchmarks padrão com uma consistência de edição superior em comparação com outros trabalhos de código aberto. 4) Para capacitar plenamente a comunidade, estabelecemos o ecossistema de código aberto mais abrangente até à data. Estamos a disponibilizar não apenas várias versões do modelo para texto-para-imagem e edição de imagens, incluindo *checkpoints* após as fases de meio-treinamento e pós-treinamento, mas também toda a cadeia de ferramentas do procedimento de treino. Acreditamos que a abertura do LongCat-Image fornecerá um suporte robusto para programadores e investigadores, impulsionando as fronteiras da criação de conteúdo visual.
English
We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.