**LongCat-Image 기술 보고서** (본 보고서는 LongCat-Image 모델의 아키텍처, 학습 방법론, 성능 평가에 관한 기술적 세부 사항을 다룹니다.)
LongCat-Image Technical Report
December 8, 2025
저자: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu
cs.AI
초록
LongCat-Image를 소개합니다. 이는 이미지 생성 분야의 선구적인 오픈소스 및 중영 이중 언어 기반 모델로, 현재 주류 모델들이 직면한 다국어 텍스트 렌더링, 사실적 화질, 배포 효율성, 개발자 접근성 등의 핵심 과제를 해결하기 위해 설계되었습니다. 1) 사전 학습, 중간 학습, SFT 단계에 걸친 엄격한 데이터 큐레이션 전략과 RL 단계에서의 정교한 보상 모델 연계를 통해 이를 실현하였습니다. 이 전략은 모델이 새로운 SOTA를 달성하여 뛰어난 텍스트 렌더링 능력과 놀라운 사실적 화질, 그리고 크게 향상된 미적 품질을 제공하도록 합니다. 2) 특히 한자 렌더링 분야에 새로운 산업 표준을 제시합니다. 복잡하고 희귀한 문자까지 지원함으로써 커버리지 면에서 주요 오픈소스 및 상용 솔루션들을 능가할 뿐만 아니라 정확도 또한 우수합니다. 3) 이 모델은 컴팩트한 설계로 놀라운 효율성을 달성합니다. 핵심 디퓨전 모델 매개변수가 6B에 불과하여, 해당 분야에서 흔한 20B에 가깝거나 그 이상의 MoE 아키텍처보다 상당히 작습니다. 이는 VRAM 사용량을 최소화하고 추론 속도를 빠르게 하여 배포 비용을 크게 절감합니다. 생성 기능 외에도 LongCat-Image는 이미지 편집에서도 뛰어나며, 다른 오픈소스 작업들에 비해 우수한 편집 일관성을 바탕으로 표준 벤치마크에서 SOTA 성과를 달성합니다. 4) 커뮤니티에 완전한 역량을 부여하기 위해 지금까지 가장 포괄적인 오픈소스 생태계를 구축하였습니다. 중간 학습 및 학습 후 단계의 체크포인트를 포함한 텍스트-이미지 변환 및 이미지 편용용 다중 모델 버전뿐만 아니라 전체 훈련 프로세스 툴체인도 공개합니다. 우리는 LongCat-Image의 개방성이 개발자와 연구자들에게 강력한 지원을 제공하여 시각적 콘텐츠 창작의 최전선을推進할 것이라고 믿습니다.
English
We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.