Technischer Bericht zu LongCat-Bildern
LongCat-Image Technical Report
December 8, 2025
papers.authors: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu
cs.AI
papers.abstract
Wir stellen LongCat-Image vor, ein bahnbrechendes Open-Source- und zweisprachiges (Chinesisch-Englisch) Foundation-Modell zur Bilderzeugung, das entwickelt wurde, um zentrale Herausforderungen in den Bereichen mehrsprachige Textdarstellung, Fotorealismus, Bereitstellungseffizienz und Entwicklerzugänglichkeit anzugehen, die in aktuellen führenden Modellen vorherrschen. 1) Dies erreichen wir durch rigorose Datenkuratierungsstrategien in den Vor-, Mittel- und SFT-Trainingsphasen, ergänzt durch den koordinierten Einsatz kuratierter Belohnungsmodelle während der RL-Phase. Diese Strategie etabliert das Modell als einen neuen State-of-the-Art (SOTA), das überlegene Textdarstellungsfähigkeiten und bemerkenswerten Fotorealismus liefert und die ästhetische Qualität erheblich steigert. 2) Bemerkenswerterweise setzt es einen neuen Industriestandard für die Darstellung chinesischer Schriftzeichen. Durch die Unterstützung selbst komplexer und seltener Zeichen übertrifft es sowohl große Open-Source- als auch kommerzielle Lösungen in Bezug auf Abdeckung und erreicht zugleich überlegene Genauigkeit. 3) Das Modell erreicht eine bemerkenswerte Effizienz durch sein kompaktes Design. Mit einem Kerndiffusionsmodell von nur 6B Parametern ist es deutlich kleiner als die in diesem Bereich üblichen Mixture-of-Experts (MoE)-Architekturen mit fast 20B oder mehr Parametern. Dies gewährleistet einen minimalen VRAM-Verbrauch und schnelle Inferenz, was die Bereitstellungskosten erheblich senkt. Über die Erzeugung hinaus zeichnet sich LongCat-Image auch in der Bildbearbeitung aus und erzielt SOTA-Ergebnisse in Standard-Benchmarks mit überlegener Bearbeitungskonsistenz im Vergleich zu anderen Open-Source-Arbeiten. 4) Um die Community umfassend zu befähigen, haben wir das bislang umfassendste Open-Source-Ökosystem geschaffen. Wir veröffentlichen nicht nur mehrere Modellversionen für Text-zu-Bild und Bildbearbeitung, einschließlich Checkpoints nach Mittel- und Nach-Trainingsphasen, sondern auch die gesamte Toolchain des Trainingsverfahrens. Wir sind überzeugt, dass die Offenheit von LongCat-Image Entwicklern und Forschern eine robuste Unterstützung bieten und die Grenzen der visuellen Inhaltserstellung erweitern wird.
English
We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.