ChatPaper.aiChatPaper

Rapporto Tecnico LongCat-Image

LongCat-Image Technical Report

December 8, 2025
Autori: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu
cs.AI

Abstract

Presentiamo LongCat-Image, un modello fondazionale pionieristico, open-source e bilingue (cinese-inglese) per la generazione di immagini, progettato per affrontare le principali sfide relative al rendering multilingue del testo, al fotorealismo, all'efficienza di deployment e all'accessibilità per gli sviluppatori, criticità riscontrate nei modelli leader attuali. 1) Questo risultato è ottenuto attraverso rigorose strategie di curatela dei dati durante le fasi di pre-training, mid-training e SFT (Supervised Fine-Tuning), affiancate dall'uso coordinato di modelli di reward curati durante la fase di RL (Reinforcement Learning). Tale strategia eleva il modello a un nuovo stato dell'arte (SOTA), garantendo capacità di rendering testuale superiori, un fotorealismo notevole e un significativo miglioramento della qualità estetica. 2) In particolare, il modello stabilisce un nuovo standard industriale per il rendering dei caratteri cinesi. Supportando anche caratteri complessi e rari, supera le principali soluzioni open-source e commerciali sia in termini di copertura che di accuratezza. 3) Il modello raggiunge un'efficienza straordinaria grazie alla sua progettazione compatta. Con un modello di diffusione core di soli 6 miliardi di parametri, è significativamente più piccolo delle architetture Mixture-of-Experts (MoE) da circa 20B parametri o più, comuni in questo campo. Ciò garantisce un utilizzo minimo della VRAM e un'inferenza rapida, riducendo notevolmente i costi di deployment. Oltre alla generazione, LongCat-Image eccelle anche nell'editing di immagini, raggiungendo risultati SOTA su benchmark standard con una superiore coerenza di modifica rispetto ad altri lavori open-source. 4) Per responsabilizzare appieno la comunità, abbiamo stabilito l'ecosistema open-source più completo fino ad oggi. Rilasciamo non solo multiple versioni del modello per text-to-image e image editing, inclusi checkpoint dopo le fasi di mid-training e post-training, ma anche l'intera toolchain del processo di training. Crediamo che l'apertura di LongCat-Image fornirà un supporto robusto a sviluppatori e ricercatori, spingendo in avanti le frontiere della creazione di contenuti visivi.
English
We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.
PDF152December 10, 2025