ChatPaper.aiChatPaper

Rapport Technique de LongCat-Image

LongCat-Image Technical Report

December 8, 2025
papers.authors: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu
cs.AI

papers.abstract

Nous présentons LongCat-Image, un modèle fondateur pionnier, open-source et bilingue (chinois-anglais) pour la génération d'images, conçu pour relever les principaux défis liés au rendu de texte multilingue, au photoréalisme, à l'efficacité du déploiement et à l'accessibilité pour les développeurs, qui sont prévalents dans les modèles leaders actuels. 1) Nous y parvenons grâce à des stratégies rigoureuses de curation des données aux étapes de pré-entraînement, d'entraînement intermédiaire et de SFT (Supervised Fine-Tuning), complétées par l'utilisation coordonnée de modèles de récompense curés pendant la phase d'apprentissage par renforcement (RL). Cette stratégie établit le modèle comme un nouvel état de l'art (SOTA), offrant des capacités de rendu de texte supérieures, un photoréalisme remarquable et une qualité esthétique significativement améliorée. 2) Il établit notamment une nouvelle référence industrielle pour le rendu des caractères chinois. En prenant en charge même les caractères complexes et rares, il surpasse les principales solutions open-source et commerciales en termes de couverture, tout en atteignant une précision supérieure. 3) Le modèle atteint une efficacité remarquable grâce à sa conception compacte. Avec un modèle de diffusion principal de seulement 6 milliards de paramètres, il est nettement plus petit que les architectures de type Mixture-of-Experts (MoE) de près de 20 milliards de paramètres ou plus, courantes dans le domaine. Cela garantit une utilisation minimale de la VRAM et une inférence rapide, réduisant significativement les coûts de déploiement. Au-delà de la génération, LongCat-Image excelle également dans l'édition d'images, obtenant des résultats SOTA sur des benchmarks standard avec une cohérence d'édition supérieure par rapport aux autres travaux open-source. 4) Pour autonomiser pleinement la communauté, nous avons établi l'écosystème open-source le plus complet à ce jour. Nous publions non seulement plusieurs versions du modèle pour la génération et l'édition d'images, incluant des points de contrôle après les étapes d'entraînement intermédiaire et final, mais aussi la chaîne d'outils complète de la procédure d'entraînement. Nous croyons que l'ouverture de LongCat-Image fournira un soutien robuste aux développeurs et chercheurs, repoussant les frontières de la création de contenu visuel.
English
We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.
PDF152December 10, 2025