ロングキャット画像技術レポート
LongCat-Image Technical Report
December 8, 2025
著者: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu
cs.AI
要旨
我々は、LongCat-Imageを紹介する。これは革新的なオープンソースかつ二言語(中国語・英語)対応の画像生成基盤モデルであり、現在の主要モデルに広く見られる多言語テキスト描画、写実性、展開効率、開発者アクセシビリティにおける核心的課題に対処するように設計されている。1) これを実現するため、事前学習、中間学習、SFT段階にわたる厳密なデータキュレーション戦略と、RL段階での精選された報酬モデルの協調的使用を組み合わせた。この戦略により、本モデルは新たなState-of-the-Art(SOTA)を確立し、優れたテキスト描画能力と卓越した写実性を実現、美的品質を大幅に向上させている。2) 特に、中国語文字描画において新たな業界標準を打ち立てた。複雑かつレアな文字までサポートすることで、主要なオープンソース及び商用ソリューション両方をカバレッジで凌駕し、さらに優れた正確性を達成している。3) 本モデルはコンパクトな設計により顕著な効率性を実現している。コアとなる拡散モデルのパラメータ数はわずか6Bであり、この分野で一般的な約20B以上のMoE(Mixture-of-Experts)アーキテクチャより大幅に小規模である。これによりVRAM使用量を最小限に抑え、高速な推論を実現し、展開コストを大幅に削減する。生成機能に加え、LongCat-Imageは画像編集にも優れ、標準ベンチマークでSOTA結果を達成し、他のオープンソース作品と比較して優れた編集一貫性を実現している。4) コミュニティを完全にエンパワーするため、我々は現在までで最も包括的なオープンソースエコシステムを構築した。テキストから画像への変換及び画像編集のための複数のモデルバージョン(中間学習後及び学習後段階のチェックポイントを含む)だけでなく、トレーニング手順の全ツールチェーンも公開する。LongCat-Imageのオープン性が、開発者や研究者に強力な支援を提供し、ビジュアルコンテンツ創作のフロンティアを推進すると確信している。
English
We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.