ChatPaper.aiChatPaper

Technisch Verslag LongCat-Image

LongCat-Image Technical Report

December 8, 2025
Auteurs: Meituan LongCat Team, Hanghang Ma, Haoxian Tan, Jiale Huang, Junqiang Wu, Jun-Yan He, Lishuai Gao, Songlin Xiao, Xiaoming Wei, Xiaoqi Ma, Xunliang Cai, Yayong Guan, Jie Hu
cs.AI

Samenvatting

Wij introduceren LongCat-Image, een baanbrekend open-source en tweetalig (Chinees-Engels) foundation model voor beeldgeneratie, ontworpen om kernuitdagingen aan te pakken op het gebied van meertalige tekstweergave, fotorealisme, implementatie-efficiëntie en ontwikkeltoegankelijkheid die prevalent zijn in huidige toonaangevende modellen. 1) Wij bereiken dit door middel van rigoureuze datacuratiestrategieën tijdens de pre-training, mid-training en SFT-fasen, aangevuld met het gecoördineerde gebruik van gecureerde beloningsmodellen tijdens de RL-fase. Deze strategie vestigt het model als een nieuwe state-of-the-art (SOTA), dat superieure tekstweergavecapaciteiten en opmerkelijk fotorealisme levert, en de esthetische kwaliteit aanzienlijk verbetert. 2) Opmerkelijk is dat het een nieuwe industriestandaard zet voor de weergave van Chinese karakters. Door zelfs complexe en zeldzame karakters te ondersteunen, overtreft het zowel grote open-source als commerciële oplossingen in dekking, terwijl het ook superieure nauwkeurigheid bereikt. 3) Het model bereikt opmerkelijke efficiëntie door zijn compacte ontwerp. Met een kern-diffusiemodel van slechts 6B parameters is het aanzienlijk kleiner dan de bijna 20B of grotere Mixture-of-Experts (MoE) architecturen die gebruikelijk zijn in het veld. Dit zorgt voor minimaal VRAM-gebruik en snelle inferentie, wat de implementatiekosten aanzienlijk verlaagt. Naast generatie excelleert LongCat-Image ook in beeldbewerking, waarbij het SOTA-resultaten behaalt op standaard benchmarks met superieure bewerkingsconsistentie vergeleken met andere open-source werken. 4) Om de gemeenschap volledig te empoweren, hebben we het meest uitgebreide open-source ecosysteem tot nu toe opgezet. We brengen niet alleen meerdere modelversies uit voor tekst-naar-beeld en beeldbewerking, inclusief checkpoints na mid-training en post-training fasen, maar ook de complete toolchain van het trainingsproces. Wij geloven dat de openheid van LongCat-Image robuuste ondersteuning zal bieden aan ontwikkelaars en onderzoekers, waardoor de grenzen van visuele contentcreatie worden verlegd.
English
We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.
PDF152December 10, 2025