ChatPaper.aiChatPaper

ShareGPT-4o-Image: Multimodale modellen afstemmen op GPT-4o-niveau beeldgeneratie

ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

June 22, 2025
Auteurs: Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
cs.AI

Samenvatting

Recente ontwikkelingen in multimodale generatieve modellen hebben fotorealistische, instructie-afgestemde beeldgeneratie mogelijk gemaakt, maar toonaangevende systemen zoals GPT-4o-Image blijven propriëtair en ontoegankelijk. Om deze mogelijkheden te democratiseren, presenteren we ShareGPT-4o-Image, de eerste dataset die bestaat uit 45K tekst-naar-beeld en 46K tekst-en-beeld-naar-beeld gegevens, allemaal gesynthetiseerd met behulp van GPT-4o's beeldgeneratiecapaciteiten om zijn geavanceerde beeldgeneratievaardigheden te destilleren. Gebruikmakend van deze dataset ontwikkelen we Janus-4o, een multimodaal groot taalmodel dat zowel tekst-naar-beeld als tekst-en-beeld-naar-beeld generatie kan uitvoeren. Janus-4o verbetert niet alleen aanzienlijk de tekst-naar-beeld generatie ten opzichte van zijn voorganger, Janus-Pro, maar ondersteunt ook nieuw tekst-en-beeld-naar-beeld generatie. Opmerkelijk is dat het indrukwekkende prestaties behaalt in tekst-en-beeld-naar-beeld generatie vanaf nul, met slechts 91K synthetische samples en 6 uur training op een 8 A800-GPU machine. We hopen dat de release van ShareGPT-4o-Image en Janus-4o open onderzoek zal bevorderen in fotorealistische, instructie-afgestemde beeldgeneratie.
English
Recent advances in multimodal generative models have unlocked photorealistic, instruction-aligned image generation, yet leading systems like GPT-4o-Image remain proprietary and inaccessible. To democratize these capabilities, we present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and 46K text-and-image-to-image data, all synthesized using GPT-4o's image generation capabilities for distilling its advanced image generation abilities. Leveraging this dataset, we develop Janus-4o, a multimodal large language model capable of both text-to-image and text-and-image-to-image generation. Janus-4o not only significantly improves text-to-image generation over its predecessor, Janus-Pro, but also newly supports text-and-image-to-image generation. Notably, it achieves impressive performance in text-and-image-to-image generation from scratch, using only 91K synthetic samples and 6 hours of training on an 8 A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will foster open research in photorealistic, instruction-aligned image generation.
PDF653June 26, 2025