ShareGPT-4o-Bild: Ausrichtung multimodaler Modelle mit GPT-4o-Level-Bildgenerierung
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation
June 22, 2025
Autoren: Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
cs.AI
Zusammenfassung
Jüngste Fortschritte in multimodalen generativen Modellen haben fotorealistische, anweisungsorientierte Bildgenerierung ermöglicht, doch führende Systeme wie GPT-4o-Image bleiben proprietär und unzugänglich. Um diese Fähigkeiten zu demokratisieren, präsentieren wir ShareGPT-4o-Image, den ersten Datensatz, der 45K Text-zu-Bild- und 46K Text-und-Bild-zu-Bild-Daten umfasst, die alle mithilfe der Bildgenerierungsfähigkeiten von GPT-4o synthetisiert wurden, um dessen fortschrittliche Bildgenerierungsfähigkeiten zu destillieren. Aufbauend auf diesem Datensatz entwickeln wir Janus-4o, ein multimodales großes Sprachmodell, das sowohl Text-zu-Bild- als auch Text-und-Bild-zu-Bild-Generierung beherrscht. Janus-4o verbessert nicht nur die Text-zu-Bild-Generierung gegenüber seinem Vorgänger Janus-Pro erheblich, sondern unterstützt auch neu die Text-und-Bild-zu-Bild-Generierung. Bemerkenswerterweise erzielt es beeindruckende Leistungen in der Text-und-Bild-zu-Bild-Generierung von Grund auf, wobei nur 91K synthetische Proben und 6 Stunden Training auf einer 8-A800-GPU-Maschine verwendet werden. Wir hoffen, dass die Veröffentlichung von ShareGPT-4o-Image und Janus-4o die offene Forschung in der fotorealistischen, anweisungsorientierten Bildgenerierung fördern wird.
English
Recent advances in multimodal generative models have unlocked photorealistic,
instruction-aligned image generation, yet leading systems like GPT-4o-Image
remain proprietary and inaccessible. To democratize these capabilities, we
present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and
46K text-and-image-to-image data, all synthesized using GPT-4o's image
generation capabilities for distilling its advanced image generation abilities.
Leveraging this dataset, we develop Janus-4o, a multimodal large language model
capable of both text-to-image and text-and-image-to-image generation. Janus-4o
not only significantly improves text-to-image generation over its predecessor,
Janus-Pro, but also newly supports text-and-image-to-image generation. Notably,
it achieves impressive performance in text-and-image-to-image generation from
scratch, using only 91K synthetic samples and 6 hours of training on an 8
A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will
foster open research in photorealistic, instruction-aligned image generation.