ShareGPT-4o-Image: Согласование мультимодальных моделей с генерацией изображений уровня GPT-4o
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation
June 22, 2025
Авторы: Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
cs.AI
Аннотация
Последние достижения в области мультимодальных генеративных моделей открыли возможность создания фотореалистичных изображений, соответствующих текстовым инструкциям, однако ведущие системы, такие как GPT-4o-Image, остаются проприетарными и недоступными. Чтобы демократизировать эти возможности, мы представляем ShareGPT-4o-Image — первый набор данных, включающий 45K примеров для генерации изображений из текста и 46K примеров для генерации изображений из текста и изображения, все из которых синтезированы с использованием возможностей генерации изображений GPT-4o для извлечения её передовых способностей в этой области. Используя этот набор данных, мы разработали Janus-4o — мультимодальную большую языковую модель, способную как к генерации изображений из текста, так и из текста и изображения. Janus-4o не только значительно улучшает генерацию изображений из текста по сравнению с её предшественником, Janus-Pro, но и впервые поддерживает генерацию изображений из текста и изображения. Примечательно, что она демонстрирует впечатляющие результаты в генерации изображений из текста и изображения с нуля, используя всего 91K синтетических образцов и 6 часов обучения на машине с 8 GPU A800. Мы надеемся, что выпуск ShareGPT-4o-Image и Janus-4o будет способствовать открытым исследованиям в области фотореалистичной генерации изображений, соответствующих инструкциям.
English
Recent advances in multimodal generative models have unlocked photorealistic,
instruction-aligned image generation, yet leading systems like GPT-4o-Image
remain proprietary and inaccessible. To democratize these capabilities, we
present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and
46K text-and-image-to-image data, all synthesized using GPT-4o's image
generation capabilities for distilling its advanced image generation abilities.
Leveraging this dataset, we develop Janus-4o, a multimodal large language model
capable of both text-to-image and text-and-image-to-image generation. Janus-4o
not only significantly improves text-to-image generation over its predecessor,
Janus-Pro, but also newly supports text-and-image-to-image generation. Notably,
it achieves impressive performance in text-and-image-to-image generation from
scratch, using only 91K synthetic samples and 6 hours of training on an 8
A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will
foster open research in photorealistic, instruction-aligned image generation.