ChatPaper.aiChatPaper

ShareGPT-4o-Image : Alignement des modèles multimodaux avec la génération d'images de niveau GPT-4o

ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

June 22, 2025
Auteurs: Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
cs.AI

Résumé

Les récentes avancées dans les modèles génératifs multimodaux ont permis la génération d'images photoréalistes alignées sur des instructions, mais les systèmes leaders comme GPT-4o-Image restent propriétaires et inaccessibles. Pour démocratiser ces capacités, nous présentons ShareGPT-4o-Image, le premier ensemble de données comprenant 45K données de texte-à-image et 46K données de texte-et-image-à-image, toutes synthétisées en utilisant les capacités de génération d'images de GPT-4o pour distiller ses compétences avancées en génération d'images. En exploitant cet ensemble de données, nous développons Janus-4o, un modèle de langage multimodal capable à la fois de génération de texte-à-image et de texte-et-image-à-image. Janus-4o améliore non seulement significativement la génération de texte-à-image par rapport à son prédécesseur, Janus-Pro, mais prend également en charge la génération de texte-et-image-à-image. Notamment, il atteint des performances impressionnantes en génération de texte-et-image-à-image à partir de zéro, en utilisant seulement 91K échantillons synthétiques et 6 heures d'entraînement sur une machine équipée de 8 GPU A800. Nous espérons que la publication de ShareGPT-4o-Image et de Janus-4o stimulera la recherche ouverte dans la génération d'images photoréalistes alignées sur des instructions.
English
Recent advances in multimodal generative models have unlocked photorealistic, instruction-aligned image generation, yet leading systems like GPT-4o-Image remain proprietary and inaccessible. To democratize these capabilities, we present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and 46K text-and-image-to-image data, all synthesized using GPT-4o's image generation capabilities for distilling its advanced image generation abilities. Leveraging this dataset, we develop Janus-4o, a multimodal large language model capable of both text-to-image and text-and-image-to-image generation. Janus-4o not only significantly improves text-to-image generation over its predecessor, Janus-Pro, but also newly supports text-and-image-to-image generation. Notably, it achieves impressive performance in text-and-image-to-image generation from scratch, using only 91K synthetic samples and 6 hours of training on an 8 A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will foster open research in photorealistic, instruction-aligned image generation.
PDF593June 26, 2025