ShareGPT-4o-Image : Alignement des modèles multimodaux avec la génération d'images de niveau GPT-4o

Résumé

Les récentes avancées dans les modèles génératifs multimodaux ont permis la génération d'images photoréalistes alignées sur des instructions, mais les systèmes leaders comme GPT-4o-Image restent propriétaires et inaccessibles. Pour démocratiser ces capacités, nous présentons ShareGPT-4o-Image, le premier ensemble de données comprenant 45K données de texte-à-image et 46K données de texte-et-image-à-image, toutes synthétisées en utilisant les capacités de génération d'images de GPT-4o pour distiller ses compétences avancées en génération d'images. En exploitant cet ensemble de données, nous développons Janus-4o, un modèle de langage multimodal capable à la fois de génération de texte-à-image et de texte-et-image-à-image. Janus-4o améliore non seulement significativement la génération de texte-à-image par rapport à son prédécesseur, Janus-Pro, mais prend également en charge la génération de texte-et-image-à-image. Notamment, il atteint des performances impressionnantes en génération de texte-et-image-à-image à partir de zéro, en utilisant seulement 91K échantillons synthétiques et 6 heures d'entraînement sur une machine équipée de 8 GPU A800. Nous espérons que la publication de ShareGPT-4o-Image et de Janus-4o stimulera la recherche ouverte dans la génération d'images photoréalistes alignées sur des instructions.

English

Recent advances in multimodal generative models have unlocked photorealistic, instruction-aligned image generation, yet leading systems like GPT-4o-Image remain proprietary and inaccessible. To democratize these capabilities, we present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and 46K text-and-image-to-image data, all synthesized using GPT-4o's image generation capabilities for distilling its advanced image generation abilities. Leveraging this dataset, we develop Janus-4o, a multimodal large language model capable of both text-to-image and text-and-image-to-image generation. Janus-4o not only significantly improves text-to-image generation over its predecessor, Janus-Pro, but also newly supports text-and-image-to-image generation. Notably, it achieves impressive performance in text-and-image-to-image generation from scratch, using only 91K synthetic samples and 6 hours of training on an 8 A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will foster open research in photorealistic, instruction-aligned image generation.