ChatPaper.aiChatPaper

ShareGPT-4o-Image: Allineamento di Modelli Multimodali con Generazione di Immagini di Livello GPT-4o

ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

June 22, 2025
Autori: Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
cs.AI

Abstract

I recenti progressi nei modelli generativi multimodali hanno sbloccato la generazione di immagini fotorealistiche e allineate alle istruzioni, tuttavia sistemi leader come GPT-4o-Image rimangono proprietari e inaccessibili. Per democratizzare queste capacità, presentiamo ShareGPT-4o-Image, il primo dataset composto da 45K dati di testo-a-immagine e 46K dati di testo-e-immagine-a-immagine, tutti sintetizzati utilizzando le capacità di generazione di immagini di GPT-4o per distillare le sue avanzate abilità di generazione di immagini. Sfruttando questo dataset, sviluppiamo Janus-4o, un modello di linguaggio multimodale di grandi dimensioni in grado di generare sia testo-a-immagine che testo-e-immagine-a-immagine. Janus-4o non solo migliora significativamente la generazione di testo-a-immagine rispetto al suo predecessore, Janus-Pro, ma supporta anche per la prima volta la generazione di testo-e-immagine-a-immagine. In particolare, raggiunge prestazioni impressionanti nella generazione di testo-e-immagine-a-immagine da zero, utilizzando solo 91K campioni sintetici e 6 ore di addestramento su una macchina con 8 GPU A800. Speriamo che il rilascio di ShareGPT-4o-Image e Janus-4o favorisca la ricerca aperta nella generazione di immagini fotorealistiche e allineate alle istruzioni.
English
Recent advances in multimodal generative models have unlocked photorealistic, instruction-aligned image generation, yet leading systems like GPT-4o-Image remain proprietary and inaccessible. To democratize these capabilities, we present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and 46K text-and-image-to-image data, all synthesized using GPT-4o's image generation capabilities for distilling its advanced image generation abilities. Leveraging this dataset, we develop Janus-4o, a multimodal large language model capable of both text-to-image and text-and-image-to-image generation. Janus-4o not only significantly improves text-to-image generation over its predecessor, Janus-Pro, but also newly supports text-and-image-to-image generation. Notably, it achieves impressive performance in text-and-image-to-image generation from scratch, using only 91K synthetic samples and 6 hours of training on an 8 A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will foster open research in photorealistic, instruction-aligned image generation.
PDF643June 26, 2025