ShareGPT-4o-Imagen: Alineación de Modelos Multimodales con Generación de Imágenes de Nivel GPT-4o
ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation
June 22, 2025
Autores: Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
cs.AI
Resumen
Los recientes avances en modelos generativos multimodales han permitido la generación de imágenes fotorrealistas y alineadas con instrucciones, aunque sistemas líderes como GPT-4o-Image siguen siendo propietarios e inaccesibles. Para democratizar estas capacidades, presentamos ShareGPT-4o-Image, el primer conjunto de datos que incluye 45K datos de texto a imagen y 46K datos de texto e imagen a imagen, todos sintetizados utilizando las capacidades de generación de imágenes de GPT-4o para destilar sus habilidades avanzadas en este ámbito. Aprovechando este conjunto de datos, desarrollamos Janus-4o, un modelo de lenguaje multimodal de gran escala capaz de realizar tanto generación de texto a imagen como de texto e imagen a imagen. Janus-4o no solo mejora significativamente la generación de texto a imagen en comparación con su predecesor, Janus-Pro, sino que también introduce la capacidad de generación de texto e imagen a imagen. Destaca su impresionante rendimiento en la generación de texto e imagen a imagen desde cero, utilizando solo 91K muestras sintéticas y 6 horas de entrenamiento en una máquina con 8 GPU A800. Esperamos que la publicación de ShareGPT-4o-Image y Janus-4o fomente la investigación abierta en la generación de imágenes fotorrealistas y alineadas con instrucciones.
English
Recent advances in multimodal generative models have unlocked photorealistic,
instruction-aligned image generation, yet leading systems like GPT-4o-Image
remain proprietary and inaccessible. To democratize these capabilities, we
present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and
46K text-and-image-to-image data, all synthesized using GPT-4o's image
generation capabilities for distilling its advanced image generation abilities.
Leveraging this dataset, we develop Janus-4o, a multimodal large language model
capable of both text-to-image and text-and-image-to-image generation. Janus-4o
not only significantly improves text-to-image generation over its predecessor,
Janus-Pro, but also newly supports text-and-image-to-image generation. Notably,
it achieves impressive performance in text-and-image-to-image generation from
scratch, using only 91K synthetic samples and 6 hours of training on an 8
A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will
foster open research in photorealistic, instruction-aligned image generation.