ShareGPT-4o-Imagen: Alineación de Modelos Multimodales con Generación de Imágenes de Nivel GPT-4o

Resumen

Los recientes avances en modelos generativos multimodales han permitido la generación de imágenes fotorrealistas y alineadas con instrucciones, aunque sistemas líderes como GPT-4o-Image siguen siendo propietarios e inaccesibles. Para democratizar estas capacidades, presentamos ShareGPT-4o-Image, el primer conjunto de datos que incluye 45K datos de texto a imagen y 46K datos de texto e imagen a imagen, todos sintetizados utilizando las capacidades de generación de imágenes de GPT-4o para destilar sus habilidades avanzadas en este ámbito. Aprovechando este conjunto de datos, desarrollamos Janus-4o, un modelo de lenguaje multimodal de gran escala capaz de realizar tanto generación de texto a imagen como de texto e imagen a imagen. Janus-4o no solo mejora significativamente la generación de texto a imagen en comparación con su predecesor, Janus-Pro, sino que también introduce la capacidad de generación de texto e imagen a imagen. Destaca su impresionante rendimiento en la generación de texto e imagen a imagen desde cero, utilizando solo 91K muestras sintéticas y 6 horas de entrenamiento en una máquina con 8 GPU A800. Esperamos que la publicación de ShareGPT-4o-Image y Janus-4o fomente la investigación abierta en la generación de imágenes fotorrealistas y alineadas con instrucciones.

English

Recent advances in multimodal generative models have unlocked photorealistic, instruction-aligned image generation, yet leading systems like GPT-4o-Image remain proprietary and inaccessible. To democratize these capabilities, we present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and 46K text-and-image-to-image data, all synthesized using GPT-4o's image generation capabilities for distilling its advanced image generation abilities. Leveraging this dataset, we develop Janus-4o, a multimodal large language model capable of both text-to-image and text-and-image-to-image generation. Janus-4o not only significantly improves text-to-image generation over its predecessor, Janus-Pro, but also newly supports text-and-image-to-image generation. Notably, it achieves impressive performance in text-and-image-to-image generation from scratch, using only 91K synthetic samples and 6 hours of training on an 8 A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will foster open research in photorealistic, instruction-aligned image generation.