ChatPaper.aiChatPaper

ShareGPT-4o-Image: Alinhando Modelos Multimodais com Geração de Imagens no Nível do GPT-4o

ShareGPT-4o-Image: Aligning Multimodal Models with GPT-4o-Level Image Generation

June 22, 2025
Autores: Junying Chen, Zhenyang Cai, Pengcheng Chen, Shunian Chen, Ke Ji, Xidong Wang, Yunjin Yang, Benyou Wang
cs.AI

Resumo

Avanços recentes em modelos generativos multimodais possibilitaram a geração de imagens realistas e alinhadas a instruções, porém sistemas líderes como o GPT-4o-Image permanecem proprietários e inacessíveis. Para democratizar essas capacidades, apresentamos o ShareGPT-4o-Image, o primeiro conjunto de dados composto por 45K dados de texto-para-imagem e 46K de texto-e-imagem-para-imagem, todos sintetizados usando as capacidades de geração de imagens do GPT-4o para destilar suas habilidades avançadas de geração de imagens. Utilizando esse conjunto de dados, desenvolvemos o Janus-4o, um modelo de linguagem multimodal de grande escala capaz de realizar tanto geração de texto-para-imagem quanto texto-e-imagem-para-imagem. O Janus-4o não apenas melhora significativamente a geração de texto-para-imagem em relação ao seu predecessor, o Janus-Pro, mas também passa a suportar a geração de texto-e-imagem-para-imagem. Notavelmente, ele alcança um desempenho impressionante na geração de texto-e-imagem-para-imagem a partir do zero, utilizando apenas 91K amostras sintéticas e 6 horas de treinamento em uma máquina com 8 GPUs A800. Esperamos que o lançamento do ShareGPT-4o-Image e do Janus-4o promova pesquisas abertas na geração de imagens realistas e alinhadas a instruções.
English
Recent advances in multimodal generative models have unlocked photorealistic, instruction-aligned image generation, yet leading systems like GPT-4o-Image remain proprietary and inaccessible. To democratize these capabilities, we present ShareGPT-4o-Image, the first dataset comprising 45K text-to-image and 46K text-and-image-to-image data, all synthesized using GPT-4o's image generation capabilities for distilling its advanced image generation abilities. Leveraging this dataset, we develop Janus-4o, a multimodal large language model capable of both text-to-image and text-and-image-to-image generation. Janus-4o not only significantly improves text-to-image generation over its predecessor, Janus-Pro, but also newly supports text-and-image-to-image generation. Notably, it achieves impressive performance in text-and-image-to-image generation from scratch, using only 91K synthetic samples and 6 hours of training on an 8 A800-GPU machine. We hope the release of ShareGPT-4o-Image and Janus-4o will foster open research in photorealistic, instruction-aligned image generation.
PDF653June 26, 2025