PixVerve: Avançando na Geração Nativa de Imagens UHR para 100MP com um Conjunto de Dados de Grande Escala e Alta Qualidade

Resumo

Modelos Texto-para-Imagem (T2I) recentemente demonstraram progressos notáveis em resoluções de 1K e 2K. Com o desejo extremo por uma melhor experiência visual e o rápido desenvolvimento da tecnologia de imagem, a demanda pela geração de imagens em Ultra-Alta Resolução (UHR) cresceu significativamente. No entanto, a geração de imagens em UHR apresenta grandes desafios devido à escassez e complexidade do conteúdo de alta resolução. Neste artigo, apresentamos primeiro o PixVerve-95K, um conjunto de dados UHR T2I de alta qualidade e código aberto, curado por meio de um pipeline de dados cuidadosamente projetado, que contém 95 mil imagens em diversos cenários (cada imagem possui um mínimo de 100 milhões de pixels) e anotações de sete dimensões. Com base em nosso conjunto de dados de imagem-texto em larga escala, damos um passo pioneiro ao estender vários modelos fundamentais de T2I para geração nativa de 100MP com três esquemas de treinamento. Por fim, utilizando tanto métricas convencionais quanto avaliações baseadas em modelos de linguagem multimodal de grande escala, nosso benchmark proposto, PixVerve-Bench, estabelece um protocolo de avaliação abrangente para imagens UHR, abrangendo qualidade visual e alinhamento semântico. Resultados experimentais extensivos em nosso benchmark e a exploração construtiva de estratégias de treinamento fornecem, em conjunto, insights valiosos para avanços futuros.

English

Text-to-Image (T2I) models have recently seen notable progress around 1K and 2K resolution. With the extreme desire for better visual experience and the rapid development of imaging technology, the demand for Ultra-High-Resolution (UHR) image generation has grown significantly. However, UHR image generation poses great challenges due to the scarcity and complexity of high-resolution content. In this paper, we first introduce PixVerve-95K, a high-quality, open-source UHR T2I dataset curated with a carefully designed data pipeline, which contains 95K images across diverse scenarios (each image has a minimum pixel-count of 100M) and seven-dimensional annotations. Based on our large-scale image-text dataset, we take a pioneering step to extend various T2I foundation models to native 100MP generation with three training schemes. Finally, leveraging both conventional metrics and multimodal large language model-based assessments, our proposed PixVerve-Bench benchmark establishes a comprehensive evaluation protocol for UHR images encompassing visual quality and semantic alignment. Extensive experimental results on our benchmark and the constructive exploration of training strategies collaboratively provide valuable insights for future breakthroughs.