PixVerve: Avanzando en la generación nativa de imágenes de ultra alta resolución (UHR) a 100 MP con un conjunto de datos de gran escala y alta calidad

Resumen

Los modelos de texto a imagen (T2I) han experimentado recientemente un progreso notable en resoluciones de alrededor de 1K y 2K. Con el deseo extremo de una mejor experiencia visual y el rápido desarrollo de la tecnología de imágenes, la demanda de generación de imágenes de ultra alta resolución (UHR) ha crecido significativamente. Sin embargo, la generación de imágenes UHR presenta grandes desafíos debido a la escasez y complejidad del contenido de alta resolución. En este artículo, presentamos primero PixVerve-95K, un conjunto de datos UHR T2I de alta calidad y código abierto, seleccionado con un pipeline de datos cuidadosamente diseñado, que contiene 95.000 imágenes en diversos escenarios (cada imagen tiene un recuento mínimo de píxeles de 100 millones) y anotaciones de siete dimensiones. Basándonos en nuestro conjunto de datos de imagen-texto a gran escala, damos un paso pionero para extender varios modelos fundamentales de T2I a la generación nativa de 100 MP con tres esquemas de entrenamiento. Finalmente, aprovechando tanto métricas convencionales como evaluaciones basadas en modelos de lenguaje grandes multimodales, nuestro propuesto benchmark PixVerve-Bench establece un protocolo de evaluación integral para imágenes UHR que abarca la calidad visual y la alineación semántica. Los extensos resultados experimentales en nuestro benchmark y la exploración constructiva de estrategias de entrenamiento proporcionan de manera colaborativa valiosas perspectivas para futuros avances.

English

Text-to-Image (T2I) models have recently seen notable progress around 1K and 2K resolution. With the extreme desire for better visual experience and the rapid development of imaging technology, the demand for Ultra-High-Resolution (UHR) image generation has grown significantly. However, UHR image generation poses great challenges due to the scarcity and complexity of high-resolution content. In this paper, we first introduce PixVerve-95K, a high-quality, open-source UHR T2I dataset curated with a carefully designed data pipeline, which contains 95K images across diverse scenarios (each image has a minimum pixel-count of 100M) and seven-dimensional annotations. Based on our large-scale image-text dataset, we take a pioneering step to extend various T2I foundation models to native 100MP generation with three training schemes. Finally, leveraging both conventional metrics and multimodal large language model-based assessments, our proposed PixVerve-Bench benchmark establishes a comprehensive evaluation protocol for UHR images encompassing visual quality and semantic alignment. Extensive experimental results on our benchmark and the constructive exploration of training strategies collaboratively provide valuable insights for future breakthroughs.