PixVerve: Продвижение нативной генерации UHR-изображений до 100 МП с помощью крупномасштабного высококачественного набора данных

Аннотация

Модели генерации изображений по текстовому описанию (Text-to-Image, T2I) недавно достигли заметного прогресса в разрешениях около 1К и 2К. В связи с растущей потребностью в более качественном визуальном опыте и стремительным развитием технологий обработки изображений значительно возрос спрос на генерацию изображений сверхвысокого разрешения (Ultra-High-Resolution, UHR). Однако создание UHR-изображений сопряжено с серьезными трудностями из-за нехватки и сложности контента высокого разрешения. В данной работе мы сначала представляем PixVerve-95K — высококачественный набор данных UHR T2I с открытым исходным кодом, созданный с помощью тщательно разработанного конвейера обработки данных. Он содержит 95 тысяч изображений в различных сценариях (каждое изображение имеет не менее 100 миллионов пикселей) и семимерные аннотации. На основе этого крупномасштабного набора данных «изображение-текст» мы делаем первый шаг в расширении различных базовых моделей T2I до нативного разрешения 100 МП с использованием трех схем обучения. Наконец, используя как традиционные метрики, так и оценки на основе мультимодальных больших языковых моделей, наш предложенный бенчмарк PixVerve-Bench устанавливает комплексный протокол оценки UHR-изображений, включающий визуальное качество и семантическое соответствие. Обширные экспериментальные результаты на нашем бенчмарке и конструктивное исследование стратегий обучения совместно дают ценные идеи для будущих прорывов.

English

Text-to-Image (T2I) models have recently seen notable progress around 1K and 2K resolution. With the extreme desire for better visual experience and the rapid development of imaging technology, the demand for Ultra-High-Resolution (UHR) image generation has grown significantly. However, UHR image generation poses great challenges due to the scarcity and complexity of high-resolution content. In this paper, we first introduce PixVerve-95K, a high-quality, open-source UHR T2I dataset curated with a carefully designed data pipeline, which contains 95K images across diverse scenarios (each image has a minimum pixel-count of 100M) and seven-dimensional annotations. Based on our large-scale image-text dataset, we take a pioneering step to extend various T2I foundation models to native 100MP generation with three training schemes. Finally, leveraging both conventional metrics and multimodal large language model-based assessments, our proposed PixVerve-Bench benchmark establishes a comprehensive evaluation protocol for UHR images encompassing visual quality and semantic alignment. Extensive experimental results on our benchmark and the constructive exploration of training strategies collaboratively provide valuable insights for future breakthroughs.