PixVerve : Avancée de la génération native d'images UHR jusqu'à 100 MP avec un ensemble de données à grande échelle de haute qualité

Résumé

Les modèles Texte-Image (T2I) ont récemment connu des progrès notables autour des résolutions 1K et 2K. Avec le désir extrême d'une meilleure expérience visuelle et le développement rapide des technologies d'imagerie, la demande pour la génération d'images en Ultra-Haute Résolution (UHR) a considérablement augmenté. Cependant, la génération d'images UHR pose des défis majeurs en raison de la rareté et de la complexité du contenu haute résolution. Dans cet article, nous présentons d'abord PixVerve-95K, un ensemble de données UHR T2I de haute qualité et open-source, élaboré grâce à un pipeline de données soigneusement conçu, comprenant 95 000 images couvrant divers scénarios (chaque image ayant un nombre minimal de pixels de 100 millions) et des annotations sur sept dimensions. En nous appuyant sur notre ensemble de données image-texte à grande échelle, nous faisons un pas de pionnier en étendant divers modèles de base T2I à la génération native de 100MP grâce à trois schémas d'entraînement. Enfin, en utilisant à la fois des métriques conventionnelles et des évaluations basées sur des modèles de langage multimodaux à grande échelle, notre benchmark proposé, PixVerve-Bench, établit un protocole d'évaluation complet pour les images UHR, couvrant la qualité visuelle et l'alignement sémantique. Des résultats expérimentaux étendus sur notre benchmark et l'exploration constructive des stratégies d'entraînement fournissent ensemble des perspectives précieuses pour les futures avancées.

English

Text-to-Image (T2I) models have recently seen notable progress around 1K and 2K resolution. With the extreme desire for better visual experience and the rapid development of imaging technology, the demand for Ultra-High-Resolution (UHR) image generation has grown significantly. However, UHR image generation poses great challenges due to the scarcity and complexity of high-resolution content. In this paper, we first introduce PixVerve-95K, a high-quality, open-source UHR T2I dataset curated with a carefully designed data pipeline, which contains 95K images across diverse scenarios (each image has a minimum pixel-count of 100M) and seven-dimensional annotations. Based on our large-scale image-text dataset, we take a pioneering step to extend various T2I foundation models to native 100MP generation with three training schemes. Finally, leveraging both conventional metrics and multimodal large language model-based assessments, our proposed PixVerve-Bench benchmark establishes a comprehensive evaluation protocol for UHR images encompassing visual quality and semantic alignment. Extensive experimental results on our benchmark and the constructive exploration of training strategies collaboratively provide valuable insights for future breakthroughs.