PixVerve: Weiterentwicklung der nativen UHR-Bildgenerierung auf 100 MP mit einem groß angelegten hochwertigen Datensatz

Zusammenfassung

Text-zu-Bild-Modelle (T2I) haben in letzter Zeit bemerkenswerte Fortschritte bei Auflösungen um 1K und 2K erzielt. Angesichts des ausgeprägten Wunsches nach einer besseren visuellen Erfahrung und der rasanten Entwicklung der Bildgebungstechnologie ist die Nachfrage nach der Erzeugung ultrahochauflösender (UHR) Bilder erheblich gestiegen. Allerdings stellt die UHR-Bilderzeugung aufgrund der Knappheit und Komplexität hochauflösender Inhalte große Herausforderungen dar. In dieser Arbeit stellen wir zunächst PixVerve-95K vor, einen hochwertigen, quelloffenen UHR-T2I-Datensatz, der mit einer sorgfältig entwickelten Datenpipeline kuratiert wurde. Er enthält 95.000 Bilder aus verschiedenen Szenarien (jedes Bild hat eine minimale Pixelzahl von 100 Millionen) sowie siebendimensionale Annotationen. Auf der Grundlage unseres groß angelegten Bild-Text-Datensatzes unternehmen wir einen bahnbrechenden Schritt, um verschiedene T2I-Basismodelle mit drei Trainingsschemata auf die native 100-MP-Erzeugung zu erweitern. Schließlich etabliert der von uns vorgeschlagene PixVerve-Bench-Benchmark, der sowohl konventionelle Metriken als auch auf multimodalen großen Sprachmodellen basierende Bewertungen nutzt, ein umfassendes Evaluierungsprotokoll für UHR-Bilder, das visuelle Qualität und semantische Übereinstimmung umfasst. Umfangreiche experimentelle Ergebnisse auf unserem Benchmark sowie die konstruktive Erforschung von Trainingsstrategien liefern gemeinsam wertvolle Erkenntnisse für zukünftige Durchbrüche.

English

Text-to-Image (T2I) models have recently seen notable progress around 1K and 2K resolution. With the extreme desire for better visual experience and the rapid development of imaging technology, the demand for Ultra-High-Resolution (UHR) image generation has grown significantly. However, UHR image generation poses great challenges due to the scarcity and complexity of high-resolution content. In this paper, we first introduce PixVerve-95K, a high-quality, open-source UHR T2I dataset curated with a carefully designed data pipeline, which contains 95K images across diverse scenarios (each image has a minimum pixel-count of 100M) and seven-dimensional annotations. Based on our large-scale image-text dataset, we take a pioneering step to extend various T2I foundation models to native 100MP generation with three training schemes. Finally, leveraging both conventional metrics and multimodal large language model-based assessments, our proposed PixVerve-Bench benchmark establishes a comprehensive evaluation protocol for UHR images encompassing visual quality and semantic alignment. Extensive experimental results on our benchmark and the constructive exploration of training strategies collaboratively provide valuable insights for future breakthroughs.