PixVerve: Het bevorderen van native UHR-beeldgeneratie tot 100MP met een grootschalige, hoogwaardige dataset

Samenvatting

Tekst-naar-Afbeelding (T2I)-modellen hebben recentelijk opmerkelijke vooruitgang geboekt rond 1K- en 2K-resolutie. Door het extreme verlangen naar een betere visuele ervaring en de snelle ontwikkeling van beeldtechnologie is de vraag naar Ultra-Hoge-Resolutie (UHR) beeldgeneratie aanzienlijk toegenomen. Echter, UHR-beeldgeneratie brengt grote uitdagingen met zich mee vanwege de schaarste en complexiteit van inhoud met hoge resolutie. In dit artikel introduceren we eerst PixVerve-95K, een hoogwaardige, open-source UHR T2I-dataset die is samengesteld met een zorgvuldig ontworpen datapijplijn, die 95K afbeeldingen bevat in diverse scenario's (elke afbeelding heeft een minimaal pixelaantal van 100M) en zeven-dimensionale annotaties. Op basis van onze grootschalige beeld-tekst-dataset zetten we een baanbrekende stap om verschillende T2I-fundamentmodellen uit te breiden naar native 100MP-generatie met drie trainingsschema's. Ten slotte, door gebruik te maken van zowel conventionele metrieken als op multimodale grote taalmodellen gebaseerde beoordelingen, stelt onze voorgestelde PixVerve-Bench-benchmark een uitgebreid evaluatieprotocol vast voor UHR-beelden, dat visuele kwaliteit en semantische afstemming omvat. Uitgebreide experimentele resultaten op onze benchmark en de constructieve verkenning van trainingsstrategieën bieden gezamenlijk waardevolle inzichten voor toekomstige doorbraken.

English

Text-to-Image (T2I) models have recently seen notable progress around 1K and 2K resolution. With the extreme desire for better visual experience and the rapid development of imaging technology, the demand for Ultra-High-Resolution (UHR) image generation has grown significantly. However, UHR image generation poses great challenges due to the scarcity and complexity of high-resolution content. In this paper, we first introduce PixVerve-95K, a high-quality, open-source UHR T2I dataset curated with a carefully designed data pipeline, which contains 95K images across diverse scenarios (each image has a minimum pixel-count of 100M) and seven-dimensional annotations. Based on our large-scale image-text dataset, we take a pioneering step to extend various T2I foundation models to native 100MP generation with three training schemes. Finally, leveraging both conventional metrics and multimodal large language model-based assessments, our proposed PixVerve-Bench benchmark establishes a comprehensive evaluation protocol for UHR images encompassing visual quality and semantic alignment. Extensive experimental results on our benchmark and the constructive exploration of training strategies collaboratively provide valuable insights for future breakthroughs.