ChatPaper.aiChatPaper

LAION-SG: Een verbeterde grootschalige dataset voor het trainen van complexe beeld-tekst modellen met structurele annotaties.

LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations

December 11, 2024
Auteurs: Zejian Li, Chenye Meng, Yize Li, Ling Yang, Shengyuan Zhang, Jiarui Ma, Jiayi Li, Guang Yang, Changyuan Yang, Zhiyuan Yang, Jinxiong Chang, Lingyun Sun
cs.AI

Samenvatting

Recente ontwikkelingen in tekst-naar-afbeelding (T2I) generatie hebben opmerkelijk succes getoond in het produceren van hoogwaardige afbeeldingen uit tekst. Echter, bestaande T2I modellen tonen verminderde prestaties in compositorische afbeeldingsgeneratie die meerdere objecten en complexe relaties omvat. We schrijven dit probleem toe aan beperkingen in bestaande datasets van afbeelding-tekst paren, die geen precieze inter-object relatie annotaties bevatten en alleen aanwijzingen bieden. Om dit probleem aan te pakken, construeren we LAION-SG, een grootschalige dataset met hoogwaardige structurele annotaties van scène grafieken (SG), die attributen en relaties van meerdere objecten nauwkeurig beschrijven en effectief de semantische structuur in complexe scènes vertegenwoordigen. Op basis van LAION-SG trainen we een nieuw basismodel SDXL-SG om structurele annotatie-informatie in het generatieproces op te nemen. Uitgebreide experimenten tonen aan dat geavanceerde modellen getraind op onze LAION-SG aanzienlijke prestatieverbeteringen laten zien in complexe scène generatie ten opzichte van modellen op bestaande datasets. We introduceren ook CompSG-Bench, een benchmark die modellen evalueert op compositorische afbeeldingsgeneratie en zo een nieuwe standaard voor dit domein vaststelt.
English
Recent advances in text-to-image (T2I) generation have shown remarkable success in producing high-quality images from text. However, existing T2I models show decayed performance in compositional image generation involving multiple objects and intricate relationships. We attribute this problem to limitations in existing datasets of image-text pairs, which lack precise inter-object relationship annotations with prompts only. To address this problem, we construct LAION-SG, a large-scale dataset with high-quality structural annotations of scene graphs (SG), which precisely describe attributes and relationships of multiple objects, effectively representing the semantic structure in complex scenes. Based on LAION-SG, we train a new foundation model SDXL-SG to incorporate structural annotation information into the generation process. Extensive experiments show advanced models trained on our LAION-SG boast significant performance improvements in complex scene generation over models on existing datasets. We also introduce CompSG-Bench, a benchmark that evaluates models on compositional image generation, establishing a new standard for this domain.
PDF453December 12, 2024