LAION-SG : Un ensemble de données à grande échelle amélioré pour l'entraînement de modèles complexes d'images et de texte avec des annotations structurées
LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations
December 11, 2024
Auteurs: Zejian Li, Chenye Meng, Yize Li, Ling Yang, Shengyuan Zhang, Jiarui Ma, Jiayi Li, Guang Yang, Changyuan Yang, Zhiyuan Yang, Jinxiong Chang, Lingyun Sun
cs.AI
Résumé
Les récents progrès dans la génération de texte vers image (T2I) ont montré un succès remarquable dans la production d'images de haute qualité à partir de texte. Cependant, les modèles T2I existants montrent une performance dégradée dans la génération d'images compositionnelles impliquant plusieurs objets et des relations complexes. Nous attribuons ce problème aux limitations des ensembles de données existants d'associations image-texte, qui manquent d'annotations précises des relations entre objets avec seulement des indications. Pour résoudre ce problème, nous avons construit LAION-SG, un ensemble de données à grande échelle avec des annotations structurales de haute qualité des graphes de scène (SG), qui décrivent précisément les attributs et les relations de plusieurs objets, représentant efficacement la structure sémantique dans des scènes complexes. Sur la base de LAION-SG, nous entraînons un nouveau modèle de base SDXL-SG pour incorporer des informations d'annotation structurale dans le processus de génération. Des expériences approfondies montrent que les modèles avancés formés sur notre ensemble de données LAION-SG affichent des améliorations significatives de performance dans la génération de scènes complexes par rapport aux modèles sur les ensembles de données existants. Nous introduisons également CompSG-Bench, une référence qui évalue les modèles dans la génération d'images compositionnelles, établissant ainsi une nouvelle norme pour ce domaine.
English
Recent advances in text-to-image (T2I) generation have shown remarkable
success in producing high-quality images from text. However, existing T2I
models show decayed performance in compositional image generation involving
multiple objects and intricate relationships. We attribute this problem to
limitations in existing datasets of image-text pairs, which lack precise
inter-object relationship annotations with prompts only. To address this
problem, we construct LAION-SG, a large-scale dataset with high-quality
structural annotations of scene graphs (SG), which precisely describe
attributes and relationships of multiple objects, effectively representing the
semantic structure in complex scenes. Based on LAION-SG, we train a new
foundation model SDXL-SG to incorporate structural annotation information into
the generation process. Extensive experiments show advanced models trained on
our LAION-SG boast significant performance improvements in complex scene
generation over models on existing datasets. We also introduce CompSG-Bench, a
benchmark that evaluates models on compositional image generation, establishing
a new standard for this domain.Summary
AI-Generated Summary