LAION-SG : Un ensemble de données à grande échelle amélioré pour l'entraînement de modèles complexes d'images et de texte avec des annotations structurées

papers.abstract

Les récents progrès dans la génération de texte vers image (T2I) ont montré un succès remarquable dans la production d'images de haute qualité à partir de texte. Cependant, les modèles T2I existants montrent une performance dégradée dans la génération d'images compositionnelles impliquant plusieurs objets et des relations complexes. Nous attribuons ce problème aux limitations des ensembles de données existants d'associations image-texte, qui manquent d'annotations précises des relations entre objets avec seulement des indications. Pour résoudre ce problème, nous avons construit LAION-SG, un ensemble de données à grande échelle avec des annotations structurales de haute qualité des graphes de scène (SG), qui décrivent précisément les attributs et les relations de plusieurs objets, représentant efficacement la structure sémantique dans des scènes complexes. Sur la base de LAION-SG, nous entraînons un nouveau modèle de base SDXL-SG pour incorporer des informations d'annotation structurale dans le processus de génération. Des expériences approfondies montrent que les modèles avancés formés sur notre ensemble de données LAION-SG affichent des améliorations significatives de performance dans la génération de scènes complexes par rapport aux modèles sur les ensembles de données existants. Nous introduisons également CompSG-Bench, une référence qui évalue les modèles dans la génération d'images compositionnelles, établissant ainsi une nouvelle norme pour ce domaine.

English

Recent advances in text-to-image (T2I) generation have shown remarkable success in producing high-quality images from text. However, existing T2I models show decayed performance in compositional image generation involving multiple objects and intricate relationships. We attribute this problem to limitations in existing datasets of image-text pairs, which lack precise inter-object relationship annotations with prompts only. To address this problem, we construct LAION-SG, a large-scale dataset with high-quality structural annotations of scene graphs (SG), which precisely describe attributes and relationships of multiple objects, effectively representing the semantic structure in complex scenes. Based on LAION-SG, we train a new foundation model SDXL-SG to incorporate structural annotation information into the generation process. Extensive experiments show advanced models trained on our LAION-SG boast significant performance improvements in complex scene generation over models on existing datasets. We also introduce CompSG-Bench, a benchmark that evaluates models on compositional image generation, establishing a new standard for this domain.

LAION-SG : Un ensemble de données à grande échelle amélioré pour l'entraînement de modèles complexes d'images et de texte avec des annotations structurées

LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations

papers.abstract

Support