Générer une image à partir de 1 000 mots : Améliorer la conversion texte-image avec des légendes structurées

papers.abstract

Les modèles texte-image ont rapidement évolué d'outils de création grand public vers des systèmes professionnels, atteignant des niveaux inédits de qualité d'image et de réalisme. Pourtant, la plupart des modèles sont entraînés à transformer de courts prompts en images détaillées, créant un décalage entre des entrées textuelles minimales et des sorties visuelles riches. Cette inadéquation réduit la contrôlabilité, car les modèles comblent souvent les détails manquants de manière arbitraire, avec un biais vers les préférences utilisateur moyennes, limitant ainsi la précision pour un usage professionnel. Nous abordons cette limitation en entraînant le premier modèle texte-image open-source sur des descriptions longues et structurées, où chaque échantillon d'apprentissage est annoté avec le même ensemble d'attributs granulaires. Cette conception maximise la couverture expressive et permet un contrôle désentrelacé des facteurs visuels. Pour traiter efficacement les longues descriptions, nous proposons DimFusion, un mécanisme de fusion qui intègre les tokens intermédiaires d'un LLM léger sans augmenter la longueur des tokens. Nous introduisons également le protocole d'évaluation Text-as-a-Bottleneck Reconstruction (TaBR). En évaluant dans quelle mesure les images réelles peuvent être reconstruites via une boucle description-génération, TaBR mesure directement la contrôlabilité et l'expressivité, même pour des descriptions très longues où les méthodes d'évaluation existantes échouent. Enfin, nous démontrons nos contributions en entraînant le modèle à grande échelle FIBO, atteignant un alignement prompt-image state-of-the-art parmi les modèles open-source. Les poids du modèle sont disponibles publiquement à l'adresse https://huggingface.co/briaai/FIBO.

English

Text-to-image models have rapidly evolved from casual creative tools to professional-grade systems, achieving unprecedented levels of image quality and realism. Yet, most models are trained to map short prompts into detailed images, creating a gap between sparse textual input and rich visual outputs. This mismatch reduces controllability, as models often fill in missing details arbitrarily, biasing toward average user preferences and limiting precision for professional use. We address this limitation by training the first open-source text-to-image model on long structured captions, where every training sample is annotated with the same set of fine-grained attributes. This design maximizes expressive coverage and enables disentangled control over visual factors. To process long captions efficiently, we propose DimFusion, a fusion mechanism that integrates intermediate tokens from a lightweight LLM without increasing token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR) evaluation protocol. By assessing how well real images can be reconstructed through a captioning-generation loop, TaBR directly measures controllability and expressiveness, even for very long captions where existing evaluation methods fail. Finally, we demonstrate our contributions by training the large-scale model FIBO, achieving state-of-the-art prompt alignment among open-source models. Model weights are publicly available at https://huggingface.co/briaai/FIBO

Générer une image à partir de 1 000 mots : Améliorer la conversion texte-image avec des légendes structurées

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

papers.abstract

Support