Générer une image à partir de 1 000 mots : Améliorer la conversion texte-image avec des légendes structurées
Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions
November 10, 2025
papers.authors: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady
cs.AI
papers.abstract
Les modèles texte-image ont rapidement évolué d'outils de création grand public vers des systèmes professionnels, atteignant des niveaux inédits de qualité d'image et de réalisme. Pourtant, la plupart des modèles sont entraînés à transformer de courts prompts en images détaillées, créant un décalage entre des entrées textuelles minimales et des sorties visuelles riches. Cette inadéquation réduit la contrôlabilité, car les modèles comblent souvent les détails manquants de manière arbitraire, avec un biais vers les préférences utilisateur moyennes, limitant ainsi la précision pour un usage professionnel. Nous abordons cette limitation en entraînant le premier modèle texte-image open-source sur des descriptions longues et structurées, où chaque échantillon d'apprentissage est annoté avec le même ensemble d'attributs granulaires. Cette conception maximise la couverture expressive et permet un contrôle désentrelacé des facteurs visuels. Pour traiter efficacement les longues descriptions, nous proposons DimFusion, un mécanisme de fusion qui intègre les tokens intermédiaires d'un LLM léger sans augmenter la longueur des tokens. Nous introduisons également le protocole d'évaluation Text-as-a-Bottleneck Reconstruction (TaBR). En évaluant dans quelle mesure les images réelles peuvent être reconstruites via une boucle description-génération, TaBR mesure directement la contrôlabilité et l'expressivité, même pour des descriptions très longues où les méthodes d'évaluation existantes échouent. Enfin, nous démontrons nos contributions en entraînant le modèle à grande échelle FIBO, atteignant un alignement prompt-image state-of-the-art parmi les modèles open-source. Les poids du modèle sont disponibles publiquement à l'adresse https://huggingface.co/briaai/FIBO.
English
Text-to-image models have rapidly evolved from casual creative tools to
professional-grade systems, achieving unprecedented levels of image quality and
realism. Yet, most models are trained to map short prompts into detailed
images, creating a gap between sparse textual input and rich visual outputs.
This mismatch reduces controllability, as models often fill in missing details
arbitrarily, biasing toward average user preferences and limiting precision for
professional use. We address this limitation by training the first open-source
text-to-image model on long structured captions, where every training sample is
annotated with the same set of fine-grained attributes. This design maximizes
expressive coverage and enables disentangled control over visual factors. To
process long captions efficiently, we propose DimFusion, a fusion mechanism
that integrates intermediate tokens from a lightweight LLM without increasing
token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR)
evaluation protocol. By assessing how well real images can be reconstructed
through a captioning-generation loop, TaBR directly measures controllability
and expressiveness, even for very long captions where existing evaluation
methods fail. Finally, we demonstrate our contributions by training the
large-scale model FIBO, achieving state-of-the-art prompt alignment among
open-source models. Model weights are publicly available at
https://huggingface.co/briaai/FIBO