Een Afbeelding Genereren uit 1.000 Woorden: Verbetering van Tekst-naar-Afbeelding met Gestructureerde Bijschriften
Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions
November 10, 2025
Auteurs: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady
cs.AI
Samenvatting
Tekst-naar-beeldmodellen zijn snel geëvolueerd van informele creatieve tools naar professionele systemen, waarbij ze een ongekend niveau van beeldkwaliteit en realisme bereiken. Toch zijn de meeste modellen getraind om korte prompts om te zetten in gedetailleerde beelden, wat een kloof creëert tussen schaarse tekstuele input en rijke visuele output. Deze discrepantie vermindert de bestuurbaarheid, aangezien modellen vaak ontbrekende details willekeurig invullen, wat leidt tot een bias naar gemiddelde gebruikersvoorkeuren en de precisie voor professioneel gebruik beperkt. Wij pakken deze beperking aan door het eerste open-source tekst-naar-beeldmodel te trainen op lange gestructureerde bijschriften, waarbij elke trainingssample geannoteerd is met dezelfde set fijnmazige attributen. Dit ontwerp maximaliseert de expressieve dekking en maakt ontvlochten controle over visuele factoren mogelijk. Om lange bijschriften efficiënt te verwerken, stellen we DimFusion voor, een fusiemechanisme dat intermediare tokens van een lichtgewicht LLM integreert zonder de tokenlengte te vergroten. We introduceren ook het Text-as-a-Bottleneck Reconstruction (TaBR)-evaluatieprotocol. Door te beoordelen hoe goed echte beelden gereconstrueerd kunnen worden via een captioning-generatielus, meet TaBR directe bestuurbaarheid en expressiviteit, zelfs voor zeer lange bijschriften waar bestaande evaluatiemethoden falen. Ten slotte demonstreren we onze bijdragen door het grootschalige model FIBO te trainen, waarmee state-of-the-art promptafstemming onder open-source modellen wordt bereikt. Modelgewichten zijn openbaar beschikbaar op https://huggingface.co/briaai/FIBO.
English
Text-to-image models have rapidly evolved from casual creative tools to
professional-grade systems, achieving unprecedented levels of image quality and
realism. Yet, most models are trained to map short prompts into detailed
images, creating a gap between sparse textual input and rich visual outputs.
This mismatch reduces controllability, as models often fill in missing details
arbitrarily, biasing toward average user preferences and limiting precision for
professional use. We address this limitation by training the first open-source
text-to-image model on long structured captions, where every training sample is
annotated with the same set of fine-grained attributes. This design maximizes
expressive coverage and enables disentangled control over visual factors. To
process long captions efficiently, we propose DimFusion, a fusion mechanism
that integrates intermediate tokens from a lightweight LLM without increasing
token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR)
evaluation protocol. By assessing how well real images can be reconstructed
through a captioning-generation loop, TaBR directly measures controllability
and expressiveness, even for very long captions where existing evaluation
methods fail. Finally, we demonstrate our contributions by training the
large-scale model FIBO, achieving state-of-the-art prompt alignment among
open-source models. Model weights are publicly available at
https://huggingface.co/briaai/FIBO