Een Afbeelding Genereren uit 1.000 Woorden: Verbetering van Tekst-naar-Afbeelding met Gestructureerde Bijschriften

Samenvatting

Tekst-naar-beeldmodellen zijn snel geëvolueerd van informele creatieve tools naar professionele systemen, waarbij ze een ongekend niveau van beeldkwaliteit en realisme bereiken. Toch zijn de meeste modellen getraind om korte prompts om te zetten in gedetailleerde beelden, wat een kloof creëert tussen schaarse tekstuele input en rijke visuele output. Deze discrepantie vermindert de bestuurbaarheid, aangezien modellen vaak ontbrekende details willekeurig invullen, wat leidt tot een bias naar gemiddelde gebruikersvoorkeuren en de precisie voor professioneel gebruik beperkt. Wij pakken deze beperking aan door het eerste open-source tekst-naar-beeldmodel te trainen op lange gestructureerde bijschriften, waarbij elke trainingssample geannoteerd is met dezelfde set fijnmazige attributen. Dit ontwerp maximaliseert de expressieve dekking en maakt ontvlochten controle over visuele factoren mogelijk. Om lange bijschriften efficiënt te verwerken, stellen we DimFusion voor, een fusiemechanisme dat intermediare tokens van een lichtgewicht LLM integreert zonder de tokenlengte te vergroten. We introduceren ook het Text-as-a-Bottleneck Reconstruction (TaBR)-evaluatieprotocol. Door te beoordelen hoe goed echte beelden gereconstrueerd kunnen worden via een captioning-generatielus, meet TaBR directe bestuurbaarheid en expressiviteit, zelfs voor zeer lange bijschriften waar bestaande evaluatiemethoden falen. Ten slotte demonstreren we onze bijdragen door het grootschalige model FIBO te trainen, waarmee state-of-the-art promptafstemming onder open-source modellen wordt bereikt. Modelgewichten zijn openbaar beschikbaar op https://huggingface.co/briaai/FIBO.

English

Text-to-image models have rapidly evolved from casual creative tools to professional-grade systems, achieving unprecedented levels of image quality and realism. Yet, most models are trained to map short prompts into detailed images, creating a gap between sparse textual input and rich visual outputs. This mismatch reduces controllability, as models often fill in missing details arbitrarily, biasing toward average user preferences and limiting precision for professional use. We address this limitation by training the first open-source text-to-image model on long structured captions, where every training sample is annotated with the same set of fine-grained attributes. This design maximizes expressive coverage and enables disentangled control over visual factors. To process long captions efficiently, we propose DimFusion, a fusion mechanism that integrates intermediate tokens from a lightweight LLM without increasing token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR) evaluation protocol. By assessing how well real images can be reconstructed through a captioning-generation loop, TaBR directly measures controllability and expressiveness, even for very long captions where existing evaluation methods fail. Finally, we demonstrate our contributions by training the large-scale model FIBO, achieving state-of-the-art prompt alignment among open-source models. Model weights are publicly available at https://huggingface.co/briaai/FIBO

Een Afbeelding Genereren uit 1.000 Woorden: Verbetering van Tekst-naar-Afbeelding met Gestructureerde Bijschriften

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

Samenvatting

Support