Generare un'Immagine da 1.000 Parole: Migliorare la Generazione di Immagini da Testo con Didascalie Strutturate
Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions
November 10, 2025
Autori: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady
cs.AI
Abstract
I modelli text-to-image si sono rapidamente evoluti da strumenti creativi occasionali a sistemi di livello professionale, raggiungendo livelli senza precedenti di qualità e realismo delle immagini. Tuttavia, la maggior parte dei modelli viene addestrata per mappare prompt brevi in immagini dettagliate, creando uno scarto tra l'input testuale scarso e gli output visivi ricchi. Questa discrepanza riduce la controllabilità, poiché i modelli spesso completano i dettagli mancanti in modo arbitrario, inclinando verso le preferenze medie dell'utente e limitando la precisione per un uso professionale. Affrontiamo questa limitazione addestrando il primo modello text-to-image open-source su didascalie lunghe e strutturate, dove ogni campione di training è annotato con lo stesso insieme di attributi granulari. Questo progetto massimizza la copertura espressiva e consente un controllo disaccoppiato sui fattori visivi. Per elaborare le didascalie lunghe in modo efficiente, proponiamo DimFusion, un meccanismo di fusione che integra token intermedi da un LLM leggero senza aumentare la lunghezza dei token. Introduciamo anche il protocollo di valutazione Text-as-a-Bottleneck Reconstruction (TaBR). Valutando quanto bene le immagini reali possono essere ricostruite attraverso un ciclo di captioning-generazione, TaBR misura direttamente la controllabilità e l'espressività, anche per didascalie molto lunghe dove i metodi di valutazione esistenti falliscono. Infine, dimostriamo i nostri contributi addestrando il modello su larga scala FIBO, raggiungendo un allineamento al prompt allo stato dell'arte tra i modelli open-source. I pesi del modello sono pubblicamente disponibili su https://huggingface.co/briaai/FIBO.
English
Text-to-image models have rapidly evolved from casual creative tools to
professional-grade systems, achieving unprecedented levels of image quality and
realism. Yet, most models are trained to map short prompts into detailed
images, creating a gap between sparse textual input and rich visual outputs.
This mismatch reduces controllability, as models often fill in missing details
arbitrarily, biasing toward average user preferences and limiting precision for
professional use. We address this limitation by training the first open-source
text-to-image model on long structured captions, where every training sample is
annotated with the same set of fine-grained attributes. This design maximizes
expressive coverage and enables disentangled control over visual factors. To
process long captions efficiently, we propose DimFusion, a fusion mechanism
that integrates intermediate tokens from a lightweight LLM without increasing
token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR)
evaluation protocol. By assessing how well real images can be reconstructed
through a captioning-generation loop, TaBR directly measures controllability
and expressiveness, even for very long captions where existing evaluation
methods fail. Finally, we demonstrate our contributions by training the
large-scale model FIBO, achieving state-of-the-art prompt alignment among
open-source models. Model weights are publicly available at
https://huggingface.co/briaai/FIBO