ChatPaper.aiChatPaper

Ein Bild aus 1.000 Wörtern erzeugen: Verbesserung von Text-zu-Bild-Generierung mit strukturierten Bildbeschreibungen

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

November 10, 2025
papers.authors: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady
cs.AI

papers.abstract

Text-to-Image-Modelle haben sich rasant von einfachen kreativen Werkzeugen zu professionellen Systemen entwickelt und dabei ein bisher unerreichtes Niveau an Bildqualität und Realismus erreicht. Dennoch sind die meisten Modelle darauf trainiert, kurze Prompts in detaillierte Bilder abzubilden, was eine Lücke zwischen spärlicher Texteingabe und reichhaltiger visueller Ausgabe schafft. Diese Diskrepanz verringert die Steuerbarkeit, da Modelle fehlende Details oft willkürlich ergänzen, was zu einer Verzerrung hin zu durchschnittlichen Nutzerpräferenzen führt und die Präzision für den professionellen Einsatz einschränkt. Wir begegnen dieser Einschränkung, indem wir das erste Open-Source-Text-to-Image-Modell mit langen, strukturierten Bildbeschreibungen trainieren, wobei jede Trainingsstichprobe mit demselben Satz feinkörniger Attribute annotiert ist. Dieser Entwurf maximiert die Ausdrucksabdeckung und ermöglicht eine entflochtene Steuerung visueller Faktoren. Um lange Beschreibungen effizient zu verarbeiten, schlagen wir DimFusion vor, einen Fusionsmechanismus, der Zwischentoken eines schlanken LLM integriert, ohne die Tokenlänge zu erhöhen. Wir führen zudem das Evaluierungsprotokoll „Text-as-a-Bottleneck Reconstruction“ (TaBR) ein. Indem bewertet wird, wie gut reale Bilder durch einen Beschreibungs- und Generierungszyklus rekonstruiert werden können, misst TaBR Steuerbarkeit und Ausdrucksstärke direkt, selbst für sehr lange Beschreibungen, bei denen bestehende Evaluierungsmethoden versagen. Abschließend demonstrieren wir unsere Beiträge durch das Training des großskaligen Modells FIBO, das unter Open-Source-Modellen state-of-the-art Prompt-Alignment erreicht. Die Modellgewichte sind öffentlich verfügbar unter https://huggingface.co/briaai/FIBO.
English
Text-to-image models have rapidly evolved from casual creative tools to professional-grade systems, achieving unprecedented levels of image quality and realism. Yet, most models are trained to map short prompts into detailed images, creating a gap between sparse textual input and rich visual outputs. This mismatch reduces controllability, as models often fill in missing details arbitrarily, biasing toward average user preferences and limiting precision for professional use. We address this limitation by training the first open-source text-to-image model on long structured captions, where every training sample is annotated with the same set of fine-grained attributes. This design maximizes expressive coverage and enables disentangled control over visual factors. To process long captions efficiently, we propose DimFusion, a fusion mechanism that integrates intermediate tokens from a lightweight LLM without increasing token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR) evaluation protocol. By assessing how well real images can be reconstructed through a captioning-generation loop, TaBR directly measures controllability and expressiveness, even for very long captions where existing evaluation methods fail. Finally, we demonstrate our contributions by training the large-scale model FIBO, achieving state-of-the-art prompt alignment among open-source models. Model weights are publicly available at https://huggingface.co/briaai/FIBO
PDF253December 2, 2025