Generando una imagen a partir de 1.000 palabras: Mejorando la conversión de texto a imagen con descripciones estructuradas
Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions
November 10, 2025
Autores: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady
cs.AI
Resumen
Los modelos de texto a imagen han evolucionado rápidamente desde herramientas creativas informales hasta sistemas de grado profesional, logrando niveles sin precedentes de calidad de imagen y realismo. Sin embargo, la mayoría de los modelos se entrenan para mapear indicaciones breves en imágenes detalladas, creando una brecha entre la entrada textual escasa y los resultados visuales ricos. Esta discrepancia reduce la controlabilidad, ya que los modelos a menudo completan los detalles faltantes de manera arbitraria, sesgándose hacia las preferencias promedio de los usuarios y limitando la precisión para uso profesional. Abordamos esta limitación entrenando el primer modelo de código abierto de texto a imagen con leyendas estructuradas largas, donde cada muestra de entrenamiento se anota con el mismo conjunto de atributos de grano fino. Este diseño maximiza la cobertura expresiva y permite un control desenredado sobre los factores visuales. Para procesar leyendas largas de manera eficiente, proponemos DimFusion, un mecanismo de fusión que integra tokens intermedios de un LLM ligero sin aumentar la longitud de los tokens. También presentamos el protocolo de evaluación Reconstrucción con Texto como Cuello de Botella (TaBR). Al evaluar qué tan bien se pueden reconstruir imágenes reales a través de un bucle de generación de leyendas, TaBR mide directamente la controlabilidad y expresividad, incluso para leyendas muy largas donde los métodos de evaluación existentes fallan. Finalmente, demostramos nuestras contribuciones entrenando el modelo a gran escala FIBO, logrando una alineación de indicaciones de vanguardia entre los modelos de código abierto. Los pesos del modelo están disponibles públicamente en https://huggingface.co/briaai/FIBO.
English
Text-to-image models have rapidly evolved from casual creative tools to
professional-grade systems, achieving unprecedented levels of image quality and
realism. Yet, most models are trained to map short prompts into detailed
images, creating a gap between sparse textual input and rich visual outputs.
This mismatch reduces controllability, as models often fill in missing details
arbitrarily, biasing toward average user preferences and limiting precision for
professional use. We address this limitation by training the first open-source
text-to-image model on long structured captions, where every training sample is
annotated with the same set of fine-grained attributes. This design maximizes
expressive coverage and enables disentangled control over visual factors. To
process long captions efficiently, we propose DimFusion, a fusion mechanism
that integrates intermediate tokens from a lightweight LLM without increasing
token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR)
evaluation protocol. By assessing how well real images can be reconstructed
through a captioning-generation loop, TaBR directly measures controllability
and expressiveness, even for very long captions where existing evaluation
methods fail. Finally, we demonstrate our contributions by training the
large-scale model FIBO, achieving state-of-the-art prompt alignment among
open-source models. Model weights are publicly available at
https://huggingface.co/briaai/FIBO