ChatPaper.aiChatPaper

Генерация изображения из тысячи слов: улучшение преобразования текста в изображение с помощью структурированных описаний

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

November 10, 2025
Авторы: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady
cs.AI

Аннотация

Модели преобразования текста в изображение быстро эволюционировали от инструментов для случайного творчества до профессиональных систем, достигнув беспрецедентного уровня качества и реалистичности изображений. Однако большинство моделей обучаются преобразовывать короткие запросы в детализированные изображения, что создает разрыв между скудным текстовым входом и богатым визуальным выводом. Это несоответствие снижает управляемость, поскольку модели часто произвольно заполняют недостающие детали, смещаясь в сторону усредненных предпочтений пользователей и ограничивая точность для профессионального применения. Мы устраняем это ограничение, обучив первую открытую модель преобразования текста в изображение на длинных структурированных описаниях, где каждый пример обучающей выборки аннотирован одним и тем же набором детализированных атрибутов. Такой подход максимизирует выразительный охват и обеспечивает раздельный контроль над визуальными факторами. Для эффективной обработки длинных описаний мы предлагаем DimFusion — механизм слияния, который интегрирует промежуточные токены из облегченной большой языковой модели без увеличения длины токенов. Мы также представляем протокол оценки Text-as-a-Bottleneck Reconstruction (TaBR). Оценивая, насколько хорошо реальные изображения могут быть реконструированы через цикл описания-генерации, TaBR напрямую измеряет управляемость и выразительность, даже для очень длинных описаний, где существующие методы оценки не работают. Наконец, мы демонстрируем наши достижения, обучив крупномасштабную модель FIBO, которая достигает наилучшего соответствия запросу среди открытых моделей. Веса модели общедоступны по адресу https://huggingface.co/briaai/FIBO.
English
Text-to-image models have rapidly evolved from casual creative tools to professional-grade systems, achieving unprecedented levels of image quality and realism. Yet, most models are trained to map short prompts into detailed images, creating a gap between sparse textual input and rich visual outputs. This mismatch reduces controllability, as models often fill in missing details arbitrarily, biasing toward average user preferences and limiting precision for professional use. We address this limitation by training the first open-source text-to-image model on long structured captions, where every training sample is annotated with the same set of fine-grained attributes. This design maximizes expressive coverage and enables disentangled control over visual factors. To process long captions efficiently, we propose DimFusion, a fusion mechanism that integrates intermediate tokens from a lightweight LLM without increasing token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR) evaluation protocol. By assessing how well real images can be reconstructed through a captioning-generation loop, TaBR directly measures controllability and expressiveness, even for very long captions where existing evaluation methods fail. Finally, we demonstrate our contributions by training the large-scale model FIBO, achieving state-of-the-art prompt alignment among open-source models. Model weights are publicly available at https://huggingface.co/briaai/FIBO
PDF283February 7, 2026