1,000단어로 이미지 생성하기: 구조화된 캡션을 통한 텍스트-이미지 변환 성능 향상
Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions
November 10, 2025
저자: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady
cs.AI
초록
텍스트-이미지 모델은 캐주얼한 창작 도구에서 전문가 수준의 시스템으로 빠르게 진화하며 전례 없는 수준의 이미지 품질과 사실감을 달성했습니다. 그러나 대부분의 모델은 짧은 프롬프트를 상세한 이미지로 매핑하도록 학습되어, 부족한 텍스트 입력과 풍부한 시각적 출력 사이에 간극을 만듭니다. 이러한 불일치는 모델이 종종 누락된 세부 사항을 임의로 채워 일반 사용자 선호도에 편향되는 방식으로 제어 가능성을 낮추고 전문적인 사용에서의 정밀도를 제한합니다. 우리는 모든 학습 샘플이 동일한 세분화된 속성 집합으로 주석 처리된 긴 구조화된 캡션으로 최초의 오픈소스 텍스트-이미지 모델을 학습하여 이 한계를 해결합니다. 이 설계는 표현 범위를 극대화하고 시각적 요소에 대한 분리된 제어를 가능하게 합니다. 긴 캡션을 효율적으로 처리하기 위해 우리는 토큰 길이를 증가시키지 않으면서 경량 LLM의 중간 토큰을 통합하는 퓨전 메커니즘인 DimFusion을 제안합니다. 또한 텍스트-보틀네크 재구성(TaBR) 평가 프로토콜을 소개합니다. 실제 이미지가 캡션-생성 루프를 통해 얼마나 잘 재구성될 수 있는지 평가함으로써, TaBR는 기존 평가 방법이 실패하는 매우 긴 캡션에서도 제어 가능성과 표현력을 직접 측정합니다. 마지막으로, 대규모 모델 FIBO를 학습하여 오픈소스 모델 중 최고 수준의 프롬프트 정렬을 달성함으로써 우리의 기여를 입증합니다. 모델 가중치는 https://huggingface.co/briaai/FIBO에서 공개됩니다.
English
Text-to-image models have rapidly evolved from casual creative tools to
professional-grade systems, achieving unprecedented levels of image quality and
realism. Yet, most models are trained to map short prompts into detailed
images, creating a gap between sparse textual input and rich visual outputs.
This mismatch reduces controllability, as models often fill in missing details
arbitrarily, biasing toward average user preferences and limiting precision for
professional use. We address this limitation by training the first open-source
text-to-image model on long structured captions, where every training sample is
annotated with the same set of fine-grained attributes. This design maximizes
expressive coverage and enables disentangled control over visual factors. To
process long captions efficiently, we propose DimFusion, a fusion mechanism
that integrates intermediate tokens from a lightweight LLM without increasing
token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR)
evaluation protocol. By assessing how well real images can be reconstructed
through a captioning-generation loop, TaBR directly measures controllability
and expressiveness, even for very long captions where existing evaluation
methods fail. Finally, we demonstrate our contributions by training the
large-scale model FIBO, achieving state-of-the-art prompt alignment among
open-source models. Model weights are publicly available at
https://huggingface.co/briaai/FIBO