ChatPaper.aiChatPaper

千の言葉から画像を生成:構造化キャプションによるテキスト画像変換の高度化

Generating an Image From 1,000 Words: Enhancing Text-to-Image With Structured Captions

November 10, 2025
著者: Eyal Gutflaish, Eliran Kachlon, Hezi Zisman, Tal Hacham, Nimrod Sarid, Alexander Visheratin, Saar Huberman, Gal Davidi, Guy Bukchin, Kfir Goldberg, Ron Mokady
cs.AI

要旨

テキストから画像への生成モデルは、カジュアルな創作ツールからプロ仕様のシステムへと急速に進化し、前例のないレベルの画質と写実性を達成しています。しかし、ほとんどのモデルは短いプロンプトを詳細な画像にマッピングするように訓練されており、疎なテキスト入力と豊富な視覚的出力の間に隔たりが生じています。この不一致は制御性を低下させ、モデルが不足する詳細を恣意的に補完するため、平均的なユーザー嗜好に偏り、プロフェッショナル用途での精度が制限されます。我々はこの制約に対処するため、長い構造化キャプションで訓練した初のオープンソーステキスト画像生成モデルを開発しました。すべての訓練サンプルは同一の細粒度属性セットで注釈付けされ、表現力のカバレッジを最大化し視覚的要因に対する分離制御を可能にします。長文キャプションを効率的に処理するため、トークン長を増加させずに軽量LLMの中間トークンを統合する融合機構DimFusionを提案します。さらにText-as-a-Bottleneck Reconstruction (TaBR) 評価プロトコルを導入します。キャプション生成ループを通じて実画像がどの程度再構成できるかを評価するTaBRは、既存の評価手法が失敗する非常に長いキャプションにおいても、制御性と表現力を直接測定します。最後に、大規模モデルFIBOを訓練することで我々の貢献を実証し、オープンソースモデルの中で最先端のプロンプト整合性を達成しました。モデル重みはhttps://huggingface.co/briaai/FIBOで公開されています。
English
Text-to-image models have rapidly evolved from casual creative tools to professional-grade systems, achieving unprecedented levels of image quality and realism. Yet, most models are trained to map short prompts into detailed images, creating a gap between sparse textual input and rich visual outputs. This mismatch reduces controllability, as models often fill in missing details arbitrarily, biasing toward average user preferences and limiting precision for professional use. We address this limitation by training the first open-source text-to-image model on long structured captions, where every training sample is annotated with the same set of fine-grained attributes. This design maximizes expressive coverage and enables disentangled control over visual factors. To process long captions efficiently, we propose DimFusion, a fusion mechanism that integrates intermediate tokens from a lightweight LLM without increasing token length. We also introduce the Text-as-a-Bottleneck Reconstruction (TaBR) evaluation protocol. By assessing how well real images can be reconstructed through a captioning-generation loop, TaBR directly measures controllability and expressiveness, even for very long captions where existing evaluation methods fail. Finally, we demonstrate our contributions by training the large-scale model FIBO, achieving state-of-the-art prompt alignment among open-source models. Model weights are publicly available at https://huggingface.co/briaai/FIBO
PDF253December 2, 2025