最適制御とフローマッチングの融合:多被験者忠実性への原理的アプローチ
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
October 2, 2025
著者: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI
要旨
テキストから画像(T2I)生成モデルは、単一のエンティティを対象としたプロンプトでは優れた性能を発揮しますが、複数の主題を含む記述に対しては、属性の漏洩、アイデンティティの絡み合い、主題の欠落といった課題に直面します。本研究では、サンプリングダイナミクスを複数主題の忠実性に向けて導くための、理論的枠組みと最適化可能な目的関数を初めて提案します。確率的最適制御(SOC)の観点からフローマッチング(FM)を捉え、訓練済みFMサンプラーに対する制御として主題の分離を定式化します。これにより、以下の2つのアーキテクチャに依存しないアルゴリズムが得られます:(i) ベース速度を単一パスの更新で摂動させるトレーニング不要のテストタイム制御器、(ii) ベースモデルの能力を維持しつつ、制御ネットワークを後向き随伴信号に回帰させる軽量なファインチューニング手法であるAdjoint Matchingです。この定式化は、従来のアテンションヒューリスティックを統一し、フロー-拡散対応を介して拡散モデルにも拡張可能であり、複数主題の忠実性に特化した初めてのファインチューニング手法を提供します。実験的には、Stable Diffusion 3.5、FLUX、Stable Diffusion XLにおいて、両アルゴリズムがベースモデルのスタイルを維持しつつ、複数主題の整合性を一貫して向上させることが示されました。テストタイム制御は汎用GPU上で効率的に動作し、限られたプロンプトで訓練されたファインチューニング済み制御器は未見のプロンプトにも一般化します。さらに、FOCUS(Flow Optimal Control for Unentangled Subjects)を紹介し、モデル横断的に最先端の複数主題忠実性を達成することを示します。
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.