最適制御とフローマッチングの融合：多被験者忠実性への原理的アプローチ

要旨

テキストから画像（T2I）生成モデルは、単一のエンティティを対象としたプロンプトでは優れた性能を発揮しますが、複数の主題を含む記述に対しては、属性の漏洩、アイデンティティの絡み合い、主題の欠落といった課題に直面します。本研究では、サンプリングダイナミクスを複数主題の忠実性に向けて導くための、理論的枠組みと最適化可能な目的関数を初めて提案します。確率的最適制御（SOC）の観点からフローマッチング（FM）を捉え、訓練済みFMサンプラーに対する制御として主題の分離を定式化します。これにより、以下の2つのアーキテクチャに依存しないアルゴリズムが得られます：(i) ベース速度を単一パスの更新で摂動させるトレーニング不要のテストタイム制御器、(ii) ベースモデルの能力を維持しつつ、制御ネットワークを後向き随伴信号に回帰させる軽量なファインチューニング手法であるAdjoint Matchingです。この定式化は、従来のアテンションヒューリスティックを統一し、フロー-拡散対応を介して拡散モデルにも拡張可能であり、複数主題の忠実性に特化した初めてのファインチューニング手法を提供します。実験的には、Stable Diffusion 3.5、FLUX、Stable Diffusion XLにおいて、両アルゴリズムがベースモデルのスタイルを維持しつつ、複数主題の整合性を一貫して向上させることが示されました。テストタイム制御は汎用GPU上で効率的に動作し、限られたプロンプトで訓練されたファインチューニング済み制御器は未見のプロンプトにも一般化します。さらに、FOCUS（Flow Optimal Control for Unentangled Subjects）を紹介し、モデル横断的に最先端の複数主題忠実性を達成することを示します。

English

Text-to-image (T2I) models excel on single-entity prompts but struggle with multi-subject descriptions, often showing attribute leakage, identity entanglement, and subject omissions. We introduce the first theoretical framework with a principled, optimizable objective for steering sampling dynamics toward multi-subject fidelity. Viewing flow matching (FM) through stochastic optimal control (SOC), we formulate subject disentanglement as control over a trained FM sampler. This yields two architecture-agnostic algorithms: (i) a training-free test-time controller that perturbs the base velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight fine-tuning rule that regresses a control network to a backward adjoint signal while preserving base-model capabilities. The same formulation unifies prior attention heuristics, extends to diffusion models via a flow-diffusion correspondence, and provides the first fine-tuning route explicitly designed for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and Stable Diffusion XL, both algorithms consistently improve multi-subject alignment while maintaining base-model style. Test-time control runs efficiently on commodity GPUs, and fine-tuned controllers trained on limited prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal Control for Unentangled Subjects), which achieves state-of-the-art multi-subject fidelity across models.

最適制御とフローマッチングの融合：多被験者忠実性への原理的アプローチ

Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

要旨

Support