최적 제어와 플로우 매칭의 만남: 다중 주제 충실도를 위한 원리 기반 접근법
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
October 2, 2025
저자: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI
초록
텍스트-이미지(T2I) 모델은 단일 개체 프롬프트에서는 뛰어난 성능을 보이지만, 다중 주체 설명에서는 속성 누출, 정체성 혼합, 주체 생략 등의 문제를 겪는 경우가 많습니다. 우리는 샘플링 역학을 다중 주체 충실도로 이끌기 위한 원칙적이고 최적화 가능한 목적 함수를 갖춘 최초의 이론적 프레임워크를 소개합니다. 확률적 최적 제어(SOC) 관점에서 흐름 매칭(FM)을 바라보며, 학습된 FM 샘플러에 대한 제어로서 주체 분리를 공식화합니다. 이를 통해 두 가지 아키텍처에 독립적인 알고리즘을 도출했습니다: (i) 기본 속도를 단일 패스 업데이트로 교란시키는 학습 불필요 테스트 타임 제어기, 그리고 (ii) 기본 모델의 기능을 유지하면서 제어 네트워크를 역방향 수반 신호로 회귀시키는 경량 미세 조정 규칙인 Adjoint Matching. 동일한 공식화는 기존의 주의 메커니즘을 통합하고, 흐름-확산 대응을 통해 확산 모델로 확장하며, 다중 주체 충실도를 위해 명시적으로 설계된 최초의 미세 조정 경로를 제공합니다. 실험적으로, Stable Diffusion 3.5, FLUX, 그리고 Stable Diffusion XL에서 두 알고리즘 모두 기본 모델 스타일을 유지하면서 다중 주체 정렬을 지속적으로 개선했습니다. 테스트 타임 제어는 일반 GPU에서 효율적으로 실행되며, 제한된 프롬프트로 학습된 미세 조정 제어기는 보이지 않는 프롬프트에도 일반화됩니다. 또한, 모델 간 최고 수준의 다중 주체 충실도를 달성하는 FOCUS(Flow Optimal Control for Unentangled Subjects)를 강조합니다.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.