Controle Ótimo Encontra Correspondência de Fluxo: Uma Abordagem Fundamentada para Fidelidade Multiassunto
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
October 2, 2025
Autores: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI
Resumo
Modelos de texto para imagem (T2I) se destacam em prompts de entidade única, mas enfrentam dificuldades com descrições de múltiplos sujeitos, frequentemente apresentando vazamento de atributos, entrelaçamento de identidades e omissões de sujeitos. Introduzimos o primeiro framework teórico com um objetivo otimizável e fundamentado para direcionar a dinâmica de amostragem em direção à fidelidade de múltiplos sujeitos. Ao analisar o flow matching (FM) através do controle ótimo estocástico (SOC), formulamos o desentrelaçamento de sujeitos como controle sobre um amostrador FM treinado. Isso resulta em dois algoritmos independentes de arquitetura: (i) um controlador em tempo de teste sem necessidade de treinamento que perturba a velocidade base com uma atualização de passagem única, e (ii) Adjoint Matching, uma regra de ajuste fino leve que regressa uma rede de controle para um sinal adjunto reverso, preservando as capacidades do modelo base. A mesma formulação unifica heurísticas de atenção anteriores, estende-se a modelos de difusão via uma correspondência flow-difusão, e fornece a primeira rota de ajuste fino explicitamente projetada para fidelidade de múltiplos sujeitos. Empiricamente, no Stable Diffusion 3.5, FLUX e Stable Diffusion XL, ambos os algoritmos melhoram consistentemente o alinhamento de múltiplos sujeitos enquanto mantêm o estilo do modelo base. O controle em tempo de teste é executado de forma eficiente em GPUs comuns, e controladores ajustados finamente treinados com prompts limitados generalizam para prompts não vistos. Destacamos ainda o FOCUS (Flow Optimal Control for Unentangled Subjects), que alcança a melhor fidelidade de múltiplos sujeitos entre os modelos, estabelecendo um novo estado da arte.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.