ChatPaper.aiChatPaper

Controle Ótimo Encontra Correspondência de Fluxo: Uma Abordagem Fundamentada para Fidelidade Multiassunto

Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

October 2, 2025
Autores: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI

Resumo

Modelos de texto para imagem (T2I) se destacam em prompts de entidade única, mas enfrentam dificuldades com descrições de múltiplos sujeitos, frequentemente apresentando vazamento de atributos, entrelaçamento de identidades e omissões de sujeitos. Introduzimos o primeiro framework teórico com um objetivo otimizável e fundamentado para direcionar a dinâmica de amostragem em direção à fidelidade de múltiplos sujeitos. Ao analisar o flow matching (FM) através do controle ótimo estocástico (SOC), formulamos o desentrelaçamento de sujeitos como controle sobre um amostrador FM treinado. Isso resulta em dois algoritmos independentes de arquitetura: (i) um controlador em tempo de teste sem necessidade de treinamento que perturba a velocidade base com uma atualização de passagem única, e (ii) Adjoint Matching, uma regra de ajuste fino leve que regressa uma rede de controle para um sinal adjunto reverso, preservando as capacidades do modelo base. A mesma formulação unifica heurísticas de atenção anteriores, estende-se a modelos de difusão via uma correspondência flow-difusão, e fornece a primeira rota de ajuste fino explicitamente projetada para fidelidade de múltiplos sujeitos. Empiricamente, no Stable Diffusion 3.5, FLUX e Stable Diffusion XL, ambos os algoritmos melhoram consistentemente o alinhamento de múltiplos sujeitos enquanto mantêm o estilo do modelo base. O controle em tempo de teste é executado de forma eficiente em GPUs comuns, e controladores ajustados finamente treinados com prompts limitados generalizam para prompts não vistos. Destacamos ainda o FOCUS (Flow Optimal Control for Unentangled Subjects), que alcança a melhor fidelidade de múltiplos sujeitos entre os modelos, estabelecendo um novo estado da arte.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with multi-subject descriptions, often showing attribute leakage, identity entanglement, and subject omissions. We introduce the first theoretical framework with a principled, optimizable objective for steering sampling dynamics toward multi-subject fidelity. Viewing flow matching (FM) through stochastic optimal control (SOC), we formulate subject disentanglement as control over a trained FM sampler. This yields two architecture-agnostic algorithms: (i) a training-free test-time controller that perturbs the base velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight fine-tuning rule that regresses a control network to a backward adjoint signal while preserving base-model capabilities. The same formulation unifies prior attention heuristics, extends to diffusion models via a flow-diffusion correspondence, and provides the first fine-tuning route explicitly designed for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and Stable Diffusion XL, both algorithms consistently improve multi-subject alignment while maintaining base-model style. Test-time control runs efficiently on commodity GPUs, and fine-tuned controllers trained on limited prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal Control for Unentangled Subjects), which achieves state-of-the-art multi-subject fidelity across models.
PDF52October 3, 2025