Optimal Control Ontmoet Flow Matching: Een Principesvolle Route naar Multi-Subject Nauwkeurigheid
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
October 2, 2025
Auteurs: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI
Samenvatting
Text-to-image (T2I)-modellen presteren uitstekend bij prompts met één entiteit, maar hebben moeite met beschrijvingen van meerdere onderwerpen, waarbij vaak sprake is van attribuutlekkage, identiteitsverstrengeling en het weglaten van onderwerpen. We introduceren het eerste theoretische kader met een principieel, optimaliseerbaar doel om de samplingdynamiek te sturen naar betrouwbaarheid bij meerdere onderwerpen. Door flow matching (FM) te bekijken via stochastische optimale controle (SOC), formuleren we het ontwarren van onderwerpen als controle over een getrainde FM-sampler. Dit resulteert in twee architectuuronafhankelijke algoritmen: (i) een trainingsvrije testtijdcontroller die de basisvelocity verstoort met een enkele update, en (ii) Adjoint Matching, een lichtgewicht fine-tuningregel die een controlesysteem regresseert naar een achterwaartse adjoint-signaal terwijl de mogelijkheden van het basismodel behouden blijven. Dezelfde formulering verenigt eerdere aandachtheuristieken, breidt uit naar diffusiemodellen via een flow-diffusiecorrespondentie, en biedt de eerste fine-tuningroute die expliciet is ontworpen voor betrouwbaarheid bij meerdere onderwerpen. Empirisch gezien verbeteren beide algoritmen op Stable Diffusion 3.5, FLUX en Stable Diffusion XL consistent de uitlijning van meerdere onderwerpen terwijl de stijl van het basismodel behouden blijft. Testtijdcontrole draait efficiënt op standaard GPU's, en fine-tuned controllers die getraind zijn op beperkte prompts generaliseren naar onbekende prompts. We benadrukken verder FOCUS (Flow Optimal Control for Unentangled Subjects), dat state-of-the-art betrouwbaarheid bij meerdere onderwerpen bereikt over verschillende modellen.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.