Optimal Control Ontmoet Flow Matching: Een Principesvolle Route naar Multi-Subject Nauwkeurigheid

Samenvatting

Text-to-image (T2I)-modellen presteren uitstekend bij prompts met één entiteit, maar hebben moeite met beschrijvingen van meerdere onderwerpen, waarbij vaak sprake is van attribuutlekkage, identiteitsverstrengeling en het weglaten van onderwerpen. We introduceren het eerste theoretische kader met een principieel, optimaliseerbaar doel om de samplingdynamiek te sturen naar betrouwbaarheid bij meerdere onderwerpen. Door flow matching (FM) te bekijken via stochastische optimale controle (SOC), formuleren we het ontwarren van onderwerpen als controle over een getrainde FM-sampler. Dit resulteert in twee architectuuronafhankelijke algoritmen: (i) een trainingsvrije testtijdcontroller die de basisvelocity verstoort met een enkele update, en (ii) Adjoint Matching, een lichtgewicht fine-tuningregel die een controlesysteem regresseert naar een achterwaartse adjoint-signaal terwijl de mogelijkheden van het basismodel behouden blijven. Dezelfde formulering verenigt eerdere aandachtheuristieken, breidt uit naar diffusiemodellen via een flow-diffusiecorrespondentie, en biedt de eerste fine-tuningroute die expliciet is ontworpen voor betrouwbaarheid bij meerdere onderwerpen. Empirisch gezien verbeteren beide algoritmen op Stable Diffusion 3.5, FLUX en Stable Diffusion XL consistent de uitlijning van meerdere onderwerpen terwijl de stijl van het basismodel behouden blijft. Testtijdcontrole draait efficiënt op standaard GPU's, en fine-tuned controllers die getraind zijn op beperkte prompts generaliseren naar onbekende prompts. We benadrukken verder FOCUS (Flow Optimal Control for Unentangled Subjects), dat state-of-the-art betrouwbaarheid bij meerdere onderwerpen bereikt over verschillende modellen.

English

Text-to-image (T2I) models excel on single-entity prompts but struggle with multi-subject descriptions, often showing attribute leakage, identity entanglement, and subject omissions. We introduce the first theoretical framework with a principled, optimizable objective for steering sampling dynamics toward multi-subject fidelity. Viewing flow matching (FM) through stochastic optimal control (SOC), we formulate subject disentanglement as control over a trained FM sampler. This yields two architecture-agnostic algorithms: (i) a training-free test-time controller that perturbs the base velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight fine-tuning rule that regresses a control network to a backward adjoint signal while preserving base-model capabilities. The same formulation unifies prior attention heuristics, extends to diffusion models via a flow-diffusion correspondence, and provides the first fine-tuning route explicitly designed for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and Stable Diffusion XL, both algorithms consistently improve multi-subject alignment while maintaining base-model style. Test-time control runs efficiently on commodity GPUs, and fine-tuned controllers trained on limited prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal Control for Unentangled Subjects), which achieves state-of-the-art multi-subject fidelity across models.

Optimal Control Ontmoet Flow Matching: Een Principesvolle Route naar Multi-Subject Nauwkeurigheid

Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

Samenvatting

Support