Optimale Steuerung trifft Flow Matching: Ein prinzipieller Weg zur Multi-Subjekt-Treue
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
October 2, 2025
papers.authors: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI
papers.abstract
Text-to-Image (T2I)-Modelle glänzen bei Einzelobjekt-Prompts, haben jedoch Schwierigkeiten mit Mehrfachsubjekt-Beschreibungen, was oft zu Attributverlust, Identitätsverflechtung und Subjektauslassungen führt. Wir stellen das erste theoretische Framework mit einem prinzipiellen, optimierbaren Ziel vor, um die Sampling-Dynamik in Richtung Mehrfachsubjekt-Treue zu steuern. Indem wir Flow Matching (FM) durch stochastische optimale Steuerung (SOC) betrachten, formulieren wir die Subjektentflechtung als Steuerung eines trainierten FM-Samplers. Dies führt zu zwei architekturunabhängigen Algorithmen: (i) einen trainingsfreien Testzeit-Controller, der die Basisgeschwindigkeit mit einem Single-Pass-Update stört, und (ii) Adjoint Matching, eine leichtgewichtige Feinabstimmungsregel, die ein Steuernetzwerk auf ein rückwärtiges Adjungiertensignal regressiert, während die Fähigkeiten des Basismodells erhalten bleiben. Dieselbe Formulierung vereinheitlicht frühere Aufmerksamkeitsheuristiken, erweitert sich auf Diffusionsmodelle über eine Flow-Diffusion-Korrespondenz und bietet den ersten Feinabstimmungspfad, der explizit für Mehrfachsubjekt-Treue entwickelt wurde. Empirisch verbessern beide Algorithmen auf Stable Diffusion 3.5, FLUX und Stable Diffusion XL konsistent die Mehrfachsubjekt-Ausrichtung, während der Stil des Basismodells beibehalten wird. Der Testzeit-Controller läuft effizient auf handelsüblichen GPUs, und feinabgestimmte Controller, die mit begrenzten Prompts trainiert wurden, generalisieren auf unbekannte Prompts. Wir heben außerdem FOCUS (Flow Optimal Control for Unentangled Subjects) hervor, das eine state-of-the-art Mehrfachsubjekt-Treue über Modelle hinweg erreicht.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.