Controllo Ottimale Incontra il Modellamento di Flussi: Un Approccio Principiato alla Fedeltà Multi-Soggetto
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
October 2, 2025
Autori: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI
Abstract
I modelli Text-to-Image (T2I) eccellono nel gestire prompt con una singola entità, ma incontrano difficoltà con descrizioni multi-soggetto, mostrando spesso perdita di attributi, intreccio di identità e omissioni di soggetti. Introduciamo il primo framework teorico con un obiettivo ottimizzabile e basato su principi per orientare la dinamica del campionamento verso la fedeltà multi-soggetto. Visualizzando il flow matching (FM) attraverso il controllo ottimo stocastico (SOC), formuliamo la separazione dei soggetti come controllo su un campionatore FM addestrato. Ciò porta a due algoritmi indipendenti dall'architettura: (i) un controllore test-time senza addestramento che perturba la velocità di base con un aggiornamento a singolo passaggio, e (ii) Adjoint Matching, una regola di fine-tuning leggera che regredisce una rete di controllo su un segnale aggiunto inverso preservando le capacità del modello di base. La stessa formulazione unifica euristiche di attenzione precedenti, si estende ai modelli di diffusione tramite una corrispondenza flow-diffusion e fornisce il primo percorso di fine-tuning esplicitamente progettato per la fedeltà multi-soggetto. Empiricamente, su Stable Diffusion 3.5, FLUX e Stable Diffusion XL, entrambi gli algoritmi migliorano costantemente l'allineamento multi-soggetto mantenendo lo stile del modello di base. Il controllo test-time è eseguito in modo efficiente su GPU commerciali, e i controllori fine-tuned addestrati su prompt limitati generalizzano a prompt non visti. Inoltre, evidenziamo FOCUS (Flow Optimal Control for Unentangled Subjects), che raggiunge una fedeltà multi-soggetto all'avanguardia tra i modelli.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.