Control Óptimo Encuentra Flow Matching: Una Ruta Fundamentada hacia la Fidelidad Multi-Sujeto
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
October 2, 2025
Autores: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI
Resumen
Los modelos de texto a imagen (T2I) destacan en indicaciones de una sola entidad, pero tienen dificultades con descripciones de múltiples sujetos, mostrando a menudo fugas de atributos, entrelazamiento de identidades y omisiones de sujetos. Introducimos el primer marco teórico con un objetivo optimizable y fundamentado para dirigir la dinámica de muestreo hacia la fidelidad en múltiples sujetos. Al examinar el emparejamiento de flujos (FM) a través del control óptimo estocástico (SOC), formulamos el desenredado de sujetos como el control sobre un muestreador FM entrenado. Esto da lugar a dos algoritmos independientes de la arquitectura: (i) un controlador en tiempo de prueba sin entrenamiento que perturba la velocidad base con una actualización de un solo paso, y (ii) Emparejamiento Adjoint, una regla de ajuste fino ligera que regresa una red de control a una señal adjunta inversa mientras preserva las capacidades del modelo base. La misma formulación unifica heurísticas previas de atención, se extiende a modelos de difusión mediante una correspondencia flujo-difusión, y proporciona la primera ruta de ajuste fino diseñada explícitamente para la fidelidad en múltiples sujetos. Empíricamente, en Stable Diffusion 3.5, FLUX y Stable Diffusion XL, ambos algoritmos mejoran consistentemente la alineación de múltiples sujetos mientras mantienen el estilo del modelo base. El control en tiempo de prueba se ejecuta eficientemente en GPUs comerciales, y los controladores ajustados entrenados con indicaciones limitadas generalizan a indicaciones no vistas. Además, destacamos FOCUS (Control Óptimo de Flujo para Sujetos Desenredados), que logra la mejor fidelidad en múltiples sujetos en todos los modelos.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.