ChatPaper.aiChatPaper

Contrôle Optimal Rencontre l'Appariement de Flux : Une Approche Fondée pour Atteindre une Fidélité Multi-Sujets

Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

October 2, 2025
papers.authors: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI

papers.abstract

Les modèles de génération d'images à partir de texte (Text-to-Image, T2I) excellent sur des prompts à entité unique mais peinent avec des descriptions multi-sujets, montrant souvent des fuites d'attributs, des enchevêtrements d'identités et des omissions de sujets. Nous introduisons le premier cadre théorique avec un objectif optimisable et fondé pour orienter la dynamique d'échantillonnage vers la fidélité multi-sujets. En envisageant le flow matching (FM) à travers le contrôle optimal stochastique (SOC), nous formulons le désenchevêtrement des sujets comme un contrôle sur un échantillonneur FM entraîné. Cela donne lieu à deux algorithmes indépendants de l'architecture : (i) un contrôleur à l'inférence sans entraînement qui perturbe la vitesse de base avec une mise à jour en une seule passe, et (ii) Adjoint Matching, une règle de fine-tuning légère qui régresse un réseau de contrôle vers un signal adjoint rétrograde tout en préservant les capacités du modèle de base. La même formulation unifie les heuristiques d'attention précédentes, s'étend aux modèles de diffusion via une correspondance flow-diffusion, et fournit la première voie de fine-tuning explicitement conçue pour la fidélité multi-sujets. Empiriquement, sur Stable Diffusion 3.5, FLUX et Stable Diffusion XL, les deux algorithmes améliorent systématiquement l'alignement multi-sujets tout en conservant le style du modèle de base. Le contrôle à l'inférence s'exécute efficacement sur des GPU grand public, et les contrôleurs fine-tunés entraînés sur des prompts limités généralisent à des prompts inédits. Nous mettons également en avant FOCUS (Flow Optimal Control for Unentangled Subjects), qui atteint une fidélité multi-sujets de pointe à travers les modèles.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with multi-subject descriptions, often showing attribute leakage, identity entanglement, and subject omissions. We introduce the first theoretical framework with a principled, optimizable objective for steering sampling dynamics toward multi-subject fidelity. Viewing flow matching (FM) through stochastic optimal control (SOC), we formulate subject disentanglement as control over a trained FM sampler. This yields two architecture-agnostic algorithms: (i) a training-free test-time controller that perturbs the base velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight fine-tuning rule that regresses a control network to a backward adjoint signal while preserving base-model capabilities. The same formulation unifies prior attention heuristics, extends to diffusion models via a flow-diffusion correspondence, and provides the first fine-tuning route explicitly designed for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and Stable Diffusion XL, both algorithms consistently improve multi-subject alignment while maintaining base-model style. Test-time control runs efficiently on commodity GPUs, and fine-tuned controllers trained on limited prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal Control for Unentangled Subjects), which achieves state-of-the-art multi-subject fidelity across models.
PDF52October 3, 2025