Оптимальное управление встречается с согласованием потоков: принципиальный путь к высокой точности для множества субъектов
Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity
October 2, 2025
Авторы: Eric Tillmann Bill, Enis Simsar, Thomas Hofmann
cs.AI
Аннотация
Модели генерации изображений по тексту (Text-to-Image, T2I) демонстрируют высокие результаты на запросах с одним объектом, но испытывают трудности с описаниями, содержащими несколько объектов, часто проявляя утечку атрибутов, смешение идентичностей и пропуск объектов. Мы представляем первую теоретическую основу с принципиально оптимизируемой целью для управления динамикой выборки в сторону точности воспроизведения нескольких объектов. Рассматривая сопоставление потоков (Flow Matching, FM) через призму стохастического оптимального управления (Stochastic Optimal Control, SOC), мы формулируем разделение объектов как управление обученным FM-семплером. Это приводит к двум алгоритмам, независимым от архитектуры: (i) контроллеру, работающему на этапе тестирования без дополнительного обучения, который корректирует базовую скорость с помощью однократного обновления, и (ii) Adjoint Matching — легкому правилу тонкой настройки, которое регрессирует управляющую сеть к обратному сопряженному сигналу, сохраняя при этом возможности базовой модели. Та же формулировка объединяет предыдущие эвристики внимания, расширяется на диффузионные модели через соответствие потоков и диффузии и предоставляет первый маршрут тонкой настройки, явно предназначенный для точности воспроизведения нескольких объектов. Эмпирически, на моделях Stable Diffusion 3.5, FLUX и Stable Diffusion XL оба алгоритма последовательно улучшают согласованность нескольких объектов, сохраняя стиль базовой модели. Контроллер на этапе тестирования эффективно работает на стандартных GPU, а тонко настроенные контроллеры, обученные на ограниченных запросах, обобщаются на новые. Мы также выделяем FOCUS (Flow Optimal Control for Unentangled Subjects), который достигает передовой точности воспроизведения нескольких объектов на различных моделях.
English
Text-to-image (T2I) models excel on single-entity prompts but struggle with
multi-subject descriptions, often showing attribute leakage, identity
entanglement, and subject omissions. We introduce the first theoretical
framework with a principled, optimizable objective for steering sampling
dynamics toward multi-subject fidelity. Viewing flow matching (FM) through
stochastic optimal control (SOC), we formulate subject disentanglement as
control over a trained FM sampler. This yields two architecture-agnostic
algorithms: (i) a training-free test-time controller that perturbs the base
velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight
fine-tuning rule that regresses a control network to a backward adjoint signal
while preserving base-model capabilities. The same formulation unifies prior
attention heuristics, extends to diffusion models via a flow-diffusion
correspondence, and provides the first fine-tuning route explicitly designed
for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and
Stable Diffusion XL, both algorithms consistently improve multi-subject
alignment while maintaining base-model style. Test-time control runs
efficiently on commodity GPUs, and fine-tuned controllers trained on limited
prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal
Control for Unentangled Subjects), which achieves state-of-the-art
multi-subject fidelity across models.