Оптимальное управление встречается с согласованием потоков: принципиальный путь к высокой точности для множества субъектов

Аннотация

Модели генерации изображений по тексту (Text-to-Image, T2I) демонстрируют высокие результаты на запросах с одним объектом, но испытывают трудности с описаниями, содержащими несколько объектов, часто проявляя утечку атрибутов, смешение идентичностей и пропуск объектов. Мы представляем первую теоретическую основу с принципиально оптимизируемой целью для управления динамикой выборки в сторону точности воспроизведения нескольких объектов. Рассматривая сопоставление потоков (Flow Matching, FM) через призму стохастического оптимального управления (Stochastic Optimal Control, SOC), мы формулируем разделение объектов как управление обученным FM-семплером. Это приводит к двум алгоритмам, независимым от архитектуры: (i) контроллеру, работающему на этапе тестирования без дополнительного обучения, который корректирует базовую скорость с помощью однократного обновления, и (ii) Adjoint Matching — легкому правилу тонкой настройки, которое регрессирует управляющую сеть к обратному сопряженному сигналу, сохраняя при этом возможности базовой модели. Та же формулировка объединяет предыдущие эвристики внимания, расширяется на диффузионные модели через соответствие потоков и диффузии и предоставляет первый маршрут тонкой настройки, явно предназначенный для точности воспроизведения нескольких объектов. Эмпирически, на моделях Stable Diffusion 3.5, FLUX и Stable Diffusion XL оба алгоритма последовательно улучшают согласованность нескольких объектов, сохраняя стиль базовой модели. Контроллер на этапе тестирования эффективно работает на стандартных GPU, а тонко настроенные контроллеры, обученные на ограниченных запросах, обобщаются на новые. Мы также выделяем FOCUS (Flow Optimal Control for Unentangled Subjects), который достигает передовой точности воспроизведения нескольких объектов на различных моделях.

English

Text-to-image (T2I) models excel on single-entity prompts but struggle with multi-subject descriptions, often showing attribute leakage, identity entanglement, and subject omissions. We introduce the first theoretical framework with a principled, optimizable objective for steering sampling dynamics toward multi-subject fidelity. Viewing flow matching (FM) through stochastic optimal control (SOC), we formulate subject disentanglement as control over a trained FM sampler. This yields two architecture-agnostic algorithms: (i) a training-free test-time controller that perturbs the base velocity with a single-pass update, and (ii) Adjoint Matching, a lightweight fine-tuning rule that regresses a control network to a backward adjoint signal while preserving base-model capabilities. The same formulation unifies prior attention heuristics, extends to diffusion models via a flow-diffusion correspondence, and provides the first fine-tuning route explicitly designed for multi-subject fidelity. Empirically, on Stable Diffusion 3.5, FLUX, and Stable Diffusion XL, both algorithms consistently improve multi-subject alignment while maintaining base-model style. Test-time control runs efficiently on commodity GPUs, and fine-tuned controllers trained on limited prompts generalize to unseen ones. We further highlight FOCUS (Flow Optimal Control for Unentangled Subjects), which achieves state-of-the-art multi-subject fidelity across models.

Оптимальное управление встречается с согласованием потоков: принципиальный путь к высокой точности для множества субъектов

Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity

Аннотация

Support