От масштаба к скорости: адаптивное масштабирование во время тестирования для редактирования изображений

Аннотация

Image Chain-of-Thought (Image-CoT) — это парадигма масштабирования на этапе тестирования, которая улучшает генерацию изображений за счет увеличения времени вывода. Большинство методов Image-CoT ориентированы на генерацию по текстовому описанию (T2I). В отличие от T2I, редактирование изображений является целенаправленным: пространство решений ограничено исходным изображением и инструкцией. Это несоответствие порождает три проблемы при применении Image-CoT к редактированию: неэффективное распределение ресурсов при фиксированном бюджете сэмплирования, ненадежная верификация на ранних стадиях с использованием общих оценок MLLM и избыточные результаты редактирования при крупномасштабном сэмплировании. Для решения этих проблем мы предлагаем ADaptive Edit-CoT (ADE-CoT) — адаптивную систему масштабирования на этапе тестирования для повышения эффективности и качества редактирования. Она включает три ключевые стратегии: (1) распределение ресурсов с учетом сложности, которое назначает динамические бюджеты на основе оцененной сложности правки; (2) специфичную для редактирования верификацию при раннем отсечении, использующую локализацию областей и согласованность с описанием для отбора перспективных кандидатов; и (3) глубинную стратегию останова по достижению результата, управляемую специфичным для экземпляра верификатором, которая прекращает обработку при обнаружении результатов, соответствующих цели. Экстенсивные эксперименты на трех передовых моделях редактирования (Step1X-Edit, BAGEL, FLUX.1 Kontext) и трех бенчмарках показывают, что ADE-CoT обеспечивает превосходный баланс между производительностью и эффективностью. При сопоставимых бюджетах сэмплирования ADE-CoT демонстрирует лучшие результаты с более чем двукратным ускорением по сравнению с методом Best-of-N.

English

Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.

От масштаба к скорости: адаптивное масштабирование во время тестирования для редактирования изображений

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Аннотация

Support