Van Schaal naar Snelheid: Adaptieve Schaling tijdens Testtijd voor Beeldbewerking

Samenvatting

Image Chain-of-Thought (Image-CoT) is een test-time schaalparadigma dat beeldgeneratie verbetert door de inferentietijd te verlengen. De meeste Image-CoT-methoden richten zich op tekst-naar-beeld (T2I) generatie. In tegenstelling tot T2I-generatie is beeldbewerking doelgericht: de oplossingsruimte wordt beperkt door de bronafbeelding en de instructie. Deze mismatch veroorzaakt drie uitdagingen bij het toepassen van Image-CoT op bewerking: inefficiënte resource-toewijzing met vaste steekproefbudgetten, onbetrouwbare verificatie in de vroege fase met behulp van algemene MLLM-scores, en redundante bewerkte resultaten door grootschalige steekproefname. Om dit aan te pakken, stellen wij ADaptive Edit-CoT (ADE-CoT) voor, een on-demand test-time schaalraamwerk om de bewerkingsefficiëntie en -prestaties te verbeteren. Het omvat drie kernstrategieën: (1) een moeilijkheidsbewuste resource-toewijzing die dynamische budgetten toekent op basis van de geschatte bewerkingsmoeilijkheid; (2) bewerkingsspecifieke verificatie in vroege snoei die regiologalisatie en bijschriftconsistentie gebruikt om veelbelovende kandidaten te selecteren; en (3) diepte-eerst opportunistisch stoppen, geleid door een instancespecifieke verifier, dat beëindigt wanneer intentie-uitgelijnde resultaten worden gevonden. Uitgebreide experimenten op drie state-of-the-art bewerkingsmodellen (Step1X-Edit, BAGEL, FLUX.1 Kontext) over drie benchmarks tonen aan dat ADE-CoT superieure prestatie-efficiëntiecompromissen bereikt. Met vergelijkbare steekproefbudgetten behaalt ADE-CoT betere prestaties met een meer dan 2x versnelling ten opzichte van Best-of-N.

English

Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.

Van Schaal naar Snelheid: Adaptieve Schaling tijdens Testtijd voor Beeldbewerking

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Samenvatting

Support