Dalla Scala alla Velocità: Scalatura Adattiva al Momento del Test per l'Editing di Immagini

Abstract

Image Chain-of-Thought (Image-CoT) è un paradigma di scalabilità al momento del test che migliora la generazione di immagini estendendo il tempo di inferenza. La maggior parte dei metodi Image-CoT si concentra sulla generazione da testo a immagine (T2I). A differenza della generazione T2I, l'editing di immagini è finalizzato a uno scopo: lo spazio delle soluzioni è vincolato dall'immagine sorgente e dall'istruzione. Questa discrepanza causa tre sfide quando si applica Image-CoT all'editing: allocazione inefficiente delle risorse con budget di campionamento fissi, verifica inaffidabile nelle fasi iniziali utilizzando punteggi MLLM generici e risultati editati ridondanti a causa di un campionamento su larga scala. Per affrontare ciò, proponiamo ADaptive Edit-CoT (ADE-CoT), un framework di scalabilità al momento del test su richiesta per migliorare l'efficienza e le prestazioni dell'editing. Incorpora tre strategie chiave: (1) un'allocazione delle risorse consapevole della difficoltà che assegna budget dinamici in base alla difficoltà di editing stimata; (2) una verifica specifica per l'editing nella potatura iniziale che utilizza la localizzazione regionale e la coerenza delle didascalie per selezionare candidati promettenti; e (3) un arresto opportunistico in profondità, guidato da un verificatore specifico per istanza, che termina quando vengono trovati risultati allineati con l'intento. Esperimenti estesi su tre modelli di editing all'avanguardia (Step1X-Edit, BAGEL, FLUX.1 Kontext) e tre benchmark mostrano che ADE-CoT raggiunge compromessi prestazioni-efficienza superiori. Con budget di campionamento comparabili, ADE-CoT ottiene prestazioni migliori con un aumento di velocità superiore a 2x rispetto a Best-of-N.

English

Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.

Dalla Scala alla Velocità: Scalatura Adattiva al Momento del Test per l'Editing di Immagini

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Abstract

Support