Da Escala à Velocidade: Escalonamento Adaptativo no Momento do Teste para Edição de Imagens

Resumo

Image Chain-of-Thought (Image-CoT) é um paradigma de escalonamento em tempo de teste que melhora a geração de imagens ao estender o tempo de inferência. A maioria dos métodos Image-CoT foca na geração de texto para imagem (T2I). Diferente da geração T2I, a edição de imagem é orientada por objetivos: o espaço de soluções é restringido pela imagem fonte e pela instrução. Esta incompatibilidade causa três desafios ao aplicar Image-CoT à edição: alocação ineficiente de recursos com orçamentos de amostragem fixos, verificação não confiável em estágio inicial usando pontuações de MLLM gerais e resultados editados redundantes devido à amostragem em larga escala. Para resolver isso, propomos o ADaptive Edit-CoT (ADE-CoT), uma estrutura de escalonamento em tempo de teste sob demanda para melhorar a eficiência e o desempenho da edição. Ela incorpora três estratégias principais: (1) uma alocação de recursos consciente da dificuldade, que atribui orçamentos dinâmicos com base na dificuldade de edição estimada; (2) verificação específica para edição na poda inicial, que usa localização de região e consistência de legenda para selecionar candidatos promissores; e (3) parada oportunista em profundidade, guiada por um verificador específico da instância, que termina quando resultados alinhados com a intenção são encontrados. Experimentos extensos em três modelos de edição estado da arte (Step1X-Edit, BAGEL, FLUX.1 Kontext) em três benchmarks mostram que o ADE-CoT alcança trade-offs superiores entre desempenho e eficiência. Com orçamentos de amostragem comparáveis, o ADE-CoT obtém melhor desempenho com uma aceleração superior a 2x em relação ao método Best-of-N.

English

Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.