De la Escala a la Velocidad: Escalado Adaptativo en Tiempo de Prueba para la Edición de Imágenes

Resumen

Image Chain-of-Thought (Image-CoT) es un paradigma de escalado en tiempo de prueba que mejora la generación de imágenes extendiendo el tiempo de inferencia. La mayoría de los métodos Image-CoT se centran en la generación de texto a imagen (T2I). A diferencia de la generación T2I, la edición de imágenes está orientada a un objetivo: el espacio de soluciones está restringido por la imagen fuente y la instrucción. Esta discrepancia genera tres desafíos al aplicar Image-CoT a la edición: asignación ineficiente de recursos con presupuestos de muestreo fijos, verificación en etapas iniciales no confiable utilizando puntuaciones de MLLM generales, y resultados editados redundantes debido al muestreo a gran escala. Para abordar esto, proponemos ADaptive Edit-CoT (ADE-CoT), un marco de escalado en tiempo de prueba bajo demanda para mejorar la eficiencia y el rendimiento de la edición. Incorpora tres estrategias clave: (1) una asignación de recursos consciente de la dificultad que asigna presupuestos dinámicos basados en la dificultad de edición estimada; (2) una verificación específica para edición en la poda temprana que utiliza localización de regiones y consistencia de descripciones para seleccionar candidatos prometedores; y (3) una parada oportunista en profundidad, guiada por un verificador específico de la instancia, que finaliza cuando se encuentran resultados alineados con la intención. Experimentos exhaustivos en tres modelos de edición de última generación (Step1X-Edit, BAGEL, FLUX.1 Kontext) a través de tres benchmarks muestran que ADE-CoT logra compensaciones superiores entre rendimiento y eficiencia. Con presupuestos de muestreo comparables, ADE-CoT obtiene un mejor rendimiento con una aceleración de más de 2x frente a Best-of-N.

English

Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.

De la Escala a la Velocidad: Escalado Adaptativo en Tiempo de Prueba para la Edición de Imágenes

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Resumen

Support