De l'échelle à la vitesse : Mise à l'échelle adaptative au moment du test pour l'édition d'images

Résumé

L'Image Chain-of-Thought (Image-CoT) est un paradigme de mise à l'échelle au moment du test qui améliore la génération d'images en prolongeant le temps d'inférence. La plupart des méthodes Image-CoT se concentrent sur la génération texte-à-image (T2I). Contrairement à la génération T2I, l'édition d'images est orientée vers un objectif : l'espace des solutions est contraint par l'image source et l'instruction. Cette inadéquation entraîne trois défis lors de l'application de l'Image-CoT à l'édition : une allocation inefficace des ressources avec des budgets d'échantillonnage fixes, une vérification peu fiable en phase précoce utilisant des scores MLLM généraux, et des résultats édités redondants dus à un échantillonnage à grande échelle. Pour y remédier, nous proposons ADaptive Edit-CoT (ADE-CoT), un cadre de mise à l'échelle au moment du test à la demande pour améliorer l'efficacité et les performances de l'édition. Il intègre trois stratégies clés : (1) une allocation de ressources sensible à la difficulté qui attribue des budgets dynamiques basés sur la difficulté d'édition estimée ; (2) une vérification spécifique à l'édition dans l'élagage précoce qui utilise la localisation de région et la cohérence de légende pour sélectionner des candidats prometteurs ; et (3) un arrêt opportun en profondeur d'abord, guidé par un vérificateur spécifique à l'instance, qui s'interrompt lorsque des résultats alignés avec l'intention sont trouvés. Des expériences approfondies sur trois modèles d'édition state-of-the-art (Step1X-Edit, BAGEL, FLUX.1 Kontext) et trois benchmarks montrent qu'ADE-CoT atteint des compromis performance-efficacité supérieurs. Avec des budgets d'échantillonnage comparables, ADE-CoT obtient de meilleures performances avec une accélération de plus de 2x par rapport à la méthode Best-of-N.

English

Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.

De l'échelle à la vitesse : Mise à l'échelle adaptative au moment du test pour l'édition d'images

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Résumé

Support