규모에서 속도로: 이미지 편집을 위한 적응형 테스트 시간 스케일링
From Scale to Speed: Adaptive Test-Time Scaling for Image Editing
February 24, 2026
저자: Xiangyan Qu, Zhenlong Yuan, Jing Tang, Rui Chen, Datao Tang, Meng Yu, Lei Sun, Yancheng Bai, Xiangxiang Chu, Gaopeng Gou, Gang Xiong, Yujun Cai
cs.AI
초록
이미지 사고 연쇄(Image-CoT)는 추론 시간을 연장하여 이미지 생성을 개선하는 테스트 타임 스케일링 패러다임입니다. 대부분의 Image-CoT 방법은 텍스트-이미지(T2I) 생성에 중점을 둡니다. T2I 생성과 달리 이미지 편집은 목표 지향적입니다. 즉, 솔루션 공간이 소스 이미지와 지시어에 의해 제약을 받습니다. 이러한 불일치는 Image-CoT를 편집에 적용할 때 세 가지 과제를 야기합니다: 고정된 샘플링 예산으로 인한 비효율적인 자원 할당, 일반 MLLM 점수를 사용한 초기 단계 검증의 신뢰성 부족, 그리고 대규모 샘플링으로 인한 중복된 편집 결과입니다. 이를 해결하기 위해 우리는 편집 효율성과 성능을 향상시키는 주문형 테스트 타임 스케일링 프레임워크인 ADaptive Edit-CoT(ADE-CoT)를 제안합니다. 이는 세 가지 핵심 전략을 포함합니다: (1) 예상 편집 난이도를 기반으로 동적 예산을 할당하는 난이도 인식 자원 할당; (2) 지역 위치 지정과 캡션 일관성을 사용하여 유망한 후보를 선택하는 조기 가지치기 단계의 편집 특화 검증; (3) 인스턴스 특화 검증기의 지도 하에 의도와 부합하는 결과가 발견되면 종료하는 깊이 우선 기회적 중단. 3개의 벤치마크에서 3개의 SOTA 편집 모델(Step1X-Edit, BAGEL, FLUX.1 Kontext)을 대상으로 한 광범위한 실험을 통해 ADE-CoT가 우수한 성능-효율성 트레이드오프를 달성함을 보여줍니다. 유사한 샘플링 예산 대비 ADE-CoT는 Best-of-N 대비 2배 이상의 속도 향상과 함께 더 나은 성능을 얻습니다.
English
Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.