Von Skalierung zu Geschwindigkeit: Adaptive Skalierung zur Testzeit für Bildbearbeitung

Zusammenfassung

Image Chain-of-Thought (Image-CoT) ist ein Paradigma zur Skalierung zur Testzeit, das die Bildgenerierung durch Verlängerung der Inferenzzeit verbessert. Die meisten Image-CoT-Methoden konzentrieren sich auf die Text-zu-Bild (T2I)-Generierung. Im Gegensatz zur T2I-Generierung ist die Bildbearbeitung zielgerichtet: Der Lösungsraum wird durch das Quellbild und die Anweisung eingeschränkt. Diese Diskrepanz führt bei der Anwendung von Image-CoT auf die Bearbeitung zu drei Herausforderungen: ineffiziente Ressourcenallokation mit festen Sampling-Budgets, unzuverlässige Verifikation in frühen Stadien mittels allgemeiner MLLM-Scores und redundante bearbeitete Ergebnisse durch groß angelegtes Sampling. Um dies zu adressieren, schlagen wir ADaptive Edit-CoT (ADE-CoT) vor, ein On-Demand-Framework zur Skalierung zur Testzeit, das die Bearbeitungseffizienz und -leistung steigert. Es umfasst drei Schlüsselstrategien: (1) eine schwierigkeitsbewusste Ressourcenallokation, die dynamische Budgets basierend auf der geschätzten Bearbeitungsschwierigkeit zuweist; (2) eine bearbeitungsspezifische Verifikation beim frühen Ausmerzen, die Regionslokalisierung und Beschreibungskonsistenz nutzt, um vielversprechende Kandidaten auszuwählen; und (3) ein tiefenorientiertes, opportunistisches Stoppen, geleitet von einem instanzspezifischen Verifizierer, das abbricht, sobald intentionskonforme Ergebnisse gefunden werden. Umfangreiche Experimente mit drei state-of-the-art Bearbeitungsmodellen (Step1X-Edit, BAGEL, FLUX.1 Kontext) über drei Benchmarks hinweg zeigen, dass ADE-CoT überlegene Kompromisse zwischen Leistung und Effizienz erzielt. Bei vergleichbaren Sampling-Budgets erreicht ADE-CoT eine bessere Leistung mit einer mehr als 2-fachen Beschleunigung gegenüber Best-of-N.

English

Image Chain-of-Thought (Image-CoT) is a test-time scaling paradigm that improves image generation by extending inference time. Most Image-CoT methods focus on text-to-image (T2I) generation. Unlike T2I generation, image editing is goal-directed: the solution space is constrained by the source image and instruction. This mismatch causes three challenges when applying Image-CoT to editing: inefficient resource allocation with fixed sampling budgets, unreliable early-stage verification using general MLLM scores, and redundant edited results from large-scale sampling. To address this, we propose ADaptive Edit-CoT (ADE-CoT), an on-demand test-time scaling framework to enhance editing efficiency and performance. It incorporates three key strategies: (1) a difficulty-aware resource allocation that assigns dynamic budgets based on estimated edit difficulty; (2) edit-specific verification in early pruning that uses region localization and caption consistency to select promising candidates; and (3) depth-first opportunistic stopping, guided by an instance-specific verifier, that terminates when intent-aligned results are found. Extensive experiments on three SOTA editing models (Step1X-Edit, BAGEL, FLUX.1 Kontext) across three benchmarks show that ADE-CoT achieves superior performance-efficiency trade-offs. With comparable sampling budgets, ADE-CoT obtains better performance with more than 2x speedup over Best-of-N.

Von Skalierung zu Geschwindigkeit: Adaptive Skalierung zur Testzeit für Bildbearbeitung

From Scale to Speed: Adaptive Test-Time Scaling for Image Editing

Zusammenfassung

Support