HiLo-Token: invoeradaptieve compressie van hoog- en laagfrequente tokens voor efficiënte beeldbewerking

Samenvatting

Creatieve beeldbewerkingstools, zoals de knoppen Verwijderen of Generatief vullen van Photoshop, staan centraal in het dagelijks gebruik door klanten en zijn verantwoordelijk voor een groot deel van het verkeer in Photoshop en Lightroom. Huidige generatieve AI-modellen hebben echter te maken met aanzienlijke latentie-uitdagingen, die nog duidelijker worden bij de overgang van op convolutie gebaseerde U-Nets naar diffusietransformers (DiT's). In onze evaluatie op honderden representatieve beeldbewerkingsvoorbeelden met een breed scala aan maskerverhoudingen, is de DiT-module alleen al verantwoordelijk voor gemiddeld 73% van de totale modellatentie, zelfs nadat deze is gedestilleerd van 50 naar 8 tijdstappen. Om deze uitdaging aan te pakken, stellen we HiLo-Token voor, een invoeradaptief tokencompressieraamwerk dat meer tokenbudget toewijst aan hoogfrequente, contextrijke gebieden, terwijl minder tokens aan laagfrequente gebieden worden toegewezen. Specifiek, voor het bewerkingsgebied dat door het gebruikersmasker is aangegeven, behouden we alle tokens binnen een gedilateerd masker om sterke localiteit en contextuele relevantie te behouden. Buiten het bewerkingsgebied introduceren we een eenvoudige maar effectieve strategie voor het selecteren van hoogfrequente tokens op basis van ruimtelijke frequentie om belangrijke lokale details vast te leggen, terwijl we tokens van een 16x verkleinde afbeelding gebruiken om laagfrequente componenten weer te geven en de onscherpe maar globale structuur te behouden. Uitgebreide experimenten op productie-evaluatiegegevens bevestigen de effectiviteit van de voorgestelde methode, met versnellingen van respectievelijk 3,13x, 2,59x en 1,67x voor DiT op A100-80GB voor beeldbewerkingstaken in de categorieën kleine, middelgrote en grote maskerverhoudingen met gemiddelde verhoudingen van respectievelijk 6,38%, 15,92% en 35,36%, zonder enige achteruitgang in generatiekwaliteit.

English

Creative image editing tools, such as Photoshop's Remove or Generative Fill buttons, are central to everyday customer use and account for a major share of traffic in Photoshop and Lightroom. However, current generative AI models face significant latency challenges, which become even more pronounced when transitioning from convolution-based U-Nets to Diffusion Transformers (DiTs). In our evaluation on hundreds of representative image editing samples spanning a wide range of mask ratios, the DiT module alone accounts for an average of 73% of the total model latency, even after being distilled from 50 timesteps down to 8 timesteps. To tackle this challenge, we propose HiLo-Token, an input-adaptive token compression framework that allocates more token budget to high-frequency, rich-context regions while assigning fewer tokens to low-frequency areas. Specifically, for the editing region specified by the user mask, we retain all tokens within a dilated mask to preserve strong locality and contextual relevance. Outside the editing region, we introduce a simple yet effective high-frequency token selection strategy based on spatial frequency to capture important local details, while using tokens from a 16x downsampled image to represent low-frequency components and preserve the blurry but global structure. Extensive experiments on production-level evaluation data validate the effectiveness of the proposed method, achieving 3.13x, 2.59x, and 1.67x DiT speedups on A100-80GB for image editing tasks across small, medium, and large mask ratio categories with average ratios of 6.38%, 15.92%, and 35.36%, respectively, without any regression in generation quality.