HiLo-Token: Compresión de tokens de alta y baja frecuencia adaptativa a la entrada para edición eficiente de imágenes

Resumen

Herramientas creativas de edición de imágenes, como los botones Eliminar o Relleno Generativo de Photoshop, son fundamentales para el uso cotidiano de los clientes y representan una gran parte del tráfico en Photoshop y Lightroom. Sin embargo, los modelos actuales de IA generativa enfrentan desafíos significativos de latencia, que se vuelven aún más pronunciados al pasar de U-Nets basadas en convolución a Transformadores de Difusión (DiTs). En nuestra evaluación de cientos de muestras representativas de edición de imágenes que abarcan una amplia gama de proporciones de máscara, el módulo DiT por sí solo representa en promedio el 73% de la latencia total del modelo, incluso después de ser destilado de 50 pasos de tiempo a 8 pasos de tiempo. Para abordar este desafío, proponemos HiLo-Token, un marco de compresión de tokens adaptativo a la entrada que asigna más presupuesto de tokens a regiones de alta frecuencia y contexto rico, mientras asigna menos tokens a áreas de baja frecuencia. Específicamente, para la región de edición especificada por la máscara del usuario, retenemos todos los tokens dentro de una máscara dilatada para preservar una fuerte localidad y relevancia contextual. Fuera de la región de edición, introducimos una estrategia simple pero efectiva de selección de tokens de alta frecuencia basada en la frecuencia espacial para capturar detalles locales importantes, mientras que usamos tokens de una imagen submuestreada 16x para representar componentes de baja frecuencia y preservar la estructura global pero borrosa. Extensos experimentos en datos de evaluación a nivel de producción validan la efectividad del método propuesto, logrando aceleraciones de DiT de 3.13x, 2.59x y 1.67x en A100-80GB para tareas de edición de imágenes en categorías de proporción de máscara pequeña, mediana y grande con proporciones promedio de 6.38%, 15.92% y 35.36%, respectivamente, sin ninguna regresión en la calidad de generación.

English

Creative image editing tools, such as Photoshop's Remove or Generative Fill buttons, are central to everyday customer use and account for a major share of traffic in Photoshop and Lightroom. However, current generative AI models face significant latency challenges, which become even more pronounced when transitioning from convolution-based U-Nets to Diffusion Transformers (DiTs). In our evaluation on hundreds of representative image editing samples spanning a wide range of mask ratios, the DiT module alone accounts for an average of 73% of the total model latency, even after being distilled from 50 timesteps down to 8 timesteps. To tackle this challenge, we propose HiLo-Token, an input-adaptive token compression framework that allocates more token budget to high-frequency, rich-context regions while assigning fewer tokens to low-frequency areas. Specifically, for the editing region specified by the user mask, we retain all tokens within a dilated mask to preserve strong locality and contextual relevance. Outside the editing region, we introduce a simple yet effective high-frequency token selection strategy based on spatial frequency to capture important local details, while using tokens from a 16x downsampled image to represent low-frequency components and preserve the blurry but global structure. Extensive experiments on production-level evaluation data validate the effectiveness of the proposed method, achieving 3.13x, 2.59x, and 1.67x DiT speedups on A100-80GB for image editing tasks across small, medium, and large mask ratio categories with average ratios of 6.38%, 15.92%, and 35.36%, respectively, without any regression in generation quality.