HiLo-Token: Eingabeadaptive Hoch-Niederfrequenz-Tokenkompression für effiziente Bildbearbeitung

Zusammenfassung

Kreative Bildbearbeitungswerkzeuge wie die Schaltflächen „Entfernen“ oder „Generatives Füllen“ in Photoshop sind ein zentraler Bestandteil der alltäglichen Nutzung durch Kunden und machen einen erheblichen Anteil des Traffics in Photoshop und Lightroom aus. Aktuelle generative KI-Modelle stehen jedoch vor erheblichen Latenzproblemen, die sich beim Übergang von faltungsbasierten U-Nets zu Diffusion Transformers (DiTs) noch verstärken. In unserer Evaluierung anhand von Hunderten repräsentativer Bildbearbeitungsbeispiele, die ein breites Spektrum an Maskenverhältnissen abdecken, entfallen auf das DiT-Modul allein durchschnittlich 73 % der gesamten Modelllatenz – selbst nach einer Destillation von 50 auf 8 Zeitschritte. Um diese Herausforderung zu bewältigen, schlagen wir HiLo-Token vor, ein eingabeadaptives Token-Komprimierungsframework, das mehr Token-Budget auf hochfrequente, kontextreiche Regionen verteilt und niederfrequenten Bereichen weniger Tokens zuweist. Konkret behalten wir für den durch die Benutzermaske festgelegten Bearbeitungsbereich alle Tokens innerhalb einer dilatierten Maske bei, um eine starke Lokalität und kontextuelle Relevanz zu wahren. Außerhalb des Bearbeitungsbereichs führen wir eine einfache, aber effektive Strategie zur Auswahl hochfrequenter Tokens basierend auf der räumlichen Frequenz ein, um wichtige lokale Details zu erfassen, während wir Tokens aus einem 16-fach herunterskalierten Bild verwenden, um niederfrequente Komponenten darzustellen und die unscharfe, aber globale Struktur zu erhalten. Umfangreiche Experimente mit Evaluierungsdaten auf Produktionsniveau bestätigen die Wirksamkeit der vorgeschlagenen Methode. Sie erzielt eine 3,13-fache, 2,59-fache bzw. 1,67-fache DiT-Beschleunigung auf A100-80GB für Bildbearbeitungsaufgaben in den Kategorien kleiner, mittlerer und großer Maskenverhältnisse mit durchschnittlichen Verhältnissen von 6,38 %, 15,92 % bzw. 35,36 % – ohne jede Regression der Generierungsqualität.

English

Creative image editing tools, such as Photoshop's Remove or Generative Fill buttons, are central to everyday customer use and account for a major share of traffic in Photoshop and Lightroom. However, current generative AI models face significant latency challenges, which become even more pronounced when transitioning from convolution-based U-Nets to Diffusion Transformers (DiTs). In our evaluation on hundreds of representative image editing samples spanning a wide range of mask ratios, the DiT module alone accounts for an average of 73% of the total model latency, even after being distilled from 50 timesteps down to 8 timesteps. To tackle this challenge, we propose HiLo-Token, an input-adaptive token compression framework that allocates more token budget to high-frequency, rich-context regions while assigning fewer tokens to low-frequency areas. Specifically, for the editing region specified by the user mask, we retain all tokens within a dilated mask to preserve strong locality and contextual relevance. Outside the editing region, we introduce a simple yet effective high-frequency token selection strategy based on spatial frequency to capture important local details, while using tokens from a 16x downsampled image to represent low-frequency components and preserve the blurry but global structure. Extensive experiments on production-level evaluation data validate the effectiveness of the proposed method, achieving 3.13x, 2.59x, and 1.67x DiT speedups on A100-80GB for image editing tasks across small, medium, and large mask ratio categories with average ratios of 6.38%, 15.92%, and 35.36%, respectively, without any regression in generation quality.