Vereinheitlichte Videobearbeitung mit Lightning über In-Context-Sparse-Attention

Zusammenfassung

Die Videobearbeitung hat sich in Richtung In-Context-Learning (ICL)-Paradigmen entwickelt, doch die daraus resultierenden quadratischen Aufmerksamkeitskosten erzeugen einen kritischen Rechenengpass. In dieser Arbeit schlagen wir In-context Sparse Attention (ISA) vor, das erste nahezu verlustfreie empirische Sparse-Attention-Framework, das speziell für die ICL-Videobearbeitung entwickelt wurde. Unser Ansatz basiert auf zwei zentralen Erkenntnissen: Erstens weisen Kontext-Tokens eine signifikant geringere Salienz als Quell-Tokens auf; zweitens beweisen wir theoretisch und validieren empirisch, dass die Query-Schärfe mit dem Approximationsfehler korreliert. Aufbauend auf diesen Erkenntnissen implementiert ISA eine effiziente Vorauswahlstrategie zur Reduzierung redundanter Kontexte, gefolgt von einem dynamischen Query-Grouping-Mechanismus, der Queries mit hohem Fehler zur vollen Aufmerksamkeit leitet und solche mit niedrigem Fehler zu einer recheneffizienten Taylor-Sparse-Attention nullter Ordnung. Darüber hinaus entwickeln wir \texttt{LIVEditor}, ein neuartiges Lightning-Videobearbeitungsmodell auf Basis von ISA und einer neu vorgeschlagenen Videobearbeitungs-Datenpipeline, die einen hochwertigen Datensatz mit 1,7 Mio. Einträgen kuratiert hat. Umfangreiche Experimente zeigen, dass LIVEditor eine Reduzierung der Latenz im Aufmerksamkeitsmodul um ca. 60 % erreicht und dabei state-of-the-art-Methoden auf dem EditVerseBench, IVE-Bench und VIE-Bench übertrifft, was eine nahezu verlustfreie Beschleunigung ohne Einbußen bei der visuellen Qualität ermöglicht.

English

Video editing has evolved toward In-Context Learning (ICL) paradigms, yet the resulting quadratic attention costs create a critical computational bottleneck. In this work, we propose In-context Sparse Attention (ISA), the first near-lossless empirical sparse framework tailored for ICL video editing. Our design is grounded in two key insights: first, context tokens exhibit significantly lower saliency than source tokens; second, we theoretically prove and empirically validate that Query sharpness correlates with approximation error. Motivated by these findings, ISA implements an efficient pre-selection strategy to prune redundant context, followed by a dynamic query grouping mechanism that routes high-error queries to full attention and low-error ones to a computationally efficient 0-th order Taylor sparse attention. Furthermore, we build \texttt{LIVEditor} , a novel lightning video editing model via ISA and a proposed video-editing data pipeline that curated a 1.7M high-quality dataset. Extensive experiments demonstrate that LIVEditor achieves a sim60% reduction in attention-module latency while surpassing state-of-the-art methods across EditVerseBench, IVE-Bench, and VIE-Bench, delivering near-lossless acceleration without compromising visual fidelity.

Vereinheitlichte Videobearbeitung mit Lightning über In-Context-Sparse-Attention

Lightning Unified Video Editing via In-Context Sparse Attention

Zusammenfassung

Support