Unificatie van Video-editing via Bliksemsnelle In-Context Sparse Attention
Lightning Unified Video Editing via In-Context Sparse Attention
May 6, 2026
Auteurs: Shitong Shao, Zikai Zhou, Haopeng Li, Yingwei Song, Wenliang Zhong, Lichen Bai, Zeke Xie
cs.AI
Samenvatting
Videobewerking is geëvolueerd naar In-Context Learning (ICL) paradigma's, maar de resulterende kwadratische aandachtskosten creëren een kritieke computationele bottleneck. In dit werk stellen we In-context Sparse Attention (ISA) voor, het eerste bijna verliesvrije empirische sparse framework toegesneden op ICL-videobewerking. Ons ontwerp is gebaseerd op twee belangrijke inzichten: ten eerste vertonen contexttokens een aanzienlijk lagere salientie dan brontokens; ten tweede bewijzen we theoretisch en valideren we empirisch dat queryscherpte correleert met benaderingsfout. Gemotiveerd door deze bevindingen implementeert ISA een efficiënte preselectiestrategie om overbodige context uit te dunnen, gevolgd door een dynamisch querygroeperingsmechanisme dat queries met een hoge fout doorstuurt naar volledige aandacht en queries met een lage fout naar een computationeel efficiënte Taylor sparse aandacht van de nulde orde. Verder bouwen we \texttt{LIVEditor}, een nieuw lightning-videobewerkingsmodel via ISA en een voorgestelde videobewerkingsdatapijplijn die een dataset van 1,7 miljoen hoogwaardige items heeft samengesteld. Uitgebreide experimenten tonen aan dat LIVEditor een ~60% reductie in latentie van de aandachtmodule bereikt, terwijl het state-of-the-art methoden overtreft op EditVerseBench, IVE-Bench en VIE-Bench, waardoor bijna verliesvrije versnelling wordt geleverd zonder in te boeten aan visuele kwaliteit.
English
Video editing has evolved toward In-Context Learning (ICL) paradigms, yet the resulting quadratic attention costs create a critical computational bottleneck. In this work, we propose In-context Sparse Attention (ISA), the first near-lossless empirical sparse framework tailored for ICL video editing. Our design is grounded in two key insights: first, context tokens exhibit significantly lower saliency than source tokens; second, we theoretically prove and empirically validate that Query sharpness correlates with approximation error. Motivated by these findings, ISA implements an efficient pre-selection strategy to prune redundant context, followed by a dynamic query grouping mechanism that routes high-error queries to full attention and low-error ones to a computationally efficient 0-th order Taylor sparse attention. Furthermore, we build \texttt{LIVEditor} , a novel lightning video editing model via ISA and a proposed video-editing data pipeline that curated a 1.7M high-quality dataset. Extensive experiments demonstrate that LIVEditor achieves a sim60% reduction in attention-module latency while surpassing state-of-the-art methods across EditVerseBench, IVE-Bench, and VIE-Bench, delivering near-lossless acceleration without compromising visual fidelity.