Édition vidéo unifiée par éclairs via une attention clairsemée en contexte
Lightning Unified Video Editing via In-Context Sparse Attention
May 6, 2026
Auteurs: Shitong Shao, Zikai Zhou, Haopeng Li, Yingwei Song, Wenliang Zhong, Lichen Bai, Zeke Xie
cs.AI
Résumé
L'édition vidéo a évolué vers des paradigmes d'apprentissage en contexte (ICL), mais les coûts d'attention quadratiques qui en résultent créent un goulot d'étranglement computationnel critique. Dans ce travail, nous proposons In-context Sparse Attention (ISA), le premier cadre de travail empirique parcimonieux quasi sans perte conçu pour l'édition vidéo ICL. Notre conception repose sur deux idées clés : premièrement, les tokens de contexte présentent une saillance significativement plus faible que les tokens source ; deuxièmement, nous prouvons théoriquement et validons empiriquement que l'acuité des requêtes corrèle avec l'erreur d'approximation. Motivés par ces résultats, ISA met en œuvre une stratégie de présélection efficace pour élaguer le contexte redondant, suivie d'un mécanisme de regroupement dynamique des requêtes qui achemine les requêtes à forte erreur vers une attention complète et celles à faible erreur vers une attention parcimonieuse de Taylor d'ordre 0, efficace sur le plan computationnel. De plus, nous construisons \texttt{LIVEditor}, un nouveau modèle d'édition vidéo éclair via ISA et un pipeline de données d'édition vidéo proposé qui a permis de constituer un jeu de données de haute qualité de 1,7 million d'éléments. Des expériences approfondies démontrent que LIVEditor atteint une réduction de latence d'environ 60 % dans le module d'attention tout en surpassant les méthodes de l'état de l'art sur EditVerseBench, IVE-Bench et VIE-Bench, offrant ainsi une accélération quasi sans perte sans compromettre la fidélité visuelle.
English
Video editing has evolved toward In-Context Learning (ICL) paradigms, yet the resulting quadratic attention costs create a critical computational bottleneck. In this work, we propose In-context Sparse Attention (ISA), the first near-lossless empirical sparse framework tailored for ICL video editing. Our design is grounded in two key insights: first, context tokens exhibit significantly lower saliency than source tokens; second, we theoretically prove and empirically validate that Query sharpness correlates with approximation error. Motivated by these findings, ISA implements an efficient pre-selection strategy to prune redundant context, followed by a dynamic query grouping mechanism that routes high-error queries to full attention and low-error ones to a computationally efficient 0-th order Taylor sparse attention. Furthermore, we build \texttt{LIVEditor} , a novel lightning video editing model via ISA and a proposed video-editing data pipeline that curated a 1.7M high-quality dataset. Extensive experiments demonstrate that LIVEditor achieves a sim60% reduction in attention-module latency while surpassing state-of-the-art methods across EditVerseBench, IVE-Bench, and VIE-Bench, delivering near-lossless acceleration without compromising visual fidelity.