Edición Unificada de Video mediante Atención Dispersa en Contexto

Resumen

La edición de video ha evolucionado hacia paradigmas de Aprendizaje en Contexto (ICL), pero los costos de atención cuadráticos resultantes crean un cuello de botella computacional crítico. En este trabajo, proponemos Atención Dispersa en Contexto (ISA), el primer marco empírico disperso casi sin pérdidas diseñado para la edición de video ICL. Nuestro diseño se basa en dos ideas clave: primero, los tokens de contexto exhiben una saliencia significativamente menor que los tokens de origen; segundo, demostramos teóricamente y validamos empíricamente que la nitidez de la Consulta se correlaciona con el error de aproximación. Motivados por estos hallazgos, ISA implementa una estrategia de preselección eficiente para podar el contexto redundante, seguida de un mecanismo de agrupación dinámica de consultas que dirige las consultas de alto error a atención completa y las de bajo error a una atención dispersa de Taylor de orden cero computacionalmente eficiente. Además, construimos \texttt{LIVEditor}, un novedoso modelo de edición de video ultrarrápido mediante ISA y una pipeline de datos de edición de video propuesta que curó un conjunto de datos de alta calidad de 1.7 millones. Experimentos exhaustivos demuestran que LIVEditor logra una reducción del ∼60% en la latencia del módulo de atención, superando a los métodos de vanguardia en EditVerseBench, IVE-Bench y VIE-Bench, y ofreciendo una aceleración casi sin pérdidas sin comprometer la fidelidad visual.

English

Video editing has evolved toward In-Context Learning (ICL) paradigms, yet the resulting quadratic attention costs create a critical computational bottleneck. In this work, we propose In-context Sparse Attention (ISA), the first near-lossless empirical sparse framework tailored for ICL video editing. Our design is grounded in two key insights: first, context tokens exhibit significantly lower saliency than source tokens; second, we theoretically prove and empirically validate that Query sharpness correlates with approximation error. Motivated by these findings, ISA implements an efficient pre-selection strategy to prune redundant context, followed by a dynamic query grouping mechanism that routes high-error queries to full attention and low-error ones to a computationally efficient 0-th order Taylor sparse attention. Furthermore, we build \texttt{LIVEditor} , a novel lightning video editing model via ISA and a proposed video-editing data pipeline that curated a 1.7M high-quality dataset. Extensive experiments demonstrate that LIVEditor achieves a sim60% reduction in attention-module latency while surpassing state-of-the-art methods across EditVerseBench, IVE-Bench, and VIE-Bench, delivering near-lossless acceleration without compromising visual fidelity.

Edición Unificada de Video mediante Atención Dispersa en Contexto

Lightning Unified Video Editing via In-Context Sparse Attention

Resumen

Support