Унифицированное редактирование видео с помощью разреженного механизма внимания в контексте

Аннотация

Монтаж видео эволюционировал в сторону парадигм контекстного обучения (In-Context Learning, ICL), однако возникающие при этом квадратичные затраты на механизм внимания создают критическое вычислительное узкое место. В данной работе мы предлагаем Контекстно-разреженное внимание (In-context Sparse Attention, ISA) — первую практически безубыточную эмпирическую разреженную архитектуру, разработанную специально для ICL-монтажа видео. Наш подход основан на двух ключевых наблюдениях: во-первых, контекстные токены демонстрируют значительно меньшую значимость по сравнению с исходными токенами; во-вторых, мы теоретически доказываем и эмпирически подтверждаем, что острота запроса коррелирует с ошибкой аппроксимации. Руководствуясь этими выводами, ISA реализует эффективную стратегию предварительного отбора для исключения избыточного контекста, за которой следует механизм динамической группировки запросов, направляющий запросы с высокой ошибкой на полное внимание, а запросы с низкой ошибкой — на вычислительно эффективное разреженное внимание Тейлора нулевого порядка. Кроме того, мы создаем \texttt{LIVEditor} — новую сверхбыструю модель монтажа видео на основе ISA и предложенного конвейера данных для видеомонтажа, который позволил сформировать высококачественный набор данных объемом 1,7 млн примеров. Многочисленные эксперименты демонстрируют, что LIVEditor достигает сокращения задержки в модуле внимания примерно на 60%, превосходя при этом современные методы по бенчмаркам EditVerseBench, IVE-Bench и VIE-Bench, обеспечивая практически безубыточное ускорение без ущерба для визуального качества.

English

Video editing has evolved toward In-Context Learning (ICL) paradigms, yet the resulting quadratic attention costs create a critical computational bottleneck. In this work, we propose In-context Sparse Attention (ISA), the first near-lossless empirical sparse framework tailored for ICL video editing. Our design is grounded in two key insights: first, context tokens exhibit significantly lower saliency than source tokens; second, we theoretically prove and empirically validate that Query sharpness correlates with approximation error. Motivated by these findings, ISA implements an efficient pre-selection strategy to prune redundant context, followed by a dynamic query grouping mechanism that routes high-error queries to full attention and low-error ones to a computationally efficient 0-th order Taylor sparse attention. Furthermore, we build \texttt{LIVEditor} , a novel lightning video editing model via ISA and a proposed video-editing data pipeline that curated a 1.7M high-quality dataset. Extensive experiments demonstrate that LIVEditor achieves a sim60% reduction in attention-module latency while surpassing state-of-the-art methods across EditVerseBench, IVE-Bench, and VIE-Bench, delivering near-lossless acceleration without compromising visual fidelity.

Унифицированное редактирование видео с помощью разреженного механизма внимания в контексте

Lightning Unified Video Editing via In-Context Sparse Attention

Аннотация

Support