SCAIL-2: Объединение управляемой анимации персонажей со сквозным контекстным обусловливанием

Аннотация

Управляемая анимация персонажей требует переноса движения из ведущей последовательности на эталонного персонажа. Предыдущие работы в значительной степени опирались на промежуточные представления, включая скелеты поз для представления движения или маскированный фон для представления окружения, что неизбежно приводит к потере информации. Для решения этой проблемы мы представляем SCAIL-2 — framework, который обходит эти промежуточные звенья и обеспечивает сквозную анимацию персонажей. Путем прямой конкатенации ведущих видео с последовательностью модель может получить всю необходимую визуальную информацию из входного видео. Для устранения нехватки сквозных данных мы унифицируем подзадачи анимации персонажей с развязанными условиями, а затем разрабатываем конвейер для синтеза набора данных MotionPair-60K — сквозного набора для переноса движения, содержащего разнородные задачи анимации персонажей. Для достижения унификации мы используем внутриконтекстное маскирование условий и привязку RoPE, специфичную для режима, в качестве мягкого руководства в дополнение к текстовым инструкциям и исходной визуальной информации. Для устранения синтетических расхождений в детализированных областях мы предлагаем Bias-Aware DPO для построения элементов предпочтения, чтобы уменьшить ошибки. Обширные эксперименты демонстрируют, что наш метод значительно превосходит существующие передовые подходы в различных задачах анимации персонажей. Большая часть синтетических данных, а также веса модели будут опубликованы на странице нашего проекта: https://teal024.github.io/SCAIL-2/.

English

Controlled character animation requires transferring motion from a driving sequence to a reference character. Prior works heavily rely on intermediate representations, including pose skeletons to represent motion or masked background to represent environment, which inevitably leads to information loss. To address this, we present SCAIL-2, an framework that bypasses those intermediates and achieves end-to-end character animation. By directly concatenating driving videos to the sequence, the model can obtain all the required visual information from the input video. To address lack of end-to-end data, we unify sub-tasks of character animation with decoupled conditions and then curate a pipeline to synthesize MotionPair-60K, an end-to-end motion transfer dataset containing heterogeneous tasks of character animation. To archive the unification, we utilize in-context mask conditioning and mode-specific RoPE as soft guidance beyond textual instructions and raw visual information. To address synthetic discrepancy in detailed regions, we propose Bias-Aware DPO to construct preference items to mitigate the errors. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches in various character animation tasks. A large subset of synthetic data as well as model weights will be released at our project page: https://teal024.github.io/SCAIL-2/.