SCAIL-2: Vereinheitlichung der kontrollierten Charakteranimation mit End-to-End In-Context-Konditionierung

Zusammenfassung

Kontrollierte Charakteranimation erfordert die Übertragung von Bewegung von einer treibenden Sequenz auf einen Referenzcharakter. Frühere Arbeiten stützen sich stark auf Zwischenrepräsentationen, darunter Posen-Skelette zur Darstellung von Bewegung oder maskierte Hintergründe zur Darstellung der Umgebung, was unweigerlich zu Informationsverlust führt. Um dies zu adressieren, stellen wir SCAIL-2 vor, ein Framework, das diese Zwischenrepräsentationen umgeht und eine End-to-End-Charakteranimation ermöglicht. Durch direktes Anhängen von treibenden Videos an die Sequenz kann das Modell alle erforderlichen visuellen Informationen aus dem Eingabevideo beziehen. Um den Mangel an End-to-End-Daten zu beheben, vereinheitlichen wir Unteraufgaben der Charakteranimation mit entkoppelten Bedingungen und erstellen dann eine Pipeline zur Synthese von MotionPair-60K, einem End-to-End-Bewegungstransfer-Datensatz, der heterogene Aufgaben der Charakteranimation enthält. Um die Vereinheitlichung zu erreichen, nutzen wir In-Context-Masken-Konditionierung und modus-spezifisches RoPE als weiche Führung über textuelle Anweisungen und rohe visuelle Informationen hinaus. Um synthetische Diskrepanzen in detailreichen Regionen zu adressieren, schlagen wir Bias-Aware DPO vor, um Präferenzitems zu konstruieren und Fehler zu mindern. Umfangreiche Experimente zeigen, dass unsere Methode bestehende State-of-the-Art-Ansätze in verschiedenen Charakteranimationsaufgaben deutlich übertrifft. Ein großer Teil der synthetischen Daten sowie Modellgewichte werden auf unserer Projektseite veröffentlicht: https://teal024.github.io/SCAIL-2/.

English

Controlled character animation requires transferring motion from a driving sequence to a reference character. Prior works heavily rely on intermediate representations, including pose skeletons to represent motion or masked background to represent environment, which inevitably leads to information loss. To address this, we present SCAIL-2, an framework that bypasses those intermediates and achieves end-to-end character animation. By directly concatenating driving videos to the sequence, the model can obtain all the required visual information from the input video. To address lack of end-to-end data, we unify sub-tasks of character animation with decoupled conditions and then curate a pipeline to synthesize MotionPair-60K, an end-to-end motion transfer dataset containing heterogeneous tasks of character animation. To archive the unification, we utilize in-context mask conditioning and mode-specific RoPE as soft guidance beyond textual instructions and raw visual information. To address synthetic discrepancy in detailed regions, we propose Bias-Aware DPO to construct preference items to mitigate the errors. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches in various character animation tasks. A large subset of synthetic data as well as model weights will be released at our project page: https://teal024.github.io/SCAIL-2/.