ChatPaper.aiChatPaper

Ancoraggio Lookahead: Preservare l'Identità del Personaggio nell'Animazione Umana Guidata dall'Audio

Lookahead Anchoring: Preserving Character Identity in Audio-Driven Human Animation

October 27, 2025
Autori: Junyoung Seo, Rodrigo Mira, Alexandros Haliassos, Stella Bounareli, Honglie Chen, Linh Tran, Seungryong Kim, Zoe Landgraf, Jie Shen
cs.AI

Abstract

I modelli di animazione umana guidati dall'audio spesso soffrono di deriva d'identità durante la generazione autoregressiva temporale, dove i personaggi perdono gradualmente la loro identità nel tempo. Una soluzione è generare keyframe come ancore temporali intermedie che prevengano il degrado, ma questo richiede una fase aggiuntiva di generazione dei keyframe e può limitare la dinamica del movimento naturale. Per affrontare questo problema, proponiamo l'Ancoraggio Anticipato (Lookahead Anchoring), che utilizza keyframe da step temporali futuri antecedenti alla finestra di generazione corrente, piuttosto che al suo interno. Questo trasforma i keyframe da limiti fissi in fari direzionali: il modello persegue continuamente queste ancore future mentre risponde agli stimoli audio immediati, mantenendo un'identità coerente attraverso una guida persistente. Ciò consente anche l'auto-keyframing, dove l'immagine di riferimento funge da obiettivo anticipato, eliminando del tutto la necessità di generare keyframe. Troviamo che la distanza temporale di anticipo controlla naturalmente l'equilibrio tra espressività e coerenza: distanze maggiori consentono una maggiore libertà di movimento, mentre quelle più piccole rafforzano l'aderenza all'identità. Quando applicato a tre recenti modelli di animazione umana, l'Ancoraggio Anticipato raggiunge una sincronizzazione labiale, una preservazione dell'identità e una qualità visiva superiori, dimostrando un condizionamento temporale migliorato su diverse architetture. I risultati video sono disponibili al seguente link: https://lookahead-anchoring.github.io.
English
Audio-driven human animation models often suffer from identity drift during temporal autoregressive generation, where characters gradually lose their identity over time. One solution is to generate keyframes as intermediate temporal anchors that prevent degradation, but this requires an additional keyframe generation stage and can restrict natural motion dynamics. To address this, we propose Lookahead Anchoring, which leverages keyframes from future timesteps ahead of the current generation window, rather than within it. This transforms keyframes from fixed boundaries into directional beacons: the model continuously pursues these future anchors while responding to immediate audio cues, maintaining consistent identity through persistent guidance. This also enables self-keyframing, where the reference image serves as the lookahead target, eliminating the need for keyframe generation entirely. We find that the temporal lookahead distance naturally controls the balance between expressivity and consistency: larger distances allow for greater motion freedom, while smaller ones strengthen identity adherence. When applied to three recent human animation models, Lookahead Anchoring achieves superior lip synchronization, identity preservation, and visual quality, demonstrating improved temporal conditioning across several different architectures. Video results are available at the following link: https://lookahead-anchoring.github.io.
PDF412December 3, 2025