ChatPaper.aiChatPaper

Управляемая интерполяция ключевых кадров с учетом человеко-ориентированного подхода и использованием генеративного априори

Controllable Human-centric Keyframe Interpolation with Generative Prior

June 3, 2025
Авторы: Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
cs.AI

Аннотация

Существующие методы интерполяции используют предварительно обученные видеодиффузионные априори для генерации промежуточных кадров между редко выбранными ключевыми кадрами. При отсутствии 3D-геометрического руководства эти методы испытывают трудности с созданием правдоподобных результатов для сложных, сочлененных движений человека и предлагают ограниченный контроль над синтезированной динамикой. В данной статье мы представляем PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), новый фреймворк, который интегрирует 3D-сигналы человеческого руководства в процесс диффузии для Управляемой Человеко-ориентированной Интерполяции Ключевых Кадров (CHKI). Для предоставления богатых пространственных и структурных подсказок для интерполяции, наш PoseFuse3D, 3D-информированная модель управления, включает в себя новый SMPL-X кодировщик, который преобразует 3D-геометрию и форму в 2D латентное пространство кондиционирования, а также сеть слияния, которая интегрирует эти 3D-подсказки с 2D-вложениями поз. Для оценки мы создали CHKI-Video, новый набор данных, аннотированный как 2D-позами, так и 3D-параметрами SMPL-X. Мы показываем, что PoseFuse3D-KI последовательно превосходит современные базовые методы на CHKI-Video, достигая 9% улучшения в PSNR и 38% снижения в LPIPS. Комплексные абляции демонстрируют, что наша модель PoseFuse3D улучшает точность интерполяции.
English
Existing interpolation methods use pre-trained video diffusion priors to generate intermediate frames between sparsely sampled keyframes. In the absence of 3D geometric guidance, these methods struggle to produce plausible results for complex, articulated human motions and offer limited control over the synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human guidance signals into the diffusion process for Controllable Human-centric Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for interpolation, our PoseFuse3D, a 3D-informed control model, features a novel SMPL-X encoder that transforms 3D geometry and shape into the 2D latent conditioning space, alongside a fusion network that integrates these 3D cues with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset annotated with both 2D poses and 3D SMPL-X parameters. We show that PoseFuse3D-KI consistently outperforms state-of-the-art baselines on CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS. Comprehensive ablations demonstrate that our PoseFuse3D model improves interpolation fidelity.
PDF22June 4, 2025