Story-to-Motion: Синтез бесконечной и управляемой анимации персонажей на основе длинного текста
Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text
November 13, 2023
Авторы: Zhongfei Qing, Zhongang Cai, Zhitao Yang, Lei Yang
cs.AI
Аннотация
Генерация естественных движений человека на основе рассказа имеет потенциал для преобразования ландшафта анимации, игровой и киноиндустрии. Новая и сложная задача, Story-to-Motion, возникает, когда персонажи должны перемещаться в различные места и выполнять определенные движения на основе длинного текстового описания. Эта задача требует сочетания низкоуровневого управления (траектории) и высокоуровневого управления (семантика движений). Предыдущие работы в области управления персонажами и преобразования текста в движение затрагивали связанные аспекты, однако всеобъемлющее решение остается неуловимым: методы управления персонажами не обрабатывают текстовые описания, тогда как методы преобразования текста в движение не учитывают ограничения по позиции и часто производят нестабильные движения. В свете этих ограничений мы предлагаем новую систему, которая генерирует управляемые, бесконечно длинные движения и траектории, согласованные с входным текстом. (1) Мы используем современные большие языковые модели в качестве текстового планировщика движений для извлечения серии пар (текст, позиция, длительность) из длинного текста. (2) Мы разрабатываем схему поиска движений на основе текста, которая включает сопоставление движений с семантическими и траекторными ограничениями. (3) Мы создаем прогрессивный маскирующий трансформер, который устраняет распространенные артефакты в переходных движениях, такие как неестественные позы и скольжение ног. Помимо своей новаторской роли как первого всеобъемлющего решения для задачи Story-to-Motion, наша система проходит оценку по трем различным подзадачам: следование траектории, временная композиция действий и смешивание движений, где она превосходит предыдущие передовые методы синтеза движений. Домашняя страница: https://story2motion.github.io/.
English
Generating natural human motion from a story has the potential to transform
the landscape of animation, gaming, and film industries. A new and challenging
task, Story-to-Motion, arises when characters are required to move to various
locations and perform specific motions based on a long text description. This
task demands a fusion of low-level control (trajectories) and high-level
control (motion semantics). Previous works in character control and
text-to-motion have addressed related aspects, yet a comprehensive solution
remains elusive: character control methods do not handle text description,
whereas text-to-motion methods lack position constraints and often produce
unstable motions. In light of these limitations, we propose a novel system that
generates controllable, infinitely long motions and trajectories aligned with
the input text. (1) We leverage contemporary Large Language Models to act as a
text-driven motion scheduler to extract a series of (text, position, duration)
pairs from long text. (2) We develop a text-driven motion retrieval scheme that
incorporates motion matching with motion semantic and trajectory constraints.
(3) We design a progressive mask transformer that addresses common artifacts in
the transition motion such as unnatural pose and foot sliding. Beyond its
pioneering role as the first comprehensive solution for Story-to-Motion, our
system undergoes evaluation across three distinct sub-tasks: trajectory
following, temporal action composition, and motion blending, where it
outperforms previous state-of-the-art motion synthesis methods across the
board. Homepage: https://story2motion.github.io/.