ChatAnything: Видеозвонки с персонажами, улучшенными с помощью языковых моделей
ChatAnything: Facetime Chat with LLM-Enhanced Personas
November 12, 2023
Авторы: Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou
cs.AI
Аннотация
В данном техническом отчете мы ставим задачу генерации антропоморфных персонажей для персонажей на основе больших языковых моделей (LLM) в онлайн-режиме, включая визуальный облик, личность и тон, используя только текстовые описания. Для достижения этой цели мы сначала используем способность LLM к обучению в контексте для генерации личности, тщательно разработав набор системных промптов. Затем мы предлагаем две новые концепции: смешение голосов (MoV) и смешение диффузоров (MoD) для создания разнообразных голосов и внешнего вида. Для MoV мы применяем алгоритмы преобразования текста в речь (TTS) с различными предопределенными тонами и автоматически выбираем наиболее подходящий на основе предоставленного пользователем текстового описания. Для MoD мы объединяем современные методы генерации изображений из текста и алгоритмы создания говорящих голов, чтобы упростить процесс генерации говорящих объектов. Мы назвали весь этот фреймворк ChatAnything. С его помощью пользователи смогут анимировать что угодно с любыми антропоморфными персонажами, используя всего несколько текстовых вводов. Однако мы заметили, что антропоморфные объекты, создаваемые текущими генеративными моделями, часто не обнаруживаются предварительно обученными детекторами ключевых точек лица, что приводит к сбою в генерации движений лица, даже если эти лица имеют человеческий облик, поскольку такие изображения почти не встречались во время обучения (например, OOD-выборки). Чтобы решить эту проблему, мы включаем пиксельное руководство для внедрения ключевых точек лица на этапе генерации изображений. Для оценки этих метрик мы создали набор данных для тестирования. На его основе мы подтверждаем, что частота обнаружения ключевых точек лица значительно увеличилась с 57,0% до 92,5%, что позволяет автоматически анимировать лицо на основе сгенерированного речевого контента. Код и дополнительные результаты можно найти по адресу https://chatanything.github.io/.
English
In this technical report, we target generating anthropomorphized personas for
LLM-based characters in an online manner, including visual appearance,
personality and tones, with only text descriptions. To achieve this, we first
leverage the in-context learning capability of LLMs for personality generation
by carefully designing a set of system prompts. We then propose two novel
concepts: the mixture of voices (MoV) and the mixture of diffusers (MoD) for
diverse voice and appearance generation. For MoV, we utilize the text-to-speech
(TTS) algorithms with a variety of pre-defined tones and select the most
matching one based on the user-provided text description automatically. For
MoD, we combine the recent popular text-to-image generation techniques and
talking head algorithms to streamline the process of generating talking
objects. We termed the whole framework as ChatAnything. With it, users could be
able to animate anything with any personas that are anthropomorphic using just
a few text inputs. However, we have observed that the anthropomorphic objects
produced by current generative models are often undetectable by pre-trained
face landmark detectors, leading to failure of the face motion generation, even
if these faces possess human-like appearances because those images are nearly
seen during the training (e.g., OOD samples). To address this issue, we
incorporate pixel-level guidance to infuse human face landmarks during the
image generation phase. To benchmark these metrics, we have built an evaluation
dataset. Based on it, we verify that the detection rate of the face landmark is
significantly increased from 57.0% to 92.5% thus allowing automatic face
animation based on generated speech content. The code and more results can be
found at https://chatanything.github.io/.