ChatAnything: Videollamadas con Personajes Mejorados por Modelos de Lenguaje
ChatAnything: Facetime Chat with LLM-Enhanced Personas
November 12, 2023
Autores: Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou
cs.AI
Resumen
En este informe técnico, nos enfocamos en generar personajes antropomorfizados para personajes basados en modelos de lenguaje (LLM) de manera en línea, incluyendo apariencia visual, personalidad y tonos, utilizando únicamente descripciones textuales. Para lograrlo, primero aprovechamos la capacidad de aprendizaje en contexto de los LLM para la generación de personalidad mediante el diseño cuidadoso de un conjunto de indicaciones del sistema. Luego, proponemos dos conceptos novedosos: la mezcla de voces (MoV) y la mezcla de difusores (MoD) para la generación diversa de voces y apariencias. Para MoV, utilizamos algoritmos de texto a voz (TTS) con una variedad de tonos predefinidos y seleccionamos automáticamente el más adecuado basado en la descripción textual proporcionada por el usuario. Para MoD, combinamos técnicas recientes de generación de imágenes a partir de texto y algoritmos de cabezas parlantes para agilizar el proceso de generar objetos parlantes. Denominamos a este marco completo como ChatAnything. Con él, los usuarios podrían animar cualquier cosa con cualquier personaje antropomórfico utilizando solo unas pocas entradas de texto. Sin embargo, hemos observado que los objetos antropomórficos producidos por los modelos generativos actuales a menudo no son detectables por detectores de puntos de referencia faciales preentrenados, lo que lleva al fallo en la generación de movimientos faciales, incluso si estos rostros tienen apariencias humanoides, ya que esas imágenes casi no se ven durante el entrenamiento (por ejemplo, muestras fuera de distribución, OOD). Para abordar este problema, incorporamos guía a nivel de píxel para infundir puntos de referencia faciales humanos durante la fase de generación de imágenes. Para evaluar estas métricas, hemos construido un conjunto de datos de evaluación. Basándonos en él, verificamos que la tasa de detección de los puntos de referencia faciales aumenta significativamente del 57.0% al 92.5%, permitiendo así la animación facial automática basada en el contenido de voz generado. El código y más resultados se pueden encontrar en https://chatanything.github.io/.
English
In this technical report, we target generating anthropomorphized personas for
LLM-based characters in an online manner, including visual appearance,
personality and tones, with only text descriptions. To achieve this, we first
leverage the in-context learning capability of LLMs for personality generation
by carefully designing a set of system prompts. We then propose two novel
concepts: the mixture of voices (MoV) and the mixture of diffusers (MoD) for
diverse voice and appearance generation. For MoV, we utilize the text-to-speech
(TTS) algorithms with a variety of pre-defined tones and select the most
matching one based on the user-provided text description automatically. For
MoD, we combine the recent popular text-to-image generation techniques and
talking head algorithms to streamline the process of generating talking
objects. We termed the whole framework as ChatAnything. With it, users could be
able to animate anything with any personas that are anthropomorphic using just
a few text inputs. However, we have observed that the anthropomorphic objects
produced by current generative models are often undetectable by pre-trained
face landmark detectors, leading to failure of the face motion generation, even
if these faces possess human-like appearances because those images are nearly
seen during the training (e.g., OOD samples). To address this issue, we
incorporate pixel-level guidance to infuse human face landmarks during the
image generation phase. To benchmark these metrics, we have built an evaluation
dataset. Based on it, we verify that the detection rate of the face landmark is
significantly increased from 57.0% to 92.5% thus allowing automatic face
animation based on generated speech content. The code and more results can be
found at https://chatanything.github.io/.