ChatAnything : Discussion en FaceTime avec des personnages enrichis par des LLM
ChatAnything: Facetime Chat with LLM-Enhanced Personas
November 12, 2023
Auteurs: Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou
cs.AI
Résumé
Dans ce rapport technique, nous visons à générer des personnages anthropomorphisés pour des agents basés sur des modèles de langage (LLM) de manière en ligne, incluant leur apparence visuelle, leur personnalité et leurs tonalités, en utilisant uniquement des descriptions textuelles. Pour y parvenir, nous exploitons d'abord la capacité d'apprentissage en contexte des LLM pour la génération de personnalités en concevant soigneusement un ensemble d'invites système. Nous proposons ensuite deux concepts novateurs : le mélange de voix (MoV) et le mélange de diffuseurs (MoD) pour générer des voix et des apparences variées. Pour le MoV, nous utilisons des algorithmes de synthèse vocale (TTS) avec une gamme de tonalités prédéfinies et sélectionnons automatiquement celle qui correspond le mieux à la description textuelle fournie par l'utilisateur. Pour le MoD, nous combinons les techniques récentes de génération d'images à partir de texte et les algorithmes de tête parlante pour rationaliser le processus de création d'objets parlants. Nous avons baptisé ce cadre complet "ChatAnything". Grâce à lui, les utilisateurs peuvent animer n'importe quoi avec n'importe quelle personnalité anthropomorphique en utilisant simplement quelques entrées textuelles. Cependant, nous avons observé que les objets anthropomorphiques produits par les modèles génératifs actuels sont souvent indétectables par les détecteurs de points de repère faciaux pré-entraînés, ce qui entraîne l'échec de la génération des mouvements faciaux, même si ces visages ont des apparences humaines, car ces images sont rarement vues pendant l'entraînement (par exemple, des échantillons hors distribution). Pour résoudre ce problème, nous intégrons un guidage au niveau des pixels pour infuser des points de repère faciaux humains pendant la phase de génération d'images. Pour évaluer ces métriques, nous avons construit un jeu de données d'évaluation. Sur cette base, nous vérifions que le taux de détection des points de repère faciaux est significativement augmenté de 57,0 % à 92,5 %, permettant ainsi une animation faciale automatique basée sur le contenu vocal généré. Le code et d'autres résultats sont disponibles à l'adresse suivante : https://chatanything.github.io/.
English
In this technical report, we target generating anthropomorphized personas for
LLM-based characters in an online manner, including visual appearance,
personality and tones, with only text descriptions. To achieve this, we first
leverage the in-context learning capability of LLMs for personality generation
by carefully designing a set of system prompts. We then propose two novel
concepts: the mixture of voices (MoV) and the mixture of diffusers (MoD) for
diverse voice and appearance generation. For MoV, we utilize the text-to-speech
(TTS) algorithms with a variety of pre-defined tones and select the most
matching one based on the user-provided text description automatically. For
MoD, we combine the recent popular text-to-image generation techniques and
talking head algorithms to streamline the process of generating talking
objects. We termed the whole framework as ChatAnything. With it, users could be
able to animate anything with any personas that are anthropomorphic using just
a few text inputs. However, we have observed that the anthropomorphic objects
produced by current generative models are often undetectable by pre-trained
face landmark detectors, leading to failure of the face motion generation, even
if these faces possess human-like appearances because those images are nearly
seen during the training (e.g., OOD samples). To address this issue, we
incorporate pixel-level guidance to infuse human face landmarks during the
image generation phase. To benchmark these metrics, we have built an evaluation
dataset. Based on it, we verify that the detection rate of the face landmark is
significantly increased from 57.0% to 92.5% thus allowing automatic face
animation based on generated speech content. The code and more results can be
found at https://chatanything.github.io/.