ChatAnything: Facetime Chat met LLM-verbeterde Persona's
ChatAnything: Facetime Chat with LLM-Enhanced Personas
November 12, 2023
Auteurs: Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou
cs.AI
Samenvatting
In dit technische rapport richten we ons op het genereren van gepersonifieerde persona's voor LLM-gebaseerde karakters op een online manier, inclusief visueel uiterlijk, persoonlijkheid en stemgeluid, met alleen tekstbeschrijvingen. Om dit te bereiken, maken we eerst gebruik van de in-context leer capaciteit van LLM's voor persoonlijkheidsgeneratie door zorgvuldig een set systeemprompts te ontwerpen. Vervolgens introduceren we twee nieuwe concepten: de mix van stemmen (MoV) en de mix van diffusers (MoD) voor diverse stem- en uiterlijkgeneratie. Voor MoV gebruiken we text-to-speech (TTS) algoritmen met een verscheidenheid aan vooraf gedefinieerde tonen en selecteren we automatisch de meest passende op basis van de door de gebruiker verstrekte tekstbeschrijving. Voor MoD combineren we recent populaire text-to-image generatietechnieken en talking head algoritmen om het proces van het genereren van pratende objecten te stroomlijnen. We hebben het hele framework ChatAnything genoemd. Hiermee kunnen gebruikers alles animeren met elke gepersonifieerde persona met slechts een paar tekstinvoeren. We hebben echter geobserveerd dat de gepersonifieerde objecten die door huidige generatieve modellen worden geproduceerd vaak niet detecteerbaar zijn door vooraf getrainde gezichtslandmarkdetectoren, wat leidt tot het falen van de gezichtsbewegingsgeneratie, zelfs als deze gezichten mensachtige uiterlijkheden hebben omdat deze afbeeldingen bijna niet zijn gezien tijdens de training (bijv. OOD samples). Om dit probleem aan te pakken, integreren we pixel-level begeleiding om menselijke gezichtslandmarken toe te voegen tijdens de beeldgeneratiefase. Om deze metriek te benchmarken, hebben we een evaluatiedataset opgebouwd. Op basis hiervan verifiëren we dat de detectiesnelheid van de gezichtslandmarken significant is toegenomen van 57,0% naar 92,5%, waardoor automatische gezichtsanimatie op basis van gegenereerde spraakinhoud mogelijk wordt. De code en meer resultaten zijn te vinden op https://chatanything.github.io/.
English
In this technical report, we target generating anthropomorphized personas for
LLM-based characters in an online manner, including visual appearance,
personality and tones, with only text descriptions. To achieve this, we first
leverage the in-context learning capability of LLMs for personality generation
by carefully designing a set of system prompts. We then propose two novel
concepts: the mixture of voices (MoV) and the mixture of diffusers (MoD) for
diverse voice and appearance generation. For MoV, we utilize the text-to-speech
(TTS) algorithms with a variety of pre-defined tones and select the most
matching one based on the user-provided text description automatically. For
MoD, we combine the recent popular text-to-image generation techniques and
talking head algorithms to streamline the process of generating talking
objects. We termed the whole framework as ChatAnything. With it, users could be
able to animate anything with any personas that are anthropomorphic using just
a few text inputs. However, we have observed that the anthropomorphic objects
produced by current generative models are often undetectable by pre-trained
face landmark detectors, leading to failure of the face motion generation, even
if these faces possess human-like appearances because those images are nearly
seen during the training (e.g., OOD samples). To address this issue, we
incorporate pixel-level guidance to infuse human face landmarks during the
image generation phase. To benchmark these metrics, we have built an evaluation
dataset. Based on it, we verify that the detection rate of the face landmark is
significantly increased from 57.0% to 92.5% thus allowing automatic face
animation based on generated speech content. The code and more results can be
found at https://chatanything.github.io/.