ChatAnything: Facetime-Chat mit LLM-verstärkten Personas
ChatAnything: Facetime Chat with LLM-Enhanced Personas
November 12, 2023
Autoren: Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou
cs.AI
Zusammenfassung
In diesem technischen Bericht zielen wir darauf ab, anthropomorphisierte Persönlichkeiten für LLM-basierte Charaktere in Echtzeit zu generieren, einschließlich visueller Erscheinung, Persönlichkeit und Tonfall, basierend ausschließlich auf Textbeschreibungen. Um dies zu erreichen, nutzen wir zunächst die In-Context-Lernfähigkeit von LLMs für die Persönlichkeitsgenerierung, indem wir sorgfältig eine Reihe von System-Prompts entwerfen. Anschließend führen wir zwei neuartige Konzepte ein: die Mischung der Stimmen (MoV) und die Mischung der Diffuser (MoD) für die Erzeugung vielfältiger Stimmen und Erscheinungsbilder. Bei MoV verwenden wir Text-zu-Sprache (TTS)-Algorithmen mit einer Vielzahl von vordefinierten Tonfällen und wählen automatisch den am besten passenden basierend auf der vom Benutzer bereitgestellten Textbeschreibung aus. Bei MoD kombinieren wir die aktuell populären Text-zu-Bild-Generierungstechniken und Talking-Head-Algorithmen, um den Prozess der Erzeugung sprechender Objekte zu optimieren. Wir bezeichnen das gesamte Framework als ChatAnything. Mit diesem können Benutzer alles mit beliebigen anthropomorphen Persönlichkeiten animieren, indem sie nur wenige Texteingaben verwenden. Allerdings haben wir beobachtet, dass die von aktuellen generativen Modellen erzeugten anthropomorphen Objekte oft von vortrainierten Gesichtslandmarken-Detektoren nicht erkannt werden, was zu einem Fehlschlagen der Gesichtsbewegungsgenerierung führt, selbst wenn diese Gesichter menschenähnliche Erscheinungen besitzen, da solche Bilder während des Trainings kaum gesehen wurden (z.B. OOD-Stichproben). Um dieses Problem zu lösen, integrieren wir Pixel-Level-Anleitungen, um menschliche Gesichtslandmarken während der Bildgenerierungsphase einzubringen. Um diese Metriken zu bewerten, haben wir einen Evaluierungsdatensatz erstellt. Basierend darauf bestätigen wir, dass die Erkennungsrate der Gesichtslandmarken signifikant von 57,0 % auf 92,5 % gesteigert wird, was eine automatische Gesichtsanimation basierend auf generierten Sprachinhalten ermöglicht. Der Code und weitere Ergebnisse sind unter https://chatanything.github.io/ verfügbar.
English
In this technical report, we target generating anthropomorphized personas for
LLM-based characters in an online manner, including visual appearance,
personality and tones, with only text descriptions. To achieve this, we first
leverage the in-context learning capability of LLMs for personality generation
by carefully designing a set of system prompts. We then propose two novel
concepts: the mixture of voices (MoV) and the mixture of diffusers (MoD) for
diverse voice and appearance generation. For MoV, we utilize the text-to-speech
(TTS) algorithms with a variety of pre-defined tones and select the most
matching one based on the user-provided text description automatically. For
MoD, we combine the recent popular text-to-image generation techniques and
talking head algorithms to streamline the process of generating talking
objects. We termed the whole framework as ChatAnything. With it, users could be
able to animate anything with any personas that are anthropomorphic using just
a few text inputs. However, we have observed that the anthropomorphic objects
produced by current generative models are often undetectable by pre-trained
face landmark detectors, leading to failure of the face motion generation, even
if these faces possess human-like appearances because those images are nearly
seen during the training (e.g., OOD samples). To address this issue, we
incorporate pixel-level guidance to infuse human face landmarks during the
image generation phase. To benchmark these metrics, we have built an evaluation
dataset. Based on it, we verify that the detection rate of the face landmark is
significantly increased from 57.0% to 92.5% thus allowing automatic face
animation based on generated speech content. The code and more results can be
found at https://chatanything.github.io/.