ChatAnything: Chat Facetime con Personaggi Potenziati da LLM
ChatAnything: Facetime Chat with LLM-Enhanced Personas
November 12, 2023
Autori: Yilin Zhao, Xinbin Yuan, Shanghua Gao, Zhijie Lin, Qibin Hou, Jiashi Feng, Daquan Zhou
cs.AI
Abstract
In questo rapporto tecnico, ci proponiamo di generare personaggi antropomorfizzati per personaggi basati su LLM in modo online, includendo aspetto visivo, personalità e toni, utilizzando solo descrizioni testuali. Per raggiungere questo obiettivo, sfruttiamo innanzitutto la capacità di apprendimento contestuale degli LLM per la generazione della personalità, progettando attentamente una serie di prompt di sistema. Successivamente, introduciamo due nuovi concetti: la miscela di voci (MoV) e la miscela di diffusori (MoD) per la generazione di voci e aspetti diversificati. Per MoV, utilizziamo algoritmi di sintesi vocale (TTS) con una varietà di toni predefiniti e selezioniamo automaticamente quello più adatto in base alla descrizione testuale fornita dall'utente. Per MoD, combiniamo le recenti tecniche di generazione di immagini da testo e algoritmi di testa parlante per semplificare il processo di creazione di oggetti parlanti. Abbiamo denominato l'intero framework ChatAnything. Con esso, gli utenti possono animare qualsiasi cosa con personaggi antropomorfi utilizzando solo pochi input testuali. Tuttavia, abbiamo osservato che gli oggetti antropomorfi prodotti dai modelli generativi attuali spesso non sono rilevabili dai rilevatori di landmark facciali pre-addestrati, portando al fallimento della generazione del movimento facciale, anche se questi volti possiedono un aspetto umano, poiché tali immagini sono quasi mai state viste durante l'addestramento (ad esempio, campioni OOD). Per affrontare questo problema, incorporiamo una guida a livello di pixel per infondere landmark facciali umani durante la fase di generazione dell'immagine. Per valutare queste metriche, abbiamo creato un dataset di valutazione. Sulla base di esso, verifichiamo che il tasso di rilevamento dei landmark facciali è aumentato significativamente dal 57,0% al 92,5%, consentendo così l'animazione automatica del volto basata sul contenuto vocale generato. Il codice e ulteriori risultati sono disponibili all'indirizzo https://chatanything.github.io/.
English
In this technical report, we target generating anthropomorphized personas for
LLM-based characters in an online manner, including visual appearance,
personality and tones, with only text descriptions. To achieve this, we first
leverage the in-context learning capability of LLMs for personality generation
by carefully designing a set of system prompts. We then propose two novel
concepts: the mixture of voices (MoV) and the mixture of diffusers (MoD) for
diverse voice and appearance generation. For MoV, we utilize the text-to-speech
(TTS) algorithms with a variety of pre-defined tones and select the most
matching one based on the user-provided text description automatically. For
MoD, we combine the recent popular text-to-image generation techniques and
talking head algorithms to streamline the process of generating talking
objects. We termed the whole framework as ChatAnything. With it, users could be
able to animate anything with any personas that are anthropomorphic using just
a few text inputs. However, we have observed that the anthropomorphic objects
produced by current generative models are often undetectable by pre-trained
face landmark detectors, leading to failure of the face motion generation, even
if these faces possess human-like appearances because those images are nearly
seen during the training (e.g., OOD samples). To address this issue, we
incorporate pixel-level guidance to infuse human face landmarks during the
image generation phase. To benchmark these metrics, we have built an evaluation
dataset. Based on it, we verify that the detection rate of the face landmark is
significantly increased from 57.0% to 92.5% thus allowing automatic face
animation based on generated speech content. The code and more results can be
found at https://chatanything.github.io/.