HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

4 papers found

Mega-TTS 2: Sintesi Vocale Zero-Shot con Prompt Vocali di Lunghezza Arbitraria
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

Jul 14

ByZiyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao

Lo zero-shot text-to-speech mira a sintetizzare voci utilizzando prompt vocali non visti in precedenza. I precedenti modelli TTS multi-relatore su larga scala hanno raggiunto con successo questo obiettivo con una registrazione di iscrizione entro 10 secondi. Tuttavia, la maggior parte di essi è progettata per utilizzare solo prompt vocali brevi. Le informazioni limitate nei prompt vocali brevi ostacolano significativamente le prestazioni dell'imitazione fine dell'identità. In questo articolo, introduciamo Mega-TTS 2, un modello TTS multi-relatore zero-shot generico in grado di sintetizzare il parlato per relatori non visti con prompt di lunghezza arbitraria. Nello specifico, 1) progettiamo un encoder timbrico multi-riferimento per estrarre informazioni timbriche da più discorsi di riferimento; 2) addestriamo un modello linguistico di prosodia con prompt vocali di lunghezza arbitraria; Con questi progetti, il nostro modello è adatto per prompt di diverse lunghezze, il che estende il limite superiore della qualità del parlato per lo zero-shot text-to-speech. Oltre ai prompt di lunghezza arbitraria, introduciamo prompt di fonte arbitraria, che sfruttano le probabilità derivate da più output di P-LLM per produrre una prosodia espressiva e controllata. Inoltre, proponiamo un modello di durata auto-regressivo a livello di fonema per introdurre capacità di apprendimento in-context nella modellazione della durata. Gli esperimenti dimostrano che il nostro metodo non solo potrebbe sintetizzare un parlato che preserva l'identità con un breve prompt di un relatore non visto, ma anche ottenere prestazioni migliorate con prompt vocali più lunghi. I campioni audio possono essere trovati su https://mega-tts.github.io/mega2_demo/.

Imparare a Recuperare Esempi In-Contesto per Modelli Linguistici di Grandi Dimensioni
Learning to Retrieve In-Context Examples for Large Language Models

Jul 14

ByLiang Wang, Nan Yang, Furu Wei

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato la loro capacità di apprendere in contesto, consentendo loro di eseguire varie attività basandosi su pochi esempi di input-output. Tuttavia, l'efficacia dell'apprendimento in contesto dipende fortemente dalla qualità degli esempi selezionati. In questo articolo, proponiamo un nuovo framework per addestrare iterativamente dei retriever densi in grado di identificare esempi di alta qualità per l'apprendimento in contesto degli LLM. Il nostro framework inizialmente addestra un modello di reward basato sul feedback degli LLM per valutare la qualità degli esempi candidati, seguito da una distillazione della conoscenza per addestrare un retriever denso basato su un bi-encoder. I nostri esperimenti su un insieme di 30 task dimostrano che il nostro framework migliora significativamente le prestazioni dell'apprendimento in contesto. Inoltre, mostriamo la capacità di generalizzazione del nostro framework su task non visti durante l'addestramento. Un'analisi approfondita rivela che il nostro modello migliora le prestazioni recuperando esempi con pattern simili, e i guadagni sono consistenti tra LLM di dimensioni variabili.

DreamTeacher: Pre-addestramento di Backbone di Immagini con Modelli Generativi Profondi
DreamTeacher: Pretraining Image Backbones with Deep Generative Models

Jul 14

ByDaiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler

In questo lavoro, introduciamo un framework di apprendimento di rappresentazioni di caratteristiche auto-supervisionato, denominato DreamTeacher, che utilizza reti generative per il pre-addestramento di backbone di immagini per task downstream. Proponiamo di distillare la conoscenza da un modello generativo addestrato in backbone di immagini standard, che sono stati ben progettati per specifici task di percezione. Investigiamo due tipi di distillazione della conoscenza: 1) distillare le caratteristiche generative apprese nei backbone di immagini target come alternativa al pre-addestramento di questi backbone su grandi dataset etichettati come ImageNet, e 2) distillare etichette ottenute da reti generative con task head nei logit dei backbone target. Eseguiamo analisi approfondite su molteplici modelli generativi, benchmark di predizione densa e diversi regimi di pre-addestramento. Empiricamente, troviamo che il nostro DreamTeacher supera significativamente gli approcci esistenti di apprendimento di rappresentazioni auto-supervisionato in modo uniforme. Il pre-addestramento non supervisionato su ImageNet con DreamTeacher porta a miglioramenti significativi rispetto al pre-addestramento su classificazione ImageNet su dataset downstream, dimostrando che i modelli generativi, e in particolare i modelli generativi di diffusione, rappresentano un approccio promettente per l'apprendimento di rappresentazioni su dataset grandi e diversificati senza richiedere annotazioni manuali.

NIFTY: Campi di Interazione Neurale per Oggetti nella Sintesi Guidata del Movimento Umano
NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis

Jul 14

ByNilesh Kulkarni, Davis Rempe, Kyle Genova, Abhijit Kundu, Justin Johnson, David Fouhey, Leonidas Guibas

Affrontiamo il problema della generazione di movimenti 3D realistici di esseri umani che interagiscono con oggetti in una scena. La nostra idea chiave è creare un campo di interazione neurale associato a un oggetto specifico, che restituisce la distanza dal manifold di interazione valido dato come input una postura umana. Questo campo di interazione guida il campionamento di un modello di diffusione del movimento umano condizionato dall'oggetto, in modo da favorire contatti plausibili e semantica di affordance. Per supportare interazioni con dati scarsamente disponibili, proponiamo una pipeline automatizzata per la generazione di dati sintetici. A tal fine, inizializziamo un modello di movimento pre-addestrato, che possiede conoscenze pregresse sulle basi del movimento umano, con pose di ancoraggio specifiche per l'interazione estratte da dati limitati di motion capture. Utilizzando il nostro modello di diffusione guidato addestrato su dati sintetici generati, sintetizziamo movimenti realistici per azioni come sedersi e sollevare con diversi oggetti, superando approcci alternativi in termini di qualità del movimento e completamento riuscito dell'azione. Chiamiamo il nostro framework NIFTY: Neural Interaction Fields for Trajectory sYnthesis.

Mega-TTS 2: Sintesi Vocale Zero-Shot con Prompt Vocali di Lunghezza Arbitraria
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

Jul 14

ByZiyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao