Articoli di ricerca IA selezionati quotidianamente con traduzioni
Lo zero-shot text-to-speech mira a sintetizzare voci utilizzando prompt vocali non visti in precedenza. I precedenti modelli TTS multi-relatore su larga scala hanno raggiunto con successo questo obiettivo con una registrazione di iscrizione entro 10 secondi. Tuttavia, la maggior parte di essi è progettata per utilizzare solo prompt vocali brevi. Le informazioni limitate nei prompt vocali brevi ostacolano significativamente le prestazioni dell'imitazione fine dell'identità. In questo articolo, introduciamo Mega-TTS 2, un modello TTS multi-relatore zero-shot generico in grado di sintetizzare il parlato per relatori non visti con prompt di lunghezza arbitraria. Nello specifico, 1) progettiamo un encoder timbrico multi-riferimento per estrarre informazioni timbriche da più discorsi di riferimento; 2) addestriamo un modello linguistico di prosodia con prompt vocali di lunghezza arbitraria; Con questi progetti, il nostro modello è adatto per prompt di diverse lunghezze, il che estende il limite superiore della qualità del parlato per lo zero-shot text-to-speech. Oltre ai prompt di lunghezza arbitraria, introduciamo prompt di fonte arbitraria, che sfruttano le probabilità derivate da più output di P-LLM per produrre una prosodia espressiva e controllata. Inoltre, proponiamo un modello di durata auto-regressivo a livello di fonema per introdurre capacità di apprendimento in-context nella modellazione della durata. Gli esperimenti dimostrano che il nostro metodo non solo potrebbe sintetizzare un parlato che preserva l'identità con un breve prompt di un relatore non visto, ma anche ottenere prestazioni migliorate con prompt vocali più lunghi. I campioni audio possono essere trovati su https://mega-tts.github.io/mega2_demo/.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato la loro capacità di apprendere in contesto, consentendo loro di eseguire varie attività basandosi su pochi esempi di input-output. Tuttavia, l'efficacia dell'apprendimento in contesto dipende fortemente dalla qualità degli esempi selezionati. In questo articolo, proponiamo un nuovo framework per addestrare iterativamente dei retriever densi in grado di identificare esempi di alta qualità per l'apprendimento in contesto degli LLM. Il nostro framework inizialmente addestra un modello di reward basato sul feedback degli LLM per valutare la qualità degli esempi candidati, seguito da una distillazione della conoscenza per addestrare un retriever denso basato su un bi-encoder. I nostri esperimenti su un insieme di 30 task dimostrano che il nostro framework migliora significativamente le prestazioni dell'apprendimento in contesto. Inoltre, mostriamo la capacità di generalizzazione del nostro framework su task non visti durante l'addestramento. Un'analisi approfondita rivela che il nostro modello migliora le prestazioni recuperando esempi con pattern simili, e i guadagni sono consistenti tra LLM di dimensioni variabili.
In questo lavoro, introduciamo un framework di apprendimento di rappresentazioni di caratteristiche auto-supervisionato, denominato DreamTeacher, che utilizza reti generative per il pre-addestramento di backbone di immagini per task downstream. Proponiamo di distillare la conoscenza da un modello generativo addestrato in backbone di immagini standard, che sono stati ben progettati per specifici task di percezione. Investigiamo due tipi di distillazione della conoscenza: 1) distillare le caratteristiche generative apprese nei backbone di immagini target come alternativa al pre-addestramento di questi backbone su grandi dataset etichettati come ImageNet, e 2) distillare etichette ottenute da reti generative con task head nei logit dei backbone target. Eseguiamo analisi approfondite su molteplici modelli generativi, benchmark di predizione densa e diversi regimi di pre-addestramento. Empiricamente, troviamo che il nostro DreamTeacher supera significativamente gli approcci esistenti di apprendimento di rappresentazioni auto-supervisionato in modo uniforme. Il pre-addestramento non supervisionato su ImageNet con DreamTeacher porta a miglioramenti significativi rispetto al pre-addestramento su classificazione ImageNet su dataset downstream, dimostrando che i modelli generativi, e in particolare i modelli generativi di diffusione, rappresentano un approccio promettente per l'apprendimento di rappresentazioni su dataset grandi e diversificati senza richiedere annotazioni manuali.
Affrontiamo il problema della generazione di movimenti 3D realistici di esseri umani che interagiscono con oggetti in una scena. La nostra idea chiave è creare un campo di interazione neurale associato a un oggetto specifico, che restituisce la distanza dal manifold di interazione valido dato come input una postura umana. Questo campo di interazione guida il campionamento di un modello di diffusione del movimento umano condizionato dall'oggetto, in modo da favorire contatti plausibili e semantica di affordance. Per supportare interazioni con dati scarsamente disponibili, proponiamo una pipeline automatizzata per la generazione di dati sintetici. A tal fine, inizializziamo un modello di movimento pre-addestrato, che possiede conoscenze pregresse sulle basi del movimento umano, con pose di ancoraggio specifiche per l'interazione estratte da dati limitati di motion capture. Utilizzando il nostro modello di diffusione guidato addestrato su dati sintetici generati, sintetizziamo movimenti realistici per azioni come sedersi e sollevare con diversi oggetti, superando approcci alternativi in termini di qualità del movimento e completamento riuscito dell'azione. Chiamiamo il nostro framework NIFTY: Neural Interaction Fields for Trajectory sYnthesis.