HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

4 papers found

Mega-TTS 2: Zero-Shot Text-to-Spraak met Willekeurige Lengte Spraakprompts
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

Jul 14

ByZiyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao

Zero-shot text-to-speech heeft als doel stemmen te synthetiseren met onbekende spraakprompts. Eerdere grootschalige multispeaker TTS-modellen hebben dit doel succesvol bereikt met een ingeschreven opname van minder dan 10 seconden. De meeste van deze modellen zijn echter ontworpen om alleen korte spraakprompts te gebruiken. De beperkte informatie in korte spraakprompts belemmert aanzienlijk de prestaties van fijnmazige identiteitsimitatie. In dit artikel introduceren we Mega-TTS 2, een generiek zero-shot multispeaker TTS-model dat in staat is spraak te synthetiseren voor onbekende sprekers met prompts van willekeurige lengte. Specifiek 1) ontwerpen we een multi-referentie timbre-encoder om timbre-informatie uit meerdere referentiespraken te extraheren; 2) trainen we een prosodie-taalmodel met spraakprompts van willekeurige lengte; Met deze ontwerpen is ons model geschikt voor prompts van verschillende lengtes, wat de bovengrens van de spraakkwaliteit voor zero-shot text-to-speech verlegt. Naast prompts van willekeurige lengte introduceren we prompts van willekeurige bronnen, die gebruikmaken van de waarschijnlijkheden afgeleid uit meerdere P-LLM-uitvoeringen om expressieve en gecontroleerde prosodie te produceren. Bovendien stellen we een fonemniveau autoregressief duurmodel voor om in-context leermogelijkheden te introduceren in duurmodellering. Experimenten tonen aan dat onze methode niet alleen identiteitsbewarende spraak kan synthetiseren met een korte prompt van een onbekende spreker, maar ook verbeterde prestaties kan bereiken met langere spraakprompts. Audiovoorbeelden zijn te vinden op https://mega-tts.github.io/mega2_demo/.

Leren om in-context voorbeelden op te halen voor grote taalmodellen
Learning to Retrieve In-Context Examples for Large Language Models

Jul 14

ByLiang Wang, Nan Yang, Furu Wei

Grote taalmodellen (LLMs) hebben hun vermogen getoond om in-context te leren, waardoor ze diverse taken kunnen uitvoeren op basis van enkele invoer-uitvoervoorbeelden. De effectiviteit van in-context leren is echter sterk afhankelijk van de kwaliteit van de geselecteerde voorbeelden. In dit artikel stellen we een nieuw raamwerk voor om iteratief dense retrievers te trainen die hoogwaardige in-contextvoorbeelden voor LLMs kunnen identificeren. Ons raamwerk traint eerst een beloningsmodel op basis van feedback van het LLM om de kwaliteit van kandidaatvoorbeelden te evalueren, gevolgd door kennisdistillatie om een bi-encoder gebaseerde dense retriever te trainen. Onze experimenten op een reeks van 30 taken tonen aan dat ons raamwerk de prestaties van in-context leren aanzienlijk verbetert. Bovendien laten we zien dat ons raamwerk generalisatievermogen heeft naar onbekende taken tijdens de training. Een diepgaande analyse onthult dat ons model de prestaties verbetert door voorbeelden met vergelijkbare patronen op te halen, en dat de verbeteringen consistent zijn over LLMs van verschillende groottes.

DreamTeacher: Pretraining van beeldbackbones met diepe generatieve modellen
DreamTeacher: Pretraining Image Backbones with Deep Generative Models

Jul 14

ByDaiqing Li, Huan Ling, Amlan Kar, David Acuna, Seung Wook Kim, Karsten Kreis, Antonio Torralba, Sanja Fidler

In dit werk introduceren we een zelfgesuperviseerd framework voor het leren van kenmerkrepresentaties, DreamTeacher, dat generatieve netwerken gebruikt om downstream beeldbackbones voor te trainen. We stellen voor om kennis te destilleren uit een getraind generatief model naar standaard beeldbackbones die goed zijn ontworpen voor specifieke perceptietaken. We onderzoeken twee soorten kennisdestillatie: 1) het destilleren van geleerde generatieve kenmerken naar doelbeeldbackbones als alternatief voor het vooraf trainen van deze backbones op grote gelabelde datasets zoals ImageNet, en 2) het destilleren van labels verkregen uit generatieve netwerken met taakkoppen naar de logits van doelbackbones. We voeren uitgebreide analyses uit op meerdere generatieve modellen, benchmarks voor dichte voorspellingen, en verschillende voorafgaande trainingsregimes. Empirisch vinden we dat onze DreamTeacher aanzienlijk beter presteert dan bestaande zelfgesuperviseerde benaderingen voor het leren van representaties. Ongecontroleerde voorafgaande training op ImageNet met DreamTeacher leidt tot significante verbeteringen ten opzichte van voorafgaande training op ImageNet-classificatie op downstream datasets, wat generatieve modellen, en specifiek diffusiegeneratieve modellen, toont als een veelbelovende benadering voor het leren van representaties op grote, diverse datasets zonder handmatige annotatie.

NIFTY: Neurale Object Interactie Velden voor Geleide Menselijke Bewegingssynthese
NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis

Jul 14

ByNilesh Kulkarni, Davis Rempe, Kyle Genova, Abhijit Kundu, Justin Johnson, David Fouhey, Leonidas Guibas

We behandelen het probleem van het genereren van realistische 3D-bewegingen van mensen die interacteren met objecten in een scène. Onze kernidee is het creëren van een neuraal interactieveld dat aan een specifiek object is gekoppeld, dat de afstand tot het geldige interactiemanifold uitvoert gegeven een menselijke pose als invoer. Dit interactieveld begeleidt de bemonstering van een op objecten geconditioneerd menselijk bewegingsdiffusiemodel, om plausibele contacten en affordance-semantiek te bevorderen. Om interacties met beperkt beschikbare data te ondersteunen, stellen we een geautomatiseerde synthetische datapijplijn voor. Hiervoor initialiseren we een vooraf getraind bewegingsmodel, dat voorkennis heeft over de basisprincipes van menselijke beweging, met interactiespecifieke ankerposities die zijn geëxtraheerd uit beperkte motion capture-data. Met behulp van ons begeleide diffusiemodel dat is getraind op gegenereerde synthetische data, synthetiseren we realistische bewegingen voor zitten en tillen met verschillende objecten, waarbij we alternatieve benaderingen overtreffen in termen van bewegingskwaliteit en succesvolle actievoltooiing. We noemen ons framework NIFTY: Neural Interaction Fields for Trajectory sYnthesis.

Mega-TTS 2: Zero-Shot Text-to-Spraak met Willekeurige Lengte Spraakprompts
Mega-TTS 2: Zero-Shot Text-to-Speech with Arbitrary Length Speech Prompts

Jul 14

ByZiyue Jiang, Jinglin Liu, Yi Ren, Jinzheng He, Chen Zhang, Zhenhui Ye, Pengfei Wei, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao