Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Zero-shot text-to-speech heeft als doel stemmen te synthetiseren met onbekende spraakprompts. Eerdere grootschalige multispeaker TTS-modellen hebben dit doel succesvol bereikt met een ingeschreven opname van minder dan 10 seconden. De meeste van deze modellen zijn echter ontworpen om alleen korte spraakprompts te gebruiken. De beperkte informatie in korte spraakprompts belemmert aanzienlijk de prestaties van fijnmazige identiteitsimitatie. In dit artikel introduceren we Mega-TTS 2, een generiek zero-shot multispeaker TTS-model dat in staat is spraak te synthetiseren voor onbekende sprekers met prompts van willekeurige lengte. Specifiek 1) ontwerpen we een multi-referentie timbre-encoder om timbre-informatie uit meerdere referentiespraken te extraheren; 2) trainen we een prosodie-taalmodel met spraakprompts van willekeurige lengte; Met deze ontwerpen is ons model geschikt voor prompts van verschillende lengtes, wat de bovengrens van de spraakkwaliteit voor zero-shot text-to-speech verlegt. Naast prompts van willekeurige lengte introduceren we prompts van willekeurige bronnen, die gebruikmaken van de waarschijnlijkheden afgeleid uit meerdere P-LLM-uitvoeringen om expressieve en gecontroleerde prosodie te produceren. Bovendien stellen we een fonemniveau autoregressief duurmodel voor om in-context leermogelijkheden te introduceren in duurmodellering. Experimenten tonen aan dat onze methode niet alleen identiteitsbewarende spraak kan synthetiseren met een korte prompt van een onbekende spreker, maar ook verbeterde prestaties kan bereiken met langere spraakprompts. Audiovoorbeelden zijn te vinden op https://mega-tts.github.io/mega2_demo/.
Grote taalmodellen (LLMs) hebben hun vermogen getoond om in-context te leren, waardoor ze diverse taken kunnen uitvoeren op basis van enkele invoer-uitvoervoorbeelden. De effectiviteit van in-context leren is echter sterk afhankelijk van de kwaliteit van de geselecteerde voorbeelden. In dit artikel stellen we een nieuw raamwerk voor om iteratief dense retrievers te trainen die hoogwaardige in-contextvoorbeelden voor LLMs kunnen identificeren. Ons raamwerk traint eerst een beloningsmodel op basis van feedback van het LLM om de kwaliteit van kandidaatvoorbeelden te evalueren, gevolgd door kennisdistillatie om een bi-encoder gebaseerde dense retriever te trainen. Onze experimenten op een reeks van 30 taken tonen aan dat ons raamwerk de prestaties van in-context leren aanzienlijk verbetert. Bovendien laten we zien dat ons raamwerk generalisatievermogen heeft naar onbekende taken tijdens de training. Een diepgaande analyse onthult dat ons model de prestaties verbetert door voorbeelden met vergelijkbare patronen op te halen, en dat de verbeteringen consistent zijn over LLMs van verschillende groottes.
In dit werk introduceren we een zelfgesuperviseerd framework voor het leren van kenmerkrepresentaties, DreamTeacher, dat generatieve netwerken gebruikt om downstream beeldbackbones voor te trainen. We stellen voor om kennis te destilleren uit een getraind generatief model naar standaard beeldbackbones die goed zijn ontworpen voor specifieke perceptietaken. We onderzoeken twee soorten kennisdestillatie: 1) het destilleren van geleerde generatieve kenmerken naar doelbeeldbackbones als alternatief voor het vooraf trainen van deze backbones op grote gelabelde datasets zoals ImageNet, en 2) het destilleren van labels verkregen uit generatieve netwerken met taakkoppen naar de logits van doelbackbones. We voeren uitgebreide analyses uit op meerdere generatieve modellen, benchmarks voor dichte voorspellingen, en verschillende voorafgaande trainingsregimes. Empirisch vinden we dat onze DreamTeacher aanzienlijk beter presteert dan bestaande zelfgesuperviseerde benaderingen voor het leren van representaties. Ongecontroleerde voorafgaande training op ImageNet met DreamTeacher leidt tot significante verbeteringen ten opzichte van voorafgaande training op ImageNet-classificatie op downstream datasets, wat generatieve modellen, en specifiek diffusiegeneratieve modellen, toont als een veelbelovende benadering voor het leren van representaties op grote, diverse datasets zonder handmatige annotatie.
We behandelen het probleem van het genereren van realistische 3D-bewegingen van mensen die interacteren met objecten in een scène. Onze kernidee is het creëren van een neuraal interactieveld dat aan een specifiek object is gekoppeld, dat de afstand tot het geldige interactiemanifold uitvoert gegeven een menselijke pose als invoer. Dit interactieveld begeleidt de bemonstering van een op objecten geconditioneerd menselijk bewegingsdiffusiemodel, om plausibele contacten en affordance-semantiek te bevorderen. Om interacties met beperkt beschikbare data te ondersteunen, stellen we een geautomatiseerde synthetische datapijplijn voor. Hiervoor initialiseren we een vooraf getraind bewegingsmodel, dat voorkennis heeft over de basisprincipes van menselijke beweging, met interactiespecifieke ankerposities die zijn geëxtraheerd uit beperkte motion capture-data. Met behulp van ons begeleide diffusiemodel dat is getraind op gegenereerde synthetische data, synthetiseren we realistische bewegingen voor zitten en tillen met verschillende objecten, waarbij we alternatieve benaderingen overtreffen in termen van bewegingskwaliteit en succesvolle actievoltooiing. We noemen ons framework NIFTY: Neural Interaction Fields for Trajectory sYnthesis.