Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Een luisterboek kan de toegankelijkheid van een literair werk aanzienlijk verbeteren en de betrokkenheid van lezers vergroten. Het maken, bewerken en publiceren van luisterboeken kan echter honderden uren menselijke inspanning vergen. In dit werk presenteren we een systeem dat automatisch hoogwaardige luisterboeken kan genereren uit online e-boeken. In het bijzonder maken we gebruik van recente vooruitgang in neurale tekst-naar-spraaktechnologie om duizenden luisterboeken van menselijke kwaliteit met een open licentie te creëren en vrij te geven uit de e-boekencollectie van Project Gutenberg. Onze methode kan het juiste deel van de e-boekinhoud identificeren dat moet worden voorgelezen voor een brede verzameling divers gestructureerde boeken en kan op honderden boeken tegelijkertijd werken. Ons systeem stelt gebruikers in staat om de spreeksnelheid en -stijl, emotionele intonatie van een luisterboek aan te passen en kan zelfs een gewenste stem nabootsen met behulp van een kleine hoeveelheid voorbeeldaudio. Dit werk heeft bijgedragen aan meer dan vijfduizend luisterboeken met een open licentie en een interactieve demo waarmee gebruikers snel hun eigen gepersonaliseerde luisterboeken kunnen maken. Om naar de luisterboekencollectie te luisteren, bezoek https://aka.ms/audiobook.
Sparse Mixture-of-Experts-modellen (MoEs) hebben recentelijk aan populariteit gewonnen vanwege hun vermogen om modelgrootte te ontkoppelen van inferentie-efficiëntie door slechts een kleine subset van de modelparameters te activeren voor elk gegeven invoertoken. Hierdoor hebben sparse MoEs een ongekende schaalbaarheid mogelijk gemaakt, wat heeft geleid tot enorme successen in domeinen zoals natuurlijke taalverwerking en computervisie. In dit werk onderzoeken we in plaats daarvan het gebruik van sparse MoEs om Vision Transformers (ViTs) te verkleinen, zodat ze aantrekkelijker worden voor visuele toepassingen met beperkte middelen. Hiertoe stellen we een vereenvoudigd en mobielvriendelijk MoE-ontwerp voor, waarbij hele afbeeldingen in plaats van individuele patches naar de experts worden gerouteerd. We introduceren ook een stabiele MoE-trainingsprocedure die superklasse-informatie gebruikt om de router te begeleiden. We tonen empirisch aan dat onze sparse Mobile Vision MoEs (V-MoEs) een betere balans tussen prestaties en efficiëntie kunnen bereiken dan de corresponderende dense ViTs. Voor het ViT-Tiny-model presteert onze Mobile V-MoE bijvoorbeeld 3,39% beter op ImageNet-1k. Voor een nog kleinere ViT-variant met slechts 54M FLOPs inferentiekosten behaalt onze MoE een verbetering van 4,66%.
In dit artikel introduceren we een nieuw raamwerk, Tracking-free Relightable Avatar (TRAvatar), voor het vastleggen en reconstrueren van hoogwaardige 3D-avatars. In vergelijking met eerdere methoden werkt TRAvatar in een praktischer en efficiëntere setting. Specifiek wordt TRAvatar getraind met dynamische beeldsequenties die zijn vastgelegd in een Light Stage onder verschillende lichtomstandigheden, waardoor realistische herbelichting en real-time animatie van avatars in diverse scènes mogelijk wordt. Bovendien maakt TRAvatar het mogelijk om avatars vast te leggen zonder tracking en elimineert het de noodzaak voor nauwkeurige oppervlaktetracking onder variërende lichtomstandigheden. Onze bijdragen zijn tweeledig: Ten eerste stellen we een nieuw netwerkarchitectuur voor die expliciet voortbouwt op en de lineaire aard van belichting waarborgt. Getraind op eenvoudige groepslichtopnames kan TRAvatar het uiterlijk in real-time voorspellen met een enkele voorwaartse doorloop, waardoor hoogwaardige herbelichtingseffecten worden bereikt onder belichting van willekeurige omgevingskaarten. Ten tweede optimaliseren we gezamenlijk de gezichtsgeometrie en herbelichtbare verschijning vanaf nul op basis van beeldsequenties, waarbij de tracking impliciet wordt geleerd. Deze tracking-free aanpak biedt robuustheid voor het vaststellen van temporele correspondenties tussen frames onder verschillende lichtomstandigheden. Uitgebreide kwalitatieve en kwantitatieve experimenten tonen aan dat ons raamwerk superieure prestaties levert voor fotorealistische avataranimatie en herbelichting.