Articoli di ricerca IA selezionati quotidianamente con traduzioni
Un audiolibro può migliorare drasticamente l'accessibilità di un'opera letteraria e aumentare il coinvolgimento del lettore. Tuttavia, la creazione, l'editing e la pubblicazione di audiolibri possono richiedere centinaia di ore di lavoro umano. In questo lavoro, presentiamo un sistema in grado di generare automaticamente audiolibri di alta qualità a partire da e-book online. In particolare, sfruttiamo i recenti progressi nella sintesi vocale neurale per creare e rilasciare migliaia di audiolibri di qualità umana con licenza aperta, tratti dalla collezione di e-book di Project Gutenberg. Il nostro metodo è in grado di identificare il sottoinsieme corretto di contenuti da leggere per una vasta raccolta di libri con strutture diverse e può operare su centinaia di libri in parallelo. Il nostro sistema consente agli utenti di personalizzare la velocità e lo stile di lettura di un audiolibro, l'intonazione emotiva e può persino adattarsi a una voce desiderata utilizzando una piccola quantità di campioni audio. Questo lavoro ha contribuito con oltre cinquemila audiolibri a licenza aperta e una demo interattiva che permette agli utenti di creare rapidamente i propri audiolibri personalizzati. Per ascoltare la collezione di audiolibri, visitare https://aka.ms/audiobook.
I modelli Sparse Mixture-of-Experts (MoE) hanno recentemente guadagnato popolarità grazie alla loro capacità di disaccoppiare la dimensione del modello dall'efficienza inferenziale, attivando solo un piccolo sottoinsieme dei parametri del modello per ogni token di input. In questo modo, i MoE sparsi hanno permesso una scalabilità senza precedenti, ottenendo enormi successi in domini come l'elaborazione del linguaggio naturale e la visione artificiale. In questo lavoro, esploriamo invece l'uso dei MoE sparsi per ridimensionare i Vision Transformers (ViT), rendendoli più attraenti per applicazioni di visione con risorse limitate. A tal fine, proponiamo un design semplificato e mobile-friendly dei MoE in cui intere immagini, anziché singoli patch, vengono instradati agli esperti. Proponiamo inoltre una procedura di addestramento stabile per i MoE che utilizza informazioni sulle super-classi per guidare il router. Dimostriamo empiricamente che i nostri Mobile Vision MoE sparsi (V-MoE) possono raggiungere un migliore compromesso tra prestazioni ed efficienza rispetto ai corrispondenti ViT densi. Ad esempio, per il modello ViT-Tiny, il nostro Mobile V-MoE supera la sua controparte densa del 3,39% su ImageNet-1k. Per una variante ancora più piccola di ViT con un costo inferenziale di soli 54M FLOP, il nostro MoE ottiene un miglioramento del 4,66%.
In questo articolo, proponiamo un nuovo framework, Tracking-free Relightable Avatar (TRAvatar), per la cattura e la ricostruzione di avatar 3D ad alta fedeltà. Rispetto ai metodi precedenti, TRAvatar opera in un contesto più pratico ed efficiente. Nello specifico, TRAvatar viene addestrato con sequenze di immagini dinamiche catturate in un Light Stage sotto diverse condizioni di illuminazione, consentendo un'illuminazione realistica e un'animazione in tempo reale per avatar in scenari diversi. Inoltre, TRAvatar permette la cattura di avatar senza tracciamento e elimina la necessità di un tracciamento accurato della superficie in condizioni di illuminazione variabili. I nostri contributi sono duplici: in primo luogo, proponiamo una nuova architettura di rete che si basa esplicitamente e garantisce il rispetto della natura lineare dell'illuminazione. Addestrato su semplici acquisizioni di luce di gruppo, TRAvatar può prevedere l'aspetto in tempo reale con un singolo passaggio in avanti, ottenendo effetti di illuminazione di alta qualità sotto mappe ambientali arbitrarie. In secondo luogo, ottimizziamo congiuntamente la geometria facciale e l'aspetto illuminabile da zero basandoci su sequenze di immagini, dove il tracciamento viene appreso implicitamente. Questo approccio senza tracciamento conferisce robustezza per stabilire corrispondenze temporali tra i fotogrammi sotto diverse condizioni di illuminazione. Esperimenti qualitativi e quantitativi estesi dimostrano che il nostro framework raggiunge prestazioni superiori per l'animazione fotorealistica degli avatar e l'illuminazione.