HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

3 papers found

Creazione Automatica su Larga Scala di Audiolibri
Large-Scale Automatic Audiobook Creation

Sep 7

ByBrendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer

Un audiolibro può migliorare drasticamente l'accessibilità di un'opera letteraria e aumentare il coinvolgimento del lettore. Tuttavia, la creazione, l'editing e la pubblicazione di audiolibri possono richiedere centinaia di ore di lavoro umano. In questo lavoro, presentiamo un sistema in grado di generare automaticamente audiolibri di alta qualità a partire da e-book online. In particolare, sfruttiamo i recenti progressi nella sintesi vocale neurale per creare e rilasciare migliaia di audiolibri di qualità umana con licenza aperta, tratti dalla collezione di e-book di Project Gutenberg. Il nostro metodo è in grado di identificare il sottoinsieme corretto di contenuti da leggere per una vasta raccolta di libri con strutture diverse e può operare su centinaia di libri in parallelo. Il nostro sistema consente agli utenti di personalizzare la velocità e lo stile di lettura di un audiolibro, l'intonazione emotiva e può persino adattarsi a una voce desiderata utilizzando una piccola quantità di campioni audio. Questo lavoro ha contribuito con oltre cinquemila audiolibri a licenza aperta e una demo interattiva che permette agli utenti di creare rapidamente i propri audiolibri personalizzati. Per ascoltare la collezione di audiolibri, visitare https://aka.ms/audiobook.

Mobile V-MoEs: Ridimensionamento dei Vision Transformer tramite Miscele Sparse di Esperti
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

Sep 8

ByErik Daxberger, Floris Weers, Bowen Zhang, Tom Gunter, Ruoming Pang, Marcin Eichner, Michael Emmersberger, Yinfei Yang, Alexander Toshev, Xianzhi Du

I modelli Sparse Mixture-of-Experts (MoE) hanno recentemente guadagnato popolarità grazie alla loro capacità di disaccoppiare la dimensione del modello dall'efficienza inferenziale, attivando solo un piccolo sottoinsieme dei parametri del modello per ogni token di input. In questo modo, i MoE sparsi hanno permesso una scalabilità senza precedenti, ottenendo enormi successi in domini come l'elaborazione del linguaggio naturale e la visione artificiale. In questo lavoro, esploriamo invece l'uso dei MoE sparsi per ridimensionare i Vision Transformers (ViT), rendendoli più attraenti per applicazioni di visione con risorse limitate. A tal fine, proponiamo un design semplificato e mobile-friendly dei MoE in cui intere immagini, anziché singoli patch, vengono instradati agli esperti. Proponiamo inoltre una procedura di addestramento stabile per i MoE che utilizza informazioni sulle super-classi per guidare il router. Dimostriamo empiricamente che i nostri Mobile Vision MoE sparsi (V-MoE) possono raggiungere un migliore compromesso tra prestazioni ed efficienza rispetto ai corrispondenti ViT densi. Ad esempio, per il modello ViT-Tiny, il nostro Mobile V-MoE supera la sua controparte densa del 3,39% su ImageNet-1k. Per una variante ancora più piccola di ViT con un costo inferenziale di soli 54M FLOP, il nostro MoE ottiene un miglioramento del 4,66%.

Verso una cattura pratica di avatar rilucenti ad alta fedeltà
Towards Practical Capture of High-Fidelity Relightable Avatars

Sep 8

ByHaotian Yang, Mingwu Zheng, Wanquan Feng, Haibin Huang, Yu-Kun Lai, Pengfei Wan, Zhongyuan Wang, Chongyang Ma

In questo articolo, proponiamo un nuovo framework, Tracking-free Relightable Avatar (TRAvatar), per la cattura e la ricostruzione di avatar 3D ad alta fedeltà. Rispetto ai metodi precedenti, TRAvatar opera in un contesto più pratico ed efficiente. Nello specifico, TRAvatar viene addestrato con sequenze di immagini dinamiche catturate in un Light Stage sotto diverse condizioni di illuminazione, consentendo un'illuminazione realistica e un'animazione in tempo reale per avatar in scenari diversi. Inoltre, TRAvatar permette la cattura di avatar senza tracciamento e elimina la necessità di un tracciamento accurato della superficie in condizioni di illuminazione variabili. I nostri contributi sono duplici: in primo luogo, proponiamo una nuova architettura di rete che si basa esplicitamente e garantisce il rispetto della natura lineare dell'illuminazione. Addestrato su semplici acquisizioni di luce di gruppo, TRAvatar può prevedere l'aspetto in tempo reale con un singolo passaggio in avanti, ottenendo effetti di illuminazione di alta qualità sotto mappe ambientali arbitrarie. In secondo luogo, ottimizziamo congiuntamente la geometria facciale e l'aspetto illuminabile da zero basandoci su sequenze di immagini, dove il tracciamento viene appreso implicitamente. Questo approccio senza tracciamento conferisce robustezza per stabilire corrispondenze temporali tra i fotogrammi sotto diverse condizioni di illuminazione. Esperimenti qualitativi e quantitativi estesi dimostrano che il nostro framework raggiunge prestazioni superiori per l'animazione fotorealistica degli avatar e l'illuminazione.

Paper Giornalieri

Creazione Automatica su Larga Scala di AudiolibriLarge-Scale Automatic Audiobook Creation

Mobile V-MoEs: Ridimensionamento dei Vision Transformer tramite Miscele Sparse di EspertiMobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

Verso una cattura pratica di avatar rilucenti ad alta fedeltàTowards Practical Capture of High-Fidelity Relightable Avatars

Paper Giornalieri

Creazione Automatica su Larga Scala di AudiolibriLarge-Scale Automatic Audiobook Creation

Mobile V-MoEs: Ridimensionamento dei Vision Transformer tramite Miscele Sparse di EspertiMobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

Verso una cattura pratica di avatar rilucenti ad alta fedeltàTowards Practical Capture of High-Fidelity Relightable Avatars

Creazione Automatica su Larga Scala di Audiolibri
Large-Scale Automatic Audiobook Creation

Mobile V-MoEs: Ridimensionamento dei Vision Transformer tramite Miscele Sparse di Esperti
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

Verso una cattura pratica di avatar rilucenti ad alta fedeltà
Towards Practical Capture of High-Fidelity Relightable Avatars

Creazione Automatica su Larga Scala di Audiolibri
Large-Scale Automatic Audiobook Creation

Mobile V-MoEs: Ridimensionamento dei Vision Transformer tramite Miscele Sparse di Esperti
Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts

Verso una cattura pratica di avatar rilucenti ad alta fedeltà
Towards Practical Capture of High-Fidelity Relightable Avatars