每日精選AI研究論文及翻譯
有聲書可以顯著提升文學作品的可接近性,增進讀者參與度。然而,製作、編輯和發行一本有聲書可能需要數百小時的人力。在這項研究中,我們提出了一個系統,可以自動從線上電子書生成高品質的有聲書。具體而言,我們利用最新的神經文本轉語音技術,從古酷登計畫的電子書收藏中創建並發行成千上萬個人類品質的開放授權有聲書。我們的方法可以識別適合閱讀各種結構多樣的書籍的電子書內容子集,並可以同時處理數百本書籍。我們的系統允許用戶自定有聲書的說話速度和風格、情感語調,甚至可以使用少量樣本音頻來匹配所需的聲音。這項工作貢獻了超過五千本開放授權有聲書,以及一個互動演示,讓用戶快速創建自己定制的有聲書。欲收聽有聲書收藏,請訪問https://aka.ms/audiobook。
稀疏混合專家模型(MoEs)最近因其能夠將模型大小與推理效率解耦而變得流行,它只會激活模型參數的一小部分,以處理任何給定的輸入標記。因此,稀疏MoEs實現了前所未有的可擴展性,在自然語言處理和計算機視覺等領域取得了巨大成功。在這項工作中,我們探索了使用稀疏MoEs來縮小視覺Transformer(ViTs)的規模,使其更適用於資源受限的視覺應用。為此,我們提出了一種簡化且適合移動設備的MoE設計,其中整個圖像而不是單個塊被路由到專家。我們還提出了一種穩定的MoE訓練程序,該程序使用超類信息來引導路由器。我們通過實驗表明,我們的稀疏Mobile Vision MoEs(V-MoEs)可以在性能和效率之間取得更好的折衷,優於相應的密集ViTs。例如,對於ViT-Tiny模型,我們的Mobile V-MoE在ImageNet-1k上的表現優於其密集對應模型3.39%。對於僅具有54M FLOPs推理成本的更小的ViT變體,我們的MoE實現了4.66%的改進。
本文提出了一個新穎的框架,稱為無追蹤可重燈化頭像(TRAvatar),用於捕捉和重建高保真度的3D頭像。相較於先前的方法,TRAvatar在更實用和高效的環境中運作。具體而言,TRAvatar是通過在不同照明條件下在光學舞台捕捉的動態圖像序列進行訓練,實現了多樣場景中頭像的逼真重燈和實時動畫。此外,TRAvatar允許無追蹤的頭像捕捉,並且無需在不同照明條件下進行準確的表面追蹤。我們的貢獻有兩個方面:首先,我們提出了一個新穎的網絡架構,明確建立在並確保照明的線性特性。在簡單的組光捕捉訓練下,TRAvatar可以通過單次前向傳播預測實時外觀,實現在任意環境地圖照明下的高質量重燈效果。其次,我們基於圖像序列從頭開始聯合優化面部幾何和可重燈外觀,其中追蹤是隱式學習的。這種無追蹤方法確保在不同照明條件下建立幀間時間對應的穩健性。大量定性和定量實驗證明,我們的框架在逼真頭像動畫和重燈方面實現了卓越性能。