每日精选AI研究论文及翻译
有声书可以显著提高文学作品的可访问性和读者参与度。然而,制作、编辑和发布有声书可能需要数百小时的人力。在这项工作中,我们提出了一个系统,可以从在线电子书自动生成高质量的有声书。具体来说,我们利用了最新的神经文本转语音技术,从古腾堡计划的电子书集合中创建并发布了数千本人类品质的开放许可有声书。我们的方法可以识别要朗读的电子书内容的适当子集,适用于各种结构多样的书籍,并可以同时处理数百本书。我们的系统允许用户自定义有声书的朗读速度和风格、情感语调,甚至可以使用少量示例音频匹配所需的声音。这项工作贡献了五千多本开放许可有声书和一个交互式演示,让用户快速创建他们自己定制的有声书。欲收听有声书集合,请访问https://aka.ms/audiobook。
稀疏混合专家模型(MoEs)最近因其能够通过仅激活模型参数的一个小子集来将模型大小与推理效率分离而变得流行。因此,稀疏MoEs实现了前所未有的可扩展性,在自然语言处理和计算机视觉等领域取得了巨大成功。在这项工作中,我们探讨了使用稀疏MoEs来缩小视觉Transformer(ViTs)的规模,使其更适用于资源受限的视觉应用。为此,我们提出了一种简化且适合移动设备的MoE设计,其中整个图像而不是单独的补丁被路由到专家。我们还提出了一种稳定的MoE训练过程,该过程使用超类信息来指导路由器。我们凭经验证明,我们的稀疏移动视觉MoEs(V-MoEs)可以在性能和效率之间取得更好的折衷,优于相应的密集ViTs。例如,对于ViT-Tiny模型,我们的移动V-MoE在ImageNet-1k上的表现比其密集对应物高出3.39%。对于一个仅具有54M FLOPs推理成本的更小的ViT变体,我们的MoE实现了4.66%的改进。
本文提出了一种新颖的框架,称为无追踪可重光化头像(TRAvatar),用于捕捉和重建高保真度的3D头像。与先前的方法相比,TRAvatar在更实用和高效的环境中运行。具体而言,TRAvatar使用在光线舞台下捕获的动态图像序列进行训练,这些图像序列在不同光照条件下进行,从而实现头像在各种场景中的逼真重光和实时动画。此外,TRAvatar允许无追踪头像捕获,并消除了在不同光照条件下准确表面跟踪的需求。我们的贡献有两个方面:首先,我们提出了一种新颖的网络架构,明确建立并确保光照的线性特性。在简单的光组捕获训练下,TRAvatar可以通过单次前向传递预测实时外观,实现在任意环境贴图照明下的高质量重光效果。其次,我们基于图像序列从零开始联合优化面部几何和可重光外观,其中追踪是隐式学习的。这种无追踪方法增强了在不同光照条件下建立帧间时间对应关系的稳健性。大量定性和定量实验表明,我们的框架在逼真头像动画和重光方面实现了卓越性能。