Articles de recherche en IA sélectionnés quotidiennement avec traductions
Un livre audio peut considérablement améliorer l'accessibilité d'une œuvre littéraire et renforcer l'engagement des lecteurs. Cependant, la création, l'édition et la publication de livres audio peuvent nécessiter des centaines d'heures de travail humain. Dans ce travail, nous présentons un système capable de générer automatiquement des livres audio de haute qualité à partir de livres électroniques en ligne. En particulier, nous exploitons les récentes avancées en synthèse vocale neuronale pour créer et diffuser des milliers de livres audio de qualité humaine sous licence ouverte, issus de la collection de livres électroniques du Projet Gutenberg. Notre méthode permet d'identifier la partie pertinente du contenu à lire pour une vaste collection de livres aux structures variées et peut traiter des centaines de livres en parallèle. Notre système permet aux utilisateurs de personnaliser la vitesse et le style de lecture d'un livre audio, l'intonation émotionnelle, et peut même correspondre à une voix souhaitée en utilisant un petit échantillon audio. Ce travail a contribué à la création de plus de cinq mille livres audio sous licence ouverte et propose une démonstration interactive permettant aux utilisateurs de créer rapidement leurs propres livres audio personnalisés. Pour écouter la collection de livres audio, visitez https://aka.ms/audiobook.
Les modèles Sparse Mixture-of-Experts (MoEs) ont récemment gagné en popularité grâce à leur capacité à découpler la taille du modèle de l'efficacité de l'inférence, en n'activant qu'un petit sous-ensemble des paramètres du modèle pour chaque token d'entrée. Ainsi, les MoEs parcimonieux ont permis une scalabilité sans précédent, conduisant à des succès remarquables dans des domaines tels que le traitement du langage naturel et la vision par ordinateur. Dans ce travail, nous explorons plutôt l'utilisation des MoEs parcimonieux pour réduire la taille des Vision Transformers (ViTs), les rendant ainsi plus attractifs pour les applications de vision aux ressources limitées. À cette fin, nous proposons une conception simplifiée et adaptée aux mobiles où des images entières, plutôt que des patches individuels, sont acheminées vers les experts. Nous proposons également une procédure d'entraînement stable pour les MoEs qui utilise des informations de super-classes pour guider le routeur. Nous démontrons empiriquement que nos MoEs parcimonieux pour la vision mobile (V-MoEs) peuvent atteindre un meilleur compromis entre performance et efficacité que les ViTs denses correspondants. Par exemple, pour le modèle ViT-Tiny, notre V-MoE mobile surpasse son homologue dense de 3,39 % sur ImageNet-1k. Pour une variante encore plus petite de ViT avec un coût d'inférence de seulement 54M FLOPs, notre MoE réalise une amélioration de 4,66 %.
Dans cet article, nous proposons un nouveau cadre, le Tracking-free Relightable Avatar (TRAvatar), pour la capture et la reconstruction d'avatars 3D haute fidélité. Par rapport aux méthodes précédentes, TRAvatar fonctionne dans un cadre plus pratique et efficace. Plus précisément, TRAvatar est entraîné avec des séquences d'images dynamiques capturées dans un Light Stage sous diverses conditions d'éclairage, permettant un éclairage réaliste et une animation en temps réel pour les avatars dans des scènes variées. De plus, TRAvatar permet une capture d'avatar sans suivi et élimine le besoin d'un suivi précis de la surface sous des conditions d'éclairage variables. Nos contributions sont doubles : Premièrement, nous proposons une nouvelle architecture de réseau qui s'appuie explicitement sur et assure la satisfaction de la nature linéaire de l'éclairage. Entraîné sur des captures de lumière de groupe simples, TRAvatar peut prédire l'apparence en temps réel avec une seule passe avant, obtenant des effets d'éclairage de haute qualité sous des illuminations de cartes d'environnement arbitraires. Deuxièmement, nous optimisons conjointement la géométrie faciale et l'apparence éclairable à partir de zéro basée sur des séquences d'images, où le suivi est implicitement appris. Cette approche sans suivi apporte une robustesse pour établir des correspondances temporelles entre les images sous différentes conditions d'éclairage. Des expériences qualitatives et quantitatives approfondies démontrent que notre cadre atteint des performances supérieures pour l'animation et l'éclairage photoréalistes des avatars.