Artículos de investigación en IA seleccionados diariamente con traducciones
Un audiolibro puede mejorar drásticamente la accesibilidad de una obra literaria y aumentar el compromiso del lector. Sin embargo, la creación, edición y publicación de audiolibros puede requerir cientos de horas de esfuerzo humano. En este trabajo, presentamos un sistema capaz de generar automáticamente audiolibros de alta calidad a partir de libros electrónicos en línea. En particular, aprovechamos los avances recientes en la síntesis de voz neuronal para crear y publicar miles de audiolibros de calidad humana con licencia abierta, extraídos de la colección de libros electrónicos de Project Gutenberg. Nuestro método puede identificar el subconjunto adecuado del contenido de un libro electrónico para leerlo en una amplia colección de libros con estructuras diversas, y puede procesar cientos de libros en paralelo. Nuestro sistema permite a los usuarios personalizar la velocidad y el estilo de habla de un audiolibro, la entonación emocional, e incluso puede adaptarse a una voz deseada utilizando una pequeña cantidad de audio de muestra. Este trabajo ha contribuido con más de cinco mil audiolibros de licencia abierta y una demostración interactiva que permite a los usuarios crear rápidamente sus propios audiolibros personalizados. Para escuchar la colección de audiolibros, visite https://aka.ms/audiobook.
Los modelos de Mezcla de Expertos Escasos (MoEs, por sus siglas en inglés) han ganado reciente popularidad debido a su capacidad para desacoplar el tamaño del modelo de la eficiencia en la inferencia, activando solo un subconjunto pequeño de los parámetros del modelo para cualquier token de entrada. Como resultado, los MoEs escasos han permitido una escalabilidad sin precedentes, logrando éxitos significativos en dominios como el procesamiento del lenguaje natural y la visión por computadora. En este trabajo, en cambio, exploramos el uso de MoEs escasos para reducir el tamaño de los Transformers de Visión (ViTs) y hacerlos más atractivos para aplicaciones de visión con recursos limitados. Para ello, proponemos un diseño simplificado y compatible con dispositivos móviles en el que imágenes completas, en lugar de parches individuales, son enrutadas a los expertos. También proponemos un procedimiento de entrenamiento estable para MoEs que utiliza información de superclases para guiar el enrutador. Demostramos empíricamente que nuestros MoEs Escasos de Visión Móvil (V-MoEs) pueden lograr un mejor equilibrio entre rendimiento y eficiencia que los ViTs densos correspondientes. Por ejemplo, para el modelo ViT-Tiny, nuestro V-MoE Móvil supera a su contraparte densa en un 3.39% en ImageNet-1k. Para una variante aún más pequeña de ViT con un costo de inferencia de solo 54M FLOPs, nuestro MoE logra una mejora del 4.66%.
En este artículo, proponemos un marco novedoso, Tracking-free Relightable Avatar (TRAvatar), para capturar y reconstruir avatares 3D de alta fidelidad. En comparación con métodos anteriores, TRAvatar funciona en un entorno más práctico y eficiente. Específicamente, TRAvatar se entrena con secuencias de imágenes dinámicas capturadas en un Light Stage bajo diversas condiciones de iluminación, lo que permite una iluminación realista y animación en tiempo real para avatares en escenas variadas. Además, TRAvatar permite la captura de avatares sin seguimiento y elimina la necesidad de un seguimiento preciso de la superficie bajo condiciones de iluminación cambiantes. Nuestras contribuciones son dobles: Primero, proponemos una arquitectura de red novedosa que se basa explícitamente y asegura el cumplimiento de la naturaleza lineal de la iluminación. Entrenado con capturas de luz de grupo simples, TRAvatar puede predecir la apariencia en tiempo real con un único paso hacia adelante, logrando efectos de iluminación de alta calidad bajo iluminaciones de mapas de entorno arbitrarios. Segundo, optimizamos conjuntamente la geometría facial y la apariencia relumbrante desde cero basándonos en secuencias de imágenes, donde el seguimiento se aprende implícitamente. Este enfoque sin seguimiento aporta robustez para establecer correspondencias temporales entre fotogramas bajo diferentes condiciones de iluminación. Experimentos cualitativos y cuantitativos extensos demuestran que nuestro marco logra un rendimiento superior para la animación y reluminación de avatares fotorrealistas.