Artigos de pesquisa em IA selecionados diariamente com traduções
Um audiolivro pode melhorar drasticamente a acessibilidade de uma obra literária e aumentar o engajamento do leitor. No entanto, a criação, edição e publicação de audiolivros podem demandar centenas de horas de esforço humano. Neste trabalho, apresentamos um sistema capaz de gerar automaticamente audiolivros de alta qualidade a partir de e-books online. Em particular, aproveitamos os avanços recentes em síntese de fala neural para criar e disponibilizar milhares de audiolivros de qualidade humana com licença aberta, extraídos da coleção de e-books do Project Gutenberg. Nosso método é capaz de identificar o subconjunto adequado do conteúdo do e-book para leitura em uma ampla coleção de livros com estruturas diversas e pode operar em centenas de livros em paralelo. Nosso sistema permite que os usuários personalizem a velocidade e o estilo de fala do audiolivro, a entonação emocional e até mesmo correspondam a uma voz desejada usando uma pequena quantidade de áudio de amostra. Este trabalho contribuiu com mais de cinco mil audiolivros de licença aberta e uma demonstração interativa que permite aos usuários criar rapidamente seus próprios audiolivros personalizados. Para ouvir a coleção de audiolivros, visite https://aka.ms/audiobook.
Modelos de Mistura de Especialistas Esparsos (MoEs, do inglês Sparse Mixture-of-Experts) têm ganhado popularidade recentemente devido à sua capacidade de desacoplar o tamanho do modelo da eficiência de inferência, ativando apenas um pequeno subconjunto dos parâmetros do modelo para qualquer token de entrada. Dessa forma, os MoEs esparsos permitiram uma escalabilidade sem precedentes, resultando em sucessos impressionantes em domínios como processamento de linguagem natural e visão computacional. Neste trabalho, exploramos o uso de MoEs esparsos para reduzir a escala de Transformers de Visão (ViTs, do inglês Vision Transformers), tornando-os mais atraentes para aplicações de visão com recursos limitados. Para isso, propomos um design simplificado e adequado para dispositivos móveis, no qual imagens inteiras, em vez de patches individuais, são direcionadas aos especialistas. Também propomos um procedimento de treinamento estável para MoEs que utiliza informações de superclasses para guiar o roteador. Empiricamente, demonstramos que nossos MoEs de Visão Móvel Esparsos (V-MoEs) podem alcançar um melhor equilíbrio entre desempenho e eficiência em comparação com os ViTs densos correspondentes. Por exemplo, para o modelo ViT-Tiny, nosso V-MoE Móvel supera sua contraparte densa em 3,39% no ImageNet-1k. Para uma variante ainda menor de ViT com custo de inferência de apenas 54M FLOPs, nosso MoE alcança uma melhoria de 4,66%.
Neste artigo, propomos uma nova estrutura, o Tracking-free Relightable Avatar (TRAvatar), para captura e reconstrução de avatares 3D de alta fidelidade. Em comparação com métodos anteriores, o TRAvatar opera em um cenário mais prático e eficiente. Especificamente, o TRAvatar é treinado com sequências de imagens dinâmicas capturadas em um Light Stage sob diversas condições de iluminação, permitindo a reiluminação realista e a animação em tempo real de avatares em diversos cenários. Além disso, o TRAvatar permite a captura de avatares sem rastreamento e elimina a necessidade de rastreamento preciso da superfície sob condições variáveis de iluminação. Nossas contribuições são duplas: Primeiro, propomos uma nova arquitetura de rede que explicitamente se baseia e garante a satisfação da natureza linear da iluminação. Treinado em capturas simples de luz em grupo, o TRAvatar pode prever a aparência em tempo real com uma única passagem direta, alcançando efeitos de reiluminação de alta qualidade sob iluminações de mapas de ambiente arbitrários. Segundo, otimizamos conjuntamente a geometria facial e a aparência reiluminável a partir do zero com base em sequências de imagens, onde o rastreamento é implicitamente aprendido. Essa abordagem sem rastreamento traz robustez para estabelecer correspondências temporais entre quadros sob diferentes condições de iluminação. Experimentos qualitativos e quantitativos extensivos demonstram que nossa estrutura alcança desempenho superior para animação e reiluminação fotorealista de avatares.