Ежедневно отобранные исследовательские статьи по ИИ с переводами
Аудиокниги могут значительно повысить доступность литературных произведений и улучшить вовлеченность читателей. Однако создание, редактирование и публикация аудиокниг могут занимать сотни часов человеческого труда. В данной работе мы представляем систему, способную автоматически генерировать высококачественные аудиокниги из электронных книг, доступных в интернете. В частности, мы используем последние достижения в области нейронного синтеза речи для создания и выпуска тысяч аудиокниг с качеством, сопоставимым с человеческим, на основе коллекции электронных книг Project Gutenberg. Наш метод позволяет определить правильный поднабор содержимого электронной книги для чтения в широком спектре разнообразно структурированных книг и может обрабатывать сотни книг параллельно. Наша система позволяет пользователям настраивать скорость и стиль речи, эмоциональную интонацию аудиокниги и даже подбирать голос, соответствующий желаемому, с использованием небольшого образца аудио. Эта работа внесла вклад в создание более пяти тысяч аудиокниг с открытой лицензией и интерактивной демонстрации, позволяющей пользователям быстро создавать свои собственные настраиваемые аудиокниги. Чтобы прослушать коллекцию аудиокниг, посетите https://aka.ms/audiobook.
Разреженные модели смеси экспертов (MoE) в последнее время приобрели популярность благодаря своей способности разделять размер модели и эффективность вывода, активируя лишь небольшое подмножество параметров модели для каждого входного токена. Таким образом, разреженные MoE обеспечили беспрецедентную масштабируемость, что привело к значительным успехам в таких областях, как обработка естественного языка и компьютерное зрение. В данной работе мы исследуем использование разреженных MoE для уменьшения масштаба Vision Transformers (ViT), чтобы сделать их более привлекательными для ресурсоемких приложений в области компьютерного зрения. Для этого мы предлагаем упрощенный и мобильно-ориентированный дизайн MoE, в котором целые изображения, а не отдельные патчи, направляются к экспертам. Мы также предлагаем стабильную процедуру обучения MoE, которая использует информацию о суперклассах для управления маршрутизатором. Эмпирически мы показываем, что наши разреженные мобильные Vision MoE (V-MoE) могут достичь лучшего баланса между производительностью и эффективностью по сравнению с соответствующими плотными ViT. Например, для модели ViT-Tiny наш мобильный V-MoE превосходит свою плотную версию на 3,39% на наборе данных ImageNet-1k. Для еще меньшего варианта ViT с затратами на вывод всего 54 млн FLOPs наш MoE достигает улучшения на 4,66%.
В данной статье мы представляем новую структуру под названием Tracking-free Relightable Avatar (TRAvatar), предназначенную для захвата и реконструкции высококачественных 3D-аватаров. В отличие от предыдущих методов, TRAvatar работает в более практичной и эффективной среде. В частности, TRAvatar обучается на динамических последовательностях изображений, снятых в Light Stage при различных условиях освещения, что позволяет реалистично изменять освещение и анимировать аватары в реальном времени в разнообразных сценах. Кроме того, TRAvatar позволяет захватывать аватары без необходимости отслеживания и устраняет потребность в точном отслеживании поверхности при изменяющихся условиях освещения. Наш вклад заключается в следующем: во-первых, мы предлагаем новую архитектуру сети, которая явно учитывает и обеспечивает выполнение линейной природы освещения. Обучаясь на простых групповых снимках освещения, TRAvatar может предсказывать внешний вид в реальном времени с помощью одного прямого прохода, достигая высококачественных эффектов изменения освещения при произвольных картах окружения. Во-вторых, мы совместно оптимизируем геометрию лица и переосвещаемый внешний вид с нуля на основе последовательностей изображений, где отслеживание неявно изучается. Этот подход без отслеживания обеспечивает устойчивость при установлении временных соответствий между кадрами при различных условиях освещения. Многочисленные качественные и количественные эксперименты демонстрируют, что наша структура достигает превосходных результатов в фотореалистичной анимации и изменении освещения аватаров.