번역이 포함된 일일 선별된 AI 연구 논문
오디오북은 문학 작품의 접근성을 극적으로 향상시키고 독자 참여도를 높일 수 있습니다. 그러나 오디오북 제작에는 수백 시간의 인력이 투입되어야 하며, 이를 편집하고 출판하는 데도 상당한 노력이 필요합니다. 본 연구에서는 온라인 전자책에서 고품질 오디오북을 자동으로 생성할 수 있는 시스템을 제시합니다. 특히, 최신 신경망 기반 텍스트-음성 변환 기술을 활용하여 프로젝트 구텐베르크 전자책 컬렉션에서 수천 개의 인간 수준의 오픈 라이선스 오디오북을 제작 및 공개했습니다. 우리의 방법은 다양한 구조를 가진 광범위한 책 컬렉션에서 읽어야 할 적절한 부분을 식별할 수 있으며, 수백 권의 책을 병렬로 처리할 수 있습니다. 이 시스템은 사용자가 오디오북의 말하기 속도와 스타일, 감정적 억양을 맞춤 설정할 수 있도록 하며, 소량의 샘플 오디오를 사용하여 원하는 목소리와 일치시킬 수도 있습니다. 이 연구는 5천 개 이상의 오픈 라이선스 오디오북과 사용자가 빠르게 자신만의 맞춤형 오디오북을 만들 수 있는 인터랙티브 데모를 제공했습니다. 오디오북 컬렉션을 들어보려면 https://aka.ms/audiobook을 방문하세요.
희소 전문가 혼합 모델(Sparse Mixture-of-Experts, MoE)은 최근 특정 입력 토큰에 대해 모델 파라미터의 작은 부분집합만 활성화함으로써 모델 크기와 추론 효율성을 분리할 수 있는 능력으로 인해 인기를 얻고 있습니다. 이로 인해 희소 MoE는 전례 없는 확장성을 가능하게 하여 자연어 처리 및 컴퓨터 비전과 같은 다양한 분야에서 큰 성공을 거두었습니다. 본 연구에서는 희소 MoE를 활용하여 Vision Transformer(ViT)를 축소하여 자원이 제한된 비전 애플리케이션에 더 적합하게 만드는 방법을 탐구합니다. 이를 위해, 개별 패치가 아닌 전체 이미지를 전문가로 라우팅하는 단순화되고 모바일 친화적인 MoE 설계를 제안합니다. 또한, 라우터를 안내하기 위해 슈퍼 클래스 정보를 사용하는 안정적인 MoE 학습 절차를 제안합니다. 실험적으로, 우리의 희소 Mobile Vision MoE(V-MoE)가 해당하는 밀집 ViT보다 성능과 효율성 간의 더 나은 균형을 달성할 수 있음을 보여줍니다. 예를 들어, ViT-Tiny 모델의 경우, 우리의 Mobile V-MoE는 ImageNet-1k에서 밀집 버전보다 3.39% 더 나은 성능을 보입니다. 54M FLOPs의 추론 비용만을 가지는 더 작은 ViT 변형의 경우, 우리의 MoE는 4.66%의 성능 향상을 달성합니다.
본 논문에서는 고해상도 3D 아바타를 캡처하고 재구성하기 위한 새로운 프레임워크인 Tracking-free Relightable Avatar(TRAvatar)를 제안합니다. 기존 방법과 비교하여 TRAvatar는 더 실용적이고 효율적인 환경에서 작동합니다. 구체적으로, TRAvatar는 다양한 조명 조건 하에서 Light Stage에서 캡처된 동적 이미지 시퀀스로 학습되어, 다양한 장면에서 아바타의 사실적인 리라이팅과 실시간 애니메이션을 가능하게 합니다. 또한, TRAvatar는 추적 없이 아바타를 캡처할 수 있으며, 다양한 조명 조건에서 정확한 표면 추적의 필요성을 제거합니다. 우리의 기여는 두 가지로 요약됩니다: 첫째, 조명의 선형적 특성을 명시적으로 구축하고 이를 보장하는 새로운 네트워크 아키텍처를 제안합니다. 간단한 그룹 조명 캡처로 학습된 TRAvatar는 단일 순방향 전달로 실시간 외관을 예측할 수 있으며, 임의의 환경 맵 조명에서도 고품질의 리라이팅 효과를 달성합니다. 둘째, 이미지 시퀀스를 기반으로 얼굴 기하학과 리라이팅 가능한 외관을 처음부터 공동으로 최적화하며, 이 과정에서 추적이 암묵적으로 학습됩니다. 이 추적 없는 접근 방식은 다양한 조명 조건 하에서 프레임 간의 시간적 일관성을 확립하는 데 있어 견고성을 제공합니다. 광범위한 정성적 및 정량적 실험을 통해 우리의 프레임워크가 사실적인 아바타 애니메이션과 리라이팅에서 우수한 성능을 달성함을 입증합니다.