번역이 포함된 일일 선별된 AI 연구 논문
제로샷 텍스트-투-스피치(Zero-shot text-to-speech)는 보이지 않은 음성 프롬프트로 음성을 합성하는 것을 목표로 합니다. 이전의 대규모 다중 화자 TTS 모델들은 10초 이내의 등록된 녹음을 통해 이 목표를 성공적으로 달성했습니다. 그러나 대부분의 모델은 짧은 음성 프롬프트만을 활용하도록 설계되었습니다. 짧은 음성 프롬프트의 제한된 정보는 세밀한 정체성 모방의 성능을 크게 저해합니다. 본 논문에서는 임의 길이의 프롬프트로 보이지 않은 화자의 음성을 합성할 수 있는 일반적인 제로샷 다중 화자 TTS 모델인 Mega-TTS 2를 소개합니다. 구체적으로, 우리는 1) 다중 참조 음색 인코더를 설계하여 여러 참조 음성에서 음색 정보를 추출하고, 2) 임의 길이의 음성 프롬프트로 프로소디 언어 모델을 훈련합니다. 이러한 설계를 통해 우리의 모델은 다양한 길이의 프롬프트에 적합하며, 제로샷 텍스트-투-스피치의 음질 상한선을 확장합니다. 임의 길이의 프롬프트 외에도, 우리는 임의 소스 프롬프트를 도입하여 여러 P-LLM 출력에서 도출된 확률을 활용하여 표현력 있고 제어된 프로소디를 생성합니다. 또한, 우리는 음소 수준의 자기회귀 지속 시간 모델을 제안하여 지속 시간 모델링에 문맥 학습 능력을 도입합니다. 실험 결과, 우리의 방법은 보이지 않은 화자의 짧은 프롬프트로 정체성을 보존하는 음성을 합성할 뿐만 아니라 더 긴 음성 프롬프트로 향상된 성능을 달성할 수 있음을 보여줍니다. 오디오 샘플은 https://mega-tts.github.io/mega2_demo/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)은 컨텍스트 내 학습 능력을 보여주며, 몇 가지 입력-출력 예제를 기반으로 다양한 작업을 수행할 수 있습니다. 그러나 컨텍스트 내 학습의 효과는 선택된 예제의 품질에 크게 의존합니다. 본 논문에서는 LLM을 위한 고품질 컨텍스트 내 예제를 식별할 수 있는 밀집 검색기를 반복적으로 훈련시키는 새로운 프레임워크를 제안합니다. 우리의 프레임워크는 먼저 LLM 피드백을 기반으로 후보 예제의 품질을 평가하는 보상 모델을 훈련한 후, 지식 증류를 통해 이중 인코더 기반 밀집 검색기를 훈련합니다. 30개 작업에 대한 실험을 통해 우리의 프레임워크가 컨텍스트 내 학습 성능을 크게 향상시킴을 입증했습니다. 또한, 훈련 중에 보지 못한 작업에 대한 프레임워크의 일반화 능력을 보여줍니다. 심층 분석 결과, 우리의 모델은 유사한 패턴을 가진 예제를 검색함으로써 성능을 개선하며, 이러한 성능 향상은 다양한 크기의 LLM에서 일관되게 나타납니다.
본 연구에서는 생성 네트워크를 활용하여 다운스트림 이미지 백본을 사전 학습하는 자기 지도(self-supervised) 특징 표현 학습 프레임워크인 DreamTeacher를 소개합니다. 우리는 특정 인식 작업을 위해 잘 설계된 표준 이미지 백본으로 훈련된 생성 모델의 지식을 추출하는 방법을 제안합니다. 두 가지 유형의 지식 증류(knowledge distillation)를 탐구합니다: 1) ImageNet과 같은 대규모 레이블 데이터셋에서 백본을 사전 학습하는 대신 학습된 생성 특징을 대상 이미지 백본으로 증류하는 방법, 그리고 2) 생성 네트워크의 작업 헤드(task head)에서 얻은 레이블을 대상 백본의 로짓(logits)으로 증류하는 방법입니다. 우리는 여러 생성 모델, 밀집 예측(dense prediction) 벤치마크, 그리고 다양한 사전 학습 체계에 대해 광범위한 분석을 수행합니다. 실험적으로, DreamTeacher가 기존의 자기 지도 표현 학습 접근법을 전반적으로 크게 능가함을 확인했습니다. DreamTeacher를 사용한 비지도(unsupervised) ImageNet 사전 학습은 다운스트림 데이터셋에서 ImageNet 분류 사전 학습보다 상당한 개선을 보여주며, 특히 확산 생성 모델(diffusion generative model)과 같은 생성 모델이 수동 주석 없이도 대규모 및 다양한 데이터셋에서 표현 학습을 위한 유망한 접근법임을 입증합니다.
본 연구에서는 장면 내 물체와 상호작용하는 인간의 현실적인 3D 동작을 생성하는 문제를 다룬다. 핵심 아이디어는 특정 물체에 부착된 신경 상호작용 필드를 생성하여, 인간의 자세를 입력으로 받아 유효한 상호작용 매니폴드까지의 거리를 출력하는 것이다. 이 상호작용 필드는 물체 조건부 인간 동작 확산 모델의 샘플링을 안내하여, 그럴듯한 접촉과 어포던스 의미론을 촉진한다. 데이터가 부족한 상호작용을 지원하기 위해, 우리는 자동화된 합성 데이터 파이프라인을 제안한다. 이를 위해, 인간 움직임의 기본에 대한 사전 지식을 갖춘 사전 학습된 동작 모델에 제한된 모션 캡처 데이터에서 추출한 상호작용 특정 앵커 자세를 입력한다. 생성된 합성 데이터로 학습된 우리의 안내 확산 모델을 사용하여, 여러 물체에 대한 앉기 및 들기 동작을 현실적으로 합성하며, 동작 품질과 성공적인 행동 완료 측면에서 대안적 접근법을 능가한다. 우리는 이 프레임워크를 NIFTY(Neural Interaction Fields for Trajectory sYnthesis)라고 명명한다.