번역이 포함된 일일 선별된 AI 연구 논문
우리는 인간의 음성과 거의 구분할 수 없는 음성을 생성할 수 있는 대규모 자기회귀적 텍스트-투-스피치(TTS) 모델군인 Seed-TTS를 소개합니다. Seed-TTS는 음성 생성을 위한 기반 모델로 작동하며, 문맥 내 음성 학습에서 탁월한 성능을 발휘합니다. 이 모델은 객관적 및 주관적 평가 모두에서 화자 유사성과 자연스러움 측면에서 실제 인간 음성과 맞먹는 성능을 달성합니다. 미세 조정을 통해 이러한 지표들에서 더 높은 주관적 점수를 얻을 수 있습니다. Seed-TTS는 감정과 같은 다양한 음성 속성에 대한 우수한 제어력을 제공하며, 실제 환경의 화자들을 위해 매우 표현력 있고 다양한 음성을 생성할 수 있습니다. 또한, 음성 분해를 위한 자기 증류 방법과 모델의 견고성, 화자 유사성, 제어력을 향상시키기 위한 강화 학습 접근법을 제안합니다. 더불어, 완전히 확산 기반 아키텍처를 활용하는 Seed-TTS의 비자기회귀적(NAR) 변형인 Seed-TTS_DiT를 소개합니다. 이전의 NAR 기반 TTS 시스템들과 달리, Seed-TTS_DiT는 사전 추정된 음소 지속 시간에 의존하지 않고 엔드-투-엔드 처리로 음성 생성을 수행합니다. 이 변형이 언어 모델 기반 변형과 비슷한 성능을 달성하며, 음성 편집에서의 효과성을 입증합니다. 독자들에게 데모를 들어보기를 권장하며, 데모는 https://bytedancespeech.github.io/seedtts_tech_report에서 확인할 수 있습니다.
우리는 대규모 언어 모델(LLM)의 불확실성 정량화를 탐구하며, 주어진 질문에 대한 응답에서 불확실성이 클 때를 식별하는 것을 목표로 합니다. 우리는 인식론적 불확실성(epistemic uncertainty)과 우연적 불확실성(aleatoric uncertainty)을 동시에 고려하는데, 전자는 사실이나 언어에 대한 지식 부족에서 비롯되고, 후자는 축소할 수 없는 무작위성(예: 여러 가능한 답변)에서 비롯됩니다. 특히, 우리는 정보 이론적 메트릭을 도출하여 인식론적 불확실성만이 클 때를 신뢰성 있게 감지할 수 있도록 합니다. 이 경우 모델의 출력은 신뢰할 수 없습니다. 이러한 조건은 이전 응답을 기반으로 한 특수한 반복적 프롬프팅을 통해 얻은 모델의 출력만으로도 계산할 수 있습니다. 이러한 정량화는 예를 들어 단일 및 다중 응답에서 환각(hallucination, 인식론적 불확실성이 높은 경우)을 감지할 수 있게 합니다. 이는 다중 응답 사례에서 환각을 감지할 수 없는 많은 표준 불확실성 정량화 전략(예: 응답의 로그 가능도 임계값 설정)과 대조됩니다. 우리는 일련의 실험을 통해 우리의 접근 방식의 장점을 입증합니다. 또한, 우리의 연구는 LLM이 특정 출력에 할당한 확률이 반복적 프롬프팅을 통해 어떻게 증폭될 수 있는지에 대한 통찰을 제공하며, 이는 독자적인 관심사가 될 수 있습니다.
온라인 및 오프라인 RLHF(Reinforcement Learning from Human Feedback) 방법론인 PPO와 DPO는 인간의 선호도에 맞춰 AI를 정렬하는 데 매우 성공적이었습니다. 그러나 이러한 성공에도 불구하고, 기존 방법론들은 근본적인 문제를 안고 있습니다. 바로 최적의 해결책이 과제에 크게 의존적이며(즉, 분포 외(OOD) 과제에 대해 강건하지 않음) 이에 대한 대응이 필요하다는 점입니다. 본 연구에서는 이러한 문제를 해결하기 위해 Self-Improving Robust Preference Optimization(SRPO)을 제안합니다. SRPO는 과제의 변화에 완전히 강건하면서도 실용적이고 수학적으로 엄밀한 오프라인 RLHF 프레임워크입니다. SRPO의 핵심 아이디어는 인간의 선호도로부터 학습하는 문제를 자기 개선 과정으로 재구성하는 것입니다. 이는 자기 개선 정책과 생성 정책을 적대적 방식으로 공동 최적화하는 min-max 목적함수로 수학적으로 표현될 수 있습니다. 이 최적화 문제의 해결책은 학습 과제에 독립적이므로, 과제의 변화에 강건합니다. 또한, 이 목적함수는 비적대적 오프라인 손실 형태로 재표현될 수 있으며, 보상 모델이나 온라인 추론 없이도 표준 지도 최적화 기법을 사용해 대규모로 최적화할 수 있습니다. SRPO의 효과는 인간(GOLD) 완성본 대비 AI 승률(Win-Rate, WR)로 입증됩니다. 특히, OOD XSUM 데이터셋에서 평가했을 때, SRPO는 5번의 자기 수정 후 15%의 명확한 차이로 DPO를 능가하며, 90%의 WR을 달성했습니다.
텍스트-투-비디오 생성은 시공간 모델링의 복잡성과 제한된 비디오-텍스트 데이터셋으로 인해 텍스트-투-이미지 합성에 비해 품질과 다양성 면에서 뒤처져 왔습니다. 본 논문은 강력한 이미지 기술을 활용하여 텍스트-투-비디오 생성을 향상시키는, 학습이 필요 없고 플러그 앤 플레이 방식의 비디오 확산 추론 프레임워크인 I4VGen을 소개합니다. 구체적으로, 텍스트-투-이미지-투-비디오 방식을 따라 I4VGen은 텍스트-투-비디오 생성을 두 단계로 분해합니다: 앵커 이미지 합성과 앵커 이미지 기반 비디오 합성. 이에 상응하여, 시각적으로 현실적이고 의미론적으로 충실한 앵커 이미지를 달성하기 위해 잘 설계된 생성-선택 파이프라인이 사용되며, 이미지를 동적 비디오로 변환하기 위해 혁신적인 노이즈 불변 비디오 점수 증류 샘플링이 도입됩니다. 이후 비디오 재생성 과정을 통해 비디오를 정제합니다. 이 추론 전략은 널리 퍼진 비제로 터미널 신호 대 잡음비 문제를 효과적으로 완화합니다. 광범위한 평가를 통해 I4VGen이 더 높은 시각적 현실감과 텍스트 충실도를 가진 비디오를 생성할 뿐만 아니라, 기존의 이미지-투-비디오 확산 모델에 원활하게 통합되어 전반적인 비디오 품질을 향상시킨다는 것을 보여줍니다.
이미지 생성 확산 모델에서 주요 관심사는 이미지 품질, 결과물의 다양성 정도, 그리고 주어진 조건(예: 클래스 레이블 또는 텍스트 프롬프트)과의 일치도입니다. 널리 사용되는 classifier-free guidance 접근법은 조건 없는 모델을 사용하여 조건부 모델을 안내함으로써, 더 나은 프롬프트 일치도와 더 높은 품질의 이미지를 얻는 대신 다양성이 감소하는 결과를 가져옵니다. 이러한 효과들은 본질적으로 얽혀 있어 제어하기 어려운 것으로 보입니다. 우리는 놀랍게도, 조건 없는 모델 대신 더 작고 덜 훈련된 버전의 모델 자체를 사용하여 생성을 안내함으로써 다양성을 희생하지 않고도 이미지 품질에 대한 분리된 제어가 가능하다는 관찰을 했습니다. 이는 공개적으로 사용 가능한 네트워크를 사용하여 ImageNet 생성에서 64x64에서 1.01, 512x512에서 1.25라는 기록적인 FID(Frechet Inception Distance)를 달성하는 등 상당한 개선을 이끌어냈습니다. 더 나아가, 이 방법은 조건 없는 확산 모델에도 적용 가능하며, 그들의 품질을 크게 향상시킵니다.
최근 인공지능(AI)의 발전은 주로 규모 확장에 의해 추진되어 왔습니다. 로보틱스 분야에서는 대규모 로봇 데이터셋에 대한 접근성 부족으로 인해 이러한 확장이 제한되고 있습니다. 우리는 로봇 학습 방법을 위한 환경, 작업, 데이터셋의 규모를 확장하는 수단으로 현실적인 물리 시뮬레이션의 사용을 제안합니다. 본 논문에서는 일상 환경에서 범용 로봇을 훈련시키기 위한 대규모 시뮬레이션 프레임워크인 RoboCasa를 소개합니다. RoboCasa는 주방 환경에 초점을 맞춘 현실적이고 다양한 장면을 제공합니다. 우리는 150개 이상의 객체 카테고리와 수십 개의 상호작용 가능한 가구 및 가전제품에 걸쳐 수천 개의 3D 자산을 제공합니다. 텍스트-3D 모델에서 생성된 객체 자산과 텍스트-이미지 모델에서 생성된 환경 텍스처와 같은 생성형 AI 도구를 사용하여 시뮬레이션의 현실감과 다양성을 높였습니다. 체계적인 평가를 위해 대형 언어 모델의 지도를 통해 생성된 복합 작업을 포함한 100개의 작업 세트를 설계했습니다. 학습을 촉진하기 위해 고품질의 인간 시연을 제공하고, 인간의 부담을 최소화하면서 데이터셋을 크게 확장할 수 있는 자동화된 궤적 생성 방법을 통합했습니다. 우리의 실험은 대규모 모방 학습을 위해 합성된 로봇 데이터를 사용할 때 명확한 규모 확장 경향을 보여주며, 실제 작업에서 시뮬레이션 데이터를 활용하는 데 큰 가능성을 보여줍니다. 비디오와 오픈소스 코드는 https://robocasa.ai/에서 확인할 수 있습니다.
초상화 비디오 생성 분야에서는 단일 이미지를 사용하여 초상화 비디오를 생성하는 기술이 점점 더 널리 사용되고 있습니다. 일반적인 접근 방식은 생성 모델을 활용하여 제어된 생성을 위한 어댑터를 강화하는 것입니다. 그러나 제어 신호(예: 텍스트, 오디오, 참조 이미지, 포즈, 깊이 맵 등)는 그 강도가 다양할 수 있습니다. 이 중에서 약한 조건은 강한 조건의 간섭으로 인해 효과를 발휘하기 어려운 경우가 많아, 이러한 조건들 간의 균형을 맞추는 것이 과제로 대두됩니다. 초상화 비디오 생성에 관한 우리의 연구에서, 오디오 신호가 특히 약하며 종종 얼굴 포즈나 참조 이미지와 같은 강한 신호에 의해 가려지는 것을 확인했습니다. 그러나 약한 신호를 직접 학습에 사용하는 것은 종종 수렴에 어려움을 초래합니다. 이를 해결하기 위해, 우리는 점진적 학습과 조건부 드롭아웃 연산을 통해 다양한 제어 신호의 균형을 맞추는 간단한 방법인 V-Express를 제안합니다. 우리의 방법은 약한 조건이 효과적으로 제어할 수 있도록 점진적으로 활성화함으로써, 얼굴 포즈, 참조 이미지, 오디오를 동시에 고려한 생성 능력을 달성합니다. 실험 결과는 우리의 방법이 오디오에 의해 제어되는 초상화 비디오를 효과적으로 생성할 수 있음을 보여줍니다. 더 나아가, 다양한 강도의 조건을 동시에 효과적으로 사용할 수 있는 잠재적인 해결책을 제공합니다.
최근 비디오 확산 모델(diffusion model)이 일반 사용자도 쉽게 접근할 수 있는 고품질 비디오 콘텐츠 생성 도구로 주목받고 있습니다. 그러나 이러한 모델들은 비디오 생성 시 카메라 포즈를 정밀하게 제어하는 기능을 제공하지 않아 시네마틱 언어의 표현과 사용자 제어에 한계가 있었습니다. 이 문제를 해결하기 위해, 우리는 이미지-투-비디오 생성(image-to-video generation)을 위한 세밀한 카메라 포즈 제어가 가능한 CamCo를 소개합니다. 우리는 사전 훈련된 이미지-투-비디오 생성기에 Pl\"ucker 좌표를 사용하여 정확하게 매개변수화된 카메라 포즈 입력을 추가했습니다. 생성된 비디오의 3D 일관성을 향상시키기 위해, 각 어텐션 블록(attention block)에 에피폴라 제약(epipolar constraint)을 특징 맵(feature map)에 적용하는 에피폴라 어텐션 모듈(epipolar attention module)을 통합했습니다. 또한, 구조-움직임 복원(structure-from-motion) 알고리즘으로 추정된 카메라 포즈가 포함된 실제 비디오 데이터로 CamCo를 미세 조정(fine-tune)하여 객체 움직임을 더 잘 합성할 수 있도록 했습니다. 실험 결과, CamCo는 기존 모델 대비 3D 일관성과 카메라 제어 능력을 크게 개선하면서도 그럴듯한 객체 움직임을 효과적으로 생성하는 것으로 나타났습니다. 프로젝트 페이지: https://ir1d.github.io/CamCo/