OmniHuman-1: 1단계 조건부 인간 애니메이션 모델의 확장에 대한 재고문OmniHuman-1: Rethinking the Scaling-Up of One-Stage Conditioned Human
Animation Models
최근 몇 년간 엔드 투 엔드 인간 애니메이션, 예를 들어 오디오 주도 대화형 인간 생성은 주목할 만한 발전을 이루었습니다. 그러나 기존 방법은 여전히 대규모 일반 비디오 생성 모델로 확장하는 데 어려움을 겪어 실제 응용 프로그램에서의 잠재력을 제한하고 있습니다. 본 논문에서는 훈련 단계에서 모션 관련 조건을 혼합하여 데이터를 확장하는 Diffusion Transformer 기반 프레임워크인 OmniHuman을 제안합니다. 이를 위해 이러한 혼합 조건에 대한 두 가지 훈련 원칙을 소개하고, 해당 모델 아키텍처 및 추론 전략을 제시합니다. 이러한 설계는 OmniHuman이 데이터 기반 모션 생성을 완전히 활용하도록 하여 근본적으로 매우 현실적인 인간 비디오 생성을 달성하게 합니다. 더 중요한 것은 OmniHuman이 다양한 초상 콘텐츠(얼굴 초근접, 초상, 반신, 전신), 대화와 노래를 모두 지원하며, 인간-객체 상호작용과 어려운 몸의 자세를 처리하고 다양한 이미지 스타일을 수용한다는 것입니다. 기존 엔드 투 엔드 오디오 주도 방법과 비교했을 때, OmniHuman은 더 현실적인 비디오를 생성뿐만 아니라 입력에서 더 큰 유연성을 제공합니다. 또한 다중 주행 모드(오디오 주도, 비디오 주도 및 결합 주행 신호)를 지원합니다. 비디오 샘플은 ttfamily 프로젝트 페이지(https://omnihuman-lab.github.io)에서 제공됩니다.