번역이 포함된 일일 선별된 AI 연구 논문
본 논문은 에지 또는 깊이 맵과 같은 제어 신호 시퀀스에 따라 비디오를 생성하는 제어 가능한 텍스트-투-비디오(T2V) 확산 모델인 Video-ControlNet을 소개한다. Video-ControlNet은 사전 훈련된 조건부 텍스트-투-이미지(T2I) 확산 모델을 기반으로, 공간-시간적 자기 주의 메커니즘과 학습 가능한 시간적 레이어를 통합하여 프레임 간 효율적인 모델링을 가능하게 한다. 또한, 이미지 도메인에서 전이된 비디오 생성 및 자동 회귀 방식으로 임의 길이의 비디오 생성을 용이하게 하는 첫 프레임 조건화 전략을 제안한다. 더 나아가, Video-ControlNet은 입력 비디오로부터 모션 사전 정보를 도입하여 더 일관된 비디오를 생성하기 위한 새로운 잔차 기반 노이즈 초기화 전략을 채택한다. 제안된 아키텍처와 전략을 통해 Video-ControlNet은 자원 효율적인 수렴을 달성하고, 세밀한 제어가 가능한 우수한 품질과 일관성을 가진 비디오를 생성할 수 있다. 다양한 비디오 생성 작업(예: 비디오 편집 및 비디오 스타일 전이)에서의 광범위한 실험을 통해, Video-ControlNet이 일관성과 품질 측면에서 기존 방법들을 능가함을 입증한다. 프로젝트 페이지: https://controlavideo.github.io/
최근의 텍스트-이미지 생성 모델들은 높은 충실도로 텍스트에 부합하는 이미지를 생성하는 인상적인 능력을 보여주고 있습니다. 그러나 사용자가 제공한 입력 이미지의 새로운 개념을 반영한 이미지를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 이 문제를 해결하기 위해 연구자들은 사전 학습된 텍스트-이미지 생성 모델을 사용자 정의하는 다양한 방법을 탐구해 왔습니다. 현재, 사전 학습된 텍스트-이미지 생성 모델을 사용자 정의하는 대부분의 기존 방법들은 과적합을 방지하기 위해 정규화 기법을 사용하는 것을 포함합니다. 정규화는 사용자 정의의 어려움을 완화하고 텍스트 지침에 따른 성공적인 콘텐츠 생성으로 이어질 수 있지만, 모델의 능력을 제한하여 세부 정보의 손실과 성능 저하를 초래할 수 있습니다. 본 연구에서는 정규화를 사용하지 않고도 사용자 정의 텍스트-이미지 생성을 가능하게 하는 새로운 프레임워크를 제안합니다. 구체적으로, 제안된 프레임워크는 인코더 네트워크와 정규화 없이도 과적합 문제를 해결할 수 있는 새로운 샘플링 방법으로 구성됩니다. 이 프레임워크를 통해 사용자가 제공한 단일 이미지로 단일 GPU에서 30초 이내에 대규모 텍스트-이미지 생성 모델을 사용자 정의할 수 있습니다. 실험을 통해 제안된 프레임워크가 기존 방법들을 능가하며 더 세밀한 세부 정보를 보존함을 입증합니다.