ChatPaper.aiChatPaper

AnyI2V: 모션 제어를 통해 조건부 이미지를 애니메이션화하기

AnyI2V: Animating Any Conditional Image with Motion Control

July 3, 2025
저자: Ziye Li, Hao Luo, Xincheng Shuai, Henghui Ding
cs.AI

초록

최근 비디오 생성 분야, 특히 확산 모델(diffusion models)의 발전으로 텍스트-투-비디오(T2V) 및 이미지-투-비디오(I2V) 합성에서 주목할 만한 진전이 이루어졌습니다. 그러나 동적 모션 신호와 유연한 공간 제약을 효과적으로 통합하는 데는 여전히 과제가 남아 있습니다. 기존의 T2V 방법은 일반적으로 텍스트 프롬프트에 의존하는데, 이는 생성된 콘텐츠의 공간적 레이아웃을 정밀하게 제어할 수 없다는 한계가 있습니다. 반면, I2V 방법은 실제 이미지에 의존하기 때문에 합성된 콘텐츠의 편집 가능성이 제한됩니다. 일부 방법은 ControlNet을 도입하여 이미지 기반 조건을 추가하지만, 명시적인 모션 제어가 부족하고 계산 비용이 많이 드는 학습이 필요합니다. 이러한 한계를 해결하기 위해, 우리는 사용자 정의 모션 궤적을 통해 조건부 이미지를 애니메이션화하는 학습이 필요 없는 프레임워크인 AnyI2V를 제안합니다. AnyI2V는 ControlNet에서 지원하지 않는 메시(mesh) 및 포인트 클라우드(point cloud)와 같은 데이터 유형을 포함하여 더 넓은 범위의 조건부 이미지 모달리티를 지원함으로써 더 유연하고 다용도로 사용 가능한 비디오 생성을 가능하게 합니다. 또한, 혼합 조건부 입력을 지원하고 LoRA 및 텍스트 프롬프트를 통해 스타일 전환 및 편집을 가능하게 합니다. 광범위한 실험을 통해 제안된 AnyI2V가 우수한 성능을 달성하며, 공간 및 모션 제어 비디오 생성에 새로운 관점을 제공함을 입증했습니다. 코드는 https://henghuiding.com/AnyI2V/에서 확인할 수 있습니다.
English
Recent advancements in video generation, particularly in diffusion models, have driven notable progress in text-to-video (T2V) and image-to-video (I2V) synthesis. However, challenges remain in effectively integrating dynamic motion signals and flexible spatial constraints. Existing T2V methods typically rely on text prompts, which inherently lack precise control over the spatial layout of generated content. In contrast, I2V methods are limited by their dependence on real images, which restricts the editability of the synthesized content. Although some methods incorporate ControlNet to introduce image-based conditioning, they often lack explicit motion control and require computationally expensive training. To address these limitations, we propose AnyI2V, a training-free framework that animates any conditional images with user-defined motion trajectories. AnyI2V supports a broader range of modalities as the conditional image, including data types such as meshes and point clouds that are not supported by ControlNet, enabling more flexible and versatile video generation. Additionally, it supports mixed conditional inputs and enables style transfer and editing via LoRA and text prompts. Extensive experiments demonstrate that the proposed AnyI2V achieves superior performance and provides a new perspective in spatial- and motion-controlled video generation. Code is available at https://henghuiding.com/AnyI2V/.
PDF81July 17, 2025