ChatPaper.aiChatPaper

포인트 프롬프팅: 비디오 확산 모델을 활용한 반사실적 추적

Point Prompting: Counterfactual Tracking with Video Diffusion Models

October 13, 2025
저자: Ayush Shrivastava, Sanyam Mehta, Daniel Geng, Andrew Owens
cs.AI

초록

트래커와 비디오 생성기는 밀접하게 관련된 문제를 해결합니다: 전자는 움직임을 분석하고, 후자는 움직임을 합성합니다. 우리는 이 연결성을 통해 사전 학습된 비디오 확산 모델이 단순히 시간에 따라 움직이는 점을 시각적으로 표시하도록 프롬프팅함으로써 제로샷 포인트 트래킹을 수행할 수 있음을 보여줍니다. 쿼리 포인트에 독특한 색상의 마커를 배치한 후, 중간 노이즈 수준에서 비디오의 나머지 부분을 재생성합니다. 이는 마커를 프레임 간에 전파하여 점의 궤적을 추적합니다. 이러한 마커가 자연스러운 비디오에서는 잘 나타나지 않기 때문에, 이 반사실적 생성 과정에서 마커가 계속 보이도록 하기 위해 편집되지 않은 초기 프레임을 네거티브 프롬프트로 사용합니다. 여러 이미지 조건부 비디오 확산 모델을 통해 실험한 결과, 이러한 "발생적" 트랙은 기존의 제로샷 방법보다 우수한 성능을 보이며, 가려짐 상황에서도 지속적으로 추적할 수 있었고, 종종 전문적인 자기 지도 모델과 경쟁력 있는 성능을 얻을 수 있었습니다.
English
Trackers and video generators solve closely related problems: the former analyze motion, while the latter synthesize it. We show that this connection enables pretrained video diffusion models to perform zero-shot point tracking by simply prompting them to visually mark points as they move over time. We place a distinctively colored marker at the query point, then regenerate the rest of the video from an intermediate noise level. This propagates the marker across frames, tracing the point's trajectory. To ensure that the marker remains visible in this counterfactual generation, despite such markers being unlikely in natural videos, we use the unedited initial frame as a negative prompt. Through experiments with multiple image-conditioned video diffusion models, we find that these "emergent" tracks outperform those of prior zero-shot methods and persist through occlusions, often obtaining performance that is competitive with specialized self-supervised models.
PDF22October 16, 2025