누수 찾기, 분할 고치기: 비디오 기반 데이터셋의 누수를 방지하는 클러스터 기반 방법
Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
November 17, 2025
저자: Noam Glazner, Noam Tsfaty, Sharon Shalev, Avishai Weizman
cs.AI
초록
정보 누출을 완화하기 위해 클러스터 기반 프레임 선택 전략을 제안합니다. 학습, 검증, 테스트 세트로 분할하기 전에 시각적으로 유사한 프레임을 그룹화함으로써 더욱 대표적이고 균형 잡히며 신뢰할 수 있는 데이터셋 분할을 생성하는 방법입니다.
English
We propose a cluster-based frame selection strategy to mitigate information leakage in video-derived frames datasets. By grouping visually similar frames before splitting into training, validation, and test sets, the method produces more representative, balanced, and reliable dataset partitions.