Найти утечку, устранить разрыв: кластерный метод предотвращения утечки данных в видеопроизводных наборах
Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
November 17, 2025
Авторы: Noam Glazner, Noam Tsfaty, Sharon Shalev, Avishai Weizman
cs.AI
Аннотация
Мы предлагаем стратегию выбора кадров на основе кластеризации для снижения утечки информации в наборах данных, полученных из видео. Метод предполагает группировку визуально схожих кадров перед разделением на обучающую, валидационную и тестовую выборки, что позволяет создавать более репрезентативные, сбалансированные и надежные разделы набора данных.
English
We propose a cluster-based frame selection strategy to mitigate information leakage in video-derived frames datasets. By grouping visually similar frames before splitting into training, validation, and test sets, the method produces more representative, balanced, and reliable dataset partitions.