Leck aufspüren, Lücke schließen: Clusterbasierte Methode zur Vermeidung von Datenlecks in videobasierten Datensätzen
Find the Leak, Fix the Split: Cluster-Based Method to Prevent Leakage in Video-Derived Datasets
November 17, 2025
papers.authors: Noam Glazner, Noam Tsfaty, Sharon Shalev, Avishai Weizman
cs.AI
papers.abstract
Wir schlagen eine clusterbasierte Rahmenauswahlstrategie vor, um Informationslecks in aus Videos abgeleiteten Bilddatensätzen zu mindern. Durch die Gruppierung visuell ähnlicher Bilder vor der Aufteilung in Trainings-, Validierungs- und Testdatensätze erzeugt die Methode repräsentativere, ausgewogenere und zuverlässigere Datenpartitionen.
English
We propose a cluster-based frame selection strategy to mitigate information leakage in video-derived frames datasets. By grouping visually similar frames before splitting into training, validation, and test sets, the method produces more representative, balanced, and reliable dataset partitions.