Franca: Вложенная кластеризация "Матрешка" для масштабируемого обучения визуальных представлений
Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning
July 18, 2025
Авторы: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI
Аннотация
Представляем Franca (произносится как Фран-ка): первый полностью открытый (данные, код, веса) базовый визуальный модель, который не только соответствует, но во многих случаях превосходит производительность современных проприетарных моделей, таких как DINOv2, CLIP, SigLIPv2 и др. Наш подход основан на прозрачном конвейере обучения, вдохновленном Web-SSL, и использует общедоступные данные: ImageNet-21K и подмножество ReLAION-2B. Помимо выпуска модели, мы устраняем ключевые ограничения методов кластеризации в SSL. Хотя современные модели полагаются на присвоение признаков изображений крупным кодовым книгам с помощью алгоритмов кластеризации, таких как Sinkhorn-Knopp, они не учитывают присущую неоднозначность семантики кластеризации. Для решения этой проблемы мы представляем параметрически эффективный многоголовый проектор кластеризации, основанный на вложенных матрешечных представлениях. Этот дизайн постепенно уточняет признаки в более детализированные кластеры без увеличения размера модели, обеспечивая как производительность, так и эффективность использования памяти. Кроме того, мы предлагаем новую стратегию позиционного разделения, которая явно устраняет позиционные смещения из плотных представлений, тем самым улучшая кодирование семантического содержания. Это приводит к стабильным улучшениям на нескольких эталонных тестах, демонстрируя полезность более чистых пространств признаков. Наши вклад устанавливает новый стандарт для прозрачных, высокопроизводительных визуальных моделей и открывает путь к более воспроизводимым и обобщаемым базовым моделям для широкого сообщества ИИ. Код и контрольные точки модели доступны по адресу https://github.com/valeoai/Franca.
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source
(data, code, weights) vision foundation model that matches and in many cases
surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2,
CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training
pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and
a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in
SSL clustering methods. While modern models rely on assigning image features to
large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to
account for the inherent ambiguity in clustering semantics. To address this, we
introduce a parameter-efficient, multi-head clustering projector based on
nested Matryoshka representations. This design progressively refines features
into increasingly fine-grained clusters without increasing the model size,
enabling both performance and memory efficiency. Additionally, we propose a
novel positional disentanglement strategy that explicitly removes positional
biases from dense representations, thereby improving the encoding of semantic
content. This leads to consistent gains on several downstream benchmarks,
demonstrating the utility of cleaner feature spaces. Our contributions
establish a new standard for transparent, high-performance vision models and
open a path toward more reproducible and generalizable foundation models for
the broader AI community. The code and model checkpoints are available at
https://github.com/valeoai/Franca.