Franca: Clustering Matrioska Annidato per l'Apprendimento Scalabile di Rappresentazioni Visive
Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning
July 18, 2025
Autori: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI
Abstract
Presentiamo Franca (pronunciato Fran-ka): libera uno; il primo modello di fondazione visiva completamente open-source (dati, codice, pesi) che eguaglia e in molti casi supera le prestazioni dei modelli proprietari all'avanguardia, come DINOv2, CLIP, SigLIPv2, ecc. Il nostro approccio si basa su una pipeline di addestramento trasparente ispirata a Web-SSL e utilizza dati pubblicamente disponibili: ImageNet-21K e un sottoinsieme di ReLAION-2B. Oltre al rilascio del modello, affrontiamo limitazioni critiche nei metodi di clustering SSL. Mentre i modelli moderni si affidano all'assegnazione di caratteristiche delle immagini a grandi codebook tramite algoritmi di clustering come Sinkhorn-Knopp, non tengono conto dell'ambiguità intrinseca nella semantica del clustering. Per risolvere questo problema, introduciamo un proiettore di clustering multi-testa efficiente in termini di parametri basato su rappresentazioni annidate Matryoshka. Questo design affina progressivamente le caratteristiche in cluster sempre più granulari senza aumentare le dimensioni del modello, consentendo sia prestazioni che efficienza di memoria. Inoltre, proponiamo una nuova strategia di disaccoppiamento posizionale che rimuove esplicitamente i bias posizionali dalle rappresentazioni dense, migliorando così la codifica del contenuto semantico. Ciò porta a guadagni consistenti su diversi benchmark downstream, dimostrando l'utilità di spazi di caratteristiche più puliti. I nostri contributi stabiliscono un nuovo standard per modelli visivi trasparenti e ad alte prestazioni e aprono la strada verso modelli di fondazione più riproducibili e generalizzabili per la più ampia comunità AI. Il codice e i checkpoint del modello sono disponibili su https://github.com/valeoai/Franca.
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source
(data, code, weights) vision foundation model that matches and in many cases
surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2,
CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training
pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and
a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in
SSL clustering methods. While modern models rely on assigning image features to
large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to
account for the inherent ambiguity in clustering semantics. To address this, we
introduce a parameter-efficient, multi-head clustering projector based on
nested Matryoshka representations. This design progressively refines features
into increasingly fine-grained clusters without increasing the model size,
enabling both performance and memory efficiency. Additionally, we propose a
novel positional disentanglement strategy that explicitly removes positional
biases from dense representations, thereby improving the encoding of semantic
content. This leads to consistent gains on several downstream benchmarks,
demonstrating the utility of cleaner feature spaces. Our contributions
establish a new standard for transparent, high-performance vision models and
open a path toward more reproducible and generalizable foundation models for
the broader AI community. The code and model checkpoints are available at
https://github.com/valeoai/Franca.