Franca: Verschachteltes Matrjoschka-Clustering für skalierbares visuelles Repräsentationslernen
Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning
July 18, 2025
papers.authors: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI
papers.abstract
Wir präsentieren Franca (ausgesprochen Fran-ka): die erste vollständig quelloffene (Daten, Code, Gewichte) Vision-Foundation-Model, die in vielen Fällen die Leistung von proprietären State-of-the-Art-Modellen wie DINOv2, CLIP, SigLIPv2 usw. erreicht oder sogar übertrifft. Unser Ansatz basiert auf einer transparenten Trainingspipeline, die von Web-SSL inspiriert ist, und verwendet öffentlich verfügbare Daten: ImageNet-21K und eine Teilmenge von ReLAION-2B. Neben der Modellfreigabe adressieren wir kritische Einschränkungen in SSL-Clustering-Methoden. Während moderne Modelle darauf angewiesen sind, Bildmerkmale mithilfe von Clustering-Algorithmen wie Sinkhorn-Knopp großen Codebüchern zuzuordnen, berücksichtigen sie nicht die inhärente Mehrdeutigkeit in der Clustering-Semantik. Um dies zu lösen, führen wir einen parameter-effizienten, Multi-Head-Clustering-Projektor ein, der auf verschachtelten Matryoshka-Repräsentationen basiert. Dieses Design verfeinert Merkmale schrittweise in immer feinere Cluster, ohne die Modellgröße zu erhöhen, was sowohl Leistung als auch Speichereffizienz ermöglicht. Zusätzlich schlagen wir eine neuartige Strategie zur Positionsentflechtung vor, die Positionsverzerrungen explizit aus dichten Repräsentationen entfernt und dadurch die Kodierung von semantischem Inhalt verbessert. Dies führt zu konsistenten Verbesserungen in mehreren Downstream-Benchmarks und demonstriert den Nutzen sauberer Merkmalsräume. Unsere Beiträge setzen einen neuen Standard für transparente, leistungsstarke Vision-Modelle und ebnen den Weg zu reproduzierbareren und generalisierbareren Foundation-Modellen für die breitere KI-Community. Der Code und die Modell-Checkpoints sind unter https://github.com/valeoai/Franca verfügbar.
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source
(data, code, weights) vision foundation model that matches and in many cases
surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2,
CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training
pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and
a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in
SSL clustering methods. While modern models rely on assigning image features to
large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to
account for the inherent ambiguity in clustering semantics. To address this, we
introduce a parameter-efficient, multi-head clustering projector based on
nested Matryoshka representations. This design progressively refines features
into increasingly fine-grained clusters without increasing the model size,
enabling both performance and memory efficiency. Additionally, we propose a
novel positional disentanglement strategy that explicitly removes positional
biases from dense representations, thereby improving the encoding of semantic
content. This leads to consistent gains on several downstream benchmarks,
demonstrating the utility of cleaner feature spaces. Our contributions
establish a new standard for transparent, high-performance vision models and
open a path toward more reproducible and generalizable foundation models for
the broader AI community. The code and model checkpoints are available at
https://github.com/valeoai/Franca.