ChatPaper.aiChatPaper

Franca : Clustering Matriochka Imbriqué pour l’Apprentissage Scalable de Représentations Visuelles

Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning

July 18, 2025
papers.authors: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI

papers.abstract

Nous présentons Franca (prononcé Fran-ka) : un modèle libre ; le premier modèle de fondation visuel entièrement open-source (données, code, poids) qui rivalise et, dans de nombreux cas, surpasse les performances des modèles propriétaires de pointe, tels que DINOv2, CLIP, SigLIPv2, etc. Notre approche repose sur un pipeline d’entraînement transparent inspiré de Web-SSL et utilise des données publiquement disponibles : ImageNet-21K et un sous-ensemble de ReLAION-2B. Au-delà de la publication du modèle, nous abordons des limitations critiques des méthodes de clustering en SSL. Alors que les modèles modernes s’appuient sur l’assignation des caractéristiques d’images à de grands codebooks via des algorithmes de clustering comme Sinkhorn-Knopp, ils ne tiennent pas compte de l’ambiguïté inhérente à la sémantique du clustering. Pour résoudre ce problème, nous introduisons un projecteur de clustering multi-têtes efficace en paramètres, basé sur des représentations emboîtées de type Matryoshka. Cette conception affine progressivement les caractéristiques en clusters de plus en plus granulaires sans augmenter la taille du modèle, permettant à la fois des performances et une efficacité mémoire accrues. De plus, nous proposons une nouvelle stratégie de désentrelacement positionnel qui supprime explicitement les biais positionnels des représentations denses, améliorant ainsi l’encodage du contenu sémantique. Cela se traduit par des gains constants sur plusieurs benchmarks en aval, démontrant l’utilité d’espaces de caractéristiques plus propres. Nos contributions établissent une nouvelle norme pour des modèles visuels transparents et performants, ouvrant la voie à des modèles de fondation plus reproductibles et généralisables pour la communauté élargie de l’IA. Le code et les points de contrôle du modèle sont disponibles à l’adresse https://github.com/valeoai/Franca.
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source (data, code, weights) vision foundation model that matches and in many cases surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2, CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in SSL clustering methods. While modern models rely on assigning image features to large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to account for the inherent ambiguity in clustering semantics. To address this, we introduce a parameter-efficient, multi-head clustering projector based on nested Matryoshka representations. This design progressively refines features into increasingly fine-grained clusters without increasing the model size, enabling both performance and memory efficiency. Additionally, we propose a novel positional disentanglement strategy that explicitly removes positional biases from dense representations, thereby improving the encoding of semantic content. This leads to consistent gains on several downstream benchmarks, demonstrating the utility of cleaner feature spaces. Our contributions establish a new standard for transparent, high-performance vision models and open a path toward more reproducible and generalizable foundation models for the broader AI community. The code and model checkpoints are available at https://github.com/valeoai/Franca.
PDF315July 21, 2025