ChatPaper.aiChatPaper

Franca: Geneste Matryoshka-clustering voor schaalbare visuele representatieleer

Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning

July 18, 2025
Auteurs: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI

Samenvatting

We presenteren Franca (uitgesproken als Fran-ka): de eerste volledig open-source (data, code, gewichten) vision foundation model die de prestaties van state-of-the-art propriëtaire modellen evenaart en in veel gevallen overtreft, zoals DINOv2, CLIP, SigLIPv2, enz. Onze aanpak is gebaseerd op een transparante trainingspijplijn geïnspireerd door Web-SSL en maakt gebruik van publiek beschikbare data: ImageNet-21K en een subset van ReLAION-2B. Naast het uitbrengen van het model, pakken we kritieke beperkingen aan in SSL-clustermethoden. Terwijl moderne modellen vertrouwen op het toewijzen van beeldkenmerken aan grote codeboeken via clusteralgoritmen zoals Sinkhorn-Knopp, houden ze geen rekening met de inherente ambiguïteit in clustersemantiek. Om dit aan te pakken, introduceren we een parameter-efficiënte, multi-head clusteringprojector gebaseerd op geneste Matryoshka-representaties. Dit ontwerp verfijnt kenmerken progressief in steeds fijnmazigere clusters zonder het modelformaat te vergroten, wat zowel prestaties als geheugenefficiëntie mogelijk maakt. Daarnaast stellen we een nieuwe positionele ontwarringsstrategie voor die expliciet positionele vooroordelen verwijdert uit dichte representaties, waardoor de codering van semantische inhoud wordt verbeterd. Dit leidt tot consistente verbeteringen op verschillende downstream benchmarks, wat het nut van schonere kenmerkruimten aantoont. Onze bijdragen stellen een nieuwe standaard voor transparante, hoogpresterende visionmodellen en openen een pad naar meer reproduceerbare en generaliseerbare foundationmodellen voor de bredere AI-gemeenschap. De code en modelcheckpoints zijn beschikbaar op https://github.com/valeoai/Franca.
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source (data, code, weights) vision foundation model that matches and in many cases surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2, CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in SSL clustering methods. While modern models rely on assigning image features to large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to account for the inherent ambiguity in clustering semantics. To address this, we introduce a parameter-efficient, multi-head clustering projector based on nested Matryoshka representations. This design progressively refines features into increasingly fine-grained clusters without increasing the model size, enabling both performance and memory efficiency. Additionally, we propose a novel positional disentanglement strategy that explicitly removes positional biases from dense representations, thereby improving the encoding of semantic content. This leads to consistent gains on several downstream benchmarks, demonstrating the utility of cleaner feature spaces. Our contributions establish a new standard for transparent, high-performance vision models and open a path toward more reproducible and generalizable foundation models for the broader AI community. The code and model checkpoints are available at https://github.com/valeoai/Franca.
PDF345July 21, 2025