Franca: Agrupamento Aninhado Matryoshka para Aprendizado Escalável de Representações Visuais
Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning
July 18, 2025
Autores: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI
Resumo
Apresentamos Franca (pronunciado Fran-ka): livre um; o primeiro modelo de base de visão totalmente de código aberto (dados, código, pesos) que iguala e, em muitos casos, supera o desempenho de modelos proprietários de última geração, como DINOv2, CLIP, SigLIPv2, etc. Nossa abordagem é fundamentada em um pipeline de treinamento transparente inspirado no Web-SSL e utiliza dados publicamente disponíveis: ImageNet-21K e um subconjunto do ReLAION-2B. Além do lançamento do modelo, abordamos limitações críticas nos métodos de clustering de SSL. Enquanto os modelos modernos dependem da atribuição de características de imagem a grandes codebooks por meio de algoritmos de clustering como Sinkhorn-Knopp, eles falham em considerar a ambiguidade inerente na semântica do clustering. Para resolver isso, introduzimos um projetor de clustering multi-cabeça eficiente em parâmetros, baseado em representações aninhadas de Matryoshka. Esse design refina progressivamente as características em clusters cada vez mais refinados sem aumentar o tamanho do modelo, permitindo tanto desempenho quanto eficiência de memória. Além disso, propomos uma nova estratégia de desembaraço posicional que remove explicitamente vieses posicionais de representações densas, melhorando assim a codificação de conteúdo semântico. Isso resulta em ganhos consistentes em vários benchmarks de tarefas subsequentes, demonstrando a utilidade de espaços de características mais limpos. Nossas contribuições estabelecem um novo padrão para modelos de visão transparentes e de alto desempenho e abrem um caminho para modelos de base mais reproduzíveis e generalizáveis para a comunidade mais ampla de IA. O código e os checkpoints do modelo estão disponíveis em https://github.com/valeoai/Franca.
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source
(data, code, weights) vision foundation model that matches and in many cases
surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2,
CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training
pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and
a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in
SSL clustering methods. While modern models rely on assigning image features to
large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to
account for the inherent ambiguity in clustering semantics. To address this, we
introduce a parameter-efficient, multi-head clustering projector based on
nested Matryoshka representations. This design progressively refines features
into increasingly fine-grained clusters without increasing the model size,
enabling both performance and memory efficiency. Additionally, we propose a
novel positional disentanglement strategy that explicitly removes positional
biases from dense representations, thereby improving the encoding of semantic
content. This leads to consistent gains on several downstream benchmarks,
demonstrating the utility of cleaner feature spaces. Our contributions
establish a new standard for transparent, high-performance vision models and
open a path toward more reproducible and generalizable foundation models for
the broader AI community. The code and model checkpoints are available at
https://github.com/valeoai/Franca.