Franca: Agrupamiento Anidado Matryoshka para el Aprendizaje Escalable de Representaciones Visuales
Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning
July 18, 2025
Autores: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI
Resumen
Presentamos Franca (pronunciado Fran-ka): libre uno; el primer modelo de visión de base completamente de código abierto (datos, código, pesos) que iguala y, en muchos casos, supera el rendimiento de los modelos propietarios más avanzados, como DINOv2, CLIP, SigLIPv2, entre otros. Nuestro enfoque se basa en una canalización de entrenamiento transparente inspirada en Web-SSL y utiliza datos de acceso público: ImageNet-21K y un subconjunto de ReLAION-2B. Más allá del lanzamiento del modelo, abordamos limitaciones críticas en los métodos de clustering de SSL. Si bien los modelos modernos dependen de asignar características de imágenes a grandes codebooks mediante algoritmos de clustering como Sinkhorn-Knopp, no tienen en cuenta la ambigüedad inherente en la semántica del clustering. Para resolver esto, introducimos un proyector de clustering multi-cabeza eficiente en parámetros basado en representaciones anidadas tipo Matryoshka. Este diseño refina progresivamente las características en clusters cada vez más detallados sin aumentar el tamaño del modelo, permitiendo tanto rendimiento como eficiencia de memoria. Además, proponemos una novedosa estrategia de desenredado posicional que elimina explícitamente los sesgos posicionales de las representaciones densas, mejorando así la codificación del contenido semántico. Esto conduce a ganancias consistentes en varios puntos de referencia posteriores, demostrando la utilidad de espacios de características más limpios. Nuestras contribuciones establecen un nuevo estándar para modelos de visión transparentes y de alto rendimiento, y abren un camino hacia modelos de base más reproducibles y generalizables para la comunidad más amplia de IA. El código y los puntos de control del modelo están disponibles en https://github.com/valeoai/Franca.
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source
(data, code, weights) vision foundation model that matches and in many cases
surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2,
CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training
pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and
a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in
SSL clustering methods. While modern models rely on assigning image features to
large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to
account for the inherent ambiguity in clustering semantics. To address this, we
introduce a parameter-efficient, multi-head clustering projector based on
nested Matryoshka representations. This design progressively refines features
into increasingly fine-grained clusters without increasing the model size,
enabling both performance and memory efficiency. Additionally, we propose a
novel positional disentanglement strategy that explicitly removes positional
biases from dense representations, thereby improving the encoding of semantic
content. This leads to consistent gains on several downstream benchmarks,
demonstrating the utility of cleaner feature spaces. Our contributions
establish a new standard for transparent, high-performance vision models and
open a path toward more reproducible and generalizable foundation models for
the broader AI community. The code and model checkpoints are available at
https://github.com/valeoai/Franca.