Franca: スケーラブルな視覚表現学習のためのネスト型マトリョーシカクラスタリング
Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning
July 18, 2025
著者: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI
要旨
私たちはFranca(フランカ:自由な者)を紹介します。これは、データ、コード、重みのすべてが完全にオープンソースである初めてのビジョン基盤モデルであり、多くの場合において最先端のプロプライエタリモデル(例:DINOv2、CLIP、SigLIPv2など)の性能に匹敵し、それを凌駕します。私たちのアプローチは、Web-SSLにインスパイアされた透明性の高いトレーニングパイプラインに基づいており、公開されているデータ(ImageNet-21KとReLAION-2Bのサブセット)を使用しています。モデルのリリースに加えて、SSLクラスタリング手法の重要な限界に取り組みます。現代のモデルは、Sinkhorn-Knoppのようなクラスタリングアルゴリズムを使用して画像特徴を大規模なコードブックに割り当てることに依存していますが、クラスタリングセマンティクスに内在する曖昧さを考慮していません。これを解決するために、私たちはネストされたマトリョーシカ表現に基づくパラメータ効率の高いマルチヘッドクラスタリングプロジェクターを導入します。この設計は、モデルサイズを増やすことなく、特徴をより細かいクラスターに段階的に洗練し、性能とメモリ効率の両方を実現します。さらに、新しい位置情報分離戦略を提案し、密な表現から位置バイアスを明示的に除去することで、セマンティックコンテンツのエンコーディングを改善します。これにより、いくつかのダウンストリームベンチマークで一貫した向上が得られ、よりクリーンな特徴空間の有用性が示されます。私たちの貢献は、透明性の高い高性能ビジョンモデルの新たな基準を確立し、より再現性が高く一般化可能な基盤モデルへの道を広くAIコミュニティに開くものです。コードとモデルチェックポイントはhttps://github.com/valeoai/Francaで公開されています。
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source
(data, code, weights) vision foundation model that matches and in many cases
surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2,
CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training
pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and
a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in
SSL clustering methods. While modern models rely on assigning image features to
large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to
account for the inherent ambiguity in clustering semantics. To address this, we
introduce a parameter-efficient, multi-head clustering projector based on
nested Matryoshka representations. This design progressively refines features
into increasingly fine-grained clusters without increasing the model size,
enabling both performance and memory efficiency. Additionally, we propose a
novel positional disentanglement strategy that explicitly removes positional
biases from dense representations, thereby improving the encoding of semantic
content. This leads to consistent gains on several downstream benchmarks,
demonstrating the utility of cleaner feature spaces. Our contributions
establish a new standard for transparent, high-performance vision models and
open a path toward more reproducible and generalizable foundation models for
the broader AI community. The code and model checkpoints are available at
https://github.com/valeoai/Franca.