ChatPaper.aiChatPaper

Franca: 확장 가능한 시각적 표현 학습을 위한 중첩 마트료시카 클러스터링

Franca: Nested Matryoshka Clustering for Scalable Visual Representation Learning

July 18, 2025
저자: Shashanka Venkataramanan, Valentinos Pariza, Mohammadreza Salehi, Lukas Knobel, Spyros Gidaris, Elias Ramzi, Andrei Bursuc, Yuki M. Asano
cs.AI

초록

우리는 Franca(프랑카, '자유로운 자'라는 의미)를 소개합니다: 이는 최초의 완전 오픈소스(데이터, 코드, 가중치) 비전 파운데이션 모델로, DINOv2, CLIP, SigLIPv2 등 최첨단 독점 모델들의 성능을 따라잡고 많은 경우 이를 능가합니다. 우리의 접근 방식은 Web-SSL에서 영감을 받은 투명한 학습 파이프라인에 기반을 두며, 공개적으로 이용 가능한 데이터인 ImageNet-21K와 ReLAION-2B의 부분집합을 사용합니다. 모델 릴리스 외에도, 우리는 SSL 클러스터링 방법의 중요한 한계를 해결합니다. 현대 모델들은 Sinkhorn-Knopp와 같은 클러스터링 알고리즘을 통해 이미지 특징을 대규모 코드북에 할당하는 데 의존하지만, 클러스터링 의미의 본질적인 모호성을 고려하지 못합니다. 이를 해결하기 위해, 우리는 중첩된 마트료시카 표현에 기반한 매개변수 효율적인 멀티헤드 클러스터링 프로젝터를 도입했습니다. 이 설계는 모델 크기를 증가시키지 않으면서 점점 더 세분화된 클러스터로 특징을 정제하여 성능과 메모리 효율성을 모두 달성합니다. 또한, 우리는 새로운 위치 분리 전략을 제안하여 밀집 표현에서 위치 편향을 명시적으로 제거함으로써 의미론적 내용의 인코딩을 개선합니다. 이는 더 깨끗한 특징 공간의 유용성을 입증하며, 여러 다운스트림 벤치마크에서 일관된 성능 향상을 이끌어냅니다. 우리의 기여는 투명하면서도 고성능인 비전 모델의 새로운 기준을 세우고, 더 넓은 AI 커뮤니티를 위해 재현 가능하고 일반화 가능한 파운데이션 모델로 나아가는 길을 열어줍니다. 코드와 모델 체크포인트는 https://github.com/valeoai/Franca에서 이용 가능합니다.
English
We present Franca (pronounced Fran-ka): free one; the first fully open-source (data, code, weights) vision foundation model that matches and in many cases surpasses the performance of state-of-the-art proprietary models, e.g., DINOv2, CLIP, SigLIPv2, etc. Our approach is grounded in a transparent training pipeline inspired by Web-SSL and uses publicly available data: ImageNet-21K and a subset of ReLAION-2B. Beyond model release, we tackle critical limitations in SSL clustering methods. While modern models rely on assigning image features to large codebooks via clustering algorithms like Sinkhorn-Knopp, they fail to account for the inherent ambiguity in clustering semantics. To address this, we introduce a parameter-efficient, multi-head clustering projector based on nested Matryoshka representations. This design progressively refines features into increasingly fine-grained clusters without increasing the model size, enabling both performance and memory efficiency. Additionally, we propose a novel positional disentanglement strategy that explicitly removes positional biases from dense representations, thereby improving the encoding of semantic content. This leads to consistent gains on several downstream benchmarks, demonstrating the utility of cleaner feature spaces. Our contributions establish a new standard for transparent, high-performance vision models and open a path toward more reproducible and generalizable foundation models for the broader AI community. The code and model checkpoints are available at https://github.com/valeoai/Franca.
PDF315July 21, 2025