C-RADIOv4 (Rapporto Tecnico)

Abstract

Sfruttando la distillazione multi-docente, i backbone visivi agglomerativi forniscono un modello studente unificato che conserva e migliora le capacità distintive di molteplici insegnanti. In questo report tecnico, descriviamo l'ultima release della famiglia di modelli C-RADIO, C-RADIOv4, che si basa su AM-RADIO/RADIOv2.5 nel design, offrendo significativi miglioramenti su compiti downstream chiave a parità di complessità computazionale. Rilasciamo le varianti del modello -SO400M (412M parametri) e -H (631M), entrambe addestrate con un insieme aggiornato di insegnanti: SigLIP2, DINOv3 e SAM3. Oltre ai miglioramenti sulle metriche fondamentali e alle nuove capacità derivanti dall'imitazione di SAM3, la famiglia di modelli C-RADIOv4 migliora ulteriormente il supporto per qualsiasi risoluzione, ripristina l'opzione ViTDet per un'efficienza drasticamente migliorata ad alta risoluzione ed è accompagnata da una licenza permissiva.

English

By leveraging multi-teacher distillation, agglomerative vision backbones provide a unified student model that retains and improves the distinct capabilities of multiple teachers. In this tech report, we describe the most recent release of the C-RADIO family of models, C-RADIOv4, which builds upon AM-RADIO/RADIOv2.5 in design, offering strong improvements on key downstream tasks at the same computational complexity. We release -SO400M (412M params), and -H (631M) model variants, both trained with an updated set of teachers: SigLIP2, DINOv3, and SAM3. In addition to improvements on core metrics and new capabilities from imitating SAM3, the C-RADIOv4 model family further improves any-resolution support, brings back the ViTDet option for drastically enhanced efficiency at high-resolution, and comes with a permissive license.

C-RADIOv4 (Rapporto Tecnico)

C-RADIOv4 (Tech Report)

Abstract

Support