C-RADIOv4 (Relatório Técnico)

Resumo

Ao aproveitar a destilação multi-professores, os backbones visuais aglomerativos fornecem um modelo de estudante unificado que retém e aprimora as capacidades distintas de múltiplos professores. Neste relatório técnico, descrevemos o lançamento mais recente da família de modelos C-RADIO, o C-RADIOv4, que se baseia no AM-RADIO/RADIOv2.5 em design, oferecendo fortes melhorias em tarefas downstream-chave com a mesma complexidade computacional. Lançamos as variantes de modelo -SO400M (412M de parâmetros) e -H (631M), ambas treinadas com um conjunto atualizado de professores: SigLIP2, DINOv3 e SAM3. Além das melhorias nas métricas principais e das novas capacidades provenientes da imitação do SAM3, a família de modelos C-RADIOv4 aprimora ainda mais o suporte a qualquer resolução, traz de volta a opção ViTDet para eficiência drasticamente aprimorada em alta resolução, e é acompanhada por uma licença permissiva.

English

By leveraging multi-teacher distillation, agglomerative vision backbones provide a unified student model that retains and improves the distinct capabilities of multiple teachers. In this tech report, we describe the most recent release of the C-RADIO family of models, C-RADIOv4, which builds upon AM-RADIO/RADIOv2.5 in design, offering strong improvements on key downstream tasks at the same computational complexity. We release -SO400M (412M params), and -H (631M) model variants, both trained with an updated set of teachers: SigLIP2, DINOv3, and SAM3. In addition to improvements on core metrics and new capabilities from imitating SAM3, the C-RADIOv4 model family further improves any-resolution support, brings back the ViTDet option for drastically enhanced efficiency at high-resolution, and comes with a permissive license.