TALON: Aprendizaje Adaptativo en Tiempo de Prueba para el Descubrimiento de Categorías sobre la Marcha
TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery
March 9, 2026
Autores: Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li
cs.AI
Resumen
El descubrimiento de categorías sobre la marcha (OCD) tiene como objetivo reconocer categorías conocidas mientras descubre simultáneamente otras nuevas a partir de un flujo en línea no etiquetado, utilizando un modelo entrenado únicamente con datos etiquetados. Los enfoques existentes congelan el extractor de características entrenado fuera de línea y emplean un marco basado en *hash* que cuantifica las características en códigos binarios como prototipos de clase. Sin embargo, descubrir categorías novedosas con una base de conocimientos fija es contradictorio, ya que se ignora por completo el potencial de aprendizaje de los datos entrantes. Además, la cuantificación de características introduce pérdida de información, reduce la expresividad representacional y amplifica la varianza intraclase. A menudo resulta en una explosión de categorías, donde una sola clase se fragmenta en múltiples pseudo-clases. Para superar estas limitaciones, proponemos un marco de adaptación en tiempo de prueba que permite aprender mediante el descubrimiento. Este incorpora dos estrategias complementarias: una actualización de prototipos consciente de la semántica y una actualización estable del codificador en tiempo de prueba. La primera refina dinámicamente los prototipos de clase para mejorar la clasificación, mientras que la segunda integra nueva información directamente en el espacio de parámetros. Juntos, estos componentes permiten que el modelo expanda continuamente su base de conocimientos con las muestras recién encontradas. Además, introducimos una calibración de *logits* consciente del margen en la etapa fuera de línea para ampliar los márgenes interclase y mejorar la compacidad intraclase, reservando así espacio de incrustación para el futuro descubrimiento de clases. Los experimentos en benchmarks estándar de OCD demuestran que nuestro método supera sustancialmente a los enfoques state-of-the-art existentes basados en *hash*, logrando mejoras notables en la precisión de clases novedosas y mitigando efectivamente la explosión de categorías. El código está disponible públicamente en \url{https://github.com/ynanwu/TALON}.
English
On-the-fly category discovery (OCD) aims to recognize known categories while simultaneously discovering novel ones from an unlabeled online stream, using a model trained only on labeled data. Existing approaches freeze the feature extractor trained offline and employ a hash-based framework that quantizes features into binary codes as class prototypes. However, discovering novel categories with a fixed knowledge base is counterintuitive, as the learning potential of incoming data is entirely neglected. In addition, feature quantization introduces information loss, diminishes representational expressiveness, and amplifies intra-class variance. It often results in category explosion, where a single class is fragmented into multiple pseudo-classes. To overcome these limitations, we propose a test-time adaptation framework that enables learning through discovery. It incorporates two complementary strategies: a semantic-aware prototype update and a stable test-time encoder update. The former dynamically refines class prototypes to enhance classification, whereas the latter integrates new information directly into the parameter space. Together, these components allow the model to continuously expand its knowledge base with newly encountered samples. Furthermore, we introduce a margin-aware logit calibration in the offline stage to enlarge inter-class margins and improve intra-class compactness, thereby reserving embedding space for future class discovery. Experiments on standard OCD benchmarks demonstrate that our method substantially outperforms existing hash-based state-of-the-art approaches, yielding notable improvements in novel-class accuracy and effectively mitigating category explosion. The code is publicly available at blue{https://github.com/ynanwu/TALON}.