ChatPaper.aiChatPaper

Pensar mientras se escucha: Escalado simple en tiempo de prueba para la clasificación de audio

Thinking While Listening: Simple Test Time Scaling For Audio Classification

September 24, 2025
Autores: Prateek Verma, Mert Pilanci
cs.AI

Resumen

Proponemos un marco que permite a los modelos neuronales "pensar mientras escuchan" sonidos cotidianos, mejorando así el rendimiento en la clasificación de audio. Motivados por los avances recientes en las capacidades de razonamiento de los modelos de lenguaje de gran escala, abordamos dos preguntas centrales: (i) ¿cómo se puede incorporar el pensamiento en las canalizaciones existentes de clasificación de audio para habilitar el razonamiento en el espacio de categorías y mejorar el rendimiento?, y (ii) ¿se puede diseñar una nueva arquitectura desde cero para soportar tanto el pensamiento como la escalabilidad en tiempo de prueba? Demostramos que, en ambos escenarios, nuestros modelos exhiben una mayor precisión en la clasificación. Aprovechando la escalabilidad en tiempo de prueba, observamos ganancias consistentes a medida que aumenta el número de trazas muestreadas. Además, evaluamos dos modelos de razonamiento de código abierto, GPT-OSS-20B y Qwen3-14B, mostrando que, aunque estos modelos son capaces de razonamiento zero-shot, un enfoque ligero—reentrenando solo la matriz de incrustación de un modelo más pequeño y congelado como GPT-2—puede superar el rendimiento de modelos de razonamiento basados en texto con miles de millones de parámetros.
English
We propose a framework that enables neural models to "think while listening" to everyday sounds, thereby enhancing audio classification performance. Motivated by recent advances in the reasoning capabilities of large language models, we address two central questions: (i) how can thinking be incorporated into existing audio classification pipelines to enable reasoning in the category space and improve performance, and (ii) can a new architecture be designed from the ground up to support both thinking and test-time scaling? We demonstrate that in both settings, our models exhibit improved classification accuracy. Leveraging test-time scaling, we observe consistent gains as the number of sampled traces increases. Furthermore, we evaluate two open-source reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are capable of zero-shot reasoning, a lightweight approach--retraining only the embedding matrix of a frozen, smaller model like GPT-2--can surpass the performance of billion-parameter text-based reasoning models.
PDF32September 26, 2025