Pensare Mentre si Ascolta: Scalabilità Semplice al Momento del Test per la Classificazione Audio
Thinking While Listening: Simple Test Time Scaling For Audio Classification
September 24, 2025
Autori: Prateek Verma, Mert Pilanci
cs.AI
Abstract
Proponiamo un framework che consente ai modelli neurali di "pensare mentre ascoltano" suoni quotidiani, migliorando così le prestazioni nella classificazione audio. Ispirati dai recenti progressi nelle capacità di ragionamento dei grandi modelli linguistici, affrontiamo due questioni centrali: (i) come può essere incorporato il pensiero nelle pipeline esistenti di classificazione audio per abilitare il ragionamento nello spazio delle categorie e migliorare le prestazioni, e (ii) è possibile progettare una nuova architettura da zero che supporti sia il pensiero che lo scaling al momento del test? Dimostriamo che, in entrambi i contesti, i nostri modelli mostrano una maggiore accuratezza nella classificazione. Sfruttando lo scaling al momento del test, osserviamo miglioramenti costanti all'aumentare del numero di tracce campionate. Inoltre, valutiamo due modelli di ragionamento open-source, GPT-OSS-20B e Qwen3-14B, dimostrando che, sebbene tali modelli siano in grado di ragionamento zero-shot, un approccio leggero—riaddestrando solo la matrice di embedding di un modello più piccolo e congelato come GPT-2—può superare le prestazioni di modelli di ragionamento basati su testo con miliardi di parametri.
English
We propose a framework that enables neural models to "think while listening"
to everyday sounds, thereby enhancing audio classification performance.
Motivated by recent advances in the reasoning capabilities of large language
models, we address two central questions: (i) how can thinking be incorporated
into existing audio classification pipelines to enable reasoning in the
category space and improve performance, and (ii) can a new architecture be
designed from the ground up to support both thinking and test-time scaling? We
demonstrate that in both settings, our models exhibit improved classification
accuracy. Leveraging test-time scaling, we observe consistent gains as the
number of sampled traces increases. Furthermore, we evaluate two open-source
reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are
capable of zero-shot reasoning, a lightweight approach--retraining only the
embedding matrix of a frozen, smaller model like GPT-2--can surpass the
performance of billion-parameter text-based reasoning models.