Denken Tijdens het Luisteren: Eenvoudige Testtijd Schaling voor Audio Classificatie
Thinking While Listening: Simple Test Time Scaling For Audio Classification
September 24, 2025
Auteurs: Prateek Verma, Mert Pilanci
cs.AI
Samenvatting
Wij stellen een raamwerk voor dat neurale modellen in staat stelt om "te denken terwijl ze luisteren" naar alledaagse geluiden, waardoor de prestaties van audioclassificatie worden verbeterd. Geïnspireerd door recente vooruitgang in de redeneervaardigheden van grote taalmodel(len), behandelen we twee centrale vragen: (i) hoe kan denken worden geïntegreerd in bestaande audioclassificatiepijplijnen om redeneren in de categorie-ruimte mogelijk te maken en de prestaties te verbeteren, en (ii) kan een nieuwe architectuur vanaf de grond worden ontworpen om zowel denken als schaling tijdens de testfase te ondersteunen? Wij tonen aan dat in beide situaties onze modellen een verbeterde classificatienauwkeurigheid vertonen. Door gebruik te maken van schaling tijdens de testfase, observeren we consistente verbeteringen naarmate het aantal bemonsterde sporen toeneemt. Daarnaast evalueren we twee open-source redeneermodellen, GPT-OSS-20B en Qwen3-14B, en laten zien dat hoewel dergelijke modellen in staat zijn tot zero-shot redeneren, een lichtgewicht aanpak—waarbij alleen de embeddingmatrix van een bevroren, kleiner model zoals GPT-2 wordt hertraind—de prestaties van op tekst gebaseerde redeneermodellen met miljarden parameters kan overtreffen.
English
We propose a framework that enables neural models to "think while listening"
to everyday sounds, thereby enhancing audio classification performance.
Motivated by recent advances in the reasoning capabilities of large language
models, we address two central questions: (i) how can thinking be incorporated
into existing audio classification pipelines to enable reasoning in the
category space and improve performance, and (ii) can a new architecture be
designed from the ground up to support both thinking and test-time scaling? We
demonstrate that in both settings, our models exhibit improved classification
accuracy. Leveraging test-time scaling, we observe consistent gains as the
number of sampled traces increases. Furthermore, we evaluate two open-source
reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are
capable of zero-shot reasoning, a lightweight approach--retraining only the
embedding matrix of a frozen, smaller model like GPT-2--can surpass the
performance of billion-parameter text-based reasoning models.