Penser en écoutant : mise à l'échelle simple au moment du test pour la classification audio
Thinking While Listening: Simple Test Time Scaling For Audio Classification
September 24, 2025
papers.authors: Prateek Verma, Mert Pilanci
cs.AI
papers.abstract
Nous proposons un cadre permettant aux modèles neuronaux de "penser en écoutant" des sons quotidiens, améliorant ainsi les performances de classification audio. Motivés par les récents progrès dans les capacités de raisonnement des grands modèles de langage, nous abordons deux questions centrales : (i) comment intégrer la pensée dans les pipelines existants de classification audio pour permettre un raisonnement dans l'espace des catégories et améliorer les performances, et (ii) peut-on concevoir une nouvelle architecture dès la base pour supporter à la fois la pensée et la mise à l'échelle au moment du test ? Nous démontrons que dans les deux cas, nos modèles présentent une précision de classification améliorée. En exploitant la mise à l'échelle au moment du test, nous observons des gains constants à mesure que le nombre de traces échantillonnées augmente. De plus, nous évaluons deux modèles de raisonnement open-source, GPT-OSS-20B et Qwen3-14B, montrant que bien que ces modèles soient capables de raisonnement zero-shot, une approche légère—réentraînant uniquement la matrice d'embedding d'un modèle plus petit et figé comme GPT-2—peut surpasser les performances des modèles de raisonnement basés sur le texte avec des milliards de paramètres.
English
We propose a framework that enables neural models to "think while listening"
to everyday sounds, thereby enhancing audio classification performance.
Motivated by recent advances in the reasoning capabilities of large language
models, we address two central questions: (i) how can thinking be incorporated
into existing audio classification pipelines to enable reasoning in the
category space and improve performance, and (ii) can a new architecture be
designed from the ground up to support both thinking and test-time scaling? We
demonstrate that in both settings, our models exhibit improved classification
accuracy. Leveraging test-time scaling, we observe consistent gains as the
number of sampled traces increases. Furthermore, we evaluate two open-source
reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are
capable of zero-shot reasoning, a lightweight approach--retraining only the
embedding matrix of a frozen, smaller model like GPT-2--can surpass the
performance of billion-parameter text-based reasoning models.