Denken beim Zuhören: Einfache Testzeit-Skalierung für die Audio-Klassifizierung
Thinking While Listening: Simple Test Time Scaling For Audio Classification
September 24, 2025
papers.authors: Prateek Verma, Mert Pilanci
cs.AI
papers.abstract
Wir schlagen ein Framework vor, das neuronale Modelle dazu befähigt, „während des Hörens“ alltäglicher Geräusche zu „denken“ und dadurch die Leistung bei der Audio-Klassifikation zu verbessern. Angeregt durch jüngste Fortschritte in den Denkfähigkeiten großer Sprachmodelle, adressieren wir zwei zentrale Fragen: (i) Wie kann Denken in bestehende Audio-Klassifikationspipelines integriert werden, um Schlussfolgerungen im Kategorieraum zu ermöglichen und die Leistung zu steigern, und (ii) Kann eine neue Architektur von Grund auf entwickelt werden, die sowohl Denken als auch Skalierung zur Testzeit unterstützt? Wir zeigen, dass unsere Modelle in beiden Szenarien eine verbesserte Klassifikationsgenauigkeit aufweisen. Durch die Nutzung der Skalierung zur Testzeit beobachten wir konsistente Leistungssteigerungen, wenn die Anzahl der abgetasteten Spuren zunimmt. Darüber hinaus evaluieren wir zwei Open-Source-Denkmodelle, GPT-OSS-20B und Qwen3-14B, und zeigen, dass solche Modelle zwar zu Zero-Shot-Schlussfolgerungen fähig sind, ein leichtgewichtiger Ansatz – bei dem nur die Einbettungsmatrix eines eingefrorenen, kleineren Modells wie GPT-2 neu trainiert wird – die Leistung von milliardenparametrigen textbasierten Denkmodellen übertreffen kann.
English
We propose a framework that enables neural models to "think while listening"
to everyday sounds, thereby enhancing audio classification performance.
Motivated by recent advances in the reasoning capabilities of large language
models, we address two central questions: (i) how can thinking be incorporated
into existing audio classification pipelines to enable reasoning in the
category space and improve performance, and (ii) can a new architecture be
designed from the ground up to support both thinking and test-time scaling? We
demonstrate that in both settings, our models exhibit improved classification
accuracy. Leveraging test-time scaling, we observe consistent gains as the
number of sampled traces increases. Furthermore, we evaluate two open-source
reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are
capable of zero-shot reasoning, a lightweight approach--retraining only the
embedding matrix of a frozen, smaller model like GPT-2--can surpass the
performance of billion-parameter text-based reasoning models.