Pensando Enquanto Escuta: Escalonamento Simples no Tempo de Teste para Classificação de Áudio
Thinking While Listening: Simple Test Time Scaling For Audio Classification
September 24, 2025
Autores: Prateek Verma, Mert Pilanci
cs.AI
Resumo
Propomos um framework que permite que modelos neurais "pensem enquanto ouvem" sons cotidianos, melhorando assim o desempenho na classificação de áudio. Motivados pelos avanços recentes nas capacidades de raciocínio de grandes modelos de linguagem, abordamos duas questões centrais: (i) como o pensamento pode ser incorporado aos pipelines existentes de classificação de áudio para permitir o raciocínio no espaço de categorias e melhorar o desempenho, e (ii) uma nova arquitetura pode ser projetada desde o início para suportar tanto o pensamento quanto a escalabilidade em tempo de teste? Demonstramos que, em ambos os cenários, nossos modelos exibem uma precisão de classificação aprimorada. Aproveitando a escalabilidade em tempo de teste, observamos ganhos consistentes à medida que o número de traços amostrados aumenta. Além disso, avaliamos dois modelos de raciocínio de código aberto, GPT-OSS-20B e Qwen3-14B, mostrando que, embora tais modelos sejam capazes de raciocínio zero-shot, uma abordagem leve—retreinando apenas a matriz de embeddings de um modelo menor e congelado, como o GPT-2—pode superar o desempenho de modelos de raciocínio baseados em texto com bilhões de parâmetros.
English
We propose a framework that enables neural models to "think while listening"
to everyday sounds, thereby enhancing audio classification performance.
Motivated by recent advances in the reasoning capabilities of large language
models, we address two central questions: (i) how can thinking be incorporated
into existing audio classification pipelines to enable reasoning in the
category space and improve performance, and (ii) can a new architecture be
designed from the ground up to support both thinking and test-time scaling? We
demonstrate that in both settings, our models exhibit improved classification
accuracy. Leveraging test-time scaling, we observe consistent gains as the
number of sampled traces increases. Furthermore, we evaluate two open-source
reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are
capable of zero-shot reasoning, a lightweight approach--retraining only the
embedding matrix of a frozen, smaller model like GPT-2--can surpass the
performance of billion-parameter text-based reasoning models.