ChatPaper.aiChatPaper

Мышление во время прослушивания: простое масштабирование времени тестирования для классификации аудио

Thinking While Listening: Simple Test Time Scaling For Audio Classification

September 24, 2025
Авторы: Prateek Verma, Mert Pilanci
cs.AI

Аннотация

Мы предлагаем фреймворк, который позволяет нейронным моделям "думать во время прослушивания" повседневных звуков, тем самым повышая производительность классификации аудио. Вдохновленные недавними достижениями в области рассуждений крупных языковых моделей, мы рассматриваем два ключевых вопроса: (i) как можно интегрировать мышление в существующие конвейеры классификации аудио, чтобы обеспечить рассуждения в пространстве категорий и улучшить производительность, и (ii) можно ли разработать новую архитектуру с нуля, которая поддерживает как мышление, так и масштабирование во время тестирования? Мы демонстрируем, что в обоих случаях наши модели показывают улучшенную точность классификации. Используя масштабирование во время тестирования, мы наблюдаем устойчивый рост производительности по мере увеличения числа сэмплированных трасс. Кроме того, мы оцениваем две открытые модели рассуждений, GPT-OSS-20B и Qwen3-14B, показывая, что хотя такие модели способны к рассуждениям с нулевым обучением, легковесный подход — переобучение только матрицы эмбеддингов замороженной меньшей модели, такой как GPT-2 — может превзойти производительность текстовых моделей рассуждений с миллиардами параметров.
English
We propose a framework that enables neural models to "think while listening" to everyday sounds, thereby enhancing audio classification performance. Motivated by recent advances in the reasoning capabilities of large language models, we address two central questions: (i) how can thinking be incorporated into existing audio classification pipelines to enable reasoning in the category space and improve performance, and (ii) can a new architecture be designed from the ground up to support both thinking and test-time scaling? We demonstrate that in both settings, our models exhibit improved classification accuracy. Leveraging test-time scaling, we observe consistent gains as the number of sampled traces increases. Furthermore, we evaluate two open-source reasoning models, GPT-OSS-20B and Qwen3-14B, showing that while such models are capable of zero-shot reasoning, a lightweight approach--retraining only the embedding matrix of a frozen, smaller model like GPT-2--can surpass the performance of billion-parameter text-based reasoning models.
PDF32September 26, 2025