Управление скрытыми состояниями: Беспараметрическое направление моделей для цепочек рассуждений в крупных аудио-языковых моделях

Аннотация

Метод chain-of-thought (CoT) prompting был расширен для применения в больших аудио-языковых моделях (LALM) для стимулирования рассуждений, однако повышение его эффективности без обучения остается сложной задачей. Мы исследуем управление моделью во время вывода (inference-time model steering) как подход без обучения для улучшения рассуждений LALM. Мы представляем три стратегии, использующие различные источники информации, и оцениваем их на четырех моделях LALM и четырех тестовых наборах. Результаты показывают общее повышение точности до 4.4% по сравнению с CoT prompting. Примечательно, что мы выявили кросс-модальный перенос, при котором управляющие векторы, полученные из нескольких текстовых примеров, эффективно направляют речевые рассуждения, демонстрируя высокую эффективность использования данных. Мы также исследуем чувствительность к гиперпараметрам, чтобы понять устойчивость этих подходов. Наши результаты позиционируют управление моделью как практическое направление для усиления способностей LALM к рассуждению.

English

Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.

Управление скрытыми состояниями: Беспараметрическое направление моделей для цепочек рассуждений в крупных аудио-языковых моделях

Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

Аннотация

Support