내재된 상태 유도: 대규모 오디오-언어 모델의 사고 연쇄 추론을 위한 학습 없는 모델 조향
Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models
March 15, 2026
저자: Lok-Lam Ieong, Chia-Chien Chen, Chih-Kai Yang, Yu-Han Huang, An-Yu Cheng, Hung-yi Lee
cs.AI
초록
체인 오브 사고(CoT) 프롬프팅이 대규모 오디오-언어 모델(LALM)의 추론 능력을 이끌어 내기 위해 확장되었으나, 훈련 없이 그 효과를 향상시키는 것은 여전히 어려운 과제입니다. 본 연구에서는 LALM의 추론 능력을 개선하기 위한 훈련 불필요 방식으로 추론 시점 모델 스티어링을 연구합니다. 우리는 다양한 정보 출처를 활용한 세 가지 전략을 도입하고, 4개의 LALM과 4개의 벤치마크에서 이를 평가했습니다. 결과는 CoT 프롬프팅 대비 최대 4.4%의 전반적인 정확도 향상을 보여줍니다. 특히, 소량의 텍스트 샘플에서 도출된 스티어링 벡터가 음성 기반 추론을 효과적으로 안내하는 교차 모달 전이 현상을 확인하여 높은 데이터 효율성을 입증했습니다. 또한 이러한 접근법의 강건성을 이해하기 위해 하이퍼파라미터 민감도를 분석합니다. 우리의 연구 결과는 모델 스티어링이 LALM 추론 강화를 위한 실용적인 방향성을 제시함을 보여줍니다.
English
Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.