Manipulando Estados Ocultos: Direcionamento de Modelos sem Treinamento para Raciocínio em Cadeia de Pensamento em Grandes Modelos de Áudio e Linguagem

Resumo

A técnica de prompting de cadeia de pensamento (CoT) foi estendida a grandes modelos de áudio e linguagem (LALMs) para eliciar raciocínio, mas melhorar sua eficácia sem treinamento permanece um desafio. Estudamos a orientação do modelo no momento da inferência como uma abordagem livre de treinamento para melhorar o raciocínio dos LALMs. Introduzimos três estratégias que utilizam fontes de informação diversas e as avaliamos em quatro LALMs e quatro benchmarks. Os resultados mostram ganhos gerais de precisão de até 4,4% sobre o prompting CoT. Notavelmente, identificamos uma transferência cross-modal em que vetores de orientação derivados de poucas amostras de texto guiam efetivamente o raciocínio baseado em fala, demonstrando alta eficiência de dados. Também examinamos a sensibilidade aos hiperparâmetros para compreender a robustez dessas abordagens. Nossas descobertas posicionam a orientação do modelo como uma direção prática para fortalecer o raciocínio dos LALMs.

English

Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.

Manipulando Estados Ocultos: Direcionamento de Modelos sem Treinamento para Raciocínio em Cadeia de Pensamento em Grandes Modelos de Áudio e Linguagem

Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

Resumo

Support