Manipolare gli Stati Nascosti: Guida del Modello Senza Addestramento per il Ragionamento a Catena nei Grandi Modelli Audio-Linguistici

Abstract

Il prompting a catena di pensiero (CoT) è stato esteso ai grandi modelli audio-linguistici (LALM) per sollecitare il ragionamento, ma migliorarne l'efficacia senza addestramento rimane una sfida. Studiamo lo steering del modello al momento dell'inferenza come approccio senza training per potenziare il ragionamento dei LALM. Introduciamo tre strategie che utilizzano fonti informative diverse e le valutiamo su quattro LALM e quattro benchmark. I risultati mostrano miglioramenti generali dell'accuratezza fino al 4,4% rispetto al prompting CoT. In particolare, identifichiamo un trasferimento cross-modale in cui vettori di steering derivati da pochi campioni testuali guidano efficacemente il ragionamento basato sul parlato, dimostrando un'elevata efficienza dei dati. Esaminiamo inoltre la sensibilità agli iperparametri per comprendere la robustezza di questi approcci. I nostri risultati posizionano lo steering del modello come una direzione pratica per rafforzare il ragionamento dei LALM.

English

Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.

Manipolare gli Stati Nascosti: Guida del Modello Senza Addestramento per il Ragionamento a Catena nei Grandi Modelli Audio-Linguistici

Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

Abstract

Support