Manipulation des États Cachés : Pilotage de Modèles Sans Entraînement pour le Raisonnement en Chaîne dans les Grands Modèles Audio-Linguistiques

Résumé

Le promptage en chaîne de pensée (CoT) a été étendu aux grands modèles audio-linguistiques (LALM) pour susciter un raisonnement, mais améliorer son efficacité sans entraînement reste un défi. Nous étudions le pilotage du modèle lors de l'inférence comme une approche sans entraînement pour améliorer le raisonnement des LALM. Nous introduisons trois stratégies utilisant des sources d'information diverses et les évaluons sur quatre LALM et quatre benchmarks. Les résultats montrent des gains de précision généraux allant jusqu'à 4,4 % par rapport au promptage CoT. Notamment, nous identifions un transfert cross-modal où des vecteurs de pilotage dérivés de quelques échantillons textuels guident efficacement le raisonnement basé sur la parole, démontrant une haute efficacité des données. Nous examinons également la sensibilité aux hyperparamètres pour comprendre la robustesse de ces approches. Nos résultats positionnent le pilotage de modèle comme une direction pratique pour renforcer le raisonnement des LALM.

English

Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.

Manipulation des États Cachés : Pilotage de Modèles Sans Entraînement pour le Raisonnement en Chaîne dans les Grands Modèles Audio-Linguistiques

Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

Résumé

Support