Beeinflussung versteckter Zustände: Trainingsfreie Modellsteuerung für Ketten-Denkprozesse in großen Audio-Sprach-Modellen

Zusammenfassung

Chain-of-Thought (CoT) Prompting wurde auf große Audio-Sprach-Modelle (LALMs) erweitert, um logisches Schlussfolgern zu ermöglichen, doch die Steigerung seiner Effektivität ohne Training bleibt eine Herausforderung. Wir untersuchen die Steuerung von Modellen zur Inferenzzeit als trainingsfreien Ansatz zur Verbesserung des logischen Denkens von LALMs. Wir führen drei Strategien ein, die verschiedene Informationsquellen nutzen, und evaluieren sie anhand von vier LALMs und vier Benchmarks. Die Ergebnisse zeigen allgemeine Genauigkeitssteigerungen von bis zu 4,4 % gegenüber CoT-Prompting. Bemerkenswerterweise identifizieren wir einen cross-modalen Transfer, bei dem Steuerungsvektoren, die aus wenigen Textbeispielen abgeleitet werden, die sprachbasierte Argumentation effektiv lenken, was eine hohe Dateneffizienz demonstriert. Wir untersuchen auch die Hyperparameterempfindlichkeit, um die Robustheit dieser Ansätze zu verstehen. Unsere Ergebnisse positionieren die Modellsteuerung als praktischen Ansatz zur Stärkung des logischen Denkens von LALMs.

English

Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.

Beeinflussung versteckter Zustände: Trainingsfreie Modellsteuerung für Ketten-Denkprozesse in großen Audio-Sprach-Modellen

Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

Zusammenfassung

Support