Manipulación de Estados Ocultos: Direccionamiento de Modelos sin Entrenamiento para el Razonamiento de Cadena de Pensamiento en Grandes Modelos de Audio y Lenguaje

Resumen

El prompting de cadena de pensamiento (CoT) se ha extendido a los grandes modelos de audio y lenguaje (LALM) para elicitar razonamiento, aunque mejorar su efectividad sin entrenamiento sigue siendo un desafío. Estudiamos la guía del modelo en tiempo de inferencia como un enfoque libre de entrenamiento para mejorar el razonamiento de los LALM. Introducimos tres estrategias que utilizan diversas fuentes de información y las evaluamos en cuatro LALM y cuatro benchmarks. Los resultados muestran ganancias generales de precisión de hasta el 4.4% sobre el prompting CoT. Notablemente, identificamos una transferencia multimodal donde los vectores de guía derivados de pocas muestras de texto dirigen efectivamente el razonamiento basado en habla, demostrando una alta eficiencia de datos. También examinamos la sensibilidad a los hiperparámetros para comprender la robustez de estos enfoques. Nuestros hallazgos posicionan a la guía del modelo como una dirección práctica para fortalecer el razonamiento de los LALM.

English

Chain-of-thought (CoT) prompting has been extended to large audio-language models (LALMs) to elicit reasoning, yet enhancing its effectiveness without training remains challenging. We study inference-time model steering as a training-free approach to improve LALM reasoning. We introduce three strategies using diverse information sources and evaluate them across four LALMs and four benchmarks. Results show general accuracy gains up to 4.4% over CoT prompting. Notably, we identify a cross-modal transfer where steering vectors derived from few text samples effectively guide speech-based reasoning, demonstrating high data efficiency. We also examine hyperparameter sensitivity to understand the robustness of these approaches. Our findings position model steering as a practical direction for strengthening LALM reasoning.

Manipulación de Estados Ocultos: Direccionamiento de Modelos sin Entrenamiento para el Razonamiento de Cadena de Pensamiento en Grandes Modelos de Audio y Lenguaje

Nudging Hidden States: Training-Free Model Steering for Chain-of-Thought Reasoning in Large Audio-Language Models

Resumen

Support