UniSteer: Emparejamiento de Flujo Guiado por Texto en el Espacio de Activación para el Direccionamiento Versátil de LLM

Resumen

El control basado en activaciones dirige los modelos de lenguaje grandes (LLMs) mediante la intervención en sus representaciones internas durante la inferencia, y se ha consolidado como un paradigma eficaz para controlar comportamientos como la personalidad y el estilo. Sin embargo, los métodos existentes a menudo dependen de direcciones de control fijas o módulos de intervención específicos para cada tarea, lo que dificulta su adaptación a conceptos detallados y restricciones compositivas. Proponemos UniSteer, un modelo de emparejamiento de flujo de activaciones guiado por texto que aprende una distribución condicional sobre las activaciones del flujo residual a partir de condiciones en lenguaje natural. En lugar de ajustar una intervención separada para cada comportamiento objetivo, UniSteer aprende un campo de velocidad condicional universal en el espacio de activaciones. Durante la inferencia, UniSteer realiza inversión de flujo al transportar parcialmente una activación fuente hacia un estado latente y regenerarla bajo una condición textual objetivo, antes de inyectarla de vuelta en el LLM congelado. El mismo modelo condicional admite clasificación en el espacio de activaciones al seleccionar la etiqueta textual con la menor energía de reconstrucción. Los experimentos en tres LLMs objetivo muestran que UniSteer proporciona una interfaz unificada para control de comportamiento, dirección de veracidad, dirección de conceptos detallados, seguimiento de instrucciones con múltiples restricciones y clasificación en el espacio de activaciones.

English

Activation-based control steers large language models (LLMs) by intervening on their internal representations during inference, and has emerged as an effective paradigm for controlling behaviors such as persona and style. However, existing methods often rely on fixed steering directions or task-specific intervention modules, making them difficult to adapt to fine-grained concepts and compositional constraints. We propose UniSteer, a text-guided activation flow matching model that learns a conditional distribution over residual-stream activations from natural-language conditions. Instead of fitting a separate intervention for each target behavior, UniSteer learns a universal conditional velocity field in activation space. At inference time, UniSteer performs flow inversion by partially transporting a source activation toward a latent state and regenerating it under a target textual condition before injecting it back into the frozen LLM. The same conditional model supports activation-space classification by selecting the textual label with the lowest reconstruction energy. Experiments on three target LLMs show that UniSteer provides a unified interface across behavioral control, truthfulness steering, fine-grained concept steering, multi-constraint instruction following, and activation-space classification.