Steer2Edit: Del direccionamiento de activaciones a la edición a nivel de componentes

Resumen

Los métodos de dirección influyen en el comportamiento de los Modelos de Lenguaje a Gran Escala identificando direcciones semánticas en las representaciones ocultas, pero normalmente se materializan mediante intervenciones en las activaciones durante la inferencia que aplican una modificación fija y global a los estados internos del modelo. Si bien son efectivas, estas intervenciones suelen inducir compensaciones desfavorables entre atributos y utilidad bajo un control fuerte, ya que ignoran el hecho de que muchos comportamientos están gobernados por un subconjunto pequeño y heterogéneo de componentes del modelo. Proponemos Steer2Edit, un marco teóricamente fundamentado y libre de entrenamiento, que transforma los vectores de dirección de señales de control en tiempo de inferencia en señales de diagnóstico para la edición de pesos de rango-1 a nivel de componentes. En lugar de inyectar uniformemente una dirección de guiado durante la generación, Steer2Edit redistribuye selectivamente la influencia conductual a través de cabezas de atención individuales y neuronas MLP, produciendo ediciones interpretables que preservan la pasada hacia adelante estándar y mantienen la compatibilidad con la inferencia paralela optimizada. En áreas como la alineación de seguridad, la mitigación de alucinaciones y la eficiencia del razonamiento, Steer2Edit logra consistentemente compensaciones más favorables entre atributos y utilidad: con un rendimiento equivalente en tareas posteriores, mejora la seguridad hasta en un 17.2%, aumenta la veracidad en un 9.8% y reduce la longitud del razonamiento en un 12.2% en promedio. En general, Steer2Edit proporciona un puente fundamentado entre la dirección de representaciones y la edición de pesos, traduciendo señales de dirección en actualizaciones de parámetros interpretables y sin necesidad de entrenamiento.

English

Steering methods influence Large Language Model behavior by identifying semantic directions in hidden representations, but are typically realized through inference-time activation interventions that apply a fixed, global modification to the model's internal states. While effective, such interventions often induce unfavorable attribute-utility trade-offs under strong control, as they ignore the fact that many behaviors are governed by a small and heterogeneous subset of model components. We propose Steer2Edit, a theoretically grounded, training-free framework that transforms steering vectors from inference-time control signals into diagnostic signals for component-level rank-1 weight editing. Instead of uniformly injecting a steering direction during generation, Steer2Edit selectively redistributes behavioral influence across individual attention heads and MLP neurons, yielding interpretable edits that preserve the standard forward pass and remain compatible with optimized parallel inference. Across safety alignment, hallucination mitigation, and reasoning efficiency, Steer2Edit consistently achieves more favorable attribute-utility trade-offs: at matched downstream performance, it improves safety by up to 17.2%, increases truthfulness by 9.8%, and reduces reasoning length by 12.2% on average. Overall, Steer2Edit provides a principled bridge between representation steering and weight editing by translating steering signals into interpretable, training-free parameter updates.

Steer2Edit: Del direccionamiento de activaciones a la edición a nivel de componentes

Steer2Edit: From Activation Steering to Component-Level Editing

Resumen

Support