ReFT: Ajuste fino de representaciones para modelos de lenguajeReFT: Representation Finetuning for Language Models
Los métodos de ajuste fino eficiente en parámetros (PEFT, por sus siglas en inglés) buscan adaptar modelos grandes mediante actualizaciones a un número reducido de pesos. Sin embargo, gran parte del trabajo previo en interpretabilidad ha demostrado que las representaciones codifican información semántica rica, lo que sugiere que editar representaciones podría ser una alternativa más poderosa. Aquí, exploramos esta hipótesis desarrollando una familia de métodos de Ajuste Fino de Representaciones (ReFT, por sus siglas en inglés). Los métodos ReFT operan sobre un modelo base congelado y aprenden intervenciones específicas para la tarea en las representaciones ocultas. Definimos una instancia sólida de la familia ReFT, el Ajuste Fino de Subespacio Lineal de Bajo Rango (LoReFT, por sus siglas en inglés). LoReFT es un reemplazo directo para los PEFTs existentes y aprende intervenciones que son 10x-50x más eficientes en parámetros que los PEFTs más avanzados anteriores. Mostramos LoReFT en ocho tareas de razonamiento de sentido común, cuatro tareas de razonamiento aritmético, Alpaca-Eval v1.0 y GLUE. En todas estas evaluaciones, LoReFT ofrece el mejor equilibrio entre eficiencia y rendimiento, y casi siempre supera a los PEFTs más avanzados. Publicamos una biblioteca genérica de entrenamiento ReFT en https://github.com/stanfordnlp/pyreft.