Replanteando la interpretabilidad en la era de los modelos de lenguaje a gran escala
Rethinking Interpretability in the Era of Large Language Models
January 30, 2024
Autores: Chandan Singh, Jeevana Priya Inala, Michel Galley, Rich Caruana, Jianfeng Gao
cs.AI
Resumen
El aprendizaje automático interpretable ha experimentado un auge como área de interés durante la última década, impulsado por el aumento de conjuntos de datos cada vez más grandes y las redes neuronales profundas. Simultáneamente, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado capacidades notables en una amplia variedad de tareas, ofreciendo una oportunidad para replantear las posibilidades en el aprendizaje automático interpretable. En particular, la capacidad de explicar en lenguaje natural permite a los LLMs ampliar la escala y complejidad de los patrones que pueden presentarse a un ser humano. Sin embargo, estas nuevas capacidades plantean nuevos desafíos, como explicaciones alucinadas y costos computacionales inmensos.
En este documento de posición, comenzamos revisando los métodos existentes para evaluar el campo emergente de la interpretación de LLMs (tanto interpretar LLMs como usar LLMs para explicar). Argumentamos que, a pesar de sus limitaciones, los LLMs tienen el potencial de redefinir la interpretabilidad con un alcance más ambicioso en muchas aplicaciones, incluyendo la auditoría de los propios LLMs. Destacamos dos prioridades de investigación emergentes para la interpretación de LLMs: usar LLMs para analizar directamente nuevos conjuntos de datos y generar explicaciones interactivas.
English
Interpretable machine learning has exploded as an area of interest over the
last decade, sparked by the rise of increasingly large datasets and deep neural
networks. Simultaneously, large language models (LLMs) have demonstrated
remarkable capabilities across a wide array of tasks, offering a chance to
rethink opportunities in interpretable machine learning. Notably, the
capability to explain in natural language allows LLMs to expand the scale and
complexity of patterns that can be given to a human. However, these new
capabilities raise new challenges, such as hallucinated explanations and
immense computational costs.
In this position paper, we start by reviewing existing methods to evaluate
the emerging field of LLM interpretation (both interpreting LLMs and using LLMs
for explanation). We contend that, despite their limitations, LLMs hold the
opportunity to redefine interpretability with a more ambitious scope across
many applications, including in auditing LLMs themselves. We highlight two
emerging research priorities for LLM interpretation: using LLMs to directly
analyze new datasets and to generate interactive explanations.