Todo en Todas Partes al Mismo Tiempo: Los LLM pueden Aprender Múltiples Tareas en Contexto en Superposición
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition
October 8, 2024
Autores: Zheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos
cs.AI
Resumen
Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado notables capacidades de aprendizaje en contexto (AEC). En este estudio, exploramos un fenómeno sorprendente relacionado con la AEC: los LLMs pueden llevar a cabo múltiples tareas de AEC computacionalmente distintas simultáneamente, durante una única llamada de inferencia, una capacidad que denominamos "superposición de tareas". Presentamos evidencia empírica de este fenómeno en diversas familias y escalas de LLMs, y demostramos que esta capacidad emerge incluso si entrenamos al modelo para aprender en contexto una tarea a la vez. Ofrecemos explicaciones teóricas de que esta capacidad se encuentra dentro del poder expresivo de los transformadores. También investigamos cómo los LLMs componen internamente vectores de tarea durante la superposición. Además, mostramos que modelos más grandes pueden resolver más tareas de AEC en paralelo y calibrar mejor su distribución de salida. Nuestros hallazgos ofrecen perspectivas sobre las capacidades latentes de los LLMs, respaldan aún más la perspectiva de "LLMs como superposición de simuladores" y plantean interrogantes sobre los mecanismos que permiten la ejecución simultánea de tareas.
English
Large Language Models (LLMs) have demonstrated remarkable in-context learning
(ICL) capabilities. In this study, we explore a surprising phenomenon related
to ICL: LLMs can perform multiple, computationally distinct ICL tasks
simultaneously, during a single inference call, a capability we term "task
superposition". We provide empirical evidence of this phenomenon across various
LLM families and scales and show that this phenomenon emerges even if we train
the model to in-context learn one task at a time. We offer theoretical
explanations that this capability is well within the expressive power of
transformers. We also explore how LLMs internally compose task vectors during
superposition. Furthermore, we show that larger models can solve more ICL tasks
in parallel, and better calibrate their output distribution. Our findings offer
insights into the latent capabilities of LLMs, further substantiate the
perspective of "LLMs as superposition of simulators", and raise questions about
the mechanisms enabling simultaneous task execution.Summary
AI-Generated Summary