Todo en Todas Partes al Mismo Tiempo: Los LLM pueden Aprender Múltiples Tareas en Contexto en Superposición

Resumen

Los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado notables capacidades de aprendizaje en contexto (AEC). En este estudio, exploramos un fenómeno sorprendente relacionado con la AEC: los LLMs pueden llevar a cabo múltiples tareas de AEC computacionalmente distintas simultáneamente, durante una única llamada de inferencia, una capacidad que denominamos "superposición de tareas". Presentamos evidencia empírica de este fenómeno en diversas familias y escalas de LLMs, y demostramos que esta capacidad emerge incluso si entrenamos al modelo para aprender en contexto una tarea a la vez. Ofrecemos explicaciones teóricas de que esta capacidad se encuentra dentro del poder expresivo de los transformadores. También investigamos cómo los LLMs componen internamente vectores de tarea durante la superposición. Además, mostramos que modelos más grandes pueden resolver más tareas de AEC en paralelo y calibrar mejor su distribución de salida. Nuestros hallazgos ofrecen perspectivas sobre las capacidades latentes de los LLMs, respaldan aún más la perspectiva de "LLMs como superposición de simuladores" y plantean interrogantes sobre los mecanismos que permiten la ejecución simultánea de tareas.

English

Large Language Models (LLMs) have demonstrated remarkable in-context learning (ICL) capabilities. In this study, we explore a surprising phenomenon related to ICL: LLMs can perform multiple, computationally distinct ICL tasks simultaneously, during a single inference call, a capability we term "task superposition". We provide empirical evidence of this phenomenon across various LLM families and scales and show that this phenomenon emerges even if we train the model to in-context learn one task at a time. We offer theoretical explanations that this capability is well within the expressive power of transformers. We also explore how LLMs internally compose task vectors during superposition. Furthermore, we show that larger models can solve more ICL tasks in parallel, and better calibrate their output distribution. Our findings offer insights into the latent capabilities of LLMs, further substantiate the perspective of "LLMs as superposition of simulators", and raise questions about the mechanisms enabling simultaneous task execution.

Todo en Todas Partes al Mismo Tiempo: Los LLM pueden Aprender Múltiples Tareas en Contexto en Superposición

Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

Resumen

Support