ChatPaper.aiChatPaper

Misma tarea, más tokens: el impacto de la longitud de la entrada en el rendimiento de razonamiento de los modelos de lenguaje de gran escala

Same Task, More Tokens: the Impact of Input Length on the Reasoning Performance of Large Language Models

February 19, 2024
Autores: Mosh Levy, Alon Jacoby, Yoav Goldberg
cs.AI

Resumen

Este artículo explora el impacto de extender la longitud de las entradas en las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés). A pesar de los avances recientes en los LLMs, su consistencia en el rendimiento a través de diferentes longitudes de entrada no está bien comprendida. Investigamos este aspecto introduciendo un novedoso marco de razonamiento de preguntas y respuestas (QA), diseñado específicamente para evaluar el impacto de la longitud de la entrada. Aislamos el efecto de la longitud de la entrada utilizando múltiples versiones de la misma muestra, cada una extendida con relleno de diferentes longitudes, tipos y ubicaciones. Nuestros hallazgos muestran una degradación notable en el rendimiento de razonamiento de los LLMs a longitudes de entrada mucho más cortas que su máximo técnico. Demostramos que la tendencia de degradación aparece en cada versión de nuestro conjunto de datos, aunque con diferentes intensidades. Además, nuestro estudio revela que las métricas tradicionales de perplejidad no se correlacionan con el rendimiento de los LLMs en tareas de razonamiento con entradas largas. Analizamos nuestros resultados e identificamos modos de fallo que pueden servir como guías útiles para futuras investigaciones, potencialmente informando estrategias para abordar las limitaciones observadas en los LLMs.
English
This paper explores the impact of extending input lengths on the capabilities of Large Language Models (LLMs). Despite LLMs advancements in recent times, their performance consistency across different input lengths is not well understood. We investigate this aspect by introducing a novel QA reasoning framework, specifically designed to assess the impact of input length. We isolate the effect of input length using multiple versions of the same sample, each being extended with padding of different lengths, types and locations. Our findings show a notable degradation in LLMs' reasoning performance at much shorter input lengths than their technical maximum. We show that the degradation trend appears in every version of our dataset, although at different intensities. Additionally, our study reveals that traditional perplexity metrics do not correlate with performance of LLMs' in long input reasoning tasks. We analyse our results and identify failure modes that can serve as useful guides for future research, potentially informing strategies to address the limitations observed in LLMs.
PDF196December 15, 2024