La Prevención de Desbordamiento Mejora los Modelos de Lenguaje Recurrentes de Contexto Largo
Overflow Prevention Enhances Long-Context Recurrent LLMs
May 12, 2025
Autores: Assaf Ben-Kish, Itamar Zimerman, M. Jehanzeb Mirza, James Glass, Leonid Karlinsky, Raja Giryes
cs.AI
Resumen
Una tendencia reciente en los LLM es el desarrollo de modelos recurrentes subcuadráticos que mejoran la eficiencia en el procesamiento de contextos largos. Investigamos los principales modelos de gran contexto, centrándonos en cómo su memoria recurrente de tamaño fijo afecta su rendimiento. Nuestros experimentos revelan que, incluso cuando estos modelos son entrenados para contextos extendidos, su uso de contextos largos sigue estando subutilizado. Específicamente, demostramos que un procedimiento de inferencia basado en fragmentos, que identifica y procesa solo la porción más relevante de la entrada, puede mitigar fallos en la memoria recurrente y ser efectivo para muchas tareas de contexto largo: en LongBench, nuestro método mejora el rendimiento general de Falcon3-Mamba-Inst-7B en un 14%, Falcon-Mamba-Inst-7B en un 28%, RecurrentGemma-IT-9B en un 50% y RWKV6-Finch-7B en un 51%. Sorprendentemente, este enfoque simple también conduce a resultados de vanguardia en el desafiante benchmark LongBench v2, mostrando un rendimiento competitivo con Transformers de tamaño equivalente. Además, nuestros hallazgos plantean dudas sobre si los modelos recurrentes realmente explotan las dependencias de largo alcance, ya que nuestra estrategia de un solo fragmento ofrece un rendimiento superior, incluso en tareas que presumiblemente requieren relaciones entre contextos.
English
A recent trend in LLMs is developing recurrent sub-quadratic models that
improve long-context processing efficiency. We investigate leading large
long-context models, focusing on how their fixed-size recurrent memory affects
their performance. Our experiments reveal that, even when these models are
trained for extended contexts, their use of long contexts remains
underutilized. Specifically, we demonstrate that a chunk-based inference
procedure, which identifies and processes only the most relevant portion of the
input can mitigate recurrent memory failures and be effective for many
long-context tasks: On LongBench, our method improves the overall performance
of Falcon3-Mamba-Inst-7B by 14%, Falcon-Mamba-Inst-7B by 28%,
RecurrentGemma-IT-9B by 50%, and RWKV6-Finch-7B by 51%. Surprisingly, this
simple approach also leads to state-of-the-art results in the challenging
LongBench v2 benchmark, showing competitive performance with equivalent size
Transformers. Furthermore, our findings raise questions about whether recurrent
models genuinely exploit long-range dependencies, as our single-chunk strategy
delivers stronger performance - even in tasks that presumably require
cross-context relations.Summary
AI-Generated Summary