Escribiendo en los Márgenes: Mejor Patrón de Inferencia para la Recuperación de Contextos LargosWriting in the Margins: Better Inference Pattern for Long Context
Retrieval
En este artículo, presentamos Writing in the Margins (WiM), un nuevo patrón de inferencia para Modelos de Lenguaje Grandes diseñado para optimizar el manejo de secuencias de entrada largas en tareas orientadas a la recuperación. Este enfoque aprovecha el precargado segmentado de la caché de clave-valor para realizar inferencia por segmentos, lo que permite el procesamiento eficiente de contextos extensos junto con la generación y clasificación de información intermedia ("márgenes") que guían al modelo hacia tareas específicas. Este método aumenta mínimamente la carga computacional mientras mejora significativamente el rendimiento de modelos listos para usar sin necesidad de ajustes finos. Específicamente, observamos que WiM proporciona un aumento promedio del 7.5% en precisión para habilidades de razonamiento (HotpotQA, MultiHop-RAG) y más de un 30.0% en el puntaje F1 para tareas de agregación (CWE). Además, mostramos cómo el patrón propuesto encaja en un diseño interactivo de recuperación que brinda a los usuarios finales actualizaciones continuas sobre el progreso del procesamiento del contexto, y señala la integración de información relevante en la respuesta final. Publicamos nuestra implementación de WiM utilizando la biblioteca Hugging Face Transformers en https://github.com/writer/writing-in-the-margins.