SIFT: Fundamentando el razonamiento de LLM en contextos mediante etiquetas

Resumen

Este artículo identifica que la mala interpretación del contexto puede ser un problema significativo durante el proceso de razonamiento de los modelos de lenguaje grandes (LLMs), desde modelos más pequeños como Llama3.2-3B-Instruct hasta los más avanzados como DeepSeek-R1. Por ejemplo, en la frase "10 dólares por kilo", los LLMs podrían no reconocer que "por" significa "para cada", lo que lleva a errores de cálculo. Introducimos un enfoque novedoso de posentrenamiento llamado **Stick to the Facts (SIFT)** para abordar este problema. SIFT aprovecha el aumento de capacidad computacional en tiempo de inferencia para fundamentar el razonamiento de los LLMs en contextos. En el núcleo de SIFT se encuentra el *Sticker*, que es generado por el propio modelo para enfatizar explícitamente la información clave dentro del contexto. Dado el Sticker seleccionado, SIFT genera dos predicciones: una a partir de la consulta original y otra a partir de la consulta aumentada con el Sticker. Si difieren, el Sticker se refina secuencialmente mediante optimización *forward* (para alinear mejor los hechos extraídos con la consulta) y generación *inverse* (para ajustarse a las tendencias inherentes del modelo) con el fin de obtener resultados de razonamiento más fieles. Los estudios realizados en diversos modelos (desde 3B hasta 100B+) y benchmarks (por ejemplo, GSM8K, MATH-500) revelan mejoras consistentes en el rendimiento. Notablemente, SIFT mejora la precisión pass@1 de DeepSeek-R1 en AIME2024 del 78.33% al **85.67%**, estableciendo un nuevo estado del arte en la comunidad de código abierto. El código está disponible en https://github.com/zhijie-group/SIFT.

English

This paper identifies the misinterpretation of the context can be a significant issue during the reasoning process of large language models, spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might not recognize that "per" means "for each," leading to calculation errors. We introduce a novel, post-training approach called **Stick to the Facts (SIFT)** to tackle this. SIFT leverages increasing inference-time compute to ground LLM reasoning in contexts. At the core of SIFT lies the *Sticker*, which is generated by the model itself to explicitly emphasize the key information within the context. Given the curated Sticker, SIFT generates two predictions -- one from the original query and one from the query augmented with the Sticker. If they differ, the Sticker is sequentially refined via *forward* optimization (to better align the extracted facts with the query) and *inverse* generation (to conform with the model's inherent tendencies) for more faithful reasoning outcomes. Studies across diverse models (from 3B to 100B+) and benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements. Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from 78.33% to **85.67**%, establishing a new state-of-the-art in the open-source community. The code is available at https://github.com/zhijie-group/SIFT.

SIFT: Fundamentando el razonamiento de LLM en contextos mediante etiquetas

SIFT: Grounding LLM Reasoning in Contexts via Stickers

Resumen

Support