SIFT: Ancorando o Raciocínio de LLM em Contextos por meio de Adesivos
SIFT: Grounding LLM Reasoning in Contexts via Stickers
February 19, 2025
Autores: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng
cs.AI
Resumo
Este artigo identifica que a má interpretação do contexto pode ser um problema significativo durante o processo de raciocínio de modelos de linguagem de grande escala, desde modelos menores como o Llama3.2-3B-Instruct até os mais avançados, como o DeepSeek-R1. Por exemplo, na frase "10 dólares por quilo", os LLMs podem não reconhecer que "por" significa "para cada", levando a erros de cálculo. Introduzimos uma nova abordagem pós-treinamento chamada **Stick to the Facts (SIFT)** para lidar com isso. O SIFT aproveita o aumento do poder computacional no momento da inferência para fundamentar o raciocínio dos LLMs em contextos. No cerne do SIFT está o *Sticker*, que é gerado pelo próprio modelo para enfatizar explicitamente as informações-chave dentro do contexto. Dado o Sticker selecionado, o SIFT gera duas previsões — uma a partir da consulta original e outra a partir da consulta aumentada com o Sticker. Se elas diferirem, o Sticker é refinado sequencialmente por meio de otimização *forward* (para alinhar melhor os fatos extraídos com a consulta) e geração *inversa* (para se conformar com as tendências inerentes do modelo) para obter resultados de raciocínio mais fiéis. Estudos em diversos modelos (de 3B a 100B+) e benchmarks (por exemplo, GSM8K, MATH-500) revelam melhorias consistentes de desempenho. Notavelmente, o SIFT melhora a precisão pass@1 do DeepSeek-R1 no AIME2024 de 78,33% para **85,67%**, estabelecendo um novo estado da arte na comunidade de código aberto. O código está disponível em https://github.com/zhijie-group/SIFT.
English
This paper identifies the misinterpretation of the context can be a
significant issue during the reasoning process of large language models,
spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones
like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might
not recognize that "per" means "for each," leading to calculation errors. We
introduce a novel, post-training approach called **Stick to the Facts (SIFT)**
to tackle this. SIFT leverages increasing inference-time compute to ground LLM
reasoning in contexts. At the core of SIFT lies the *Sticker*, which is
generated by the model itself to explicitly emphasize the key information
within the context. Given the curated Sticker, SIFT generates two predictions
-- one from the original query and one from the query augmented with the
Sticker. If they differ, the Sticker is sequentially refined via *forward*
optimization (to better align the extracted facts with the query) and *inverse*
generation (to conform with the model's inherent tendencies) for more faithful
reasoning outcomes. Studies across diverse models (from 3B to 100B+) and
benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements.
Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from
78.33% to **85.67**%, establishing a new state-of-the-art in the open-source
community. The code is available at https://github.com/zhijie-group/SIFT.Summary
AI-Generated Summary