ChatPaper.aiChatPaper

SIFT: Ancorando o Raciocínio de LLM em Contextos por meio de Adesivos

SIFT: Grounding LLM Reasoning in Contexts via Stickers

February 19, 2025
Autores: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng
cs.AI

Resumo

Este artigo identifica que a má interpretação do contexto pode ser um problema significativo durante o processo de raciocínio de modelos de linguagem de grande escala, desde modelos menores como o Llama3.2-3B-Instruct até os mais avançados, como o DeepSeek-R1. Por exemplo, na frase "10 dólares por quilo", os LLMs podem não reconhecer que "por" significa "para cada", levando a erros de cálculo. Introduzimos uma nova abordagem pós-treinamento chamada **Stick to the Facts (SIFT)** para lidar com isso. O SIFT aproveita o aumento do poder computacional no momento da inferência para fundamentar o raciocínio dos LLMs em contextos. No cerne do SIFT está o *Sticker*, que é gerado pelo próprio modelo para enfatizar explicitamente as informações-chave dentro do contexto. Dado o Sticker selecionado, o SIFT gera duas previsões — uma a partir da consulta original e outra a partir da consulta aumentada com o Sticker. Se elas diferirem, o Sticker é refinado sequencialmente por meio de otimização *forward* (para alinhar melhor os fatos extraídos com a consulta) e geração *inversa* (para se conformar com as tendências inerentes do modelo) para obter resultados de raciocínio mais fiéis. Estudos em diversos modelos (de 3B a 100B+) e benchmarks (por exemplo, GSM8K, MATH-500) revelam melhorias consistentes de desempenho. Notavelmente, o SIFT melhora a precisão pass@1 do DeepSeek-R1 no AIME2024 de 78,33% para **85,67%**, estabelecendo um novo estado da arte na comunidade de código aberto. O código está disponível em https://github.com/zhijie-group/SIFT.
English
This paper identifies the misinterpretation of the context can be a significant issue during the reasoning process of large language models, spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might not recognize that "per" means "for each," leading to calculation errors. We introduce a novel, post-training approach called **Stick to the Facts (SIFT)** to tackle this. SIFT leverages increasing inference-time compute to ground LLM reasoning in contexts. At the core of SIFT lies the *Sticker*, which is generated by the model itself to explicitly emphasize the key information within the context. Given the curated Sticker, SIFT generates two predictions -- one from the original query and one from the query augmented with the Sticker. If they differ, the Sticker is sequentially refined via *forward* optimization (to better align the extracted facts with the query) and *inverse* generation (to conform with the model's inherent tendencies) for more faithful reasoning outcomes. Studies across diverse models (from 3B to 100B+) and benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements. Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from 78.33% to **85.67**%, establishing a new state-of-the-art in the open-source community. The code is available at https://github.com/zhijie-group/SIFT.

Summary

AI-Generated Summary

PDF313February 24, 2025