SIFT: Ancorare il Ragionamento degli LLM nei Contesti tramite Etichette
SIFT: Grounding LLM Reasoning in Contexts via Stickers
February 19, 2025
Autori: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng
cs.AI
Abstract
Questo articolo identifica come l'interpretazione errata del contesto possa rappresentare un problema significativo durante il processo di ragionamento dei grandi modelli linguistici, che vanno da modelli più piccoli come Llama3.2-3B-Instruct a quelli all'avanguardia come DeepSeek-R1. Ad esempio, nella frase "10 dollari al chilo", i modelli linguistici potrebbero non riconoscere che "al" significhi "per ogni", portando a errori di calcolo. Introduciamo un nuovo approccio post-addestramento chiamato **Stick to the Facts (SIFT)** per affrontare questo problema. SIFT sfrutta un aumento della potenza di calcolo al momento dell'inferenza per ancorare il ragionamento dei modelli linguistici ai contesti. Al centro di SIFT si trova lo *Sticker*, generato dal modello stesso per enfatizzare esplicitamente le informazioni chiave all'interno del contesto. Dato lo Sticker curato, SIFT genera due previsioni: una dalla query originale e una dalla query arricchita con lo Sticker. Se differiscono, lo Sticker viene raffinato sequenzialmente tramite ottimizzazione *forward* (per allineare meglio i fatti estratti con la query) e generazione *inverse* (per conformarsi alle tendenze intrinseche del modello) per ottenere risultati di ragionamento più fedeli. Studi condotti su vari modelli (da 3B a 100B+) e benchmark (ad esempio, GSM8K, MATH-500) rivelano miglioramenti consistenti delle prestazioni. In particolare, SIFT migliora l'accuratezza pass@1 di DeepSeek-R1 su AIME2024 dal 78,33% a **85,67**%, stabilendo un nuovo stato dell'arte nella comunità open-source. Il codice è disponibile all'indirizzo https://github.com/zhijie-group/SIFT.
English
This paper identifies the misinterpretation of the context can be a
significant issue during the reasoning process of large language models,
spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones
like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might
not recognize that "per" means "for each," leading to calculation errors. We
introduce a novel, post-training approach called **Stick to the Facts (SIFT)**
to tackle this. SIFT leverages increasing inference-time compute to ground LLM
reasoning in contexts. At the core of SIFT lies the *Sticker*, which is
generated by the model itself to explicitly emphasize the key information
within the context. Given the curated Sticker, SIFT generates two predictions
-- one from the original query and one from the query augmented with the
Sticker. If they differ, the Sticker is sequentially refined via *forward*
optimization (to better align the extracted facts with the query) and *inverse*
generation (to conform with the model's inherent tendencies) for more faithful
reasoning outcomes. Studies across diverse models (from 3B to 100B+) and
benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements.
Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from
78.33% to **85.67**%, establishing a new state-of-the-art in the open-source
community. The code is available at https://github.com/zhijie-group/SIFT.Summary
AI-Generated Summary