SIFT: Het verankeren van LLM-redeneringen in contexten via stickers
SIFT: Grounding LLM Reasoning in Contexts via Stickers
February 19, 2025
Auteurs: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng
cs.AI
Samenvatting
Dit artikel identificeert de misinterpretatie van de context als een significant probleem tijdens het redeneerproces van grote taalmodellen, variërend van kleinere modellen zoals Llama3.2-3B-Instruct tot state-of-the-art modellen zoals DeepSeek-R1. Bijvoorbeeld, in de zin "10 dollar per kilo" kunnen LLM's mogelijk niet herkennen dat "per" "voor elk" betekent, wat leidt tot rekenfouten. We introduceren een nieuwe, post-training benadering genaamd **Stick to the Facts (SIFT)** om dit aan te pakken. SIFT maakt gebruik van toenemende rekencapaciteit tijdens inferentie om het redeneren van LLM's te verankeren in contexten. De kern van SIFT is de *Sticker*, die door het model zelf wordt gegenereerd om expliciet de belangrijkste informatie binnen de context te benadrukken. Gegeven de gecureerde Sticker, genereert SIFT twee voorspellingen -- één vanuit de originele query en één vanuit de query aangevuld met de Sticker. Als deze verschillen, wordt de Sticker sequentieel verfijnd via *forward* optimalisatie (om de geëxtraheerde feiten beter af te stemmen op de query) en *inverse* generatie (om in overeenstemming te zijn met de inherente neigingen van het model) voor meer betrouwbare redeneeruitkomsten. Studies over diverse modellen (van 3B tot 100B+) en benchmarks (bijv. GSM8K, MATH-500) tonen consistente prestatieverbeteringen. Opmerkelijk is dat SIFT de pass@1 nauwkeurigheid van DeepSeek-R1 op AIME2024 verbetert van 78,33% naar **85,67**%, wat een nieuwe state-of-the-art in de open-source gemeenschap vestigt. De code is beschikbaar op https://github.com/zhijie-group/SIFT.
English
This paper identifies the misinterpretation of the context can be a
significant issue during the reasoning process of large language models,
spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones
like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might
not recognize that "per" means "for each," leading to calculation errors. We
introduce a novel, post-training approach called **Stick to the Facts (SIFT)**
to tackle this. SIFT leverages increasing inference-time compute to ground LLM
reasoning in contexts. At the core of SIFT lies the *Sticker*, which is
generated by the model itself to explicitly emphasize the key information
within the context. Given the curated Sticker, SIFT generates two predictions
-- one from the original query and one from the query augmented with the
Sticker. If they differ, the Sticker is sequentially refined via *forward*
optimization (to better align the extracted facts with the query) and *inverse*
generation (to conform with the model's inherent tendencies) for more faithful
reasoning outcomes. Studies across diverse models (from 3B to 100B+) and
benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements.
Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from
78.33% to **85.67**%, establishing a new state-of-the-art in the open-source
community. The code is available at https://github.com/zhijie-group/SIFT.Summary
AI-Generated Summary