SIFT: Verankerung des LLM-Denkens in Kontexten durch Sticker
SIFT: Grounding LLM Reasoning in Contexts via Stickers
February 19, 2025
Autoren: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng
cs.AI
Zusammenfassung
Diese Arbeit identifiziert die Fehlinterpretation des Kontexts als ein bedeutendes Problem während des Denkprozesses großer Sprachmodelle, das von kleineren Modellen wie Llama3.2-3B-Instruct bis hin zu modernsten Modellen wie DeepSeek-R1 reicht. Beispielsweise könnte in der Phrase „10 Dollar pro Kilo“ der Ausdruck „pro“ von LLMs nicht als „für jedes“ erkannt werden, was zu Berechnungsfehlern führt. Wir stellen einen neuartigen, nachträglichen Trainingsansatz namens **Stick to the Facts (SIFT)** vor, um dies zu bewältigen. SIFT nutzt zunehmende Inferenzzeit-Rechenleistung, um das Denken von LLMs im Kontext zu verankern. Im Kern von SIFT liegt der *Sticker*, der vom Modell selbst generiert wird, um die Schlüsselinformationen im Kontext explizit hervorzuheben. Basierend auf dem kuratierten Sticker generiert SIFT zwei Vorhersagen – eine aus der ursprünglichen Anfrage und eine aus der mit dem Sticker angereicherten Anfrage. Wenn sie sich unterscheiden, wird der Sticker sequenziell durch *vorwärtsgerichtete* Optimierung (um die extrahierten Fakten besser mit der Anfrage abzustimmen) und *inverse* Generierung (um den inhärenten Tendenzen des Modells zu entsprechen) verfeinert, um zuverlässigere Denkergebnisse zu erzielen. Studien über verschiedene Modelle (von 3B bis 100B+) und Benchmarks (z.B. GSM8K, MATH-500) zeigen konsistente Leistungsverbesserungen. Bemerkenswerterweise verbessert SIFT die Pass@1-Genauigkeit von DeepSeek-R1 auf AIME2024 von 78,33 % auf **85,67 %** und setzt damit einen neuen Maßstab in der Open-Source-Community. Der Code ist unter https://github.com/zhijie-group/SIFT verfügbar.
English
This paper identifies the misinterpretation of the context can be a
significant issue during the reasoning process of large language models,
spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones
like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might
not recognize that "per" means "for each," leading to calculation errors. We
introduce a novel, post-training approach called **Stick to the Facts (SIFT)**
to tackle this. SIFT leverages increasing inference-time compute to ground LLM
reasoning in contexts. At the core of SIFT lies the *Sticker*, which is
generated by the model itself to explicitly emphasize the key information
within the context. Given the curated Sticker, SIFT generates two predictions
-- one from the original query and one from the query augmented with the
Sticker. If they differ, the Sticker is sequentially refined via *forward*
optimization (to better align the extracted facts with the query) and *inverse*
generation (to conform with the model's inherent tendencies) for more faithful
reasoning outcomes. Studies across diverse models (from 3B to 100B+) and
benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements.
Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from
78.33% to **85.67**%, establishing a new state-of-the-art in the open-source
community. The code is available at https://github.com/zhijie-group/SIFT.Summary
AI-Generated Summary