SIFT: Verankerung des LLM-Denkens in Kontexten durch Sticker

papers.abstract

Diese Arbeit identifiziert die Fehlinterpretation des Kontexts als ein bedeutendes Problem während des Denkprozesses großer Sprachmodelle, das von kleineren Modellen wie Llama3.2-3B-Instruct bis hin zu modernsten Modellen wie DeepSeek-R1 reicht. Beispielsweise könnte in der Phrase „10 Dollar pro Kilo“ der Ausdruck „pro“ von LLMs nicht als „für jedes“ erkannt werden, was zu Berechnungsfehlern führt. Wir stellen einen neuartigen, nachträglichen Trainingsansatz namens **Stick to the Facts (SIFT)** vor, um dies zu bewältigen. SIFT nutzt zunehmende Inferenzzeit-Rechenleistung, um das Denken von LLMs im Kontext zu verankern. Im Kern von SIFT liegt der *Sticker*, der vom Modell selbst generiert wird, um die Schlüsselinformationen im Kontext explizit hervorzuheben. Basierend auf dem kuratierten Sticker generiert SIFT zwei Vorhersagen – eine aus der ursprünglichen Anfrage und eine aus der mit dem Sticker angereicherten Anfrage. Wenn sie sich unterscheiden, wird der Sticker sequenziell durch *vorwärtsgerichtete* Optimierung (um die extrahierten Fakten besser mit der Anfrage abzustimmen) und *inverse* Generierung (um den inhärenten Tendenzen des Modells zu entsprechen) verfeinert, um zuverlässigere Denkergebnisse zu erzielen. Studien über verschiedene Modelle (von 3B bis 100B+) und Benchmarks (z.B. GSM8K, MATH-500) zeigen konsistente Leistungsverbesserungen. Bemerkenswerterweise verbessert SIFT die Pass@1-Genauigkeit von DeepSeek-R1 auf AIME2024 von 78,33 % auf **85,67 %** und setzt damit einen neuen Maßstab in der Open-Source-Community. Der Code ist unter https://github.com/zhijie-group/SIFT verfügbar.

English

This paper identifies the misinterpretation of the context can be a significant issue during the reasoning process of large language models, spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might not recognize that "per" means "for each," leading to calculation errors. We introduce a novel, post-training approach called **Stick to the Facts (SIFT)** to tackle this. SIFT leverages increasing inference-time compute to ground LLM reasoning in contexts. At the core of SIFT lies the *Sticker*, which is generated by the model itself to explicitly emphasize the key information within the context. Given the curated Sticker, SIFT generates two predictions -- one from the original query and one from the query augmented with the Sticker. If they differ, the Sticker is sequentially refined via *forward* optimization (to better align the extracted facts with the query) and *inverse* generation (to conform with the model's inherent tendencies) for more faithful reasoning outcomes. Studies across diverse models (from 3B to 100B+) and benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements. Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from 78.33% to **85.67**%, establishing a new state-of-the-art in the open-source community. The code is available at https://github.com/zhijie-group/SIFT.

SIFT: Verankerung des LLM-Denkens in Kontexten durch Sticker

SIFT: Grounding LLM Reasoning in Contexts via Stickers

papers.abstract

Support