ChatPaper.aiChatPaper

SIFT : Ancrage du raisonnement des LLM dans des contextes via des étiquettes

SIFT: Grounding LLM Reasoning in Contexts via Stickers

February 19, 2025
Auteurs: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng
cs.AI

Résumé

Ce document identifie la mauvaise interprétation du contexte comme un problème majeur lors du processus de raisonnement des grands modèles de langage, allant des modèles plus petits comme Llama3.2-3B-Instruct aux modèles de pointe comme DeepSeek-R1. Par exemple, dans l'expression "10 dollars par kilo", les LLM pourraient ne pas reconnaître que "par" signifie "pour chaque", entraînant des erreurs de calcul. Nous introduisons une nouvelle approche post-entraînement appelée **Stick to the Facts (SIFT)** pour résoudre ce problème. SIFT exploite une puissance de calcul accrue au moment de l'inférence pour ancrer le raisonnement des LLM dans les contextes. Au cœur de SIFT se trouve le *Sticker*, généré par le modèle lui-même pour mettre explicitement en avant les informations clés du contexte. À partir du Sticker soigneusement élaboré, SIFT génère deux prédictions — une à partir de la requête originale et une autre à partir de la requête enrichie avec le Sticker. Si elles diffèrent, le Sticker est affiné séquentiellement via une optimisation *forward* (pour mieux aligner les faits extraits avec la requête) et une génération *inverse* (pour se conformer aux tendances inhérentes du modèle) afin d'obtenir des résultats de raisonnement plus fidèles. Des études menées sur divers modèles (de 3B à 100B+) et benchmarks (par exemple, GSM8K, MATH-500) révèlent des améliorations de performance constantes. Notamment, SIFT améliore la précision pass@1 de DeepSeek-R1 sur AIME2024 de 78,33 % à **85,67** %, établissant un nouvel état de l'art dans la communauté open source. Le code est disponible à l'adresse https://github.com/zhijie-group/SIFT.
English
This paper identifies the misinterpretation of the context can be a significant issue during the reasoning process of large language models, spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might not recognize that "per" means "for each," leading to calculation errors. We introduce a novel, post-training approach called **Stick to the Facts (SIFT)** to tackle this. SIFT leverages increasing inference-time compute to ground LLM reasoning in contexts. At the core of SIFT lies the *Sticker*, which is generated by the model itself to explicitly emphasize the key information within the context. Given the curated Sticker, SIFT generates two predictions -- one from the original query and one from the query augmented with the Sticker. If they differ, the Sticker is sequentially refined via *forward* optimization (to better align the extracted facts with the query) and *inverse* generation (to conform with the model's inherent tendencies) for more faithful reasoning outcomes. Studies across diverse models (from 3B to 100B+) and benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements. Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from 78.33% to **85.67**%, establishing a new state-of-the-art in the open-source community. The code is available at https://github.com/zhijie-group/SIFT.

Summary

AI-Generated Summary

PDF313February 24, 2025