ChatPaper.aiChatPaper

SIFT: Обоснование рассуждений языковых моделей в контекстах с помощью стикеров

SIFT: Grounding LLM Reasoning in Contexts via Stickers

February 19, 2025
Авторы: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng
cs.AI

Аннотация

В данной статье выявлено, что неправильная интерпретация контекста может стать серьезной проблемой в процессе рассуждения крупных языковых моделей, начиная с небольших моделей, таких как Llama3.2-3B-Instruct, и заканчивая передовыми, такими как DeepSeek-R1. Например, в фразе "10 долларов за килограмм" языковые модели могут не распознать, что "за" означает "для каждого", что приводит к ошибкам в расчетах. Мы представляем новый подход, применяемый после обучения, под названием **Stick to the Facts (SIFT)**, предназначенный для решения этой проблемы. SIFT использует увеличение вычислительных ресурсов на этапе вывода, чтобы закрепить рассуждения языковых моделей в контексте. В основе SIFT лежит *Sticker*, который генерируется самой моделью для явного выделения ключевой информации в контексте. На основе созданного Sticker, SIFT генерирует два прогноза — один из исходного запроса, а другой из запроса, дополненного Sticker. Если они различаются, Sticker последовательно уточняется с помощью *прямой* оптимизации (для лучшего согласования извлеченных фактов с запросом) и *обратной* генерации (для соответствия внутренним тенденциям модели) с целью получения более точных результатов рассуждений. Исследования на различных моделях (от 3B до 100B+) и тестовых наборах (например, GSM8K, MATH-500) демонстрируют устойчивое улучшение производительности. В частности, SIFT повышает точность pass@1 модели DeepSeek-R1 на AIME2024 с 78,33% до **85,67%**, устанавливая новый рекорд в сообществе открытого исходного кода. Код доступен по адресу https://github.com/zhijie-group/SIFT.
English
This paper identifies the misinterpretation of the context can be a significant issue during the reasoning process of large language models, spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might not recognize that "per" means "for each," leading to calculation errors. We introduce a novel, post-training approach called **Stick to the Facts (SIFT)** to tackle this. SIFT leverages increasing inference-time compute to ground LLM reasoning in contexts. At the core of SIFT lies the *Sticker*, which is generated by the model itself to explicitly emphasize the key information within the context. Given the curated Sticker, SIFT generates two predictions -- one from the original query and one from the query augmented with the Sticker. If they differ, the Sticker is sequentially refined via *forward* optimization (to better align the extracted facts with the query) and *inverse* generation (to conform with the model's inherent tendencies) for more faithful reasoning outcomes. Studies across diverse models (from 3B to 100B+) and benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements. Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from 78.33% to **85.67**%, establishing a new state-of-the-art in the open-source community. The code is available at https://github.com/zhijie-group/SIFT.

Summary

AI-Generated Summary

PDF313February 24, 2025