SIFT: 스티커를 통한 맥락 기반 LLM 추론 기반 구축
SIFT: Grounding LLM Reasoning in Contexts via Stickers
February 19, 2025
저자: Zihao Zeng, Xuyao Huang, Boxiu Li, Zhijie Deng
cs.AI
초록
본 논문은 대형 언어 모델(LLM)의 추론 과정에서 문맥의 오해가 심각한 문제가 될 수 있음을 지적하며, 이는 Llama3.2-3B-Instruct와 같은 소규모 모델부터 DeepSeek-R1과 같은 최첨단 모델까지 광범위하게 적용된다. 예를 들어, "10 dollars per kilo"라는 구문에서 LLM은 "per"가 "for each"를 의미한다는 것을 인식하지 못해 계산 오류를 일으킬 수 있다. 이를 해결하기 위해 우리는 **사실에 충실하기(Stick to the Facts, SIFT)**라는 새로운 사후 훈련 접근 방식을 소개한다. SIFT는 추론 시점의 계산 자원을 활용하여 LLM의 추론을 문맥에 기반하도록 한다. SIFT의 핵심은 모델 자체에 의해 생성되는 *스티커(Sticker)*로, 이는 문맥 내 핵심 정보를 명시적으로 강조한다. 선별된 스티커를 바탕으로 SIFT는 원본 질의와 스티커가 추가된 질의에서 각각 예측을 생성한다. 두 예측이 다를 경우, 스티커는 *순방향(forward)* 최적화(추출된 사실을 질의와 더 잘 일치시키기 위해)와 *역방향(inverse)* 생성(모델의 내재적 경향에 부합하도록)을 통해 순차적으로 개선되어 더 신뢰할 수 있는 추론 결과를 도출한다. 다양한 모델(3B부터 100B+까지)과 벤치마크(예: GSM8K, MATH-500)에 대한 연구를 통해 일관된 성능 향상을 확인했다. 특히, SIFT는 DeepSeek-R1의 AIME2024에서의 pass@1 정확도를 78.33%에서 **85.67**%로 향상시켜 오픈소스 커뮤니티에서 새로운 최첨단 기술을 확립했다. 코드는 https://github.com/zhijie-group/SIFT에서 확인할 수 있다.
English
This paper identifies the misinterpretation of the context can be a
significant issue during the reasoning process of large language models,
spanning from smaller models like Llama3.2-3B-Instruct to cutting-edge ones
like DeepSeek-R1. For example, in the phrase "10 dollars per kilo," LLMs might
not recognize that "per" means "for each," leading to calculation errors. We
introduce a novel, post-training approach called **Stick to the Facts (SIFT)**
to tackle this. SIFT leverages increasing inference-time compute to ground LLM
reasoning in contexts. At the core of SIFT lies the *Sticker*, which is
generated by the model itself to explicitly emphasize the key information
within the context. Given the curated Sticker, SIFT generates two predictions
-- one from the original query and one from the query augmented with the
Sticker. If they differ, the Sticker is sequentially refined via *forward*
optimization (to better align the extracted facts with the query) and *inverse*
generation (to conform with the model's inherent tendencies) for more faithful
reasoning outcomes. Studies across diverse models (from 3B to 100B+) and
benchmarks (e.g., GSM8K, MATH-500) reveal consistent performance improvements.
Notably, SIFT improves the pass@1 accuracy of DeepSeek-R1 on AIME2024 from
78.33% to **85.67**%, establishing a new state-of-the-art in the open-source
community. The code is available at https://github.com/zhijie-group/SIFT.Summary
AI-Generated Summary