ChatPaper.aiChatPaper

스케일링 추론은 대규모 언어 모델의 사실성 향상에 기여할 수 있다

Scaling Reasoning can Improve Factuality in Large Language Models

May 16, 2025
저자: Mike Zhang, Johannes Bjerva, Russa Biswas
cs.AI

초록

대규모 언어 모델(LLM)의 추론 능력에 대한 최근 연구들은, 특히 수학적 추론을 포함하는 과제에서, 추론 과정 중 긴 사고 과정과 추가적인 계산 자원을 활용함으로써 모델 성능의 유망한 개선을 보여주었다(Muennighoff et al., 2025). 그러나 더 긴 추론 체인이 본질적으로 사실적 정확성을 향상시키는지, 특히 수학적 맥락을 넘어서는지 여부는 여전히 불확실하다. 본 연구에서는 복잡한 개방형 도메인 질의응답(QA) 시나리오 내에서 LLM의 추론을 철저히 검토한다. 우리는 먼저 고급 대규모 추론 모델(QwQ-32B 및 DeepSeek-R1-671B)에서 추론 흔적을 추출한 후, Qwen2.5 기반의 더 작은 지시 튜닝 변형부터 더 큰 아키텍처에 이르기까지 다양한 모델을 미세 조정한다. 추론 흔적을 풍부하게 하기 위해, 우리는 지식 그래프에서 사실적 정보를 경로 형태로 추론 흔적에 도입한다. 우리의 실험 설정은 4개의 기준 접근법과 6개의 서로 다른 지시 튜닝 모델을 포함하며, 6개의 데이터셋에 걸쳐 22.6K개 이상의 질문을 평가한다. 전반적으로, 우리는 168개의 실험 실행을 수행하고 약 170만 개의 추론 흔적을 분석한다. 우리의 연구 결과는, 단일 실행 내에서, 더 작은 추론 모델이 원래의 지시 튜닝 모델에 비해 사실적 정확성에서 눈에 띄는 개선을 달성함을 나타낸다. 또한, 우리의 분석은 테스트 시간 계산 및 토큰 예산을 추가함으로써 사실적 정확성이 2-8% 일관적으로 향상됨을 보여주며, 이는 개방형 도메인 QA 과제에서 성능을 향상시키고 결과적으로 추론 정확성을 개선하기 위한 테스트 시간 스케일링의 효과를 추가로 확인한다. 우리는 추가 연구를 위해 모든 실험 아티팩트를 공개한다.
English
Recent studies on large language model (LLM) reasoning capabilities have demonstrated promising improvements in model performance by leveraging a lengthy thinking process and additional computational resources during inference, primarily in tasks involving mathematical reasoning (Muennighoff et al., 2025). However, it remains uncertain if longer reasoning chains inherently enhance factual accuracy, particularly beyond mathematical contexts. In this work, we thoroughly examine LLM reasoning within complex open-domain question-answering (QA) scenarios. We initially distill reasoning traces from advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then fine-tune a variety of models ranging from smaller, instruction-tuned variants to larger architectures based on Qwen2.5. To enrich reasoning traces, we introduce factual information from knowledge graphs in the form of paths into our reasoning traces. Our experimental setup includes four baseline approaches and six different instruction-tuned models evaluated across a benchmark of six datasets, encompassing over 22.6K questions. Overall, we carry out 168 experimental runs and analyze approximately 1.7 million reasoning traces. Our findings indicate that, within a single run, smaller reasoning models achieve noticeable improvements in factual accuracy compared to their original instruction-tuned counterparts. Moreover, our analysis demonstrates that adding test-time compute and token budgets factual accuracy consistently improves by 2-8%, further confirming the effectiveness of test-time scaling for enhancing performance and consequently improving reasoning accuracy in open-domain QA tasks. We release all the experimental artifacts for further research.

Summary

AI-Generated Summary

PDF52May 19, 2025