ChatPaper.aiChatPaper

ORION: 사고 언어로 효율적으로 추론하는 법을 언어 모델에 가르치기

ORION: Teaching Language Models to Reason Efficiently in the Language of Thought

November 28, 2025
저자: Kumar Tanmay, Kriti Aggarwal, Paul Pu Liang, Subhabrata Mukherjee
cs.AI

초록

대규모 추론 모델(LRM)은 수학, 코드 생성, 작업 계획 분야에서 강력한 성능을 보이지만, 장황한 "사고" 토큰으로 구성된 긴 체인에 의존함에 따라 높은 지연 시간, 중복성, 비일관적인 추론 경로가 발생합니다. 인간의 추론이 멘탈리즈(Mentalese)라는 기호적·구조적 심적 언어 위에서 이루어진다는 '사고의 언어 가설'에서 영감을 받아, 우리는 모델이 이와 유사한 압축된 방식으로 추론하도록 훈련하는 프레임워크를 제안합니다. 멘탈리즈는 추상적 추론을 초압축적이고 구조화된 토큰으로 인코딩하여 모델이 훨씬 적은 단계로 복잡한 문제를 해결할 수 있게 합니다. 효율성과 정확성을 동시에 향상시키기 위해, 우리는 정확성을 유지하는 간결한 해법을 보상하면서도 필요시 더 긴 추론을 허용하는 강화 학습 방법인 **SLPO(짧은 길이 선호 최적화)**를 제안합니다. 멘탈리즈에 정렬된 모델에 적용된 SLPO는 계산적 오버헤드 없이 상세한 사고의 이점을 보존하는 간결한 추론을 가능하게 함으로써 상당히 높은 압축율을 달성합니다. AIME 2024 및 2025, MinervaMath, OlympiadBench, Math500, AMC를 포함한 벤치마크 전반에서, 우리의 ORION 모델은 추론 흔적을 4-16배 더 적은 토큰으로 생성하며, 최대 5배 낮은 추론 지연 시간을 달성하고, DeepSeek R1 Distilled 모델 대비 훈련 비용을 7-9배 절감하면서도 그 정확도의 90-98%를 유지합니다. ORION은 또한 Claude 및 ChatGPT-4o 대비 최대 5% 높은 정확도를 달성하면서 2배의 압축률을 유지합니다. 이러한 결과는 멘탈리즈 스타일의 압축 추론이 인간과 유사한 인지 효율성으로 나아가는 한 걸음을 제시하며, 정확성을 희생하지 않고 실시간, 비용 효율적인 추론을 가능하게 함을 보여줍니다.
English
Large Reasoning Models (LRMs) achieve strong performance in mathematics, code generation, and task planning, but their reliance on long chains of verbose "thinking" tokens leads to high latency, redundancy, and incoherent reasoning paths. Inspired by the Language of Thought Hypothesis, which posits that human reasoning operates over a symbolic, compositional mental language called Mentalese, we introduce a framework that trains models to reason in a similarly compact style. Mentalese encodes abstract reasoning as ultra-compressed, structured tokens, enabling models to solve complex problems with far fewer steps. To improve both efficiency and accuracy, we propose SHORTER LENGTH PREFERENCE OPTIMIZATION (SLPO), a reinforcement learning method that rewards concise solutions that stay correct, while still allowing longer reasoning when needed. Applied to Mentalese-aligned models, SLPO yields significantly higher compression rates by enabling concise reasoning that preserves the benefits of detailed thinking without the computational overhead. Across benchmarks including AIME 2024 and 2025, MinervaMath, OlympiadBench, Math500, and AMC, our ORION models produce reasoning traces with 4-16x fewer tokens, achieve up to 5x lower inference latency, and reduce training costs by 7-9x relative to the DeepSeek R1 Distilled model, while maintaining 90-98% of its accuracy. ORION also surpasses Claude and ChatGPT-4o by up to 5% in accuracy while maintaining 2x compression. These results show that Mentalese-style compressed reasoning offers a step toward human-like cognitive efficiency, enabling real-time, cost-effective reasoning without sacrificing accuracy.
PDF31December 3, 2025