ChatPaper.aiChatPaper

DeepSeek 대 o3-mini: 추론 LLM이 기계 번역과 요약을 얼마나 잘 평가할 수 있는가?

DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

April 10, 2025
저자: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI

초록

추론 능력을 갖춘 대형 언어 모델(LLM)은 최근 복잡한 논리 및 수학적 과제에서 인상적인 성능을 보여왔으나, 자연어 생성 평가에서의 효과성은 아직 탐구되지 않았다. 본 연구는 기계 번역(MT) 및 텍스트 요약(TS) 평가 과제에서 추론 기반 LLM(DeepSeek-R1 및 OpenAI o3)과 비추론 대응 모델을 체계적으로 비교한다. 우리는 최첨단 추론 모델, 이들의 경량화 변형(8B에서 70B 파라미터 범위), 그리고 동등한 전통적 비추론 LLM을 포함한 세 가지 아키텍처 범주의 총 8개 모델을 평가했다. WMT23 및 SummEval 벤치마크에서의 실험 결과, 추론 능력의 이점은 모델과 과제에 크게 의존적임을 보여준다: OpenAI o3-mini 모델은 추론 강도 증가와 함께 일관된 성능 향상을 보인 반면, DeepSeek-R1은 TS 평가의 특정 측면을 제외하고 비추론 변형에 비해 낮은 성능을 보였다. 상관관계 분석은 o3-mini 모델에서 추론 토큰 사용량 증가가 평가 품질과 양의 상관관계를 가짐을 입증한다. 또한, 우리의 결과는 추론 능력의 경량화가 중간 크기 모델(32B)에서는 합리적인 성능을 유지하지만, 더 작은 변형(8B)에서는 상당히 저하됨을 보여준다. 이 연구는 NLG 평가를 위한 추론 LLM에 대한 첫 번째 포괄적인 평가를 제공하며, 이들의 실용적 사용에 대한 통찰을 제시한다.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated impressive performance in complex logical and mathematical tasks, yet their effectiveness in evaluating natural language generation remains unexplored. This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI o3) with their non-reasoning counterparts across machine translation (MT) and text summarization (TS) evaluation tasks. We evaluate eight models across three architectural categories, including state-of-the-art reasoning models, their distilled variants (ranging from 8B to 70B parameters), and equivalent conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval benchmarks reveal that the benefits of reasoning capabilities are highly model and task-dependent: while OpenAI o3-mini models show consistent performance improvements with increased reasoning intensity, DeepSeek-R1 underperforms compared to its non-reasoning variant, with exception to certain aspects of TS evaluation. Correlation analysis demonstrates that increased reasoning token usage positively correlates with evaluation quality in o3-mini models. Furthermore, our results show that distillation of reasoning capabilities maintains reasonable performance in medium-sized models (32B) but degrades substantially in smaller variants (8B). This work provides the first comprehensive assessment of reasoning LLMs for NLG evaluation and offers insights into their practical use.

Summary

AI-Generated Summary

PDF42April 15, 2025