DeepSeek vs. o3-mini:推論LLMは機械翻訳と要約をどの程度正確に評価できるか?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
April 10, 2025
著者: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI
要旨
推論能力を備えた大規模言語モデル(LLM)は最近、複雑な論理的および数学的タスクにおいて印象的な性能を示しているが、自然言語生成の評価における有効性はまだ検証されていない。本研究では、推論ベースのLLM(DeepSeek-R1およびOpenAI o3)と非推論型の対応モデルを、機械翻訳(MT)およびテキスト要約(TS)の評価タスクにおいて体系的に比較する。我々は、最先端の推論モデル、その蒸留バリアント(8Bから70Bパラメータまで)、および同等の従来型の非推論LLMを含む3つのアーキテクチャカテゴリーにわたる8つのモデルを評価した。WMT23およびSummEvalベンチマークでの実験結果から、推論能力の利点はモデルとタスクに強く依存することが明らかになった:OpenAI o3-miniモデルでは推論強度の増加に伴い一貫した性能向上が見られる一方、DeepSeek-R1は非推論バリアントに比べて性能が劣り、TS評価の特定の側面を除いては例外となった。相関分析により、o3-miniモデルでは推論トークンの使用量の増加が評価品質と正の相関を示すことが実証された。さらに、推論能力の蒸留は中規模モデル(32B)では合理的な性能を維持するが、小規模バリアント(8B)では大幅に低下することが明らかになった。本研究は、NLG評価における推論LLMの初めての包括的評価を提供し、その実用的な使用に関する洞察を提供するものである。
English
Reasoning-enabled large language models (LLMs) have recently demonstrated
impressive performance in complex logical and mathematical tasks, yet their
effectiveness in evaluating natural language generation remains unexplored.
This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI
o3) with their non-reasoning counterparts across machine translation (MT) and
text summarization (TS) evaluation tasks. We evaluate eight models across three
architectural categories, including state-of-the-art reasoning models, their
distilled variants (ranging from 8B to 70B parameters), and equivalent
conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval
benchmarks reveal that the benefits of reasoning capabilities are highly model
and task-dependent: while OpenAI o3-mini models show consistent performance
improvements with increased reasoning intensity, DeepSeek-R1 underperforms
compared to its non-reasoning variant, with exception to certain aspects of TS
evaluation. Correlation analysis demonstrates that increased reasoning token
usage positively correlates with evaluation quality in o3-mini models.
Furthermore, our results show that distillation of reasoning capabilities
maintains reasonable performance in medium-sized models (32B) but degrades
substantially in smaller variants (8B). This work provides the first
comprehensive assessment of reasoning LLMs for NLG evaluation and offers
insights into their practical use.Summary
AI-Generated Summary