DeepSeek vs. o3-mini: Hoe goed kunnen redenerende LLM's MT en samenvatting evalueren?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
April 10, 2025
Auteurs: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI
Samenvatting
Redeneervaardige grote taalmodellen (LLM's) hebben recent indrukwekkende prestaties getoond in complexe logische en wiskundige taken, maar hun effectiviteit bij het evalueren van natuurlijke taalgeneratie is nog onontgonnen. Deze studie vergelijkt systematisch redeneer-gebaseerde LLM's (DeepSeek-R1 en OpenAI o3) met hun niet-redeneerende tegenhangers in evaluatietaken voor machinaal vertalen (MT) en tekstsamenvatting (TS). We evalueren acht modellen uit drie architectuurcategorieën, waaronder state-of-the-art redeneermodellen, hun gedistilleerde varianten (variërend van 8B tot 70B parameters), en equivalente conventionele, niet-redeneerende LLM's. Onze experimenten op de WMT23- en SummEval-benchmarks laten zien dat de voordelen van redeneervaardigheden sterk model- en taakafhankelijk zijn: terwijl OpenAI o3-mini-modellen consistente prestatieverbeteringen laten zien met toenemende redeneerintensiteit, presteert DeepSeek-R1 slechter in vergelijking met zijn niet-redeneerende variant, met uitzondering van bepaalde aspecten van TS-evaluatie. Correlatieanalyse toont aan dat een verhoogd gebruik van redeneertokens positief correleert met de evaluatiekwaliteit in o3-mini-modellen. Bovendien laten onze resultaten zien dat de distillatie van redeneervaardigheden redelijke prestaties behoudt in middelgrote modellen (32B), maar aanzienlijk verslechtert in kleinere varianten (8B). Dit werk biedt de eerste uitgebreide beoordeling van redeneer-LLM's voor NLG-evaluatie en biedt inzichten in hun praktische toepassing.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated
impressive performance in complex logical and mathematical tasks, yet their
effectiveness in evaluating natural language generation remains unexplored.
This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI
o3) with their non-reasoning counterparts across machine translation (MT) and
text summarization (TS) evaluation tasks. We evaluate eight models across three
architectural categories, including state-of-the-art reasoning models, their
distilled variants (ranging from 8B to 70B parameters), and equivalent
conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval
benchmarks reveal that the benefits of reasoning capabilities are highly model
and task-dependent: while OpenAI o3-mini models show consistent performance
improvements with increased reasoning intensity, DeepSeek-R1 underperforms
compared to its non-reasoning variant, with exception to certain aspects of TS
evaluation. Correlation analysis demonstrates that increased reasoning token
usage positively correlates with evaluation quality in o3-mini models.
Furthermore, our results show that distillation of reasoning capabilities
maintains reasonable performance in medium-sized models (32B) but degrades
substantially in smaller variants (8B). This work provides the first
comprehensive assessment of reasoning LLMs for NLG evaluation and offers
insights into their practical use.Summary
AI-Generated Summary