DeepSeek vs. o3-mini: Quanto sono efficaci i modelli linguistici di ragionamento nella valutazione della traduzione automatica e della sintesi?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
April 10, 2025
Autori: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) abilitati al ragionamento hanno recentemente dimostrato prestazioni impressionanti in compiti logici e matematici complessi, ma la loro efficacia nella valutazione della generazione del linguaggio naturale rimane inesplorata. Questo studio confronta sistematicamente LLM basati sul ragionamento (DeepSeek-R1 e OpenAI o3) con le loro controparti non abilitate al ragionamento in compiti di valutazione della traduzione automatica (MT) e della sintesi testuale (TS). Valutiamo otto modelli appartenenti a tre categorie architetturali, inclusi modelli di ragionamento all'avanguardia, loro varianti distillate (con parametri che vanno da 8B a 70B) e LLM convenzionali equivalenti non abilitati al ragionamento. I nostri esperimenti sui benchmark WMT23 e SummEval rivelano che i benefici delle capacità di ragionamento sono fortemente dipendenti dal modello e dal compito: mentre i modelli OpenAI o3-mini mostrano miglioramenti prestazionali consistenti con l'aumento dell'intensità del ragionamento, DeepSeek-R1 ottiene prestazioni inferiori rispetto alla sua variante non abilitata al ragionamento, con l'eccezione di alcuni aspetti della valutazione TS. L'analisi di correlazione dimostra che un maggiore utilizzo di token di ragionamento si correla positivamente con la qualità della valutazione nei modelli o3-mini. Inoltre, i nostri risultati mostrano che la distillazione delle capacità di ragionamento mantiene prestazioni ragionevoli nei modelli di medie dimensioni (32B), ma si degrada sostanzialmente nelle varianti più piccole (8B). Questo lavoro fornisce la prima valutazione completa degli LLM abilitati al ragionamento per la valutazione della generazione del linguaggio naturale e offre spunti per il loro utilizzo pratico.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated
impressive performance in complex logical and mathematical tasks, yet their
effectiveness in evaluating natural language generation remains unexplored.
This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI
o3) with their non-reasoning counterparts across machine translation (MT) and
text summarization (TS) evaluation tasks. We evaluate eight models across three
architectural categories, including state-of-the-art reasoning models, their
distilled variants (ranging from 8B to 70B parameters), and equivalent
conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval
benchmarks reveal that the benefits of reasoning capabilities are highly model
and task-dependent: while OpenAI o3-mini models show consistent performance
improvements with increased reasoning intensity, DeepSeek-R1 underperforms
compared to its non-reasoning variant, with exception to certain aspects of TS
evaluation. Correlation analysis demonstrates that increased reasoning token
usage positively correlates with evaluation quality in o3-mini models.
Furthermore, our results show that distillation of reasoning capabilities
maintains reasonable performance in medium-sized models (32B) but degrades
substantially in smaller variants (8B). This work provides the first
comprehensive assessment of reasoning LLMs for NLG evaluation and offers
insights into their practical use.Summary
AI-Generated Summary