DeepSeek vs. o3-mini: Wie gut können Reasoning-LLMs maschinelle Übersetzung und Zusammenfassung bewerten?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
April 10, 2025
Autoren: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI
Zusammenfassung
Vernunftfähige große Sprachmodelle (LLMs) haben kürzlich beeindruckende Leistungen bei komplexen logischen und mathematischen Aufgaben gezeigt, doch ihre Effektivität bei der Bewertung der natürlichen Sprachgenerierung bleibt unerforscht. Diese Studie vergleicht systematisch vernunftbasierte LLMs (DeepSeek-R1 und OpenAI o3) mit ihren nicht-vernunftfähigen Gegenstücken in den Aufgaben der maschinellen Übersetzung (MT) und Textzusammenfassung (TS). Wir bewerten acht Modelle aus drei architektonischen Kategorien, darunter state-of-the-art Vernunftmodelle, ihre destillierten Varianten (mit Parametern zwischen 8B und 70B) und äquivalente konventionelle, nicht-vernunftfähige LLMs. Unsere Experimente auf den Benchmarks WMT23 und SummEval zeigen, dass die Vorteile von Vernunftfähigkeiten stark modell- und aufgabenabhängig sind: Während OpenAI o3-mini-Modelle konsistente Leistungsverbesserungen mit zunehmender Vernunftintensität zeigen, schneidet DeepSeek-R1 im Vergleich zu seiner nicht-vernunftfähigen Variante schlechter ab, mit Ausnahme bestimmter Aspekte der TS-Bewertung. Korrelationsanalysen zeigen, dass eine erhöhte Nutzung von Vernunft-Tokens positiv mit der Bewertungsqualität in o3-mini-Modellen korreliert. Darüber hinaus zeigen unsere Ergebnisse, dass die Destillation von Vernunftfähigkeiten in mittelgroßen Modellen (32B) eine angemessene Leistung beibehält, in kleineren Varianten (8B) jedoch erheblich abnimmt. Diese Arbeit bietet die erste umfassende Bewertung von vernunftfähigen LLMs für die NLG-Bewertung und liefert Einblicke in ihre praktische Anwendung.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated
impressive performance in complex logical and mathematical tasks, yet their
effectiveness in evaluating natural language generation remains unexplored.
This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI
o3) with their non-reasoning counterparts across machine translation (MT) and
text summarization (TS) evaluation tasks. We evaluate eight models across three
architectural categories, including state-of-the-art reasoning models, their
distilled variants (ranging from 8B to 70B parameters), and equivalent
conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval
benchmarks reveal that the benefits of reasoning capabilities are highly model
and task-dependent: while OpenAI o3-mini models show consistent performance
improvements with increased reasoning intensity, DeepSeek-R1 underperforms
compared to its non-reasoning variant, with exception to certain aspects of TS
evaluation. Correlation analysis demonstrates that increased reasoning token
usage positively correlates with evaluation quality in o3-mini models.
Furthermore, our results show that distillation of reasoning capabilities
maintains reasonable performance in medium-sized models (32B) but degrades
substantially in smaller variants (8B). This work provides the first
comprehensive assessment of reasoning LLMs for NLG evaluation and offers
insights into their practical use.Summary
AI-Generated Summary