DeepSeek vs. o3-mini: Насколько хорошо языковые модели с возможностью рассуждений могут оценивать машинный перевод и суммаризацию?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
April 10, 2025
Авторы: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI
Аннотация
Крупные языковые модели (LLM) с поддержкой логического вывода недавно продемонстрировали впечатляющие результаты в сложных логических и математических задачах, однако их эффективность в оценке генерации естественного языка остаётся малоизученной. В данном исследовании проводится систематическое сравнение LLM с поддержкой логического вывода (DeepSeek-R1 и OpenAI o3) с их аналогами без такой поддержки в задачах оценки машинного перевода (MT) и суммаризации текста (TS). Мы оцениваем восемь моделей, охватывающих три архитектурные категории, включая передовые модели с логическим выводом, их дистиллированные варианты (от 8B до 70B параметров) и эквивалентные традиционные LLM без поддержки логического вывода. Наши эксперименты на бенчмарках WMT23 и SummEval показывают, что преимущества логического вывода сильно зависят от модели и задачи: в то время как модели OpenAI o3-mini демонстрируют устойчивое улучшение производительности с увеличением интенсивности логического вывода, DeepSeek-R1 уступает своему варианту без логического вывода, за исключением некоторых аспектов оценки TS. Корреляционный анализ показывает, что увеличение использования токенов логического вывода положительно связано с качеством оценки в моделях o3-mini. Кроме того, наши результаты свидетельствуют, что дистилляция возможностей логического вывода сохраняет приемлемую производительность в моделях среднего размера (32B), но значительно ухудшается в более компактных вариантах (8B). Данная работа представляет собой первое всестороннее исследование LLM с логическим выводом для оценки генерации естественного языка и предлагает практические рекомендации по их использованию.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated
impressive performance in complex logical and mathematical tasks, yet their
effectiveness in evaluating natural language generation remains unexplored.
This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI
o3) with their non-reasoning counterparts across machine translation (MT) and
text summarization (TS) evaluation tasks. We evaluate eight models across three
architectural categories, including state-of-the-art reasoning models, their
distilled variants (ranging from 8B to 70B parameters), and equivalent
conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval
benchmarks reveal that the benefits of reasoning capabilities are highly model
and task-dependent: while OpenAI o3-mini models show consistent performance
improvements with increased reasoning intensity, DeepSeek-R1 underperforms
compared to its non-reasoning variant, with exception to certain aspects of TS
evaluation. Correlation analysis demonstrates that increased reasoning token
usage positively correlates with evaluation quality in o3-mini models.
Furthermore, our results show that distillation of reasoning capabilities
maintains reasonable performance in medium-sized models (32B) but degrades
substantially in smaller variants (8B). This work provides the first
comprehensive assessment of reasoning LLMs for NLG evaluation and offers
insights into their practical use.Summary
AI-Generated Summary