ChatPaper.aiChatPaper

DeepSeek vs. o3-mini: Quão Bem Modelos de Linguagem de Raciocínio Podem Avaliar Tradução Automática e Sumarização?

DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

April 10, 2025
Autores: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) habilitados para raciocínio demonstraram recentemente desempenho impressionante em tarefas lógicas e matemáticas complexas, mas sua eficácia na avaliação de geração de linguagem natural ainda não foi explorada. Este estudo compara sistematicamente LLMs baseados em raciocínio (DeepSeek-R1 e OpenAI o3) com suas contrapartes sem capacidade de raciocínio em tarefas de avaliação de tradução automática (MT) e sumarização de texto (TS). Avaliamos oito modelos em três categorias arquitetônicas, incluindo modelos de raciocínio state-of-the-art, suas variantes destiladas (variando de 8B a 70B parâmetros) e LLMs convencionais equivalentes sem capacidade de raciocínio. Nossos experimentos nos benchmarks WMT23 e SummEval revelam que os benefícios das capacidades de raciocínio são altamente dependentes do modelo e da tarefa: enquanto os modelos OpenAI o3-mini mostram melhorias consistentes de desempenho com o aumento da intensidade de raciocínio, o DeepSeek-R1 tem desempenho inferior em comparação com sua variante sem raciocínio, com exceção de certos aspectos da avaliação de TS. A análise de correlação demonstra que o aumento do uso de tokens de raciocínio está positivamente correlacionado com a qualidade da avaliação nos modelos o3-mini. Além disso, nossos resultados mostram que a destilação de capacidades de raciocínio mantém um desempenho razoável em modelos de tamanho médio (32B), mas degrada substancialmente em variantes menores (8B). Este trabalho fornece a primeira avaliação abrangente de LLMs de raciocínio para avaliação de NLG e oferece insights sobre seu uso prático.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated impressive performance in complex logical and mathematical tasks, yet their effectiveness in evaluating natural language generation remains unexplored. This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI o3) with their non-reasoning counterparts across machine translation (MT) and text summarization (TS) evaluation tasks. We evaluate eight models across three architectural categories, including state-of-the-art reasoning models, their distilled variants (ranging from 8B to 70B parameters), and equivalent conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval benchmarks reveal that the benefits of reasoning capabilities are highly model and task-dependent: while OpenAI o3-mini models show consistent performance improvements with increased reasoning intensity, DeepSeek-R1 underperforms compared to its non-reasoning variant, with exception to certain aspects of TS evaluation. Correlation analysis demonstrates that increased reasoning token usage positively correlates with evaluation quality in o3-mini models. Furthermore, our results show that distillation of reasoning capabilities maintains reasonable performance in medium-sized models (32B) but degrades substantially in smaller variants (8B). This work provides the first comprehensive assessment of reasoning LLMs for NLG evaluation and offers insights into their practical use.

Summary

AI-Generated Summary

PDF42April 15, 2025