ChatPaper.aiChatPaper

DeepSeek vs. o3-mini: ¿Qué tan bien pueden los LLMs de razonamiento evaluar la traducción automática y la generación de resúmenes?

DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

April 10, 2025
Autores: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) habilitados para razonamiento han demostrado recientemente un rendimiento impresionante en tareas lógicas y matemáticas complejas, aunque su efectividad en la evaluación de la generación de lenguaje natural sigue sin explorarse. Este estudio compara sistemáticamente los LLMs basados en razonamiento (DeepSeek-R1 y OpenAI o3) con sus contrapartes sin razonamiento en tareas de evaluación de traducción automática (MT) y resumen de texto (TS). Evaluamos ocho modelos en tres categorías arquitectónicas, incluyendo modelos de razonamiento de última generación, sus variantes destiladas (que van desde 8B hasta 70B parámetros) y LLMs convencionales equivalentes sin razonamiento. Nuestros experimentos en los benchmarks WMT23 y SummEval revelan que los beneficios de las capacidades de razonamiento dependen en gran medida del modelo y la tarea: mientras que los modelos OpenAI o3-mini muestran mejoras consistentes en el rendimiento con un mayor uso de razonamiento, DeepSeek-R1 tiene un rendimiento inferior en comparación con su variante sin razonamiento, excepto en ciertos aspectos de la evaluación de TS. El análisis de correlación demuestra que un mayor uso de tokens de razonamiento se correlaciona positivamente con la calidad de la evaluación en los modelos o3-mini. Además, nuestros resultados muestran que la destilación de capacidades de razonamiento mantiene un rendimiento razonable en modelos de tamaño mediano (32B), pero se degrada sustancialmente en variantes más pequeñas (8B). Este trabajo proporciona la primera evaluación integral de los LLMs de razonamiento para la evaluación de NLG y ofrece insights sobre su uso práctico.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated impressive performance in complex logical and mathematical tasks, yet their effectiveness in evaluating natural language generation remains unexplored. This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI o3) with their non-reasoning counterparts across machine translation (MT) and text summarization (TS) evaluation tasks. We evaluate eight models across three architectural categories, including state-of-the-art reasoning models, their distilled variants (ranging from 8B to 70B parameters), and equivalent conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval benchmarks reveal that the benefits of reasoning capabilities are highly model and task-dependent: while OpenAI o3-mini models show consistent performance improvements with increased reasoning intensity, DeepSeek-R1 underperforms compared to its non-reasoning variant, with exception to certain aspects of TS evaluation. Correlation analysis demonstrates that increased reasoning token usage positively correlates with evaluation quality in o3-mini models. Furthermore, our results show that distillation of reasoning capabilities maintains reasonable performance in medium-sized models (32B) but degrades substantially in smaller variants (8B). This work provides the first comprehensive assessment of reasoning LLMs for NLG evaluation and offers insights into their practical use.

Summary

AI-Generated Summary

PDF42April 15, 2025