DeepSeek vs. o3-mini: ¿Qué tan bien pueden los LLMs de razonamiento evaluar la traducción automática y la generación de resúmenes?
DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?
April 10, 2025
Autores: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) habilitados para razonamiento han demostrado recientemente un rendimiento impresionante en tareas lógicas y matemáticas complejas, aunque su efectividad en la evaluación de la generación de lenguaje natural sigue sin explorarse. Este estudio compara sistemáticamente los LLMs basados en razonamiento (DeepSeek-R1 y OpenAI o3) con sus contrapartes sin razonamiento en tareas de evaluación de traducción automática (MT) y resumen de texto (TS). Evaluamos ocho modelos en tres categorías arquitectónicas, incluyendo modelos de razonamiento de última generación, sus variantes destiladas (que van desde 8B hasta 70B parámetros) y LLMs convencionales equivalentes sin razonamiento. Nuestros experimentos en los benchmarks WMT23 y SummEval revelan que los beneficios de las capacidades de razonamiento dependen en gran medida del modelo y la tarea: mientras que los modelos OpenAI o3-mini muestran mejoras consistentes en el rendimiento con un mayor uso de razonamiento, DeepSeek-R1 tiene un rendimiento inferior en comparación con su variante sin razonamiento, excepto en ciertos aspectos de la evaluación de TS. El análisis de correlación demuestra que un mayor uso de tokens de razonamiento se correlaciona positivamente con la calidad de la evaluación en los modelos o3-mini. Además, nuestros resultados muestran que la destilación de capacidades de razonamiento mantiene un rendimiento razonable en modelos de tamaño mediano (32B), pero se degrada sustancialmente en variantes más pequeñas (8B). Este trabajo proporciona la primera evaluación integral de los LLMs de razonamiento para la evaluación de NLG y ofrece insights sobre su uso práctico.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated
impressive performance in complex logical and mathematical tasks, yet their
effectiveness in evaluating natural language generation remains unexplored.
This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI
o3) with their non-reasoning counterparts across machine translation (MT) and
text summarization (TS) evaluation tasks. We evaluate eight models across three
architectural categories, including state-of-the-art reasoning models, their
distilled variants (ranging from 8B to 70B parameters), and equivalent
conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval
benchmarks reveal that the benefits of reasoning capabilities are highly model
and task-dependent: while OpenAI o3-mini models show consistent performance
improvements with increased reasoning intensity, DeepSeek-R1 underperforms
compared to its non-reasoning variant, with exception to certain aspects of TS
evaluation. Correlation analysis demonstrates that increased reasoning token
usage positively correlates with evaluation quality in o3-mini models.
Furthermore, our results show that distillation of reasoning capabilities
maintains reasonable performance in medium-sized models (32B) but degrades
substantially in smaller variants (8B). This work provides the first
comprehensive assessment of reasoning LLMs for NLG evaluation and offers
insights into their practical use.Summary
AI-Generated Summary