ChatPaper.aiChatPaper

DeepSeek vs. o3-mini : Dans quelle mesure les LLM de raisonnement peuvent-ils évaluer la traduction automatique et la synthèse ?

DeepSeek vs. o3-mini: How Well can Reasoning LLMs Evaluate MT and Summarization?

April 10, 2025
Auteurs: Daniil Larionov, Sotaro Takeshita, Ran Zhang, Yanran Chen, Christoph Leiter, Zhipin Wang, Christian Greisinger, Steffen Eger
cs.AI

Résumé

Les grands modèles de langage (LLM) dotés de capacités de raisonnement ont récemment démontré des performances impressionnantes dans des tâches logiques et mathématiques complexes. Cependant, leur efficacité dans l'évaluation de la génération de langage naturel reste inexplorée. Cette étude compare systématiquement les LLM basés sur le raisonnement (DeepSeek-R1 et OpenAI o3) à leurs homologues sans raisonnement dans des tâches d'évaluation de la traduction automatique (MT) et de la synthèse de texte (TS). Nous évaluons huit modèles appartenant à trois catégories architecturales, incluant des modèles de raisonnement de pointe, leurs variantes distillées (allant de 8B à 70B paramètres), et des LLM conventionnels équivalents sans raisonnement. Nos expériences sur les benchmarks WMT23 et SummEval révèlent que les avantages des capacités de raisonnement dépendent fortement du modèle et de la tâche : tandis que les modèles OpenAI o3-mini montrent des améliorations de performance constantes avec une intensité de raisonnement accrue, DeepSeek-R1 sous-performe par rapport à sa variante sans raisonnement, à l'exception de certains aspects de l'évaluation TS. L'analyse de corrélation démontre qu'une utilisation accrue des tokens de raisonnement est positivement corrélée à la qualité de l'évaluation dans les modèles o3-mini. De plus, nos résultats montrent que la distillation des capacités de raisonnement maintient des performances raisonnables dans les modèles de taille moyenne (32B) mais se dégrade considérablement dans les variantes plus petites (8B). Ce travail fournit la première évaluation complète des LLM de raisonnement pour l'évaluation de la génération de langage naturel et offre des insights sur leur utilisation pratique.
English
Reasoning-enabled large language models (LLMs) have recently demonstrated impressive performance in complex logical and mathematical tasks, yet their effectiveness in evaluating natural language generation remains unexplored. This study systematically compares reasoning-based LLMs (DeepSeek-R1 and OpenAI o3) with their non-reasoning counterparts across machine translation (MT) and text summarization (TS) evaluation tasks. We evaluate eight models across three architectural categories, including state-of-the-art reasoning models, their distilled variants (ranging from 8B to 70B parameters), and equivalent conventional, non-reasoning LLMs. Our experiments on WMT23 and SummEval benchmarks reveal that the benefits of reasoning capabilities are highly model and task-dependent: while OpenAI o3-mini models show consistent performance improvements with increased reasoning intensity, DeepSeek-R1 underperforms compared to its non-reasoning variant, with exception to certain aspects of TS evaluation. Correlation analysis demonstrates that increased reasoning token usage positively correlates with evaluation quality in o3-mini models. Furthermore, our results show that distillation of reasoning capabilities maintains reasonable performance in medium-sized models (32B) but degrades substantially in smaller variants (8B). This work provides the first comprehensive assessment of reasoning LLMs for NLG evaluation and offers insights into their practical use.

Summary

AI-Generated Summary

PDF42April 15, 2025