ChatPaper.aiChatPaper

DRT-o1: Geoptimaliseerde Diepe Redenering Vertaling via Lange Keten-van-Denken

DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought

December 23, 2024
Auteurs: Jiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou
cs.AI

Samenvatting

Recentelijk zijn O1-achtige modellen naar voren gekomen als representatieve voorbeelden, waarbij de effectiviteit van lange ketens van gedachten (CoT) wordt geïllustreerd in redeneertaken zoals wiskunde- en programmeertaken. In dit artikel introduceren we DRT-o1, een poging om het succes van lange CoT naar neurale machinevertaling (MT) te brengen. Specifiek, gezien de literatuurboeken die mogelijk vergelijkingen en metaforen bevatten, is het in de praktijk zeer moeilijk om deze teksten naar een doeltaal te vertalen vanwege culturele verschillen. In dergelijke gevallen slaagt een letterlijke vertaling er vaak niet in om de bedoelde betekenis effectief over te brengen. Zelfs voor professionele menselijke vertalers moet aanzienlijk worden nagedacht over het behouden van de semantiek gedurende het vertaalproces. Om de lange denkvermogens van LLM's na te bootsen in MT, mijnen we eerst zinnen met vergelijkingen of metaforen uit bestaande literatuurboeken, en ontwikkelen vervolgens een multi-agentenframework om deze zinnen via lang denken te vertalen. In het multi-agentenframework wordt een vertaler gebruikt om de bronzin iteratief te vertalen onder de suggesties van een adviseur. Om de effectiviteit van de lange gedachten te waarborgen, wordt ook een beoordelaar ingezet om te beoordelen of de vertaling in de huidige ronde beter is dan de vorige of niet. Op deze manier verzamelen we tienduizenden lang-denkende MT-gegevens, die worden gebruikt om onze DRT-o1 te trainen. De experimentele resultaten bij literatuurvertaling tonen de effectiviteit van de DRT-o1 aan. Met behulp van Qwen2.5-7B en Qwen2.5-14B als ruggengraten, bereikt de verbetering die DRT-o1 met zich meebrengt 7.33~8.26 BLEU en 1.66~3.36 CometScore. Bovendien kan DRT-o1-7B QwQ-32B-Preview overtreffen met 7.82 BLEU en 1.46 CometScore, wat de effectiviteit ervan aantoont. Het project is beschikbaar op https://github.com/krystalan/DRT-o1.
English
Recently, O1-like models have emerged as representative examples, illustrating the effectiveness of long chain-of-thought (CoT) in reasoning tasks such as math and coding tasks. In this paper, we introduce DRT-o1, an attempt to bring the success of long CoT to neural machine translation (MT). Specifically, in view of the literature books that might involve similes and metaphors, translating these texts to a target language is very difficult in practice due to cultural differences. In such cases, literal translation often fails to convey the intended meaning effectively. Even for professional human translators, considerable thought must be given to preserving semantics throughout the translation process. To simulate LLMs' long thought ability in MT, we first mine sentences containing similes or metaphors from existing literature books, and then develop a multi-agent framework to translate these sentences via long thought. In the multi-agent framework, a translator is used to iteratively translate the source sentence under the suggestions provided by an advisor. To ensure the effectiveness of the long thoughts, an evaluator is also employed to judge whether the translation in the current round is better than the previous one or not. In this manner, we collect tens of thousands of long-thought MT data, which is used to train our DRT-o1. The experimental results on literature translation demonstrate the effectiveness of the DRT-o1. Using Qwen2.5-7B and Qwen2.5-14B as the backbones, the improvement brought by DRT-o1 achieves 7.33~8.26 BLEU and 1.66~3.36 CometScore. Besides, DRT-o1-7B can outperform QwQ-32B-Preview by 7.82 BLEU and 1.46 CometScore, showing its effectiveness. The project is available at https://github.com/krystalan/DRT-o1
PDF224February 7, 2026