DRT-o1: Geoptimaliseerde Diepe Redenering Vertaling via Lange Keten-van-Denken
DRT-o1: Optimized Deep Reasoning Translation via Long Chain-of-Thought
December 23, 2024
Auteurs: Jiaan Wang, Fandong Meng, Yunlong Liang, Jie Zhou
cs.AI
Samenvatting
Recentelijk zijn O1-achtige modellen naar voren gekomen als representatieve voorbeelden, waarbij de effectiviteit van lange ketens van gedachten (CoT) wordt geïllustreerd in redeneertaken zoals wiskunde- en programmeertaken. In dit artikel introduceren we DRT-o1, een poging om het succes van lange CoT naar neurale machinevertaling (MT) te brengen. Specifiek, gezien de literatuurboeken die mogelijk vergelijkingen en metaforen bevatten, is het in de praktijk zeer moeilijk om deze teksten naar een doeltaal te vertalen vanwege culturele verschillen. In dergelijke gevallen slaagt een letterlijke vertaling er vaak niet in om de bedoelde betekenis effectief over te brengen. Zelfs voor professionele menselijke vertalers moet aanzienlijk worden nagedacht over het behouden van de semantiek gedurende het vertaalproces. Om de lange denkvermogens van LLM's na te bootsen in MT, mijnen we eerst zinnen met vergelijkingen of metaforen uit bestaande literatuurboeken, en ontwikkelen vervolgens een multi-agentenframework om deze zinnen via lang denken te vertalen. In het multi-agentenframework wordt een vertaler gebruikt om de bronzin iteratief te vertalen onder de suggesties van een adviseur. Om de effectiviteit van de lange gedachten te waarborgen, wordt ook een beoordelaar ingezet om te beoordelen of de vertaling in de huidige ronde beter is dan de vorige of niet. Op deze manier verzamelen we tienduizenden lang-denkende MT-gegevens, die worden gebruikt om onze DRT-o1 te trainen. De experimentele resultaten bij literatuurvertaling tonen de effectiviteit van de DRT-o1 aan. Met behulp van Qwen2.5-7B en Qwen2.5-14B als ruggengraten, bereikt de verbetering die DRT-o1 met zich meebrengt 7.33~8.26 BLEU en 1.66~3.36 CometScore. Bovendien kan DRT-o1-7B QwQ-32B-Preview overtreffen met 7.82 BLEU en 1.46 CometScore, wat de effectiviteit ervan aantoont. Het project is beschikbaar op https://github.com/krystalan/DRT-o1.
English
Recently, O1-like models have emerged as representative examples,
illustrating the effectiveness of long chain-of-thought (CoT) in reasoning
tasks such as math and coding tasks. In this paper, we introduce DRT-o1, an
attempt to bring the success of long CoT to neural machine translation (MT).
Specifically, in view of the literature books that might involve similes and
metaphors, translating these texts to a target language is very difficult in
practice due to cultural differences. In such cases, literal translation often
fails to convey the intended meaning effectively. Even for professional human
translators, considerable thought must be given to preserving semantics
throughout the translation process. To simulate LLMs' long thought ability in
MT, we first mine sentences containing similes or metaphors from existing
literature books, and then develop a multi-agent framework to translate these
sentences via long thought. In the multi-agent framework, a translator is used
to iteratively translate the source sentence under the suggestions provided by
an advisor. To ensure the effectiveness of the long thoughts, an evaluator is
also employed to judge whether the translation in the current round is better
than the previous one or not. In this manner, we collect tens of thousands of
long-thought MT data, which is used to train our DRT-o1. The experimental
results on literature translation demonstrate the effectiveness of the DRT-o1.
Using Qwen2.5-7B and Qwen2.5-14B as the backbones, the improvement brought by
DRT-o1 achieves 7.33~8.26 BLEU and 1.66~3.36 CometScore. Besides, DRT-o1-7B can
outperform QwQ-32B-Preview by 7.82 BLEU and 1.46 CometScore, showing its
effectiveness. The project is available at https://github.com/krystalan/DRT-o1