ChatPaper.aiChatPaper

LLM 기계 번역을 위한 추론: 사고 토큰 기반 합성 데이터 생성

LLM Reasoning for Machine Translation: Synthetic Data Generation over Thinking Tokens

October 13, 2025
저자: Armel Zebaze, Rachel Bawden, Benoît Sagot
cs.AI

초록

대규모 추론 모델(Large Reasoning Models, LRMs)은 질의에 답변하기 전에 자연어 사고 과정을 설계함으로써 문제 해결 측면에서 새로운 가능성을 열어주었다. 이러한 모델의 능력은 수학 및 코딩 작업에서 잘 알려져 있지만, 기계 번역(Machine Translation, MT) 작업에 미치는 영향은 아직 충분히 탐구되지 않았다. 본 연구에서는 다양한 자원 수준의 언어 쌍과 다양한 설정에서 중간 토큰 생성이 기계 번역 수행에 미치는 이점을 탐구한다. 우리는 "사고 토큰(thinking tokens)"이 LRM이 기계 번역을 더 잘 수행하는 데 도움이 되지 않는다는 사실을 발견했다. 이 결과는 인간 번역가의 관행에서 영감을 받은 연쇄 사고(Chain of Thought, CoT)를 응축하여 번역 전에 추론하도록 미세 조정된 모델에도 일반화된다. 구체적으로, 단계별 번역 방법을 상세히 설명하는 합성 CoT 설명으로 모델을 미세 조정하는 것은 표준 입력-출력 미세 조정을 능가하지 못한다. 그러나 모듈식 번역 전략의 출력을 결합하여 중간 토큰을 구성하면 개선이 이루어진다. 우리의 연구 결과는 미세 조정 중 중간 토큰의 기여가 그 안에 번역 시도가 포함되어 있는지 여부에 크게 의존한다는 점을 강조한다. 더 넓은 관점에서, 우리의 결과는 목표 번역을 개선하거나 병렬 코퍼스를 확장하기 위해 교사 모델을 사용하는 것이 그들의 CoT 설명을 "사고" 기계 번역 모델에 응축하는 것보다 더 큰 영향을 미친다는 것을 시사한다.
English
Large reasoning models (LRMs) have led to new possibilities in terms of problem-solving, through the devising of a natural language thought process prior to answering a query. While their capabilities are well known across mathematics and coding tasks, their impact on the task of machine translation (MT) remains underexplored. In this work, we explore the benefits of the generation of intermediate tokens when performing MT across multiple language pairs of different levels of resourcedness and multiple setups. We find that "thinking tokens" do not help LRMs better perform MT. This result generalizes to models fine-tuned to reason before translating using distilled chain of thought (CoT) inspired by human translators' practices. Specifically, fine-tuning a model with synthetic CoT explanations detailing how to translate step-by-step does not outperform standard input-output fine-tuning. However, constructing the intermediate tokens by combining the outputs of modular translation-specific prompting strategies results in improvements. Our findings underscore that the contribution of intermediate tokens during fine-tuning highly depends on the presence of translation attempts within them. More broadly, our results suggest that using a teacher to refine target translations or to expand parallel corpora is more impactful than distilling their CoT explanations into "thinking" MT models.
PDF42October 15, 2025