Структурированный перевод документов с помощью обучения с подкреплением формата
Structured Document Translation via Format Reinforcement Learning
December 4, 2025
Авторы: Haiyue Song, Johannes Eschbach-Dymanus, Hour Kaing, Sumire Honda, Hideki Tanaka, Bianka Buschbeck, Masao Utiyama
cs.AI
Аннотация
Современные работы по структурированному переводу текстов остаются ограниченными уровнем предложений, поскольку они не способны эффективно обрабатывать сложные XML- или HTML-структуры на уровне документа. Для решения этой проблемы мы предлагаем Обучение с подкреплением для форматирования (FormatRL), которое применяет Оптимизацию групповой относительной политики поверх модели с контролируемой тонкой настройкой для прямой оптимизации новых структурно-ориентированных функций поощрения: 1) TreeSim, измеряющий структурное сходство между предсказанными и эталонными XML-деревьями, и 2) Node-chrF, оценивающий качество перевода на уровне XML-узлов. Дополнительно мы применяем StrucAUC — детализированную метрику, различающую незначительные ошибки и серьезные структурные сбои. Эксперименты на эталонном наборе данных SAP по программной документации демонстрируют улучшения по шести метрикам, а дальнейший анализ показывает, как различные функции поощрения способствуют улучшению как структурного качества, так и качества перевода.
English
Recent works on structured text translation remain limited to the sentence level, as they struggle to effectively handle the complex document-level XML or HTML structures. To address this, we propose Format Reinforcement Learning (FormatRL), which employs Group Relative Policy Optimization on top of a supervised fine-tuning model to directly optimize novel structure-aware rewards: 1) TreeSim, which measures structural similarity between predicted and reference XML trees and 2) Node-chrF, which measures translation quality at the level of XML nodes. Additionally, we apply StrucAUC, a fine-grained metric distinguishing between minor errors and major structural failures. Experiments on the SAP software-documentation benchmark demonstrate improvements across six metrics and an analysis further shows how different reward functions contribute to improvements in both structural and translation quality.