ChatPaper.aiChatPaper

Управление крупными языковыми моделями для персонализации машинного перевода

Steering Large Language Models for Machine Translation Personalization

May 22, 2025
Авторы: Daniel Scalena, Gabriele Sarti, Arianna Bisazza, Elisabetta Fersini, Malvina Nissim
cs.AI

Аннотация

Высококачественные системы машинного перевода, основанные на больших языковых моделях (LLM), упростили создание персонализированных переводов, отражающих специфические стилистические ограничения. Однако эти системы по-прежнему испытывают трудности в ситуациях, где стилистические требования менее явны и могут быть сложнее для передачи через промптинг. Мы исследуем различные стратегии персонализации переводов, созданных LLM, в условиях ограниченных ресурсов, уделяя особое внимание сложной области литературного перевода. Мы изучаем стратегии промптинга и вмешательства на этапе вывода для направления генераций модели в сторону персонализированного стиля, а также предлагаем контрастный фреймворк, использующий скрытые концепции, извлеченные из разреженных автокодировщиков, для выявления ключевых свойств персонализации. Наши результаты показывают, что направление генераций позволяет достичь высокой степени персонализации при сохранении качества перевода. Мы также исследуем влияние направляющих вмешательств на представления в LLM, обнаруживая, что слои модели, имеющие значительное влияние на персонализацию, аналогично реагируют на многошаговый промптинг и наш метод направляющих вмешательств, что указывает на схожие механизмы работы.
English
High-quality machine translation systems based on large language models (LLMs) have simplified the production of personalized translations reflecting specific stylistic constraints. However, these systems still struggle in settings where stylistic requirements are less explicit and might be harder to convey via prompting. We explore various strategies for personalizing LLM-generated translations in low-resource settings, focusing on the challenging literary translation domain. We explore prompting strategies and inference-time interventions for steering model generations towards a personalized style, and propose a contrastive framework exploiting latent concepts extracted from sparse autoencoders to identify salient personalization properties. Our results show that steering achieves strong personalization while preserving translation quality. We further examine the impact of steering on LLM representations, finding model layers with a relevant impact for personalization are impacted similarly by multi-shot prompting and our steering method, suggesting similar mechanism at play.

Summary

AI-Generated Summary

PDF22May 23, 2025