ChatPaper.aiChatPaper

SwiLTra-Bench : Le Benchmark Suisse de Traduction Juridique

SwiLTra-Bench: The Swiss Legal Translation Benchmark

March 3, 2025
Auteurs: Joel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen
cs.AI

Résumé

En Suisse, la traduction juridique revêt une importance particulière en raison des quatre langues officielles du pays et des exigences en matière de documentation juridique multilingue. Cependant, ce processus repose traditionnellement sur des professionnels qui doivent être à la fois experts en droit et traducteurs qualifiés, ce qui crée des goulots d'étranglement et affecte l'accès effectif à la justice. Pour relever ce défi, nous présentons SwiLTra-Bench, un benchmark multilingue complet comprenant plus de 180 000 paires de traductions juridiques suisses alignées, incluant des lois, des notes introductives et des communiqués de presse dans toutes les langues suisses ainsi qu'en anglais, conçu pour évaluer les systèmes de traduction basés sur des modèles de langage (LLM). Notre évaluation systématique révèle que les modèles de pointe atteignent des performances de traduction supérieures pour tous les types de documents, tandis que les systèmes de traduction spécialisés excellent spécifiquement dans les lois mais sous-performent dans les notes introductives. Grâce à des tests rigoureux et à une validation par des experts humains, nous démontrons que bien que le fine-tuning des modèles de langage ouverts (SLM) améliore significativement leur qualité de traduction, ils restent en retard par rapport aux meilleurs modèles de pointe utilisés en zero-shot, tels que Claude-3.5-Sonnet. De plus, nous présentons SwiLTra-Judge, un système d'évaluation LLM spécialisé qui s'aligne le mieux avec les évaluations des experts humains.
English
In Switzerland legal translation is uniquely important due to the country's four official languages and requirements for multilingual legal documentation. However, this process traditionally relies on professionals who must be both legal experts and skilled translators -- creating bottlenecks and impacting effective access to justice. To address this challenge, we introduce SwiLTra-Bench, a comprehensive multilingual benchmark of over 180K aligned Swiss legal translation pairs comprising laws, headnotes, and press releases across all Swiss languages along with English, designed to evaluate LLM-based translation systems. Our systematic evaluation reveals that frontier models achieve superior translation performance across all document types, while specialized translation systems excel specifically in laws but under-perform in headnotes. Through rigorous testing and human expert validation, we demonstrate that while fine-tuning open SLMs significantly improves their translation quality, they still lag behind the best zero-shot prompted frontier models such as Claude-3.5-Sonnet. Additionally, we present SwiLTra-Judge, a specialized LLM evaluation system that aligns best with human expert assessments.

Summary

AI-Generated Summary

PDF32March 6, 2025