Modelgebaseerde Kwaliteitsbeoordeling voor Massaal Meertalige Parallelle Data

Samenvatting

Grootschalige meertalige bitekst kent vaak twee afzonderlijke problemen: niet-parallele zinsparen en vertalingen van lage kwaliteit. We ontleden modelgebaseerde beoordeling van dergelijke gegevens in twee onafhankelijke componenten: parallelliteitsbeoordeling met meertalige inbeddingen en referentievrije kwaliteitsschatting (QE). Voor parallelliteit vergelijken we vier inbeddingsmodellen op de FLORES-200- en BOUQuET-retrievaltaken, die 6.654 bron-doelrichtingen in onze doel-taalpaarinventaris bestrijken. Voor QE evalueren we negen referentievrije evaluatoren op professionele FLORES-200-vertalingen over 41.412 geordende bron-doelrichtingen. De resultaten tonen aan dat geen enkel model universeel betrouwbaar is over alle vertaalrichtingen heen. Naïeve QE-ensembles verzwakken sterke modelsignalen, terwijl gedocumenteerde dekkingsgraad van de doeltaal sterk samenhangt met hogere QE-scores. Over het algemeen suggereren deze bevindingen dat meertalige parallelle data-beoordeling het beste kan worden benaderd als een richtingbewust routerings- en kalibratieprobleem, waarbij niet verwacht kan worden dat één enkele universele metriek voor alle talen volstaat.

English

Large-scale multilingual bitext often contains two distinct problems: non-parallel sentence pairs and low-quality translations. We decompose model-based assessment for such data into two independent components: parallelism assessment with multilingual embeddings and reference-free quality estimation (QE). For parallelism, we benchmark four embedding models on FLORES-200 and BOUQuET retrieval tasks, covering 6,654 source--target directions in our target language-pair inventory. For QE, we evaluate nine reference-free evaluators on professional FLORES-200 translations across 41,412 ordered source--target directions. Results show that no model is universally reliable across translation directions. Naive QE ensembles dilute strong model signals, while documented target-language coverage is strongly associated with higher QE scores. Overall, these findings suggest that multilingual parallel-data assessment is best approached as a direction-aware routing and calibration problem, where no single universal metric is expected to suffice across all languages.