Sur l'évaluation non interactive des traducteurs de communication animale

papers.abstract

Si vous disposiez d’un traducteur IA baleine-anglais, comment pourriez-vous valider son fonctionnement ? Est-il nécessaire d’interagir avec les animaux ou de s’appuyer sur des observations concrètes, telles que la température ? Nous fournissons des preuves théoriques et expérimentales de principe suggérant que l’interaction, voire les observations, pourraient ne pas être nécessaires pour des langages suffisamment complexes. Il serait possible d’évaluer les traducteurs uniquement sur la base de leurs sorties en anglais, offrant ainsi des avantages potentiels en termes de sécurité, d’éthique et de coût. Ceci constitue un exemple d’évaluation de la qualité de la traduction automatique (MTQE) sans aucune traduction de référence disponible. Un défi majeur consiste à identifier les « hallucinations », des traductions fausses qui peuvent paraître fluides et plausibles. Nous proposons d’utiliser la traduction segment par segment, associée au test de permutation classique en traitement automatique du langage (NLP), pour évaluer les traducteurs. L’idée est de traduire la communication animale, tour à tour, et d’évaluer à quelle fréquence les traductions résultantes ont plus de sens dans l’ordre original que dans un ordre permuté. Des expériences de principe sur des langues humaines peu documentées et des langues construites démontrent l’utilité potentielle de cette méthodologie d’évaluation. Ces expériences sur des langues humaines servent uniquement à valider notre métrique sans référence dans un contexte de rareté des données. Il est constaté qu’elle présente une forte corrélation avec une évaluation standard basée sur des traductions de référence, disponibles dans nos expériences. Nous effectuons également une analyse théorique suggérant que l’interaction pourrait ne pas être nécessaire ni efficace dans les premières étapes de l’apprentissage de la traduction.

English

If you had an AI Whale-to-English translator, how could you validate whether or not it is working? Does one need to interact with the animals or rely on grounded observations such as temperature? We provide theoretical and proof-of-concept experimental evidence suggesting that interaction and even observations may not be necessary for sufficiently complex languages. One may be able to evaluate translators solely by their English outputs, offering potential advantages in terms of safety, ethics, and cost. This is an instance of machine translation quality evaluation (MTQE) without any reference translations available. A key challenge is identifying ``hallucinations,'' false translations which may appear fluent and plausible. We propose using segment-by-segment translation together with the classic NLP shuffle test to evaluate translators. The idea is to translate animal communication, turn by turn, and evaluate how often the resulting translations make more sense in order than permuted. Proof-of-concept experiments on data-scarce human languages and constructed languages demonstrate the potential utility of this evaluation methodology. These human-language experiments serve solely to validate our reference-free metric under data scarcity. It is found to correlate highly with a standard evaluation based on reference translations, which are available in our experiments. We also perform a theoretical analysis suggesting that interaction may not be necessary nor efficient in the early stages of learning to translate.

Sur l'évaluation non interactive des traducteurs de communication animale

On Non-interactive Evaluation of Animal Communication Translators

papers.abstract

Support