Sur l'évaluation non interactive des traducteurs de communication animale
On Non-interactive Evaluation of Animal Communication Translators
October 17, 2025
papers.authors: Orr Paradise, David F. Gruber, Adam Tauman Kalai
cs.AI
papers.abstract
Si vous disposiez d’un traducteur IA baleine-anglais, comment pourriez-vous valider son fonctionnement ? Est-il nécessaire d’interagir avec les animaux ou de s’appuyer sur des observations concrètes, telles que la température ? Nous fournissons des preuves théoriques et expérimentales de principe suggérant que l’interaction, voire les observations, pourraient ne pas être nécessaires pour des langages suffisamment complexes. Il serait possible d’évaluer les traducteurs uniquement sur la base de leurs sorties en anglais, offrant ainsi des avantages potentiels en termes de sécurité, d’éthique et de coût. Ceci constitue un exemple d’évaluation de la qualité de la traduction automatique (MTQE) sans aucune traduction de référence disponible. Un défi majeur consiste à identifier les « hallucinations », des traductions fausses qui peuvent paraître fluides et plausibles. Nous proposons d’utiliser la traduction segment par segment, associée au test de permutation classique en traitement automatique du langage (NLP), pour évaluer les traducteurs. L’idée est de traduire la communication animale, tour à tour, et d’évaluer à quelle fréquence les traductions résultantes ont plus de sens dans l’ordre original que dans un ordre permuté. Des expériences de principe sur des langues humaines peu documentées et des langues construites démontrent l’utilité potentielle de cette méthodologie d’évaluation. Ces expériences sur des langues humaines servent uniquement à valider notre métrique sans référence dans un contexte de rareté des données. Il est constaté qu’elle présente une forte corrélation avec une évaluation standard basée sur des traductions de référence, disponibles dans nos expériences. Nous effectuons également une analyse théorique suggérant que l’interaction pourrait ne pas être nécessaire ni efficace dans les premières étapes de l’apprentissage de la traduction.
English
If you had an AI Whale-to-English translator, how could you validate whether
or not it is working? Does one need to interact with the animals or rely on
grounded observations such as temperature? We provide theoretical and
proof-of-concept experimental evidence suggesting that interaction and even
observations may not be necessary for sufficiently complex languages. One may
be able to evaluate translators solely by their English outputs, offering
potential advantages in terms of safety, ethics, and cost. This is an instance
of machine translation quality evaluation (MTQE) without any reference
translations available. A key challenge is identifying ``hallucinations,''
false translations which may appear fluent and plausible. We propose using
segment-by-segment translation together with the classic NLP shuffle test to
evaluate translators. The idea is to translate animal communication, turn by
turn, and evaluate how often the resulting translations make more sense in
order than permuted. Proof-of-concept experiments on data-scarce human
languages and constructed languages demonstrate the potential utility of this
evaluation methodology. These human-language experiments serve solely to
validate our reference-free metric under data scarcity. It is found to
correlate highly with a standard evaluation based on reference translations,
which are available in our experiments. We also perform a theoretical analysis
suggesting that interaction may not be necessary nor efficient in the early
stages of learning to translate.