ChatPaper.aiChatPaper

Over niet-interactieve evaluatie van vertalers voor dierlijke communicatie

On Non-interactive Evaluation of Animal Communication Translators

October 17, 2025
Auteurs: Orr Paradise, David F. Gruber, Adam Tauman Kalai
cs.AI

Samenvatting

Als je een AI Walvis-naar-Engels vertaler had, hoe zou je dan kunnen valideren of deze werkt? Moet je interactie hebben met de dieren of vertrouwen op gegronde observaties zoals temperatuur? Wij leveren theoretisch en proof-of-concept experimenteel bewijs dat suggereert dat interactie en zelfs observaties mogelijk niet nodig zijn voor voldoende complexe talen. Men zou vertalers uitsluitend kunnen evalueren op basis van hun Engelse uitvoer, wat potentiële voordelen biedt op het gebied van veiligheid, ethiek en kosten. Dit is een voorbeeld van machinevertaling-kwaliteitsevaluatie (MTQE) zonder enige referentievertalingen beschikbaar. Een belangrijke uitdaging is het identificeren van "hallucinaties," valse vertalingen die vloeiend en plausibel kunnen lijken. Wij stellen voor om segment-voor-segment vertaling te gebruiken samen met de klassieke NLP shuffle-test om vertalers te evalueren. Het idee is om diercommunicatie beurtelings te vertalen en te evalueren hoe vaak de resulterende vertalingen meer zin hebben in volgorde dan wanneer ze door elkaar zijn geschud. Proof-of-concept experimenten op data-schaarse menselijke talen en geconstrueerde talen tonen de potentiële bruikbaarheid van deze evaluatiemethodologie aan. Deze menselijke-taalexperimenten dienen uitsluitend om onze referentievrije metriek te valideren onder data-schaarste. Het blijkt sterk te correleren met een standaard evaluatie gebaseerd op referentievertalingen, die in onze experimenten beschikbaar zijn. We voeren ook een theoretische analyse uit die suggereert dat interactie mogelijk niet nodig noch efficiënt is in de vroege stadia van het leren vertalen.
English
If you had an AI Whale-to-English translator, how could you validate whether or not it is working? Does one need to interact with the animals or rely on grounded observations such as temperature? We provide theoretical and proof-of-concept experimental evidence suggesting that interaction and even observations may not be necessary for sufficiently complex languages. One may be able to evaluate translators solely by their English outputs, offering potential advantages in terms of safety, ethics, and cost. This is an instance of machine translation quality evaluation (MTQE) without any reference translations available. A key challenge is identifying ``hallucinations,'' false translations which may appear fluent and plausible. We propose using segment-by-segment translation together with the classic NLP shuffle test to evaluate translators. The idea is to translate animal communication, turn by turn, and evaluate how often the resulting translations make more sense in order than permuted. Proof-of-concept experiments on data-scarce human languages and constructed languages demonstrate the potential utility of this evaluation methodology. These human-language experiments serve solely to validate our reference-free metric under data scarcity. It is found to correlate highly with a standard evaluation based on reference translations, which are available in our experiments. We also perform a theoretical analysis suggesting that interaction may not be necessary nor efficient in the early stages of learning to translate.
PDF22October 21, 2025