Sulla Valutazione Non Interattiva dei Traduttori di Comunicazione Animale
On Non-interactive Evaluation of Animal Communication Translators
October 17, 2025
Autori: Orr Paradise, David F. Gruber, Adam Tauman Kalai
cs.AI
Abstract
Se avessi un traduttore AI da Balena a Inglese, come potresti validare se funziona o meno? È necessario interagire con gli animali o fare affidamento su osservazioni concrete come la temperatura? Forniamo evidenze teoriche e sperimentali di proof-of-concept che suggeriscono che l'interazione e persino le osservazioni potrebbero non essere necessarie per lingue sufficientemente complesse. Si potrebbe valutare i traduttori esclusivamente in base ai loro output in inglese, offrendo potenziali vantaggi in termini di sicurezza, etica e costi. Questo è un esempio di valutazione della qualità della traduzione automatica (MTQE) senza alcuna traduzione di riferimento disponibile. Una sfida chiave è identificare le "allucinazioni", ovvero traduzioni false che possono apparire fluide e plausibili. Proponiamo di utilizzare la traduzione segmento per segmento insieme al classico test di rimescolamento NLP per valutare i traduttori. L'idea è tradurre la comunicazione animale, turno per turno, e valutare quanto spesso le traduzioni risultanti abbiano più senso in ordine rispetto a quelle permutate. Esperimenti di proof-of-concept su lingue umane con dati scarsi e lingue costruite dimostrano l'utilità potenziale di questa metodologia di valutazione. Questi esperimenti sulle lingue umane servono esclusivamente a validare la nostra metrica senza riferimento in condizioni di scarsità di dati. Si è riscontrato che essa correla fortemente con una valutazione standard basata su traduzioni di riferimento, disponibili nei nostri esperimenti. Eseguiamo anche un'analisi teorica che suggerisce che l'interazione potrebbe non essere necessaria né efficiente nelle fasi iniziali dell'apprendimento della traduzione.
English
If you had an AI Whale-to-English translator, how could you validate whether
or not it is working? Does one need to interact with the animals or rely on
grounded observations such as temperature? We provide theoretical and
proof-of-concept experimental evidence suggesting that interaction and even
observations may not be necessary for sufficiently complex languages. One may
be able to evaluate translators solely by their English outputs, offering
potential advantages in terms of safety, ethics, and cost. This is an instance
of machine translation quality evaluation (MTQE) without any reference
translations available. A key challenge is identifying ``hallucinations,''
false translations which may appear fluent and plausible. We propose using
segment-by-segment translation together with the classic NLP shuffle test to
evaluate translators. The idea is to translate animal communication, turn by
turn, and evaluate how often the resulting translations make more sense in
order than permuted. Proof-of-concept experiments on data-scarce human
languages and constructed languages demonstrate the potential utility of this
evaluation methodology. These human-language experiments serve solely to
validate our reference-free metric under data scarcity. It is found to
correlate highly with a standard evaluation based on reference translations,
which are available in our experiments. We also perform a theoretical analysis
suggesting that interaction may not be necessary nor efficient in the early
stages of learning to translate.