MATE: Ambiente di Traduzione Multi-Agente basato su LLM per Applicazioni di Accessibilità
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications
June 24, 2025
Autori: Aleksandr Algazinov, Matt Laing, Paul Laban
cs.AI
Abstract
L'accessibilità rimane una preoccupazione cruciale nella società odierna, poiché molte tecnologie non sono sviluppate per supportare l'intera gamma di esigenze degli utenti. I sistemi multi-agente (MAS) esistenti spesso non sono in grado di fornire un'assistenza completa agli utenti bisognosi a causa della mancanza di personalizzazione derivante da design a codice chiuso. Di conseguenza, le persone con disabilità incontrano frequentemente barriere significative quando tentano di interagire con ambienti digitali. Introduciamo MATE, un MAS multimodale per l'accessibilità, che esegue le conversioni di modalità in base alle esigenze dell'utente. Il sistema è utile per assistere le persone con disabilità garantendo che i dati vengano convertiti in un formato comprensibile. Ad esempio, se l'utente non vede bene e riceve un'immagine, il sistema converte questa immagine nella sua descrizione audio. MATE può essere applicato a una vasta gamma di domini, settori e aree, come l'assistenza sanitaria, e può diventare un utile assistente per vari gruppi di utenti. Il sistema supporta molteplici tipi di modelli, che vanno dalla chiamata API LLM all'utilizzo di classificatori di machine learning (ML) personalizzati. Questa flessibilità garantisce che il sistema possa essere adattato a varie esigenze ed è compatibile con un'ampia gamma di hardware. Poiché il sistema è progettato per funzionare localmente, garantisce la privacy e la sicurezza delle informazioni sensibili. Inoltre, il framework può essere efficacemente integrato con tecnologie istituzionali (ad esempio, servizi sanitari digitali) per un'assistenza in tempo reale agli utenti. Inoltre, introduciamo ModCon-Task-Identifier, un modello in grado di estrarre il compito preciso di conversione di modalità dall'input dell'utente. Numerosi esperimenti dimostrano che ModCon-Task-Identifier supera costantemente altri LLM e modelli statistici sui nostri dati personalizzati. Il nostro codice e i nostri dati sono pubblicamente disponibili all'indirizzo https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
English
Accessibility remains a critical concern in today's society, as many
technologies are not developed to support the full range of user needs.
Existing multi-agent systems (MAS) often cannot provide comprehensive
assistance for users in need due to the lack of customization stemming from
closed-source designs. Consequently, individuals with disabilities frequently
encounter significant barriers when attempting to interact with digital
environments. We introduce MATE, a multimodal accessibility MAS, which performs
the modality conversions based on the user's needs. The system is useful for
assisting people with disabilities by ensuring that data will be converted to
an understandable format. For instance, if the user cannot see well and
receives an image, the system converts this image to its audio description.
MATE can be applied to a wide range of domains, industries, and areas, such as
healthcare, and can become a useful assistant for various groups of users. The
system supports multiple types of models, ranging from LLM API calling to using
custom machine learning (ML) classifiers. This flexibility ensures that the
system can be adapted to various needs and is compatible with a wide variety of
hardware. Since the system is expected to run locally, it ensures the privacy
and security of sensitive information. In addition, the framework can be
effectively integrated with institutional technologies (e.g., digital
healthcare service) for real-time user assistance. Furthermore, we introduce
ModCon-Task-Identifier, a model that is capable of extracting the precise
modality conversion task from the user input. Numerous experiments show that
ModCon-Task-Identifier consistently outperforms other LLMs and statistical
models on our custom data. Our code and data are publicly available at
https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.