MATE : Environnement de Traduction Multi-Agent Piloté par LLM pour les Applications d'Accessibilité
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications
June 24, 2025
Auteurs: Aleksandr Algazinov, Matt Laing, Paul Laban
cs.AI
Résumé
L'accessibilité reste une préoccupation majeure dans la société actuelle, car de nombreuses technologies ne sont pas conçues pour répondre à l'ensemble des besoins des utilisateurs. Les systèmes multi-agents (MAS) existants ne parviennent souvent pas à fournir une assistance complète aux utilisateurs en difficulté en raison du manque de personnalisation découlant de conceptions propriétaires. Par conséquent, les personnes handicapées rencontrent fréquemment des obstacles importants lorsqu'elles tentent d'interagir avec des environnements numériques. Nous présentons MATE, un système multi-agent d'accessibilité multimodal, qui effectue des conversions de modalités en fonction des besoins de l'utilisateur. Ce système est utile pour assister les personnes handicapées en veillant à ce que les données soient converties dans un format compréhensible. Par exemple, si l'utilisateur a des difficultés visuelles et reçoit une image, le système convertit cette image en une description audio. MATE peut être appliqué à un large éventail de domaines, d'industries et de secteurs, tels que les soins de santé, et peut devenir un assistant précieux pour divers groupes d'utilisateurs. Le système prend en charge plusieurs types de modèles, allant de l'appel d'API LLM à l'utilisation de classificateurs d'apprentissage automatique (ML) personnalisés. Cette flexibilité garantit que le système peut être adapté à divers besoins et est compatible avec une grande variété de matériels. Comme le système est conçu pour fonctionner localement, il assure la confidentialité et la sécurité des informations sensibles. De plus, le cadre peut être efficacement intégré aux technologies institutionnelles (par exemple, les services de santé numériques) pour une assistance en temps réel aux utilisateurs. Par ailleurs, nous présentons ModCon-Task-Identifier, un modèle capable d'extraire la tâche précise de conversion de modalité à partir de l'entrée utilisateur. De nombreuses expériences montrent que ModCon-Task-Identifier surpasse systématiquement d'autres LLM et modèles statistiques sur nos données personnalisées. Notre code et nos données sont disponibles publiquement à l'adresse suivante : https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
English
Accessibility remains a critical concern in today's society, as many
technologies are not developed to support the full range of user needs.
Existing multi-agent systems (MAS) often cannot provide comprehensive
assistance for users in need due to the lack of customization stemming from
closed-source designs. Consequently, individuals with disabilities frequently
encounter significant barriers when attempting to interact with digital
environments. We introduce MATE, a multimodal accessibility MAS, which performs
the modality conversions based on the user's needs. The system is useful for
assisting people with disabilities by ensuring that data will be converted to
an understandable format. For instance, if the user cannot see well and
receives an image, the system converts this image to its audio description.
MATE can be applied to a wide range of domains, industries, and areas, such as
healthcare, and can become a useful assistant for various groups of users. The
system supports multiple types of models, ranging from LLM API calling to using
custom machine learning (ML) classifiers. This flexibility ensures that the
system can be adapted to various needs and is compatible with a wide variety of
hardware. Since the system is expected to run locally, it ensures the privacy
and security of sensitive information. In addition, the framework can be
effectively integrated with institutional technologies (e.g., digital
healthcare service) for real-time user assistance. Furthermore, we introduce
ModCon-Task-Identifier, a model that is capable of extracting the precise
modality conversion task from the user input. Numerous experiments show that
ModCon-Task-Identifier consistently outperforms other LLMs and statistical
models on our custom data. Our code and data are publicly available at
https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.