MATE: Entorno de Traducción Multiagente Potenciado por LLM para Aplicaciones de Accesibilidad
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications
June 24, 2025
Autores: Aleksandr Algazinov, Matt Laing, Paul Laban
cs.AI
Resumen
La accesibilidad sigue siendo una preocupación crítica en la sociedad actual, ya que muchas tecnologías no están desarrolladas para cubrir la gama completa de necesidades de los usuarios. Los sistemas multiagente (MAS) existentes a menudo no pueden ofrecer asistencia integral a los usuarios que la necesitan debido a la falta de personalización derivada de diseños de código cerrado. Como consecuencia, las personas con discapacidades frecuentemente encuentran barreras significativas al intentar interactuar con entornos digitales. Presentamos MATE, un sistema multiagente de accesibilidad multimodal, que realiza conversiones de modalidad según las necesidades del usuario. El sistema es útil para asistir a personas con discapacidades al garantizar que los datos se conviertan a un formato comprensible. Por ejemplo, si el usuario tiene dificultades visuales y recibe una imagen, el sistema convierte esta imagen en su descripción auditiva. MATE puede aplicarse en una amplia variedad de dominios, industrias y áreas, como la atención médica, y puede convertirse en un asistente útil para diversos grupos de usuarios. El sistema admite múltiples tipos de modelos, desde llamadas a API de LLM hasta el uso de clasificadores personalizados de aprendizaje automático (ML). Esta flexibilidad asegura que el sistema pueda adaptarse a diversas necesidades y sea compatible con una amplia variedad de hardware. Dado que se espera que el sistema funcione localmente, garantiza la privacidad y seguridad de la información sensible. Además, el marco puede integrarse eficazmente con tecnologías institucionales (por ejemplo, servicios de atención médica digital) para brindar asistencia en tiempo real a los usuarios. Asimismo, presentamos ModCon-Task-Identifier, un modelo capaz de extraer la tarea precisa de conversión de modalidad a partir de la entrada del usuario. Numerosos experimentos muestran que ModCon-Task-Identifier supera consistentemente a otros LLM y modelos estadísticos en nuestros datos personalizados. Nuestro código y datos están disponibles públicamente en https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
English
Accessibility remains a critical concern in today's society, as many
technologies are not developed to support the full range of user needs.
Existing multi-agent systems (MAS) often cannot provide comprehensive
assistance for users in need due to the lack of customization stemming from
closed-source designs. Consequently, individuals with disabilities frequently
encounter significant barriers when attempting to interact with digital
environments. We introduce MATE, a multimodal accessibility MAS, which performs
the modality conversions based on the user's needs. The system is useful for
assisting people with disabilities by ensuring that data will be converted to
an understandable format. For instance, if the user cannot see well and
receives an image, the system converts this image to its audio description.
MATE can be applied to a wide range of domains, industries, and areas, such as
healthcare, and can become a useful assistant for various groups of users. The
system supports multiple types of models, ranging from LLM API calling to using
custom machine learning (ML) classifiers. This flexibility ensures that the
system can be adapted to various needs and is compatible with a wide variety of
hardware. Since the system is expected to run locally, it ensures the privacy
and security of sensitive information. In addition, the framework can be
effectively integrated with institutional technologies (e.g., digital
healthcare service) for real-time user assistance. Furthermore, we introduce
ModCon-Task-Identifier, a model that is capable of extracting the precise
modality conversion task from the user input. Numerous experiments show that
ModCon-Task-Identifier consistently outperforms other LLMs and statistical
models on our custom data. Our code and data are publicly available at
https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.