ChatPaper.aiChatPaper

MATE: Ambiente de Tradução Multiagente Alimentado por LLM para Aplicações de Acessibilidade

MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications

June 24, 2025
Autores: Aleksandr Algazinov, Matt Laing, Paul Laban
cs.AI

Resumo

A acessibilidade continua sendo uma preocupação crítica na sociedade atual, pois muitas tecnologias não são desenvolvidas para atender à ampla gama de necessidades dos usuários. Os sistemas multiagentes (MAS) existentes frequentemente não conseguem fornecer assistência abrangente para usuários necessitados devido à falta de personalização decorrente de designs de código fechado. Consequentemente, indivíduos com deficiências frequentemente enfrentam barreiras significativas ao tentar interagir com ambientes digitais. Apresentamos o MATE, um sistema multiagente de acessibilidade multimodal, que realiza conversões de modalidade com base nas necessidades do usuário. O sistema é útil para auxiliar pessoas com deficiências, garantindo que os dados sejam convertidos para um formato compreensível. Por exemplo, se o usuário não enxerga bem e recebe uma imagem, o sistema converte essa imagem em sua descrição em áudio. O MATE pode ser aplicado em uma ampla gama de domínios, indústrias e áreas, como saúde, e pode se tornar um assistente útil para diversos grupos de usuários. O sistema suporta múltiplos tipos de modelos, desde chamadas de API de LLM até o uso de classificadores personalizados de aprendizado de máquina (ML). Essa flexibilidade garante que o sistema possa ser adaptado a diversas necessidades e seja compatível com uma grande variedade de hardwares. Como o sistema é projetado para rodar localmente, ele garante a privacidade e a segurança das informações sensíveis. Além disso, o framework pode ser efetivamente integrado com tecnologias institucionais (por exemplo, serviços digitais de saúde) para fornecer assistência em tempo real ao usuário. Adicionalmente, apresentamos o ModCon-Task-Identifier, um modelo capaz de extrair a tarefa precisa de conversão de modalidade a partir da entrada do usuário. Numerosos experimentos mostram que o ModCon-Task-Identifier consistentemente supera outros LLMs e modelos estatísticos em nossos dados personalizados. Nosso código e dados estão publicamente disponíveis em https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
English
Accessibility remains a critical concern in today's society, as many technologies are not developed to support the full range of user needs. Existing multi-agent systems (MAS) often cannot provide comprehensive assistance for users in need due to the lack of customization stemming from closed-source designs. Consequently, individuals with disabilities frequently encounter significant barriers when attempting to interact with digital environments. We introduce MATE, a multimodal accessibility MAS, which performs the modality conversions based on the user's needs. The system is useful for assisting people with disabilities by ensuring that data will be converted to an understandable format. For instance, if the user cannot see well and receives an image, the system converts this image to its audio description. MATE can be applied to a wide range of domains, industries, and areas, such as healthcare, and can become a useful assistant for various groups of users. The system supports multiple types of models, ranging from LLM API calling to using custom machine learning (ML) classifiers. This flexibility ensures that the system can be adapted to various needs and is compatible with a wide variety of hardware. Since the system is expected to run locally, it ensures the privacy and security of sensitive information. In addition, the framework can be effectively integrated with institutional technologies (e.g., digital healthcare service) for real-time user assistance. Furthermore, we introduce ModCon-Task-Identifier, a model that is capable of extracting the precise modality conversion task from the user input. Numerous experiments show that ModCon-Task-Identifier consistently outperforms other LLMs and statistical models on our custom data. Our code and data are publicly available at https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
PDF51June 26, 2025