MATE: Мультиагентная среда перевода с поддержкой LLM для приложений доступности
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications
June 24, 2025
Авторы: Aleksandr Algazinov, Matt Laing, Paul Laban
cs.AI
Аннотация
Доступность остается критически важной проблемой в современном обществе, поскольку многие технологии не разрабатываются с учетом полного спектра потребностей пользователей. Существующие мультиагентные системы (MAS) часто не могут обеспечить всестороннюю помощь нуждающимся пользователям из-за отсутствия кастомизации, вызванного закрытыми исходными кодами. В результате люди с ограниченными возможностями часто сталкиваются с серьезными барьерами при попытке взаимодействия с цифровыми средами. Мы представляем MATE, мультимодальную мультиагентную систему для обеспечения доступности, которая выполняет преобразование модальностей в соответствии с потребностями пользователя. Система полезна для помощи людям с ограниченными возможностями, гарантируя, что данные будут преобразованы в понятный формат. Например, если пользователь плохо видит и получает изображение, система преобразует это изображение в его аудиоописание. MATE может быть применена в широком спектре областей, отраслей и сфер, таких как здравоохранение, и стать полезным помощником для различных групп пользователей. Система поддерживает множество типов моделей, начиная от вызовов API LLM и заканчивая использованием пользовательских классификаторов машинного обучения (ML). Эта гибкость обеспечивает адаптацию системы к различным потребностям и совместимость с широким спектром оборудования. Поскольку система предназначена для локального запуска, она гарантирует конфиденциальность и безопасность чувствительной информации. Кроме того, фреймворк может быть эффективно интегрирован с институциональными технологиями (например, цифровыми сервисами здравоохранения) для оказания помощи пользователям в реальном времени. Мы также представляем ModCon-Task-Identifier — модель, способную извлекать точную задачу преобразования модальностей из пользовательского ввода. Многочисленные эксперименты показывают, что ModCon-Task-Identifier стабильно превосходит другие LLM и статистические модели на наших пользовательских данных. Наш код и данные доступны публично по адресу https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.
English
Accessibility remains a critical concern in today's society, as many
technologies are not developed to support the full range of user needs.
Existing multi-agent systems (MAS) often cannot provide comprehensive
assistance for users in need due to the lack of customization stemming from
closed-source designs. Consequently, individuals with disabilities frequently
encounter significant barriers when attempting to interact with digital
environments. We introduce MATE, a multimodal accessibility MAS, which performs
the modality conversions based on the user's needs. The system is useful for
assisting people with disabilities by ensuring that data will be converted to
an understandable format. For instance, if the user cannot see well and
receives an image, the system converts this image to its audio description.
MATE can be applied to a wide range of domains, industries, and areas, such as
healthcare, and can become a useful assistant for various groups of users. The
system supports multiple types of models, ranging from LLM API calling to using
custom machine learning (ML) classifiers. This flexibility ensures that the
system can be adapted to various needs and is compatible with a wide variety of
hardware. Since the system is expected to run locally, it ensures the privacy
and security of sensitive information. In addition, the framework can be
effectively integrated with institutional technologies (e.g., digital
healthcare service) for real-time user assistance. Furthermore, we introduce
ModCon-Task-Identifier, a model that is capable of extracting the precise
modality conversion task from the user input. Numerous experiments show that
ModCon-Task-Identifier consistently outperforms other LLMs and statistical
models on our custom data. Our code and data are publicly available at
https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.