MATE: LLM-gestützte Multi-Agenten-Übersetzungsumgebung für Barrierefreiheitsanwendungen
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications
June 24, 2025
Autoren: Aleksandr Algazinov, Matt Laing, Paul Laban
cs.AI
Zusammenfassung
Barrierefreiheit bleibt ein zentrales Anliegen in der heutigen Gesellschaft, da viele Technologien nicht entwickelt werden, um die gesamte Bandbreite der Benutzerbedürfnisse zu unterstützen. Bestehende Multi-Agenten-Systeme (MAS) können oft keine umfassende Unterstützung für Benutzer in Not bieten, da die fehlende Anpassungsfähigkeit auf geschlossene Systemdesigns zurückzuführen ist. Infolgedessen stoßen Menschen mit Behinderungen häufig auf erhebliche Barrieren, wenn sie versuchen, mit digitalen Umgebungen zu interagieren. Wir stellen MATE vor, ein multimodales Barrierefreiheits-MAS, das Modalitätsumwandlungen basierend auf den Bedürfnissen des Benutzers durchführt. Das System ist nützlich, um Menschen mit Behinderungen zu unterstützen, indem es sicherstellt, dass Daten in ein verständliches Format umgewandelt werden. Wenn ein Benutzer beispielsweise schlecht sieht und ein Bild erhält, wandelt das System dieses Bild in eine Audiobeschreibung um. MATE kann in einer Vielzahl von Bereichen, Branchen und Anwendungsgebieten eingesetzt werden, wie beispielsweise im Gesundheitswesen, und kann zu einem nützlichen Assistenten für verschiedene Benutzergruppen werden. Das System unterstützt mehrere Arten von Modellen, von LLM-API-Aufrufen bis hin zur Verwendung benutzerdefinierter maschineller Lernklassifikatoren (ML). Diese Flexibilität gewährleistet, dass das System an verschiedene Bedürfnisse angepasst werden kann und mit einer Vielzahl von Hardwarekomponenten kompatibel ist. Da das System lokal ausgeführt werden soll, gewährleistet es die Privatsphäre und Sicherheit sensibler Informationen. Darüber hinaus kann das Framework effektiv mit institutionellen Technologien (z. B. digitalen Gesundheitsdiensten) für die Echtzeit-Unterstützung von Benutzern integriert werden. Zusätzlich stellen wir den ModCon-Task-Identifier vor, ein Modell, das in der Lage ist, die genaue Modalitätsumwandlungsaufgabe aus der Benutzereingabe zu extrahieren. Zahlreiche Experimente zeigen, dass der ModCon-Task-Identifier auf unseren benutzerdefinierten Daten durchweg andere LLMs und statistische Modelle übertrifft. Unser Code und unsere Daten sind öffentlich unter https://github.com/AlgazinovAleksandr/Multi-Agent-MATE verfügbar.
English
Accessibility remains a critical concern in today's society, as many
technologies are not developed to support the full range of user needs.
Existing multi-agent systems (MAS) often cannot provide comprehensive
assistance for users in need due to the lack of customization stemming from
closed-source designs. Consequently, individuals with disabilities frequently
encounter significant barriers when attempting to interact with digital
environments. We introduce MATE, a multimodal accessibility MAS, which performs
the modality conversions based on the user's needs. The system is useful for
assisting people with disabilities by ensuring that data will be converted to
an understandable format. For instance, if the user cannot see well and
receives an image, the system converts this image to its audio description.
MATE can be applied to a wide range of domains, industries, and areas, such as
healthcare, and can become a useful assistant for various groups of users. The
system supports multiple types of models, ranging from LLM API calling to using
custom machine learning (ML) classifiers. This flexibility ensures that the
system can be adapted to various needs and is compatible with a wide variety of
hardware. Since the system is expected to run locally, it ensures the privacy
and security of sensitive information. In addition, the framework can be
effectively integrated with institutional technologies (e.g., digital
healthcare service) for real-time user assistance. Furthermore, we introduce
ModCon-Task-Identifier, a model that is capable of extracting the precise
modality conversion task from the user input. Numerous experiments show that
ModCon-Task-Identifier consistently outperforms other LLMs and statistical
models on our custom data. Our code and data are publicly available at
https://github.com/AlgazinovAleksandr/Multi-Agent-MATE.