MMFactory: Универсальный поисковый движок решений для задач видео-языкового взаимодействия
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks
December 24, 2024
Авторы: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI
Аннотация
С развитием фундаментальных и моделей видео-языка, а также эффективных техник настройки, было разработано большое количество как общих, так и специализированных моделей для различных визуальных задач. Несмотря на гибкость и доступность этих моделей, ни одна модель не способна обрабатывать все задачи и/или приложения, которые могут быть представлены потенциальными пользователями. Недавние подходы, такие как визуальное программирование и мультимодальные LLM с интегрированными инструментами, направлены на решение сложных визуальных задач путем синтеза программ. Однако такие подходы не учитывают ограничения пользователя (например, производительность / вычислительные потребности), создают решения, зависящие от образцов на этапе тестирования, которые сложно развернуть, и иногда требуют инструкций низкого уровня, что может превышать возможности неопытного пользователя. Для преодоления этих ограничений мы представляем MMFactory, универсальную платформу, которая включает в себя компоненты маршрутизации моделей и метрик, действуя как поисковый движок решений по различным доступным моделям. Основываясь на описании задачи и нескольких образцах входа-выхода и (по желанию) ресурсных и/или производственных ограничениях, MMFactory может предложить разнообразный набор программных решений, инстанциируя и объединяя визуально-языковые инструменты из своего репозитория моделей. Помимо синтеза этих решений, MMFactory также предлагает метрики и бенчмарки производительности / ресурсных характеристик, позволяя пользователям выбирать решение, соответствующее их уникальным проектным ограничениям. С технической точки зрения, мы также представили решение на основе комитета, которое использует многоагентный LLM диалог для генерации исполнимых, разнообразных, универсальных и надежных решений для пользователя. Экспериментальные результаты показывают, что MMFactory превосходит существующие методы, предлагая передовые решения, адаптированные к спецификациям проблемы пользователя. Страница проекта доступна по адресу https://davidhalladay.github.io/mmfactory_demo.
English
With advances in foundational and vision-language models, and effective
fine-tuning techniques, a large number of both general and special-purpose
models have been developed for a variety of visual tasks. Despite the
flexibility and accessibility of these models, no single model is able to
handle all tasks and/or applications that may be envisioned by potential users.
Recent approaches, such as visual programming and multimodal LLMs with
integrated tools aim to tackle complex visual tasks, by way of program
synthesis. However, such approaches overlook user constraints (e.g.,
performance / computational needs), produce test-time sample-specific solutions
that are difficult to deploy, and, sometimes, require low-level instructions
that maybe beyond the abilities of a naive user. To address these limitations,
we introduce MMFactory, a universal framework that includes model and metrics
routing components, acting like a solution search engine across various
available models. Based on a task description and few sample input-output pairs
and (optionally) resource and/or performance constraints, MMFactory can suggest
a diverse pool of programmatic solutions by instantiating and combining
visio-lingual tools from its model repository. In addition to synthesizing
these solutions, MMFactory also proposes metrics and benchmarks performance /
resource characteristics, allowing users to pick a solution that meets their
unique design constraints. From the technical perspective, we also introduced a
committee-based solution proposer that leverages multi-agent LLM conversation
to generate executable, diverse, universal, and robust solutions for the user.
Experimental results show that MMFactory outperforms existing methods by
delivering state-of-the-art solutions tailored to user problem specifications.
Project page is available at https://davidhalladay.github.io/mmfactory_demo.Summary
AI-Generated Summary