MMFactory: Un motor de búsqueda de soluciones universales para tareas de visión y lenguaje.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks
December 24, 2024
Autores: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI
Resumen
Con los avances en modelos fundamentales y visión-lenguaje, y técnicas efectivas de ajuste fino, se han desarrollado una gran cantidad de modelos tanto generales como de propósito especial para una variedad de tareas visuales. A pesar de la flexibilidad y accesibilidad de estos modelos, ningún modelo único es capaz de manejar todas las tareas y/o aplicaciones que puedan ser imaginadas por los usuarios potenciales. Enfoques recientes, como la programación visual y los LLM multimodales con herramientas integradas, tienen como objetivo abordar tareas visuales complejas a través de la síntesis de programas. Sin embargo, dichos enfoques pasan por alto las restricciones del usuario (por ejemplo, necesidades de rendimiento / computacionales), producen soluciones específicas de muestra en tiempo de prueba que son difíciles de implementar y, a veces, requieren instrucciones de bajo nivel que pueden estar más allá de las capacidades de un usuario inexperto. Para abordar estas limitaciones, presentamos MMFactory, un marco universal que incluye componentes de enrutamiento de modelos y métricas, actuando como un motor de búsqueda de soluciones a través de varios modelos disponibles. Basado en una descripción de tarea y algunas pares de entrada-salida de muestra y (opcionalmente) restricciones de recursos y/o rendimiento, MMFactory puede sugerir un conjunto diverso de soluciones programáticas al instanciar y combinar herramientas visio-linguales de su repositorio de modelos. Además de sintetizar estas soluciones, MMFactory también propone métricas y evalúa el rendimiento/características de recursos, permitiendo a los usuarios elegir una solución que cumpla con sus restricciones de diseño únicas. Desde el punto de vista técnico, también presentamos un proponente de soluciones basado en comités que aprovecha la conversación LLM multiagente para generar soluciones ejecutables, diversas, universales y robustas para el usuario. Los resultados experimentales muestran que MMFactory supera a los métodos existentes al ofrecer soluciones de vanguardia adaptadas a las especificaciones del problema del usuario. La página del proyecto está disponible en https://davidhalladay.github.io/mmfactory_demo.
English
With advances in foundational and vision-language models, and effective
fine-tuning techniques, a large number of both general and special-purpose
models have been developed for a variety of visual tasks. Despite the
flexibility and accessibility of these models, no single model is able to
handle all tasks and/or applications that may be envisioned by potential users.
Recent approaches, such as visual programming and multimodal LLMs with
integrated tools aim to tackle complex visual tasks, by way of program
synthesis. However, such approaches overlook user constraints (e.g.,
performance / computational needs), produce test-time sample-specific solutions
that are difficult to deploy, and, sometimes, require low-level instructions
that maybe beyond the abilities of a naive user. To address these limitations,
we introduce MMFactory, a universal framework that includes model and metrics
routing components, acting like a solution search engine across various
available models. Based on a task description and few sample input-output pairs
and (optionally) resource and/or performance constraints, MMFactory can suggest
a diverse pool of programmatic solutions by instantiating and combining
visio-lingual tools from its model repository. In addition to synthesizing
these solutions, MMFactory also proposes metrics and benchmarks performance /
resource characteristics, allowing users to pick a solution that meets their
unique design constraints. From the technical perspective, we also introduced a
committee-based solution proposer that leverages multi-agent LLM conversation
to generate executable, diverse, universal, and robust solutions for the user.
Experimental results show that MMFactory outperforms existing methods by
delivering state-of-the-art solutions tailored to user problem specifications.
Project page is available at https://davidhalladay.github.io/mmfactory_demo.Summary
AI-Generated Summary