ChatPaper.aiChatPaper

MMFactory: Un motor de búsqueda de soluciones universales para tareas de visión y lenguaje.

MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

December 24, 2024
Autores: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI

Resumen

Con los avances en modelos fundamentales y visión-lenguaje, y técnicas efectivas de ajuste fino, se han desarrollado una gran cantidad de modelos tanto generales como de propósito especial para una variedad de tareas visuales. A pesar de la flexibilidad y accesibilidad de estos modelos, ningún modelo único es capaz de manejar todas las tareas y/o aplicaciones que puedan ser imaginadas por los usuarios potenciales. Enfoques recientes, como la programación visual y los LLM multimodales con herramientas integradas, tienen como objetivo abordar tareas visuales complejas a través de la síntesis de programas. Sin embargo, dichos enfoques pasan por alto las restricciones del usuario (por ejemplo, necesidades de rendimiento / computacionales), producen soluciones específicas de muestra en tiempo de prueba que son difíciles de implementar y, a veces, requieren instrucciones de bajo nivel que pueden estar más allá de las capacidades de un usuario inexperto. Para abordar estas limitaciones, presentamos MMFactory, un marco universal que incluye componentes de enrutamiento de modelos y métricas, actuando como un motor de búsqueda de soluciones a través de varios modelos disponibles. Basado en una descripción de tarea y algunas pares de entrada-salida de muestra y (opcionalmente) restricciones de recursos y/o rendimiento, MMFactory puede sugerir un conjunto diverso de soluciones programáticas al instanciar y combinar herramientas visio-linguales de su repositorio de modelos. Además de sintetizar estas soluciones, MMFactory también propone métricas y evalúa el rendimiento/características de recursos, permitiendo a los usuarios elegir una solución que cumpla con sus restricciones de diseño únicas. Desde el punto de vista técnico, también presentamos un proponente de soluciones basado en comités que aprovecha la conversación LLM multiagente para generar soluciones ejecutables, diversas, universales y robustas para el usuario. Los resultados experimentales muestran que MMFactory supera a los métodos existentes al ofrecer soluciones de vanguardia adaptadas a las especificaciones del problema del usuario. La página del proyecto está disponible en https://davidhalladay.github.io/mmfactory_demo.
English
With advances in foundational and vision-language models, and effective fine-tuning techniques, a large number of both general and special-purpose models have been developed for a variety of visual tasks. Despite the flexibility and accessibility of these models, no single model is able to handle all tasks and/or applications that may be envisioned by potential users. Recent approaches, such as visual programming and multimodal LLMs with integrated tools aim to tackle complex visual tasks, by way of program synthesis. However, such approaches overlook user constraints (e.g., performance / computational needs), produce test-time sample-specific solutions that are difficult to deploy, and, sometimes, require low-level instructions that maybe beyond the abilities of a naive user. To address these limitations, we introduce MMFactory, a universal framework that includes model and metrics routing components, acting like a solution search engine across various available models. Based on a task description and few sample input-output pairs and (optionally) resource and/or performance constraints, MMFactory can suggest a diverse pool of programmatic solutions by instantiating and combining visio-lingual tools from its model repository. In addition to synthesizing these solutions, MMFactory also proposes metrics and benchmarks performance / resource characteristics, allowing users to pick a solution that meets their unique design constraints. From the technical perspective, we also introduced a committee-based solution proposer that leverages multi-agent LLM conversation to generate executable, diverse, universal, and robust solutions for the user. Experimental results show that MMFactory outperforms existing methods by delivering state-of-the-art solutions tailored to user problem specifications. Project page is available at https://davidhalladay.github.io/mmfactory_demo.

Summary

AI-Generated Summary

PDF192December 27, 2024