MMFactory : Un moteur de recherche de solutions universel pour les tâches de vision par ordinateur et de langage naturel.
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks
December 24, 2024
Auteurs: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI
Résumé
Avec les progrès réalisés dans les modèles fondamentaux et vision-langage, ainsi que dans les techniques efficaces de fine-tuning, un grand nombre de modèles à la fois généraux et spécialisés ont été développés pour une variété de tâches visuelles. Malgré la flexibilité et l'accessibilité de ces modèles, aucun modèle unique n'est capable de gérer toutes les tâches et/ou applications qui pourraient être envisagées par les utilisateurs potentiels. Des approches récentes, telles que la programmation visuelle et les LLM multimodaux avec des outils intégrés, visent à relever des tâches visuelles complexes, par le biais de la synthèse de programmes. Cependant, de telles approches négligent les contraintes des utilisateurs (par exemple, les besoins en performance / calcul), produisent des solutions spécifiques aux échantillons au moment des tests qui sont difficiles à déployer, et parfois nécessitent des instructions de bas niveau qui peuvent dépasser les capacités d'un utilisateur novice. Pour remédier à ces limitations, nous introduisons MMFactory, un cadre universel qui comprend des composants de routage de modèles et de métriques, agissant comme un moteur de recherche de solutions à travers divers modèles disponibles. En fonction d'une description de tâche et de quelques paires d'entrées-sorties d'échantillons et (éventuellement) de contraintes de ressources et/ou de performances, MMFactory peut suggérer un ensemble diversifié de solutions programmatiques en instanciant et combinant des outils visio-linguaux de son référentiel de modèles. En plus de synthétiser ces solutions, MMFactory propose également des métriques et évalue les performances / caractéristiques des ressources, permettant aux utilisateurs de choisir une solution qui répond à leurs contraintes de conception uniques. D'un point de vue technique, nous avons également introduit un proposant de solutions basé sur un comité qui exploite une conversation LLM multi-agent pour générer des solutions exécutables, diversifiées, universelles et robustes pour l'utilisateur. Les résultats expérimentaux montrent que MMFactory surpasse les méthodes existantes en fournissant des solutions de pointe adaptées aux spécifications des problèmes des utilisateurs. La page du projet est disponible sur https://davidhalladay.github.io/mmfactory_demo.
English
With advances in foundational and vision-language models, and effective
fine-tuning techniques, a large number of both general and special-purpose
models have been developed for a variety of visual tasks. Despite the
flexibility and accessibility of these models, no single model is able to
handle all tasks and/or applications that may be envisioned by potential users.
Recent approaches, such as visual programming and multimodal LLMs with
integrated tools aim to tackle complex visual tasks, by way of program
synthesis. However, such approaches overlook user constraints (e.g.,
performance / computational needs), produce test-time sample-specific solutions
that are difficult to deploy, and, sometimes, require low-level instructions
that maybe beyond the abilities of a naive user. To address these limitations,
we introduce MMFactory, a universal framework that includes model and metrics
routing components, acting like a solution search engine across various
available models. Based on a task description and few sample input-output pairs
and (optionally) resource and/or performance constraints, MMFactory can suggest
a diverse pool of programmatic solutions by instantiating and combining
visio-lingual tools from its model repository. In addition to synthesizing
these solutions, MMFactory also proposes metrics and benchmarks performance /
resource characteristics, allowing users to pick a solution that meets their
unique design constraints. From the technical perspective, we also introduced a
committee-based solution proposer that leverages multi-agent LLM conversation
to generate executable, diverse, universal, and robust solutions for the user.
Experimental results show that MMFactory outperforms existing methods by
delivering state-of-the-art solutions tailored to user problem specifications.
Project page is available at https://davidhalladay.github.io/mmfactory_demo.Summary
AI-Generated Summary