MMFactory : Un moteur de recherche de solutions universel pour les tâches de vision par ordinateur et de langage naturel.

papers.abstract

Avec les progrès réalisés dans les modèles fondamentaux et vision-langage, ainsi que dans les techniques efficaces de fine-tuning, un grand nombre de modèles à la fois généraux et spécialisés ont été développés pour une variété de tâches visuelles. Malgré la flexibilité et l'accessibilité de ces modèles, aucun modèle unique n'est capable de gérer toutes les tâches et/ou applications qui pourraient être envisagées par les utilisateurs potentiels. Des approches récentes, telles que la programmation visuelle et les LLM multimodaux avec des outils intégrés, visent à relever des tâches visuelles complexes, par le biais de la synthèse de programmes. Cependant, de telles approches négligent les contraintes des utilisateurs (par exemple, les besoins en performance / calcul), produisent des solutions spécifiques aux échantillons au moment des tests qui sont difficiles à déployer, et parfois nécessitent des instructions de bas niveau qui peuvent dépasser les capacités d'un utilisateur novice. Pour remédier à ces limitations, nous introduisons MMFactory, un cadre universel qui comprend des composants de routage de modèles et de métriques, agissant comme un moteur de recherche de solutions à travers divers modèles disponibles. En fonction d'une description de tâche et de quelques paires d'entrées-sorties d'échantillons et (éventuellement) de contraintes de ressources et/ou de performances, MMFactory peut suggérer un ensemble diversifié de solutions programmatiques en instanciant et combinant des outils visio-linguaux de son référentiel de modèles. En plus de synthétiser ces solutions, MMFactory propose également des métriques et évalue les performances / caractéristiques des ressources, permettant aux utilisateurs de choisir une solution qui répond à leurs contraintes de conception uniques. D'un point de vue technique, nous avons également introduit un proposant de solutions basé sur un comité qui exploite une conversation LLM multi-agent pour générer des solutions exécutables, diversifiées, universelles et robustes pour l'utilisateur. Les résultats expérimentaux montrent que MMFactory surpasse les méthodes existantes en fournissant des solutions de pointe adaptées aux spécifications des problèmes des utilisateurs. La page du projet est disponible sur https://davidhalladay.github.io/mmfactory_demo.

English

With advances in foundational and vision-language models, and effective fine-tuning techniques, a large number of both general and special-purpose models have been developed for a variety of visual tasks. Despite the flexibility and accessibility of these models, no single model is able to handle all tasks and/or applications that may be envisioned by potential users. Recent approaches, such as visual programming and multimodal LLMs with integrated tools aim to tackle complex visual tasks, by way of program synthesis. However, such approaches overlook user constraints (e.g., performance / computational needs), produce test-time sample-specific solutions that are difficult to deploy, and, sometimes, require low-level instructions that maybe beyond the abilities of a naive user. To address these limitations, we introduce MMFactory, a universal framework that includes model and metrics routing components, acting like a solution search engine across various available models. Based on a task description and few sample input-output pairs and (optionally) resource and/or performance constraints, MMFactory can suggest a diverse pool of programmatic solutions by instantiating and combining visio-lingual tools from its model repository. In addition to synthesizing these solutions, MMFactory also proposes metrics and benchmarks performance / resource characteristics, allowing users to pick a solution that meets their unique design constraints. From the technical perspective, we also introduced a committee-based solution proposer that leverages multi-agent LLM conversation to generate executable, diverse, universal, and robust solutions for the user. Experimental results show that MMFactory outperforms existing methods by delivering state-of-the-art solutions tailored to user problem specifications. Project page is available at https://davidhalladay.github.io/mmfactory_demo.

MMFactory : Un moteur de recherche de solutions universel pour les tâches de vision par ordinateur et de langage naturel.

MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

papers.abstract

Support