MMFactory: Een Universele Oplossingszoekmachine voor Visie-Taaltaken
MMFactory: A Universal Solution Search Engine for Vision-Language Tasks
December 24, 2024
Auteurs: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI
Samenvatting
Met de vooruitgang in fundamentele en visie-taalmodellen, en effectieve fine-tuning technieken, zijn er een groot aantal zowel algemene als specifiek ontwikkelde modellen ontwikkeld voor verschillende visuele taken. Ondanks de flexibiliteit en toegankelijkheid van deze modellen, is geen enkel model in staat om alle taken en/of toepassingen aan te pakken die door potentiële gebruikers kunnen worden bedacht. Recente benaderingen, zoals visuele programmering en multimodale LLM's met geïntegreerde tools, richten zich op het aanpakken van complexe visuele taken door middel van programma synthese. Echter, dergelijke benaderingen houden geen rekening met gebruikersbeperkingen (bijv. prestatie-/rekenbehoeften), produceren op testtijd specifieke oplossingen die moeilijk te implementeren zijn, en vereisen soms laag-niveau instructies die misschien buiten het bereik liggen van een onervaren gebruiker. Om deze beperkingen aan te pakken, introduceren we MMFactory, een universeel framework dat model- en metrische routeringscomponenten omvat, die fungeren als een oplossingszoekmachine over verschillende beschikbare modellen. Op basis van een taakbeschrijving en een paar voorbeeld in- en uitvoerparen en (optioneel) bron- en/of prestatiebeperkingen, kan MMFactory een gevarieerde pool van programmatische oplossingen voorstellen door visueel-talige tools uit zijn modelrepository te instantiëren en combineren. Naast het synthetiseren van deze oplossingen, stelt MMFactory ook metrieken voor en benchmarkt prestatie-/bronkarakteristieken, zodat gebruikers een oplossing kunnen kiezen die voldoet aan hun unieke ontwerpbeperkingen. Vanuit technisch oogpunt hebben we ook een oplossingsvoorsteller op basis van een commissie geïntroduceerd die gebruikmaakt van multi-agent LLM-gesprekken om uitvoerbare, gevarieerde, universele en robuuste oplossingen voor de gebruiker te genereren. Experimentele resultaten tonen aan dat MMFactory bestaande methoden overtreft door state-of-the-art oplossingen te leveren die zijn afgestemd op de specificaties van het gebruikersprobleem. De projectpagina is beschikbaar op https://davidhalladay.github.io/mmfactory_demo.
English
With advances in foundational and vision-language models, and effective
fine-tuning techniques, a large number of both general and special-purpose
models have been developed for a variety of visual tasks. Despite the
flexibility and accessibility of these models, no single model is able to
handle all tasks and/or applications that may be envisioned by potential users.
Recent approaches, such as visual programming and multimodal LLMs with
integrated tools aim to tackle complex visual tasks, by way of program
synthesis. However, such approaches overlook user constraints (e.g.,
performance / computational needs), produce test-time sample-specific solutions
that are difficult to deploy, and, sometimes, require low-level instructions
that maybe beyond the abilities of a naive user. To address these limitations,
we introduce MMFactory, a universal framework that includes model and metrics
routing components, acting like a solution search engine across various
available models. Based on a task description and few sample input-output pairs
and (optionally) resource and/or performance constraints, MMFactory can suggest
a diverse pool of programmatic solutions by instantiating and combining
visio-lingual tools from its model repository. In addition to synthesizing
these solutions, MMFactory also proposes metrics and benchmarks performance /
resource characteristics, allowing users to pick a solution that meets their
unique design constraints. From the technical perspective, we also introduced a
committee-based solution proposer that leverages multi-agent LLM conversation
to generate executable, diverse, universal, and robust solutions for the user.
Experimental results show that MMFactory outperforms existing methods by
delivering state-of-the-art solutions tailored to user problem specifications.
Project page is available at https://davidhalladay.github.io/mmfactory_demo.