ChatPaper.aiChatPaper

MMFactory: Eine universelle Lösungssuchmaschine für Vision-Sprache-Aufgaben

MMFactory: A Universal Solution Search Engine for Vision-Language Tasks

December 24, 2024
Autoren: Wan-Cyuan Fan, Tanzila Rahman, Leonid Sigal
cs.AI

Zusammenfassung

Durch Fortschritte in grundlegenden und Vision-Sprach-Modellen sowie effektiven Feinabstimmungstechniken wurden eine Vielzahl von sowohl allgemeinen als auch speziellen Modellen für verschiedene visuelle Aufgaben entwickelt. Trotz der Flexibilität und Zugänglichkeit dieser Modelle ist kein einzelnes Modell in der Lage, alle Aufgaben und/oder Anwendungen zu bewältigen, die von potenziellen Benutzern vorgestellt werden könnten. Aktuelle Ansätze wie visuelle Programmierung und multimodale LLMs mit integrierten Tools zielen darauf ab, komplexe visuelle Aufgaben mittels Programmsynthese zu bewältigen. Diese Ansätze übersehen jedoch Benutzerbeschränkungen (z. B. Leistungs-/Rechenanforderungen), erzeugen lösungsspezifische Lösungen zur Testzeit, die schwer zu implementieren sind, und erfordern manchmal Low-Level-Anweisungen, die über die Fähigkeiten eines unerfahrenen Benutzers hinausgehen könnten. Um diese Einschränkungen zu adressieren, stellen wir MMFactory vor, ein universelles Framework, das Modell- und Metriken-Routing-Komponenten umfasst, die wie eine Lösungssuchmaschine über verschiedene verfügbare Modelle agieren. Basierend auf einer Aufgabenbeschreibung und einigen Beispielein- und -ausgabepaaren sowie (optional) Ressourcen- und/oder Leistungsbeschränkungen kann MMFactory eine vielfältige Auswahl an programmatischen Lösungen vorschlagen, indem es visio-linguale Tools aus seinem Modell-Repository instanziiert und kombiniert. Neben der Synthese dieser Lösungen schlägt MMFactory auch Metriken und Benchmarks für Leistungs-/Ressourceneigenschaften vor, die es Benutzern ermöglichen, eine Lösung auszuwählen, die ihren einzigartigen Designbeschränkungen entspricht. Aus technischer Sicht haben wir auch einen auf einem Ausschuss basierenden Lösungsvorschlag eingeführt, der auf mehragentenbasierten LLM-Gesprächen beruht, um ausführbare, vielfältige, universelle und robuste Lösungen für den Benutzer zu generieren. Experimentelle Ergebnisse zeigen, dass MMFactory vorhandene Methoden übertrifft, indem es maßgeschneiderte Lösungen für Benutzerproblem-Spezifikationen liefert. Die Projektseite ist unter https://davidhalladay.github.io/mmfactory_demo verfügbar.
English
With advances in foundational and vision-language models, and effective fine-tuning techniques, a large number of both general and special-purpose models have been developed for a variety of visual tasks. Despite the flexibility and accessibility of these models, no single model is able to handle all tasks and/or applications that may be envisioned by potential users. Recent approaches, such as visual programming and multimodal LLMs with integrated tools aim to tackle complex visual tasks, by way of program synthesis. However, such approaches overlook user constraints (e.g., performance / computational needs), produce test-time sample-specific solutions that are difficult to deploy, and, sometimes, require low-level instructions that maybe beyond the abilities of a naive user. To address these limitations, we introduce MMFactory, a universal framework that includes model and metrics routing components, acting like a solution search engine across various available models. Based on a task description and few sample input-output pairs and (optionally) resource and/or performance constraints, MMFactory can suggest a diverse pool of programmatic solutions by instantiating and combining visio-lingual tools from its model repository. In addition to synthesizing these solutions, MMFactory also proposes metrics and benchmarks performance / resource characteristics, allowing users to pick a solution that meets their unique design constraints. From the technical perspective, we also introduced a committee-based solution proposer that leverages multi-agent LLM conversation to generate executable, diverse, universal, and robust solutions for the user. Experimental results show that MMFactory outperforms existing methods by delivering state-of-the-art solutions tailored to user problem specifications. Project page is available at https://davidhalladay.github.io/mmfactory_demo.

Summary

AI-Generated Summary

PDF192December 27, 2024