ChatPaper.aiChatPaper

Collaborateur de Modélisation : Permettre la Classification Visuelle Subjective avec un Effort Humain Minimal grâce à l'Utilisation d'Outils LLM

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

March 5, 2024
Auteurs: Imad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig
cs.AI

Résumé

De la modération de contenu à la conservation de la faune, le nombre d'applications nécessitant des modèles capables de reconnaître des concepts visuels nuancés ou subjectifs est en pleine croissance. Traditionnellement, le développement de classificateurs pour de tels concepts requiert un effort manuel substantiel, mesuré en heures, jours, voire mois, pour identifier et annoter les données nécessaires à l'entraînement. Même avec les techniques récemment proposées de Modélisation Agile, qui permettent un amorçage rapide de classificateurs d'images, les utilisateurs doivent encore consacrer 30 minutes ou plus à un étiquetage de données monotone et répétitif pour entraîner un seul classificateur. En nous appuyant sur la théorie du Miser Cognitif de Fiske, nous proposons un nouveau cadre qui réduit l'effort manuel en remplaçant l'étiquetage humain par des interactions en langage naturel, diminuant ainsi l'effort total nécessaire pour définir un concept d'un ordre de grandeur : de l'étiquetage de 2 000 images à seulement 100 images plus quelques interactions en langage naturel. Notre cadre tire parti des avancées récentes dans les modèles de base, à la fois les grands modèles de langage et les modèles vision-langage, pour délimiter l'espace conceptuel à travers la conversation et en étiquetant automatiquement les points de données d'entraînement. Plus important encore, notre cadre élimine le besoin d'annotations issues du crowdsourcing. De plus, notre cadre produit finalement des modèles de classification légers qui peuvent être déployés dans des scénarios sensibles aux coûts. Sur 15 concepts subjectifs et à travers 2 ensembles de données publics de classification d'images, nos modèles entraînés surpassent la Modélisation Agile traditionnelle ainsi que les modèles de classification zero-shot de pointe comme ALIGN, CLIP, CuPL, et les grands modèles de question-réponse visuelle comme PaLI-X.
English
From content moderation to wildlife conservation, the number of applications that require models to recognize nuanced or subjective visual concepts is growing. Traditionally, developing classifiers for such concepts requires substantial manual effort measured in hours, days, or even months to identify and annotate data needed for training. Even with recently proposed Agile Modeling techniques, which enable rapid bootstrapping of image classifiers, users are still required to spend 30 minutes or more of monotonous, repetitive data labeling just to train a single classifier. Drawing on Fiske's Cognitive Miser theory, we propose a new framework that alleviates manual effort by replacing human labeling with natural language interactions, reducing the total effort required to define a concept by an order of magnitude: from labeling 2,000 images to only 100 plus some natural language interactions. Our framework leverages recent advances in foundation models, both large language models and vision-language models, to carve out the concept space through conversation and by automatically labeling training data points. Most importantly, our framework eliminates the need for crowd-sourced annotations. Moreover, our framework ultimately produces lightweight classification models that are deployable in cost-sensitive scenarios. Across 15 subjective concepts and across 2 public image classification datasets, our trained models outperform traditional Agile Modeling as well as state-of-the-art zero-shot classification models like ALIGN, CLIP, CuPL, and large visual question-answering models like PaLI-X.
PDF111December 15, 2024