Modelado Colaborativo: Habilitando la Clasificación de Visión Subjetiva con Mínimo Esfuerzo Humano mediante el Uso de Herramientas de LLM
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use
March 5, 2024
Autores: Imad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig
cs.AI
Resumen
Desde la moderación de contenido hasta la conservación de la vida silvestre, el número de aplicaciones que requieren que los modelos reconozcan conceptos visuales matizados o subjetivos está creciendo. Tradicionalmente, el desarrollo de clasificadores para tales conceptos requiere un esfuerzo manual sustancial, medido en horas, días o incluso meses, para identificar y anotar los datos necesarios para el entrenamiento. Incluso con las técnicas de Modelado Ágil propuestas recientemente, que permiten el arranque rápido de clasificadores de imágenes, los usuarios aún deben dedicar 30 minutos o más de etiquetado de datos monótono y repetitivo solo para entrenar un único clasificador. Basándonos en la teoría del Miser Cognitivo de Fiske, proponemos un nuevo marco que alivia el esfuerzo manual al reemplazar el etiquetado humano con interacciones en lenguaje natural, reduciendo el esfuerzo total requerido para definir un concepto en un orden de magnitud: de etiquetar 2,000 imágenes a solo 100 más algunas interacciones en lenguaje natural. Nuestro marco aprovecha los avances recientes en modelos fundacionales, tanto modelos de lenguaje grande como modelos de visión-lenguaje, para delimitar el espacio conceptual a través de la conversación y etiquetar automáticamente los puntos de datos de entrenamiento. Lo más importante es que nuestro marco elimina la necesidad de anotaciones obtenidas mediante crowdsourcing. Además, nuestro marco finalmente produce modelos de clasificación livianos que son implementables en escenarios sensibles a los costos. En 15 conceptos subjetivos y en 2 conjuntos de datos públicos de clasificación de imágenes, nuestros modelos entrenados superan al Modelado Ágil tradicional, así como a los modelos de clasificación zero-shot de última generación como ALIGN, CLIP, CuPL, y a los modelos grandes de respuesta a preguntas visuales como PaLI-X.
English
From content moderation to wildlife conservation, the number of applications
that require models to recognize nuanced or subjective visual concepts is
growing. Traditionally, developing classifiers for such concepts requires
substantial manual effort measured in hours, days, or even months to identify
and annotate data needed for training. Even with recently proposed Agile
Modeling techniques, which enable rapid bootstrapping of image classifiers,
users are still required to spend 30 minutes or more of monotonous, repetitive
data labeling just to train a single classifier. Drawing on Fiske's Cognitive
Miser theory, we propose a new framework that alleviates manual effort by
replacing human labeling with natural language interactions, reducing the total
effort required to define a concept by an order of magnitude: from labeling
2,000 images to only 100 plus some natural language interactions. Our framework
leverages recent advances in foundation models, both large language models and
vision-language models, to carve out the concept space through conversation and
by automatically labeling training data points. Most importantly, our framework
eliminates the need for crowd-sourced annotations. Moreover, our framework
ultimately produces lightweight classification models that are deployable in
cost-sensitive scenarios. Across 15 subjective concepts and across 2 public
image classification datasets, our trained models outperform traditional Agile
Modeling as well as state-of-the-art zero-shot classification models like
ALIGN, CLIP, CuPL, and large visual question-answering models like PaLI-X.