Modelado Colaborativo: Habilitando la Clasificación de Visión Subjetiva con Mínimo Esfuerzo Humano mediante el Uso de Herramientas de LLM

Resumen

Desde la moderación de contenido hasta la conservación de la vida silvestre, el número de aplicaciones que requieren que los modelos reconozcan conceptos visuales matizados o subjetivos está creciendo. Tradicionalmente, el desarrollo de clasificadores para tales conceptos requiere un esfuerzo manual sustancial, medido en horas, días o incluso meses, para identificar y anotar los datos necesarios para el entrenamiento. Incluso con las técnicas de Modelado Ágil propuestas recientemente, que permiten el arranque rápido de clasificadores de imágenes, los usuarios aún deben dedicar 30 minutos o más de etiquetado de datos monótono y repetitivo solo para entrenar un único clasificador. Basándonos en la teoría del Miser Cognitivo de Fiske, proponemos un nuevo marco que alivia el esfuerzo manual al reemplazar el etiquetado humano con interacciones en lenguaje natural, reduciendo el esfuerzo total requerido para definir un concepto en un orden de magnitud: de etiquetar 2,000 imágenes a solo 100 más algunas interacciones en lenguaje natural. Nuestro marco aprovecha los avances recientes en modelos fundacionales, tanto modelos de lenguaje grande como modelos de visión-lenguaje, para delimitar el espacio conceptual a través de la conversación y etiquetar automáticamente los puntos de datos de entrenamiento. Lo más importante es que nuestro marco elimina la necesidad de anotaciones obtenidas mediante crowdsourcing. Además, nuestro marco finalmente produce modelos de clasificación livianos que son implementables en escenarios sensibles a los costos. En 15 conceptos subjetivos y en 2 conjuntos de datos públicos de clasificación de imágenes, nuestros modelos entrenados superan al Modelado Ágil tradicional, así como a los modelos de clasificación zero-shot de última generación como ALIGN, CLIP, CuPL, y a los modelos grandes de respuesta a preguntas visuales como PaLI-X.

English

From content moderation to wildlife conservation, the number of applications that require models to recognize nuanced or subjective visual concepts is growing. Traditionally, developing classifiers for such concepts requires substantial manual effort measured in hours, days, or even months to identify and annotate data needed for training. Even with recently proposed Agile Modeling techniques, which enable rapid bootstrapping of image classifiers, users are still required to spend 30 minutes or more of monotonous, repetitive data labeling just to train a single classifier. Drawing on Fiske's Cognitive Miser theory, we propose a new framework that alleviates manual effort by replacing human labeling with natural language interactions, reducing the total effort required to define a concept by an order of magnitude: from labeling 2,000 images to only 100 plus some natural language interactions. Our framework leverages recent advances in foundation models, both large language models and vision-language models, to carve out the concept space through conversation and by automatically labeling training data points. Most importantly, our framework eliminates the need for crowd-sourced annotations. Moreover, our framework ultimately produces lightweight classification models that are deployable in cost-sensitive scenarios. Across 15 subjective concepts and across 2 public image classification datasets, our trained models outperform traditional Agile Modeling as well as state-of-the-art zero-shot classification models like ALIGN, CLIP, CuPL, and large visual question-answering models like PaLI-X.

Modelado Colaborativo: Habilitando la Clasificación de Visión Subjetiva con Mínimo Esfuerzo Humano mediante el Uso de Herramientas de LLM

Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Resumen

Support