Aprendizaje de Múltiples Instancias en Contexto

Resumen

El Aprendizaje Múltiple de Instancias (MIL) aborda problemas donde la supervisión está disponible a nivel de bolsas de instancias y se ha aplicado con éxito en campos que van desde la patología computacional hasta la imagen satelital. Sin embargo, los algoritmos existentes tienen dificultades en el régimen de baja anotación que caracteriza a muchas aplicaciones del mundo real. Los modelos flexibles se sobreajustan y los rígidos no logran adaptarse a la tarea en cuestión. Demostramos que el preentrenamiento de un aprendiz en contexto con una arquitectura de tipo Perceiver sobre datos sintéticos produce un modelo que puede resolver nuevas tareas a partir de un puñado de bolsas etiquetadas. En el momento de la inferencia, la clasificación ocurre en un solo paso hacia adelante y no requiere actualizaciones de gradiente. Proponemos e investigamos diferentes generadores de datos sintéticos para datos estructurados en bolsas y encontramos que capturan sesgos inductivos complementarios. Un modelo preentrenado sobre una mezcla de estos generadores hereda las fortalezas específicas de cada tarea y logra el mejor rendimiento promedio en doce puntos de referencia de MIL, superando a las líneas base supervisadas que requieren entrenamiento específico de la tarea.

English

Multiple Instance Learning (MIL) addresses problems where supervision is available at the level of bags of instances and has been successfully applied in fields ranging from computational pathology to satellite imagery. Nevertheless, existing algorithms struggle in the low-label regime that characterizes many real-world applications. Flexible models overfit and rigid ones fail to adapt to the task at hand. We show that pretraining an in-context learner with a Perceiver-style architecture on synthetic data yields a model that can solve new tasks from a handful of labeled bags. At inference time, classification happens in a single forward pass and requires no gradient updates. We propose and investigate different synthetic data generators for bag-structured data and find that they capture complementary inductive biases. A model pretrained on a mixture of these generators inherits their per-task strengths and achieves the best average performance across twelve MIL benchmarks, outperforming supervised baselines that require task-specific training.