Aprendizado por Múltiplas Instâncias em Contexto

Resumo

Aprendizado de Múltiplas Instâncias (MIL) aborda problemas onde a supervisão está disponível no nível de sacos de instâncias e tem sido aplicado com sucesso em áreas que vão desde patologia computacional até imagens de satélite. No entanto, os algoritmos existentes enfrentam dificuldades no regime de baixa rotulagem que caracteriza muitas aplicações do mundo real. Modelos flexíveis sofrem overfitting e os rígidos não conseguem se adaptar à tarefa em questão. Mostramos que o pré-treinamento de um aprendiz em contexto com uma arquitetura estilo Perceiver em dados sintéticos produz um modelo que pode resolver novas tarefas a partir de um punhado de sacos rotulados. No momento da inferência, a classificação ocorre em uma única passagem direta e não requer atualizações de gradiente. Propomos e investigamos diferentes geradores de dados sintéticos para dados estruturados em sacos e descobrimos que eles capturam vieses indutivos complementares. Um modelo pré-treinado em uma mistura desses geradores herda seus pontos fortes por tarefa e alcança o melhor desempenho médio em doze benchmarks de MIL, superando linhas de base supervisionadas que exigem treinamento específico para a tarefa.

English

Multiple Instance Learning (MIL) addresses problems where supervision is available at the level of bags of instances and has been successfully applied in fields ranging from computational pathology to satellite imagery. Nevertheless, existing algorithms struggle in the low-label regime that characterizes many real-world applications. Flexible models overfit and rigid ones fail to adapt to the task at hand. We show that pretraining an in-context learner with a Perceiver-style architecture on synthetic data yields a model that can solve new tasks from a handful of labeled bags. At inference time, classification happens in a single forward pass and requires no gradient updates. We propose and investigate different synthetic data generators for bag-structured data and find that they capture complementary inductive biases. A model pretrained on a mixture of these generators inherits their per-task strengths and achieves the best average performance across twelve MIL benchmarks, outperforming supervised baselines that require task-specific training.