Контекстное обучение по множественным экземплярам

Аннотация

Обучение по множественным экземплярам (Multiple Instance Learning, MIL) решает задачи, в которых supervision доступен на уровне наборов экземпляров, и успешно применяется в таких областях, как вычислительная патология и спутниковая съёмка. Тем не менее, существующие алгоритмы плохо работают в режиме малого количества меток, который характерен для многих реальных приложений. Гибкие модели переобучаются, а жёсткие не способны адаптироваться к решаемой задаче. Мы показываем, что предварительное обучение контекстного обучаемого с архитектурой типа Perceiver на синтетических данных позволяет получить модель, способную решать новые задачи на основе нескольких размеченных наборов экземпляров. На этапе вывода классификация выполняется за один прямой проход и не требует обновления градиентов. Мы предлагаем и исследуем различные генераторы синтетических данных для данных, структурированных по наборам, и обнаруживаем, что они содержат взаимодополняющие индуктивные смещения. Модель, предварительно обученная на смеси таких генераторов, наследует их преимущества в каждой задаче и достигает наилучшей средней производительности на двенадцати эталонных тестах MIL, превосходя контролируемые базовые модели, требующие обучения под конкретную задачу.

English

Multiple Instance Learning (MIL) addresses problems where supervision is available at the level of bags of instances and has been successfully applied in fields ranging from computational pathology to satellite imagery. Nevertheless, existing algorithms struggle in the low-label regime that characterizes many real-world applications. Flexible models overfit and rigid ones fail to adapt to the task at hand. We show that pretraining an in-context learner with a Perceiver-style architecture on synthetic data yields a model that can solve new tasks from a handful of labeled bags. At inference time, classification happens in a single forward pass and requires no gradient updates. We propose and investigate different synthetic data generators for bag-structured data and find that they capture complementary inductive biases. A model pretrained on a mixture of these generators inherits their per-task strengths and achieves the best average performance across twelve MIL benchmarks, outperforming supervised baselines that require task-specific training.