Apprentissage Multi-Instances en Contexte

Résumé

L'apprentissage par instances multiples (Multiple Instance Learning, MIL) aborde les problèmes où la supervision est disponible au niveau des sacs d'instances et a été appliqué avec succès dans des domaines allant de la pathologie computationnelle à l'imagerie satellitaire. Néanmoins, les algorithmes existants peinent dans le régime de faible nombre d'étiquettes qui caractérise de nombreuses applications réelles. Les modèles flexibles surajustent les données tandis que les modèles rigides échouent à s'adapter à la tâche considérée. Nous montrons que le pré-entraînement d'un apprenant contextuel doté d'une architecture de type Perceiver sur des données synthétiques produit un modèle capable de résoudre de nouvelles tâches à partir d'une poignée de sacs étiquetés. Lors de l'inférence, la classification s'effectue en un seul passage avant et ne nécessite aucune mise à jour de gradient. Nous proposons et étudions différents générateurs de données synthétiques pour des données structurées en sacs, et constatons qu'ils capturent des biais inductifs complémentaires. Un modèle pré-entraîné sur un mélange de ces générateurs hérite de leurs forces respectives selon la tâche et atteint la meilleure performance moyenne sur douze bancs d'essai MIL, surpassant les références supervisées qui nécessitent un entraînement spécifique à chaque tâche.

English

Multiple Instance Learning (MIL) addresses problems where supervision is available at the level of bags of instances and has been successfully applied in fields ranging from computational pathology to satellite imagery. Nevertheless, existing algorithms struggle in the low-label regime that characterizes many real-world applications. Flexible models overfit and rigid ones fail to adapt to the task at hand. We show that pretraining an in-context learner with a Perceiver-style architecture on synthetic data yields a model that can solve new tasks from a handful of labeled bags. At inference time, classification happens in a single forward pass and requires no gradient updates. We propose and investigate different synthetic data generators for bag-structured data and find that they capture complementary inductive biases. A model pretrained on a mixture of these generators inherits their per-task strengths and achieves the best average performance across twelve MIL benchmarks, outperforming supervised baselines that require task-specific training.