In-context meervoudig instantieleren

Samenvatting

Multiple Instance Learning (MIL) pakt problemen aan waarbij supervisie beschikbaar is op het niveau van tassen van instanties en is succesvol toegepast in uiteenlopende velden van computationele pathologie tot satellietbeelden. Desondanks worstelen bestaande algoritmen in het regime met weinig labels dat kenmerkend is voor veel praktijktoepassingen. Flexibele modellen overfitten en rigide modellen slagen er niet in zich aan te passen aan de taak. We tonen aan dat het vooraf trainen van een in-context lerend model met een Perceiver-achtige architectuur op synthetische data een model oplevert dat nieuwe taken kan oplossen met een handvol gelabelde tassen. Tijdens inferentie vindt classificatie plaats in een enkele voorwaartse doorgang en er zijn geen gradiëntupdates nodig. We stellen verschillende synthetische datageneratoren voor voor tasgestructureerde data en onderzoeken deze, en vinden dat ze complementaire inductieve biases vastleggen. Een model dat vooraf is getraind op een mix van deze generatoren erft hun per-taaksterktes en behaalt de beste gemiddelde prestatie over twaalf MIL-benchmarks, waarmee het gesuperviseerde basislijnen overtreft die taakspecifieke training vereisen.

English

Multiple Instance Learning (MIL) addresses problems where supervision is available at the level of bags of instances and has been successfully applied in fields ranging from computational pathology to satellite imagery. Nevertheless, existing algorithms struggle in the low-label regime that characterizes many real-world applications. Flexible models overfit and rigid ones fail to adapt to the task at hand. We show that pretraining an in-context learner with a Perceiver-style architecture on synthetic data yields a model that can solve new tasks from a handful of labeled bags. At inference time, classification happens in a single forward pass and requires no gradient updates. We propose and investigate different synthetic data generators for bag-structured data and find that they capture complementary inductive biases. A model pretrained on a mixture of these generators inherits their per-task strengths and achieves the best average performance across twelve MIL benchmarks, outperforming supervised baselines that require task-specific training.