In-Context-Multiple-Instanz-Lernen

Zusammenfassung

Multiple Instance Learning (MIL) behandelt Probleme, bei denen die Überwachung auf der Ebene von Instanzbeuteln verfügbar ist, und wurde erfolgreich in Bereichen von der computationalen Pathologie bis hin zu Satellitenbildern angewendet. Dennoch haben bestehende Algorithmen Schwierigkeiten in dem durch wenige Labels gekennzeichneten Bereich (Low-Label-Regime), der viele reale Anwendungen charakterisiert. Flexible Modelle überfitten, während starre Modelle sich nicht an die vorliegende Aufgabe anpassen können. Wir zeigen, dass das Vortraining eines In-Context-Lerners mit einer Perceiver-artigen Architektur auf synthetischen Daten ein Modell ergibt, das neue Aufgaben aus einer Handvoll gelabelter Instanzbeutel lösen kann. Zur Inferenzzeit erfolgt die Klassifikation in einem einzigen Durchlauf und erfordert keine Gradientenaktualisierungen. Wir schlagen verschiedene synthetische Datengeneratoren für bag-strukturierte Daten vor und untersuchen diese; wir stellen fest, dass sie komplementäre induktive Biases erfassen. Ein auf einer Mischung dieser Generatoren vortrainiertes Modell übernimmt deren aufgabenspezifische Stärken und erzielt die beste durchschnittliche Leistung über zwölf MIL-Benchmarks hinweg, wobei es überwachte Basislinien übertrifft, die aufgabenspezifisches Training erfordern.

English

Multiple Instance Learning (MIL) addresses problems where supervision is available at the level of bags of instances and has been successfully applied in fields ranging from computational pathology to satellite imagery. Nevertheless, existing algorithms struggle in the low-label regime that characterizes many real-world applications. Flexible models overfit and rigid ones fail to adapt to the task at hand. We show that pretraining an in-context learner with a Perceiver-style architecture on synthetic data yields a model that can solve new tasks from a handful of labeled bags. At inference time, classification happens in a single forward pass and requires no gradient updates. We propose and investigate different synthetic data generators for bag-structured data and find that they capture complementary inductive biases. A model pretrained on a mixture of these generators inherits their per-task strengths and achieves the best average performance across twelve MIL benchmarks, outperforming supervised baselines that require task-specific training.