Auswahl und Zusammenführung: Auf dem Weg zu anpassungsfähiger und skalierbarer Named Entity Recognition mit großen Sprachmodellen
Selecting and Merging: Towards Adaptable and Scalable Named Entity Recognition with Large Language Models
June 28, 2025
Autoren: Zhuojun Ding, Wei Wei, Chenghao Fan
cs.AI
Zusammenfassung
Supervised Fine-Tuning (SFT) wird häufig eingesetzt, um große Sprachmodelle (LLMs) mit Aufgaben der Informationsextraktion (IE), wie z. B. der Erkennung von benannten Entitäten (NER), abzustimmen. Die Annotation solcher feingranularer Labels und das Training domänenspezifischer Modelle ist jedoch kostspielig. Bisherige Arbeiten trainieren typischerweise ein einheitliches Modell über mehrere Domänen hinweg, doch solche Ansätze mangelt es an Anpassungsfähigkeit und Skalierbarkeit, da nicht alle Trainingsdaten für die Zieldomänen vorteilhaft sind und die Skalierung trainierter Modelle nach wie vor eine Herausforderung darstellt. Wir schlagen das SaM-Framework vor, das Expert*innenmodelle zur Inferenzzeit dynamisch auswählt und zusammenführt. Konkret wählen wir für eine Zieldomäne domänenspezifische Expert*innenmodelle aus, die auf bestehenden Domänen vortrainiert wurden, basierend auf (i) der Ähnlichkeit der Domäne zur Zieldomäne und (ii) der Leistung bei Stichprobeninstanzen. Die Expert*innenmodelle werden dann zusammengeführt, um aufgabenoptimierte Modelle für die Zieldomäne zu erstellen. Durch die dynamische Zusammenführung von Expert*innenmodellen, die für die Zieldomänen vorteilhaft sind, verbessern wir die Generalisierung über verschiedene Domänen hinweg, ohne zusätzliches Training zu benötigen. Darüber hinaus können Expert*innenmodelle einfach hinzugefügt oder entfernt werden, was eine hohe Skalierbarkeit ermöglicht. Umfangreiche Experimente auf mehreren Benchmarks demonstrieren die Effektivität unseres Frameworks, das das einheitliche Modell im Durchschnitt um 10 % übertrifft. Wir geben zudem Einblicke in potenzielle Verbesserungen, praktische Erfahrungen und Erweiterungen unseres Frameworks.
English
Supervised fine-tuning (SFT) is widely used to align large language models
(LLMs) with information extraction (IE) tasks, such as named entity recognition
(NER). However, annotating such fine-grained labels and training
domain-specific models is costly. Existing works typically train a unified
model across multiple domains, but such approaches lack adaptation and
scalability since not all training data benefits target domains and scaling
trained models remains challenging. We propose the SaM framework, which
dynamically Selects and Merges expert models at inference time. Specifically,
for a target domain, we select domain-specific experts pre-trained on existing
domains based on (i) domain similarity to the target domain and (ii)
performance on sampled instances, respectively. The experts are then merged to
create task-specific models optimized for the target domain. By dynamically
merging experts beneficial to target domains, we improve generalization across
various domains without extra training. Additionally, experts can be added or
removed conveniently, leading to great scalability. Extensive experiments on
multiple benchmarks demonstrate our framework's effectiveness, which
outperforms the unified model by an average of 10%. We further provide insights
into potential improvements, practical experience, and extensions of our
framework.