Mehr Kontext, größere Modelle oder moralisches Wissen? Eine systematische Studie zur Erkennung von Schwartz-Werten in politischen Texten

Zusammenfassung

Die Erkennung von Schwartz-Werten in politischen Texten ist schwierig, da implizite Hinweise oft von umgebenden Argumenten und feinen Unterscheidungen zwischen benachbarten Werten abhängen. Wir untersuchen, wann Kontext und explizites moralisches Wissen die Werterkennung auf Satzebene unterstützen. Unter Verwendung des ValuesML/Touché-ValueEval-Formats vergleichen wir Eingaben auf Satz-, Fenster- und Volltextdokumentebene; Einstellungen ohne RAG und mit Retrieval-Augmented unter Nutzung einer kuratierten moralischen Wissensbasis; überwachte DeBERTa-v3-base/large-Encoder; sowie Zero-Shot-LLMs von 12B bis 123B Parametern. Die Ergebnisse zeigen, dass mehr Kontext nicht durchweg besser ist: Volltextkontext verbessert überwachte DeBERTa-Encoder um 3,8–4,8 Makro-F1-Punkte gegenüber reiner Satzeingabe, hilft Zero-Shot-LLMs jedoch nicht konsistent. Abgerufenes moralisches Wissen ist in paarweisen Vergleichen durchweg nützlicher und verbessert bei früher Fusion jede getestete Modellfamilie und Kontextbedingung. Allerdings garantieren Skalierungen von DeBERTa-v3-base zu large und von 12B zu größeren LLMs keine Gewinne, und einfache frühe Fusion übertrifft die getesteten Varianten später Fusion und Cross-Attention RAG für Encoder. Analysen pro Wert zeigen, dass Kontext und Retrieval am meisten für sozial situierte oder konzeptuell verwechselbare Werte helfen. Diese Ergebnisse legen nahe, dass wertsensitive NLP Kontext, Wissen und Modellfamilie gemeinsam bewerten sollte, anstatt längere Eingaben oder größere Modelle als universelle Verbesserungen zu betrachten.

English

Detecting Schwartz values in political text is difficult because implicit cues often depend on surrounding arguments and fine-grained distinctions between neighboring values. We study when context and explicit moral knowledge help sentence-level value detection. Using the ValuesML/Touch{é} ValueEval format, we compare sentence, window, and full-document inputs; no-RAG and retrieval-augmented settings with a curated moral knowledge base; supervised DeBERTa-v3-base/large encoders; and zero-shot LLMs from 12B to 123B parameters. The results show that more context is not uniformly better: full-document context improves supervised DeBERTa encoders by 3.8--4.8 macro-F1 points over sentence-only input, but does not consistently help zero-shot LLMs. Retrieved moral knowledge is more consistently useful in matched comparisons, improving each tested model family and context condition under early fusion. However, scaling from DeBERTa-v3-base to large and from 12B to larger LLMs does not guarantee gains, and simple early fusion outperforms the tested late-fusion and cross-attention RAG variants for encoders. Per-value analyses show that context and retrieval help most for socially situated or conceptually confusable values. These findings suggest that value-sensitive NLP should evaluate context, knowledge, and model family jointly rather than treating longer inputs or larger models as universal improvements.