Meer context, grotere modellen of morele kennis? Een systematische studie van Schwartz-waardendetectie in politieke teksten

Samenvatting

Het detecteren van Schwartz-waarden in politieke tekst is moeilijk omdat impliciete aanwijzingen vaak afhankelijk zijn van omringende argumenten en subtiele verschillen tussen naburige waarden. We onderzoeken wanneer context en expliciete morele kennis helpen bij het detecteren van waarden op zinsniveau. Met behulp van het ValuesML/Touch{é} ValueEval-formaat vergelijken we zins-, venster- en volledige-documentinvoer; no-RAG- en retrieval-augmented-instellingen met een samengestelde morele kennisbank; begeleide DeBERTa-v3-base/large encoders; en zero-shot LLMs van 12B tot 123B parameters. De resultaten tonen aan dat meer context niet uniform beter is: volledige-documentcontext verbetert begeleide DeBERTa-encoders met 3,8–4,8 macro-F1-punten ten opzichte van alleen-zinsinvoer, maar helpt zero-shot LLMs niet consistent. Opgehaalde morele kennis is consistenter nuttig in gematchte vergelijkingen, waarbij het elke geteste modelfamilie en contextconditie verbetert onder vroege fusie. Echter, opschaling van DeBERTa-v3-base naar large en van 12B naar grotere LLMs garandeert geen winst, en eenvoudige vroege fusie presteert beter dan de geteste late-fusie- en cross-attention RAG-varianten voor encoders. Analyse per waarde toont aan dat context en retrieval het meest helpen voor sociaal gesitueerde of conceptueel verwarrende waarden. Deze bevindingen suggereren dat waardengevoelige NLP context, kennis en modelfamilie gezamenlijk moet evalueren in plaats van langere invoer of grotere modellen als universele verbeteringen te beschouwen.

English

Detecting Schwartz values in political text is difficult because implicit cues often depend on surrounding arguments and fine-grained distinctions between neighboring values. We study when context and explicit moral knowledge help sentence-level value detection. Using the ValuesML/Touch{é} ValueEval format, we compare sentence, window, and full-document inputs; no-RAG and retrieval-augmented settings with a curated moral knowledge base; supervised DeBERTa-v3-base/large encoders; and zero-shot LLMs from 12B to 123B parameters. The results show that more context is not uniformly better: full-document context improves supervised DeBERTa encoders by 3.8--4.8 macro-F1 points over sentence-only input, but does not consistently help zero-shot LLMs. Retrieved moral knowledge is more consistently useful in matched comparisons, improving each tested model family and context condition under early fusion. However, scaling from DeBERTa-v3-base to large and from 12B to larger LLMs does not guarantee gains, and simple early fusion outperforms the tested late-fusion and cross-attention RAG variants for encoders. Per-value analyses show that context and retrieval help most for socially situated or conceptually confusable values. These findings suggest that value-sensitive NLP should evaluate context, knowledge, and model family jointly rather than treating longer inputs or larger models as universal improvements.