Больше контекста, более крупные модели или моральное знание? Систематическое исследование обнаружения ценностей Шварца в политических текстах

Аннотация

Обнаружение ценностей Шварца в политических текстах затруднительно, поскольку имплицитные сигналы часто зависят от окружающих аргументов и тонких различий между соседними ценностями. Мы изучаем, когда контекст и явное моральное знание помогают в обнаружении ценностей на уровне предложений. Используя формат ValuesML/Touché ValueEval, мы сравниваем входные данные на уровне предложений, окон и полных документов; настройки без RAG и с дополнением извлечением с курируемой базой моральных знаний; контролируемые энкодеры DeBERTa-v3-base/large; и zero-shot LLM от 12B до 123B параметров. Результаты показывают, что больший контекст не всегда лучше: контекст полного документа улучшает контролируемые энкодеры DeBERTa на 3,8–4,8 пункта macro-F1 по сравнению с вводом только предложений, но не помогает последовательно zero-shot LLM. Извлеченное моральное знание более последовательно полезно в сопоставимых сравнениях, улучшая каждое тестируемое семейство моделей и условие контекста при раннем слиянии. Однако масштабирование от DeBERTa-v3-base до large и от 12B до более крупных LLM не гарантирует улучшений, и простое раннее слияние превосходит протестированные варианты позднего слияния и кросс-внимания RAG для энкодеров. Анализ по отдельным ценностям показывает, что контекст и извлечение больше всего помогают для социально обусловленных или концептуально путаемых ценностей. Эти результаты свидетельствуют о том, что ценностно-чувствительная NLP должна оценивать контекст, знания и семейство моделей совместно, а не рассматривать более длинные входные данные или более крупные модели как универсальные улучшения.

English

Detecting Schwartz values in political text is difficult because implicit cues often depend on surrounding arguments and fine-grained distinctions between neighboring values. We study when context and explicit moral knowledge help sentence-level value detection. Using the ValuesML/Touch{é} ValueEval format, we compare sentence, window, and full-document inputs; no-RAG and retrieval-augmented settings with a curated moral knowledge base; supervised DeBERTa-v3-base/large encoders; and zero-shot LLMs from 12B to 123B parameters. The results show that more context is not uniformly better: full-document context improves supervised DeBERTa encoders by 3.8--4.8 macro-F1 points over sentence-only input, but does not consistently help zero-shot LLMs. Retrieved moral knowledge is more consistently useful in matched comparisons, improving each tested model family and context condition under early fusion. However, scaling from DeBERTa-v3-base to large and from 12B to larger LLMs does not guarantee gains, and simple early fusion outperforms the tested late-fusion and cross-attention RAG variants for encoders. Per-value analyses show that context and retrieval help most for socially situated or conceptually confusable values. These findings suggest that value-sensitive NLP should evaluate context, knowledge, and model family jointly rather than treating longer inputs or larger models as universal improvements.