¿Más contexto, modelos más grandes o conocimiento moral? Un estudio sistemático de la detección de valores de Schwartz en textos políticos

Resumen

Detectar los valores de Schwartz en textos políticos es difícil porque las señales implícitas a menudo dependen de los argumentos circundantes y de distinciones sutiles entre valores vecinos. Estudiamos cuándo el contexto y el conocimiento moral explícito ayudan en la detección de valores a nivel de oración. Utilizando el formato ValuesML/Touch{é} ValueEval, comparamos entradas de oración, ventana y documento completo; configuraciones sin RAG y aumentadas por recuperación con una base de conocimiento moral curada; codificadores supervisados DeBERTa-v3-base/large; y LLMs zero-shot de 12B a 123B parámetros. Los resultados muestran que más contexto no siempre es mejor: el contexto de documento completo mejora los codificadores DeBERTa supervisados en 3.8–4.8 puntos de macro-F1 en comparación con la entrada solo de oración, pero no ayuda de manera consistente a los LLMs zero-shot. El conocimiento moral recuperado es más consistentemente útil en comparaciones emparejadas, mejorando cada familia de modelos y condición de contexto probados bajo fusión temprana. Sin embargo, escalar de DeBERTa-v3-base a large y de 12B a LLMs más grandes no garantiza mejoras, y la fusión temprana simple supera a las variantes de RAG de fusión tardía y atención cruzada probadas para codificadores. Los análisis por valor muestran que el contexto y la recuperación ayudan más para valores socialmente situados o conceptualmente confundibles. Estos hallazgos sugieren que la PNL sensible a valores debe evaluar contexto, conocimiento y familia de modelos de manera conjunta, en lugar de tratar las entradas más largas o los modelos más grandes como mejoras universales.

English

Detecting Schwartz values in political text is difficult because implicit cues often depend on surrounding arguments and fine-grained distinctions between neighboring values. We study when context and explicit moral knowledge help sentence-level value detection. Using the ValuesML/Touch{é} ValueEval format, we compare sentence, window, and full-document inputs; no-RAG and retrieval-augmented settings with a curated moral knowledge base; supervised DeBERTa-v3-base/large encoders; and zero-shot LLMs from 12B to 123B parameters. The results show that more context is not uniformly better: full-document context improves supervised DeBERTa encoders by 3.8--4.8 macro-F1 points over sentence-only input, but does not consistently help zero-shot LLMs. Retrieved moral knowledge is more consistently useful in matched comparisons, improving each tested model family and context condition under early fusion. However, scaling from DeBERTa-v3-base to large and from 12B to larger LLMs does not guarantee gains, and simple early fusion outperforms the tested late-fusion and cross-attention RAG variants for encoders. Per-value analyses show that context and retrieval help most for socially situated or conceptually confusable values. These findings suggest that value-sensitive NLP should evaluate context, knowledge, and model family jointly rather than treating longer inputs or larger models as universal improvements.