Mais Contexto, Modelos Maiores ou Conhecimento Moral? Um Estudo Sistemático da Detecção de Valores de Schwartz em Textos Políticos

Resumo

Detectar valores de Schwartz em texto político é difícil porque pistas implícitas frequentemente dependem de argumentos circundantes e distinções sutis entre valores vizinhos. Estudamos quando o contexto e o conhecimento moral explícito ajudam na detecção de valores em nível de sentença. Usando o formato ValuesML/Touché ValueEval, comparamos entradas de sentença, janela e documento completo; configurações sem RAG e aumentadas por recuperação com uma base de conhecimento moral curada; codificadores supervisionados DeBERTa-v3-base/large; e LLMs zero-shot de 12B a 123B parâmetros. Os resultados mostram que mais contexto não é uniformemente melhor: o contexto de documento completo melhora os codificadores DeBERTa supervisionados em 3,8–4,8 pontos macro-F1 em relação à entrada apenas com sentença, mas não ajuda consistentemente os LLMs zero-shot. O conhecimento moral recuperado é mais consistentemente útil em comparações pareadas, melhorando cada família de modelo testada e condição de contexto sob fusão precoce. No entanto, escalar de DeBERTa-v3-base para large e de 12B para LLMs maiores não garante ganhos, e a fusão precoce simples supera as variantes de RAG testadas de fusão tardia e atenção cruzada para codificadores. Análises por valor mostram que o contexto e a recuperação ajudam mais para valores socialmente situados ou conceitualmente confundíveis. Essas descobertas sugerem que PLN sensível a valores deve avaliar contexto, conhecimento e família de modelo conjuntamente, em vez de tratar entradas mais longas ou modelos maiores como melhorias universais.

English

Detecting Schwartz values in political text is difficult because implicit cues often depend on surrounding arguments and fine-grained distinctions between neighboring values. We study when context and explicit moral knowledge help sentence-level value detection. Using the ValuesML/Touch{é} ValueEval format, we compare sentence, window, and full-document inputs; no-RAG and retrieval-augmented settings with a curated moral knowledge base; supervised DeBERTa-v3-base/large encoders; and zero-shot LLMs from 12B to 123B parameters. The results show that more context is not uniformly better: full-document context improves supervised DeBERTa encoders by 3.8--4.8 macro-F1 points over sentence-only input, but does not consistently help zero-shot LLMs. Retrieved moral knowledge is more consistently useful in matched comparisons, improving each tested model family and context condition under early fusion. However, scaling from DeBERTa-v3-base to large and from 12B to larger LLMs does not guarantee gains, and simple early fusion outperforms the tested late-fusion and cross-attention RAG variants for encoders. Per-value analyses show that context and retrieval help most for socially situated or conceptually confusable values. These findings suggest that value-sensitive NLP should evaluate context, knowledge, and model family jointly rather than treating longer inputs or larger models as universal improvements.