Predição de Ideologia de Textos Políticos Alemães

Resumo

As eleições representam um marco crucial no desenvolvimento contínuo de uma nação. Para compreender melhor a retórica política de diversos movimentos, que vão da esquerda à direita, propomos um modelo baseado em transformer capaz de projetar a orientação política de um texto em um espectro contínuo de esquerda a direita, representado por um escalar normalizado d entre -1 e 1. Esta abordagem permite que analistas se concentrem em segmentos específicos do cenário político, como conservadores, excluindo movimentos liberais e de extrema-direita. Tal tarefa só pode ser alcançada com classificadores multiclasse, desde que a orientação desejada esteja incorporada em uma de suas classes predefinidas. Para determinar o modelo base mais adequado entre 13 transformers candidatos para esta tarefa, construímos quatro corpora distintos. Um corpus foi composto por notas plenárias anotadas do Bundestag alemão, enquanto outro foi baseado em uma ferramenta oficial de tomada de decisão online, o Wahl-O-Mat. O terceiro corpus consistiu em artigos de 33 jornais, cada um identificado por sua orientação política, e o quarto incluiu 535.200 tweets de 597 membros do 20º e 21º Bundestag alemão. Para mitigar o sobreajuste, usamos dois corpora distintos para treinamento e dois para teste, respectivamente. Quanto ao desempenho intra-domínio, o DeBERTa-large alcançou o maior F1-score (F1=0,844), assim como no teste fora do domínio do X (Twitter) (ACC=0,864). Em relação ao teste fora do domínio dos jornais, o Gemma2-2B se destacou (MAE = 0,172). Este estudo demonstra que modelos transformer podem reconhecer o enquadramento político em notícias alemãs no nível das pesquisas de opinião pública. Nossos achados sugerem que tanto a arquitetura do modelo quanto a disponibilidade de dados de treinamento específicos do domínio podem ser tão influentes quanto o tamanho do modelo para estimar o viés político. Discutimos limitações metodológicas e delineamos direções para melhorar a robustez da medição de viés.

English

Elections represent a crucial milestone in a nation's ongoing development. To better understand the political rhetoric from various movements, ranging from left to right, we propose a transformer-based model capable of projecting the political orientation of a text on a continuous left-to-right spectrum, represented by a normalized scalar d between -1 and 1. This approach enables analysts to focus on specific segments of the political landscape, such as conservatives, while excluding liberal and far-right movements. Such a task can only be achieved with multiclass classifiers, provided that the desired orientation is incorporated within one of their predefined classes. To determine the most suitable foundation model among 13 candidate transformers for this task, we constructed four distinct corpora. One corpus comprised annotated plenary notes from the German Bundestag, while another was based on an official online decision-making tool, Wahl-O-Mat. The third corpus consisted of articles from 33 newspapers, each identified by its political orientation, and the fourth included 535,200 tweets from 597 members of the 20th and 21st German Bundestag. To mitigate overfitting, we used two distinct corpora for training and two for testing, respectively. For in-domain performance, DeBERTa-large achieved the highest F1 score F1=0.844 as well as for the X (Twitter) out-of-domain test ACC=0.864. Regarding the newspaper out-of-domain test, Gemma2-2B excelled (MAE = 0.172). This study demonstrates that transformer models can recognize political framing in German news at the level of public opinion polls. Our findings suggest that both the model architecture and the availability of domain-specific training data can be as influential as model size for estimating political bias. We discuss methodological limitations and outline directions for improving the robustness of bias measurement.