Predicción de ideología de textos políticos alemanes

Resumen

Las elecciones representan un hito crucial en el desarrollo continuo de una nación. Para comprender mejor la retórica política de diversos movimientos, desde la izquierda hasta la derecha, proponemos un modelo basado en transformadores capaz de proyectar la orientación política de un texto en un espectro continuo de izquierda a derecha, representado por un escalar normalizado d entre -1 y 1. Este enfoque permite a los analistas centrarse en segmentos específicos del panorama político, como los conservadores, excluyendo al mismo tiempo los movimientos liberales y de extrema derecha. Dicha tarea solo puede lograrse con clasificadores multiclase, siempre que la orientación deseada esté incorporada en una de sus clases predefinidas. Para determinar el modelo base más adecuado entre 13 transformadores candidatos para esta tarea, construimos cuatro corpus distintos. Un corpus comprendía notas plenarias anotadas del Bundestag alemán, mientras que otro se basó en una herramienta oficial de toma de decisiones en línea, Wahl-O-Mat. El tercer corpus consistió en artículos de 33 periódicos, cada uno identificado por su orientación política, y el cuarto incluyó 535,200 tuits de 597 miembros de los vigésimo y vigésimo primero Bundestag alemán. Para mitigar el sobreajuste, utilizamos dos corpus distintos para entrenamiento y dos para prueba, respectivamente. En cuanto al rendimiento dentro del dominio, DeBERTa-large obtuvo la puntuación F1 más alta (F1=0.844), así como en la prueba fuera del dominio de X (Twitter) (ACC=0.864). En la prueba fuera del dominio de periódicos, Gemma2-2B destacó (MAE = 0.172). Este estudio demuestra que los modelos transformadores pueden reconocer el encuadre político en noticias alemanas al nivel de las encuestas de opinión pública. Nuestros hallazgos sugieren que tanto la arquitectura del modelo como la disponibilidad de datos de entrenamiento específicos del dominio pueden ser tan influyentes como el tamaño del modelo para estimar el sesgo político. Discutimos limitaciones metodológicas y esbozamos direcciones para mejorar la robustez de la medición del sesgo.

English

Elections represent a crucial milestone in a nation's ongoing development. To better understand the political rhetoric from various movements, ranging from left to right, we propose a transformer-based model capable of projecting the political orientation of a text on a continuous left-to-right spectrum, represented by a normalized scalar d between -1 and 1. This approach enables analysts to focus on specific segments of the political landscape, such as conservatives, while excluding liberal and far-right movements. Such a task can only be achieved with multiclass classifiers, provided that the desired orientation is incorporated within one of their predefined classes. To determine the most suitable foundation model among 13 candidate transformers for this task, we constructed four distinct corpora. One corpus comprised annotated plenary notes from the German Bundestag, while another was based on an official online decision-making tool, Wahl-O-Mat. The third corpus consisted of articles from 33 newspapers, each identified by its political orientation, and the fourth included 535,200 tweets from 597 members of the 20th and 21st German Bundestag. To mitigate overfitting, we used two distinct corpora for training and two for testing, respectively. For in-domain performance, DeBERTa-large achieved the highest F1 score F1=0.844 as well as for the X (Twitter) out-of-domain test ACC=0.864. Regarding the newspaper out-of-domain test, Gemma2-2B excelled (MAE = 0.172). This study demonstrates that transformer models can recognize political framing in German news at the level of public opinion polls. Our findings suggest that both the model architecture and the availability of domain-specific training data can be as influential as model size for estimating political bias. We discuss methodological limitations and outline directions for improving the robustness of bias measurement.