Профилирование новостных медиа на предмет фактической точности и предвзятости с использованием языковых моделей и методологии проверки фактов экспертов
Profiling News Media for Factuality and Bias Using LLMs and the Fact-Checking Methodology of Human Experts
June 14, 2025
Авторы: Zain Muhammad Mujahid, Dilshod Azizov, Maha Tufail Agro, Preslav Nakov
cs.AI
Аннотация
В эпоху, характеризующуюся распространением дезинформации и манипуляций в интернете, крайне важно дать читателям возможность понимать содержание, с которым они сталкиваются. Важные усилия в этом направлении опираются на ручную или автоматическую проверку фактов, что может быть сложным для новых утверждений с ограниченной информацией. Такие сценарии можно решить, оценивая надежность и политическую предвзятость источника утверждения, то есть характеризуя целые новостные издания, а не отдельные утверждения или статьи. Это важное, но недостаточно изученное направление исследований. В то время как предыдущие работы рассматривали лингвистический и социальный контекст, мы не анализируем отдельные статьи или информацию в социальных сетях. Вместо этого мы предлагаем новую методологию, которая имитирует критерии, используемые профессиональными проверяющими факты для оценки фактической достоверности и политической предвзятости целого издания. В частности, мы разрабатываем различные запросы на основе этих критериев и получаем ответы от больших языковых моделей (LLM), которые мы агрегируем для формирования прогнозов. Помимо демонстрации значительного улучшения по сравнению с сильными базовыми моделями в ходе обширных экспериментов с несколькими LLM, мы проводим детальный анализ ошибок, изучая влияние популярности и региона СМИ на производительность модели. Кроме того, мы проводим исследование с исключением компонентов, чтобы выделить ключевые элементы нашего набора данных, которые способствуют этим улучшениям. Чтобы способствовать будущим исследованиям, мы опубликовали наш набор данных и код по адресу https://github.com/mbzuai-nlp/llm-media-profiling.
English
In an age characterized by the proliferation of mis- and disinformation
online, it is critical to empower readers to understand the content they are
reading. Important efforts in this direction rely on manual or automatic
fact-checking, which can be challenging for emerging claims with limited
information. Such scenarios can be handled by assessing the reliability and the
political bias of the source of the claim, i.e., characterizing entire news
outlets rather than individual claims or articles. This is an important but
understudied research direction. While prior work has looked into linguistic
and social contexts, we do not analyze individual articles or information in
social media. Instead, we propose a novel methodology that emulates the
criteria that professional fact-checkers use to assess the factuality and
political bias of an entire outlet. Specifically, we design a variety of
prompts based on these criteria and elicit responses from large language models
(LLMs), which we aggregate to make predictions. In addition to demonstrating
sizable improvements over strong baselines via extensive experiments with
multiple LLMs, we provide an in-depth error analysis of the effect of media
popularity and region on model performance. Further, we conduct an ablation
study to highlight the key components of our dataset that contribute to these
improvements. To facilitate future research, we released our dataset and code
at https://github.com/mbzuai-nlp/llm-media-profiling.