ChatPaper.aiChatPaper

Мастера ИИ на CheckThat! 2025: Улучшение трансформерных эмбеддингов с использованием сентимент-анализа для обнаружения субъективности в новостных статьях

AI Wizards at CheckThat! 2025: Enhancing Transformer-Based Embeddings with Sentiment for Subjectivity Detection in News Articles

July 15, 2025
Авторы: Matteo Fasulo, Luca Babboni, Luca Tedeschini
cs.AI

Аннотация

В данной статье представлено участие команды AI Wizards в задаче 1 лаборатории CLEF 2025 CheckThat!: "Определение субъективности в новостных статьях", где предложения классифицируются как субъективные/объективные в моноязычных, многоязычных и условиях zero-shot. Обучающие и тестовые наборы данных были предоставлены для арабского, немецкого, английского, итальянского и болгарского языков; финальная оценка включала дополнительные непредставленные языки (например, греческий, румынский, польский, украинский) для оценки обобщающей способности моделей. Основная стратегия заключалась в улучшении классификаторов на основе трансформеров путем интеграции оценок тональности, полученных с помощью вспомогательной модели, с представлениями предложений, что направлено на повышение эффективности по сравнению со стандартной тонкой настройкой. Мы исследовали эту архитектуру, дополненную данными о тональности, с использованием моделей mDeBERTaV3-base, ModernBERT-base (для английского языка) и Llama3.2-1B. Для решения проблемы дисбаланса классов, характерной для всех языков, мы применили калибровку порогов принятия решений, оптимизированную на тестовом наборе данных. Наши эксперименты показали, что интеграция признаков тональности значительно повышает производительность, особенно показатель F1 для субъективных предложений. Этот подход позволил достичь высоких результатов, в частности, первого места для греческого языка (Macro F1 = 0,51).
English
This paper presents AI Wizards' participation in the CLEF 2025 CheckThat! Lab Task 1: Subjectivity Detection in News Articles, classifying sentences as subjective/objective in monolingual, multilingual, and zero-shot settings. Training/development datasets were provided for Arabic, German, English, Italian, and Bulgarian; final evaluation included additional unseen languages (e.g., Greek, Romanian, Polish, Ukrainian) to assess generalization. Our primary strategy enhanced transformer-based classifiers by integrating sentiment scores, derived from an auxiliary model, with sentence representations, aiming to improve upon standard fine-tuning. We explored this sentiment-augmented architecture with mDeBERTaV3-base, ModernBERT-base (English), and Llama3.2-1B. To address class imbalance, prevalent across languages, we employed decision threshold calibration optimized on the development set. Our experiments show sentiment feature integration significantly boosts performance, especially subjective F1 score. This framework led to high rankings, notably 1st for Greek (Macro F1 = 0.51).
PDF21July 17, 2025