大規模言語モデルが生成するテキスト説明はモデルの分類性能を向上させることができるか?実証的研究
Can LLM-Generated Textual Explanations Enhance Model Classification Performance? An Empirical Study
August 13, 2025
著者: Mahdi Dhaini, Juraj Vladika, Ege Erdogan, Zineb Attaoui, Gjergji Kasneci
cs.AI
要旨
急速に進化する説明可能な自然言語処理(NLP)の分野において、テキストによる説明、すなわち人間らしい論理付けは、モデルの予測を説明し、解釈可能なラベルでデータセットを充実させる上で極めて重要です。従来のアプローチは人間によるアノテーションに依存しており、コストが高く、労力を要し、スケーラビリティを妨げるという課題があります。本研究では、複数の最先端の大規模言語モデル(LLM)を活用して高品質なテキスト説明を自動生成するフレームワークを提案します。これらのLLM生成説明の品質を、自然言語生成(NLG)の包括的な評価指標を用いて厳密に評価します。さらに、2つの多様なベンチマークデータセットにおける自然言語推論タスクにおいて、これらの説明が事前学習済み言語モデル(PLM)およびLLMの性能に与える下流の影響を調査します。実験結果から、自動生成された説明は、モデル性能の向上において人間によるアノテーションと同等以上の効果を示すことが明らかになりました。本研究の知見は、NLPデータセットの拡張とモデル性能の向上に向けた、スケーラブルなLLMベースのテキスト説明自動生成の有望な道筋を示唆しています。
English
In the rapidly evolving field of Explainable Natural Language Processing
(NLP), textual explanations, i.e., human-like rationales, are pivotal for
explaining model predictions and enriching datasets with interpretable labels.
Traditional approaches rely on human annotation, which is costly,
labor-intensive, and impedes scalability. In this work, we present an automated
framework that leverages multiple state-of-the-art large language models (LLMs)
to generate high-quality textual explanations. We rigorously assess the quality
of these LLM-generated explanations using a comprehensive suite of Natural
Language Generation (NLG) metrics. Furthermore, we investigate the downstream
impact of these explanations on the performance of pre-trained language models
(PLMs) and LLMs across natural language inference tasks on two diverse
benchmark datasets. Our experiments demonstrate that automated explanations
exhibit highly competitive effectiveness compared to human-annotated
explanations in improving model performance. Our findings underscore a
promising avenue for scalable, automated LLM-based textual explanation
generation for extending NLP datasets and enhancing model performance.