ChatPaper.aiChatPaper

AIを活用した要約と結論の分析:根拠のない主張と曖昧な代名詞のフラグ付け

Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns

June 16, 2025
著者: Evgeny Markhasin
cs.AI

要旨

本研究では、学術論文の高次意味解析および言語分析において大規模言語モデル(LLM)を導くための、人間に似た階層的推論を引き出すことを目的とした概念実証(PoC)型の構造化ワークフロープロンプトを提案し、その評価を行った。本プロンプトは、要約内の根拠のない主張の特定(情報的整合性)と、曖昧な代名詞参照の検出(言語的明瞭性)という2つの非自明な分析タスクを対象としている。2つの最先端モデル(Gemini Pro 2.5 ProおよびChatGPT Plus o3)に対して、異なる文脈条件のもとで系統的かつ複数回の評価を実施した。情報的整合性タスクにおける結果は、モデル間で顕著な性能差を示した。具体的には、両モデルとも名詞句の主要部における根拠のない主張を95%の成功率で特定した一方、ChatGPTは形容詞修飾語における根拠のない主張を全く特定できず(0%成功率)、Geminiはこれを95%の成功率で正しく検出した。この結果は、ターゲットの統語的役割が性能に影響を与える可能性を示唆している。言語分析タスクでは、完全な原稿文脈を提供した場合、両モデルとも良好な性能(80-90%成功率)を示した。しかし、要約のみを提供した場合、ChatGPTは100%の成功率を達成したのに対し、Geminiの性能は大幅に低下した。本研究の結果は、構造化プロンプトが複雑なテキスト分析のための有効な手法であることを示唆する一方、プロンプトの性能がモデル、タスクタイプ、および文脈の相互作用に大きく依存する可能性を示しており、モデル固有の厳密なテストの必要性を強調している。
English
We present and evaluate a suite of proof-of-concept (PoC), structured workflow prompts designed to elicit human-like hierarchical reasoning while guiding Large Language Models (LLMs) in high-level semantic and linguistic analysis of scholarly manuscripts. The prompts target two non-trivial analytical tasks: identifying unsubstantiated claims in summaries (informational integrity) and flagging ambiguous pronoun references (linguistic clarity). We conducted a systematic, multi-run evaluation on two frontier models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context conditions. Our results for the informational integrity task reveal a significant divergence in model performance: while both models successfully identified an unsubstantiated head of a noun phrase (95% success), ChatGPT consistently failed (0% success) to identify an unsubstantiated adjectival modifier that Gemini correctly flagged (95% success), raising a question regarding potential influence of the target's syntactic role. For the linguistic analysis task, both models performed well (80-90% success) with full manuscript context. In a summary-only setting, however, ChatGPT achieved a perfect (100%) success rate, while Gemini's performance was substantially degraded. Our findings suggest that structured prompting is a viable methodology for complex textual analysis but show that prompt performance may be highly dependent on the interplay between the model, task type, and context, highlighting the need for rigorous, model-specific testing.
PDF02June 17, 2025