ChatPaper.aiChatPaper

초록 및 결론의 AI 기반 분석: 근거 없는 주장과 모호한 대명사 식별

Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns

June 16, 2025
저자: Evgeny Markhasin
cs.AI

초록

본 연구에서는 학술 원고의 고차원적 의미 및 언어학적 분석을 수행하는 대형 언어 모델(LLM)을 안내하면서 인간과 유사한 계층적 추론을 유도하도록 설계된 개념 검증(PoC) 구조화 워크플로우 프롬프트 세트를 제시하고 평가한다. 이 프롬프트는 두 가지 비사소한 분석 작업을 대상으로 한다: 요약문에서 입증되지 않은 주장을 식별하는 작업(정보적 무결성)과 모호한 대명사 참조를 표시하는 작업(언어적 명확성). 두 개의 최신 모델(Gemini Pro 2.5 Pro와 ChatGPT Plus o3)을 다양한 컨텍스트 조건에서 체계적이고 다중 실행 평가를 수행하였다. 정보적 무결성 작업에 대한 결과는 모델 성능에서 상당한 차이를 보였다: 두 모델 모두 명사구의 입증되지 않은 핵심을 성공적으로 식별하였으나(95% 성공률), ChatGPT는 Gemini가 정확히 표시한(95% 성공률) 입증되지 않은 형용사 수식어를 지속적으로 식별하지 못하여(0% 성공률), 대상의 통사적 역할이 미치는 잠재적 영향에 대한 의문을 제기하였다. 언어학적 분석 작업에서는 두 모델 모두 전체 원고 컨텍스트에서 우수한 성능을 보였다(80-90% 성공률). 그러나 요약문만 제공된 환경에서는 ChatGPT가 완벽한 성공률(100%)을 달성한 반면, Gemini의 성능은 크게 저하되었다. 본 연구 결과는 구조화된 프롬프트가 복잡한 텍스트 분석을 위한 실행 가능한 방법론임을 시사하지만, 프롬프트 성능이 모델, 작업 유형, 컨텍스트 간의 상호작용에 크게 의존할 수 있음을 보여주며, 이는 엄격한 모델별 테스트의 필요성을 강조한다.
English
We present and evaluate a suite of proof-of-concept (PoC), structured workflow prompts designed to elicit human-like hierarchical reasoning while guiding Large Language Models (LLMs) in high-level semantic and linguistic analysis of scholarly manuscripts. The prompts target two non-trivial analytical tasks: identifying unsubstantiated claims in summaries (informational integrity) and flagging ambiguous pronoun references (linguistic clarity). We conducted a systematic, multi-run evaluation on two frontier models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context conditions. Our results for the informational integrity task reveal a significant divergence in model performance: while both models successfully identified an unsubstantiated head of a noun phrase (95% success), ChatGPT consistently failed (0% success) to identify an unsubstantiated adjectival modifier that Gemini correctly flagged (95% success), raising a question regarding potential influence of the target's syntactic role. For the linguistic analysis task, both models performed well (80-90% success) with full manuscript context. In a summary-only setting, however, ChatGPT achieved a perfect (100%) success rate, while Gemini's performance was substantially degraded. Our findings suggest that structured prompting is a viable methodology for complex textual analysis but show that prompt performance may be highly dependent on the interplay between the model, task type, and context, highlighting the need for rigorous, model-specific testing.
PDF02June 17, 2025