ChatPaper.aiChatPaper

AI-gestuurde analyse van samenvattingen en conclusies: Signalering van ongefundeerde beweringen en dubbelzinnige voornaamwoorden

Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns

June 16, 2025
Auteurs: Evgeny Markhasin
cs.AI

Samenvatting

We presenteren en evalueren een reeks proof-of-concept (PoC), gestructureerde workflow-prompts die zijn ontworpen om mensachtige hiërarchische redenering te stimuleren en tegelijkertijd Large Language Models (LLMs) te begeleiden bij hoogwaardige semantische en linguïstische analyse van wetenschappelijke manuscripten. De prompts richten zich op twee niet-triviale analytische taken: het identificeren van ongefundeerde beweringen in samenvattingen (informatie-integriteit) en het markeren van ambigue voornaamwoordverwijzingen (linguïstische duidelijkheid). We hebben een systematische, multi-run evaluatie uitgevoerd op twee voorhoedemodellen (Gemini Pro 2.5 Pro en ChatGPT Plus o3) onder verschillende contextomstandigheden. Onze resultaten voor de taak van informatie-integriteit laten een significante divergentie in modelprestaties zien: terwijl beide modellen succesvol een ongefundeerde kern van een naamwoordgroep identificeerden (95% succes), faalde ChatGPT consistent (0% succes) in het identificeren van een ongefundeerde bijvoeglijke bepaling die Gemini correct markeerde (95% succes), wat een vraag oproept over de mogelijke invloed van de syntactische rol van het doelwit. Voor de linguïstische analyse taak presteerden beide modellen goed (80-90% succes) met volledige manuscriptcontext. In een instelling met alleen samenvattingen behaalde ChatGPT echter een perfect (100%) slagingspercentage, terwijl de prestaties van Gemini aanzienlijk verslechterden. Onze bevindingen suggereren dat gestructureerd prompten een haalbare methodologie is voor complexe tekstuele analyse, maar tonen ook aan dat de promptprestaties sterk afhankelijk kunnen zijn van de interactie tussen het model, taaktype en context, wat de noodzaak benadrukt van rigoureuze, modelspecifieke tests.
English
We present and evaluate a suite of proof-of-concept (PoC), structured workflow prompts designed to elicit human-like hierarchical reasoning while guiding Large Language Models (LLMs) in high-level semantic and linguistic analysis of scholarly manuscripts. The prompts target two non-trivial analytical tasks: identifying unsubstantiated claims in summaries (informational integrity) and flagging ambiguous pronoun references (linguistic clarity). We conducted a systematic, multi-run evaluation on two frontier models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context conditions. Our results for the informational integrity task reveal a significant divergence in model performance: while both models successfully identified an unsubstantiated head of a noun phrase (95% success), ChatGPT consistently failed (0% success) to identify an unsubstantiated adjectival modifier that Gemini correctly flagged (95% success), raising a question regarding potential influence of the target's syntactic role. For the linguistic analysis task, both models performed well (80-90% success) with full manuscript context. In a summary-only setting, however, ChatGPT achieved a perfect (100%) success rate, while Gemini's performance was substantially degraded. Our findings suggest that structured prompting is a viable methodology for complex textual analysis but show that prompt performance may be highly dependent on the interplay between the model, task type, and context, highlighting the need for rigorous, model-specific testing.
PDF12June 17, 2025