Analisi Facilitata dall'IA di Abstract e Conclusioni: Identificazione di Affermazioni Non Sostenute e Pronomi Ambigui
Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns
June 16, 2025
Autori: Evgeny Markhasin
cs.AI
Abstract
Presentiamo e valutiamo una suite di prompt strutturati proof-of-concept (PoC) progettati per elicitare un ragionamento gerarchico simile a quello umano, guidando i Large Language Models (LLMs) nell'analisi semantica e linguistica di alto livello di manoscritti accademici. I prompt sono mirati a due compiti analitici non banali: identificare affermazioni non supportate nei riassunti (integrità informativa) e segnalare riferimenti pronominali ambigui (chiarezza linguistica). Abbiamo condotto una valutazione sistematica e multi-run su due modelli all'avanguardia (Gemini Pro 2.5 Pro e ChatGPT Plus o3) in diverse condizioni di contesto. I nostri risultati per il compito di integrità informativa rivelano una divergenza significativa nelle prestazioni dei modelli: mentre entrambi i modelli hanno identificato correttamente una testa di frase nominale non supportata (95% di successo), ChatGPT ha fallito sistematicamente (0% di successo) nell'identificare un modificatore aggettivale non supportato che Gemini ha invece correttamente segnalato (95% di successo), sollevando una questione riguardante l'influenza potenziale del ruolo sintattico del target. Per il compito di analisi linguistica, entrambi i modelli hanno performato bene (80-90% di successo) con il contesto completo del manoscritto. In un contesto di solo riassunto, tuttavia, ChatGPT ha raggiunto un tasso di successo perfetto (100%), mentre le prestazioni di Gemini sono state sostanzialmente ridotte. I nostri risultati suggeriscono che il prompting strutturato è una metodologia valida per l'analisi testuale complessa, ma mostrano che le prestazioni dei prompt possono dipendere fortemente dall'interazione tra il modello, il tipo di compito e il contesto, evidenziando la necessità di test rigorosi e specifici per modello.
English
We present and evaluate a suite of proof-of-concept (PoC), structured
workflow prompts designed to elicit human-like hierarchical reasoning while
guiding Large Language Models (LLMs) in high-level semantic and linguistic
analysis of scholarly manuscripts. The prompts target two non-trivial
analytical tasks: identifying unsubstantiated claims in summaries
(informational integrity) and flagging ambiguous pronoun references (linguistic
clarity). We conducted a systematic, multi-run evaluation on two frontier
models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context
conditions. Our results for the informational integrity task reveal a
significant divergence in model performance: while both models successfully
identified an unsubstantiated head of a noun phrase (95% success), ChatGPT
consistently failed (0% success) to identify an unsubstantiated adjectival
modifier that Gemini correctly flagged (95% success), raising a question
regarding potential influence of the target's syntactic role. For the
linguistic analysis task, both models performed well (80-90% success) with full
manuscript context. In a summary-only setting, however, ChatGPT achieved a
perfect (100%) success rate, while Gemini's performance was substantially
degraded. Our findings suggest that structured prompting is a viable
methodology for complex textual analysis but show that prompt performance may
be highly dependent on the interplay between the model, task type, and context,
highlighting the need for rigorous, model-specific testing.