KI-gestützte Analyse von Abstracts und Schlussfolgerungen: Kennzeichnung von unbelegten Behauptungen und mehrdeutigen Pronomen
Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns
June 16, 2025
Autoren: Evgeny Markhasin
cs.AI
Zusammenfassung
Wir präsentieren und evaluieren eine Reihe von Proof-of-Concept (PoC)-Workflow-Prompts, die darauf abzielen, menschlich-hierarchisches Denken zu fördern und gleichzeitig Large Language Models (LLMs) bei der semantischen und linguistischen Analyse von wissenschaftlichen Manuskripten auf hohem Niveau zu unterstützen. Die Prompts zielen auf zwei anspruchsvolle analytische Aufgaben ab: die Identifizierung unbelegter Behauptungen in Zusammenfassungen (informationale Integrität) und die Markierung mehrdeutiger Pronomenreferenzen (linguistische Klarheit). Wir führten eine systematische, mehrfache Evaluation an zwei führenden Modellen (Gemini Pro 2.5 Pro und ChatGPT Plus o3) unter variierten Kontextbedingungen durch. Unsere Ergebnisse für die Aufgabe der informationalen Integrität zeigen eine signifikante Diskrepanz in der Modellleistung: Während beide Modelle erfolgreich den unbelegten Kopf einer Nominalphrase identifizierten (95 % Erfolgsrate), scheiterte ChatGPT konsequent (0 % Erfolgsrate) bei der Identifizierung eines unbelegten adjektivischen Modifikators, den Gemini korrekt markierte (95 % Erfolgsrate). Dies wirft die Frage auf, ob die syntaktische Rolle des Ziels einen Einfluss hat. Bei der linguistischen Analyseaufgabe schnitten beide Modelle mit vollständigem Manuskriptkontext gut ab (80–90 % Erfolgsrate). In einer Zusammenfassungs-only-Einstellung erreichte ChatGPT jedoch eine perfekte (100 %) Erfolgsrate, während die Leistung von Gemini erheblich beeinträchtigt war. Unsere Ergebnisse deuten darauf hin, dass strukturierte Prompts eine praktikable Methode für komplexe Textanalysen darstellen, aber auch, dass die Prompt-Leistung stark von der Wechselwirkung zwischen Modell, Aufgabenart und Kontext abhängen kann, was die Notwendigkeit einer rigorosen, modellspezifischen Testung unterstreicht.
English
We present and evaluate a suite of proof-of-concept (PoC), structured
workflow prompts designed to elicit human-like hierarchical reasoning while
guiding Large Language Models (LLMs) in high-level semantic and linguistic
analysis of scholarly manuscripts. The prompts target two non-trivial
analytical tasks: identifying unsubstantiated claims in summaries
(informational integrity) and flagging ambiguous pronoun references (linguistic
clarity). We conducted a systematic, multi-run evaluation on two frontier
models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context
conditions. Our results for the informational integrity task reveal a
significant divergence in model performance: while both models successfully
identified an unsubstantiated head of a noun phrase (95% success), ChatGPT
consistently failed (0% success) to identify an unsubstantiated adjectival
modifier that Gemini correctly flagged (95% success), raising a question
regarding potential influence of the target's syntactic role. For the
linguistic analysis task, both models performed well (80-90% success) with full
manuscript context. In a summary-only setting, however, ChatGPT achieved a
perfect (100%) success rate, while Gemini's performance was substantially
degraded. Our findings suggest that structured prompting is a viable
methodology for complex textual analysis but show that prompt performance may
be highly dependent on the interplay between the model, task type, and context,
highlighting the need for rigorous, model-specific testing.