KI-gestützte Analyse von Abstracts und Schlussfolgerungen: Kennzeichnung von unbelegten Behauptungen und mehrdeutigen Pronomen

papers.abstract

Wir präsentieren und evaluieren eine Reihe von Proof-of-Concept (PoC)-Workflow-Prompts, die darauf abzielen, menschlich-hierarchisches Denken zu fördern und gleichzeitig Large Language Models (LLMs) bei der semantischen und linguistischen Analyse von wissenschaftlichen Manuskripten auf hohem Niveau zu unterstützen. Die Prompts zielen auf zwei anspruchsvolle analytische Aufgaben ab: die Identifizierung unbelegter Behauptungen in Zusammenfassungen (informationale Integrität) und die Markierung mehrdeutiger Pronomenreferenzen (linguistische Klarheit). Wir führten eine systematische, mehrfache Evaluation an zwei führenden Modellen (Gemini Pro 2.5 Pro und ChatGPT Plus o3) unter variierten Kontextbedingungen durch. Unsere Ergebnisse für die Aufgabe der informationalen Integrität zeigen eine signifikante Diskrepanz in der Modellleistung: Während beide Modelle erfolgreich den unbelegten Kopf einer Nominalphrase identifizierten (95 % Erfolgsrate), scheiterte ChatGPT konsequent (0 % Erfolgsrate) bei der Identifizierung eines unbelegten adjektivischen Modifikators, den Gemini korrekt markierte (95 % Erfolgsrate). Dies wirft die Frage auf, ob die syntaktische Rolle des Ziels einen Einfluss hat. Bei der linguistischen Analyseaufgabe schnitten beide Modelle mit vollständigem Manuskriptkontext gut ab (80–90 % Erfolgsrate). In einer Zusammenfassungs-only-Einstellung erreichte ChatGPT jedoch eine perfekte (100 %) Erfolgsrate, während die Leistung von Gemini erheblich beeinträchtigt war. Unsere Ergebnisse deuten darauf hin, dass strukturierte Prompts eine praktikable Methode für komplexe Textanalysen darstellen, aber auch, dass die Prompt-Leistung stark von der Wechselwirkung zwischen Modell, Aufgabenart und Kontext abhängen kann, was die Notwendigkeit einer rigorosen, modellspezifischen Testung unterstreicht.

English

We present and evaluate a suite of proof-of-concept (PoC), structured workflow prompts designed to elicit human-like hierarchical reasoning while guiding Large Language Models (LLMs) in high-level semantic and linguistic analysis of scholarly manuscripts. The prompts target two non-trivial analytical tasks: identifying unsubstantiated claims in summaries (informational integrity) and flagging ambiguous pronoun references (linguistic clarity). We conducted a systematic, multi-run evaluation on two frontier models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context conditions. Our results for the informational integrity task reveal a significant divergence in model performance: while both models successfully identified an unsubstantiated head of a noun phrase (95% success), ChatGPT consistently failed (0% success) to identify an unsubstantiated adjectival modifier that Gemini correctly flagged (95% success), raising a question regarding potential influence of the target's syntactic role. For the linguistic analysis task, both models performed well (80-90% success) with full manuscript context. In a summary-only setting, however, ChatGPT achieved a perfect (100%) success rate, while Gemini's performance was substantially degraded. Our findings suggest that structured prompting is a viable methodology for complex textual analysis but show that prompt performance may be highly dependent on the interplay between the model, task type, and context, highlighting the need for rigorous, model-specific testing.

KI-gestützte Analyse von Abstracts und Schlussfolgerungen: Kennzeichnung von unbelegten Behauptungen und mehrdeutigen Pronomen

Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns

papers.abstract

Support