ChatPaper.aiChatPaper

Analyse assistée par l'IA des résumés et conclusions : Détection des affirmations non étayées et des pronoms ambigus

Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns

June 16, 2025
Auteurs: Evgeny Markhasin
cs.AI

Résumé

Nous présentons et évaluons une suite de prompts structurés de type « preuve de concept » (PoC), conçus pour susciter un raisonnement hiérarchique similaire à celui des humains tout en guidant les modèles de langage de grande taille (LLMs) dans l'analyse sémantique et linguistique de haut niveau de manuscrits académiques. Ces prompts ciblent deux tâches analytiques non triviales : l'identification de claims non étayés dans les résumés (intégrité informationnelle) et le repérage de références pronominales ambiguës (clarté linguistique). Nous avons mené une évaluation systématique et multi-essais sur deux modèles de pointe (Gemini Pro 2.5 Pro et ChatGPT Plus o3) dans des conditions de contexte variées. Nos résultats pour la tâche d'intégrité informationnelle révèlent une divergence significative dans les performances des modèles : bien que les deux modèles aient réussi à identifier une tête de syntagme nominal non étayée (95 % de réussite), ChatGPT a systématiquement échoué (0 % de réussite) à identifier un modificateur adjectival non étayé que Gemini a correctement repéré (95 % de réussite), soulevant une question concernant l'influence potentielle du rôle syntaxique de la cible. Pour la tâche d'analyse linguistique, les deux modèles ont bien performé (80-90 % de réussite) avec un contexte complet du manuscrit. Cependant, dans un contexte limité au résumé, ChatGPT a atteint un taux de réussite parfait (100 %), tandis que les performances de Gemini se sont considérablement dégradées. Nos résultats suggèrent que l'utilisation de prompts structurés est une méthodologie viable pour l'analyse textuelle complexe, mais montrent que la performance des prompts peut fortement dépendre de l'interaction entre le modèle, le type de tâche et le contexte, soulignant la nécessité de tests rigoureux et spécifiques à chaque modèle.
English
We present and evaluate a suite of proof-of-concept (PoC), structured workflow prompts designed to elicit human-like hierarchical reasoning while guiding Large Language Models (LLMs) in high-level semantic and linguistic analysis of scholarly manuscripts. The prompts target two non-trivial analytical tasks: identifying unsubstantiated claims in summaries (informational integrity) and flagging ambiguous pronoun references (linguistic clarity). We conducted a systematic, multi-run evaluation on two frontier models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context conditions. Our results for the informational integrity task reveal a significant divergence in model performance: while both models successfully identified an unsubstantiated head of a noun phrase (95% success), ChatGPT consistently failed (0% success) to identify an unsubstantiated adjectival modifier that Gemini correctly flagged (95% success), raising a question regarding potential influence of the target's syntactic role. For the linguistic analysis task, both models performed well (80-90% success) with full manuscript context. In a summary-only setting, however, ChatGPT achieved a perfect (100%) success rate, while Gemini's performance was substantially degraded. Our findings suggest that structured prompting is a viable methodology for complex textual analysis but show that prompt performance may be highly dependent on the interplay between the model, task type, and context, highlighting the need for rigorous, model-specific testing.
PDF02June 17, 2025