Análisis Facilitado por IA de Resúmenes y Conclusiones: Identificación de Afirmaciones No Sustentadas y Pronombres Ambiguos
Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns
June 16, 2025
Autores: Evgeny Markhasin
cs.AI
Resumen
Presentamos y evaluamos un conjunto de indicaciones estructuradas de flujo de trabajo como prueba de concepto (PoC), diseñadas para elicitar un razonamiento jerárquico similar al humano mientras guían a los Modelos de Lenguaje de Gran Escala (LLMs) en el análisis semántico y lingüístico de alto nivel de manuscritos académicos. Las indicaciones se enfocan en dos tareas analíticas no triviales: identificar afirmaciones no sustentadas en resúmenes (integridad informativa) y señalar referencias pronominales ambiguas (claridad lingüística). Realizamos una evaluación sistemática y múltiple en dos modelos de vanguardia (Gemini Pro 2.5 Pro y ChatGPT Plus o3) bajo diversas condiciones de contexto. Nuestros resultados para la tarea de integridad informativa revelan una divergencia significativa en el rendimiento de los modelos: mientras ambos identificaron correctamente un núcleo no sustentado de una frase nominal (95% de éxito), ChatGPT falló consistentemente (0% de éxito) en identificar un modificador adjetival no sustentado que Gemini señaló correctamente (95% de éxito), lo que plantea una pregunta sobre la posible influencia del rol sintáctico del objetivo. Para la tarea de análisis lingüístico, ambos modelos se desempeñaron bien (80-90% de éxito) con el contexto completo del manuscrito. Sin embargo, en un escenario de solo resumen, ChatGPT logró una tasa de éxito perfecta (100%), mientras que el rendimiento de Gemini se vio sustancialmente degradado. Nuestros hallazgos sugieren que las indicaciones estructuradas son una metodología viable para el análisis textual complejo, pero muestran que el rendimiento de las indicaciones puede depender en gran medida de la interacción entre el modelo, el tipo de tarea y el contexto, destacando la necesidad de pruebas rigurosas y específicas para cada modelo.
English
We present and evaluate a suite of proof-of-concept (PoC), structured
workflow prompts designed to elicit human-like hierarchical reasoning while
guiding Large Language Models (LLMs) in high-level semantic and linguistic
analysis of scholarly manuscripts. The prompts target two non-trivial
analytical tasks: identifying unsubstantiated claims in summaries
(informational integrity) and flagging ambiguous pronoun references (linguistic
clarity). We conducted a systematic, multi-run evaluation on two frontier
models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context
conditions. Our results for the informational integrity task reveal a
significant divergence in model performance: while both models successfully
identified an unsubstantiated head of a noun phrase (95% success), ChatGPT
consistently failed (0% success) to identify an unsubstantiated adjectival
modifier that Gemini correctly flagged (95% success), raising a question
regarding potential influence of the target's syntactic role. For the
linguistic analysis task, both models performed well (80-90% success) with full
manuscript context. In a summary-only setting, however, ChatGPT achieved a
perfect (100%) success rate, while Gemini's performance was substantially
degraded. Our findings suggest that structured prompting is a viable
methodology for complex textual analysis but show that prompt performance may
be highly dependent on the interplay between the model, task type, and context,
highlighting the need for rigorous, model-specific testing.