Análisis Facilitado por IA de Resúmenes y Conclusiones: Identificación de Afirmaciones No Sustentadas y Pronombres Ambiguos

Resumen

Presentamos y evaluamos un conjunto de indicaciones estructuradas de flujo de trabajo como prueba de concepto (PoC), diseñadas para elicitar un razonamiento jerárquico similar al humano mientras guían a los Modelos de Lenguaje de Gran Escala (LLMs) en el análisis semántico y lingüístico de alto nivel de manuscritos académicos. Las indicaciones se enfocan en dos tareas analíticas no triviales: identificar afirmaciones no sustentadas en resúmenes (integridad informativa) y señalar referencias pronominales ambiguas (claridad lingüística). Realizamos una evaluación sistemática y múltiple en dos modelos de vanguardia (Gemini Pro 2.5 Pro y ChatGPT Plus o3) bajo diversas condiciones de contexto. Nuestros resultados para la tarea de integridad informativa revelan una divergencia significativa en el rendimiento de los modelos: mientras ambos identificaron correctamente un núcleo no sustentado de una frase nominal (95% de éxito), ChatGPT falló consistentemente (0% de éxito) en identificar un modificador adjetival no sustentado que Gemini señaló correctamente (95% de éxito), lo que plantea una pregunta sobre la posible influencia del rol sintáctico del objetivo. Para la tarea de análisis lingüístico, ambos modelos se desempeñaron bien (80-90% de éxito) con el contexto completo del manuscrito. Sin embargo, en un escenario de solo resumen, ChatGPT logró una tasa de éxito perfecta (100%), mientras que el rendimiento de Gemini se vio sustancialmente degradado. Nuestros hallazgos sugieren que las indicaciones estructuradas son una metodología viable para el análisis textual complejo, pero muestran que el rendimiento de las indicaciones puede depender en gran medida de la interacción entre el modelo, el tipo de tarea y el contexto, destacando la necesidad de pruebas rigurosas y específicas para cada modelo.

English

We present and evaluate a suite of proof-of-concept (PoC), structured workflow prompts designed to elicit human-like hierarchical reasoning while guiding Large Language Models (LLMs) in high-level semantic and linguistic analysis of scholarly manuscripts. The prompts target two non-trivial analytical tasks: identifying unsubstantiated claims in summaries (informational integrity) and flagging ambiguous pronoun references (linguistic clarity). We conducted a systematic, multi-run evaluation on two frontier models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context conditions. Our results for the informational integrity task reveal a significant divergence in model performance: while both models successfully identified an unsubstantiated head of a noun phrase (95% success), ChatGPT consistently failed (0% success) to identify an unsubstantiated adjectival modifier that Gemini correctly flagged (95% success), raising a question regarding potential influence of the target's syntactic role. For the linguistic analysis task, both models performed well (80-90% success) with full manuscript context. In a summary-only setting, however, ChatGPT achieved a perfect (100%) success rate, while Gemini's performance was substantially degraded. Our findings suggest that structured prompting is a viable methodology for complex textual analysis but show that prompt performance may be highly dependent on the interplay between the model, task type, and context, highlighting the need for rigorous, model-specific testing.

Análisis Facilitado por IA de Resúmenes y Conclusiones: Identificación de Afirmaciones No Sustentadas y Pronombres Ambiguos

Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns

Resumen

Support