Análise Facilitada por IA de Resumos e Conclusões: Identificação de Afirmações Não Fundamentadas e Pronomes Ambíguos

Resumo

Apresentamos e avaliamos um conjunto de prompts estruturados de fluxo de trabalho como prova de conceito (PoC), projetados para eliciar raciocínio hierárquico semelhante ao humano enquanto orientam Modelos de Linguagem de Grande Escala (LLMs) na análise semântica e linguística de alto nível de manuscritos acadêmicos. Os prompts visam duas tarefas analíticas não triviais: identificar afirmações não fundamentadas em resumos (integridade informacional) e sinalizar referências pronominais ambíguas (clareza linguística). Realizamos uma avaliação sistemática e multirodada em dois modelos de ponta (Gemini Pro 2.5 Pro e ChatGPT Plus o3) sob diversas condições de contexto. Nossos resultados para a tarefa de integridade informacional revelam uma divergência significativa no desempenho dos modelos: enquanto ambos os modelos identificaram com sucesso um núcleo não substantivado de uma frase nominal (95% de sucesso), o ChatGPT consistentemente falhou (0% de sucesso) em identificar um modificador adjetival não substantivado que o Gemini sinalizou corretamente (95% de sucesso), levantando uma questão sobre a potencial influência do papel sintático do alvo. Para a tarefa de análise linguística, ambos os modelos se saíram bem (80-90% de sucesso) com o contexto completo do manuscrito. No entanto, em um cenário de apenas resumo, o ChatGPT alcançou uma taxa de sucesso perfeita (100%), enquanto o desempenho do Gemini foi substancialmente degradado. Nossas descobertas sugerem que o prompting estruturado é uma metodologia viável para análise textual complexa, mas mostram que o desempenho do prompt pode ser altamente dependente da interação entre o modelo, o tipo de tarefa e o contexto, destacando a necessidade de testes rigorosos e específicos para cada modelo.

English

We present and evaluate a suite of proof-of-concept (PoC), structured workflow prompts designed to elicit human-like hierarchical reasoning while guiding Large Language Models (LLMs) in high-level semantic and linguistic analysis of scholarly manuscripts. The prompts target two non-trivial analytical tasks: identifying unsubstantiated claims in summaries (informational integrity) and flagging ambiguous pronoun references (linguistic clarity). We conducted a systematic, multi-run evaluation on two frontier models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context conditions. Our results for the informational integrity task reveal a significant divergence in model performance: while both models successfully identified an unsubstantiated head of a noun phrase (95% success), ChatGPT consistently failed (0% success) to identify an unsubstantiated adjectival modifier that Gemini correctly flagged (95% success), raising a question regarding potential influence of the target's syntactic role. For the linguistic analysis task, both models performed well (80-90% success) with full manuscript context. In a summary-only setting, however, ChatGPT achieved a perfect (100%) success rate, while Gemini's performance was substantially degraded. Our findings suggest that structured prompting is a viable methodology for complex textual analysis but show that prompt performance may be highly dependent on the interplay between the model, task type, and context, highlighting the need for rigorous, model-specific testing.

Análise Facilitada por IA de Resumos e Conclusões: Identificação de Afirmações Não Fundamentadas e Pronomes Ambíguos

Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns

Resumo

Support