Анализ аннотаций и выводов с использованием ИИ: выявление необоснованных утверждений и неоднозначных местоимений

Аннотация

Мы представляем и оцениваем набор концептуальных (PoC) структурированных рабочих запросов, разработанных для стимулирования иерархического рассуждения, подобного человеческому, при направлении крупных языковых моделей (LLM) на выполнение высокоуровневого семантического и лингвистического анализа научных рукописей. Эти запросы нацелены на две нетривиальные аналитические задачи: выявление необоснованных утверждений в резюме (информационная целостность) и маркировку неоднозначных ссылок на местоимения (лингвистическая ясность). Мы провели систематическую многоэтапную оценку на двух передовых моделях (Gemini Pro 2.5 Pro и ChatGPT Plus o3) в различных контекстных условиях. Наши результаты для задачи информационной целостности выявили значительное расхождение в производительности моделей: хотя обе модели успешно идентифицировали необоснованное ядро именной группы (95% успеха), ChatGPT неизменно терпел неудачу (0% успеха) в выявлении необоснованного адъективного модификатора, который Gemini корректно отметил (95% успеха), что ставит вопрос о потенциальном влиянии синтаксической роли цели. В задаче лингвистического анализа обе модели показали хорошие результаты (80-90% успеха) при наличии полного контекста рукописи. Однако в условиях работы только с резюме ChatGPT достиг идеального результата (100% успеха), в то время как производительность Gemini значительно снизилась. Наши результаты свидетельствуют о том, что структурированные запросы являются жизнеспособной методологией для сложного текстового анализа, но показывают, что эффективность запросов может сильно зависеть от взаимодействия между моделью, типом задачи и контекстом, подчеркивая необходимость тщательного тестирования, специфичного для каждой модели.

English

We present and evaluate a suite of proof-of-concept (PoC), structured workflow prompts designed to elicit human-like hierarchical reasoning while guiding Large Language Models (LLMs) in high-level semantic and linguistic analysis of scholarly manuscripts. The prompts target two non-trivial analytical tasks: identifying unsubstantiated claims in summaries (informational integrity) and flagging ambiguous pronoun references (linguistic clarity). We conducted a systematic, multi-run evaluation on two frontier models (Gemini Pro 2.5 Pro and ChatGPT Plus o3) under varied context conditions. Our results for the informational integrity task reveal a significant divergence in model performance: while both models successfully identified an unsubstantiated head of a noun phrase (95% success), ChatGPT consistently failed (0% success) to identify an unsubstantiated adjectival modifier that Gemini correctly flagged (95% success), raising a question regarding potential influence of the target's syntactic role. For the linguistic analysis task, both models performed well (80-90% success) with full manuscript context. In a summary-only setting, however, ChatGPT achieved a perfect (100%) success rate, while Gemini's performance was substantially degraded. Our findings suggest that structured prompting is a viable methodology for complex textual analysis but show that prompt performance may be highly dependent on the interplay between the model, task type, and context, highlighting the need for rigorous, model-specific testing.

Анализ аннотаций и выводов с использованием ИИ: выявление необоснованных утверждений и неоднозначных местоимений

Ai-Facilitated Analysis of Abstracts and Conclusions: Flagging Unsubstantiated Claims and Ambiguous Pronouns

Аннотация

Support