ChatPaper.aiChatPaper

Кондиционирование контекста LLM и PWP-подсказки для мультимодальной валидации химических формул

LLM Context Conditioning and PWP Prompting for Multimodal Validation of Chemical Formulas

May 18, 2025
Авторы: Evgeny Markhasin
cs.AI

Аннотация

Выявление тонких технических ошибок в сложных научных и технических документах, особенно тех, которые требуют мультимодальной интерпретации (например, формул в изображениях), представляет собой значительную проблему для больших языковых моделей (LLM), чьи внутренние склонности к исправлению ошибок могут маскировать неточности. Данное исследование, являющееся предварительным доказательством концепции (PoC), изучает структурированное контекстное обусловливание LLM, основанное на принципах Persistent Workflow Prompting (PWP), как методологическую стратегию для модуляции поведения LLM на этапе вывода. Этот подход направлен на повышение надежности общедоступных универсальных LLM (в частности, Gemini 2.5 Pro и ChatGPT Plus o3) для задач точной проверки, критически полагаясь только на их стандартные интерфейсы чата без доступа к API или модификаций модели. Для изучения этой методологии мы сосредоточились на проверке химических формул в одном сложном тестовом документе с известными текстовыми и графическими ошибками. Были оценены несколько стратегий запросов: хотя базовые запросы оказались ненадежными, подход, адаптирующий структуры PWP для строгого обусловливания аналитического мышления LLM, показал улучшение в выявлении текстовых ошибок для обеих моделей. Примечательно, что этот метод также позволил Gemini 2.5 Pro неоднократно выявлять тонкую ошибку в формуле на изображении, ранее упущенную при ручной проверке, — задачу, с которой ChatGPT Plus o3 в наших тестах не справился. Эти предварительные результаты подчеркивают специфические режимы работы LLM, которые препятствуют детализированной проверке, и предполагают, что контекстное обусловливание, основанное на PWP, предлагает многообещающий и высокодоступный метод для разработки более надежных аналитических процессов, управляемых LLM, особенно для задач, требующих тщательного выявления ошибок в научных и технических документах. Для подтверждения более широкой применимости необходима обширная проверка за пределами данного ограниченного PoC.
English
Identifying subtle technical errors within complex scientific and technical documents, especially those requiring multimodal interpretation (e.g., formulas in images), presents a significant hurdle for Large Language Models (LLMs) whose inherent error-correction tendencies can mask inaccuracies. This exploratory proof-of-concept (PoC) study investigates structured LLM context conditioning, informed by Persistent Workflow Prompting (PWP) principles, as a methodological strategy to modulate this LLM behavior at inference time. The approach is designed to enhance the reliability of readily available, general-purpose LLMs (specifically Gemini 2.5 Pro and ChatGPT Plus o3) for precise validation tasks, crucially relying only on their standard chat interfaces without API access or model modifications. To explore this methodology, we focused on validating chemical formulas within a single, complex test paper with known textual and image-based errors. Several prompting strategies were evaluated: while basic prompts proved unreliable, an approach adapting PWP structures to rigorously condition the LLM's analytical mindset appeared to improve textual error identification with both models. Notably, this method also guided Gemini 2.5 Pro to repeatedly identify a subtle image-based formula error previously overlooked during manual review, a task where ChatGPT Plus o3 failed in our tests. These preliminary findings highlight specific LLM operational modes that impede detail-oriented validation and suggest that PWP-informed context conditioning offers a promising and highly accessible technique for developing more robust LLM-driven analytical workflows, particularly for tasks requiring meticulous error detection in scientific and technical documents. Extensive validation beyond this limited PoC is necessary to ascertain broader applicability.

Summary

AI-Generated Summary

PDF12May 20, 2025