Condicionamento de Contexto em LLM e Prompting PWP para Validação Multimodal de Fórmulas Químicas
LLM Context Conditioning and PWP Prompting for Multimodal Validation of Chemical Formulas
May 18, 2025
Autores: Evgeny Markhasin
cs.AI
Resumo
Identificar erros técnicos sutis em documentos científicos e técnicos complexos, especialmente aqueles que exigem interpretação multimodal (por exemplo, fórmulas em imagens), representa um desafio significativo para os Modelos de Linguagem de Grande Escala (LLMs), cujas tendências inerentes de correção de erros podem mascarar imprecisões. Este estudo exploratório de prova de conceito (PoC) investiga o condicionamento estruturado de contexto em LLMs, baseado nos princípios do Persistent Workflow Prompting (PWP), como uma estratégia metodológica para modular esse comportamento dos LLMs durante a inferência. A abordagem foi projetada para aumentar a confiabilidade de LLMs de propósito geral amplamente disponíveis (especificamente o Gemini 2.5 Pro e o ChatGPT Plus o3) em tarefas de validação precisas, dependendo crucialmente apenas de suas interfaces de chat padrão, sem acesso a APIs ou modificações no modelo. Para explorar essa metodologia, focamos na validação de fórmulas químicas em um único artigo de teste complexo com erros conhecidos em texto e imagens. Várias estratégias de prompt foram avaliadas: enquanto prompts básicos se mostraram pouco confiáveis, uma abordagem adaptando estruturas PWP para condicionar rigorosamente a mentalidade analítica do LLM pareceu melhorar a identificação de erros textuais em ambos os modelos. Notavelmente, esse método também guiou o Gemini 2.5 Pro a identificar repetidamente um erro sutil em uma fórmula baseada em imagem que havia sido previamente ignorado durante a revisão manual, uma tarefa em que o ChatGPT Plus o3 falhou em nossos testes. Esses achados preliminares destacam modos operacionais específicos dos LLMs que dificultam a validação orientada a detalhes e sugerem que o condicionamento de contexto informado pelo PWP oferece uma técnica promissora e altamente acessível para desenvolver fluxos de trabalho analíticos mais robustos impulsionados por LLMs, particularmente para tarefas que exigem detecção meticulosa de erros em documentos científicos e técnicos. Uma validação extensa além deste PoC limitado é necessária para confirmar a aplicabilidade mais ampla.
English
Identifying subtle technical errors within complex scientific and technical
documents, especially those requiring multimodal interpretation (e.g., formulas
in images), presents a significant hurdle for Large Language Models (LLMs)
whose inherent error-correction tendencies can mask inaccuracies. This
exploratory proof-of-concept (PoC) study investigates structured LLM context
conditioning, informed by Persistent Workflow Prompting (PWP) principles, as a
methodological strategy to modulate this LLM behavior at inference time. The
approach is designed to enhance the reliability of readily available,
general-purpose LLMs (specifically Gemini 2.5 Pro and ChatGPT Plus o3) for
precise validation tasks, crucially relying only on their standard chat
interfaces without API access or model modifications. To explore this
methodology, we focused on validating chemical formulas within a single,
complex test paper with known textual and image-based errors. Several prompting
strategies were evaluated: while basic prompts proved unreliable, an approach
adapting PWP structures to rigorously condition the LLM's analytical mindset
appeared to improve textual error identification with both models. Notably,
this method also guided Gemini 2.5 Pro to repeatedly identify a subtle
image-based formula error previously overlooked during manual review, a task
where ChatGPT Plus o3 failed in our tests. These preliminary findings highlight
specific LLM operational modes that impede detail-oriented validation and
suggest that PWP-informed context conditioning offers a promising and highly
accessible technique for developing more robust LLM-driven analytical
workflows, particularly for tasks requiring meticulous error detection in
scientific and technical documents. Extensive validation beyond this limited
PoC is necessary to ascertain broader applicability.