Condizionamento del Contesto LLM e Prompting PWP per la Validazione Multimodale di Formule Chimiche
LLM Context Conditioning and PWP Prompting for Multimodal Validation of Chemical Formulas
May 18, 2025
Autori: Evgeny Markhasin
cs.AI
Abstract
Identificare errori tecnici sottili all'interno di documenti scientifici e tecnici complessi, in particolare quelli che richiedono un'interpretazione multimodale (ad esempio, formule in immagini), rappresenta una sfida significativa per i Large Language Models (LLM), le cui tendenze intrinseche alla correzione degli errori possono mascherare inesattezze. Questo studio esplorativo proof-of-concept (PoC) indaga il condizionamento strutturato del contesto degli LLM, basato sui principi del Persistent Workflow Prompting (PWP), come strategia metodologica per modulare questo comportamento degli LLM al momento dell'inferenza. L'approccio è progettato per migliorare l'affidabilità di LLM generici e facilmente accessibili (in particolare Gemini 2.5 Pro e ChatGPT Plus o3) per compiti di validazione precisi, basandosi esclusivamente sulle loro interfacce chat standard senza accesso alle API o modifiche al modello. Per esplorare questa metodologia, ci siamo concentrati sulla validazione di formule chimiche all'interno di un singolo documento di test complesso contenente errori noti sia testuali che basati su immagini. Sono state valutate diverse strategie di prompting: mentre i prompt di base si sono rivelati inaffidabili, un approccio che adatta le strutture PWP per condizionare rigorosamente la mentalità analitica dell'LLM sembra migliorare l'identificazione degli errori testuali con entrambi i modelli. In particolare, questo metodo ha anche guidato Gemini 2.5 Pro a identificare ripetutamente un errore sottile in una formula basata su immagini precedentemente trascurato durante la revisione manuale, un compito in cui ChatGPT Plus o3 ha fallito nei nostri test. Questi risultati preliminari evidenziano modalità operative specifiche degli LLM che ostacolano la validazione orientata ai dettagli e suggeriscono che il condizionamento del contesto informato dal PWP offre una tecnica promettente e altamente accessibile per sviluppare flussi di lavoro analitici guidati da LLM più robusti, in particolare per compiti che richiedono un rilevamento meticoloso degli errori in documenti scientifici e tecnici. È necessaria una validazione estesa oltre questo PoC limitato per accertarne l'applicabilità più ampia.
English
Identifying subtle technical errors within complex scientific and technical
documents, especially those requiring multimodal interpretation (e.g., formulas
in images), presents a significant hurdle for Large Language Models (LLMs)
whose inherent error-correction tendencies can mask inaccuracies. This
exploratory proof-of-concept (PoC) study investigates structured LLM context
conditioning, informed by Persistent Workflow Prompting (PWP) principles, as a
methodological strategy to modulate this LLM behavior at inference time. The
approach is designed to enhance the reliability of readily available,
general-purpose LLMs (specifically Gemini 2.5 Pro and ChatGPT Plus o3) for
precise validation tasks, crucially relying only on their standard chat
interfaces without API access or model modifications. To explore this
methodology, we focused on validating chemical formulas within a single,
complex test paper with known textual and image-based errors. Several prompting
strategies were evaluated: while basic prompts proved unreliable, an approach
adapting PWP structures to rigorously condition the LLM's analytical mindset
appeared to improve textual error identification with both models. Notably,
this method also guided Gemini 2.5 Pro to repeatedly identify a subtle
image-based formula error previously overlooked during manual review, a task
where ChatGPT Plus o3 failed in our tests. These preliminary findings highlight
specific LLM operational modes that impede detail-oriented validation and
suggest that PWP-informed context conditioning offers a promising and highly
accessible technique for developing more robust LLM-driven analytical
workflows, particularly for tasks requiring meticulous error detection in
scientific and technical documents. Extensive validation beyond this limited
PoC is necessary to ascertain broader applicability.