LLM Contextconditionering en PWP Prompting voor Multimodale Validatie van Chemische Formules
LLM Context Conditioning and PWP Prompting for Multimodal Validation of Chemical Formulas
May 18, 2025
Auteurs: Evgeny Markhasin
cs.AI
Samenvatting
Het identificeren van subtiele technische fouten binnen complexe wetenschappelijke en technische documenten, met name die welke multimodale interpretatie vereisen (bijvoorbeeld formules in afbeeldingen), vormt een aanzienlijke uitdaging voor Large Language Models (LLMs), waarvan de inherente neiging tot foutcorrectie onnauwkeurigheden kan verhullen. Deze verkennende proof-of-concept (PoC)-studie onderzoekt gestructureerde LLM-contextconditionering, geïnformeerd door de principes van Persistent Workflow Prompting (PWP), als een methodologische strategie om dit LLM-gedrag tijdens inferentie te moduleren. De aanpak is ontworpen om de betrouwbaarheid van algemeen beschikbare, algemene LLMs (specifiek Gemini 2.5 Pro en ChatGPT Plus o3) te verbeteren voor precieze validatietaken, waarbij cruciaal alleen gebruik wordt gemaakt van hun standaard chatinterfaces zonder API-toegang of modelaanpassingen. Om deze methodologie te verkennen, richtten we ons op het valideren van chemische formules binnen een enkel, complex testdocument met bekende tekstuele en op afbeeldingen gebaseerde fouten. Verschillende promptstrategieën werden geëvalueerd: terwijl basisprompts onbetrouwbaar bleken, leek een aanpak die PWP-structuren aanpaste om de analytische mindset van de LLM rigoureus te conditioneren, de identificatie van tekstuele fouten bij beide modellen te verbeteren. Opmerkelijk was dat deze methode Gemini 2.5 Pro ook leidde tot het herhaaldelijk identificeren van een subtiele, op afbeeldingen gebaseerde formulefout die eerder tijdens handmatige controle over het hoofd was gezien, een taak waarbij ChatGPT Plus o3 in onze tests faalde. Deze voorlopige bevindingen belichten specifieke LLM-operationele modi die detailgerichte validatie belemmeren en suggereren dat PWP-geïnformeerde contextconditionering een veelbelovende en zeer toegankelijke techniek biedt voor het ontwikkelen van robuustere LLM-gedreven analytische workflows, met name voor taken die nauwgezette foutdetectie in wetenschappelijke en technische documenten vereisen. Uitgebreide validatie buiten deze beperkte PoC is noodzakelijk om de bredere toepasbaarheid vast te stellen.
English
Identifying subtle technical errors within complex scientific and technical
documents, especially those requiring multimodal interpretation (e.g., formulas
in images), presents a significant hurdle for Large Language Models (LLMs)
whose inherent error-correction tendencies can mask inaccuracies. This
exploratory proof-of-concept (PoC) study investigates structured LLM context
conditioning, informed by Persistent Workflow Prompting (PWP) principles, as a
methodological strategy to modulate this LLM behavior at inference time. The
approach is designed to enhance the reliability of readily available,
general-purpose LLMs (specifically Gemini 2.5 Pro and ChatGPT Plus o3) for
precise validation tasks, crucially relying only on their standard chat
interfaces without API access or model modifications. To explore this
methodology, we focused on validating chemical formulas within a single,
complex test paper with known textual and image-based errors. Several prompting
strategies were evaluated: while basic prompts proved unreliable, an approach
adapting PWP structures to rigorously condition the LLM's analytical mindset
appeared to improve textual error identification with both models. Notably,
this method also guided Gemini 2.5 Pro to repeatedly identify a subtle
image-based formula error previously overlooked during manual review, a task
where ChatGPT Plus o3 failed in our tests. These preliminary findings highlight
specific LLM operational modes that impede detail-oriented validation and
suggest that PWP-informed context conditioning offers a promising and highly
accessible technique for developing more robust LLM-driven analytical
workflows, particularly for tasks requiring meticulous error detection in
scientific and technical documents. Extensive validation beyond this limited
PoC is necessary to ascertain broader applicability.Summary
AI-Generated Summary