LLM-Kontextkonditionierung und PWP-Prompting zur multimodalen Validierung chemischer Formeln
LLM Context Conditioning and PWP Prompting for Multimodal Validation of Chemical Formulas
May 18, 2025
Autoren: Evgeny Markhasin
cs.AI
Zusammenfassung
Das Erkennen subtiler technischer Fehler in komplexen wissenschaftlichen und technischen Dokumenten, insbesondere solchen, die eine multimodale Interpretation erfordern (z. B. Formeln in Bildern), stellt eine erhebliche Herausforderung für Large Language Models (LLMs) dar, deren inhärente Fehlerkorrektur-Tendenzen Ungenauigkeiten verschleiern können. Diese explorative Proof-of-Concept (PoC)-Studie untersucht strukturierte LLM-Kontextkonditionierung, basierend auf den Prinzipien des Persistent Workflow Prompting (PWP), als methodische Strategie zur Modulation dieses LLM-Verhaltens während der Inferenz. Der Ansatz zielt darauf ab, die Zuverlässigkeit von allgemein verfügbaren, universellen LLMs (insbesondere Gemini 2.5 Pro und ChatGPT Plus o3) für präzise Validierungsaufgaben zu verbessern, wobei ausschließlich deren Standard-Chat-Oberflächen ohne API-Zugriff oder Modellmodifikationen genutzt werden. Um diese Methodik zu erforschen, konzentrierten wir uns auf die Validierung chemischer Formeln in einem einzigen, komplexen Testdokument mit bekannten textuellen und bildbasierten Fehlern. Mehrere Prompting-Strategien wurden evaluiert: Während einfache Prompts sich als unzuverlässig erwiesen, schien ein Ansatz, der PWP-Strukturen anpasst, um das analytische Denken des LLMs rigoros zu konditionieren, die Identifikation textueller Fehler bei beiden Modellen zu verbessern. Bemerkenswerterweise führte diese Methode auch dazu, dass Gemini 2.5 Pro wiederholt einen subtilen bildbasierten Formelfehler identifizierte, der zuvor bei der manuellen Überprüfung übersehen worden war – eine Aufgabe, bei der ChatGPT Plus o3 in unseren Tests versagte. Diese vorläufigen Ergebnisse beleuchten spezifische LLM-Betriebsmodi, die eine detailorientierte Validierung behindern, und deuten darauf hin, dass PWP-informierte Kontextkonditionierung eine vielversprechende und hochgradig zugängliche Technik zur Entwicklung robusterer LLM-gestützter analytischer Workflows bietet, insbesondere für Aufgaben, die eine sorgfältige Fehlererkennung in wissenschaftlichen und technischen Dokumenten erfordern. Eine umfassende Validierung über diesen begrenzten PoC hinaus ist notwendig, um die breitere Anwendbarkeit zu bestätigen.
English
Identifying subtle technical errors within complex scientific and technical
documents, especially those requiring multimodal interpretation (e.g., formulas
in images), presents a significant hurdle for Large Language Models (LLMs)
whose inherent error-correction tendencies can mask inaccuracies. This
exploratory proof-of-concept (PoC) study investigates structured LLM context
conditioning, informed by Persistent Workflow Prompting (PWP) principles, as a
methodological strategy to modulate this LLM behavior at inference time. The
approach is designed to enhance the reliability of readily available,
general-purpose LLMs (specifically Gemini 2.5 Pro and ChatGPT Plus o3) for
precise validation tasks, crucially relying only on their standard chat
interfaces without API access or model modifications. To explore this
methodology, we focused on validating chemical formulas within a single,
complex test paper with known textual and image-based errors. Several prompting
strategies were evaluated: while basic prompts proved unreliable, an approach
adapting PWP structures to rigorously condition the LLM's analytical mindset
appeared to improve textual error identification with both models. Notably,
this method also guided Gemini 2.5 Pro to repeatedly identify a subtle
image-based formula error previously overlooked during manual review, a task
where ChatGPT Plus o3 failed in our tests. These preliminary findings highlight
specific LLM operational modes that impede detail-oriented validation and
suggest that PWP-informed context conditioning offers a promising and highly
accessible technique for developing more robust LLM-driven analytical
workflows, particularly for tasks requiring meticulous error detection in
scientific and technical documents. Extensive validation beyond this limited
PoC is necessary to ascertain broader applicability.Summary
AI-Generated Summary