ST-Raptor: LLM-gestütztes Frage-Antwort-System für semi-strukturierte Tabellen

Zusammenfassung

Halbstrukturierte Tabellen, die in realen Anwendungen weit verbreitet sind (z. B. Finanzberichte, medizinische Aufzeichnungen, Transaktionsaufträge), weisen oft flexible und komplexe Layouts auf (z. B. hierarchische Überschriften und zusammengeführte Zellen). Diese Tabellen sind in der Regel darauf angewiesen, dass menschliche Analysten die Tabellenlayouts interpretieren und relevante Fragen in natürlicher Sprache beantworten, was kostspielig und ineffizient ist. Um diesen Prozess zu automatisieren, stehen bestehende Methoden vor erheblichen Herausforderungen. Erstens erfordern Methoden wie NL2SQL die Umwandlung halbstrukturierter Tabellen in strukturierte Tabellen, was oft zu erheblichen Informationsverlusten führt. Zweitens haben Methoden wie NL2Code und multimodales LLM-QA Schwierigkeiten, die komplexen Layouts halbstrukturierter Tabellen zu verstehen, und können entsprechende Fragen nicht präzise beantworten. Daher schlagen wir ST-Raptor vor, ein baumbasiertes Framework für die Beantwortung von Fragen zu halbstrukturierten Tabellen unter Verwendung großer Sprachmodelle. Zunächst führen wir den Hierarchischen Orthogonalen Baum (HO-Tree) ein, ein Strukturmodell, das komplexe Layouts halbstrukturierter Tabellen erfasst, sowie einen effektiven Algorithmus zur Konstruktion des Baums. Zweitens definieren wir eine Reihe grundlegender Baumoperationen, um LLMs bei der Ausführung gängiger QA-Aufgaben zu leiten. Bei einer Benutzerfrage zerlegt ST-Raptor diese in einfachere Teilfragen, generiert entsprechende Baumoperationspipelines und führt eine Operation-Tabellen-Ausrichtung für eine präzise Pipeline-Ausführung durch. Drittens integrieren wir einen zweistufigen Verifizierungsmechanismus: Die Vorwärtsvalidierung überprüft die Korrektheit der Ausführungsschritte, während die Rückwärtsvalidierung die Zuverlässigkeit der Antworten bewertet, indem sie Abfragen aus den vorhergesagten Antworten rekonstruiert. Um die Leistung zu bewerten, stellen wir SSTQA vor, einen Datensatz mit 764 Fragen zu 102 realen halbstrukturierten Tabellen. Experimente zeigen, dass ST-Raptor neun Baseline-Methoden um bis zu 20 % in der Antwortgenauigkeit übertrifft. Der Code ist verfügbar unter https://github.com/weAIDB/ST-Raptor.

English

Semi-structured tables, widely used in real-world applications (e.g., financial reports, medical records, transactional orders), often involve flexible and complex layouts (e.g., hierarchical headers and merged cells). These tables generally rely on human analysts to interpret table layouts and answer relevant natural language questions, which is costly and inefficient. To automate the procedure, existing methods face significant challenges. First, methods like NL2SQL require converting semi-structured tables into structured ones, which often causes substantial information loss. Second, methods like NL2Code and multi-modal LLM QA struggle to understand the complex layouts of semi-structured tables and cannot accurately answer corresponding questions. To this end, we propose ST-Raptor, a tree-based framework for semi-structured table question answering using large language models. First, we introduce the Hierarchical Orthogonal Tree (HO-Tree), a structural model that captures complex semi-structured table layouts, along with an effective algorithm for constructing the tree. Second, we define a set of basic tree operations to guide LLMs in executing common QA tasks. Given a user question, ST-Raptor decomposes it into simpler sub-questions, generates corresponding tree operation pipelines, and conducts operation-table alignment for accurate pipeline execution. Third, we incorporate a two-stage verification mechanism: forward validation checks the correctness of execution steps, while backward validation evaluates answer reliability by reconstructing queries from predicted answers. To benchmark the performance, we present SSTQA, a dataset of 764 questions over 102 real-world semi-structured tables. Experiments show that ST-Raptor outperforms nine baselines by up to 20% in answer accuracy. The code is available at https://github.com/weAIDB/ST-Raptor.