Dokumentenverständnis, -messung und -manipulation unter Verwendung der Kategorientheorie
Document Understanding, Measurement, and Manipulation Using Category Theory
October 24, 2025
papers.authors: Jared Claypoole, Yunye Gong, Noson S. Yanofsky, Ajay Divakaran
cs.AI
papers.abstract
Wir wenden Kategorientheorie an, um die multimodale Dokumentstruktur zu extrahieren, was uns zur Entwicklung informationstheoretischer Maße, Inhaltszusammenfassung und -erweiterung sowie zur selbstüberwachten Verbesserung großer vortrainierter Modelle führt. Zunächst entwickeln wir eine mathematische Repräsentation eines Dokuments als Kategorie von Frage-Antwort-Paaren. Zweitens entwickeln wir ein Orthogonalisierungsverfahren, um die in einem oder mehreren Dokumenten enthaltenen Informationen in sich nicht überschneidende Bestandteile aufzuteilen. Die im ersten und zweiten Schritt extrahierten Strukturen führen uns zur Entwicklung von Methoden zur Messung und Enumeration der in einem Dokument enthaltenen Informationen. Wir bauen auf diesen Schritten auf, um neue Zusammenfassungstechniken zu entwickeln sowie eine Lösung für ein neues Problem zu erarbeiten, nämlich die Exegese, die zu einer Erweiterung des Originaldokuments führt. Unsere Frage-Antwort-Paar-Methodik ermöglicht eine neuartige Rate-Distortion-Analyse von Zusammenfassungstechniken. Wir implementieren unsere Techniken mit großen vortrainierten Modellen und schlagen eine multimodale Erweiterung unseres gesamten mathematischen Rahmens vor. Schließlich entwickeln wir eine neuartige selbstüberwachte Methode mit RLVR, um große vortrainierte Modelle mithilfe von Konsistenzbedingungen wie Komponierbarkeit und Abgeschlossenheit unter bestimmten Operationen zu verbessern, die sich natürlich aus unserem kategorientheoretischen Rahmen ergeben.
English
We apply category theory to extract multimodal document structure which leads
us to develop information theoretic measures, content summarization and
extension, and self-supervised improvement of large pretrained models. We first
develop a mathematical representation of a document as a category of
question-answer pairs. Second, we develop an orthogonalization procedure to
divide the information contained in one or more documents into non-overlapping
pieces. The structures extracted in the first and second steps lead us to
develop methods to measure and enumerate the information contained in a
document. We also build on those steps to develop new summarization techniques,
as well as to develop a solution to a new problem viz. exegesis resulting in an
extension of the original document. Our question-answer pair methodology
enables a novel rate distortion analysis of summarization techniques. We
implement our techniques using large pretrained models, and we propose a
multimodal extension of our overall mathematical framework. Finally, we develop
a novel self-supervised method using RLVR to improve large pretrained models
using consistency constraints such as composability and closure under certain
operations that stem naturally from our category theoretic framework.