Dokumentenverständnis, -messung und -manipulation unter Verwendung der Kategorientheorie

Zusammenfassung

Wir wenden Kategorientheorie an, um die multimodale Dokumentstruktur zu extrahieren, was uns zur Entwicklung informationstheoretischer Maße, Inhaltszusammenfassung und -erweiterung sowie zur selbstüberwachten Verbesserung großer vortrainierter Modelle führt. Zunächst entwickeln wir eine mathematische Repräsentation eines Dokuments als Kategorie von Frage-Antwort-Paaren. Zweitens entwickeln wir ein Orthogonalisierungsverfahren, um die in einem oder mehreren Dokumenten enthaltenen Informationen in sich nicht überschneidende Bestandteile aufzuteilen. Die im ersten und zweiten Schritt extrahierten Strukturen führen uns zur Entwicklung von Methoden zur Messung und Enumeration der in einem Dokument enthaltenen Informationen. Wir bauen auf diesen Schritten auf, um neue Zusammenfassungstechniken zu entwickeln sowie eine Lösung für ein neues Problem zu erarbeiten, nämlich die Exegese, die zu einer Erweiterung des Originaldokuments führt. Unsere Frage-Antwort-Paar-Methodik ermöglicht eine neuartige Rate-Distortion-Analyse von Zusammenfassungstechniken. Wir implementieren unsere Techniken mit großen vortrainierten Modellen und schlagen eine multimodale Erweiterung unseres gesamten mathematischen Rahmens vor. Schließlich entwickeln wir eine neuartige selbstüberwachte Methode mit RLVR, um große vortrainierte Modelle mithilfe von Konsistenzbedingungen wie Komponierbarkeit und Abgeschlossenheit unter bestimmten Operationen zu verbessern, die sich natürlich aus unserem kategorientheoretischen Rahmen ergeben.

English

We apply category theory to extract multimodal document structure which leads us to develop information theoretic measures, content summarization and extension, and self-supervised improvement of large pretrained models. We first develop a mathematical representation of a document as a category of question-answer pairs. Second, we develop an orthogonalization procedure to divide the information contained in one or more documents into non-overlapping pieces. The structures extracted in the first and second steps lead us to develop methods to measure and enumerate the information contained in a document. We also build on those steps to develop new summarization techniques, as well as to develop a solution to a new problem viz. exegesis resulting in an extension of the original document. Our question-answer pair methodology enables a novel rate distortion analysis of summarization techniques. We implement our techniques using large pretrained models, and we propose a multimodal extension of our overall mathematical framework. Finally, we develop a novel self-supervised method using RLVR to improve large pretrained models using consistency constraints such as composability and closure under certain operations that stem naturally from our category theoretic framework.