ScheMatiQ: 研究課題から対話的スキーマ発見を経た構造化データへ

要旨

多くの学問分野では、大規模な文書コレクションに対して自然言語による研究課題が提起され、その回答には通常、構造化された証拠が必要とされます。これまでは、注釈スキーマを手動で設計し、コーパスに網羅的にラベル付けする方法が一般的でしたが、このプロセスは時間がかかり、誤りが生じやすいものでした。本研究では、ScheMatiQを提案します。ScheMatiQは、基盤となる大規模言語モデル（LLM）を活用し、研究課題とコーパスを入力として、スキーマと根拠に基づくデータベースを生成します。さらに、抽出プロセスを誘導・修正できるウェブインターフェースを備えています。ドメインエキスパートとの共同研究を通じて、ScheMatiQの出力が法学や計算生物学における実世界の分析を支援することを実証しました。ScheMatiQはオープンソースとして公開し、パブリックなウェブインターフェースを提供します。あらゆる分野の専門家が自身のデータを用いて本ツールを利用することを歓迎します。ウェブサイト、ソースコード、デモ動画を含むすべてのリソースは、以下のURLで公開されています：www.ScheMatiQ-ai.com

English

Many disciplines pose natural-language research questions over large document collections whose answers typically require structured evidence, traditionally obtained by manually designing an annotation schema and exhaustively labeling the corpus, a slow and error-prone process. We introduce ScheMatiQ, which leverages calls to a backbone LLM to take a question and a corpus to produce a schema and a grounded database, with a web interface that lets steer and revise the extraction. In collaboration with domain experts, we show that ScheMatiQ yields outputs that support real-world analysis in law and computational biology. We release ScheMatiQ as open source with a public web interface, and invite experts across disciplines to use it with their own data. All resources, including the website, source code, and demonstration video, are available at: www.ScheMatiQ-ai.com

ScheMatiQ: 研究課題から対話的スキーマ発見を経た構造化データへ

ScheMatiQ: From Research Question to Structured Data through Interactive Schema Discovery

要旨

Support