sui-1: 接地気で検証可能な長文要約
sui-1: Grounded and Verifiable Long-Form Summarization
January 13, 2026
著者: Benedikt Droste, Jan Philipp Harries, Maximilian Idahl, Björn Plüster
cs.AI
要旨
大規模言語モデルは、しばしば信頼性が低い要約を生成することがあります。これらの要約は一見もっともらしいものの、元のテキストに照らして検証することが困難であり、政府や法務分析などのコンプライアンスが重視される分野では重大な課題となっています。本論文では、24Bパラメータのモデルsui-1を提案します。このモデルは抽象的な要約とともに文中引用を生成し、ユーザーが各主張の根拠を原文のセンテンスまで遡って確認できるようにします。我々の合成データ生成パイプラインは、連鎖的思考プロンプトと多段階検証を組み合わせ、議会文書、ウェブテキスト、Wikipediaなど多様な情報源から5言語にわたり22,000以上の高品質な訓練事例を生成しました。評価の結果、sui-1は3倍以上のパラメータ数を有するモデルを含め、全てのオープンウェイトベースラインモデルを大きく上回る性能を示しました。これらの結果は、引用付き要約タスクにおいては、モデル規模の拡大のみならず、タスク特化型の訓練が極めて有効であることを示唆しています。モデルウェイトおよび対話型デモは公開されています。
English
Large language models frequently generate plausible but unfaithful summaries that users cannot verify against source text, a critical limitation in compliance-sensitive domains such as government and legal analysis. We present sui-1, a 24B parameter model that produces abstractive summaries with inline citations, enabling users to trace each claim to its source sentence. Our synthetic data pipeline combines chain-of-thought prompting with multi-stage verification, generating over 22,000 high-quality training examples across five languages from diverse sources including parliamentary documents, web text, and Wikipedia. Evaluation shows sui-1 significantly outperforms all tested open-weight baselines, including models with 3x more parameters. These results demonstrate that task-specific training substantially outperforms scale alone for citation-grounded summarization. Model weights and an interactive demo are publicly available.