ChatPaper.aiChatPaper

LLMと誘導された小型プロキシの物語:知識マイニングのためのスケーラブルなエージェント

A Tale of LLMs and Induced Small Proxies: Scalable Agents for Knowledge Mining

October 1, 2025
著者: Sipeng Zhang, Longfei Yun, Zilong Wang, Jingbo Shang, Letian Peng
cs.AI

要旨

ディープリサーチの中核にあるのは、ユーザーの指示に応じて大規模な非構造化テキストから構造化情報を抽出する知識マイニングのタスクです。大規模言語モデル(LLM)はこのような指示の解釈に優れていますが、大規模展開にはコストがかかりすぎる一方で、従来の分類器と抽出器からなるパイプラインは効率的ではあるものの、脆く、新しいタスクに汎化することができません。本論文では、LLMのエージェント的推論と軽量なプロキシモデルを組み合わせた協調的フレームワークであるFalconerを紹介します。Falconerでは、LLMがプランナーとしてユーザーの指示を実行可能なパイプラインに分解し、アノテーターとして小さなプロキシモデルを訓練するための教師データを生成します。このフレームワークは、分類と抽出を「ラベルを取得する」と「スパンを取得する」という2つの基本的な操作に統一し、単一の指示追従モデルで複数のタスク固有のコンポーネントを置き換えることを可能にします。Falconerによって育成されたプロキシモデルと、人間や大規模モデルが提供するアノテーションとの一貫性を評価するために、プランニングとエンドツーエンドの実行の両方をカバーする新しいベンチマークを構築しました。実験の結果、Falconerは指示追従の精度において最先端のLLMに匹敵しつつ、推論コストを最大90%削減し、大規模な知識マイニングを20倍以上高速化することが示されました。これにより、ディープリサーチのための効率的でスケーラブルな基盤が提供されます。
English
At the core of Deep Research is knowledge mining, the task of extracting structured information from massive unstructured text in response to user instructions. Large language models (LLMs) excel at interpreting such instructions but are prohibitively expensive to deploy at scale, while traditional pipelines of classifiers and extractors remain efficient yet brittle and unable to generalize to new tasks. We introduce Falconer, a collaborative framework that combines the agentic reasoning of LLMs with lightweight proxy models for scalable knowledge mining. In Falconer, LLMs act as planners, decomposing user instructions into executable pipelines, and as annotators, generating supervision to train small proxies. The framework unifies classification and extraction into two atomic operations, get label and get span, enabling a single instruction-following model to replace multiple task-specific components. To evaluate the consistency between proxy models incubated by Falconer and annotations provided by humans and large models, we construct new benchmarks covering both planning and end-to-end execution. Experiments show that Falconer closely matches state-of-the-art LLMs in instruction-following accuracy while reducing inference cost by up to 90% and accelerating large-scale knowledge mining by more than 20x, offering an efficient and scalable foundation for Deep Research.
PDF32October 14, 2025