ChatPaper.aiChatPaper

大規模言語モデルのスケーラブルな対話型監視による制御

Steering LLMs via Scalable Interactive Oversight

February 4, 2026
著者: Enyu Zhou, Zhiheng Xi, Long Ma, Zhihao Zhang, Shihan Dou, Zhikai Lei, Guoteng Wang, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

要旨

大規模言語モデルがビベコーディングのような複雑で長期的なタスクを自動化するにつれ、監督のギャップが生じている。モデルは実行において優れる一方、ユーザーは不十分な領域知識、正確な意図を明確に表現する難しさ、複雑な出力を確実に検証する能力の欠如により、効果的にモデルを導くことに苦戦することが多い。これは、スケーラブルな監視における重大な課題、すなわち、人間自身が仕様化または検証する能力を超えるタスクにおいて、人間がAIシステムを責任を持って操縦できるようにするという課題を提起している。この問題に取り組むため、我々は「スケーラブル対話型監視」を提案する。このフレームワークは、複雑な意図を管理可能な意思決定の再帰的木構造に分解し、人間の監督を増幅する。自由回答型のプロンプトに依存するのではなく、本システムは各ノードで負荷の低いフィードバックを引き出し、これらの信号を再帰的に集約して精密な大域的ガイダンスを生成する。Web開発タスクでの検証により、本フレームワークは非専門家が専門家レベルの製品要求仕様書を作成することを可能とし、要求との整合性において54%の改善を達成した。決定的に重要なのは、このフレームワークがオンラインユーザーフィードバックのみを用いた強化学習によって最適化可能であることを実証した点であり、AIのスケーリングに伴う人間の制御維持への実用的な道筋を提供する。
English
As Large Language Models increasingly automate complex, long-horizon tasks such as vibe coding, a supervision gap has emerged. While models excel at execution, users often struggle to guide them effectively due to insufficient domain expertise, the difficulty of articulating precise intent, and the inability to reliably validate complex outputs. It presents a critical challenge in scalable oversight: enabling humans to responsibly steer AI systems on tasks that surpass their own ability to specify or verify. To tackle this, we propose Scalable Interactive Oversight, a framework that decomposes complex intent into a recursive tree of manageable decisions to amplify human supervision. Rather than relying on open-ended prompting, our system elicits low-burden feedback at each node and recursively aggregates these signals into precise global guidance. Validated in web development task, our framework enables non-experts to produce expert-level Product Requirement Documents, achieving a 54\% improvement in alignment. Crucially, we demonstrate that this framework can be optimized via Reinforcement Learning using only online user feedback, offering a practical pathway for maintaining human control as AI scales.
PDF162February 7, 2026