Управление большими языковыми моделями с помощью масштабируемого интерактивного контроля
Steering LLMs via Scalable Interactive Oversight
February 4, 2026
Авторы: Enyu Zhou, Zhiheng Xi, Long Ma, Zhihao Zhang, Shihan Dou, Zhikai Lei, Guoteng Wang, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Аннотация
По мере того, как большие языковые модели все больше автоматизируют выполнение сложных, долгосрочных задач, таких как создание кода по описанию, возникает проблема недостаточного контроля. Хотя модели преуспевают в исполнении, пользователи часто испытывают трудности с эффективным управлением ими из-за недостатка экспертных знаний в предметной области, сложности формулировки точных требований и неспособности надежно проверять сложные результаты. Это создает серьезную проблему масштабируемого контроля: как позволить людям ответственно направлять системы ИИ при выполнении задач, которые превосходят их собственные возможности по спецификации или верификации. Для решения этой проблемы мы предлагаем **Масштабируемый Интерактивный Контроль** — framework, который декомпозирует сложные требования в рекурсивное дерево управляемых решений для усиления человеческого надзора. В отличие от открытых промптов, наша система получает простую обратную связь на каждом узле и рекурсивно агрегирует эти сигналы в точные глобальные инструкции. Протестированная на задаче веб-разработки, наша система позволяет не-экспертам создавать технические задания экспертного уровня, демонстрируя 54%-ное улучшение соответствия требованиям. Ключевым является то, что мы показываем, что этот framework можно оптимизировать с помощью обучения с подкреплением, используя только онлайн-обратную связь от пользователей, что предлагает практический путь для сохранения человеческого контроля по мере масштабирования ИИ.
English
As Large Language Models increasingly automate complex, long-horizon tasks such as vibe coding, a supervision gap has emerged. While models excel at execution, users often struggle to guide them effectively due to insufficient domain expertise, the difficulty of articulating precise intent, and the inability to reliably validate complex outputs. It presents a critical challenge in scalable oversight: enabling humans to responsibly steer AI systems on tasks that surpass their own ability to specify or verify. To tackle this, we propose Scalable Interactive Oversight, a framework that decomposes complex intent into a recursive tree of manageable decisions to amplify human supervision. Rather than relying on open-ended prompting, our system elicits low-burden feedback at each node and recursively aggregates these signals into precise global guidance. Validated in web development task, our framework enables non-experts to produce expert-level Product Requirement Documents, achieving a 54\% improvement in alignment. Crucially, we demonstrate that this framework can be optimized via Reinforcement Learning using only online user feedback, offering a practical pathway for maintaining human control as AI scales.