확장 가능한 상호작용적 감독을 통한 대규모 언어 모델 조정
Steering LLMs via Scalable Interactive Oversight
February 4, 2026
저자: Enyu Zhou, Zhiheng Xi, Long Ma, Zhihao Zhang, Shihan Dou, Zhikai Lei, Guoteng Wang, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
초록
대규모 언어 모델이 바이브 코딩과 같은 복잡하고 장기적인 작업을 점점 더 자동화함에 따라 감독의 공백이 나타났습니다. 모델은 실행 측면에서는 뛰어나지만, 사용자는 충분한 도메인 전문성 부족, 정확한 의도를 명시적으로 표현하는 것의 어려움, 복잡한 출력을 신뢰성 있게 검증할 수 없는 한계로 인해 모델을 효과적으로 지도하는 데 어려움을 겪는 경우가 많습니다. 이는 인간이 자신의 능력으로는 명세화하거나 검증하기 어려운 작업에서 AI 시스템을 책임감 있게 조종할 수 있도록 하는 확장 가능한 감독(scalable oversight) 분야의 핵심 과제를 제시합니다. 이를 해결하기 위해 우리는 복잡한 의도를 관리 가능한 결정들의 재귀적 트리로 분해하여 인간의 감독 능력을 증폭하는 '확장 가능한 상호작용 감독(Scalable Interactive Oversight)' 프레임워크를 제안합니다. 개방형 프롬프팅에 의존하기보다, 우리 시스템은 각 의사결정 노드에서 부담이 적은 피드백을 유도하고 이러한 신호들을 재귀적으로 통합하여 정확한 전역 지도(global guidance)를 생성합니다. 웹 개발 작업에서 검증된 결과, 우리 프레임워크는 비전문가가 전문가 수준의 제품 요구 사항 문서(Product Requirement Document)를 생성할 수 있게 하여 정렬도(alignment)에서 54%의 향상을 달성했습니다. 무엇보다도, 이 프레임워크가 온라인 사용자 피드백만을 사용한 강화 학습(Reinforcement Learning)을 통해 최적화될 수 있음을 입증하여, AI 규모가 확장됨에 따라 인간의 통제력을 유지할 수 있는 실용적인 경로를 제시합니다.
English
As Large Language Models increasingly automate complex, long-horizon tasks such as vibe coding, a supervision gap has emerged. While models excel at execution, users often struggle to guide them effectively due to insufficient domain expertise, the difficulty of articulating precise intent, and the inability to reliably validate complex outputs. It presents a critical challenge in scalable oversight: enabling humans to responsibly steer AI systems on tasks that surpass their own ability to specify or verify. To tackle this, we propose Scalable Interactive Oversight, a framework that decomposes complex intent into a recursive tree of manageable decisions to amplify human supervision. Rather than relying on open-ended prompting, our system elicits low-burden feedback at each node and recursively aggregates these signals into precise global guidance. Validated in web development task, our framework enables non-experts to produce expert-level Product Requirement Documents, achieving a 54\% improvement in alignment. Crucially, we demonstrate that this framework can be optimized via Reinforcement Learning using only online user feedback, offering a practical pathway for maintaining human control as AI scales.