ChatPaper.aiChatPaper

Sturing van LLM's via Schaalbaar Interactief Toezicht

Steering LLMs via Scalable Interactive Oversight

February 4, 2026
Auteurs: Enyu Zhou, Zhiheng Xi, Long Ma, Zhihao Zhang, Shihan Dou, Zhikai Lei, Guoteng Wang, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI

Samenvatting

Naarmate grote taalmodellen steeds complexe, langetermijntaken zoals vibe coding automatiseren, is er een toezichtkloof ontstaan. Hoewel modellen uitblinken in uitvoering, hebben gebruikers vaak moeite om ze effectief aan te sturen door onvoldoende domeinkennis, de moeilijkheid om precieze intentie te verwoorden en het onvermogen om complexe outputs betrouwbaar te valideren. Dit vormt een kritieke uitdaging in schaalbaar toezicht: het in staat stellen van mensen om AI-systemen op verantwoorde wijze te sturen bij taken die hun eigen vermogen tot specificatie of verificatie overstijgen. Om dit aan te pakken, stellen we Schaalbaar Interactief Toezicht voor, een raamwerk dat complexe intentie ontleedt in een recursieve boom van beheersbare beslissingen om menselijk toezicht te versterken. In plaats van te vertrouwen op open-einde prompting, ontlokt ons systeem laagdrempelige feedback bij elke knoop en aggregeert deze signalen recursief tot precieze globale sturing. Getoetst in webontwikkelingstaken stelt ons raamwerk niet-experts in staat om Product Requirement Documents op expertniveau te produceren, met een verbetering van 54% in afstemming. Cruciaal is dat we aantonen dat dit raamwerk geoptimaliseerd kan worden via Reinforcement Learning met uitsluitend online gebruikersfeedback, wat een praktisch pad biedt om menselijke controle te behouden naarmate AI schaalt.
English
As Large Language Models increasingly automate complex, long-horizon tasks such as vibe coding, a supervision gap has emerged. While models excel at execution, users often struggle to guide them effectively due to insufficient domain expertise, the difficulty of articulating precise intent, and the inability to reliably validate complex outputs. It presents a critical challenge in scalable oversight: enabling humans to responsibly steer AI systems on tasks that surpass their own ability to specify or verify. To tackle this, we propose Scalable Interactive Oversight, a framework that decomposes complex intent into a recursive tree of manageable decisions to amplify human supervision. Rather than relying on open-ended prompting, our system elicits low-burden feedback at each node and recursively aggregates these signals into precise global guidance. Validated in web development task, our framework enables non-experts to produce expert-level Product Requirement Documents, achieving a 54\% improvement in alignment. Crucially, we demonstrate that this framework can be optimized via Reinforcement Learning using only online user feedback, offering a practical pathway for maintaining human control as AI scales.
PDF163February 7, 2026