Dirigiendo LLMs mediante Supervisión Interactiva Escalable
Steering LLMs via Scalable Interactive Oversight
February 4, 2026
Autores: Enyu Zhou, Zhiheng Xi, Long Ma, Zhihao Zhang, Shihan Dou, Zhikai Lei, Guoteng Wang, Rui Zheng, Hang Yan, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
Resumen
A medida que los Modelos de Lenguaje a Gran Escala automatizan cada vez más tareas complejas de largo horizonte, como la programación por "vibes", ha surgido una brecha de supervisión. Si bien los modelos sobresalen en la ejecución, los usuarios a menudo luchan por guiarlos de manera efectiva debido a conocimientos insuficientes del dominio, la dificultad para articular una intención precisa y la incapacidad de validar de forma fiable resultados complejos. Esto presenta un desafío crítico en la supervisión escalable: permitir que los humanos dirijan de manera responsable sistemas de IA en tareas que superan su propia capacidad para especificar o verificar. Para abordarlo, proponemos la Supervisión Interactiva Escalable, un marco que descompone la intención compleja en un árbol recursivo de decisiones manejables para amplificar la supervisión humana. En lugar de depender de indicaciones abiertas, nuestro sistema obtiene retroalimentación de baja carga en cada nodo y agrega recursivamente estas señales en una guía global precisa. Validado en una tarea de desarrollo web, nuestro marco permite a no expertos producir Documentos de Requisitos de Producto de nivel experto, logrando una mejora del 54% en la alineación. Crucialmente, demostramos que este marco puede optimizarse mediante Aprendizaje por Refuerzo utilizando únicamente la retroalimentación del usuario en línea, ofreciendo una vía práctica para mantener el control humano a medida que la IA escala.
English
As Large Language Models increasingly automate complex, long-horizon tasks such as vibe coding, a supervision gap has emerged. While models excel at execution, users often struggle to guide them effectively due to insufficient domain expertise, the difficulty of articulating precise intent, and the inability to reliably validate complex outputs. It presents a critical challenge in scalable oversight: enabling humans to responsibly steer AI systems on tasks that surpass their own ability to specify or verify. To tackle this, we propose Scalable Interactive Oversight, a framework that decomposes complex intent into a recursive tree of manageable decisions to amplify human supervision. Rather than relying on open-ended prompting, our system elicits low-burden feedback at each node and recursively aggregates these signals into precise global guidance. Validated in web development task, our framework enables non-experts to produce expert-level Product Requirement Documents, achieving a 54\% improvement in alignment. Crucially, we demonstrate that this framework can be optimized via Reinforcement Learning using only online user feedback, offering a practical pathway for maintaining human control as AI scales.