Descomposición de tareas de aprendizaje para asistir a humanos en programación competitiva
Learning Task Decomposition to Assist Humans in Competitive Programming
June 7, 2024
Autores: Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang
cs.AI
Resumen
Al utilizar modelos de lenguaje (LMs) para resolver problemas complejos, los humanos podrían tener dificultades para entender las soluciones generadas por el LM y corregir las defectuosas. Para ayudar a los humanos a repararlas, proponemos descomponer automáticamente soluciones complejas en múltiples piezas más simples que correspondan a tareas específicas. Introducimos un objetivo novedoso para aprender la descomposición de tareas, denominado valor asistencial (AssistV), que mide la viabilidad y rapidez para que los humanos reparen la solución descompuesta. Recopilamos un conjunto de datos de experiencias de reparación humana en diferentes soluciones descompuestas. Utilizando los datos recopilados como ejemplos en contexto, luego aprendemos a criticar, refinar y clasificar las soluciones descompuestas para mejorar AssistV. Validamos nuestro método en problemas de programación competitiva: en 177 horas de estudio humano, nuestro método permite a los no expertos resolver un 33.3\% más de problemas, acelerándolos 3.3 veces y capacitándolos para igualar a expertos no asistidos.
English
When using language models (LMs) to solve complex problems, humans might
struggle to understand the LM-generated solutions and repair the flawed ones.
To assist humans in repairing them, we propose to automatically decompose
complex solutions into multiple simpler pieces that correspond to specific
subtasks. We introduce a novel objective for learning task decomposition,
termed assistive value (AssistV), which measures the feasibility and speed for
humans to repair the decomposed solution. We collect a dataset of human repair
experiences on different decomposed solutions. Utilizing the collected data as
in-context examples, we then learn to critique, refine, and rank decomposed
solutions to improve AssistV. We validate our method under competitive
programming problems: under 177 hours of human study, our method enables
non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers
them to match unassisted experts.Summary
AI-Generated Summary