Descomposición de tareas de aprendizaje para asistir a humanos en programación competitiva

Resumen

Al utilizar modelos de lenguaje (LMs) para resolver problemas complejos, los humanos podrían tener dificultades para entender las soluciones generadas por el LM y corregir las defectuosas. Para ayudar a los humanos a repararlas, proponemos descomponer automáticamente soluciones complejas en múltiples piezas más simples que correspondan a tareas específicas. Introducimos un objetivo novedoso para aprender la descomposición de tareas, denominado valor asistencial (AssistV), que mide la viabilidad y rapidez para que los humanos reparen la solución descompuesta. Recopilamos un conjunto de datos de experiencias de reparación humana en diferentes soluciones descompuestas. Utilizando los datos recopilados como ejemplos en contexto, luego aprendemos a criticar, refinar y clasificar las soluciones descompuestas para mejorar AssistV. Validamos nuestro método en problemas de programación competitiva: en 177 horas de estudio humano, nuestro método permite a los no expertos resolver un 33.3\% más de problemas, acelerándolos 3.3 veces y capacitándolos para igualar a expertos no asistidos.

English

When using language models (LMs) to solve complex problems, humans might struggle to understand the LM-generated solutions and repair the flawed ones. To assist humans in repairing them, we propose to automatically decompose complex solutions into multiple simpler pieces that correspond to specific subtasks. We introduce a novel objective for learning task decomposition, termed assistive value (AssistV), which measures the feasibility and speed for humans to repair the decomposed solution. We collect a dataset of human repair experiences on different decomposed solutions. Utilizing the collected data as in-context examples, we then learn to critique, refine, and rank decomposed solutions to improve AssistV. We validate our method under competitive programming problems: under 177 hours of human study, our method enables non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers them to match unassisted experts.

Descomposición de tareas de aprendizaje para asistir a humanos en programación competitiva

Learning Task Decomposition to Assist Humans in Competitive Programming

Resumen

Support