Decomposição de Tarefas de Aprendizado para Auxiliar Humanos na Programação Competitiva
Learning Task Decomposition to Assist Humans in Competitive Programming
June 7, 2024
Autores: Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang
cs.AI
Resumo
Ao utilizar modelos de linguagem (LMs) para resolver problemas complexos, os humanos podem ter dificuldade em compreender as soluções geradas pelo LM e corrigir aquelas com falhas. Para auxiliar os humanos na correção, propomos decompor automaticamente soluções complexas em múltiplas partes mais simples que correspondam a subtarefas específicas. Introduzimos um novo objetivo para aprender a decomposição de tarefas, denominado valor assistencial (AssistV), que mede a viabilidade e rapidez para os humanos corrigirem a solução decomposta. Coletamos um conjunto de dados de experiências de correção humana em diferentes soluções decompostas. Utilizando os dados coletados como exemplos em contexto, aprendemos a criticar, refinar e classificar as soluções decompostas para melhorar o AssistV. Validamos nosso método em problemas de programação competitiva: em 177 horas de estudo humano, nosso método permite que não especialistas resolvam 33,3\% mais problemas, os acelera em 3,3 vezes e os capacita a igualar especialistas não assistidos.
English
When using language models (LMs) to solve complex problems, humans might
struggle to understand the LM-generated solutions and repair the flawed ones.
To assist humans in repairing them, we propose to automatically decompose
complex solutions into multiple simpler pieces that correspond to specific
subtasks. We introduce a novel objective for learning task decomposition,
termed assistive value (AssistV), which measures the feasibility and speed for
humans to repair the decomposed solution. We collect a dataset of human repair
experiences on different decomposed solutions. Utilizing the collected data as
in-context examples, we then learn to critique, refine, and rank decomposed
solutions to improve AssistV. We validate our method under competitive
programming problems: under 177 hours of human study, our method enables
non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers
them to match unassisted experts.Summary
AI-Generated Summary