Decomposição de Tarefas de Aprendizado para Auxiliar Humanos na Programação Competitiva

Resumo

Ao utilizar modelos de linguagem (LMs) para resolver problemas complexos, os humanos podem ter dificuldade em compreender as soluções geradas pelo LM e corrigir aquelas com falhas. Para auxiliar os humanos na correção, propomos decompor automaticamente soluções complexas em múltiplas partes mais simples que correspondam a subtarefas específicas. Introduzimos um novo objetivo para aprender a decomposição de tarefas, denominado valor assistencial (AssistV), que mede a viabilidade e rapidez para os humanos corrigirem a solução decomposta. Coletamos um conjunto de dados de experiências de correção humana em diferentes soluções decompostas. Utilizando os dados coletados como exemplos em contexto, aprendemos a criticar, refinar e classificar as soluções decompostas para melhorar o AssistV. Validamos nosso método em problemas de programação competitiva: em 177 horas de estudo humano, nosso método permite que não especialistas resolvam 33,3\% mais problemas, os acelera em 3,3 vezes e os capacita a igualar especialistas não assistidos.

English

When using language models (LMs) to solve complex problems, humans might struggle to understand the LM-generated solutions and repair the flawed ones. To assist humans in repairing them, we propose to automatically decompose complex solutions into multiple simpler pieces that correspond to specific subtasks. We introduce a novel objective for learning task decomposition, termed assistive value (AssistV), which measures the feasibility and speed for humans to repair the decomposed solution. We collect a dataset of human repair experiences on different decomposed solutions. Utilizing the collected data as in-context examples, we then learn to critique, refine, and rank decomposed solutions to improve AssistV. We validate our method under competitive programming problems: under 177 hours of human study, our method enables non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers them to match unassisted experts.

Decomposição de Tarefas de Aprendizado para Auxiliar Humanos na Programação Competitiva

Learning Task Decomposition to Assist Humans in Competitive Programming

Resumo

Summary

Support

Support