Het leren van taakdecompositie om mensen te ondersteunen bij competitief programmeren

Samenvatting

Bij het gebruik van taalmodellen (LMs) om complexe problemen op te lossen, kunnen mensen moeite hebben om de door het LM gegenereerde oplossingen te begrijpen en de gebrekkige oplossingen te repareren. Om mensen te helpen bij het repareren ervan, stellen we voor om complexe oplossingen automatisch te ontbinden in meerdere eenvoudigere stukken die corresponderen met specifieke subtaken. We introduceren een nieuw doel voor het leren van taakontbinding, genaamd assistieve waarde (AssistV), die de haalbaarheid en snelheid meet waarmee mensen de ontbonden oplossing kunnen repareren. We verzamelen een dataset van menselijke reparatie-ervaringen op verschillende ontbonden oplossingen. Door de verzamelde data als in-context voorbeelden te gebruiken, leren we vervolgens om ontbonden oplossingen te beoordelen, te verfijnen en te rangschikken om de AssistV te verbeteren. We valideren onze methode aan de hand van competitieve programmeerproblemen: in een studie van 177 uur stelt onze methode niet-experts in staat om 33,3\% meer problemen op te lossen, versnelt hen met een factor 3,3 en stelt hen in staat om onondersteunde experts te evenaren.

English

When using language models (LMs) to solve complex problems, humans might struggle to understand the LM-generated solutions and repair the flawed ones. To assist humans in repairing them, we propose to automatically decompose complex solutions into multiple simpler pieces that correspond to specific subtasks. We introduce a novel objective for learning task decomposition, termed assistive value (AssistV), which measures the feasibility and speed for humans to repair the decomposed solution. We collect a dataset of human repair experiences on different decomposed solutions. Utilizing the collected data as in-context examples, we then learn to critique, refine, and rank decomposed solutions to improve AssistV. We validate our method under competitive programming problems: under 177 hours of human study, our method enables non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers them to match unassisted experts.

Het leren van taakdecompositie om mensen te ondersteunen bij competitief programmeren

Learning Task Decomposition to Assist Humans in Competitive Programming

Samenvatting

Support