Het leren van taakdecompositie om mensen te ondersteunen bij competitief programmeren
Learning Task Decomposition to Assist Humans in Competitive Programming
June 7, 2024
Auteurs: Jiaxin Wen, Ruiqi Zhong, Pei Ke, Zhihong Shao, Hongning Wang, Minlie Huang
cs.AI
Samenvatting
Bij het gebruik van taalmodellen (LMs) om complexe problemen op te lossen, kunnen mensen moeite hebben om de door het LM gegenereerde oplossingen te begrijpen en de gebrekkige oplossingen te repareren. Om mensen te helpen bij het repareren ervan, stellen we voor om complexe oplossingen automatisch te ontbinden in meerdere eenvoudigere stukken die corresponderen met specifieke subtaken. We introduceren een nieuw doel voor het leren van taakontbinding, genaamd assistieve waarde (AssistV), die de haalbaarheid en snelheid meet waarmee mensen de ontbonden oplossing kunnen repareren. We verzamelen een dataset van menselijke reparatie-ervaringen op verschillende ontbonden oplossingen. Door de verzamelde data als in-context voorbeelden te gebruiken, leren we vervolgens om ontbonden oplossingen te beoordelen, te verfijnen en te rangschikken om de AssistV te verbeteren. We valideren onze methode aan de hand van competitieve programmeerproblemen: in een studie van 177 uur stelt onze methode niet-experts in staat om 33,3\% meer problemen op te lossen, versnelt hen met een factor 3,3 en stelt hen in staat om onondersteunde experts te evenaren.
English
When using language models (LMs) to solve complex problems, humans might
struggle to understand the LM-generated solutions and repair the flawed ones.
To assist humans in repairing them, we propose to automatically decompose
complex solutions into multiple simpler pieces that correspond to specific
subtasks. We introduce a novel objective for learning task decomposition,
termed assistive value (AssistV), which measures the feasibility and speed for
humans to repair the decomposed solution. We collect a dataset of human repair
experiences on different decomposed solutions. Utilizing the collected data as
in-context examples, we then learn to critique, refine, and rank decomposed
solutions to improve AssistV. We validate our method under competitive
programming problems: under 177 hours of human study, our method enables
non-experts to solve 33.3\% more problems, speeds them up by 3.3x, and empowers
them to match unassisted experts.