CCTU: Een benchmark voor gereedschapsgebruik onder complexe beperkingen

Samenvatting

Het oplossen van problemen door middel van gereedschapsgebruik onder expliciete beperkingen vormt een zeer uitdagend maar onvermijdelijk scenario voor grote taalmodelen (LLM's), waarvoor capaciteiten zoals functie-aanroeping, instructie-opvolging en zelfverbetering vereist zijn. De vooruitgang wordt echter belemmerd door het ontbreken van toegewijde evaluaties. Om dit aan te pakken, introduceren we CCTU, een benchmark voor het evalueren van LLM-gereedschapsgebruik onder complexe beperkingen. CCTU is gebaseerd op een taxonomie van 12 beperkingscategorieën verspreid over vier dimensies (namelijk middelen, gedrag, gereedschapsset en respons). De benchmark omvat 200 zorgvuldig samengestelde en uitdagende testgevallen in diverse gereedschapsgebruiksscenario's, elk met gemiddeld zeven beperkingstypes en een gemiddelde promptlengte van meer dan 4.700 tokens. Om een betrouwbare evaluatie mogelijk te maken, ontwikkelen we een uitvoerbare validatiemodule voor beperkingen die stap-voor-stap validatie uitvoert en naleving afdwingt tijdens meerronde interacties tussen modellen en hun omgeving. We evalueren negen state-of-the-art LLM's in zowel denk- als niet-denkmodi. Resultaten tonen aan dat wanneer strikte naleving van alle beperkingen vereist is, geen enkel model een taakvoltooiingspercentage boven de 20% behaalt. Verdere analyse onthult dat modellen in meer dan 50% van de gevallen beperkingen overtreden, met name in de dimensies middelen en respons. Bovendien tonen LLM's een beperkt vermogen tot zelfverbetering, zelfs na het ontvangen van gedetailleerde feedback over beperkingsovertredingen, wat een kritiek knelpunt in de ontwikkeling van robuuste gereedschapsgebruik-agenten benadrukt. Om toekomstig onderzoek te vergemakkelijken, publiceren we de data en code.

English

Solving problems through tool use under explicit constraints constitutes a highly challenging yet unavoidable scenario for large language models (LLMs), requiring capabilities such as function calling, instruction following, and self-refinement. However, progress has been hindered by the absence of dedicated evaluations. To address this, we introduce CCTU, a benchmark for evaluating LLM tool use under complex constraints. CCTU is grounded in a taxonomy of 12 constraint categories spanning four dimensions (i.e., resource, behavior, toolset, and response). The benchmark comprises 200 carefully curated and challenging test cases across diverse tool-use scenarios, each involving an average of seven constraint types and an average prompt length exceeding 4,700 tokens. To enable reliable evaluation, we develop an executable constraint validation module that performs step-level validation and enforces compliance during multi-turn interactions between models and their environments. We evaluate nine state-of-the-art LLMs in both thinking and non-thinking modes. Results indicate that when strict adherence to all constraints is required, no model achieves a task completion rate above 20%. Further analysis reveals that models violate constraints in over 50% of cases, particularly in the resource and response dimensions. Moreover, LLMs demonstrate limited capacity for self-refinement even after receiving detailed feedback on constraint violations, highlighting a critical bottleneck in the development of robust tool-use agents. To facilitate future research, we release the data and code.

CCTU: Een benchmark voor gereedschapsgebruik onder complexe beperkingen

CCTU: A Benchmark for Tool Use under Complex Constraints

Samenvatting

Support