AsyncTool: Het evalueren van de asynchrone functieaanroepcapaciteit onder multitask-scenario's

Samenvatting

Op grote taalmodellen (LLM) gebaseerde agenten hebben sterke capaciteiten getoond in het gebruik van externe tools om complexe taken op te lossen. Bestaande evaluaties houden echter vaak geen rekening met de temporele dimensie van toolgebruik, met name de impact van de responstijd van tools, en zijn doorgaans beperkt tot enkelvoudige taakinstellingen. In praktijktoepassingen moeten vaak meerdere taken gelijktijdig worden uitgevoerd, en de algehele efficiëntie hangt af van of een agent inactieve tijd kan benutten tijdens het wachten op toolreacties. We verwijzen naar deze capaciteit als asynchrone toolaanroep. Om deze te evalueren, stellen we AsyncTool voor, een benchmark voor het beoordelen van LLM-gebaseerde agenten in interactieve, multitaak-omgevingen met vertraagde toolfeedback. AsyncTool presenteert meerdere heterogene taken tegelijkertijd en simuleert realistische toolresponstijd tijdens de uitvoering. Met behulp van een hybride data-evolutiestrategie construeren we een diverse asynchrone multitasking-dataset die meerdere scenario's en toolgebruikspatronen dekt. We evalueren modellen op staps-, deeltaak- en taakniveau, en introduceren efficiëntiegerichte metrieken om taakcoördinatie en -voltooiingsefficiëntie te meten. Uitgebreide experimenten tonen aan dat vertraagde toolfeedback aanzienlijke uitdagingen vormt voor huidige agenten en leidt tot duidelijke prestatievermindering. Modellen die taakwisseling, afhankelijkheidsregistratie en toestandsbehoud beter coördineren, presteren sterker op AsyncTool. Onze analyse identificeert belangrijke faalwijzen van huidige toolgebruikende agenten en biedt praktische inzichten voor het ontwerpen van toekomstige systemen met sterkere temporele redeneer- en coördinatiecapaciteiten.

English

Large language model (LLM)-based agents have shown strong capabilities in using external tools to solve complex tasks. However, existing evaluations often overlook the temporal dimension of tool use, especially the impact of tool response latency, and are usually limited to single-task settings. In real-world applications, multiple tasks often need to be executed concurrently, and overall efficiency depends on whether an agent can use idle time while waiting for tool responses. We refer to this capability as asynchronous tool calling. To evaluate it, we propose AsyncTool, a benchmark for assessing LLM-based agents in interactive multi-task tool-use environments with delayed tool feedback. AsyncTool presents multiple heterogeneous tasks simultaneously and simulates realistic tool response latency during execution. Using a hybrid data evolution strategy, we construct a diverse asynchronous multitasking dataset that covers multiple scenarios and tool-use patterns. We evaluate models at the step, sub-task, and task levels, and introduce efficiency-oriented metrics to measure task coordination and completion efficiency. Extensive experiments show that delayed tool feedback poses substantial challenges to current agents and leads to clear performance degradation. Models that better coordinate task switching, dependency tracking, and state maintenance achieve stronger performance on AsyncTool. Our analysis identifies key failure modes of current tool-using agents and provides practical insights for designing future systems with stronger temporal reasoning and coordination capabilities.