CCTU: 복잡한 제약 조건 하에서의 도구 활용 벤치마크
CCTU: A Benchmark for Tool Use under Complex Constraints
March 16, 2026
저자: Junjie Ye, Guoqiang Zhang, Wenjie Fu, Tao Gui, Qi Zhang, Xuanjing Huang
cs.AI
초록
명시적 제약 조건 하에서 도구 활용을 통한 문제 해결은 대규모 언어 모델(LLM)에게 함수 호출, 지시 따르기, 자기 수정 등의 능력을 요구하는 매우 어렵지만 피할 수 없는 시나리오입니다. 그러나 전용 평가 방법의 부재로 인해 발전이 지체되어 왔습니다. 이를 해결하기 위해 우리는 복잡한 제약 조건 하에서의 LLM 도구 사용 능력을 평가하는 벤치마크인 CCTU를 소개합니다. CCTU는 네 가지 차원(즉, 자원, 행동, 도구 집합, 응답)에 걸친 12가지 제약 범주 분류 체계에 기반을 둡니다. 이 벤치마크는 다양한 도구 사용 시나리오 전반에 걸쳐 신중하게 선별된 200개의 어려운 테스트 케이스로 구성되며, 각 케이스는 평균 7가지 제약 유형과 4,700토큰을 초과하는 평균 프롬프트 길이를 포함합니다. 신뢰할 수 있는 평가를 위해, 우리는 단계별 검증을 수행하고 모델과 환경 간 다중 턴 상호 작용 동안 규정 준수를 강제하는 실행 가능한 제약 검증 모듈을 개발했습니다. 우리는 사고 모드와 비사고 모드에서 9개의 최첨단 LLM을 평가했습니다. 결과에 따르면, 모든 제약 조건을 엄격히 준수해야 할 경우 어떤 모델도 20%를 넘는 작업 완료율을 달성하지 못했습니다. 추가 분석은 모델이 특히 자원 및 응답 차원에서 50% 이상의 경우에 제약 조건을 위반한다는 것을 보여줍니다. 더욱이 LLM은 제약 위반에 대한 상세한 피드백을 받은 후에도 자기 수정 능력이 제한적임을 보여주며, 이는 강력한 도구 사용 에이전트 개발의 중요한 병목 현상을 강조합니다. 향후 연구를 촉진하기 위해 우리는 데이터와 코드를 공개합니다.
English
Solving problems through tool use under explicit constraints constitutes a highly challenging yet unavoidable scenario for large language models (LLMs), requiring capabilities such as function calling, instruction following, and self-refinement. However, progress has been hindered by the absence of dedicated evaluations. To address this, we introduce CCTU, a benchmark for evaluating LLM tool use under complex constraints. CCTU is grounded in a taxonomy of 12 constraint categories spanning four dimensions (i.e., resource, behavior, toolset, and response). The benchmark comprises 200 carefully curated and challenging test cases across diverse tool-use scenarios, each involving an average of seven constraint types and an average prompt length exceeding 4,700 tokens. To enable reliable evaluation, we develop an executable constraint validation module that performs step-level validation and enforces compliance during multi-turn interactions between models and their environments. We evaluate nine state-of-the-art LLMs in both thinking and non-thinking modes. Results indicate that when strict adherence to all constraints is required, no model achieves a task completion rate above 20%. Further analysis reveals that models violate constraints in over 50% of cases, particularly in the resource and response dimensions. Moreover, LLMs demonstrate limited capacity for self-refinement even after receiving detailed feedback on constraint violations, highlighting a critical bottleneck in the development of robust tool-use agents. To facilitate future research, we release the data and code.