대규모 도구 활용을 통한 사용자 중심 다중 턴 대화 생성
User-Oriented Multi-Turn Dialogue Generation with Tool Use at scale
January 13, 2026
저자: Jungho Cho, Minbyul Jeong, Sungrae Park
cs.AI
초록
대규모 추론 모델(LRM)을 자율 에이전트로 활용하는 최근의 패러다임 전환은 정교한 다중 턴 도구 사용 능력에 대한 수요를 가속화하고 있습니다. 그러나 기존 데이터셋과 데이터 생성 방법론은 정적이고 미리 정의된 도구 세트에 한정되어 개방형 인간-에이전트 협업의 복잡성을 따라가지 못하는 한계가 있습니다. 이를 해결하기 위해 우리는 먼저 LRM 기반 시뮬레이터를 활용하여 특정 작업을 해결하기 위해 영역 특화적 고부가가치 도구를 동적으로 생성함으로써 대규모 작업 지향 다중 턴 대화 자동 생성 프레임워크를 개발했습니다. 그러나 순수하게 작업 지향적인 설계는 종종 "단순 작업 해결" 궤적을 초래하여, 에이전트가 최소한의 상호작용으로 목표를 달성함으로써 실제 시나리오에서 관찰되는 높은 턴 수의 대화를 생성하지 못하는 문제점을 관찰했습니다. 이러한 격차를 해소하기 위해 우리는 사용자 지향 시뮬레이션 패러다임으로 전환했습니다. 점진적 요청 및 턴별 피드백과 같은 인간의 행동 규칙을 모방하는 전용 사용자 시뮬레이터에 작업 생성을 분리함으로써, 실제 문제 해결의 반복적 특성을 반영한 보다 진정성 있고 장기화된 다중 턴 대화를 가능하게 합니다. 우리의 생성 파이프라인은 어떤 상태에서도 생성을 시작할 수 있는 유연한 플러그 앤 플레이 모듈로 작동하여 확장된 도구 사용 데이터 생산에 높은 확장성을 보장합니다. 더 나아가 단일 궤적 내에서 여러 작업 완료를 가능하게 함으로써, 실제 인간-에이전트 상호작용의 다면적 요구를 반영한 고밀도 데이터셋을 산출합니다.
English
The recent paradigm shift toward large reasoning models (LRMs) as autonomous agents has intensified the demand for sophisticated, multi-turn tool-use capabilities. Yet, existing datasets and data-generation approaches are limited by static, predefined toolsets that cannot scale to the complexity of open-ended human-agent collaboration. To address this, we initially developed a framework for automated task-oriented multi-turn dialogue generation at scale, utilizing an LRM-based simulator to dynamically generate high-value, domain-specific tools to solve specified tasks. However, we observe that a purely task-oriented design often results in "solely task-solving" trajectories, where the agent completes the objective with minimal interaction, failing to generate the high turn-count conversations seen in realistic scenarios. To bridge this gap, we shift toward a user-oriented simulation paradigm. By decoupling task generation from a dedicated user simulator that mimics human behavioral rules - such as incremental request-making and turn-by-turn feedback - we facilitate more authentic, extended multi-turn dialogues that reflect the iterative nature of real-world problem solving. Our generation pipeline operates as a versatile, plug-and-play module capable of initiating generation from any state, ensuring high scalability in producing extended tool-use data. Furthermore, by facilitating multiple task completions within a single trajectory, it yields a high-density dataset that reflects the multifaceted demands of real-world human-agent interaction.