대화 시스템에서의 적응형 다중 에이전트 응답 정제
Adaptive Multi-Agent Response Refinement in Conversational Systems
November 11, 2025
저자: Soyeong Jeong, Aparna Elangovan, Emine Yilmaz, Oleg Rokhlenko
cs.AI
초록
대규모 언어 모델(LLM)은 인간과 유사한 응답을 생성함으로써 대화 시스템에서 놀라운 성과를 입증해왔습니다. 그러나 특히 개인화나 특정 지식을 반영해야 하는 경우에는 부족함을 보일 수 있습니다. 실제 환경에서는 사용자가 이러한 오류를 직접 발견하고 새 응답을 요청하는 것을 기대하기 어렵습니다. 이 문제를 해결하는 한 가지 방법은 사용자에게 응답을 반환하기 전에 이를 정제하는 것입니다. 기존 접근법이 단일 LLM 내에서 응답을 정제하는 데 집중하는 동안, 이러한 방법은 효과적인 대화에 필요한 다양한 측면을 고려하는 데 어려움을 겪습니다. 본 연구에서는 각 에이전트가 특정 측면에 대한 역할을 부여받는 다중 에이전트 프레임워크를 통한 응답 정제 방식을 제안합니다. 우리는 대화 품질에 중요한 세 가지 핵심 측면, 즉 사실성, 개인화, 일관성에 주목합니다. 각 에이전트는 이 중 하나의 측면을 검토하고 개선하는 역할을 담당하며, 이들의 피드백을 통합하여 전체 응답의 질을 높입니다. 에이전트 간 협력을 강화하기 위해 우리는 동적 커뮤니케이션 전략을 도입했습니다. 고정된 에이전트 순서를 따르는 대신, 우리의 접근 방식은 각 질의의 특정 요구사항에 기반하여 가장 관련성 높은 에이전트를 적응적으로 선택하고 조정합니다. 우리는 이 프레임워크를 도전적인 대화 데이터셋에서 검증하였으며, 특히 지식이나 사용자 개인정보 또는 둘 다를 포함하는 작업에서 관련 기준선들을 크게 능가함을 입증했습니다.
English
Large Language Models (LLMs) have demonstrated remarkable success in conversational systems by generating human-like responses. However, they can fall short, especially when required to account for personalization or specific knowledge. In real-life settings, it is impractical to rely on users to detect these errors and request a new response. One way to address this problem is to refine the response before returning it to the user. While existing approaches focus on refining responses within a single LLM, this method struggles to consider diverse aspects needed for effective conversations. In this work, we propose refining responses through a multi-agent framework, where each agent is assigned a specific role for each aspect. We focus on three key aspects crucial to conversational quality: factuality, personalization, and coherence. Each agent is responsible for reviewing and refining one of these aspects, and their feedback is then merged to improve the overall response. To enhance collaboration among them, we introduce a dynamic communication strategy. Instead of following a fixed sequence of agents, our approach adaptively selects and coordinates the most relevant agents based on the specific requirements of each query. We validate our framework on challenging conversational datasets, demonstrating that ours significantly outperforms relevant baselines, particularly in tasks involving knowledge or user's persona, or both.