会話システムにおける適応型マルチエージェント応答調整
Adaptive Multi-Agent Response Refinement in Conversational Systems
November 11, 2025
著者: Soyeong Jeong, Aparna Elangovan, Emine Yilmaz, Oleg Rokhlenko
cs.AI
要旨
大規模言語モデル(LLM)は、人間らしい応答を生成することで対話システムにおいて顕著な成功を収めている。しかし特に、個人化や特定の知識を考慮する必要がある場合には、不十分な結果をもたらすことがある。現実の設定では、ユーザーがこれらの誤りを検出して新たな応答を要求することに依存するのは非現実的である。この問題に対処する一つの方法は、ユーザーに応答を返す前にそれを洗練させることである。既存のアプローチは単一のLLM内での応答改良に焦点を当てているが、この方法では効果的な対話に必要な多様な側面を考慮することが困難である。本研究では、各エージェントが特定の側面に対して役割を割り当てられるマルチエージェントフレームワークを通じた応答の改良を提案する。我々は対話の品質において重要な三つの側面、すなわち正確性、個人化、一貫性に焦点を当てる。各エージェントはこれらの側面の一つを検証し改良する責任を負い、そのフィードバックを統合して応答全体を改善する。エージェント間の協調を強化するため、動的なコミュニケーション戦略を導入する。固定されたエージェントの序列に従うのではなく、各クエリの特定の要求に基づいて最も関連性の高いエージェントを適応的に選択し調整する。我々は提案フレームワークを困難な対話データセットで検証し、特に知識やユーザーの人格、またはその両方を扱うタスクにおいて、関連するベースラインを有意に上回る性能を示すことを実証した。
English
Large Language Models (LLMs) have demonstrated remarkable success in conversational systems by generating human-like responses. However, they can fall short, especially when required to account for personalization or specific knowledge. In real-life settings, it is impractical to rely on users to detect these errors and request a new response. One way to address this problem is to refine the response before returning it to the user. While existing approaches focus on refining responses within a single LLM, this method struggles to consider diverse aspects needed for effective conversations. In this work, we propose refining responses through a multi-agent framework, where each agent is assigned a specific role for each aspect. We focus on three key aspects crucial to conversational quality: factuality, personalization, and coherence. Each agent is responsible for reviewing and refining one of these aspects, and their feedback is then merged to improve the overall response. To enhance collaboration among them, we introduce a dynamic communication strategy. Instead of following a fixed sequence of agents, our approach adaptively selects and coordinates the most relevant agents based on the specific requirements of each query. We validate our framework on challenging conversational datasets, demonstrating that ours significantly outperforms relevant baselines, particularly in tasks involving knowledge or user's persona, or both.