PlanGEN: 복잡한 문제 해결을 위한 계획 및 추론 궤적을 생성하는 다중 에이전트 프레임워크
PlanGEN: A Multi-Agent Framework for Generating Planning and Reasoning Trajectories for Complex Problem Solving
February 22, 2025
저자: Mihir Parmar, Xin Liu, Palash Goyal, Yanfei Chen, Long Le, Swaroop Mishra, Hossein Mobahi, Jindong Gu, Zifeng Wang, Hootan Nakhost, Chitta Baral, Chen-Yu Lee, Tomas Pfister, Hamid Palangi
cs.AI
초록
최근 에이전트 프레임워크와 추론 시간 알고리즘은 복잡한 계획 문제에 대해 종종 생성된 계획을 검증하거나 단일 작업 내에서 발생하는 다양한 복잡성을 추론하는 제한으로 인해 어려움을 겪습니다. 이러한 작업에 대한 많은 기존 방법은 제약 조건을 고려하지 않고 작업 수준의 검증을 수행하거나 추론 시간 알고리즘을 적용하면서 인스턴스 수준의 복잡성에 적응하지 못합니다. 이러한 제한을 해결하기 위해 우리는 PlanGEN이라는 모델에 중립적이고 쉽게 확장 가능한 에이전트 프레임워크를 제안합니다. 이 프레임워크에는 제약, 검증 및 선택 에이전트라는 세 가지 주요 구성 요소가 있습니다. 구체적으로, 우리의 접근 방식은 제약으로 안내된 반복적인 검증을 제안하여 추론 시간 알고리즘인 Best of N, Tree-of-Thought 및 REBASE의 성능을 향상시킵니다. PlanGEN 프레임워크에서 선택 에이전트는 인스턴스 복잡성을 기반으로 알고리즘 선택을 최적화하여 복잡한 계획 문제에 대한 더 나은 적응성을 보장합니다. 실험 결과는 강력한 기준선을 크게 능가하여 NATURAL PLAN (약 8% 향상), OlympiadBench (약 4% 향상), DocFinQA (약 7% 향상) 및 GPQA (약 1% 향상)에서 최첨단 결과를 달성함을 보여줍니다. 우리의 주요 발견은 제약으로 안내된 반복적인 검증이 추론 시간 알고리즘을 개선하고 적응적 선택이 복잡한 계획 및 추론 문제에서 성능을 더욱 향상시킨다는 것을 강조합니다.
English
Recent agent frameworks and inference-time algorithms often struggle with
complex planning problems due to limitations in verifying generated plans or
reasoning and varying complexity of instances within a single task. Many
existing methods for these tasks either perform task-level verification without
considering constraints or apply inference-time algorithms without adapting to
instance-level complexity. To address these limitations, we propose PlanGEN, a
model-agnostic and easily scalable agent framework with three key components:
constraint, verification, and selection agents. Specifically, our approach
proposes constraint-guided iterative verification to enhance performance of
inference-time algorithms--Best of N, Tree-of-Thought, and REBASE. In PlanGEN
framework, the selection agent optimizes algorithm choice based on instance
complexity, ensuring better adaptability to complex planning problems.
Experimental results demonstrate significant improvements over the strongest
baseline across multiple benchmarks, achieving state-of-the-art results on
NATURAL PLAN (sim8%uparrow), OlympiadBench (sim4%uparrow), DocFinQA
(sim7%uparrow), and GPQA (sim1%uparrow). Our key finding highlights
that constraint-guided iterative verification improves inference-time
algorithms, and adaptive selection further boosts performance on complex
planning and reasoning problems.Summary
AI-Generated Summary