ChatPaper.aiChatPaper

Fed-SE: 개인정보 제약 다중 환경 LLM 에이전트를 위한 연합 자기 진화

Fed-SE: Federated Self-Evolution for Privacy-Constrained Multi-Environment LLM Agents

December 9, 2025
저자: Xiang Chen, Yuling Shi, Qizhen Lan, Yuchao Qiu, Xiaodong Gu
cs.AI

초록

LLM 에이전트는 복잡한 상호작용 작업에 널리 배포되지만, 개인정보 보호 제약으로 인해 동적 환경에서의 중앙집중식 최적화 및 공동 진화가 어려운 경우가 많습니다. 연합학습(Federated Learning, FL)은 정적 데이터셋에서 효과적임이 입증되었으나, 에이전트의 개방형 자기 진화(self-evolution)로의 확장은 아직 충분히 연구되지 않았습니다. 표준 FL을 직접 적용하는 것은 여러 가지 도전 과제를 안고 있습니다. 이기종 작업과 희소하며 궤적 수준의 보상은 심각한 그래디언트 충돌을 초래하여 전역 최적화 과정을 불안정하게 만듭니다. 이러한 차이를 해결하기 위해 우리는 LLM 에이전트를 위한 연합 자기 진화 프레임워크인 Fed-SE를 제안합니다. Fed-SE는 지역적 진화-전역적 집약 패러다임을 확립합니다. 지역적으로는 에이전트가 필터링된 높은 보상 궤적에 대해 매개변수 효율적 미세 조정을 사용하여 안정적인 그래디언트 업데이트를 달성합니다. 전역적으로는 Fed-SE가 환경 특이적 동역학을 분리하는 저차원 부분공간 내에서 업데이트를 집약하여 클라이언트 간 부정적 전이를 효과적으로 감소시킵니다. 5가지 이기종 환경에서의 실험 결과, Fed-SE가 연합 학습 기준선 대비 평균 작업 성공률을 약 18% 향상시켜, 개인정보 보호가 제약된 배포 환경에서도 강건한 교차 환경 지식 전달의 효과성을 입증했습니다.
English
LLM agents are widely deployed in complex interactive tasks, yet privacy constraints often preclude centralized optimization and co-evolution across dynamic environments. While Federated Learning (FL) has proven effective on static datasets, its extension to the open-ended self-evolution of agents remains underexplored. Directly applying standard FL is challenging: heterogeneous tasks and sparse, trajectory-level rewards introduce severe gradient conflicts, destabilizing the global optimization process. To bridge this gap, we propose Fed-SE, a Federated Self-Evolution framework for LLM agents. Fed-SE establishes a local evolution-global aggregation paradigm. Locally, agents employ parameter-efficient fine-tuning on filtered, high-return trajectories to achieve stable gradient updates. Globally, Fed-SE aggregates updates within a low-rank subspace that disentangles environment-specific dynamics, effectively reducing negative transfer across clients. Experiments across five heterogeneous environments demonstrate that Fed-SE improves average task success rates by approximately 18% over federated baselines, validating its effectiveness in robust cross-environment knowledge transfer in privacy-constrained deployments.
PDF21December 13, 2025