B-공간의 포화: LoRA 병합을 위한 공유 방향 보정
Crowded in B-Space: Calibrating Shared Directions for LoRA Merging
April 18, 2026
저자: Yixuan Tang, Yi Yang
cs.AI
초록
별도로 학습된 LoRA 어댑터를 병합하는 것은 다중 작업을 함께 학습하는 대안으로 실용적이지만, 성능 저하가 자주 발생합니다. 기존 방법들은 일반적으로 LoRA 업데이트 ΔW = BA를 단일 객체로 취급하며 두 LoRA 행렬을 구분하지 않습니다. 본 연구에서는 LoRA 병합 간섭의 주요 원인이 출력 측 행렬 B에서 비롯됨을 보여줍니다. 다양한 작업에서 B는 소수의 공유 방향을 반복적으로 사용하는 반면, A는 훨씬 더 작업 특화적으로 유지됩니다. 그 결과 병합된 어댑터는 이러한 공유 방향을 과도하게 강조하게 되고 작업 특화 정보는 손실됩니다. 우리는 데이터 없이도 적용 가능한 방법인 Pico(출력 공간에서의 병합 전 간섭 보정)를 제안합니다. Pico는 과도하게 공유된 방향을 축소한 후 병합된 업데이트를 재조정하여 B를 사전에 보정합니다. Pico는 Task Arithmetic, TIES, TSV-M과 같은 기존 병합 방법에 직접 적용할 수 있습니다. 수학, 코딩, 금융, 의료 분야의 8가지 다양한 벤치마크에서 Pico는 해당 기본 방법 대비 평균 정확도를 3.4-8.3점 향상시켰으며, 전반적인 평균 성능에서도 가장 우수한 결과를 달성했습니다. 또한 Pico를 적용한 병합 어댑터는 모든 작업 데이터로 학습된 LoRA를 능가하는 성능을 보여주었습니다. 이러한 결과는 두 LoRA 행렬을 별도로 처리할 때 LoRA 병합이 더 효과적으로 작동함을 시사합니다.
English
Merging separately trained LoRA adapters is a practical alternative to joint multi-task training, but it often hurts performance. Existing methods usually treat the LoRA update ΔW = BA as a single object and do not distinguish the two LoRA matrices. We show that the main source of LoRA merge interference comes from the output-side matrix B. Across tasks, B repeatedly uses a small set of shared directions, while A remains much more task-specific. As a result, the merged adapter overemphasizes these shared directions, and task-specific information is lost. We propose Pico (Pre-merge interference calibration in output-space), a data-free method that calibrates B before merge by downscaling over-shared directions and then rescaling the merged update. Pico plugs directly into existing merging methods such as Task Arithmetic, TIES, and TSV-M. Across eight different benchmarks from math, coding, finance, and medical domains, Pico improves average accuracy by 3.4-8.3 points over the corresponding base method and achieves the best overall average performance. Pico also enables merged adapters to outperform the LoRA trained with all task data. These results show that LoRA merging works better when the two LoRA matrices are treated separately.