ChatPaper.aiChatPaper

수정인가 재해결인가? 다중 LLM 파이프라인에서의 재처리 성능 향상 요인 분석

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

April 1, 2026
저자: Jingjie Ning, Xueqi Li, Chengyu Yu
cs.AI

초록

다중 LLM 수정 파이프라인(두 번째 모델이 첫 번째 모델이 생성한 초안을 검토하고 개선하는 방식)은 일반적으로 진정한 오류 수정에서 비롯된 성능 향상으로 간주됩니다. 본 연구는 이러한 가정에 의문을 제기하며, 2차 처리 이점을 세 가지 추가 구성 요소(재해결, 스캐폴드, 콘텐츠)로 분리하기 위해 네 가지 통제 조건을 사용한 통제 분해 실험을 수행합니다. 우리는 이 설계를 두 모델 쌍과 지식 기반 MCQ 및 경쟁적 프로그래밍을 아우르는 세 가지 벤치마크에서 평가합니다. 결과에 따르면 다중 LLM 수정의 이점은 단일적이지 않으며, 과제 구조, 초안 품질 및 초안 정보 유형에 따라 달라집니다. 답변 공간이 제한되고 초안이 구조적 지침을 거의 제공하지 않는 MCQ 과제에서는 대부분의 이점이 강력한 모델의 재해결과 일치하며, 약한 초안을 수정하는 것보다 강력한 모델로 질의를 직접 라우팅하는 것이 더 효과적일 수 있습니다. 그러나 코드 생성 과제에서는 의미론적으로 무의미한 초안이라도 상당한 구조적 스캐폴딩을 제공할 수 있고, 약한 초안 콘텐츠는 해로울 수 있기 때문에 두 단계 프롬프팅이 여전히 유용합니다. 마지막으로 역할 반전 실험은 강력한 초안이 약한 검토자에게 명확한 이점을 제공함을 보여줍니다. 궁극적으로 우리의 연구 결과는 다중 LLM 수정의 유용성이 과제 구조와 초안 품질에 의해 동적으로 병목 현상이 발생함을 입증하며, 포괄적인 수정 전략보다는 더 표적화된 파이프라인 설계가 필요함을 시사합니다.
English
Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.
PDF21April 3, 2026