Пересмотр или повторное решение? Декомпозиция вторичных улучшений в мультимодальных LLM-конвейерах

Аннотация

Пайплайны многомодельного ревизирования, в которых вторая модель проверяет и улучшает черновик, созданный первой, широко принято считать получающими выгоду за счет подлинного исправления ошибок. Мы ставим это предположение под сомнение с помощью контролируемого эксперимента по декомпозиции, который использует четыре согласованных условия для разделения выигрыша второго прохода на три аддитивных компонента: повторное решение, каркас и содержание. Мы оцениваем эту конструкцию на двух парах моделей и трех тестовых наборах, охватывающих насыщенные знаниями MCQ и соревновательное программирование. Наши результаты показывают, что выгоды многомодельного ревизирования не монолитны, а зависят от структуры задачи, качества черновика и типа информации в черновике. В задачах MCQ, где пространство ответов ограничено, а черновики дают мало структурных указаний, большая часть выигрыша соответствует повторному решению более сильной моделью, и прямая маршрутизация запросов к сильной модели может быть эффективнее, чем ревизия слабого черновика. Однако в задачах генерации кода двухэтапное prompting остается полезным, поскольку даже семантически пустые черновики могут обеспечить существенное структурное каркасирование, в то время как слабое содержание черновика может быть вредным. Наконец, эксперименты с обратными ролями показывают, что сильные черновики явно приносят пользу слабым рецензентам. В конечном счете, наши выводы демонстрируют, что полезность многомодельного ревизирования динамически ограничивается структурой задачи и качеством черновика, что требует более целенаправленного проектирования пайплайнов вместо универсальных стратегий ревизирования.

English

Multi-LLM revision pipelines, in which a second model reviews and improves a draft produced by a first, are widely assumed to derive their gains from genuine error correction. We question this assumption with a controlled decomposition experiment that uses four matched conditions to separate second-pass gains into three additive components: re-solving, scaffold, and content. We evaluate this design across two model pairs on three benchmarks spanning knowledge-intensive MCQ and competitive programming. Our results show that the gains of multi-LLM revision are not monolithic, but depend on task structure, draft quality, and the type of draft information. On MCQ tasks, where the answer space is constrained and drafts provide little structural guidance, most gains are consistent with stronger-model re-solving, and directly routing queries to the stronger model can be more effective than revising a weak draft. On code generation tasks, however, two-stage prompting remains useful because even semantically null drafts can provide substantial structural scaffolding, while weak draft content can be harmful. Finally, role-reversed experiments show that strong drafts clearly benefit weak reviewers. Ultimately, our findings demonstrate that the utility of multi-LLM revision is dynamically bottlenecked by task structure and draft quality, necessitating more targeted pipeline designs rather than blanket revision strategies.

Пересмотр или повторное решение? Декомпозиция вторичных улучшений в мультимодальных LLM-конвейерах

Revision or Re-Solving? Decomposing Second-Pass Gains in Multi-LLM Pipelines

Аннотация

Support