Танец в оковах: стратегическое убеждение в академической полемике через призму теории сознания
Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind
January 22, 2026
Авторы: Zhitao He, Zongwei Lyu, Yi R Fung
cs.AI
Аннотация
Хотя искусственный интеллект (ИИ) глубоко интегрирован в различные этапы исследовательского процесса и достиг значительных успехов, академическая реплика остается серьезной и недостаточно изученной проблемой. Это связано с тем, что реплика представляет собой сложный процесс стратегической коммуникации в условиях значительной информационной асимметрии, а не просто техническую дискуссию. Следовательно, современные подходы оказываются неэффективными, поскольку в основном имитируют поверхностные лингвистические паттерны, упуская ключевой элемент — принятие перспективы, необходимое для эффективного убеждения. В данной статье мы представляем RebuttalAgent — первую систему, основанную на модели психического состояния (Theory of Mind, ToM) для ведения академической полемики. Она реализована в виде конвейера ToM-Стратегия-Ответ (TSR), который моделирует ментальное состояние рецензента, формулирует стратегию убеждения и генерирует обоснованный ответ. Для обучения нашего агента мы создали RebuttalBench — масштабный набор данных, синтезированный с помощью нового подхода «критика и уточнение». Процесс обучения состоит из двух этапов: начального этапа контролируемого тонкого настроения для оснащения агента способностями к анализу на основе ToM и стратегическому планированию, за которым следует этап обучения с подкреплением, использующий механизм самовознаграждения для масштабируемого самосовершенствования. Для надежной и эффективной автоматизированной оценки мы дополнительно разработали Rebuttal-RM — специализированную систему оценки, обученную на более чем 100 тыс. примеров полемических данных из множества источников, которая превосходит мощную модель-судию GPT-4.1 по согласованности оценок с человеческими предпочтениями. Многочисленные эксперименты показывают, что RebuttalAgent значительно превосходит базовую модель в среднем на 18,3% по автоматическим метрикам, а также опережает передовые проприетарные модели как в автоматизированной, так и в человеческой оценке. Важное замечание: сгенерированное содержание реплики предназначено исключительно для справки, чтобы вдохновить авторов и помочь в составлении черновика. Оно не призвано заменить собственный критический анализ и ответ автора.
English
Although artificial intelligence (AI) has become deeply integrated into various stages of the research workflow and achieved remarkable advancements, academic rebuttal remains a significant and underexplored challenge. This is because rebuttal is a complex process of strategic communication under severe information asymmetry rather than a simple technical debate. Consequently, current approaches struggle as they largely imitate surface-level linguistics, missing the essential element of perspective-taking required for effective persuasion. In this paper, we introduce RebuttalAgent, the first framework to ground academic rebuttal in Theory of Mind (ToM), operationalized through a ToM-Strategy-Response (TSR) pipeline that models reviewer mental state, formulates persuasion strategy, and generates strategy-grounded response. To train our agent, we construct RebuttalBench, a large-scale dataset synthesized via a novel critique-and-refine approach. Our training process consists of two stages, beginning with a supervised fine-tuning phase to equip the agent with ToM-based analysis and strategic planning capabilities, followed by a reinforcement learning phase leveraging the self-reward mechanism for scalable self-improvement. For reliable and efficient automated evaluation, we further develop Rebuttal-RM, a specialized evaluator trained on over 100K samples of multi-source rebuttal data, which achieves scoring consistency with human preferences surpassing powerful judge GPT-4.1. Extensive experiments show RebuttalAgent significantly outperforms the base model by an average of 18.3% on automated metrics, while also outperforming advanced proprietary models across both automated and human evaluations. Disclaimer: the generated rebuttal content is for reference only to inspire authors and assist in drafting. It is not intended to replace the author's own critical analysis and response.