RbtAct: Réplica como Supervisão para Geração de Feedback de Revisão Acionável

Resumo

Os grandes modelos de linguagem (LLMs) são cada vez mais utilizados em todo o fluxo de trabalho científico, inclusive para redigir relatórios de revisão por pares. No entanto, muitas análises geradas por IA são superficiais e insuficientemente acionáveis, deixando os autores sem orientação concreta e implementável, o que motiva a lacuna que este trabalho aborda. Propomos o RbtAct, que tem como objetivo a geração de *feedback* de revisão acionável e coloca a réplica (*rebuttal*) existente da revisão por pares no centro da aprendizagem. As réplicas mostram quais comentários dos revisores levaram a revisões concretas ou planos específicos e quais foram apenas defendidos. Com base nessa perceção, aproveitamos a réplica como supervisão implícita para otimizar diretamente um gerador de *feedback* quanto à sua acionabilidade. Para apoiar este objetivo, propomos uma nova tarefa denominada geração de *feedback* de revisão ao nível do segmento condicionada à perspetiva, na qual o modelo é obrigado a produzir um único comentário focado com base no artigo completo e numa perspetiva especificada, como experiências e redação. Também construímos um grande conjunto de dados denominado RMR-75K que mapeia segmentos de revisão para os segmentos de réplica que os abordam, com etiquetas de perspetiva e categorias de impacto que ordenam a adoção pelo autor. Em seguida, treinámos o modelo Llama-3.1-8B-Instruct com afinação supervisionada em segmentos de revisão, seguida de otimização de preferência usando pares derivados de réplicas. Experiências com especialistas humanos e LLM-como-juiz mostram ganhos consistentes em acionabilidade e especificidade em relação a *baselines* fortes, mantendo ao mesmo tempo o enraizamento e a relevância.

English

Large language models (LLMs) are increasingly used across the scientific workflow, including to draft peer-review reports. However, many AI-generated reviews are superficial and insufficiently actionable, leaving authors without concrete, implementable guidance and motivating the gap this work addresses. We propose RbtAct, which targets actionable review feedback generation and places existing peer review rebuttal at the center of learning. Rebuttals show which reviewer comments led to concrete revisions or specific plans, and which were only defended. Building on this insight, we leverage rebuttal as implicit supervision to directly optimize a feedback generator for actionability. To support this objective, we propose a new task called perspective-conditioned segment-level review feedback generation, in which the model is required to produce a single focused comment based on the complete paper and a specified perspective such as experiments and writing. We also build a large dataset named RMR-75K that maps review segments to the rebuttal segments that address them, with perspective labels and impact categories that order author uptake. We then train the Llama-3.1-8B-Instruct model with supervised fine-tuning on review segments followed by preference optimization using rebuttal derived pairs. Experiments with human experts and LLM-as-a-judge show consistent gains in actionability and specificity over strong baselines while maintaining grounding and relevance.