RbtAct: La Réplica como Supervisión para la Generación de Comentarios de Revisión Accionables

Resumen

Los modelos de lenguaje de gran tamaño (LLM) se utilizan cada vez más en todo el flujo de trabajo científico, incluso para redactar informes de revisión por pares. Sin embargo, muchas revisiones generadas por IA son superficiales y carecen de capacidad de acción suficiente, dejando a los autores sin una guía concreta y aplicable, lo que motiva la brecha que este trabajo aborda. Proponemos RbtAct, que se centra en la generación de comentarios de revisión accionables y sitúa las réplicas existentes de la revisión por pares en el centro del aprendizaje. Las réplicas muestran qué comentarios del revisor condujeron a revisiones concretas o planes específicos, y cuáles solo fueron defendidos. Basándonos en esta idea, aprovechamos la réplica como supervisión implícita para optimizar directamente un generador de comentarios en función de su capacidad de acción. Para respaldar este objetivo, proponemos una nueva tarea denominada generación de comentarios de revisión a nivel de segmento condicionada por la perspectiva, en la que el modelo debe producir un único comentario centrado basado en el artículo completo y una perspectiva específica, como los experimentos y la redacción. También construimos un gran conjunto de datos denominado RMR-75K que mapea segmentos de revisión con los segmentos de réplica que los abordan, con etiquetas de perspectiva y categorías de impacto que ordenan la acogida por parte del autor. Luego, entrenamos el modelo Llama-3.1-8B-Instruct con ajuste fino supervisado en segmentos de revisión, seguido de una optimización de preferencias utilizando pares derivados de las réplicas. Los experimentos con expertos humanos y un LLM-como-juez muestran mejoras consistentes en la capacidad de acción y la especificidad sobre líneas base sólidas, manteniendo al mismo tiempo la fundamentación y la relevancia.

English

Large language models (LLMs) are increasingly used across the scientific workflow, including to draft peer-review reports. However, many AI-generated reviews are superficial and insufficiently actionable, leaving authors without concrete, implementable guidance and motivating the gap this work addresses. We propose RbtAct, which targets actionable review feedback generation and places existing peer review rebuttal at the center of learning. Rebuttals show which reviewer comments led to concrete revisions or specific plans, and which were only defended. Building on this insight, we leverage rebuttal as implicit supervision to directly optimize a feedback generator for actionability. To support this objective, we propose a new task called perspective-conditioned segment-level review feedback generation, in which the model is required to produce a single focused comment based on the complete paper and a specified perspective such as experiments and writing. We also build a large dataset named RMR-75K that maps review segments to the rebuttal segments that address them, with perspective labels and impact categories that order author uptake. We then train the Llama-3.1-8B-Instruct model with supervised fine-tuning on review segments followed by preference optimization using rebuttal derived pairs. Experiments with human experts and LLM-as-a-judge show consistent gains in actionability and specificity over strong baselines while maintaining grounding and relevance.

RbtAct: La Réplica como Supervisión para la Generación de Comentarios de Revisión Accionables

RbtAct: Rebuttal as Supervision for Actionable Review Feedback Generation

Resumen

Support