¡No se necesitan indicaciones ocultas! Puedes manipular la revisión por pares de IA con revisiones solo de presentación.

Resumen

A medida que las revisiones generadas por IA pasan de ser herramientas experimentales a formar parte de la infraestructura de revisión por pares, la mayoría de las preocupaciones sobre su robustez se han centrado en ataques explícitos, como instrucciones ocultas e inyección de indicaciones. Estudiamos un modo de fallo más complejo y relevante desde el punto de vista político: sin texto oculto, sin inyección de indicaciones y sin cambios en métodos, experimentos, figuras, ecuaciones, demostraciones ni resultados numéricos. El atacante modifica únicamente el contenido a nivel de presentación, como el resumen, el encuadre de la contribución, el trabajo relacionado, la discusión y la estructura narrativa. Introducimos el reempaquetado adversarial: un ataque de bucle cerrado que utiliza la retroalimentación del revisor IA para buscar revisiones a nivel de presentación mientras mantiene fija la evidencia científica. En tres revisores IA convencionales, el reempaquetado adversarial logra una tasa de éxito del ataque del 75,1 % y una ganancia media de puntuación de +1,21/10. El efecto no se explica por un simple pulido de la prosa. También revelamos que las estrategias que cambian la forma en que el revisor interpreta el artículo, como el reposicionamiento del trabajo relacionado y la ampliación de la discusión analítica, superan sustancialmente a las ediciones superficiales, como el pulido local, el formateo de tablas y los recuadros de algoritmos. Nuestro análisis revela dos modos de fallo estructurales más profundos. En primer lugar, los revisores IA son más fáciles de impresionar que de convencer: resaltar las fortalezas aumenta de manera fiable el mérito percibido, mientras que los intentos de disolver debilidades a menudo resultan contraproducentes. En segundo lugar, los revisores IA pueden confundir la apariencia de abordar una limitación con su resolución real, lo que permite que una evidencia sin cambios sea reinterpretada como una contribución científica más sólida. Estos resultados muestran que el riesgo de implementación no son solo las instrucciones ocultas maliciosas, sino la emergencia de la propia presentación del artículo como una superficie de optimización. Publicamos un punto de referencia continuo libre de contaminación y un marco de ataque para evaluar si los revisores IA permanecen anclados al contenido científico bajo ediciones exclusivas de presentación.

English

As AI-generated reviews move from experimental tools into peer-review infrastructure, most robustness concerns have focused on explicit attacks such as hidden instructions and prompt injection. We study a harder and more policy-relevant failure mode: no hidden text, no prompt injection, and no changes to methods, experiments, figures, equations, proofs, or numerical results. The attacker modifies only presentation-level content, such as the abstract, contribution framing, related work, discussion, and narrative structure. We introduce adversarial repackaging: a closed-loop attack that uses AI-reviewer feedback to search for presentation-level revisions while keeping the scientific evidence fixed. Across three mainstream AI reviewers, adversarial repackaging achieves a 75.1% attack success rate and a mean score gain of +1.21/10. The effect is not explained by ordinary prose polishing. We also reveal that strategies that change how the reviewer interprets the paper, such as related-work repositioning and analytical discussion expansion, substantially outperform surface edits such as local polishing, table formatting, and algorithm boxes. Our analysis reveals two deeper structural failure modes. First, AI reviewers are easier to impress than to convince: highlighting strengths reliably increases perceived merit, while attempts to dissolve weaknesses frequently backfire. Second, AI reviewers can confuse the appearance of addressing a limitation with actually resolving it, allowing unchanged evidence to be reinterpreted as stronger scientific contribution. These results show that the deployment risk is not only malicious hidden instructions, but the emergence of paper presentation itself as an optimization surface. We release a contamination-free rolling benchmark and attack framework for testing whether AI reviewers remain anchored to scientific content under presentation-only edits.