AutoResearch AI: Hacia la automatización de la investigación impulsada por IA para el descubrimiento científico

Resumen

La investigación científica está siendo reconfigurada por sistemas de IA que trascienden la asistencia aislada y se orientan hacia flujos de trabajo de horizonte temporal más amplio que abarcan fundamentación bibliográfica, generación de hipótesis, experimentación, validación, redacción y revisión. Este cambio marca una transición desde la IA a nivel de tarea para la ciencia hacia la automatización de la investigación a nivel de flujo de trabajo. Sin embargo, los sistemas actuales siguen fragmentados, diferenciándose en autonomía, alcance disciplinario, entorno de ejecución, mecanismo de validación y supervisión humana, mientras aún enfrentan dificultades con la preservación de evidencia, reproducibilidad, rechazo de direcciones débiles, trazabilidad de procedencia, robustez interdisciplinaria y cierre científico responsable. Esta revisión examina estos desarrollos a través de *AutoResearch*, definido como el espectro evolutivo de la automatización de flujos de trabajo científicos impulsada por IA. Dentro de este, *Vibe Research* designa la región guiada por humanos de asistencia basada en instrucciones y ejecución verificada por humanos, mientras que los sistemas emergentes liderados por IA coordinan partes mayores del ciclo de descubrimiento sin alcanzar una autonomía robusta. Analizamos cómo los sistemas de investigación redistribuyen el control, la evidencia, la ejecución, la validación y la rendición de cuentas a lo largo de los flujos de trabajo, y organizamos el campo en torno a cinco condiciones del flujo de trabajo: fundamentación bibliográfica y de investigación; formulación y planificación de hipótesis; experimentación y uso de herramientas; retroalimentación, validación y revisión; y comunicación de resultados y conocimiento. Además, sintetizamos sistemas de científico de IA, marcos de co-investigación de iniciativa mixta, puntos de referencia, implementaciones disciplinarias e infraestructuras de código abierto. Finalmente, proponemos cinco dimensiones de evaluación —novedad, validez, impacto, fiabilidad y procedencia— y mostramos que la autonomía de *AutoResearch* está condicionada por el dominio, siendo más creíble en entornos estructurados, ejecutables y rápidamente verificables, pero limitada en contextos encarnados, con demoras, heterogéneos, éticos o sujetos a rendición de cuentas institucional.

English

Scientific research is being reshaped by AI systems that move beyond isolated assistance toward longer-horizon workflows spanning literature grounding, hypothesis generation, experimentation, validation, reporting, and revision. This shift marks a transition from task-level AI for science to workflow-level research automation. Yet current systems remain fragmented, differing in autonomy, domain scope, execution environment, validation mechanism, and human oversight, while still struggling with evidence preservation, reproducibility, weak-direction rejection, provenance tracking, cross-domain robustness, and accountable scientific closure. This survey examines these developments through AutoResearch, defined as the developmental spectrum of AI-powered scientific workflow automation. Within it, Vibe Research denotes the human-steered region of prompt-based assistance and human-verified execution, whereas emerging AI-led systems coordinate larger portions of the discovery loop without achieving robust autonomy. We analyze how research systems redistribute control, evidence, execution, validation, and accountability across workflows and organize the field around five workflow conditions: literature and research grounding; hypothesis formation and planning; experimentation and tool use; feedback, validation, and review; and reporting and knowledge communication. We further synthesize AI scientist systems, mixed-initiative co-research frameworks, benchmarks, domain deployments, and open-source infrastructures. Finally, we propose five evaluation dimensions--novelty, validity, impact, reliability, and provenance--and show that AutoResearch autonomy is domain-conditioned, being more credible in structured, executable, and rapidly verifiable settings but limited in embodied, delayed, heterogeneous, ethical, or institutionally accountable contexts.