AutoResearchClaw: Investigación Autónoma Autoreforzante con Colaboración Humano-IA

Resumen

Automatizar el descubrimiento científico requiere más que generar artículos a partir de ideas. La investigación real es iterativa: las hipótesis se desafían desde múltiples perspectivas, los experimentos fallan e informan el siguiente intento, y las lecciones se acumulan a lo largo de los ciclos. Los sistemas autónomos de investigación existentes a menudo modelan este proceso como un flujo lineal: dependen del razonamiento de un solo agente, se detienen cuando la ejecución falla y no trasladan la experiencia entre ejecuciones. Presentamos AutoResearchClaw, un flujo de investigación autónomo multiagente basado en cinco mecanismos: debate estructurado multiagente para la generación de hipótesis y el análisis de resultados, un ejecutor autocorrectivo con un bucle de decisión Pivot/Refine que transforma los fallos en información, reporte de resultados verificable que evita números inventados y citas alucinadas, colaboración humano en el ciclo con siete modos de intervención que abarcan desde la autonomía total hasta la supervisión paso a paso, y evolución entre ejecuciones que convierte errores pasados en salvaguardas futuras. En ARC-Bench, un banco de pruebas de 25 temas en fase experimental, AutoResearchClaw supera a AI Scientist v2 en un 54,7%. Un estudio de ablación con humano en el ciclo en siete modos de intervención revela que la colaboración precisa y dirigida en puntos de decisión de alto apalancamiento supera consistentemente tanto a la autonomía total como a la supervisión exhaustiva paso a paso. Posicionamos AutoResearchClaw como un amplificador de la investigación que aumenta, en lugar de reemplazar, el juicio científico humano. El código está disponible en https://github.com/aiming-lab/AutoResearchClaw.

English

Automating scientific discovery requires more than generating papers from ideas. Real research is iterative: hypotheses are challenged from multiple perspectives, experiments fail and inform the next attempt, and lessons accumulate across cycles. Existing autonomous research systems often model this process as a linear pipeline: they rely on single-agent reasoning, stop when execution fails, and do not carry experience across runs. We present AutoResearchClaw, a multi-agent autonomous research pipeline built on five mechanisms: structured multi-agent debate for hypothesis generation and result analysis, a self-healing executor with a Pivot/Refine decision loop that transforms failures into information, verifiable result reporting that prevents fabricated numbers and hallucinated citations, human-in-the-loop collaboration with seven intervention modes spanning full autonomy to step-by-step oversight, and cross-run evolution that converts past mistakes into future safeguards. On ARC-Bench, a 25-topic experiment-stage benchmark, AutoResearchClaw outperforms AI Scientist v2 by 54.7%. A human-in-the-loop ablation across seven intervention modes reveals that precise, targeted collaboration at high-leverage decision points consistently outperforms both full autonomy and exhaustive step-by-step oversight. We position AutoResearchClaw as a research amplifier that augments rather than replaces human scientific judgment. Code is available at https://github.com/aiming-lab/AutoResearchClaw.