ChatPaper.aiChatPaper

AInstein: Evaluación de la Viabilidad de Enfoques Generados por IA para Problemas de Investigación

AInstein: Assessing the Feasibility of AI-Generated Approaches to Research Problems

October 6, 2025
Autores: Shambhavi Mishra, Gaurav Sahu, Marco Pedersoli, Laurent Charlin, Jose Dolz, Christopher Pal
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) demuestran capacidades impresionantes en una amplia gama de tareas, aunque aún no está claro si dicho éxito refleja un razonamiento genuino o un recuerdo sofisticado. Presentamos AInstein, un marco para evaluar si los LLMs pueden generar soluciones válidas a problemas de investigación en inteligencia artificial utilizando únicamente su conocimiento paramétrico preentrenado, sin ajustes específicos del dominio, aumentación de recuperación u otras ayudas externas. Nuestro enfoque extrae enunciados de problemas destilados de las propuestas de alta calidad presentadas a ICLR 2025, y luego asigna a agentes especializados en resolución la tarea de proponer y refinar soluciones técnicas mediante bucles iterativos de crítica, imitando los ciclos de propuesta, revisión y corrección centrales en la investigación científica. Evaluamos AInstein en 1,214 artículos de ICLR estratificados por nivel de aceptación (Oral, Spotlight, Poster), utilizando un paradigma de LLM-como-juez guiado por una rúbrica estructurada, complementado con verificaciones manuales específicas. El rendimiento se evalúa con tres métricas: Tasa de Éxito (¿la solución aborda el problema?), Redescubrimiento (¿se alinea con métodos propuestos por humanos?) y Novedad (¿produce enfoques válidos y originales?). Nuestros resultados revelan que, aunque los LLMs pueden redescubrir soluciones factibles y ocasionalmente proponer alternativas creativas, su capacidad para resolver problemas sigue siendo frágil y altamente sensible al enfoque. Estos hallazgos proporcionan la primera evidencia a gran escala sobre el grado en que los LLMs pueden actuar como solucionadores autónomos de problemas científicos, destacando tanto su potencial latente como sus limitaciones actuales.
English
Large language models (LLMs) demonstrate impressive capabilities across a wide range of tasks, yet it remains unclear whether such success reflects genuine reasoning or sophisticated recall. We introduce AInstein, a framework for testing whether LLMs can generate valid solutions to AI research problems using only their pretrained parametric knowledge -- without domain-specific fine-tuning, retrieval augmentation, or other external aids. Our approach extracts distilled problem statements from high-quality ICLR 2025 submissions, then tasks specialized solver agents with proposing and refining technical solutions through iterative critique loops, mimicking the cycles of proposal, review, and revision central to scientific inquiry. We evaluate AInstein on 1,214 ICLR papers stratified by acceptance tier (Oral, Spotlight, Poster), using an LLM-as-a-judge paradigm guided by a structured rubric, complemented by targeted manual checks. Performance is assessed with three metrics: Success Rate (does the solution address the problem?), Rediscovery (does it align with human-proposed methods?), and Novelty (does it yield valid, original approaches?). Our results reveal that while LLMs can rediscover feasible solutions and occasionally propose creative alternatives, their problem-solving ability remains fragile and highly sensitive to framing. These findings provide the first large-scale evidence on the extent to which LLMs can act as autonomous scientific problem-solvers, highlighting both their latent potential and their current limitations.
PDF64October 8, 2025