Avanzando la Inteligencia Física Creativa en Grandes Modelos Multimodales

Resumen

Los Modelos Multimodales Grandes (LMMs) han avanzado rápidamente en percepción y razonamiento; sin embargo, no está claro si estas capacidades se generalizan al descubrimiento de soluciones fundamentadas visualmente en entornos abiertos, más allá del reconocimiento de patrones. En tales entornos, la inteligencia requiere más que responder preguntas bien formuladas: implica identificar cómo los elementos de una escena pueden ser reutilizados de maneras no obvias pero físicamente factibles. Esta forma de resolución creativa de problemas es central para la inteligencia humana, pero sigue siendo en gran medida no evaluada en los puntos de referencia actuales. Para evaluar esta habilidad, presentamos MM-CreativityBench, un punto de referencia para el uso creativo de herramientas fundamentado en affordances en entornos visualmente ricos y físicamente restringidos. Cada instancia presenta una imagen de escenario con vistas estructuradas de entidades candidatas y sus partes, permitiendo una evaluación interactiva y detallada de cómo los modelos inspeccionan la escena de manera iterativa, identifican affordances relevantes y componen soluciones fundamentadas visual y físicamente. Nuestros experimentos muestran que los LMMs actuales a menudo no alcanzan el objetivo, no por falta de capacidad generativa, sino porque no sostienen una exploración fundamentada. Los modelos frecuentemente pasan por alto entidades relevantes, examinan insuficientemente partes críticas o alucinan atributos no fundamentados en la imagen. Motivados por este modo de fallo, proponemos el alineamiento fundamentado en affordances, que plantea el uso creativo de herramientas como un problema de aprendizaje por preferencias. Utilizando la Optimización Directa de Preferencias, alentamos a los modelos a preferir el razonamiento atributo-affordance fundamentado en evidencia visual sobre alternativas alucinadas. Además, incorporamos supervisión derivada de una base de conocimiento de affordances para guiar una exploración más amplia de entidades y la planificación en múltiples turnos. Nuestros resultados muestran mejoras consistentes en la selección de las entidades y partes correctas, reduciendo sustancialmente los errores relacionados con alucinaciones y fundamentación.

English

Large multimodal models (LMMs) have rapidly advanced in perception and reasoning; however, it remains unclear whether these capabilities generalize to discovering visually grounded solutions in open-ended environments, beyond pattern recognition. In such settings, intelligence requires more than answering well-posed questions: it involves identifying how elements in a scene can be repurposed in non-obvious yet physically feasible ways. This form of creative problem-solving is central to human intelligence, but remains largely untested in current benchmarks. To evaluate this ability, we introduce MM-CreativityBench, a benchmark for affordance-grounded creative tool use in visually rich, physically constrained environments. Each instance presents a scenario image with structured views of candidate entities and their parts, enabling fine-grained, interactive evaluation of how models iteratively inspect the scene, identify relevant affordances, and compose visually and physically grounded solutions. Our experiments show that current LMMs often fall short, not due to lack of generative capability, but because they do not sustain grounded exploration. Models often overlook relevant entities, under-examine critical parts, or hallucinate attributes not grounded in the image. Motivated by this failure mode, we propose affordance-grounded alignment, which casts creative tool use as a preference learning problem. Using Direct Preference Optimization, we encourage models to prefer attribute-affordance reasoning grounded in visual evidence over hallucinated alternatives. In addition, we incorporate supervision derived from an affordance knowledge base to guide broader entity exploration and multi-turn planning. Our results show consistent gains in selecting the correct entities and parts, while substantially reducing hallucination and grounding-related errors.