Artículos de investigación en IA seleccionados diariamente con traducciones
Los recientes avances en generación y edición de imágenes han abierto nuevas oportunidades para el probador virtual. Sin embargo, los métodos existentes aún tienen dificultades para satisfacer las complejas demandas del mundo real. Presentamos Tstars-Tryon 1.0, un sistema de prueba virtual a escala comercial que es robusto, realista, versátil y altamente eficiente. En primer lugar, nuestro sistema mantiene una alta tasa de éxito en casos desafiantes como poses extremas, variaciones de iluminación severas, desenfoque de movimiento y otras condiciones en entornos naturales. En segundo lugar, ofrece resultados altamente fotorrealistas con detalles granulares, preservando fielmente la textura de la prenda, las propiedades del material y las características estructurales, evitando en gran medida los artefactos comunes generados por IA. En tercer lugar, más allá de la prueba de ropa, nuestro modelo admite una composición flexible de múltiples imágenes (hasta 6 imágenes de referencia) en 8 categorías de moda, con control coordinado sobre la identidad de la persona y el fondo. En cuarto lugar, para superar los cuellos de botella de latencia en el despliegue comercial, nuestro sistema está altamente optimizado para la velocidad de inferencia, ofreciendo una generación casi en tiempo real para una experiencia de usuario fluida. Estas capacidades están habilitadas por un diseño de sistema integrado que abarca una arquitectura de modelo de extremo a extremo, un motor de datos escalable, infraestructura robusta y un paradigma de entrenamiento multietapa. La evaluación exhaustiva y el despliegue del producto a gran escala demuestran que Tstars-Tryon1.0 logra un rendimiento general líder. Para apoyar la investigación futura, también publicamos un punto de referencia integral. El modelo ha sido desplegado a escala industrial en la aplicación Taobao, atendiendo a millones de usuarios con decenas de millones de solicitudes.
La síntesis de vídeos de interacción humano-objeto (HOI) posee un amplio valor práctico en el comercio electrónico, la publicidad digital y el marketing virtual. Sin embargo, los modelos de difusión actuales, a pesar de su capacidad de renderizado fotorrealista, siguen fallando con frecuencia en (i) la estabilidad estructural de regiones sensibles como manos y rostros, y (ii) el contacto físicamente plausible (por ejemplo, evitando la interpenetración mano-objeto). Presentamos CoInteract, un marco integral de extremo a extremo para la síntesis de vídeos HOI condicionado por una imagen de referencia de la persona, una imagen de referencia del producto, instrucciones textuales y audio de voz. CoInteract introduce dos diseños complementarios integrados en una arquitectura base de Transformer de Difusión (DiT). En primer lugar, proponemos una Mezcla de Expertos Consciente del Humano (MoE) que dirige los *tokens* hacia expertos ligeros especializados en regiones mediante un enrutado supervisado espacialmente, mejorando la fidelidad estructural de grano fino con una sobrecarga de parámetros mínima. En segundo lugar, proponemos la Co-Generación Espacialmente Estructurada, un paradigma de entrenamiento de doble flujo que modela conjuntamente un flujo de apariencia RGB y un flujo auxiliar de estructura HOI para inyectar *priors* geométricos de interacción. Durante el entrenamiento, el flujo HOI atiende a los *tokens* RGB y su supervisión regulariza los pesos compartidos de la arquitectura base; en la inferencia, la rama HOI se elimina para una generación RGB sin sobrecarga adicional. Los resultados experimentales demuestran que CoInteract supera significativamente a los métodos existentes en estabilidad estructural, coherencia lógica y realismo de la interacción.
Los sistemas de agentes basados en modelos de lenguaje suelen depender de la inducción reactiva, en la que una única instrucción guía al modelo a través de una secuencia abierta de pasos de razonamiento y uso de herramientas, dejando el flujo de control y el estado intermedio implícitos y haciendo que el comportamiento del agente sea potencialmente difícil de controlar. Los marcos de orquestación como LangGraph, DSPy y CrewAI imponen una mayor estructura mediante definiciones explícitas de flujos de trabajo, pero acoplan estrechamente la lógica del flujo de trabajo con Python, lo que dificulta el mantenimiento y la modificación de los agentes. En este artículo, presentamos AgentSPEX, un Lenguaje de ESPecificación y EXecución de Agentes para especificar flujos de trabajo de agentes LLM con flujo de control explícito y estructura modular, junto con un entorno de ejecución de agentes personalizable. AgentSPEX admite pasos tipados, bifurcaciones y bucles, ejecución en paralelo, submódulos reutilizables y gestión explícita del estado, y estos flujos de trabajo se ejecutan dentro de un entorno que proporciona acceso a herramientas, un entorno virtual aislado y soporte para puntos de control, verificación y registro. Además, proporcionamos un editor visual con vistas sincronizadas de grafo y flujo de trabajo para su creación e inspección. Incluimos agentes listos para usar para investigación profunda e investigación científica, y evaluamos AgentSPEX en 7 puntos de referencia. Finalmente, demostramos mediante un estudio de usuario que AgentSPEX proporciona un paradigma de creación de flujos de trabajo más interpretable y accesible que un marco de agente popular existente.
La reconstrucción 3D con vistas escasas es esencial para modelar escenas a partir de capturas casuales, pero sigue siendo un desafío para la reconstrucción no generativa. Los enfoques existentes basados en difusión mitigan este problema sintetizando nuevas vistas, pero a menudo se condicionan únicamente a uno o dos fotogramas de captura, lo que restringe la consistencia geométrica y limita la escalabilidad a escenas grandes o diversas. Proponemos AnyRecon, un marco escalable para la reconstrucción a partir de entradas dispersas, arbitrarias y desordenadas, que preserva el control geométrico explícito mientras admite una cardinalidad de condicionamiento flexible. Para soportar el condicionamiento de largo alcance, nuestro método construye una memoria de escena global persistente mediante una caché de vistas de captura antepuesta, y elimina la compresión temporal para mantener la correspondencia a nivel de fotograma bajo grandes cambios de punto de vista. Más allá de un mejor modelo generativo, también encontramos que la interacción entre generación y reconstrucción es crucial para escenas 3D a gran escala. Por lo tanto, introducimos una estrategia de condicionamiento consciente de la geometría que acopla generación y reconstrucción mediante una memoria geométrica 3D explícita y una recuperación de vistas de captura impulsada por geometría. Para garantizar la eficiencia, combinamos la destilación de difusión en 4 pasos con una atención dispersa de ventana contextual para reducir la complejidad cuadrática. Experimentos exhaustivos demuestran una reconstrucción robusta y escalable con entradas irregulares, grandes brechas de punto de vista y trayectorias largas.
El entrenamiento en tiempo de prueba (TTT) adapta los parámetros del modelo en instancias de prueba no etiquetadas durante la inferencia, lo que amplía continuamente las capacidades más allá del alcance del entrenamiento offline. A pesar de las ganancias iniciales, los métodos TTT existentes para LRMs se estancan rápidamente y no se benefician de recursos computacionales adicionales durante la prueba. Sin calibración externa, la señal de recompensa autogenerada se desvía progresivamente a medida que el modelo de política evoluciona, conduciendo tanto a mesetas de rendimiento como a colapso de diversidad. Proponemos TEMPO, un marco TTT que intercala el refinamiento de políticas en preguntas no etiquetadas con recalibración periódica del crítico en un conjunto de datos etiquetado. Al formalizar este procedimiento alternante mediante el algoritmo Expectation-Maximization (EM), revelamos que los métodos previos pueden interpretarse como variantes incompletas que omiten el crucial paso de recalibración. Reintroducir este paso refuerza la cota inferior de evidencia (ELBO) y permite una mejora sostenida. En diversas familias de modelos (Qwen3 y OLMO3) y tareas de razonamiento, TEMPO mejora OLMO3-7B en AIME 2024 del 33.0% al 51.1% y Qwen3-14B del 42.3% al 65.8%, manteniendo alta diversidad.
Los modelos de lenguaje grande (LLM) han logrado resultados sólidos en generación de código, pero su capacidad para generar aplicaciones GUI, especialmente juegos, sigue estando insuficientemente estudiada. Los puntos de referencia existentes evalúan principalmente la corrección mediante casos de prueba, los cuales son inadecuados para aplicaciones GUI porque estos sistemas son interactivos, dirigidos por eventos y requieren transiciones de estado correctas a través de secuencias de acciones del usuario. Por lo tanto, su evaluación debería considerar flujos de interacción y lógica de la interfaz de usuario, en lugar de solo resultados de aprobado/reprobado. Para estudiar este problema, presentamos PlayEval, un punto de referencia consciente del repositorio construido a partir de 43 aplicaciones GUI multilingües en Python, TypeScript y JavaScript. A diferencia de los puntos de referencia GUI anteriores que son difíciles de adaptar a entornos de escritorio, PlayEval cubre seis categorías principales de aplicaciones GUI y admite directamente la evaluación de generación de código. Además, proponemos Play@k, una métrica que mide si al menos uno de *k* candidatos generados puede ejecutarse de principio a fin sin errores lógicos. Para respaldar una evaluación confiable, desarrollamos PlayTester, un agente basado en LLM que realiza ejecuciones GUI orientadas a tareas y detecta violaciones lógicas automáticamente. Los experimentos con 10 LLM de código de última generación muestran que, a pesar de las altas tasas de compilación, logran un Play@3 cercano a cero, revelando grandes debilidades en la generación de aplicaciones GUI lógicamente correctas. Para abordar esta limitación, presentamos PlayCoder, un marco de trabajo multiagente y consciente del repositorio que genera, evalúa y repara iterativamente el código de aplicaciones GUI en un bucle cerrado. PlayCoder mejora sustancialmente tanto la corrección funcional como la alineación semántica para modelos de código abierto y cerrado, alcanzando hasta un 38.1% en Exec@3 y un 20.3% en Play@3. Los estudios de caso muestran además que puede descubrir errores lógicos silenciosos pasados por alto por las métricas tradicionales y corregirlos mediante ediciones específicas.
El fine-tuning eficiente en parámetros (PEFT) reduce el coste de entrenamiento del fine-tuning de parámetros completos para modelos de lenguaje grandes (LLMs) entrenando solo un pequeño conjunto de parámetros específicos de la tarea mientras se congela la red preentrenada. Sin embargo, los enfoques existentes, como la Adaptación de Bajo Rango (LoRA), logran la adaptación insertando perturbaciones de bajo rango independientes directamente en pesos individuales, lo que resulta en una parametrización local de la adaptación. Proponemos ShadowPEFT, un marco PEFT centralizado que, en cambio, realiza un refinamiento a nivel de capa a través de un módulo sombra compartido en profundidad. En cada capa del transformador, ShadowPEFT mantiene un estado sombra paralelo y lo evoluciona repetidamente para obtener estados ocultos progresivamente más ricos. Este diseño cambia la adaptación de perturbaciones distribuidas en el espacio de pesos a un proceso de refinamiento compartido en el espacio de capas. Dado que el módulo sombra está desacoplado de la red principal, puede reutilizarse a través de las capas, preentrenarse de forma independiente y desplegarse opcionalmente en modo desvinculado, beneficiando a los escenarios de computación periférica. Los experimentos en benchmarks de generación y comprensión muestran que ShadowPEFT iguala o supera a LoRA y DoRA con presupuestos comparables de parámetros entrenables. Análisis adicionales sobre preentrenamiento sombra, transferencia cruzada entre conjuntos de datos, escalado de parámetros, latencia de inferencia y evaluación a nivel de sistema sugieren que la adaptación centralizada en el espacio de capas es una alternativa competitiva y flexible a los métodos PEFT de bajo rango convencionales.
Actualmente, los flujos de trabajo visuales ejecutables han surgido como un paradigma principal en los despliegues industriales del mundo real, ofreciendo una gran fiabilidad y controlabilidad. Sin embargo, en la práctica actual, estos flujos de trabajo se construyen casi en su totalidad mediante ingeniería manual: los desarrolladores deben diseñar cuidadosamente los flujos, escribir instrucciones para cada paso y revisar repetidamente la lógica a medida que evolucionan los requisitos, lo que hace que el desarrollo sea costoso, requiera mucho tiempo y propenso a errores. Para estudiar si los modelos de lenguaje grandes pueden automatizar este proceso de interacción multi-ronda, presentamos Chat2Workflow, un benchmark para generar flujos de trabajo visuales ejecutables directamente a partir del lenguaje natural, y proponemos un marco agente robusto para mitigar los errores de ejecución recurrentes. Chat2Workflow se construye a partir de una gran colección de flujos de trabajo empresariales reales, donde cada instancia está diseñada para que el flujo generado pueda transformarse y desplegarse directamente en plataformas prácticas como Dify y Coze. Los resultados experimentales muestran que, aunque los modelos de lenguaje más avanzados a menudo captan la intención de alto nivel, tienen dificultades para generar flujos de trabajo correctos, estables y ejecutables, especialmente bajo requisitos complejos o cambiantes. Aunque nuestro marco agente produce ganancias de hasta un 5.34% en la tasa de resolución, la brecha restante con el mundo real posiciona a Chat2Workflow como una base para avanzar en la automatización de grado industrial. El código está disponible en https://github.com/zjunlp/Chat2Workflow.
A medida que el aprendizaje por refuerzo sigue escalando el entrenamiento de agentes basados en modelos de lenguaje grandes, la verificación confiable de comportamientos de agentes en entornos complejos se ha vuelto cada vez más desafiante. Los enfoques existentes dependen de verificadores basados en reglas o modelos LLM-como-Juez, que luchan por generalizarse más allá de dominios específicos. Agente-como-Juez aborda esta limitación interactuando activamente con entornos y herramientas para adquirir evidencia verificable, aunque sus capacidades aún están poco exploradas. Presentamos un benchmark, AJ-Bench, para evaluar sistemáticamente Agente-como-Juez en tres dominios - búsqueda, sistemas de datos e interfaces gráficas de usuario - que comprende 155 tareas y 516 trayectorias anotadas. El benchmark evalúa exhaustivamente las capacidades de los agentes jueces en adquisición de información, verificación de estado y verificación de procesos. Los experimentos demuestran mejoras consistentes en el rendimiento respecto a los baselines de LLM-como-Juez, mientras también revelan desafíos abiertos sustanciales en la verificación basada en agentes. Nuestros datos y código están disponibles en https://aj-bench.github.io/.
La recuperación de información con seguimiento de instrucciones (IF-IR) estudia sistemas de recuperación que no solo deben encontrar documentos relevantes para una consulta, sino también obedecer restricciones explícitas del usuario, como atributos requeridos, exclusiones o preferencias de salida. Sin embargo, la mayoría de los recuperadores se entrenan principalmente para la relevancia semántica y a menudo no logran distinguir entre documentos que coinciden con el tema y aquellos que satisfacen la instrucción. Proponemos una estrategia de síntesis de datos de doble vista basada en la inversión de polaridad: dada una consulta, un documento que es relevante bajo la instrucción y un negativo difícil que coincide con la consulta pero viola la instrucción, incitamos a un modelo de lenguaje grande (LLM) a generar una instrucción complementaria bajo la cual los dos documentos intercambien sus etiquetas de relevancia. Al presentar el mismo par de documentos bajo instrucciones complementarias que invierten sus etiquetas de relevancia, la señal de entrenamiento obliga al recuperador a reconsiderar el mismo conjunto de candidatos a través de la instrucción, en lugar de depender de pistas temáticas fijas. En un codificador de 305 millones de parámetros, nuestro método mejora el rendimiento en el benchmark FollowIR en un 45%, superando a modelos de embeddings de propósito general de escala comparable o mayor. Mediante comparaciones directas con presupuestos de datos equivalentes, demostramos además que la diversidad de datos y la supervisión por instrucciones desempeñan roles complementarios: la primera preserva la calidad general de la recuperación, mientras que la segunda mejora la sensibilidad a las instrucciones. Estos resultados destacan el valor de la síntesis de datos dirigida para construir sistemas de recuperación que sean tanto ampliamente capaces como conscientes de las instrucciones.
El cambio de código es un fenómeno lingüístico omnipresente en la comunicación global; sin embargo, los sistemas modernos de recuperación de información siguen estando predominantemente diseñados para, y evaluados en, contextos monolingües. Para salvar esta desconexión crítica, presentamos un estudio integral dedicado a la RI con cambio de código. Introducimos CSR-L (Code-Switching Retrieval benchmark-Lite), construyendo un conjunto de datos mediante anotación humana para capturar la auténtica naturalidad de las consultas en lenguaje mixto. Nuestra evaluación a través de paradigmas estadísticos, densos y de interacción tardía revela que el cambio de código actúa como un cuello de botella fundamental para el rendimiento, degradando la efectividad incluso de modelos multilingües robustos. Demostramos que este fallo proviene de una divergencia sustancial en el espacio de incrustación entre el texto puro y el texto con cambio de código. Para escalar esta investigación, proponemos CS-MTEB, un benchmark integral que cubre 11 tareas diversas, donde observamos disminuciones de rendimiento de hasta el 27%. Finalmente, mostramos que técnicas multilingües estándar, como la expansión del vocabulario, son insuficientes para resolver estos déficits por completo. Estos hallazgos subrayan la fragilidad de los sistemas actuales y establecen el cambio de código como una frontera crucial para la futura optimización de la RI.
La aritmética de tareas proporciona una forma eficiente y libre de entrenamiento de editar modelos preentrenados, pero carece de una explicación teórica fundamental para su éxito. El concepto existente de "desentrelazamiento de pesos" describe el resultado ideal de una composición de tareas no interferente, pero no revela su causa subyacente. Crucialmente, las propiedades intrínsecas del modelo preentrenado (θ_0) o de los vectores de tarea (τ_t) que permiten este desentrelazamiento siguen sin explorarse suficientemente. En este artículo, presentamos la Especialización en Características por Tarea (TFS), la capacidad de un modelo para asignar características internas distintas a diferentes tareas, como principio fundamental. Primero demostramos que la TFS es una condición suficiente para el desentrelazamiento de pesos. Más importante aún, encontramos que la TFS también da lugar a una consecuencia geométrica observable: la ortogonalidad de los vectores de peso. Esto posiciona a la TFS como la causa común tanto del resultado funcional deseado (desentrelazamiento) como de una propiedad geométrica medible (ortogonalidad). Esta relación proporciona la idea clave para nuestro método: dado que la propiedad abstracta TFS es intratable de imponer directamente, podemos en su lugar promover el desentrelazamiento de pesos moldeando su consecuencia geométrica concreta, la ortogonalidad. Por lo tanto, proponemos OrthoReg, un método de regularización simple y efectivo que impone activamente una estructura ortogonal interna en las actualizaciones de peso (ΔW) que constituyen τ_t durante el ajuste fino. Y demostramos teóricamente que OrthoReg promueve el desentrelazamiento. Experimentos extensos demuestran que OrthoReg mejora de manera consistente y significativa el rendimiento de varios métodos de aritmética de tareas. El código está disponible en https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.
Abordamos el problema de generar un entorno navegable y 3D-consistente que esté geográficamente anclado: una simulación de una ubicación real. Los modelos generativos de video existentes pueden producir una secuencia plausible que sea consistente con un prompt de texto (T2V) o de imagen (I2V). Sin embargo, la capacidad de reconstruir el mundo real bajo condiciones climáticas arbitrarias y configuraciones dinámicas de objetos es esencial para aplicaciones posteriores, incluyendo la conducción autónoma y la simulación robótica. Con este fin, presentamos CityRAG, un modelo generativo de video que aprovecha grandes corpus de datos geo-registrados como contexto para anclar la generación a la escena física, manteniendo al mismo tiempo los *priors* aprendidos para cambios complejos de movimiento y apariencia. CityRAG se basa en datos de entrenamiento no alineados temporalmente, lo que enseña al modelo a separar semánticamente la escena subyacente de sus atributos transitorios. Nuestros experimentos demuestran que CityRAG puede generar secuencias de video coherentes, de varios minutos de duración y físicamente ancladas, mantener condiciones climáticas y de iluminación a lo largo de miles de fotogramas, lograr un cierre de ciclo y navegar trayectorias complejas para reconstruir la geografía del mundo real.
La difusión autoregresiva de video está surgiendo como un paradigma prometedor para la síntesis de video en streaming, utilizando la destilación de pasos como principal medio para acelerar la inferencia. Si la decodificación especulativa, la estrategia de aceleración dominante para los modelos de lenguaje grande, puede adaptarse eficazmente a la generación autoregresiva de video sigue siendo una pregunta abierta, debido a que los bloques de video son tensores espacio-temporales continuos sin una distribución a nivel de token para un muestreo por rechazo exacto. Presentamos SDVG, que incorpora la decodificación especulativa a la difusión de video autoregresiva basada en bloques reemplazando la verificación de tokens con un enrutador de calidad de imagen. Un borrador de 1.3B propone bloques candidatos mediante cuatro pasos de eliminación de ruido; cada bloque se decodifica con VAE y se puntúa mediante ImageReward usando una agregación del peor fotograma—tomando la recompensa mínima por fotograma para detectar artefactos de fotograma único que un promedio enmascararía. Los bloques que superan un umbral fijo tau se aceptan en la caché KV del modelo objetivo de 14B; el resto son regenerados por el objetivo. Dos decisiones de diseño adicionales resultan críticas: el primer bloque se rechaza forzosamente siempre para anclar la composición de la escena, y tau funciona como un único control que traza una frontera de Pareto calidad-velocidad suave. En 1003 prompts de MovieGenVideoBench (832x480), SDVG retiene el 98.1% de la calidad VisionReward del modelo objetivo solo (0.0773 vs. 0.0788) con una aceleración de 1.59x usando tau=-0.7, y alcanza 2.09x con una retención de calidad del 95.7%—superando consistentemente la generación solo con borrador en más de un +17%. El marco no requiere entrenamiento, no necesita cambios arquitectónicos y puede integrarse perfectamente en las canalizaciones existentes de generación autoregresiva de video.
Las tareas cotidianas implican un objetivo, y el entrenamiento previo de modelos en torno a este objetivo es lo que los convierte en expertos. En este artículo, estudiamos el entrenamiento previo de modelos de lenguaje (LM) orientado a objetivos mediante la introducción de Neuron-Activated Graph Ranking (Clasificación basada en NAG), un marco interpretable y sin necesidad de entrenamiento para la selección de datos de pretraining orientados a un objetivo. En lugar de utilizar representaciones de caja negra, nuestro enfoque caracteriza directamente cada entrada objetivo mediante un conjunto disperso de neuronas de alto impacto en cualquier LLM estándar disponible. Concretamente, cuantificamos el impacto de las neuronas y seleccionamos las neuronas más influyentes a través de las capas en un Neuron-Activated Graph (NAG) compacto, y clasificamos los datos candidatos por similitud del NAG con los ejemplos objetivo. Realizamos experimentos en seis benchmarks, donde nuestra Clasificación basada en NAG mejora el entrenamiento previo orientado a objetivos en un 4.9% en promedio respecto al muestreo aleatorio, y también supera a los baselines más avanzados con un 5.3% de precisión en HellaSwag. También se mantiene efectiva en un entorno más aplicable de múltiples objetivos, donde nuestra mejor configuración supera a dos líneas base en un 1.1% y 4.1%, respectivamente. Además, proporcionamos un análisis exhaustivo de por qué y cómo funciona nuestro NAG; por ejemplo, desactivar las neuronas seleccionadas por NAG (solo el 0.12% del total) provoca un colapso del rendimiento del 23.5%, y restringir el NAG a la capa final incurre en una caída promedio del 4.1%, lo que indica que el NAG captura una "columna vertebral funcional" dispersa para aprender características objetivo. Publicamos el código en https://github.com/asillycat/NAG.
La edición tradicional de imágenes fotográficas normalmente requiere que los usuarios posean suficiente comprensión estética para proporcionar instrucciones adecuadas para ajustar la calidad de la imagen y los parámetros de la cámara. Sin embargo, este paradigma depende de la instrucción humana explícita de la intención estética, que a menudo es ambigua, incompleta o inaccesible para usuarios no expertos. En este trabajo, proponemos SmartPhotoCrafter, un método automático de edición de imágenes fotográficas que formula la edición como un proceso estrechamente acoplado de razonamiento a generación. El modelo propuesto primero realiza una comprensión de la calidad de la imagen e identifica deficiencias mediante el módulo Crítico de Imagen, y luego el módulo Artista Fotográfico realiza ediciones específicas para mejorar el atractivo de la imagen, eliminando la necesidad de instrucciones humanas explícitas. Se adopta una canalización de entrenamiento multietapa: (i) Preentrenamiento base para establecer una comprensión estética básica y capacidades de edición, (ii) Adaptación con supervisión de múltiples ediciones guiada por razonamiento para incorporar una guía semántica rica, y (iii) Aprendizaje por refuerzo coordinado de razonamiento a generación para optimizar conjuntamente el razonamiento y la generación. Durante el entrenamiento, SmartPhotoCrafter enfatiza la generación de imágenes fotorrealistas, mientras admite tanto tareas de restauración como de retoque de imágenes con una adherencia constante a la semántica relacionada con el color y el tono. También construimos un conjunto de datos específico por etapas, que construye progresivamente el razonamiento y la generación controlable, una colaboración cruzada efectiva entre módulos y, en última instancia, una mejora fotográfica de alta calidad. Los experimentos demuestran que SmartPhotoCrafter supera a los modelos generativos existentes en la tarea de mejora fotográfica automática, logrando resultados fotorrealistas mientras exhibe una mayor sensibilidad tonal a las instrucciones de retoque. Página del proyecto: https://github.com/vivoCameraResearch/SmartPhotoCrafter.
Los recientes avances en visión 3D han dado lugar a modelos especializados para la comprensión 3D (por ejemplo, clasificación de formas, segmentación, reconstrucción) o para la generación 3D (por ejemplo, síntesis, completado y edición). Sin embargo, estas tareas suelen abordarse de forma aislada, lo que da lugar a arquitecturas y representaciones fragmentadas que dificultan la transferencia de conocimiento y el modelado holístico de escenas. Para abordar estos desafíos, proponemos UniMesh, un marco unificado que aprende conjuntamente la generación y la comprensión 3D dentro de una única arquitectura. En primer lugar, presentamos una novedosa Cabeza de Malla (Mesh Head) que actúa como interfaz de modelo cruzado, tendiendo un puente entre la generación de imágenes basada en difusión y los decodificadores de formas implícitas. En segundo lugar, desarrollamos la Cadena de Malla (Chain of Mesh, CoM), una instanciación geométrica del razonamiento iterativo que permite la edición semántica de mallas guiada por el usuario a través de un ciclo cerrado de latente, prompting y regeneración. En tercer lugar, incorporamos un mecanismo de autorreflexión basado en una tríada Actor-Evaluador-Autorreflexión para diagnosticar y corregir fallos en tareas de alto nivel, como la descripción de escenas 3D. Los resultados experimentales demuestran que UniMesh no solo logra un rendimiento competitivo en benchmarks estándar, sino que también desbloquea nuevas capacidades en la edición iterativa y la mejora mutua entre la generación y la comprensión. Código: https://github.com/AIGeeksGroup/UniMesh. Sitio web: https://aigeeksgroup.github.io/UniMesh.
El ajuste fino de modelos de lenguaje grandes (LLM) sigue siendo estructuralmente incierto a pesar de métodos eficientes en parámetros como la Adaptación de Bajo Rango (LoRA), ya que los roles específicos por capa de las representaciones internas son poco conocidos, lo que conduce a decisiones heurísticas sobre dónde debe aplicarse la adaptación. Modelamos la evolución de los estados ocultos como una trayectoria geométrica de alta dimensión y proponemos utilizar el algoritmo de Ramer-Douglas-Peucker (RDP), un método de simplificación de polígonos sin parámetros y sin entrenamiento que preserva las transiciones estructurales globales mientras elimina los cambios localmente redundantes, para identificar puntos de ruptura críticos a lo largo de la ruta de representación. Crucialmente, utilizamos estos pivotes geométricos no solo para el análisis, sino como una señal de decisión directa para determinar qué capas deben adaptarse durante el ajuste fino eficiente en parámetros. Al integrar esta estrategia de selección de capas consciente de la geometría en el ajuste fino con LoRA de Qwen3-8B-Base, logramos un rendimiento superior en MMLU-Math utilizando solo 13 capas seleccionadas por RDP (81.67%), superando significativamente tanto la adaptación completa de 36 capas (79.32%) como la selección aleatoria de 13 capas (75.56%), así como el modelo base Qwen3-8B-Base (74.25%). Estos resultados demuestran que aprovechar la geometría intrínseca de las trayectorias de representación proporciona una señal robusta, interpretable y libre de entrenamiento para optimizar la selección de capas durante la adaptación del modelo.
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) se utilizan cada vez más como evaluadores automáticos, un paradigma conocido como MLLM-como-Juez. Sin embargo, su fiabilidad y vulnerabilidades a los sesgos siguen estando poco exploradas. Descubrimos que muchos jueces MLLM no logran integrar de manera fiable pistas visuales o textuales clave, produciendo evaluaciones poco fiables cuando la evidencia falta o no coincide, y mostrando inestabilidad bajo perturbaciones semánticamente irrelevantes. Para abordar esto, definimos sistemáticamente el Sesgo Composicional en los sistemas MLLM-como-Juez e introducimos MM-JudgeBias, un benchmark para evaluarlo. MM-JudgeBias introduce perturbaciones controladas en la Consulta, la Imagen y la Respuesta, y evalúa el comportamiento del modelo mediante dos métricas complementarias: Desviación por Sesgo (BD) para la sensibilidad y Conformidad de Sesgo (BC) para la estabilidad. Nuestro conjunto de datos de más de 1.800 muestras multimodales curadas y refinadas, extraídas de 29 benchmarks fuente, permite un diagnóstico detallado de nueve tipos de sesgo en diversas tareas y dominios. Los experimentos con 26 MLLMs de vanguardia revelan una negligencia modal sistemática y tendencias de evaluación asimétricas, subrayando la necesidad de jueces más fiables.
La escalabilidad de los modelos Transformer para la predicción de clics (CTR) mediante la adición de parámetros conlleva un creciente costo computacional y de almacenamiento, ampliando la brecha entre las ambiciones de escalado y las restrictivas condiciones de despliegue industrial. Presentamos LoopCTR, un paradigma de escalado en bucle que incrementa la computación durante el entrenamiento mediante la reutilización recursiva de capas compartidas, desacoplando el crecimiento computacional del aumento de parámetros. LoopCTR adopta una arquitectura tipo sándwich enriquecida con Residuos Hiperconectados y Mezcla de Expertos, e implementa supervisión de procesos en cada profundidad de bucle para codificar las ventajas multibucle en los parámetros compartidos. Esto permite una estrategia de "entrenamiento multibucle-inferencia cero bucles", donde una sola pasada hacia adelante sin bucles supera ya todos los baselines. Los experimentos en tres benchmarks públicos y un conjunto de datos industrial demuestran un rendimiento de vanguardia. Un análisis oráculo revela además un margen de mejora no explotado de 0.02–0.04 AUC, donde modelos entrenados con menos bucles exhiben mayores techos de mejora, señalando una frontera prometedora para la inferencia adaptativa.
El Modelo de Difusión Discreta Uniforme (UDM) ha surgido recientemente como un paradigma prometedor para el modelado generativo discreto; sin embargo, su integración con el aprendizaje por refuerzo sigue estando en gran parte inexplorada. Observamos que aplicar GRPO de forma ingenua a UDM conduce a inestabilidad en el entrenamiento y ganancias de rendimiento marginales. Para abordar esto, proponemos \Ours, el primer marco que integra UDM con RL. Nuestro método se guía por dos ideas clave: (i) tratar la muestra limpia final como la acción proporciona señales de optimización más precisas y estables; y (ii) reconstruir trayectorias mediante el proceso directo de difusión alinea mejor las rutas de probabilidad con la distribución de preentrenamiento. Adicionalmente, introducimos dos estrategias, Reduced-Step y CFG-Free, para mejorar aún más la eficiencia del entrenamiento. \Ours mejora significativamente el rendimiento del modelo base en múltiples tareas T2I. Notablemente, la precisión en GenEval mejora del 69% al 96% y PickScore aumenta de 20.46 a 23.81, logrando un rendimiento de vanguardia tanto en entornos continuos como discretos. En el benchmark de OCR, la precisión aumenta del 8% al 57%, validando aún más la capacidad de generalización de nuestro método. El código está disponible en https://github.com/Yovecent/UDM-GRPO{https://github.com/Yovecent/UDM-GRPO}.
Las tareas comunes de edición de imágenes suelen adoptar potentes modelos generativos de difusión como paradigma principal para la edición de contenido en el mundo real. Mientras tanto, aunque métodos de aprendizaje por refuerzo (RL) como Diffusion-DPO y Flow-GRPO han mejorado aún más la calidad de la generación, la aplicación eficiente del Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) a la edición basada en difusión permanece en gran medida inexplorada, debido a la falta de conjuntos de datos de preferencias humanas escalables y marcos de trabajo adaptados a diversas necesidades de edición. Para llenar este vacío, proponemos HP-Edit, un marco de trabajo de post-entrenamiento para Edición Alineada con Preferencias Humanas, e introducimos RealPref-50K, un conjunto de datos del mundo real que abarca ocho tareas comunes y equilibra la edición de objetos comunes. Específicamente, HP-Edit aprovecha una pequeña cantidad de datos de puntuación de preferencias humanas y un modelo de lenguaje visual grande (VLM) preentrenado para desarrollar HP-Scorer: un evaluador automático alineado con las preferencias humanas. Luego utilizamos HP-Scorer tanto para construir eficientemente un conjunto de datos de preferencias escalable como para servir como función de recompensa en el post-entrenamiento del modelo de edición. También introducimos RealPref-Bench, un benchmark para evaluar el rendimiento de la edición en escenarios reales. Experimentos exhaustivos demuestran que nuestro enfoque mejora significativamente modelos como Qwen-Image-Edit-2509, alineando sus resultados más estrechamente con las preferencias humanas.
La Teoría del Funcional de la Densidad (DFT) sustenta gran parte de la química computacional y la ciencia de materiales moderna. Sin embargo, la fiabilidad de las predicciones derivadas de la DFT sobre propiedades medibles experimentalmente sigue estando fundamentalmente limitada por la necesidad de aproximar el funcional de intercambio-correlación (XC) desconocido. El paradigma tradicional para mejorar la precisión se ha basado en formas funcionales cada vez más elaboradas y diseñadas manualmente. Este enfoque ha dado lugar a un compromiso de larga data entre la eficiencia computacional y la precisión, que sigue siendo insuficiente para la modelización predictiva fiable de experimentos de laboratorio. Aquí presentamos Skala, un funcional XC basado en aprendizaje profundo que supera a los funcionales híbridos más avanzados en precisión en el conjunto de referencia de química de elementos principales GMTKN55, con un error de 2.8 kcal/mol, manteniendo a la vez el menor coste computacional característico de la DFT semilocal. Esta desviación demostrada del compromiso histórico entre precisión y eficiencia es posible gracias al aprendizaje de representaciones no locales de la estructura electrónica directamente a partir de los datos, evitando la necesidad de características cada vez más costosas diseñadas manualmente. Aprovechando un volumen sin precedentes de datos de referencia de alta precisión procedentes de métodos basados en la función de onda, establecemos que el aprendizaje profundo moderno permite modelos neuronales de intercambio-correlación sistemáticamente mejorables a medida que se amplían los conjuntos de datos de entrenamiento, posicionando a las simulaciones de primeros principios para volverse progresivamente más predictivas.
Trabajos recientes han demostrado el potencial de orquestar modelos de lenguaje grandes (LLM) dentro de sistemas de optimización evolutiva y agentiva. Sin embargo, los mecanismos que impulsan estas mejoras en la optimización siguen siendo poco comprendidos. En este trabajo, presentamos un estudio a gran escala de la búsqueda evolutiva guiada por LLM, recopilando trayectorias de optimización para 15 LLM en 8 tareas. Aunque la capacidad de resolución de problemas *zero-shot* se correlaciona con los resultados finales de optimización, solo explica una parte de la varianza: modelos con capacidades iniciales similares a menudo inducen trayectorias de búsqueda y resultados radicalmente diferentes. Al analizar estas trayectorias, encontramos que los LLM optimizadores potentes se comportan como refinadores locales, produciendo mejoras incrementales frecuentes mientras localizan progresivamente la búsqueda en el espacio semántico. Por el contrario, los optimizadores más débiles exhiben una gran deriva semántica, con avances esporádicos seguidos de estancamiento. Cabe destacar que varias medidas de la novedad de las soluciones no predicen el rendimiento final; la novedad es beneficiosa solo cuando la búsqueda permanece suficientemente localizada alrededor de regiones de alto rendimiento del espacio de soluciones. Nuestros resultados destacan la importancia del análisis de trayectorias para comprender y mejorar los sistemas de optimización basados en LLM y proporcionan ideas prácticas para su diseño y entrenamiento.
Las herramientas de interpretabilidad se utilizan cada vez más para analizar los fallos de los Modelos de Lenguaje a Gran Escala (LLM), sin embargo, trabajos previos se centran en gran medida en instrucciones breves o entornos de juguete, dejando su comportamiento en los puntos de referencia de uso común poco explorado. Para abordar esta brecha, estudiamos la atribución contrastiva basada en LRP como una herramienta práctica para analizar fallos de LLM en entornos realistas. Formulamos el análisis de fallos como una atribución contrastiva, atribuyendo la diferencia de logit entre un token de salida incorrecto y una alternativa correcta a los tokens de entrada y los estados internos del modelo, e introducimos una extensión eficiente que permite la construcción de grafos de atribución entre capas para entradas de contexto largo. Utilizando este marco, realizamos un estudio empírico sistemático a través de puntos de referencia, comparando los patrones de atribución entre conjuntos de datos, tamaños de modelos y puntos de control del entrenamiento. Nuestros resultados muestran que esta atribución contrastiva a nivel de token puede producir señales informativas en algunos casos de fallo, pero no es universalmente aplicable, destacando tanto su utilidad como sus limitaciones para el análisis realista de fallos de LLM. Nuestro código está disponible en: https://aka.ms/Debug-XAI.
Los modelos de lenguaje se utilizan cada vez más en el descubrimiento científico para generar hipótesis, proponer soluciones candidatas, implementar sistemas y refinarlos iterativamente. En el núcleo de estos bucles de prueba y error se encuentra la evaluación: el proceso de obtener retroalimentación sobre las soluciones candidatas mediante verificadores, simuladores o funciones de puntuación específicas de la tarea. Si bien trabajos anteriores han destacado la importancia de la evaluación, no han formulado explícitamente el problema de cómo los bucles de descubrimiento impulsados por evaluación pueden escalarse de manera sistemática y efectiva para ampliar los límites del descubrimiento científico, un problema que este artículo busca abordar. Introducimos Simple Test-time Evaluation-driven Scaling (SimpleTES), un marco general que combina estratégicamente la exploración paralela, el refinamiento guiado por retroalimentación y la selección local, revelando ganancias sustanciales desbloqueadas al escalar los bucles de descubrimiento basados en evaluación a lo largo de las dimensiones correctas. En 21 problemas científicos que abarcan seis dominios, SimpleTES descubre soluciones de vanguardia utilizando modelos gpt-oss, superando consistentemente tanto a los modelos de referencia de última generación como a las sofisticadas canalizaciones de optimización. En particular, aceleramos el algoritmo LASSO, ampliamente utilizado, en más de 2 veces, diseñamos políticas de enrutamiento de circuitos cuánticos que reducen la sobrecarga de compuertas en un 24.5% y descubrimos nuevas construcciones de superposición mínima de Erdos que superan los mejores resultados conocidos. Más allá de los descubrimientos novedosos, SimpleTES produce historiales a nivel de trayectoria que supervisan naturalmente el aprendizaje basado en retroalimentación. Cuando los modelos se post-entrenan con trayectorias exitosas, no solo mejoran la eficiencia en problemas conocidos, sino que también generalizan a problemas no vistos, descubriendo soluciones que los modelos base no logran encontrar. En conjunto, nuestros resultados establecen el escalado efectivo de bucles impulsados por evaluación como un eje central para avanzar en el descubrimiento científico impulsado por LLM, y proporcionan un marco simple pero práctico para materializar estas ganancias.
Los marcos actuales de agentes de IA han logrado avances notables en la automatización de tareas individuales, pero todos los sistemas existentes sirven a un único usuario. La productividad humana descansa sobre las relaciones sociales y organizativas a través de las cuales las personas se coordinan, negocian y delegan. Cuando los agentes evolucionan de realizar tareas para una persona a representar a esa persona en colaboración con otras, la infraestructura para la colaboración entre agentes de múltiples usuarios brilla por su ausencia, y más aún los mecanismos de gobernanza necesarios para asegurarla. Sostenemos que la próxima frontera para los agentes de IA no reside en capacidades individuales más fuertes, sino en la digitalización de las relaciones de colaboración humana. Con este fin, proponemos un paradigma de agente simbiótico humano. Cada usuario posee un sistema de agentes permanentemente vinculado que colabora en nombre del propietario, formando una red cuyos nodos son humanos en lugar de agentes. Este paradigma se sustenta en tres primitivas de gobernanza. Una arquitectura de identidad en capas separa un Agente Gestor de múltiples Agentes de Identidad específicos del contexto; el Agente Gestor posee conocimiento global pero está arquitectónicamente aislado de la comunicación externa. La autorización con alcance aplica control de acceso por identidad y escala las violaciones de los límites al propietario. La responsabilidad a nivel de acción registra cada operación contra la identidad y autorización de su propietario, garantizando una completa auditabilidad. Instanciamos este paradigma en ClawNet, un marco de colaboración de agentes gobernado por identidad que aplica la vinculación de identidad y la verificación de autorización a través de un orquestador central, permitiendo que múltiples usuarios colaboren de forma segura a través de sus respectivos agentes.
Los Grandes Modelos de Vision y Lenguaje (LVLM) aún presentan dificultades con la alucinación visual, donde las respuestas generadas son inconsistentes con la entrada visual. Los métodos existentes dependen de datos anotados a gran escala para el ajuste fino, lo que conlleva una enorme sobrecarga computacional, o emplean estrategias estáticas post-hoc que pasan por alto la naturaleza dinámica de la aparición de alucinaciones. Para abordar estos problemas, introducimos un nuevo marco de auto-recompensa que permite la mitigación dinámica de alucinaciones durante la inferencia sin supervisión externa. En el aspecto empírico, revelamos que la alucinación visual exhibe patrones dinámicos por fases, alcanzando su punto máximo al inicio de cada fase semántica. Basándonos en estas observaciones, proponemos PSRD (Decodificación con Auto-Recompensa por Fases) para la corrección online de alucinaciones guiada por señales de auto-recompensa por fases. Para reducir el coste de la autoevaluación repetida durante la decodificación, destilamos la señal de guía de alucinación de los LVLM en un modelo de recompensa ligero. Este modelo de recompensa proporciona posteriormente una guía en tiempo real para una intervención dirigida durante el proceso de decodificación, permitiendo una supresión precisa de las alucinaciones. El PSRD propuesto reduce significativamente la tasa de alucinación de LLaVA-1.5-7B en un 50.0% y supera consistentemente a los métodos post-hoc existentes en cinco benchmarks de evaluación de alucinaciones para cuatro LVLM. Un análisis adicional confirma que PSRD mitiga efectivamente la propagación de alucinaciones y logra un equilibrio altamente controlable entre un rendimiento sólido y la eficiencia en la inferencia.
Los dispositivos periféricos como los relojes inteligentes y las gafas inteligentes no pueden ejecutar de forma continua ni siquiera los modelos de lenguaje más pequeños (100M-1B de parámetros) debido a limitaciones de energía y capacidad de cómputo. Sin embargo, la inferencia en la nube introduce latencias de varios segundos que rompen la ilusión de un asistente receptivo. Presentamos los micro modelos de lenguaje (μLM): modelos ultracompactos (8M-30M de parámetros) que generan instantáneamente las primeras 4-8 palabras de una respuesta contextualmente fundamentada en el dispositivo, mientras un modelo en la nube la completa, enmascarando así la latencia de la nube. Demostramos que la generación útil de lenguaje sobrevive a esta escala extrema, ya que nuestros modelos igualan el rendimiento de varios modelos existentes de la clase de 70M-256M de parámetros. Diseñamos un marco de generación colaborativa que replantea el modelo en la nube como un continuador en lugar de un respondedor, logrando transferencias fluidas a mitad de frase y una recuperación estructurada y elegante mediante tres métodos de corrección de errores cuando la apertura local falla. Los resultados empíricos muestran que los μLMs pueden iniciar respuestas que los modelos más grandes completan de forma imperceptible, demostrando que la colaboración asimétrica de órdenes de magnitud es alcanzable y desbloqueando la IA receptiva para dispositivos extremadamente limitados en recursos. El checkpoint del modelo y la demo están disponibles en https://github.com/Sensente/micro_language_model_swen_project.
Estudiamos el problema de predecir etiquetas numéricas que están restringidas a los enteros o a un subrango de los enteros. Por ejemplo, el número de votos positivos en publicaciones de redes sociales, o el número de bicicletas disponibles en una estación pública de alquiler. Si bien es posible modelar estos valores como continuos y aplicar regresión tradicional, este enfoque cambia la distribución subyacente de las etiquetas de discreta a continua. Las distribuciones discretas presentan ciertas ventajas, lo que nos lleva a cuestionar si dichas etiquetas enteras pueden modelarse directamente mediante una distribución discreta, cuyos parámetros se predigan a partir de las características de una instancia dada. Además, nos centramos en el caso de uso de distribuciones de salida de redes neuronales, lo que añade el requisito de que los parámetros de la distribución sean continuos para que la retropropagación y el descenso de gradiente puedan utilizarse para aprender los pesos de la red. Investigamos varias opciones para tales distribuciones, algunas existentes y otras novedosas, y las evaluamos en una variedad de tareas, incluyendo aprendizaje tabular, predicción secuencial y generación de imágenes. Encontramos que, en general, el mejor rendimiento proviene de dos distribuciones: Bitwise, que representa el entero objetivo en bits y asigna una distribución de Bernoulli a cada uno, y un análogo discreto de la distribución de Laplace, que utiliza una distribución con colas de decaimiento exponencial alrededor de una media continua.
Los sistemas recientes de Traducción de Voz a Voz (S2ST) logran una alta precisión semántica, pero eliminan sistemáticamente las vocalizaciones no verbales (NV), como risas y llantos que transmiten intención pragmática, lo que limita severamente su utilidad práctica. Abordamos este problema mediante tres contribuciones. Primero, proponemos un pipeline de síntesis para construir conjuntos de datos expresivos y escalables que superen la limitación de escasez de datos. Segundo, proponemos MoVE, una arquitectura de Mezcla de Expertos LoRA con adaptadores especializados en expresividad y un enrutador de ponderación suave que combina expertos para capturar estados expresivos híbridos. Tercero, demostramos que los AudioLLM preentrenados permiten una sorprendente eficiencia de datos: 30 minutos de datos curados son suficientes para un rendimiento sólido. En S2ST inglés-chino, al compararlo con líneas base robustas, MoVE reproduce las NV objetivo en el 76% de los casos y logra la naturalidad y fidelidad emocional más altas según evaluación humana entre todos los sistemas comparados, mientras que los sistemas S2ST existentes preservan como máximo el 14% de las NV.
Las Organizciones Autónomas Descentralizadas (DAOs) tienden a explorar Modelos de Lenguaje Pequeños (SLMs) como cortafuegos constitucionales nativos del edge para evaluar propuestas y mitigar la ingeniería social semántica. Si bien escalar el cómputo en tiempo de inferencia (Sistema 2) mejora la lógica formal, su eficacia en entornos de gobernanza criptoeconómica altamente adversarios sigue estando poco explorada. Para abordar esto, presentamos Sentinel-Bench, un marco empírico de 840 inferencias que ejecuta una ablación intra-modelo estricta en Qwen-3.5-9B. Alternando el razonamiento latente a través de pesos congelados, aislamos el impacto del cómputo en tiempo de inferencia frente a un conjunto de datos adversario de Optimism DAO. Nuestros hallazgos revelan una severa inversión entre cómputo y precisión. La línea base autoregresiva (Sistema 1) logró un 100% de robustez adversarial, un 100% de consistencia jurídica y finalidad de estado en menos de 13 segundos. Por el contrario, el razonamiento del Sistema 2 introdujo una inestabilidad catastrófica, impulsada fundamentalmente por una tasa de No Convergencia del Razonamiento (colapso cognitivo) del 26.7%. Este colapso degradó la estabilidad del consenso entre pruebas al 72.6% e impuso una sobrecarga de latencia de 17x, introduciendo vulnerabilidades críticas al Valor Extraíble de Gobernanza (GEV) y a la centralización del hardware. Aunque es raro (1.5% de las pruebas adversarias), capturamos empíricamente la "Sicofancia Inducida por el Razonamiento", donde el modelo generó monólogos internos significativamente más largos (promediando 25,750 caracteres) para racionalizar el fallo ante la trampa adversarial. Concluimos que, para SLMs nativos del edge que operan bajo restricciones de Tolerancia a Fallos Bizantinos (BFT), la intuición parametrizada del Sistema 1 es estructural y económicamente superior a la deliberación iterativa del Sistema 2 para el consenso descentralizado. Código y Dataset: https://github.com/smarizvi110/sentinel-bench
Los Modelos de Razonamiento Multimodal (MRM) que aprovechan el pensamiento basado en Cadenas de Razonamiento (CoT) han revolucionado la resolución de problemas matemáticos y lógicos. Sin embargo, demostramos que este paradigma tiene dificultades con la inteligencia espacial generalizada. Realizamos una evaluación exhaustiva de diecisiete modelos en trece puntos de referencia espaciales e identificamos una brecha crítica: el prompting CoT degrada consistentemente el rendimiento en el razonamiento espacial visual. Además, mediante una nueva ablación No-Imagen++, demostramos que los MRM y los Modelos de Lenguaje Multimodal (MLM) impulsados por CoT sufren de un severo aprendizaje por atajos y alucinan detalles visuales a partir de priores textuales, incluso cuando la imagen está ausente. Estos hallazgos cuestionan la eficacia del CoT basado únicamente en texto para tareas espaciales y subrayan la necesidad de paradigmas de razonamiento centrados en la visión.
Los modelos lingüísticos multimodales (MLLMs) han logrado avances impresionantes en benchmarks de lenguaje visual, pero su capacidad para el razonamiento cognitivo visual y visuoespacial sigue siendo menos comprendida. Presentamos "Mind's Eye", un benchmark de opción múltiple que comprende ocho tareas visuo-cognitivas inspiradas en tests clásicos de inteligencia humana y organizadas bajo una novedosa taxonomía "A-R-T": Abstracción, Relación y Transformación. Las tareas exploran procesos centrales de la inteligencia fluida como la inducción de patrones, el mapeo de relaciones analógicas y la transformación mental. Evaluamos un conjunto diverso de MLLMs de código cerrado y abierto, y comparamos su rendimiento con participantes humanos. Los humanos alcanzan un 80% de precisión, mientras que los mejores MLLMs se mantienen por debajo del 50%. El análisis de errores revela fallos en: (i) la asignación de atención visual, (ii) la manipulación perceptual interna, y (iii) la abstracción débil de conceptos visuales subyacentes. Nuestros hallazgos sugieren que los MLLMs actuales exhiben capacidades limitadas de razonamiento visuoespacial en comparación con los participantes humanos, lo que subraya la necesidad de marcos de evaluación más fundamentados en la cognición.
La implementación de interfaces de usuario para videojuegos requiere traducir maquetas estilizadas en entidades interactivas del motor gráfico. Sin embargo, las herramientas actuales de "Captura de Pantalla a Código" suelen tener dificultades con las geometrías irregulares y las jerarquías visuales profundas típicas de las interfaces de juego. Para cerrar esta brecha, presentamos SPRITE, un pipeline que transforma capturas de pantalla estáticas en recursos editables del motor. Al integrar Modelos de Visión y Lenguaje (VLM) con una representación intermedia estructurada en YAML, SPRITE captura explícitamente relaciones complejas de contenedores y diseños no rectangulares. Evaluamos SPRITE frente a un benchmark curado de IU para juegos y realizamos revisiones expertas con desarrolladores profesionales para evaluar la fidelidad de la reconstrucción y la eficiencia en la creación de prototipos. Nuestros hallazgos demuestran que SPRITE agiliza el desarrollo automatizando la codificación tediosa y resolviendo anidamientos complejos. Al facilitar una iteración rápida dentro del motor, SPRITE difumina efectivamente los límites entre el diseño artístico y la implementación técnica en el desarrollo de videojuegos. Página del proyecto: https://baiyunshu.github.io/sprite.github.io/