Artículos de investigación en IA seleccionados diariamente con traducciones
El razonamiento multimodal requiere una coordinación iterativa entre lenguaje y visión, pero aún no está claro qué constituye una cadena de pensamiento intercalada significativa. Postulamos que los pensamientos de texto e imagen deben funcionar como modalidades complementarias, más que isomórficas, que avancen mutuamente el razonamiento. Guiados por este principio, construimos ThinkMorph, un modelo unificado ajustado sobre 24.000 trazas de razonamiento intercalado de alta calidad que abarcan tareas con diferente nivel de compromiso visual. ThinkMorph aprende a generar pasos de razonamiento progresivos texto-imagen que manipulan concretamente el contenido visual mientras mantienen una lógica verbal coherente. Ofrece grandes mejoras en benchmarks centrados en visión (un promedio del 34.7% sobre el modelo base) y generaliza a tareas fuera de dominio, igualando o superando a modelos de lenguaje visual (VLM) más grandes y propietarios. Más allá del rendimiento, ThinkMorph exhibe inteligencia multimodal emergente, incluyendo habilidades de manipulación visual no vistas, conmutación adaptativa entre modos de razonamiento y mejor escalado en tiempo de prueba mediante pensamientos multimodales diversificados. Estos hallazgos sugieren direcciones prometedoras para caracterizar las capacidades emergentes de los modelos unificados para el razonamiento multimodal.
El hardware moderno de IA, como la arquitectura Blackwell de Nvidia, está adoptando cada vez más formatos de coma flotante (FP) de baja precisión para manejar los omnipresentes valores atípicos en las activaciones de los Modelos de Lenguaje a Gran Escala (LLM). A pesar de esta tendencia de la industria, ha faltado una comparación unificada de la cuantización en FP y en enteros (INT) a través de diferentes granularidades, dejando el co-diseño de algoritmos y hardware sin una guía clara. Este artículo llena ese vacío al investigar sistemáticamente las compensaciones entre los formatos FP e INT. Revelamos un punto de inflexión crítico en el rendimiento: mientras que FP sobresale en la cuantización de grano grueso, la comparación a niveles de grano fino (a nivel de bloque) es más matizada. Nuestra comparación exhaustiva demuestra que para los formatos populares de 8 bits de grano fino (por ejemplo, MX con tamaño de bloque 32), MXINT8 es superior a su contraparte FP tanto en precisión algorítmica como en eficiencia hardware. Sin embargo, para formatos de 4 bits, FP (por ejemplo, MXFP4, NVFP4) a menudo mantiene una ventaja en precisión, aunque mostramos que NVINT4 puede superar a NVFP4 cuando se aplican técnicas de mitigación de valores atípicos como la rotación de Hadamard. También introducimos un método de recorte simétrico que resuelve el sesgo del gradiente en el entrenamiento INT de grano fino y bajo bit, permitiendo un rendimiento casi sin pérdidas para el entrenamiento de MXINT8. Estos hallazgos desafían la trayectoria actual del hardware, demostrando que un enfoque FP único es subóptimo y defendiendo que los formatos INT de grano fino, particularmente MXINT8, ofrecen un mejor equilibrio entre precisión, potencia y eficiencia para los futuros aceleradores de IA.
Los agentes informáticos impulsados por Modelos de Visión y Lenguaje (VLM) han demostrado capacidades similares a las humanas para operar en entornos digitales como las plataformas móviles. Si bien estos agentes son muy prometedores para impulsar la automatización digital, su potencial para realizar operaciones inseguras, como el compromiso del sistema y la filtración de privacidad, está generando preocupaciones significativas. Detectar estos riesgos de seguridad en el vasto y complejo espacio operativo de los entornos móviles presenta un desafío formidable que sigue estando críticamente poco explorado. Para sentar las bases de la investigación sobre seguridad de agentes móviles, presentamos MobileRisk-Live, un entorno de sandbox dinámico acompañado de un benchmark de detección de seguridad que comprende trayectorias realistas con anotaciones detalladas. Sobre esta base, proponemos OS-Sentinel, un novedoso marco híbrido de detección de seguridad que combina de forma sinérgica un Verificador Formal para detectar violaciones explícitas a nivel del sistema con un Juez Contextual basado en VLM para evaluar riesgos contextuales y acciones del agente. Los experimentos muestran que OS-Sentinel logra mejoras del 10% al 30% sobre los enfoques existentes en múltiples métricas. Un análisis adicional proporciona información crítica que fomenta el desarrollo de agentes móviles autónomos más seguros y confiables.
La eficiencia de los grandes modelos de lenguaje (LLM) está fundamentalmente limitada por su proceso de generación secuencial, token por token. Sostenemos que superar este cuello de botella requiere un nuevo eje de diseño para el escalado de los LLM: aumentar el ancho de banda semántico de cada paso generativo. Con este fin, presentamos los Modelos de Lenguaje Autoregresivos Continuos (CALM), un cambio de paradigma que pasa de la predicción discreta del siguiente token a la predicción continua del siguiente vector. CALM utiliza un autocodificador de alta fidelidad para comprimir un fragmento de K tokens en un único vector continuo, a partir del cual los tokens originales pueden reconstruirse con una precisión superior al 99,9%. Esto nos permite modelar el lenguaje como una secuencia de vectores continuos en lugar de tokens discretos, lo que reduce el número de pasos generativos en un factor de K. El cambio de paradigma requiere un nuevo conjunto de herramientas de modelado; por lo tanto, desarrollamos un marco integral libre de verosimilitud que permite un entrenamiento robusto, una evaluación y un muestreo controlable en el dominio continuo. Los experimentos demuestran que CALM mejora significativamente la relación rendimiento-computación, logrando el rendimiento de sólidas líneas de base discretas con un coste computacional significativamente menor. Más importante aún, estos hallazgos establecen la predicción del siguiente vector como una vía potente y escalable hacia modelos de lenguaje ultraeficientes. Código: https://github.com/shaochenze/calm. Proyecto: https://shaochenze.github.io/blog/2025/CALM.
Los modelos Visión-Lenguaje-Acción (VLA) permiten a los robots comprender y ejecutar tareas complejas a partir de entradas multimodales. Si bien trabajos recientes exploran el uso de aprendizaje por refuerzo (RL) para automatizar la laboriosa recolección de datos en el escalado del ajuste fino supervisado (SFT), aplicar RL a gran escala a VLAs basados en flujos (por ejemplo, pi_0, pi_{0.5}) sigue siendo un desafío debido a la intratabilidad de las log-verosimilitudes de las acciones resultantes de la eliminación iterativa de ruido. Abordamos este desafío con pi_{RL}, un framework de código abierto para entrenar VLAs basados en flujos en simulación paralela. pi_{RL} implementa dos algoritmos de RL: (1) {Flow-Noise} modela el proceso de eliminación de ruido como un MDP de tiempo discreto con una red de ruido entrenable para el cálculo exacto de la log-verosimilitud. (2) {Flow-SDE} integra la eliminación de ruido con la interacción agente-entorno, formulando un MDP de dos capas que emplea la conversión ODE-a-SDE para una exploración eficiente en RL. Evaluamos pi_{RL} en los benchmarks LIBERO y ManiSkill. En LIBERO, pi_{RL} aumenta el rendimiento de los modelos de SFT con pocos ejemplos, pi_0 y pi_{0.5}, del 57.6% al 97.6% y del 77.1% al 98.3%, respectivamente. En ManiSkill, entrenamos pi_{RL} en 320 entornos paralelos, mejorando pi_0 del 41.6% al 85.7% y pi_{0.5} del 40.0% al 84.8% en 4352 tareas de recoger y colocar, demostrando RL multitarea escalable bajo simulación heterogénea. En general, pi_{RL} logra ganancias significativas de rendimiento y una generalización más robusta en comparación con los modelos de SFT, validando la efectividad del RL en línea para los VLAs basados en flujos.
El ajuste fino mediante aprendizaje por refuerzo (RL) de modelos de lenguaje grandes (LLM) suele sufrir de inestabilidad debido al desajuste numérico entre las políticas de entrenamiento e inferencia. Si bien trabajos anteriores han intentado mitigar este problema mediante correcciones algorítmicas o alineaciones de ingeniería, demostramos que su causa principal reside en la propia precisión de punto flotante. El ampliamente adoptado BF16, a pesar de su gran rango dinámico, introduce grandes errores de redondeo que rompen la consistencia entre el entrenamiento y la inferencia. En este trabajo, demostramos que simplemente revertir a FP16 elimina eficazmente este desajuste. El cambio es simple, está totalmente soportado por frameworks modernos con solo unas pocas líneas de cambio de código, y no requiere modificación alguna de la arquitectura del modelo o del algoritmo de aprendizaje. Nuestros resultados sugieren que el uso uniforme de FP16 produce una optimización más estable, una convergencia más rápida y un rendimiento más sólido en diversas tareas, algoritmos y frameworks. Esperamos que estos hallazgos motiven una reconsideración más amplia de las compensaciones de precisión en el ajuste fino por RL.
La comprensión espacial sigue siendo una debilidad de los Grandes Modelos de Lenguaje y Visión (LVLM). Los pipelines existentes de ajuste fino supervisado (SFT) y los recientes de aprendizaje por refuerzo con recompensas verificables (RLVR) dependen de supervisión costosa, herramientas especializadas o entornos restringidos que limitan la escalabilidad. Introducimos Spatial-SSRL, un paradigma de aprendizaje por refuerzo auto-supervisado que obtiene señales verificables directamente de imágenes RGB o RGB-D ordinarias. Spatial-SSRL formula automáticamente cinco tareas de pretexto que capturan la estructura espacial 2D y 3D: reordenamiento de parches mezclados, reconocimiento de parches volteados, restauración de parches recortados, ordenamiento de profundidad regional y predicción de posición 3D relativa. Estas tareas proporcionan respuestas de referencia que son fáciles de verificar y no requieren anotación humana o por parte de un LVLM. El entrenamiento en nuestras tareas mejora sustancialmente el razonamiento espacial mientras preserva las capacidades visuales generales. En siete benchmarks de comprensión espacial, tanto en configuraciones de imagen como de video, Spatial-SSRL logra ganancias promedio de precisión de 4.63% (3B) y 3.89% (7B) sobre las líneas base de Qwen2.5-VL. Nuestros resultados demuestran que una supervisión intrínseca y simple permite el RLVR a escala y proporciona una ruta práctica hacia una inteligencia espacial más robusta en los LVLM.
La Distilación por Coincidencia de Distribución (DMD) condensa modelos generativos basados en puntuaciones en generadores eficientes de un solo paso, sin requerir una correspondencia uno a uno con las trayectorias de muestreo de sus modelos maestros. Sin embargo, la capacidad limitada del modelo hace que los modelos destilados en un solo paso tengan un rendimiento inferior en tareas generativas complejas, por ejemplo, en la síntesis de movimientos de objetos intrincados en la generación de texto a video. Extender directamente DMD a una destilación multi-paso aumenta el uso de memoria y la profundidad computacional, lo que conduce a inestabilidad y reducción de la eficiencia. Si bien trabajos previos proponen el truncamiento estocástico del gradiente como una solución potencial, observamos que este reduce sustancialmente la diversidad generativa de los modelos destilados multi-paso, llevándola al nivel de sus contrapartes de un solo paso. Para abordar estas limitaciones, proponemos Phased DMD, un marco de destilación multi-paso que combina la idea de destilación por fases con Mezcla de Expertos (MoE), reduciendo la dificultad de aprendizaje mientras mejora la capacidad del modelo. Phased DMD se basa en dos ideas clave: la coincidencia de distribución progresiva y la coincidencia de puntuaciones dentro de subintervalos. Primero, nuestro modelo divide el rango de SNR en subintervalos, refinando progresivamente el modelo hacia niveles de SNR más altos para capturar mejor distribuciones complejas. A continuación, para garantizar que el objetivo de entrenamiento dentro de cada subintervalo sea preciso, hemos realizado rigurosas derivaciones matemáticas. Validamos Phased DMD destilando modelos de última generación en generación de imágenes y video, incluyendo Qwen-Image (20B parámetros) y Wan2.2 (28B parámetros). Los resultados experimentales demuestran que Phased DMD preserva mejor la diversidad de salida que DMD, al tiempo que retiene las capacidades generativas clave. Liberaremos nuestro código y modelos.
Los agentes autónomos de interfaz gráfica de usuario (GUI) dependen de una correcta fundamentación en la GUI, que mapea las instrucciones lingüísticas a coordenadas en pantalla, para ejecutar comandos de usuario. Sin embargo, los modelos actuales, ya sean entrenados mediante ajuste fino supervisado (SFT) o ajuste fino por refuerzo (RFT), carecen de autoconciencia sobre sus límites de capacidad, lo que genera sobreconfianza y predicciones poco fiables. Primero evaluamos sistemáticamente la confianza probabilística y verbalizada en modelos generales y específicos de GUI, revelando una desalineación entre la confianza y la precisión real, lo cual es especialmente crítico en tareas de automatización de GUI dinámicas, donde un solo error puede causar el fallo de la tarea. Para abordarlo, proponemos HyperClick, un marco novedoso que mejora la fundamentación fiable de la GUI mediante calibración de incertidumbre. HyperClick introduce un mecanismo de recompensa dual, combinando una recompensa binaria por acciones correctas con un modelado de confianza espacial basado en Gaussiana truncada, calibrado utilizando la puntuación de Brier. Este enfoque optimiza conjuntamente la precisión de la fundamentación y la fiabilidad de la confianza, fomentando la autocrítica introspectiva. Experimentos exhaustivos en siete benchmarks de desafío muestran que HyperClick alcanza un rendimiento de vanguardia mientras proporciona una confianza bien calibrada. Al permitir una calibración explícita de la confianza y una autocrítica introspectiva, HyperClick reduce la sobreconfianza y respalda una automatización de GUI más fiable.
La codificación posicional multimodal es esencial para los modelos de visión y lenguaje, sin embargo, ha habido poca investigación sistemática sobre la codificación posicional multimodal. Realizamos un análisis exhaustivo del Embedding Posicional Rotatorio (RoPE) multimodal examinando sus dos componentes centrales: diseño de posiciones y asignación de frecuencias. A través de extensos experimentos, identificamos tres pautas clave: coherencia posicional, utilización completa de frecuencias y preservación de los sesgos textuales, garantizando un diseño de disposición inequívoco, una representación rica y una transferencia fiel del LLM preentrenado. Basándonos en estas ideas, proponemos RoPE de Múltiples Cabezas (MHRoPE) y MRoPE-Intercalado (MRoPE-I), dos variantes simples y listas para usar que no requieren cambios arquitectónicos. Nuestros métodos superan consistentemente a los enfoques existentes en diversos benchmarks, con mejoras significativas tanto en la comprensión multimodal general como en la de grano fino. El código estará disponible en https://github.com/JJJYmmm/Multimodal-RoPEs.
La verbosidad del razonamiento en cadena de pensamiento (CoT) dificulta su despliegue masivo en aplicaciones donde la eficiencia es crítica. Recientemente han surgido enfoques de CoT implícito, que codifican los pasos de razonamiento dentro de las representaciones ocultas (embeddings) del LLM (denominado "razonamiento implícito") en lugar de hacerlo con tokens explícitos. Este enfoque acelera el CoT al reducir la longitud del razonamiento y omitir algunos componentes del LLM. Sin embargo, los métodos existentes de CoT implícito enfrentan dos desafíos significativos: (1) no logran preservar la alineación semántica entre el razonamiento implícito (cuando se transforma a lenguaje natural) y el razonamiento de referencia (ground-truth), lo que resulta en una degradación significativa del rendimiento del CoT, y (2) se centran en reducir la longitud del razonamiento implícito, pero pasan por alto el considerable costo de tiempo que le toma a un LLM generar un token individual de razonamiento implícito. Para abordar estos desafíos, proponemos un novedoso marco de CoT implícito semánticamente alineado denominado SemCoT. En particular, para el primer desafío, diseñamos un transformador de oraciones (sentence transformer) entrenado de forma contrastiva que evalúa la alineación semántica entre el razonamiento implícito y el explícito, el cual se utiliza para garantizar la preservación semántica durante la optimización del razonamiento implícito. Para abordar el segundo desafío, introducimos un generador eficiente de razonamiento implícito mediante el ajuste fino (finetuning) de un modelo de lenguaje ligero utilizando destilación de conocimiento. Este generador es guiado por nuestro transformador de oraciones para destilar el razonamiento de referencia en un razonamiento implícito semánticamente alineado, al mismo tiempo que optimiza la precisión. SemCoT es el primer enfoque que mejora la eficiencia del CoT optimizando conjuntamente la velocidad de generación a nivel de token y preservando la alineación semántica con el razonamiento de referencia. Experimentos exhaustivos demuestran el rendimiento superior de SemCoT en comparación con los métodos más avanzados (state-of-the-art), tanto en eficiencia como en efectividad. Nuestro código se puede encontrar en https://github.com/YinhanHe123/SemCoT/.
El costo cuadrático de la atención de producto escalar escalado es un obstáculo central para escalar modelos de lenguaje autorregresivos a contextos largos. La atención de tiempo lineal y los Modelos de Espacio de Estado (SSM) ofrecen alternativas escalables, pero normalmente están restringidos a aproximaciones de primer orden o basadas en kernels, lo que puede limitar la expresividad. Introducimos Higher-order Linear Attention (HLA), un mecanismo causal y en flujo continuo que materializa interacciones de orden superior mediante estadísticos suficientes de prefijo compactos. En el caso de segundo orden, HLA mantiene un estado de tamaño constante y calcula las salidas por token en tiempo lineal sin materializar ninguna matriz de tamaño n por n. Proporcionamos identidades de flujo continuo en forma cerrada, una variante estrictamente causal enmascarada que utiliza dos resúmenes adicionales, y un esquema de entrenamiento paralelo por bloques basado en escaneos asociativos que reproduce exactamente las activaciones de una recurrencia serial. Además, esbozamos extensiones a tercer orden y órdenes superiores. Colectivamente, estos resultados posicionan a HLA como un bloque de construcción escalable y fundamentado que combina la mezcla dependiente de datos, similar a la atención, con la eficiencia de las arquitecturas recurrentes modernas. Página del proyecto: https://github.com/yifanzhang-pro/HLA.
Los modelos de lenguaje multimodal (MLLM) han impulsado a los agentes corporizados al permitir la percepción directa, el razonamiento y la planificación de acciones orientadas a tareas a partir de entradas visuales. Sin embargo, estos agentes corporizados guiados por visión abren una nueva superficie de ataque: los ataques visuales de puerta trasera (backdoor), donde el agente se comporta con normalidad hasta que aparece un disparador visual en la escena, momento en el que ejecuta persistentemente una política de múltiples pasos especificada por el atacante. Presentamos BEAT, el primer marco para inyectar tales puertas traseras visuales en agentes corporizados basados en MLLM utilizando objetos del entorno como disparadores. A diferencia de los disparadores textuales, los disparadores basados en objetos presentan una amplia variación entre puntos de vista e iluminación, lo que dificulta su implantación fiable. BEAT aborda este desafío mediante (1) la construcción de un conjunto de entrenamiento que abarca escenas, tareas y ubicaciones de disparadores diversas para exponer a los agentes a la variabilidad del disparador, y (2) la introducción de un esquema de entrenamiento en dos etapas que primero aplica el ajuste fino supervisado (SFT) y luego nuestra novedosa Aprendizaje por Contraste de Disparadores (CTL). CTL formula la discriminación del disparador como un aprendizaje de preferencias entre entradas con disparador y sin él, agudizando explícitamente los límites de decisión para garantizar una activación precisa de la puerta trasera. En varios benchmarks de agentes corporizados y MLLMs, BEAT logra tasas de éxito de ataque de hasta el 80%, manteniendo un fuerte rendimiento en tareas benignas, y se generaliza de manera fiable a ubicaciones de disparadores fuera de distribución. Notablemente, en comparación con SFT simple, CTL aumenta la precisión de activación de la puerta trasera hasta en un 39% con datos limitados de puerta trasera. Estos hallazgos exponen un riesgo de seguridad crítico y aún no explorado en los agentes corporizados basados en MLLM, subrayando la necesidad de defensas robustas antes de su implementación en el mundo real.
A medida que los LLM ocupan un papel cada vez más importante en la sociedad, se enfrentan con mayor frecuencia a preguntas que requieren no solo recurrir a su conocimiento general, sino también alinearse con ciertos sistemas de valores humanos. Por lo tanto, el estudio de la alineación de los LLM con los valores humanos se ha convertido en un campo de investigación crucial. Sin embargo, trabajos previos se centran principalmente en evaluar la alineación de modelos completamente entrenados, pasando por alto la dinámica del entrenamiento mediante la cual los modelos aprenden a expresar valores humanos. En este trabajo, investigamos cómo y en qué etapa surge la alineación de valores durante el proceso de post-entrenamiento de un modelo. Nuestro análisis desentraña los efectos de los algoritmos y conjuntos de datos de post-entrenamiento, midiendo tanto la magnitud como el momento de las derivas de valor durante el entrenamiento. Experimentando con modelos Llama-3 y Qwen-3 de diferentes tamaños, y con algoritmos y conjuntos de datos populares de fine-tuning supervisado (SFT) y optimización de preferencias, encontramos que la fase SFT generalmente establece los valores de un modelo, y la posterior optimización de preferencias rara vez realinea estos valores. Además, utilizando un conjunto de datos de preferencias sintéticas que permite la manipulación controlada de valores, encontramos que diferentes algoritmos de optimización de preferencias conducen a resultados de alineación de valores distintos, incluso cuando los datos de preferencia se mantienen constantes. Nuestros hallazgos proporcionan información práctica sobre cómo se aprenden los valores durante el post-entrenamiento y ayudan a fundamentar la curación de datos, así como la selección de modelos y algoritmos para la optimización de preferencias, con el fin de mejorar la alineación de los modelos con los valores humanos.
Recientemente, la mejora de los modelos Visión-Lenguaje-Acción (VLA) mediante modelos del mundo ha mostrado potencial para mejorar el aprendizaje de políticas robóticas. Sin embargo, sigue siendo un desafío predecir conjuntamente las observaciones del siguiente estado y las secuencias de acciones debido a la diferencia inherente entre ambas modalidades. Para abordar esto, proponemos DUal-STream diffusion (DUST), un marco VLA aumentado con modelo del mundo que maneja el conflicto de modalidades y mejora el rendimiento de los VLA en diversas tareas. Específicamente, proponemos una arquitectura de transformador de difusión multimodal que mantiene explícitamente flujos separados por modalidad, permitiendo al mismo tiempo el intercambio de conocimiento cruzado. Además, introducimos perturbaciones de ruido independientes para cada modalidad y una pérdida de correspondencia de flujo desacoplada. Este diseño permite al modelo aprender la distribución conjunta de manera bidireccional evitando la necesidad de un espacio latente unificado. Basándonos en el desacoplamiento de modalidades durante el entrenamiento, también introducimos un método de muestreo conjunto que admite el escalado en tiempo de prueba, donde los tokens de acción y visión evolucionan de forma asíncrona a diferentes ritmos. Mediante experimentos en benchmarks de simulación como RoboCasa y GR-1, DUST logra mejoras de hasta el 6% sobre los métodos base, mientras que nuestro enfoque de escalado en tiempo de prueba proporciona una mejora adicional del 2-5%. En tareas del mundo real con el Franka Research 3, DUST mejora las tasas de éxito en un 13%, confirmando su efectividad más allá de la simulación. Además, el pre-entrenamiento en videos libres de acciones de BridgeV2 produce ganancias de transferencia significativas en RoboCasa, subrayando el potencial de DUST para el pre-entrenamiento de VLA a gran escala.
Presentamos Denario, un sistema multiagente de IA diseñado para funcionar como asistente de investigación científica. Denario puede realizar diversas tareas, como generar ideas, revisar la literatura, desarrollar planes de investigación, escribir y ejecutar código, crear gráficos, y redactar y revisar artículos científicos. El sistema posee una arquitectura modular que le permite manejar tareas específicas, como generar una idea, o llevar a cabo análisis científicos integrales utilizando Cmbagent como motor de investigación profunda. En este trabajo, describimos en detalle Denario y sus módulos, e ilustramos sus capacidades presentando múltiples artículos generados por IA en diversas disciplinas científicas como astrofísica, biología, biofísica, informática biomédica, química, ciencia de materiales, física matemática, medicina, neurociencia y ciencias planetarias. Denario también destaca por combinar ideas de diferentes disciplinas, lo que ilustramos mostrando un artículo que aplica métodos de la física cuántica y el aprendizaje automático a datos astrofísicos. Reportamos las evaluaciones realizadas por expertos en estos artículos, quienes proporcionaron tanto puntuaciones numéricas como comentarios similares a una revisión por pares. Posteriormente, destacamos las fortalezas, debilidades y limitaciones del sistema actual. Finalmente, discutimos las implicaciones éticas de la investigación impulsada por IA y reflexionamos sobre cómo esta tecnología se relaciona con la filosofía de la ciencia. Publicamos el código en https://github.com/AstroPilot-AI/Denario. Una demo de Denario también puede ejecutarse directamente en la web en https://huggingface.co/spaces/astropilot-ai/Denario, y la aplicación completa se desplegará en la nube.
El razonamiento matemático constituye un desafío central para los modelos de lenguaje grandes (LLMs), ya que requiere no solo respuestas correctas, sino también procesos de razonamiento fiables. El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR) ha surgido como un enfoque prometedor para mejorar dichas capacidades; sin embargo, su capacidad para fomentar un razonamiento genuino sigue sin estar clara. Investigamos RLVR en dos problemas combinatorios con soluciones completamente verificables: Planificación de Actividades y la Subsecuencia Creciente Más Larga, utilizando conjuntos de datos cuidadosamente seleccionados con óptimos únicos. A través de múltiples diseños de recompensa, encontramos que RLVR mejora las métricas de evaluación, pero a menudo reforzando heurísticas superficiales en lugar de adquirir nuevas estrategias de razonamiento. Estos hallazgos resaltan los límites de la generalización de RLVR, enfatizando la importancia de benchmarks que disocien el razonamiento matemático genuino de la explotación de atajos y proporcionen medidas fiables del progreso. Código disponible en https://github.com/xashru/rlvr-seq-generalization.
Los modelos Visión-Lenguaje-Acción (VLA) representan una frontera significativa en la inteligencia embodada, con el objetivo de tender un puente entre el conocimiento digital y la interacción con el mundo físico. Aunque estos modelos han demostrado capacidades generalistas notables, su despliegue se ve severamente obstaculizado por los sustanciales requisitos computacionales y de datos inherentes a sus modelos de base subyacentes a gran escala. Motivados por la necesidad urgente de abordar estos desafíos, este estudio presenta la primera revisión exhaustiva de los Modelos Eficientes de Visión-Lenguaje-Acción (VLA Eficientes) a lo largo de todo el proceso de datos-modelo-entrenamiento. Específicamente, introducimos una taxonomía unificada para organizar sistemáticamente los diversos esfuerzos en este dominio, categorizando las técnicas actuales en tres pilares fundamentales: (1) Diseño Eficiente de Modelos, centrado en arquitecturas eficientes y compresión de modelos; (2) Entrenamiento Eficiente, que reduce las cargas computacionales durante el aprendizaje del modelo; y (3) Recopilación Eficiente de Datos, que aborda los cuellos de botella en la adquisición y utilización de datos robóticos. Mediante una revisión crítica de los métodos más avanzados dentro de este marco, este estudio no solo establece una referencia fundamental para la comunidad, sino que también resume aplicaciones representativas, delinea desafíos clave y traza una hoja de ruta para la investigación futura. Mantenemos una página de proyecto actualizada continuamente para seguir nuestros últimos avances: https://evla-survey.github.io/
Los grandes modelos de lenguaje (LLM) están transformando el paradigma de los sistemas de recomendación al permitir que los usuarios expresen preferencias y reciban recomendaciones mediante conversaciones. Sin embargo, alinear estos modelos a la tarea de recomendación sigue siendo un desafío: los LLM preentrenados suelen generar elementos fuera del catálogo, incumplen los formatos de salida requeridos y su calidad de clasificación se degrada drásticamente hacia el final de la lista generada. Para abordar esto, proponemos ConvRec-R1, un marco de dos etapas para el entrenamiento de extremo a extremo de sistemas conversacionales de recomendación basados en LLM. En la Etapa 1, construimos un conjunto de datos de clonación conductual con una canalización Remapear-Reflexionar-Ajustar, que genera demostraciones de alta calidad y basadas en el catálogo a partir de LLMs de caja negra potentes para iniciar el entrenamiento por refuerzo. En la Etapa 2, proponemos Rank-GRPO, una extensión fundamentada de la optimización de políticas relativas por grupos (GRPO) adaptada a tareas con salidas de tipo ranking. Rank-GRPO trata cada posición en la lista de recomendaciones como unidad, en lugar del token (demasiado granular) o la secuencia (demasiado general), redefiniendo las recompensas para eliminar la asignación de crédito no causal e introduciendo una razón de importancia a nivel de rango basada en la media geométrica de las probabilidades de tokens por posición para estabilizar las actualizaciones de políticas. Los experimentos en el conjunto de datos público Reddit-v2 muestran que ConvRec-R1 converge más rápido y alcanza mayores valores de Recall y NDCG que los baselines de estilo GRPO. El código y los conjuntos de datos se publican en https://github.com/yaochenzhu/Rank-GRPO.
La segmentación precisa de instancias de edificios y la clasificación de alturas son críticas para la planificación urbana, el modelado 3D de ciudades y el monitoreo de infraestructuras. Este artículo presenta un análisis detallado de YOLOv11, el avance más reciente en la serie de modelos de aprendizaje profundo YOLO, centrándose en su aplicación para la extracción conjunta de edificios y la clasificación discreta de alturas a partir de imágenes satelitales. YOLOv11 se basa en las fortalezas de los modelos YOLO anteriores al introducir una arquitectura más eficiente que combina mejor las características en diferentes escalas, mejora la precisión de la localización de objetos y optimiza el rendimiento en escenas urbanas complejas. Utilizando el conjunto de datos DFC2023 Track 2 —que incluye más de 125,000 edificios anotados en 12 ciudades— evaluamos el rendimiento de YOLOv11 mediante métricas como precisión, exhaustividad, puntuación F1 y precisión media promedio (mAP). Nuestros hallazgos demuestran que YOLOv11 logra un sólido rendimiento en segmentación de instancias con 60.4% mAP@50 y 38.3% mAP@50–95, manteniendo una precisión de clasificación robusta en cinco niveles de altura predefinidos. El modelo sobresale en el manejo de oclusiones, formas complejas de edificios y desequilibrio de clases, particularmente para estructuras poco comunes de gran altura. El análisis comparativo confirma que YOLOv11 supera a los marcos multitarea anteriores tanto en precisión de detección como en velocidad de inferencia, haciéndolo idóneo para el mapeo urbano a gran escala en tiempo real. Esta investigación subraya el potencial de YOLOv11 para avanzar en la reconstrucción urbana semántica mediante un modelado categórico de alturas optimizado, ofreciendo perspectivas accionables para futuros desarrollos en teledetección e inteligencia geoespacial.
La información errónea relacionada con la salud es muy prevalente y potencialmente dañina. Es difícil de identificar, especialmente cuando las afirmaciones distorsionan o interpretan erróneamente hallazgos científicos. Investigamos el impacto de la generación de datos sintéticos y las técnicas de ajuste fino de bajo costo en la capacidad de los modelos de lenguaje grandes (LLMs) para reconocer argumentos falaces utilizando el conjunto de datos y el marco MISSCI. En este trabajo, proponemos MisSynth, un pipeline que aplica la generación aumentada por recuperación (RAG) para producir muestras sintéticas de falacias, las cuales se utilizan luego para ajustar un modelo LLM. Nuestros resultados muestran ganancias sustanciales en precisión con los modelos ajustados en comparación con los modelos base. Por ejemplo, el modelo LLaMA 3.1 8B ajustado logró una mejora absoluta de más del 35% en la puntuación F1 en la división de prueba de MISSCI sobre su versión base. Demostramos que la introducción de datos de falacias sintéticas para aumentar los recursos anotados limitados puede mejorar significativamente el rendimiento de clasificación zero-shot de los LLMs en tareas de información errónea científica del mundo real, incluso con recursos computacionales limitados. El código y el conjunto de datos sintéticos están disponibles en https://github.com/mxpoliakov/MisSynth.
Los modelos de texto a imagen (T2I) se utilizan cada vez más para la generación de conjuntos de datos sintéticos, pero generar datos de entrenamiento sintéticos efectivos para clasificación sigue siendo un desafío. El ajuste fino de un modelo T2I con unos pocos ejemplos reales puede ayudar a mejorar la calidad de los datos de entrenamiento sintéticos; sin embargo, también puede causar sobreajuste y reducir la diversidad en las muestras generadas. Proponemos una estrategia de ajuste fino, BOB (BeyondOBjects), para mitigar estos problemas en la clasificación de grano fino. Dado un pequeño conjunto de ejemplos reales, primero extraemos atributos independientes de la clase, como el fondo de la escena y la pose del objeto. Luego, condicionamos explícitamente en estos atributos durante el ajuste fino del modelo T2I y los marginalizamos durante la generación. Este diseño mitiga el sobreajuste, preserva el prior generativo del modelo T2I, reduce los errores de estimación y minimiza aún más las asociaciones interclase no deseadas. Experimentos exhaustivos en múltiples modelos T2I, arquitecturas base y conjuntos de datos muestran que nuestro método logra un rendimiento de vanguardia en clasificación de grano fino con pocos ejemplos cuando se aumenta con datos sintéticos. Concretamente, BOB supera a DataDream en un 7.4% en el conjunto de datos Aircraft (de 50.0% a 57.4% al ajustar un clasificador CLIP con cinco imágenes reales aumentadas con 100 imágenes sintéticas). En tres de los cuatro puntos de referencia, el ajuste fino de modelos posteriores con 5 imágenes reales aumentadas con BOB logra un mejor rendimiento que el ajuste fino con 10 imágenes reales. En conjunto, BOB supera a los métodos anteriores en 18 de 24 configuraciones experimentales, con mejoras de precisión de más del 2% en 14 de estas configuraciones.
Los juegos de cartas se utilizan ampliamente para estudiar la toma de decisiones secuenciales bajo incertidumbre, con análogos en el mundo real en negociación, finanzas y ciberseguridad. Estos juegos suelen clasificarse en tres categorías según el flujo de control: estrictamente secuenciales (los jugadores alternan acciones individuales), de respuesta determinista (algunas acciones desencadenan un resultado fijo) y de respuesta recíproca ilimitada (se permiten contrajugadas alternantes). Una estructura menos explorada pero estratégicamente rica es la de respuesta unilateral acotada, donde la acción de un jugador transfiere brevemente el control al oponente, quien debe satisfacer una condición fija mediante una o más jugadas antes de que finalice el turno. Denominamos a los juegos que presentan este mecanismo Juegos de Respuesta Unilateral Acotada (BORGs, por sus siglas en inglés). Presentamos una versión modificada de Monopoly Deal como entorno de referencia que aísla esta dinámica, donde una acción de Alquiler obliga al oponente a elegir activos de pago. El algoritmo de referencia, Minimización de Arrepentimiento Contrafactual (CFR), converge en estrategias efectivas sin necesidad de extensiones algorítmicas novedosas. Una plataforma de investigación ligera de pila completa unifica el entorno, un tiempo de ejecución de CFR paralelizado y una interfaz web jugable para humanos. El agente CFR entrenado y el código fuente están disponibles en https://monopolydeal.ai.