Artículos de investigación en IA seleccionados diariamente con traducciones
La Atención Dispersa-Lineal (SLA) combina la atención dispersa y lineal para acelerar los modelos de difusión y ha mostrado un rendimiento sólido en la generación de vídeo. Sin embargo, (i) la SLA se basa en una división heurística que asigna los cálculos a la rama dispersa o lineal según la magnitud de los pesos de atención, lo que puede ser subóptimo. Además, (ii) tras analizar formalmente el error de atención en SLA, identificamos un desajuste entre la SLA y una descomposición directa en atención dispersa y lineal. Proponemos SLA2, que introduce (I) un enrutador entrenable que selecciona dinámicamente si cada cálculo de atención debe usar atención dispersa o lineal, (II) una formulación de atención dispersa-lineal más fiel y directa que utiliza una proporción entrenable para combinar las ramas de atención dispersa y lineal, y (III) un diseño de atención dispersa + de bajo bits, donde la atención de bajo bits se introduce mediante ajuste fino con conciencia de cuantización para reducir el error de cuantización. Los experimentos muestran que, en modelos de difusión de vídeo, SLA2 puede alcanzar un 97% de dispersión en la atención y ofrecer una aceleración de la atención de 18.6x, preservando la calidad de la generación.
El rendimiento de los agentes autónomos de GUI web depende en gran medida de la calidad y cantidad de sus datos de entrenamiento. Sin embargo, persiste un cuello de botella fundamental: la recopilación de trayectorias de interacción de sitios web del mundo real es costosa y difícil de verificar. Las transiciones de estado subyacentes están ocultas, lo que conduce a una dependencia de verificadores externos inconsistentes y costosos para evaluar la corrección a nivel de paso. Para abordar esto, proponemos AutoWebWorld, un marco novedoso para sintetizar entornos web controlables y verificables modelándolos como Máquinas de Estado Finito (MEF) y utilizando agentes de codificación para traducir las MEF en sitios web interactivos. A diferencia de los sitios web reales, donde las transiciones de estado son implícitas, AutoWebWorld define explícitamente todos los estados, acciones y reglas de transición. Esto permite una verificación programática: la corrección de la acción se verifica frente a reglas predefinidas, y el éxito de la tarea se confirma al alcanzar un estado objetivo en el grafo de la MEF. AutoWebWorld permite una canalización automatizada de búsqueda y verificación, generando más de 11,663 trayectorias verificadas a partir de 29 entornos web diversos con un costo de solo $0.04 por trayectoria. El entrenamiento con estos datos sintéticos mejora significativamente el rendimiento en el mundo real. Nuestro agente de GUI web de 7B supera a todos los baselines en menos de 15 pasos en WebVoyager. Además, observamos una clara ley de escalamiento: a medida que aumenta el volumen de datos sintéticos, el rendimiento en WebVoyager y Online-Mind2Web mejora consistentemente.
A pesar del rápido progreso en los modelos fundacionales multimodales, la comunidad de la inteligencia corporeizada aún carece de un modelo fundacional unificado y físicamente fundamentado que integre la percepción, el razonamiento y la planificación dentro de las dinámicas espacio-temporales del mundo real. Presentamos RynnBrain, un modelo fundacional espacio-temporal de código abierto para la inteligencia corporeizada. RynnBrain fortalece cuatro capacidades centrales en un marco unificado: comprensión egocéntrica integral, localización espacio-temporal diversa, razonamiento físicamente fundamentado y planificación consciente de la física. La familia RynnBrain comprende tres escalas de modelos fundacionales (2B, 8B y 30B-A3B MoE) y cuatro variantes post-entrenadas adaptadas para tareas corporeizadas posteriores (es decir, RynnBrain-Nav, RynnBrain-Plan y RynnBrain-VLA) o para tareas complejas de razonamiento espacial (es decir, RynnBrain-CoP). En términos de evaluaciones exhaustivas en 20 benchmarks de inteligencia corporeizada y 8 benchmarks generales de comprensión visual, nuestros modelos fundacionales RynnBrain superan ampliamente a los modelos fundacionales corporeizados existentes por un margen significativo. El conjunto de modelos post-entrenados sustancia además dos potencialidades clave del modelo fundacional RynnBrain: (i) permitir un razonamiento y una planificación físicamente fundamentados, y (ii) servir como una sólida columna vertebral preentrenada que puede adaptarse eficientemente a diversas tareas corporeizadas.
El Diseño Asistido por Computadora (CAD) proporciona modelado rápido y editable para ingeniería y manufactura. Los recientes avances en IA hacen factible la automatización completa de diversas tareas de CAD. Sin embargo, el progreso se ve limitado por los datos: los corpus públicos contienen principalmente secuencias de boceto-extrusión, carecen de operaciones complejas, composición multioperación e intención de diseño, lo que dificulta un ajuste fino efectivo. Los intentos de sortear esto usando Modelos de Lenguaje Visual (VLM) congelados a menudo producen programas simples o inválidos debido a la limitada comprensión 3D en los modelos base actuales. Presentamos CADEvolve, una metodología y conjunto de datos basados en evolución que parte de primitivas simples y, mediante ediciones y validaciones guiadas por VLM, incrementa progresivamente la complejidad de los programas de CAD hasta alcanzar niveles industriales. El resultado son 8k piezas complejas expresadas como generadores paramétricos ejecutables en CadQuery. Tras un postprocesamiento y aumento multi-etapa, obtenemos un conjunto de datos unificado de 1.3 millones de scripts emparejados con geometría renderizada que ejercitan el conjunto completo de operaciones de CadQuery. Un VLM ajustado sobre CADEvolve logra resultados de vanguardia en la tarea Image2CAD a través de los benchmarks DeepCAD, Fusion 360 y MCB.
La locomoción-manipulación visual de objetos arbitrarios en entornos no controlados con robots humanoides requiere un control preciso del efector final (EE) y una comprensión generalizable de la escena a través de entradas visuales (por ejemplo, imágenes RGB-D). Los enfoques existentes se basan en el aprendizaje por imitación en el mundo real y exhiben una generalización limitada debido a la dificultad de recopilar conjuntos de datos de entrenamiento a gran escala. Este artículo presenta un nuevo paradigma, HERO, para la locomoción-manipulación de objetos con robots humanoides que combina la fuerte generalización y comprensión de vocabulario abierto de los grandes modelos de visión con el sólido rendimiento de control obtenido del entrenamiento en simulación. Lo logramos diseñando una política de seguimiento del EF precisa y consciente del residuo. Esta política de seguimiento del EF combina la robótica clásica con el aprendizaje automático. Utiliza a) la cinemática inversa para convertir los objetivos residuales del efector final en trayectorias de referencia, b) un modelo directo neuronal aprendido para una cinemática directa precisa, c) ajuste de objetivos y d) replanificación. En conjunto, estas innovaciones nos ayudan a reducir el error de seguimiento del efector final en 3.2 veces. Utilizamos este rastreador preciso del efector final para construir un sistema modular para locomoción-manipulación, donde empleamos grandes modelos de visión de vocabulario abierto para una sólida generalización visual. Nuestro sistema es capaz de operar en diversos entornos del mundo real, desde oficinas hasta cafeterías, donde el robot puede manipular de manera fiable varios objetos cotidianos (por ejemplo, tazas, manzanas, juguetes) en superficies con alturas que van desde los 43 cm hasta los 92 cm. Pruebas sistemáticas modulares y de extremo a extremo en simulación y en el mundo real demuestran la efectividad de nuestro diseño propuesto. Creemos que los avances presentados en este artículo pueden abrir nuevas formas de entrenar robots humanoides para interactuar con objetos cotidianos.
Lograr la cooperación entre agentes interesados en su propio beneficio sigue siendo un desafío fundamental en el aprendizaje por refuerzo multiagente. Trabajos recientes han demostrado que la cooperación mutua puede inducirse entre agentes "conscientes del aprendizaje" que tienen en cuenta y moldean la dinámica de aprendizaje de sus copartícipes. Sin embargo, los enfoques existentes suelen depender de suposiciones predefinidas, a menudo inconsistentes, sobre las reglas de aprendizaje del copartícipe, o imponen una separación estricta entre "aprendices ingenuos" que se actualizan en escalas de tiempo rápidas y "meta-aprendices" que observan estas actualizaciones. Aquí demostramos que las capacidades de aprendizaje en contexto de los modelos de secuencia permiten la conciencia del aprendizaje del copartícipe sin requerir suposiciones predefinidas o una separación explícita de escalas de tiempo. Mostramos que entrenar agentes basados en modelos de secuencia contra una distribución diversa de copartícipes induce naturalmente estrategias de mejor respuesta en contexto, funcionando efectivamente como algoritmos de aprendizaje en la escala de tiempo rápida intra-episodio. Descubrimos que el mecanismo cooperativo identificado en trabajos previos —donde la vulnerabilidad a la extorsión impulsa un moldeado mutuo— emerge naturalmente en este entorno: la adaptación en contexto vuelve a los agentes vulnerables a la extorsión, y la presión mutua resultante para moldear la dinámica de aprendizaje en contexto del oponente se resuelve en el aprendizaje de un comportamiento cooperativo. Nuestros resultados sugieren que el aprendizaje por refuerzo descentralizado estándar en modelos de secuencia, combinado con la diversidad de copartícipes, proporciona un camino escalable para aprender comportamientos cooperativos.
Presentamos el Massive Audio Embedding Benchmark (MAEB), un benchmark a gran escala que abarca 30 tareas en los ámbitos del habla, la música, los sonidos ambientales y el razonamiento audio-texto multimodal en más de 100 idiomas. Evaluamos más de 50 modelos y encontramos que ningún modelo domina en todas las tareas: los modelos de contraste audio-texto sobresalen en la clasificación de sonidos ambientales (por ejemplo, ESC50), pero obtienen puntuaciones cercanas al azar en tareas de habla multilingüe (por ejemplo, SIB-FLEURS), mientras que los modelos preentrenados en habla muestran el patrón opuesto. La agrupación (clustering) sigue siendo un desafío para todos los modelos, ya que incluso el de mejor rendimiento logra solo resultados modestos. Observamos que los modelos que sobresalen en la comprensión acústica a menudo tienen un rendimiento deficiente en tareas lingüísticas, y viceversa. También demostramos que el rendimiento de los codificadores de audio en MAEB se correlaciona significativamente con su rendimiento cuando se utilizan en modelos de lenguaje grande (LLM) de audio. MAEB se deriva de MAEB+, una colección de 98 tareas. MAEB está diseñado para mantener la diversidad de tareas mientras reduce el costo de evaluación, y se integra en el ecosistema MTEB para una evaluación unificada en las modalidades de texto, imagen y audio. Publicamos MAEB y las 98 tareas, junto con el código y una tabla de clasificación (leaderboard), en https://github.com/embeddings-benchmark/mteb.
Las evaluaciones estándar de factualidad en LLMs tratan todos los errores por igual, oscureciendo si las fallas surgen de conocimiento faltante (estantes vacíos) o de acceso limitado a hechos codificados (llaves perdidas). Proponemos un marco conductual que perfila el conocimiento factual a nivel de hechos en lugar de preguntas, caracterizando cada hecho por si está codificado y luego por cuán accesible es: no puede ser recordado, puede ser recordado directamente, o solo puede ser recordado con computación en tiempo de inferencia (pensamiento). Para respaldar dicho perfilado, presentamos WikiProfile, un nuevo benchmark construido mediante una canalización automatizada con un LLM instruccionado y basado en búsqueda web. En 4 millones de respuestas de 13 LLMs, encontramos que la codificación está casi saturada en los modelos de vanguardia en nuestro benchmark, con GPT-5 y Gemini-3 codificando el 95-98% de los hechos. Sin embargo, el recuerdo sigue siendo un cuello de botella principal: muchos errores previamente atribuidos a conocimiento faltante en realidad se originan por fallas en acceder a él. Estas fallas son sistemáticas y afectan desproporcionadamente a los hechos de la larga cola y a las preguntas inversas. Finalmente, mostramos que el pensamiento mejora el recuerdo y puede recuperar una fracción sustancial de las fallas, indicando que las ganancias futuras pueden depender menos del escalamiento y más de métodos que mejoren cómo los modelos utilizan lo que ya codifican.
Los agentes de IA se implementan cada vez más para ejecutar tareas importantes. Si bien el aumento en las puntuaciones de precisión en benchmarks estándar sugiere un progreso rápido, muchos agentes siguen fallando en la práctica. Esta discrepancia subraya una limitación fundamental de las evaluaciones actuales: comprimir el comportamiento del agente en una única métrica de éxito oculta fallos operativos críticos. En particular, ignora si los agentes se comportan de manera consistente entre ejecuciones, resisten perturbaciones, fallan de forma predecible o tienen una gravedad de error acotada. Basándonos en la ingeniería de sistemas críticos para la seguridad, proporcionamos un perfil de rendimiento holístico al proponer doce métricas concretas que descomponen la confiabilidad del agente en cuatro dimensiones clave: consistencia, robustez, predecibilidad y seguridad. Al evaluar 14 modelos agenticos en dos benchmarks complementarios, encontramos que las recientes mejoras en capacidades solo han producido pequeñas mejoras en confiabilidad. Al exponer estas limitaciones persistentes, nuestras métricas complementan las evaluaciones tradicionales mientras ofrecen herramientas para razonar sobre cómo los agentes funcionan, se degradan y fallan.
Los modelos de última generación de Visión-Lenguaje-Acción (VLA) sobresalen en la generalización semántica pero tienen dificultades para generalizar a movimientos físicos no vistos en entornos novedosos. Presentamos DreamZero, un Modelo de Acción Mundial (WAM, por sus siglas en inglés) construido sobre un modelo base de difusión de vídeo preentrenado. A diferencia de los VLA, los WAM aprenden dinámicas físicas prediciendo estados y acciones futuras del mundo, utilizando el vídeo como una representación densa de cómo evoluciona el mundo. Al modelar conjuntamente vídeo y acción, DreamZero aprende diversas habilidades de manera efectiva a partir de datos heterogéneos de robots sin depender de demostraciones repetitivas. Esto resulta en una mejora de más del doble en la generalización a nuevas tareas y entornos en comparación con los VLA de última generación en experimentos con robots reales. Crucialmente, mediante optimizaciones del modelo y del sistema, permitimos que un modelo de difusión de vídeo autoregresivo de 14B realice control en lazo cerrado en tiempo real a 7Hz. Finalmente, demostramos dos formas de transferencia de encarnación cruzada: las demostraciones basadas únicamente en vídeo de otros robots o humanos producen una mejora relativa de más del 42% en el rendimiento de tareas no vistas con solo 10-20 minutos de datos. Más sorprendentemente, DreamZero permite la adaptación de encarnación con pocos ejemplos, transfiriéndose a una nueva encarnación con solo 30 minutos de datos de juego mientras mantiene la generalización de cero disparos.
Las arquitecturas de pesos rápidos ofrecen una alternativa prometedora a los transformadores basados en atención para el modelado de contextos largos, ya que mantienen una sobrecarga de memoria constante independientemente de la longitud del contexto. Sin embargo, su potencial está limitado por el paradigma de entrenamiento de predicción del siguiente token (NTP). El NTP optimiza las predicciones de tokens individuales e ignora la coherencia semántica a través de múltiples tokens que siguen a un prefijo. En consecuencia, los modelos de pesos rápidos, que actualizan dinámicamente sus parámetros para almacenar información contextual, aprenden representaciones subóptimas que no logran capturar dependencias de largo alcance. Presentamos REFINE (Pesos Rápidos Reforzados con Predicción de la Siguiente Secuencia), un marco de aprendizaje por refuerzo que entrena modelos de pesos rápidos bajo el objetivo de predicción de la siguiente secuencia (NSP). REFINE selecciona posiciones de tokens informativas basándose en la entropía de la predicción, genera simulaciones de múltiples tokens, asigna recompensas autosupervisadas a nivel de secuencia y optimiza el modelo con optimización de políticas relativas por grupos (GRPO). REFINE es aplicable a lo largo de todo el ciclo de vida de entrenamiento de los modelos de lenguaje preentrenados: durante el entrenamiento, posterior al entrenamiento y en el entrenamiento en tiempo de prueba. Nuestros experimentos en LaCT-760M y DeltaNet-1.3B demuestran que REFINE supera consistentemente al ajuste fino supervisado con NTP en tareas de recuperación "aguja-en-un-pajar", respuesta a preguntas de contexto largo y diversas tareas en LongBench. REFINE proporciona un marco eficaz y versátil para mejorar el modelado de contextos largos en arquitecturas de pesos rápidos.
Presentamos SAM 3D Body (3DB), un modelo promptable para la recuperación de mallas humanas 3D de cuerpo completo a partir de una sola imagen que demuestra un rendimiento de vanguardia, con una fuerte generalización y precisión consistente en diversas condiciones del mundo real. 3DB estima la postura humana del cuerpo, los pies y las manos. Es el primer modelo en utilizar una nueva representación paramétrica de malla, Momentum Human Rig (MHR), que desacopla la estructura esquelética y la forma de la superficie. 3DB emplea una arquitectura codificador-decodificador y admite prompts auxiliares, incluyendo puntos clave 2D y máscaras, permitiendo una inferencia guiada por el usuario similar a la familia de modelos SAM. Derivamos anotaciones de alta calidad a partir de un pipeline de anotación multi-etapa que utiliza varias combinaciones de anotación manual de puntos clave, optimización diferenciable, geometría multi-vista y detección densa de puntos clave. Nuestro motor de datos selecciona y procesa información de manera eficiente para garantizar la diversidad de los datos, recolectando poses inusuales y condiciones de imagen poco comunes. Presentamos un nuevo conjunto de datos de evaluación organizado por categorías de pose y apariencia, permitiendo un análisis detallado del comportamiento del modelo. Nuestros experimentos demuestran una generalización superior y mejoras sustanciales respecto a métodos anteriores, tanto en estudios cualitativos de preferencia de usuarios como en análisis cuantitativos tradicionales. Tanto 3DB como MHR son de código abierto.
La Distillation por Correspondencia de Distribuciones (DMD) es un paradigma de aceleración potente, aunque su estabilidad a menudo se ve comprometida en la Zona Prohibida, regiones donde el profesor real proporciona una guía poco fiable mientras que el profesor falso ejerce una fuerza repulsiva insuficiente. En este trabajo, proponemos un marco de optimización unificado que reinterpreta técnicas anteriores como estrategias implícitas para evitar estas regiones corruptas. Basándonos en esta perspectiva, introducimos la Distillation por Correspondencia Adaptativa (AMD), un mecanismo de autocorrección que utiliza proxies de recompensa para detectar y escapar explícitamente de las Zonas Prohibidas. AMD prioriza dinámicamente los gradientes correctivos mediante una descomposición estructural de señales e introduce un Afilado del Paisaje Repulsivo para imponer barreras de energía pronunciadas contra el colapso en modos de fallo. Experimentos exhaustivos en tareas de generación de imágenes y vídeo (por ejemplo, SDXL, Wan2.1) y benchmarks rigurosos (por ejemplo, VBench, GenEval) demuestran que AMD mejora significativamente la fidelidad de las muestras y la robustez del entrenamiento. Por ejemplo, AMD mejora la puntuación HPSv2 en SDXL de 30.64 a 31.25, superando a los métodos baseline más avanzados. Estos hallazgos validan que rectificar explícitamente las trayectorias de optimización dentro de las Zonas Prohibidas es esencial para elevar el límite de rendimiento de los modelos generativos de pocos pasos.
Los agentes de IA modernos son potentes pero a menudo no logran alinearse con las preferencias idiosincrásicas y en evolución de usuarios individuales. Los enfoques previos generalmente dependen de conjuntos de datos estáticos, ya sea entrenando modelos implícitos de preferencias sobre el historial de interacciones o codificando perfiles de usuario en memoria externa. Sin embargo, estos métodos tienen dificultades con usuarios nuevos y con preferencias que cambian con el tiempo. Presentamos Agentes Personalizados a partir de Retroalimentación Humana (APRH), un marco para la personalización continua en el que los agentes aprenden en línea a partir de la interacción en vivo utilizando una memoria explícita por usuario. APRH operacionaliza un bucle de tres pasos: (1) buscar aclaración previa a la acción para resolver ambigüedades, (2) fundamentar las acciones en preferencias recuperadas de la memoria, y (3) integrar la retroalimentación posterior a la acción para actualizar la memoria cuando las preferencias cambian. Para evaluar esta capacidad, desarrollamos un protocolo de cuatro fases y dos puntos de referencia en manipulación embodada y compras en línea. Estos puntos de referencia cuantifican la capacidad de un agente para aprender preferencias iniciales desde cero y adaptarse posteriormente a cambios de personalidad. Nuestro análisis teórico y los resultados empíricos muestran que integrar memoria explícita con canales duales de retroalimentación es crucial: APRH aprende sustancialmente más rápido y supera consistentemente tanto a las líneas base sin memoria como a las de canal único, reduciendo el error de personalización inicial y permitiendo una rápida adaptación a los cambios de preferencia.
Los agentes multimodales de horizonte largo dependen de la memoria externa; sin embargo, la recuperación basada en similitud a menudo presenta elementos obsoletos, de baja credibilidad o contradictorios, lo que puede desencadenar errores de sobreconfianza. Proponemos el Agente de Memoria Multimodal (MMA), que asigna a cada elemento de memoria recuperado una puntuación de confiabilidad dinámica mediante la combinación de la credibilidad de la fuente, la descomposición temporal y el consenso de la red consciente de conflictos, y utiliza esta señal para reponderar la evidencia y abstenerse cuando el respaldo es insuficiente. También presentamos MMA-Bench, un benchmark generado de forma programática para la dinámica de creencias con confiabilidad controlada del hablante y contradicciones estructuradas texto-visión. Utilizando este marco, descubrimos el "Efecto Placebo Visual", que revela cómo los agentes basados en RAG heredan sesgos visuales latentes de los modelos fundacionales. En FEVER, MMA iguala la precisión de la línea base mientras reduce la varianza en un 35,2% y mejora la utilidad selectiva; en LoCoMo, una configuración orientada a la seguridad mejora la precisión accionable y reduce las respuestas incorrectas; en MMA-Bench, MMA alcanza un 41,18% de precisión Tipo-B en modo Visión, mientras que la línea base colapsa al 0,0% bajo el mismo protocolo. Código: https://github.com/AIGeeksGroup/MMA.
Presentamos los Nexus Adapters, unos novedosos adaptadores eficientes guiados por texto para el marco de trabajo basado en difusión destinado a la Generación Condicional con Preservación de Estructura (SPCG). Recientemente, los métodos de preservación de estructura han logrado resultados prometedores en la generación condicional de imágenes utilizando un modelo base para el condicionamiento mediante prompts y un adaptador para la entrada estructural, como bocetos o mapas de profundidad. Estos enfoques son altamente ineficientes y a veces requieren tantos parámetros en el adaptador como en la arquitectura base. No siempre es posible entrenar el modelo, ya que el modelo de difusión es en sí mismo costoso, y duplicar los parámetros es sumamente ineficiente. En estos enfoques, el adaptador no es consciente del prompt de entrada; por lo tanto, es óptimo solo para la entrada estructural pero no para el prompt de entrada. Para superar los desafíos anteriores, propusimos dos adaptadores eficientes, Nexus Prime y Slim, que están guiados por los prompts y las entradas estructurales. Cada Bloque Nexus incorpora mecanismos de atención cruzada para permitir un condicionamiento multimodal enriquecido. Por consiguiente, el adaptador propuesto comprende mejor el prompt de entrada mientras preserva la estructura. Realizamos extensos experimentos en los modelos propuestos y demostramos que el adaptador Nexus Prime mejora significativamente el rendimiento, requiriendo solo 8M parámetros adicionales en comparación con el baseline, T2I-Adapter. Además, también presentamos un adaptador ligero, Nexus Slim, con 18M parámetros menos que T2I-Adapter, que aun así logró resultados de vanguardia. Código: https://github.com/arya-domain/Nexus-Adapters
Un aspecto fundamental de la percepción humana es la conciencia situada, la capacidad de relacionarnos con el entorno físico circundante y razonar sobre posibles acciones en contexto. Sin embargo, la mayoría de los puntos de referencia existentes para los modelos fundacionales multimodales (MFM) enfatizan las relaciones espaciales centradas en el entorno (relaciones entre objetos en una escena), mientras que en gran medida pasan por alto las relaciones centradas en el observador que requieren razonar en relación con el punto de vista, la postura y el movimiento del agente. Para cerrar esta brecha, presentamos SAW-Bench (Conciencia Situada en el Mundo Real), un nuevo punto de referencia para evaluar la conciencia situada en egocéntrica utilizando videos del mundo real. SAW-Bench comprende 786 videos auto-grabados capturados con las gafas inteligentes Ray-Ban Meta (Gen 2) que abarcan diversos entornos interiores y exteriores, y más de 2,071 pares de preguntas y respuestas anotadas manualmente. Evalúa la comprensión centrada en el observador de un modelo con seis tareas de conciencia diferentes. Nuestra evaluación integral revela una brecha de rendimiento entre humanos y modelos del 37.66%, incluso con el MFM de mejor rendimiento, Gemini 3 Flash. Más allá de esta brecha, nuestro análisis en profundidad descubre varios hallazgos notables; por ejemplo, si bien los modelos pueden explotar pistas geométricas parciales en videos egocéntricos, a menudo no logran inferir una geometría de cámara coherente, lo que lleva a errores sistemáticos de razonamiento espacial. Posicionamos a SAW-Bench como un punto de referencia para la inteligencia espacial situada, yendo más allá de la observación pasiva hacia la comprensión de dinámicas físicamente fundamentadas y centradas en el observador.
Introducimos un novedoso marco de segmentación multimodal consciente de la incertidumbre que aprovecha tanto las imágenes radiológicas como el texto clínico asociado para un diagnóstico médico preciso. Proponemos un Bloque de Atención de Decodificación de Modalidad (MoDAB) con un Mezclador de Espacio de Estados ligero (SSMix) para permitir una fusión multimodal eficiente y un modelado de dependencias de largo alcance. Para guiar el aprendizaje bajo ambigüedad, proponemos la Pérdida por Incertidumbre Espectro-Entrópica (SEU), que captura conjuntamente la superposición espacial, la consistencia espectral y la incertidumbre predictiva en un objetivo unificado. En circunstancias clínicas complejas con mala calidad de imagen, esta formulación mejora la fiabilidad del modelo. Experimentos exhaustivos en varios conjuntos de datos médicos de acceso público, QATA-COVID19, MosMed++ y Kvasir-SEG, demuestran que nuestro método logra un rendimiento de segmentación superior siendo significativamente más eficiente computacionalmente que los enfoques State-of-the-Art (SoTA) existentes. Nuestros resultados subrayan la importancia de incorporar el modelado de incertidumbre y la alineación estructurada de modalidades en tareas de segmentación médica de visión y lenguaje. Código: https://github.com/arya-domain/UA-VLS
Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han avanzado significativamente la IA encarnada, y su uso para evaluar la inteligencia robótica se ha convertido en una tendencia pivotal. Sin embargo, los marcos existentes se mantienen predominantemente confinados a la manipulación con un solo brazo, sin capturar la coordinación espacio-temporal requerida para tareas bimanuales como levantar una olla pesada. Para abordar esto, presentamos BiManiBench, un benchmark jerárquico que evalúa los MLLMs en tres niveles: razonamiento espacial fundamental, planificación de acciones de alto nivel y control de bajo nivel del efector final. Nuestro marco aísla desafíos bimanuales únicos, como la alcanzabilidad del brazo y las restricciones cinemáticas, distinguiendo así las alucinaciones perceptivas de los fallos de planificación. El análisis de más de 30 modelos de última generación revela que, a pesar de la competencia en el razonamiento de alto nivel, los MLLMs tienen dificultades con la fundamentación espacial y el control de brazos duales, lo que frecuentemente resulta en interferencia mutua y errores de secuenciación. Estos hallazgos sugieren que el paradigma actual carece de una comprensión profunda de las restricciones cinemáticas mutuas, destacando la necesidad de que futuras investigaciones se centren en la evitación de colisiones entre brazos y la secuenciación temporal de grano fino.
Los modelos generativos grandes de visión y lenguaje (LVLM) han logrado recientemente avances impresionantes en su rendimiento, y su base de usuarios está creciendo rápidamente. Sin embargo, la seguridad de los LVLM, particularmente en entornos de contexto largo y múltiples turnos, está en gran medida sin explorar. En este artículo, consideramos el escenario realista en el que un atacante sube una imagen manipulada a la web o redes sociales. Un usuario benigno descarga esta imagen y la utiliza como entrada para el LVLM. Nuestro novedoso ataque sigiloso de Inyección de Memoria Visual (VMI) está diseñado para que, ante instrucciones normales, el LVLM exhiba un comportamiento nominal, pero una vez que el usuario proporciona una instrucción desencadenante, el LVLM genera un mensaje objetivo específico y predeterminado para manipular al usuario, por ejemplo, para marketing adversario o persuasión política. En comparación con trabajos anteriores centrados en ataques de un solo turno, VMI es efectivo incluso después de una larga conversación de múltiples turnos con el usuario. Demostramos nuestro ataque en varios LVLM recientes de pesos abiertos. Este artículo muestra así que la manipulación a gran escala de usuarios es factible mediante imágenes perturbadas en entornos de conversación de múltiples turnos, lo que exige una mayor robustez de los LVLM contra estos ataques. Publicamos el código fuente en https://github.com/chs20/visual-memory-injection.
La epidemia de opioides continúa devastando comunidades en todo el mundo, tensionando los sistemas sanitarios, desestructurando familias y demandando soluciones computacionales urgentes. Para combatir esta letal crisis de los opioides, los métodos de aprendizaje en grafos han surgido como un paradigma prometedor para modelar fenómenos complejos relacionados con las drogas. Sin embargo, persiste una brecha significativa: no existe un benchmark integral para evaluar sistemáticamente estos métodos en escenarios reales de la crisis de opioides. Para salvar esta brecha, presentamos OPBench, el primer benchmark integral de opioides que comprende cinco conjuntos de datos en tres dominios de aplicación críticos: detección de sobredosis por opioides a partir de registros sanitarios, detección de tráfico ilícito de drogas en plataformas digitales y predicción del uso indebido de drogas a partir de patrones dietéticos. Específicamente, OPBench incorpora diversas estructuras de grafos, incluyendo grafos heterogéneos e hipergrafos, para preservar la información relacional rica y compleja entre los datos relacionados con las drogas. Para abordar la escasez de datos, colaboramos con expertos en el dominio e instituciones autorizadas para curar y anotar los conjuntos de datos, cumpliendo con las directrices de privacidad y ética. Además, establecemos un marco de evaluación unificado con protocolos estandarizados, divisiones de datos predefinidas y líneas base reproducibles para facilitar una comparación justa y sistemática entre los métodos de aprendizaje en grafos. Mediante experimentos exhaustivos, analizamos las fortalezas y limitaciones de los métodos existentes de aprendizaje en grafos, proporcionando así perspectivas accionables para futuras investigaciones en la lucha contra la crisis de los opioides. Nuestro código fuente y conjuntos de datos están disponibles en https://github.com/Tianyi-Billy-Ma/OPBench.