Artículos de investigación en IA seleccionados diariamente con traducciones
La percepción egocéntrica permite a los seres humanos experimentar y comprender el mundo directamente desde su propio punto de vista. La traducción de vídeos exocéntricos (en tercera persona) a vídeos egocéntricos (en primera persona) abre nuevas posibilidades para una comprensión inmersiva, pero sigue siendo extremadamente desafiante debido a las variaciones extremas en la pose de la cámara y la superposición mínima de vistas. Esta tarea requiere preservar fielmente el contenido visible mientras se sintetizan las regiones no vistas de manera geométricamente consistente. Para lograrlo, presentamos EgoX, un marco novedoso para generar vídeos egocéntricos a partir de una única entrada exocéntrica. EgoX aprovecha el conocimiento espacio-temporal preentrenado de los modelos de difusión de vídeo a gran escala mediante una adaptación ligera con LoRA e introduce una estrategia de condicionamiento unificada que combina *priors* exocéntricos y egocéntricos mediante concatenación en anchura y canal. Adicionalmente, un mecanismo de autoatención guiado por geometría atiende selectivamente a las regiones espacialmente relevantes, garantizando coherencia geométrica y alta fidelidad visual. Nuestro enfoque logra una generación de vídeo egocéntrico coherente y realista, demostrando al mismo tiempo una fuerte escalabilidad y robustez en vídeos no vistos y en entornos no controlados.
La interpretación fiable de datos multimodales en odontología es esencial para la atención bucodental automatizada, sin embargo, los modelos de lenguaje multimodal (MLLMs) actuales tienen dificultades para capturar detalles visuales dentales de grano fino y carecen de capacidad de razonamiento suficiente para diagnósticos precisos. Para abordar estas limitaciones, presentamos DentalGPT, un MLLM dental especializado desarrollado mediante inyección de conocimiento del dominio de alta calidad y aprendizaje por refuerzo. Específicamente, se construyó el conjunto de datos multimodal anotado más grande hasta la fecha para odontología, agregando más de 120.000 imágenes dentales emparejadas con descripciones detalladas que resaltan características visuales relevantes para el diagnóstico, convirtiéndolo en el conjunto de datos multimodal con la colección más extensa de imágenes dentales hasta ahora. El entrenamiento con este conjunto de datos mejora significativamente la comprensión visual del MLLM sobre condiciones dentales, mientras que la etapa posterior de aprendizaje por refuerzo fortalece aún más su capacidad para el razonamiento complejo multimodal. Evaluaciones exhaustivas en benchmarks de intraorales y panorámicas, junto con subconjuntos dentales de benchmarks médicos de VQA, muestran que DentalGPT logra un rendimiento superior en tareas de clasificación de enfermedades y VQA dental, superando a muchos MLLMs de vanguardia a pesar de tener solo 7B de parámetros. Estos resultados demuestran que los datos dentales de alta calidad combinados con una adaptación escalonada proporcionan una vía efectiva para construir MLLMs dentales capaces y especializados en el dominio.
La generación visual basada en representaciones de Modelos Fundamentales Visuales (VFM) ofrece una vía unificada altamente prometedora para integrar la comprensión visual, la percepción y la generación. A pesar de este potencial, el entrenamiento de modelos de difusión a gran escala de texto-a-imagen completamente dentro del espacio de representación VFM sigue siendo un terreno prácticamente inexplorado. Para cerrar esta brecha, escalamos el marco SVG (Representaciones Autosupervisadas para Generación Visual), proponiendo SVG-T2I para sintetizar imágenes de alta calidad directamente en el dominio de características VFM. Al aprovechar una pipeline estándar de difusión texto-a-imagen, SVG-T2I logra un rendimiento competitivo, alcanzando 0.75 en GenEval y 85.78 en DPG-Bench. Este rendimiento valida el poder representacional intrínseco de los VFM para tareas generativas. Liberamos el proyecto completamente como código abierto, incluyendo el autoencoder y el modelo de generación, junto con sus pipelines de entrenamiento, inferencia, evaluación y los pesos preentrenados, para facilitar futuras investigaciones en generación visual impulsada por representaciones.
Los modelos de generación de video a gran escala han demostrado un potencial notable para modelar la apariencia fotorrealista y las interacciones de iluminación en escenas del mundo real. Sin embargo, un marco de trabajo de circuito cerrado que comprenda conjuntamente las propiedades intrínsecas de la escena (por ejemplo, albedo, normales, material e irradiancia), las aproveche para la síntesis de video y admita representaciones intrínsecas editables sigue sin explorarse. Presentamos V-RGBX, el primer marco de trabajo integral para la edición de video con consciencia de las propiedades intrínsecas. V-RGBX unifica tres capacidades clave: (1) el rendering inverso de video en canales intrínsecos, (2) la síntesis de video fotorrealista a partir de estas representaciones intrínsecas, y (3) la edición de video basada en fotogramas clave condicionada por los canales intrínsecos. El núcleo de V-RGBX es un mecanismo de condicionamiento entrelazado que permite una edición de video intuitiva y físicamente fundamentada a través de fotogramas clave seleccionados por el usuario, admitiendo la manipulación flexible de cualquier modalidad intrínseca. Resultados cualitativos y cuantitativos exhaustivos muestran que V-RGBX produce videos fotorrealistas y temporalmente consistentes, propagando las ediciones de los fotogramas clave a lo largo de las secuencias de una manera físicamente plausible. Demostramos su eficacia en diversas aplicaciones, incluyendo la edición de la apariencia de objetos y la reiluminación a nivel de escena, superando el rendimiento de métodos anteriores.
Los modelos actuales de animación de retratos basados en difusión se centran predominantemente en mejorar la calidad visual y el realismo de las expresiones, mientras pasan por alto la latencia de generación y el rendimiento en tiempo real, lo que restringe su rango de aplicación en el escenario de transmisión en vivo. Proponemos PersonaLive, un novedoso marco basado en difusión para la animación de retratos en tiempo real en streaming, con recetas de entrenamiento multietapa. Específicamente, primero adoptamos señales implícitas híbridas, a saber, representaciones faciales implícitas y puntos clave implícitos 3D, para lograr un control de movimiento expresivo a nivel de imagen. Luego, se propone una estrategia de destilación de apariencia con menos pasos para eliminar la redundancia de apariencia en el proceso de eliminación de ruido, mejorando enormemente la eficiencia de inferencia. Finalmente, introducimos un paradigma de generación en streaming de microfragmentos autorregresivo equipado con una estrategia de entrenamiento deslizante y un mecanismo de fotogramas clave históricos para permitir una generación de video a largo plazo de baja latencia y estable. Experimentos exhaustivos demuestran que PersonaLive logra un rendimiento de vanguardia con una aceleración de hasta 7-22x sobre modelos previos de animación de retratos basados en difusión.
El mecanismo de autoatención en los Modelos de Lenguaje Grandes (LLM) basados en Transformers escala cuadráticamente con la longitud de la entrada, lo que hace que la inferencia de contexto largo sea costosa. La atención de ventana deslizante (SWA) reduce este costo a una complejidad lineal, pero habilitar SWA completa de forma ingenua durante la inferencia para modelos preentrenados con atención completa (FA) causa una severa degradación del rendimiento en contextos largos debido a la discrepancia entre entrenamiento e inferencia. Esto nos lleva a preguntarnos: ¿Pueden los LLM preentrenados con FA adaptarse bien a SWA sin un nuevo preentrenamiento? Investigamos esto proponiendo la Adaptación de Atención de Ventana Deslizante (SWAA), un conjunto de recetas prácticas que combinan cinco métodos para una mejor adaptación: (1) aplicar SWA solo durante la fase de prefilling; (2) preservar tokens "sumidero"; (3) intercalar capas FA/SWA; (4) cadena de pensamiento (CoT); y (5) ajuste fino. Nuestros experimentos muestran que la adaptación a SWA es viable pero no trivial: ningún método individual es suficiente, sin embargo, combinaciones sinérgicas específicas recuperan efectivamente el rendimiento original en contextos largos. Además, analizamos las compensaciones entre rendimiento y eficiencia de las diferentes configuraciones SWAA y proporcionamos recetas recomendadas para diversos escenarios. Nuestro código está disponible en https://github.com/yuyijiong/sliding-window-attention-adaptation.
El aprendizaje multimodal ha avanzado rápidamente en la comprensión visual, principalmente a través de los modelos de lenguaje grandes multimodales (MLLMs) que utilizan LLMs potentes como núcleos cognitivos. Sin embargo, en la generación visual, estos potentes modelos centrales suelen reducirse a codificadores de texto global para modelos de difusión, dejando la mayor parte de su capacidad de razonamiento y planificación sin uso. Esto crea una brecha: los MLLMs actuales pueden analizar diseños complejos, atributos y escenas intensivas en conocimiento, pero luchan por generar imágenes o videos con un control igualmente preciso y estructurado. Proponemos MetaCanvas, un marco liviano que permite a los MLLMs razonar y planificar directamente en espacios latentes espaciales y espaciotemporales, e interactuar estrechamente con generadores de difusión. Implementamos MetaCanvas empíricamente en tres arquitecturas de difusión diferentes y lo evaluamos en seis tareas, incluida la generación de texto a imagen, generación de texto/imagen a video, edición de imagen/video y generación de video en contexto, cada una requiriendo diseños precisos, vinculación robusta de atributos y control intensivo en razonamiento. MetaCanvas supera consistentemente a los baselines de condicionamiento global, lo que sugiere que tratar a los MLLMs como planificadores del espacio latente es una dirección prometedora para reducir la brecha entre la comprensión y la generación multimodal.
Los métodos de splatting basados en primitivas, como 3D Gaussian Splatting, han revolucionado la síntesis de nuevas vistas con renderizado en tiempo real. Sin embargo, sus representaciones basadas en puntos siguen siendo incompatibles con las canalizaciones basadas en mallas que impulsan los motores de AR/VR y videojuegos. Presentamos MeshSplatting, un enfoque de reconstrucción basado en mallas que optimiza conjuntamente la geometría y la apariencia mediante renderizado diferenciable. Al imponer conectividad mediante triangulación de Delaunay restringida y refinar la consistencia superficial, MeshSplatting crea mallas suaves de extremo a extremo y de alta calidad visual que se renderizan eficientemente en motores 3D en tiempo real. En Mip-NeRF360, aumenta el PSNR en +0.69 dB sobre el estado actual de la técnica MiLo para la síntesis de nuevas vistas basada en mallas, mientras entrena 2 veces más rápido y usa 2 veces menos memoria, tendiendo un puente entre el renderizado neuronal y los gráficos 3D interactivos para una interacción de escena en tiempo real sin interrupciones. La página del proyecto está disponible en https://meshsplatting.github.io/.
La realidad es una danza entre restricciones rígidas y estructuras deformables. Para los modelos de video, esto implica generar movimiento que preserve tanto la fidelidad como la estructura. A pesar del progreso en los modelos de difusión, producir movimiento realista que preserve la estructura sigue siendo un desafío, especialmente para objetos articulados y deformables como humanos y animales. Hasta ahora, el simple escalado de los datos de entrenamiento no ha logrado resolver las transiciones físicamente inverosímiles. Los enfoques existentes dependen de condicionamientos con representaciones de movimiento ruidosas, como flujo óptico o esqueletos extraídos mediante un modelo externo imperfecto. Para abordar estos desafíos, presentamos un algoritmo para destilar *priors* de movimiento que preservan la estructura desde un modelo de seguimiento de video autoregresivo (SAM2) hacia un modelo de difusión de video bidireccional (CogVideoX). Con nuestro método, entrenamos SAM2VideoX, que contiene dos innovaciones: (1) un módulo de fusión de características bidireccional que extrae *priors* de movimiento que preservan la estructura global de un modelo recurrente como SAM2; (2) una pérdida de Flujo Gram Local que alinea cómo las características locales se mueven conjuntamente. Los experimentos en VBench y en estudios con humanos muestran que SAM2VideoX proporciona ganancias consistentes (+2.60% en VBench, 21-22% menos de FVD, y una preferencia humana del 71.4%) sobre las líneas base anteriores. Específicamente, en VBench, logramos un 95.51%, superando a REPA (92.91%) en un 2.60%, y reducimos el FVD a 360.57, una mejora del 21.20% y 22.46% sobre REPA y el ajuste fino con LoRA, respectivamente. El sitio web del proyecto se puede encontrar en https://sam2videox.github.io/.
Proponemos LEO-RobotAgent, un marco de agente inteligente general impulsado por lenguaje para robots. Bajo este marco, los Modelos de Lenguaje Grandes (LLMs) pueden operar diferentes tipos de robots para completar tareas complejas e impredecibles en diversos escenarios. Este marco se caracteriza por una fuerte generalización, robustez y eficiencia. El sistema a nivel de aplicación construido en torno a él puede potenciar completamente la comprensión bidireccional de la intención humano-robot y reducir el umbral para la interacción humano-robot. En lo que respecta a la planificación de tareas robóticas, la gran mayoría de los estudios existentes se centran en la aplicación de modelos grandes en escenarios de tarea única y para tipos de robot individuales. Estos algoritmos suelen tener estructuras complejas y carecen de generalización. Por lo tanto, el marco LEO-RobotAgent propuesto está diseñado con una estructura simplificada en la medida de lo posible, permitiendo que los modelos grandes piensen, planifiquen y actúen de forma independiente dentro de este marco claro. Proporcionamos un conjunto de herramientas modular y de fácil registro, que permite a los modelos grandes invocar de manera flexible diversas herramientas para satisfacer diferentes requisitos. Simultáneamente, el marco incorpora un mecanismo de interacción humano-robot, permitiendo que el algoritmo colabore con los humanos como un compañero. Los experimentos han verificado que este marco puede adaptarse fácilmente a plataformas robóticas principales, incluyendo vehículos aéreos no tripulados (UAVs), brazos robóticos y robots con ruedas, y ejecutar de manera eficiente una variedad de tareas cuidadosamente diseñadas con diferentes niveles de complejidad. Nuestro código está disponible en https://github.com/LegendLeoChen/LEO-RobotAgent.
El preentrenamiento moderno de modelos lingüísticos grandes (LLM) consume vastas cantidades de capacidad computacional y datos de entrenamiento, lo que convierte el comportamiento de escalado, o las leyes de escalado, de diferentes modelos en un factor distintivo clave. Los modelos de lenguaje de difusión discreta (DLM) se han propuesto como una alternativa a los modelos de lenguaje autorregresivos (ALM). Sin embargo, su comportamiento de escalado aún no ha sido explorado completamente, y trabajos previos sugieren que requieren más datos y capacidad computacional para igualar el rendimiento de los ALM. Estudiamos el comportamiento de escalado de los DLM con diferentes tipos de ruido mediante una interpolación suave entre difusión enmascarada y difusión uniforme, prestando especial atención a hiperparámetros cruciales como el tamaño del lote y la tasa de aprendizaje. Nuestros experimentos revelan que el comportamiento de escalado de los DLM depende en gran medida del tipo de ruido y es considerablemente diferente al de los ALM. Si bien todos los tipos de ruido convergen a valores de pérdida similares en un escalado limitado por computación, encontramos que la difusión uniforme requiere más parámetros y menos datos para un entrenamiento eficiente en computación en comparación con la difusión enmascarada, lo que la convierte en un candidato prometedor en entornos limitados por datos. Escalamos nuestro modelo de difusión uniforme hasta 10 mil millones de parámetros entrenados con 10^{22} operaciones de punto flotante (FLOPs), confirmando el comportamiento de escalado predicho y convirtiéndolo en el modelo de difusión uniforme más grande conocido públicamente hasta la fecha.
Presentamos SHARP, un enfoque para la síntesis de vistas fotorrealistas a partir de una sola imagen. Dada una única fotografía, SHARP regresa los parámetros de una representación basada en gaussianos 3D de la escena representada. Esto se realiza en menos de un segundo en una GPU estándar mediante una única pasada hacia adelante a través de una red neuronal. La representación de gaussianos 3D producida por SHARP puede luego renderizarse en tiempo real, generando imágenes fotorrealistas de alta resolución para vistas cercanas. La representación es métrica, con escala absoluta, lo que permite movimientos de cámara métricos. Los resultados experimentales demuestran que SHARP ofrece una generalización robusta *zero-shot* entre diferentes conjuntos de datos. Establece un nuevo estado del arte en múltiples conjuntos de datos, reduciendo LPIPS en un 25-34% y DISTS en un 21-43% respecto al mejor modelo anterior, mientras reduce el tiempo de síntesis en tres órdenes de magnitud. El código y los pesos se proporcionan en https://github.com/apple/ml-sharp.
Los grandes modelos de lenguaje (LLM) han revolucionado la inteligencia artificial, pero sus enormes demandas de memoria y computación requieren una cuantificación agresiva, llevando cada vez más las representaciones hacia el límite teórico de un solo bit. Si bien los LLM de valor complejo, como iFairy, ofrecen una oportunidad superior para la representación de bajo bit en comparación con sus contrapartes de valor real, requieren entrenamiento desde cero, lo que impide utilizar el vasto ecosistema de modelos base preentrenados de valor real. Aquí presentamos Fairy2i, un marco universal que transforma capas preentrenadas de valor real en una forma compleja ampliamente lineal equivalente, permitiendo una cuantificación de bits extremadamente baja mientras se reutilizan los *checkpoints* existentes. Al demostrar una equivalencia matemática sin pérdidas entre los mapas reales y los ampliamente lineales, convertimos los Transformers estándar al dominio complejo y empleamos un esquema de cuantificación consciente de la fase con un libro de códigos altamente eficiente de las raíces cuartas de la unidad. Además, introducimos un mecanismo de cuantificación residual recursiva que minimiza iterativamente el error de cuantificación, permitiendo que la inferencia proceda mediante una acumulación eficiente libre de multiplicaciones. Demostramos que Fairy2i restaura el rendimiento de LLaMA-2 7B con una precisión efectiva de 2 bits a niveles casi comparables con los baselines de precisión completa, superando significativamente a los métodos state-of-the-art de cuantificación binaria y ternaria de valor real. Este trabajo cierra la brecha entre la eficiencia representacional de la aritmética de valor complejo y la utilidad práctica de los modelos preentrenados, abriendo un nuevo camino para la inferencia eficiente en hardware comercial.
La evaluación LLM-como-juez se ha convertido en el estándar de facto para escalar la evaluación de modelos, pero la práctica es estadísticamente incorrecta: las puntuaciones no calibradas pueden invertir las preferencias, los intervalos de confianza ingenuos sobre puntuaciones no calibradas alcanzan una cobertura cercana al 0%, y los estimadores ponderados por importancia colapsan bajo superposición limitada a pesar de un tamaño de muestra efectivo (TME) alto. Introducimos la Evaluación Causal de Jueces (ECJ), un marco que corrige los tres fallos. En n=4,961 prompts de Chatbot Arena (tras filtrar de 5k), la ECJ logra un 99% de precisión en la clasificación por pares con el tamaño de muestra completo (94% en promedio entre configuraciones), igualando la calidad del oráculo, con un coste 14 veces menor (para clasificar 5 políticas) mediante la calibración de un juez 16 veces más económico usando solo un 5% de etiquetas del oráculo (~250 etiquetas). La ECJ combina tres componentes: (i) AutoCal-R, calibración de recompensa mediante regresión isotónica de media conservada; (ii) SIMCal-W, estabilización de pesos mediante *stacking* de candidatos S-monótonos; y (iii) Inferencia Consciente de la Incertidumbre del Oráculo (ICIO) que propaga la incertidumbre de calibración a los intervalos de confianza. Formalizamos el diagnóstico de Eficiencia Limitada por Cobertura (ELC), que explica por qué los estimadores estilo IPS fallan incluso cuando el TME supera el 90%: el registrador rara vez visita regiones donde se concentran las políticas objetivo. Hallazgos clave: SNIPS invierte las clasificaciones incluso con calibración de recompensa (38% por pares, tau de Kendall negativo) debido a la inestabilidad de los pesos; IPS calibrado permanece casi aleatorio (47%) a pesar de la estabilización de pesos, consistente con ELC; ICIO mejora la cobertura de cerca del 0% a ~86% (Directo) y ~96% (*stacked-DR*), donde los intervalos ingenuos sub-cubren severamente.
Presentamos Particulate, un método de propagación directa que, dado una única malla 3D estática de un objeto cotidiano, infiere directamente todos los atributos de la estructura articulada subyacente, incluyendo sus partes 3D, su estructura cinemática y sus restricciones de movimiento. En su núcleo se encuentra una red transformadora, el Part Articulation Transformer, que procesa una nube de puntos de la malla de entrada utilizando una arquitectura flexible y escalable para predecir todos los atributos mencionados con soporte nativo para múltiples articulaciones. Entrenamos la red de extremo a extremo en una colección diversa de activos 3D articulados de conjuntos de datos públicos. Durante la inferencia, Particulate traslada la predicción de propagación directa de la red a la malla de entrada, produciendo un modelo 3D completamente articulado en segundos, mucho más rápido que los enfoques anteriores que requieren optimización por objeto. Particulate también puede inferir con precisión la estructura articulada de activos 3D generados por IA, permitiendo la extracción completa de objetos 3D articulados a partir de una única imagen (real o sintética) cuando se combina con un generador de imagen-a-3D estándar. Además, introducimos un nuevo benchmark desafiante para la estimación de articulación 3D, curado a partir de activos 3D públicos de alta calidad, y rediseñamos el protocolo de evaluación para que sea más consistente con las preferencias humanas. Los resultados cuantitativos y cualitativos muestran que Particulate supera significativamente a los enfoques state-of-the-art.
Los modelos base de estéreo logran una fuerte generalización zero-shot pero siguen siendo computacionalmente prohibitivos para aplicaciones en tiempo real. Las arquitecturas estéreo eficientes, por otro lado, sacrifican robustez por velocidad y requieren costosos ajustes por dominio. Para cerrar esta brecha, presentamos Fast-FoundationStereo, una familia de arquitecturas que logra, por primera vez, una sólida generalización zero-shot a velocidades de tiempo real. Empleamos una estrategia de aceleración divide y vencerás con tres componentes: (1) destilación de conocimiento para comprimir el backbone híbrido en un único estudiante eficiente; (2) búsqueda de arquitectura neuronal por bloques para descubrir automáticamente diseños óptimos de filtrado de coste bajo límites de latencia, reduciendo exponencialmente la complejidad de búsqueda; y (3) poda estructurada para eliminar redundancias en el módulo de refinamiento iterativo. Además, introducimos un pipeline automático de pseudoetiquetado utilizado para curar 1.4M pares estéreo del mundo real para complementar los datos de entrenamiento sintéticos y facilitar la destilación de conocimiento. El modelo resultante puede ejecutarse más de 10 veces más rápido que FoundationStereo mientras iguala estrechamente su precisión zero-shot, estableciendo así un nuevo estado del arte entre los métodos en tiempo real. Página del proyecto: https://nvlabs.github.io/Fast-FoundationStereo/
Presentamos una política visión-acción que obtuvo el primer puesto en el BEHAVIOR Challenge 2025, un benchmark a gran escala que incluye 50 tareas domésticas diversas de horizonte largo en simulación fotorrealista, que requieren manipulación bimanual, navegación y toma de decisiones contextual. Partiendo de la arquitectura Pi0.5, introducimos varias innovaciones. Nuestra principal contribución es el ruido correlacionado para el emparejamiento de flujos, que mejora la eficiencia del entrenamiento y permite la restauración consciente de la correlación para generar secuencias de acciones fluidas. También aplicamos atención de capa mixta entrenable y seguimiento de etapas del Sistema 2 para la resolución de ambigüedades. El entrenamiento emplea emparejamiento de flujos con múltiples muestras para reducir la varianza, mientras que la inferencia utiliza compresión de acciones y reglas de corrección específicas para el desafío. Nuestro enfoque logra un q-score del 26% en las 50 tareas, tanto en las clasificaciones públicas como privadas.
La integración de modelos de lenguaje (LM) en los sistemas de salud promete grandes avances para mejorar los flujos de trabajo médicos y la toma de decisiones. Sin embargo, una barrera crítica para su adopción en el mundo real es la falta de una evaluación confiable de su confiabilidad, especialmente en entornos de salud multilingües. Los LM existentes se entrenan predominantemente en idiomas de altos recursos, lo que los hace poco aptos para manejar la complejidad y diversidad de las consultas de salud en idiomas de recursos medios y bajos, planteando desafíos significativos para su implementación en contextos de salud global donde la diversidad lingüística es clave. En este trabajo, presentamos CLINIC, un punto de referencia multilingüe integral para evaluar la confiabilidad de los modelos de lenguaje en el ámbito de la salud. CLINIC evalúa sistemáticamente los LM en cinco dimensiones clave de la confiabilidad: veracidad, equidad, seguridad, robustez y privacidad, operacionalizadas a través de 18 tareas diversas, que abarcan 15 idiomas (cubriendo todos los continentes principales) y englobando una amplia gama de temas críticos de salud como condiciones de enfermedad, acciones preventivas, pruebas de diagnóstico, tratamientos, cirugías y medicamentos. Nuestra evaluación exhaustiva revela que los LM tienen dificultades con la exactitud factual, demuestran sesgos entre grupos demográficos y lingüísticos, y son susceptibles a violaciones de privacidad y ataques adversarios. Al destacar estas deficiencias, CLINIC sienta las bases para mejorar el alcance global y la seguridad de los LM en la atención sanitaria a través de diversos idiomas.
Los seres humanos pueden paralelizar actividades complejas de forma intuitiva, pero ¿puede un modelo aprender esto observando a una sola persona? Dado un vídeo egocéntrico, presentamos el Problema de los N-Cuerpos: cómo N individuos podrían realizar hipotéticamente el mismo conjunto de tareas observado en este vídeo. El objetivo es maximizar la aceleración, pero la asignación ingenua de segmentos de vídeo a individuos a menudo viola restricciones del mundo real, dando lugar a escenarios físicamente imposibles, como dos personas usando el mismo objeto u ocupando el mismo espacio. Para abordarlo, formalizamos el Problema de los N-Cuerpos y proponemos un conjunto de métricas para evaluar tanto el rendimiento (aceleración, cobertura de tareas) como la viabilidad (colisiones espaciales, conflictos de objetos y restricciones causales). Luego, introducimos una estrategia de *prompting* estructurado que guía a un Modelo de Visión y Lenguaje (VLM) para que razone sobre el entorno 3D, el uso de objetos y las dependencias temporales, con el fin de producir una ejecución paralela viable. En 100 vídeos de EPIC-Kitchens y HD-EPIC, nuestro método para N = 2 aumenta la cobertura de acciones en un 45% respecto a un *prompt* base en Gemini 2.5 Pro, mientras reduce simultáneamente las tasas de colisión, y los conflictos de objetos y causales en un 55%, 45% y 55%, respectivamente.
La estimación de la incertidumbre es esencial para el despliegue clínico seguro de los sistemas de segmentación de imágenes médicas, ya que permite identificar predicciones no fiables y respalda la supervisión humana. Si bien trabajos previos se han centrado principalmente en la incertidumbre a nivel de píxel, la segmentación basada en puntos de referencia ofrece garantías topológicas inherentes, pero sigue estando poco explorada desde una perspectiva de incertidumbre. En este trabajo, estudiamos la estimación de la incertidumbre para la segmentación basada en puntos de referencia anatómicos en radiografías de tórax. Inspirados por las arquitecturas híbridas de redes neuronales que combinan codificadores convolucionales de imágenes estándar con decodificadores generativos basados en grafos, y aprovechando su espacio latente variacional, derivamos dos medidas complementarias: (i) la incertidumbre latente, capturada directamente a partir de los parámetros de la distribución aprendida, y (ii) la incertidumbre predictiva, obtenida generando múltiples predicciones de salida estocásticas a partir de muestras latentes. Mediante experimentos de corrupción controlada, mostramos que ambas medidas de incertidumbre aumentan con la severidad de la perturbación, reflejando tanto la degradación global como la local. Demostramos que estas señales de incertidumbre pueden identificar predicciones no fiables mediante la comparación con la verdad de referencia manual, y respaldan la detección de datos fuera de distribución en el conjunto de datos CheXmask. Más importante aún, publicamos CheXmask-U (huggingface.co/datasets/mcosarinsky/CheXmask-U), un conjunto de datos a gran escala de 657,566 segmentaciones de puntos de referencia en radiografías de tórax con estimaciones de incertidumbre por nodo, lo que permite a los investigadores tener en cuenta las variaciones espaciales en la calidad de la segmentación al utilizar estas máscaras anatómicas. Nuestros hallazgos establecen la estimación de la incertidumbre como una dirección prometedora para mejorar la robustez y el despliegue seguro de los métodos de segmentación anatómica basados en puntos de referencia en radiografías de tórax. Una demo interactiva completamente funcional del método está disponible en huggingface.co/spaces/matiasky/CheXmask-U y el código fuente en github.com/mcosarinsky/CheXmask-U.
El análisis de corpus textuales a gran escala es un desafío fundamental en el aprendizaje automático, crucial para tareas como identificar comportamientos no deseados en los modelos o sesgos en los datos de entrenamiento. Los métodos actuales a menudo dependen de técnicas costosas basadas en LLM (por ejemplo, anotar diferencias en conjuntos de datos) o modelos de embeddings densos (por ejemplo, para clustering), que carecen de control sobre las propiedades de interés. Proponemos el uso de autoencoders dispersos (SAEs) para crear *SAE embeddings*: representaciones cuyas dimensiones se asignan a conceptos interpretables. Mediante cuatro tareas de análisis de datos, demostramos que los SAE embeddings son más rentables y confiables que los LLM y más controlables que los embeddings densos. Utilizando el amplio espacio de hipótesis de los SAEs, podemos descubrir hallazgos como (1) diferencias semánticas entre conjuntos de datos y (2) correlaciones inesperadas de conceptos en documentos. Por ejemplo, al comparar respuestas de modelos, encontramos que Grok-4 aclara ambigüedades con más frecuencia que otros nueve modelos de vanguardia. En relación con los LLM, los SAE embeddings descubren diferencias mayores con un coste 2-8 veces menor e identifican sesgos de manera más fiable. Además, los SAE embeddings son controlables: filtrando conceptos, podemos (3) agrupar documentos según ejes de interés y (4) superar a los embeddings densos en la recuperación basada en propiedades. Utilizando SAE embeddings, estudiamos el comportamiento del modelo con dos casos de estudio: investigando cómo ha cambiado el comportamiento de los modelos de OpenAI a lo largo del tiempo y encontrando frases "desencadenantes" aprendidas por Tulu-3 (Lambert et al., 2024) a partir de sus datos de entrenamiento. Estos resultados posicionan a los SAEs como una herramienta versátil para el análisis de datos no estructurados y destacan la importancia descuidada de interpretar los modelos a través de sus datos.