Artículos de investigación en IA seleccionados diariamente con traducciones
El campo del diagnóstico médico ha experimentado una transformación significativa con la llegada de grandes modelos de lenguaje (LLMs), sin embargo, los desafíos de interpretabilidad dentro de estos modelos siguen en gran medida sin abordarse. Este estudio presenta Chain-of-Diagnosis (CoD) para mejorar la interpretabilidad de diagnósticos médicos basados en LLM. CoD transforma el proceso diagnóstico en una cadena diagnóstica que refleja el proceso mental de un médico, proporcionando una vía de razonamiento transparente. Además, CoD produce la distribución de confianza de la enfermedad para garantizar transparencia en la toma de decisiones. Esta interpretabilidad hace que los diagnósticos del modelo sean controlables y ayuda a identificar síntomas críticos para la investigación a través de la reducción de entropía de las confianzas. Con CoD, desarrollamos DiagnosisGPT, capaz de diagnosticar 9604 enfermedades. Los resultados experimentales demuestran que DiagnosisGPT supera a otros LLMs en pruebas diagnósticas. Además, DiagnosisGPT proporciona interpretabilidad al tiempo que garantiza controlabilidad en el rigor diagnóstico.
Este artículo no introduce un método novedoso. En su lugar, ofrece una comparación más justa y completa de los modelos KAN y MLP en diversas tareas, que incluyen aprendizaje automático, visión por computadora, procesamiento de audio, procesamiento de lenguaje natural y representación de fórmulas simbólicas. Específicamente, controlamos el número de parámetros y FLOPs para comparar el rendimiento de KAN y MLP. Nuestra principal observación es que, excepto en tareas de representación de fórmulas simbólicas, MLP generalmente supera a KAN. También realizamos estudios de ablación en KAN y encontramos que su ventaja en la representación de fórmulas simbólicas se debe principalmente a su función de activación B-spline. Cuando B-spline se aplica a MLP, el rendimiento en la representación de fórmulas simbólicas mejora significativamente, superando o igualando al de KAN. Sin embargo, en otras tareas donde MLP ya supera a KAN, B-spline no mejora sustancialmente el rendimiento de MLP. Además, encontramos que el problema de olvido de KAN es más grave que el de MLP en un entorno estándar de aprendizaje continuo incremental de clases, lo cual difiere de los hallazgos reportados en el artículo de KAN. Esperamos que estos resultados brinden ideas para investigaciones futuras sobre KAN y otras alternativas a MLP. Enlace del proyecto: https://github.com/yu-rp/KANbeFair
Los avances recientes en generación de video han aprovechado principalmente modelos de difusión para contenido de corta duración. Sin embargo, estos enfoques a menudo no logran modelar narrativas complejas y mantener la consistencia de personajes durante períodos prolongados, lo cual es esencial para la producción de videos de larga duración como películas. Proponemos MovieDreamer, un novedoso marco jerárquico que integra las fortalezas de modelos autorregresivos con renderización basada en difusión para liderar la generación de video de larga duración con progresiones de trama intrincadas y alta fidelidad visual. Nuestro enfoque utiliza modelos autorregresivos para coherencia narrativa global, prediciendo secuencias de tokens visuales que posteriormente se transforman en fotogramas de video de alta calidad a través de renderización por difusión. Este método es similar a los procesos tradicionales de producción cinematográfica, donde historias complejas se factorizan en capturas de escena manejables. Además, empleamos un guion multimodal que enriquece las descripciones de escenas con información detallada de personajes y estilo visual, mejorando la continuidad e identidad de personajes a lo largo de las escenas. Presentamos experimentos extensos en varios géneros de películas, demostrando que nuestro enfoque no solo logra una calidad visual y narrativa superior, sino que también extiende efectivamente la duración del contenido generado significativamente más allá de las capacidades actuales. Página principal: https://aim-uofa.github.io/MovieDreamer/.
La Prueba Virtual de Ropa (VTON) se ha convertido en una tecnología transformadora, capacitando a los usuarios para experimentar con la moda sin necesidad de probar físicamente la ropa. Sin embargo, los métodos existentes a menudo tienen dificultades para generar resultados de alta fidelidad y consistentes en detalle. Si bien los modelos de difusión, como la serie Stable Diffusion, han demostrado su capacidad para crear imágenes de alta calidad y fotorrealistas, enfrentan desafíos formidables en escenarios de generación condicional como VTON. Específicamente, estos modelos tienen dificultades para mantener un equilibrio entre control y consistencia al generar imágenes para pruebas de ropa virtual. OutfitAnyone aborda estas limitaciones aprovechando un modelo de difusión condicional de dos flujos, lo que le permite manejar hábilmente la deformación de prendas para obtener resultados más realistas. Se distingue por factores de modulación de escalabilidad como la pose, la forma del cuerpo y una amplia aplicabilidad, que se extiende desde imágenes de anime hasta imágenes en entornos naturales. El rendimiento de OutfitAnyone en diversos escenarios subraya su utilidad y preparación para implementaciones en el mundo real. Para más detalles y resultados animados, por favor visite https://humanaigc.github.io/outfit-anyone/.
Los modelos de generación de texto a video (T2V) han avanzado significativamente, sin embargo, su capacidad para componer diferentes objetos, atributos, acciones y movimientos en un video sigue sin explorarse. Los benchmarks previos de texto a video también descuidan esta importante habilidad para la evaluación. En este trabajo, realizamos el primer estudio sistemático sobre generación de texto a video de manera compositiva. Proponemos T2V-CompBench, el primer benchmark diseñado para la generación de texto a video de forma compositiva. T2V-CompBench abarca diversos aspectos de la composicionalidad, incluyendo la vinculación consistente de atributos, la vinculación dinámica de atributos, relaciones espaciales, vinculación de movimiento, vinculación de acción, interacciones de objetos y numeración generativa. Además, diseñamos cuidadosamente métricas de evaluación basadas en MLLM, métricas basadas en detección y métricas basadas en seguimiento, que pueden reflejar mejor la calidad de generación de texto a video de manera compositiva de siete categorías propuestas con 700 estímulos de texto. La efectividad de las métricas propuestas se verifica mediante la correlación con evaluaciones humanas. También evaluamos varios modelos generativos de texto a video y realizamos un análisis exhaustivo entre diferentes modelos y diferentes categorías compositivas. Descubrimos que la generación de texto a video de manera compositiva es altamente desafiante para los modelos actuales, y esperamos que nuestro intento arroje luz sobre futuras investigaciones en esta dirección.
Los conjuntos de datos y modelos existentes de interacción de objetos humanos en 3D (HOI) simplemente alinean descripciones globales con la larga secuencia de HOI, careciendo de una comprensión detallada de los estados intermedios y las transiciones entre estados. En este documento, argumentamos que el alineamiento semántico detallado, que utiliza descripciones a nivel de estado, ofrece un paradigma prometedor para aprender representaciones semánticamente ricas de HOI. Para lograr esto, presentamos Semantic-HOI, un nuevo conjunto de datos que consta de más de 20K estados de HOI emparejados con descripciones detalladas para cada estado de HOI y los movimientos corporales que ocurren entre dos estados consecutivos. Aprovechando el conjunto de datos propuesto, diseñamos tres tareas de HOI a nivel de estado para lograr un alineamiento semántico detallado dentro de la secuencia de HOI. Además, proponemos un modelo unificado llamado F-HOI, diseñado para aprovechar instrucciones multimodales y potenciar el Modelo de Lenguaje Multimodal Grande para manejar eficientemente diversas tareas de HOI. F-HOI ofrece múltiples ventajas: (1) Emplea una formulación de tarea unificada que soporta el uso de entradas multimodales versátiles. (2) Mantiene consistencia en HOI en espacios 2D, 3D y lingüísticos. (3) Utiliza supervisión textual detallada para optimización directa, evitando la modelización intrincada de estados de HOI. Experimentos extensos revelan que F-HOI alinea efectivamente estados de HOI con descripciones semánticas detalladas, abordando hábilmente tareas de comprensión, razonamiento, generación y reconstrucción.
Con los avances en la disponibilidad de datos y recursos informáticos, los Modelos de Lenguaje Multimodales Grandes (MLLMs) han demostrado capacidades en diversos campos. Sin embargo, la complejidad cuadrática del codificador de visión en los MLLMs limita la resolución de las imágenes de entrada. La mayoría de los enfoques actuales mitigan este problema al recortar imágenes de alta resolución en subimágenes más pequeñas, que luego son procesadas de forma independiente por el codificador de visión. A pesar de capturar detalles locales suficientes, estas subimágenes carecen de contexto global y no interactúan entre sí. Para abordar esta limitación, proponemos un nuevo MLLM, INF-LLaVA, diseñado para una percepción efectiva de imágenes de alta resolución. INF-LLaVA incorpora dos componentes innovadores. En primer lugar, introducimos un Módulo de Recorte de Doble Perspectiva (DCM), que garantiza que cada subimagen contenga detalles continuos desde una perspectiva local e información completa desde una perspectiva global. En segundo lugar, presentamos el Módulo de Mejora de Doble Perspectiva (DEM) para permitir la mejora mutua de las características globales y locales, lo que permite a INF-LLaVA procesar eficazmente imágenes de alta resolución capturando simultáneamente información detallada local y contexto global completo. Estudios de ablación extensos validan la efectividad de estos componentes, y experimentos en un conjunto diverso de benchmarks demuestran que INF-LLaVA supera a los MLLMs existentes. El código y el modelo preentrenado están disponibles en https://github.com/WeihuangLin/INF-LLaVA.
A pesar de la disponibilidad de competiciones internacionales con premios en efectivo, vehículos a escala y entornos de simulación, la investigación sobre carreras autónomas y el control de automóviles deportivos que operan cerca del límite de manejo ha estado limitada por los altos costos de adquisición y gestión de vehículos, así como por la precisión limitada de la física de los simuladores de código abierto. En este documento, proponemos una plataforma de simulación de carreras basada en el simulador Assetto Corsa para probar, validar y comparar algoritmos de conducción autónoma, incluido el aprendizaje por refuerzo (RL) y el Control Predictivo de Modelos (MPC) clásico, en escenarios realistas y desafiantes. Nuestras contribuciones incluyen el desarrollo de esta plataforma de simulación, varios algoritmos de vanguardia adaptados al entorno de las carreras y un conjunto de datos completo recopilado de conductores humanos. Además, evaluamos los algoritmos en el entorno de RL sin conexión. Todo el código necesario (incluido el entorno y las comparaciones), ejemplos prácticos, conjuntos de datos y videos se han publicado públicamente y se pueden encontrar en: https://assetto-corsa-gym.github.io.
El preentrenamiento basado en video ofrece un inmenso potencial para aprender representaciones visuales sólidas a una escala sin precedentes. Recientemente, los métodos de modelado de video enmascarado han demostrado una escalabilidad prometedora, pero fallan en capturar semánticas de nivel superior debido a la reconstrucción de objetivos predefinidos de bajo nivel, como píxeles. Para abordar esto, presentamos Sinkhorn-guided Masked Video Modelling (SIGMA), un novedoso método de preentrenamiento de video que aprende conjuntamente el modelo de video además de un espacio de características objetivo utilizando una red de proyección. Sin embargo, esta simple modificación significa que la pérdida de reconstrucción regular L2 conducirá a soluciones triviales, ya que ambas redes se optimizan conjuntamente. Como solución, distribuimos las características de tubos espacio-temporales de manera uniforme en un número limitado de conglomerados aprendibles. Al plantear esto como un problema de transporte óptimo, imponemos una alta entropía en las características generadas en el lote, infundiendo significado semántico y temporal en el espacio de características. Las asignaciones de conglomerados resultantes se utilizan como objetivos para una tarea de predicción simétrica donde el modelo de video predice la asignación de conglomerados de la red de proyección y viceversa. Los resultados experimentales en diez conjuntos de datos a través de tres benchmarks validan la efectividad de SIGMA en el aprendizaje de representaciones de video más eficientes, conscientes temporalmente y robustas, mejorando los métodos de vanguardia. Nuestro sitio web del proyecto con el código está disponible en: https://quva-lab.github.io/SIGMA.
Desplegar modelos de lenguaje (LMs) requiere que las salidas sean de alta calidad y cumplan con las pautas de seguridad. Aunque las Barreras de Protección en Tiempo de Inferencia (ITG) ofrecen soluciones que desplazan las distribuciones de salida del modelo hacia el cumplimiento, encontramos que los métodos actuales tienen dificultades para equilibrar la seguridad con la utilidad. Los métodos ITG que abordan de manera segura las consultas no conformes muestran una menor utilidad, mientras que aquellos que priorizan la utilidad comprometen la seguridad. Nos referimos a este compromiso como el impuesto de la barrera de protección, análogo al impuesto de alineación. Para abordar esto, proponemos PrimeGuard, un nuevo método ITG que utiliza un flujo de control estructurado. PrimeGuard dirige las solicitudes a diferentes autoinstanciaciones del LM con instrucciones variables, aprovechando sus capacidades inherentes de seguimiento de instrucciones y aprendizaje en contexto. Nuestro enfoque sin ajuste dinámico compila de forma dinámica las pautas del diseñador del sistema para cada consulta. Construimos y lanzamos safe-eval, un conjunto de pruebas de seguridad de equipo rojo diverso. Evaluaciones extensas demuestran que PrimeGuard, sin ajustes finos, supera el impuesto de la barrera de protección al (1) aumentar significativamente la resistencia a los ataques de jailbreak iterativos y (2) lograr resultados de vanguardia en la protección de barreras de seguridad, mientras (3) iguala los puntajes de utilidad de los modelos ajustados a la alineación. Evaluaciones extensas demuestran que PrimeGuard, sin ajustes finos, supera a todos los baselines competidores y supera el impuesto de la barrera de protección al mejorar la fracción de respuestas seguras del 61% al 97% y aumentar los puntajes promedio de utilidad de 4.17 a 4.29 en los modelos más grandes, al tiempo que reduce la tasa de éxito de los ataques del 100% al 8%. La implementación de PrimeGuard está disponible en https://github.com/dynamofl/PrimeGuard y el conjunto de datos safe-eval está disponible en https://huggingface.co/datasets/dynamoai/safe_eval.
La aplicación de modelos visión-lenguaje (VLMs) ha logrado un éxito impresionante en diversas tareas de robótica, pero hay pocas exploraciones para modelos fundamentales utilizados en la navegación de robots cuadrúpedos. Presentamos el Sistema de Travesía Cruzada (CAS), un sistema innovador compuesto por un módulo de razonamiento de alto nivel y una política de control de bajo nivel, que permite al robot navegar a través de terrenos 3D complejos y alcanzar la posición objetivo. Para el razonamiento de alto nivel y la planificación de movimiento, proponemos un sistema algorítmico novedoso que aprovecha un VLM, con un diseño de descomposición de tareas y un mecanismo de ejecución de sub-tareas en bucle cerrado. Para el control de locomoción de bajo nivel, utilizamos el método de Selección de Templado de Probabilidad (PAS) para entrenar una política de control mediante aprendizaje por refuerzo. Numerosos experimentos muestran que nuestro sistema completo puede navegar con precisión y robustez a través de terrenos 3D complejos, y su sólida capacidad de generalización garantiza su aplicación en diversos escenarios y terrenos interiores y exteriores. Página del proyecto: https://cross-anything.github.io/