Artículos de investigación en IA seleccionados diariamente con traducciones
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han demostrado una versatilidad impresionante como modelos de propósito general. Sin embargo, su amplia aplicabilidad conlleva un alto costo computacional, particularmente en la decodificación auto-regresiva, donde cada paso requiere un pase hacia adelante. En entornos específicos de dominio, las capacidades de propósito general son innecesarias y pueden intercambiarse por eficiencia. En este trabajo, adoptamos una perspectiva novedosa sobre la adaptación de dominio, reduciendo la latencia y los costos computacionales mediante la adaptación del vocabulario a dominios de interés específicos. Introducimos AdaptiVocab, un enfoque integral para la adaptación de vocabulario, diseñado para mejorar la eficiencia de los LLMs en dominios de bajos recursos. AdaptiVocab puede aplicarse a cualquier tokenizador y arquitectura, modificando el vocabulario al reemplazar tokens con tokens basados en n-gramas específicos del dominio, reduciendo así el número de tokens necesarios tanto para el procesamiento de entrada como para la generación de salida. AdaptiVocab inicializa nuevas incrustaciones de n-tokens utilizando una combinación ponderada exponencialmente de incrustaciones existentes y emplea una fase de ajuste fino ligero que puede realizarse eficientemente en una sola GPU. Evaluamos dos LLMs de 7B en tres dominios especializados, analizando la eficiencia, la calidad de la generación y el rendimiento en tareas finales. Nuestros resultados muestran que AdaptiVocab reduce el uso de tokens en más del 25% sin comprometer el rendimiento.
El Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es crucial para alinear los modelos de lenguaje grandes con las preferencias humanas. Si bien investigaciones recientes se han centrado en mejoras algorítmicas, la importancia de la construcción de datos de prompts ha sido pasada por alto. Este artículo aborda esta brecha al explorar los cuellos de botella basados en datos en la escalabilidad del rendimiento de RLHF, particularmente el hackeo de recompensas y la disminución de la diversidad de respuestas. Introducimos un sistema de recompensas híbrido que combina verificadores de tareas de razonamiento (RTV) y un modelo generativo de recompensas (GenRM) para mitigar el hackeo de recompensas. También proponemos un nuevo método de selección de prompts, Pre-PPO, para mantener la diversidad de respuestas y mejorar la eficacia del aprendizaje. Además, encontramos que priorizar tareas matemáticas y de codificación al inicio del entrenamiento de RLHF mejora significativamente el rendimiento. Los experimentos en dos tamaños de modelo validan la efectividad y escalabilidad de nuestros métodos. Los resultados muestran que RTV es más resistente al hackeo de recompensas, seguido por GenRM con verdad fundamental, y luego GenRM con respuestas SFT Best-of-N. Nuestras estrategias permiten capturar rápidamente distinciones sutiles específicas de la tarea, lo que conduce a mejoras sustanciales en el rendimiento general de RLHF. Este trabajo destaca la importancia de una cuidadosa construcción de datos y proporciona métodos prácticos para superar las barreras de rendimiento en RLHF.
Los recientes Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés), como DeepSeek-R1 y OpenAI o1, han demostrado importantes mejoras en el rendimiento al escalar la longitud del razonamiento en Cadena de Pensamiento (CoT, por sus siglas en inglés) durante la inferencia. Sin embargo, una preocupación creciente radica en su tendencia a generar trazas de razonamiento excesivamente largas, que a menudo están llenas de contenido redundante (por ejemplo, definiciones repetidas), sobreanálisis de problemas simples y exploración superficial de múltiples caminos de razonamiento para tareas más complejas. Esta ineficiencia introduce desafíos significativos para el entrenamiento, la inferencia y el despliegue en entornos reales (por ejemplo, en sistemas basados en agentes), donde la economía de tokens es crítica. En este estudio, ofrecemos una visión general exhaustiva de los esfuerzos recientes destinados a mejorar la eficiencia del razonamiento en los LRMs, con un enfoque particular en los desafíos únicos que surgen en este nuevo paradigma. Identificamos patrones comunes de ineficiencia, examinamos los métodos propuestos a lo largo del ciclo de vida de los LRMs, desde el preentrenamiento hasta la inferencia, y discutimos direcciones futuras prometedoras para la investigación. Para apoyar el desarrollo continuo, también mantenemos un repositorio en GitHub en tiempo real que rastrea los avances recientes en el campo. Esperamos que este estudio sirva como base para una mayor exploración e inspire innovación en esta área en rápida evolución.
La Recomendación Secuencial (SeqRec) tiene como objetivo predecir el siguiente ítem capturando patrones secuenciales a partir de las interacciones históricas de los usuarios, desempeñando un papel crucial en muchos sistemas de recomendación del mundo real. Sin embargo, los enfoques existentes adoptan predominantemente un paradigma de cálculo directo hacia adelante, donde el estado oculto final del codificador de secuencias sirve como representación del usuario. Argumentamos que este paradigma de inferencia, debido a su profundidad computacional limitada, tiene dificultades para modelar la naturaleza compleja y en evolución de las preferencias de los usuarios y carece de una comprensión matizada de los ítems de cola larga, lo que lleva a un rendimiento subóptimo. Para abordar este problema, proponemos ReaRec, el primer marco de computación en tiempo de inferencia para sistemas de recomendación, que mejora las representaciones de los usuarios mediante razonamiento implícito de múltiples pasos. Específicamente, ReaRec alimenta autoregresivamente el último estado oculto de la secuencia en el recomendador secuencial mientras incorpora incrustaciones de posición de razonamiento especiales para desacoplar el espacio de codificación original de los ítems del espacio de razonamiento de múltiples pasos. Además, introducimos dos métodos de aprendizaje basados en razonamiento livianos, Aprendizaje de Razonamiento por Conjunto (ERL) y Aprendizaje de Razonamiento Progresivo (PRL), para explotar aún más efectivamente el potencial de razonamiento de ReaRec. Experimentos extensos en cinco conjuntos de datos públicos del mundo real y diferentes arquitecturas de SeqRec demuestran la generalidad y efectividad de nuestro ReaRec propuesto. Notablemente, análisis post-hoc revelan que ReaRec eleva significativamente el límite de rendimiento de múltiples arquitecturas base de recomendación secuencial en aproximadamente un 30\%-50\%. Por lo tanto, creemos que este trabajo puede abrir una nueva y prometedora vía para futuras investigaciones en computación en tiempo de inferencia para recomendación secuencial.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han ganado un importante reconocimiento por su capacidad para procesar diversos tipos de datos de entrada y generar resultados coherentes y contextualmente relevantes en diversas aplicaciones. Si bien el ajuste fino supervisado (SFT, por sus siglas en inglés) ha sido el enfoque predominante para mejorar las capacidades de los MLLMs en la optimización específica de tareas, a menudo no logra fomentar habilidades cruciales de razonamiento generalizado. Aunque el aprendizaje por refuerzo (RL, por sus siglas en inglés) tiene un gran potencial para superar estas limitaciones, enfrenta dos desafíos significativos: (1) sus capacidades generalizadas en tareas multimodales siguen siendo en gran parte inexploradas, y (2) sus restricciones de entrenamiento, como la divergencia constante de Kullback-Leibler o la estrategia de sujeción, a menudo resultan en cuellos de botella subóptimos. Para abordar estos desafíos, proponemos OThink-MR1, un MLLM avanzado equipado con capacidades profundas de comprensión y razonamiento en tareas multimodales. Específicamente, introducimos la Optimización de Política Relativa de Grupo con una estrategia dinámica de Kullback-Leibler (GRPO-D, por sus siglas en inglés), que mejora notablemente el rendimiento del aprendizaje por refuerzo (RL). Para Qwen2-VL-2B-Instruct, GRPO-D logra una mejora relativa de más del 5.72% sobre SFT y más del 13.59% sobre GRPO en la evaluación de la misma tarea en dos conjuntos de datos adaptados. Además, GRPO-D demuestra capacidades notables de generalización entre tareas, con una mejora relativa promedio de más del 61.63% sobre SFT en la evaluación entre tareas. Estos resultados destacan que el MLLM entrenado con GRPO-D en una tarea multimodal puede transferirse eficazmente a otra tarea, subrayando las capacidades superiores de razonamiento generalizado de nuestro modelo propuesto, OThink-MR1.
Presentamos ORIGEN, el primer método de anclaje de orientación 3D en generación de imágenes a partir de texto que funciona en modo zero-shot para múltiples objetos y diversas categorías. Mientras que trabajos previos sobre anclaje espacial en generación de imágenes se han centrado principalmente en el posicionamiento 2D, carecen de control sobre la orientación 3D. Para abordar esto, proponemos un enfoque de muestreo guiado por recompensas utilizando un modelo discriminativo preentrenado para la estimación de orientación 3D y un modelo de flujo generativo de texto a imagen en un solo paso. Aunque la optimización basada en ascenso de gradiente es una elección natural para la guía basada en recompensas, tiene dificultades para mantener el realismo de la imagen. En su lugar, adoptamos un enfoque basado en muestreo utilizando dinámica de Langevin, que extiende el ascenso de gradiente simplemente inyectando ruido aleatorio—requiriendo solo una línea adicional de código. Además, introducimos un reescalado de tiempo adaptativo basado en la función de recompensa para acelerar la convergencia. Nuestros experimentos muestran que ORIGEN supera tanto a métodos basados en entrenamiento como a métodos de guía en tiempo de prueba en métricas cuantitativas y estudios de usuario.
Los avances recientes en la generación de cabezas parlantes 3D impulsadas por voz han logrado un progreso significativo en la sincronización labial. Sin embargo, los modelos existentes aún tienen dificultades para capturar la alineación perceptiva entre las características variables del habla y los movimientos labiales correspondientes. En este trabajo, afirmamos que tres criterios —Sincronización Temporal, Legibilidad Labial y Expresividad— son cruciales para lograr movimientos labiales perceptualmente precisos. Motivados por nuestra hipótesis de que existe un espacio de representación deseable para cumplir con estos tres criterios, introducimos una representación sincronizada de voz-malla que captura correspondencias intrincadas entre las señales de voz y las mallas faciales 3D. Descubrimos que nuestra representación aprendida exhibe características deseables, y la integramos en modelos existentes como una pérdida perceptual para alinear mejor los movimientos labiales con el habla dada. Además, utilizamos esta representación como una métrica perceptual e introducimos otras dos métricas de sincronización labial basadas en principios físicos para evaluar qué tan bien las cabezas parlantes 3D generadas se alinean con estos tres criterios. Los experimentos muestran que entrenar modelos de generación de cabezas parlantes 3D con nuestra pérdida perceptual mejora significativamente los tres aspectos de la sincronización labial perceptualmente precisa. Los códigos y conjuntos de datos están disponibles en https://perceptual-3d-talking-head.github.io/.
Presentamos Free4D, un novedoso marco de trabajo sin ajuste para la generación de escenas 4D a partir de una sola imagen. Los métodos existentes se centran en la generación a nivel de objeto, lo que hace inviable la generación a nivel de escena, o dependen de grandes conjuntos de datos de vídeo multivista para un entrenamiento costoso, con una capacidad de generalización limitada debido a la escasez de datos de escenas 4D. En contraste, nuestra idea clave es destilar modelos de base preentrenados para obtener una representación consistente de escenas 4D, lo que ofrece ventajas prometedoras como la eficiencia y la generalización. 1) Para lograrlo, primero animamos la imagen de entrada utilizando modelos de difusión de imagen a vídeo, seguido de una inicialización de la estructura geométrica 4D. 2) Para convertir esta estructura aproximada en vídeos multivista espacial-temporalmente consistentes, diseñamos un mecanismo de guía adaptativa con una estrategia de eliminación de ruido guiada por puntos para la consistencia espacial y una novedosa estrategia de reemplazo latente para la coherencia temporal. 3) Para elevar estas observaciones generadas a una representación 4D consistente, proponemos un refinamiento basado en modulación para mitigar las inconsistencias mientras se aprovecha al máximo la información generada. La representación 4D resultante permite una representación en tiempo real y controlable, marcando un avance significativo en la generación de escenas 4D basada en una sola imagen.
Los Transformers de Visión (ViTs) han demostrado un rendimiento y escalabilidad notables en diversas tareas de visión por computadora. Para aplicar ViTs de escala única a la segmentación de imágenes, los métodos existentes adoptan un adaptador convolucional para generar características multiescala, un decodificador de píxeles para fusionar estas características y un decodificador Transformer que utiliza las características fusionadas para realizar predicciones. En este artículo, mostramos que los sesgos inductivos introducidos por estos componentes específicos de la tarea pueden ser aprendidos por el propio ViT, dado modelos suficientemente grandes y un preentrenamiento extenso. Basándonos en estos hallazgos, presentamos el Mask Transformer de Solo Codificador (EoMT), que reutiliza la arquitectura simple del ViT para realizar segmentación de imágenes. Con modelos a gran escala y preentrenamiento, EoMT obtiene una precisión de segmentación similar a la de los modelos de vanguardia que utilizan componentes específicos de la tarea. Al mismo tiempo, EoMT es significativamente más rápido que estos métodos debido a su simplicidad arquitectónica, por ejemplo, hasta 4 veces más rápido con ViT-L. En una variedad de tamaños de modelos, EoMT demuestra un equilibrio óptimo entre la precisión de segmentación y la velocidad de predicción, sugiriendo que los recursos computacionales se aprovechan mejor al escalar el propio ViT en lugar de agregar complejidad arquitectónica. Código: https://www.tue-mps.org/eomt/.
El refinamiento de resúmenes enfrenta desafíos al extenderse a múltiples dimensiones. En este artículo, presentamos ReFeed, una potente pipeline de refinamiento de resúmenes que mejora múltiples dimensiones mediante razonamiento reflexivo sobre retroalimentación. Para lograrlo, lanzamos SumFeed-CoT, un conjunto de datos a gran escala basado en Long-CoT optimizado para entrenar un modelo ligero con razonamiento reflexivo. Nuestros experimentos revelan cómo el número de dimensiones, la exposición a la retroalimentación y la política de razonamiento influyen en el rendimiento del refinamiento, destacando que el razonamiento reflexivo y abordar simultáneamente múltiples retroalimentaciones es crucial para mitigar el compromiso entre dimensiones. Además, ReFeed es robusto frente a retroalimentación ruidosa y al orden de la retroalimentación. Por último, nuestros hallazgos enfatizan que la creación de datos con un objetivo y directrices adecuados constituye un pilar fundamental para un razonamiento efectivo. El conjunto de datos y el modelo serán publicados.
Recientemente, la generación de vídeo multivista o 4D ha surgido como un tema de investigación importante. Sin embargo, los enfoques recientes para la generación 4D aún enfrentan limitaciones fundamentales, ya que dependen principalmente de aprovechar múltiples modelos de difusión de vídeo con entrenamiento adicional o del entrenamiento computacionalmente intensivo de un modelo completo de difusión 4D, con datos 4D del mundo real limitados y grandes costos computacionales. Para abordar estos desafíos, aquí proponemos el primer método de generación de vídeo 4D sin entrenamiento que aprovecha modelos de difusión de vídeo disponibles para generar vídeos multivista a partir de un único vídeo de entrada. Nuestro enfoque consta de dos pasos clave: (1) Al designar los fotogramas de borde en la cuadrícula de muestreo espacio-temporal como fotogramas clave, primero los sintetizamos utilizando un modelo de difusión de vídeo, aprovechando una técnica de deformación basada en profundidad para guiar el proceso. Este enfoque garantiza la consistencia estructural en los fotogramas generados, preservando la coherencia espacial y temporal. (2) Luego interpolamos los fotogramas restantes utilizando un modelo de difusión de vídeo, construyendo una cuadrícula de muestreo completamente poblada y temporalmente coherente mientras se preserva la consistencia espacial y temporal. A través de este enfoque, extendemos un único vídeo en un vídeo multivista a lo largo de trayectorias de cámara novedosas, manteniendo la coherencia espacio-temporal. Nuestro método no requiere entrenamiento y utiliza completamente un modelo de difusión de vídeo disponible, ofreciendo una solución práctica y efectiva para la generación de vídeo multivista.
La segmentación de objetos en movimiento es una tarea crucial para lograr una comprensión de alto nivel de escenas visuales y tiene numerosas aplicaciones posteriores. Los humanos pueden segmentar objetos en movimiento en videos sin esfuerzo. Trabajos anteriores han dependido en gran medida del flujo óptico para proporcionar pistas de movimiento; sin embargo, este enfoque a menudo resulta en predicciones imperfectas debido a desafíos como el movimiento parcial, deformaciones complejas, desenfoque por movimiento y distracciones del fondo. Proponemos un enfoque novedoso para la segmentación de objetos en movimiento que combina pistas de movimiento de trayectorias de largo alcance con características semánticas basadas en DINO y aprovecha SAM2 para la densificación de máscaras a nivel de píxeles mediante una estrategia de indicación iterativa. Nuestro modelo emplea Atención de Trayectoria Espacio-Temporal y Incrustación Desacoplada de Movimiento-Semántica para priorizar el movimiento mientras integra soporte semántico. Pruebas exhaustivas en diversos conjuntos de datos demuestran un rendimiento de vanguardia, destacándose en escenarios desafiantes y en la segmentación detallada de múltiples objetos. Nuestro código está disponible en https://motion-seg.github.io/.
Presentamos PHYSICS, un punto de referencia integral para la resolución de problemas de física a nivel universitario. Contiene 1297 problemas anotados por expertos que abarcan seis áreas principales: mecánica clásica, mecánica cuántica, termodinámica y mecánica estadística, electromagnetismo, física atómica y óptica. Cada problema requiere conocimientos avanzados de física y razonamiento matemático. Desarrollamos un sistema de evaluación automatizado robusto para una validación precisa y confiable. Nuestra evaluación de los principales modelos base revela limitaciones significativas. Incluso el modelo más avanzado, o3-mini, alcanza solo un 59.9% de precisión, lo que destaca los desafíos considerables en la resolución de problemas científicos de alto nivel. A través de un análisis exhaustivo de errores, la exploración de diversas estrategias de indicación (prompting) y la ampliación de conocimiento basada en Generación Aumentada por Recuperación (RAG), identificamos áreas clave para la mejora, sentando las bases para avances futuros.
Motivados en parte por su relevancia para el entrenamiento de baja precisión y la cuantización, las activaciones masivas en los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) han surgido recientemente como un tema de interés. Sin embargo, los análisis existentes son limitados en alcance, y la generalización entre arquitecturas no está clara. Este artículo ayuda a abordar algunas de estas brechas al realizar un análisis de las activaciones masivas en una amplia gama de LLMs, incluyendo tanto arquitecturas basadas en GLU como no basadas en GLU. Nuestros hallazgos desafían varias suposiciones previas, siendo las más importantes: (1) no todas las activaciones masivas son perjudiciales, es decir, suprimirlas no conduce a una explosión de la perplejidad ni a un colapso en el rendimiento de tareas posteriores; (2) las estrategias de mitigación propuestas, como el sesgo de Attention KV, son específicas del modelo y en ciertos casos ineficaces. En consecuencia, investigamos nuevas estrategias híbridas de mitigación; en particular, combinar el Reajuste de Varianza Objetivo (TVR, por sus siglas en inglés) con el sesgo de Attention KV o la Tangente Hiperbólica Dinámica (DyT, por sus siglas en inglés) logra equilibrar la mitigación de las activaciones masivas con la preservación del rendimiento del modelo en las tareas posteriores en los escenarios que investigamos. Nuestro código está disponible en: https://github.com/bluorion-com/refine_massive_activations.
Con la creciente demanda de modelos 3D de alta fidelidad a partir de imágenes 2D, los métodos existentes aún enfrentan desafíos significativos para reproducir con precisión detalles geométricos finos debido a las limitaciones en las brechas de dominio y las ambigüedades inherentes en las imágenes RGB. Para abordar estos problemas, proponemos Hi3DGen, un marco novedoso para generar geometría 3D de alta fidelidad a partir de imágenes mediante la intermediación de mapas normales. Hi3DGen consta de tres componentes clave: (1) un estimador de imagen a normal que desacopla el patrón de imagen de baja y alta frecuencia con inyección de ruido y entrenamiento de doble flujo para lograr una estimación generalizable, estable y precisa; (2) un enfoque de aprendizaje de normal a geometría que utiliza aprendizaje de difusión latente regularizada por normales para mejorar la fidelidad en la generación de geometría 3D; y (3) una pipeline de síntesis de datos 3D que construye un conjunto de datos de alta calidad para respaldar el entrenamiento. Experimentos exhaustivos demuestran la efectividad y superioridad de nuestro marco en la generación de detalles geométricos ricos, superando a los métodos más avanzados en términos de fidelidad. Nuestro trabajo proporciona una nueva dirección para la generación de geometría 3D de alta fidelidad a partir de imágenes al aprovechar los mapas normales como una representación intermedia.
En este artículo, presentamos un método para reconstruir humanos en 3D a partir de una sola imagen utilizando un modelo esquelético biomecánicamente preciso. Para lograrlo, entrenamos un transformador que toma una imagen como entrada y estima los parámetros del modelo. Debido a la falta de datos de entrenamiento para esta tarea, construimos una canalización para generar parámetros de modelo de pseudo-verdad básica para imágenes individuales e implementamos un procedimiento de entrenamiento que refina iterativamente estas etiquetas pseudo. En comparación con los métodos más avanzados para la recuperación de mallas humanas en 3D, nuestro modelo logra un rendimiento competitivo en puntos de referencia estándar, mientras que supera significativamente a estos en configuraciones con poses y puntos de vista 3D extremos. Además, demostramos que los métodos de reconstrucción anteriores frecuentemente violan los límites de ángulos articulares, lo que resulta en rotaciones antinaturales. En contraste, nuestro enfoque aprovecha los grados de libertad biomecánicamente plausibles, realizando estimaciones de rotación articular más realistas. Validamos nuestro enfoque en múltiples puntos de referencia de estimación de posturas humanas. Ponemos a disposición el código, los modelos y los datos en: https://isshikihugh.github.io/HSMR/
La creación de mallas 3D de alta fidelidad con topología arbitraria, incluyendo superficies abiertas e interiores complejos, sigue siendo un desafío significativo. Los métodos existentes basados en campos implícitos a menudo requieren una conversión costosa y que degrada los detalles para lograr superficies cerradas, mientras que otros enfoques tienen dificultades con altas resoluciones. Este artículo presenta SparseFlex, una novedosa representación de isosuperficie con estructura dispersa que permite la reconstrucción diferenciable de mallas a resoluciones de hasta 1024^3 directamente a partir de pérdidas de renderizado. SparseFlex combina la precisión de Flexicubes con una estructura de vóxeles dispersa, enfocando el cálculo en regiones adyacentes a la superficie y manejando eficientemente superficies abiertas. De manera crucial, introducimos una estrategia de entrenamiento de vóxeles seccionales consciente del frustum que activa solo los vóxeles relevantes durante el renderizado, reduciendo drásticamente el consumo de memoria y permitiendo el entrenamiento en alta resolución. Esto también permite, por primera vez, la reconstrucción de interiores de mallas utilizando únicamente supervisión de renderizado. Sobre esta base, demostramos una canalización completa de modelado de formas entrenando un autoencoder variacional (VAE) y un transformador de flujo rectificado para la generación de formas 3D de alta calidad. Nuestros experimentos muestran una precisión de reconstrucción de vanguardia, con una reducción del ~82% en la Distancia de Chamfer y un aumento del ~88% en el F-score en comparación con métodos anteriores, y demuestran la generación de formas 3D detalladas y de alta resolución con topología arbitraria. Al permitir la reconstrucción y generación diferenciable de mallas en alta resolución con pérdidas de renderizado, SparseFlex avanza significativamente el estado del arte en la representación y modelado de formas 3D.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han demostrado capacidades impresionantes en la comprensión de imágenes/videos 2D. Sin embargo, no existen puntos de referencia estandarizados y públicos para evaluar las habilidades de los MLLMs en la comprensión de objetos 4D (objetos 3D con evolución temporal a lo largo del tiempo). En este artículo, presentamos 4D-Bench, el primer punto de referencia diseñado para evaluar las capacidades de los MLLMs en la comprensión de objetos 4D, incluyendo tareas de Preguntas y Respuestas sobre objetos 4D (4D object QA) y descripción de objetos 4D (4D object captioning). 4D-Bench proporciona objetos 4D con diversas categorías, anotaciones de alta calidad y tareas que requieren una comprensión espacio-temporal multivista, diferenciándose de los puntos de referencia existentes basados en imágenes/videos 2D. Con 4D-Bench, evaluamos una amplia gama de MLLMs de código abierto y cerrado. Los resultados del experimento de descripción de objetos 4D indican que los MLLMs generalmente muestran una comprensión temporal más débil en comparación con su comprensión de la apariencia. En particular, mientras que los modelos de código abierto se acercan al rendimiento de los modelos cerrados en la comprensión de la apariencia, muestran brechas de rendimiento más grandes en la comprensión temporal. Las Preguntas y Respuestas sobre objetos 4D arrojan hallazgos sorprendentes: incluso con videos simples de un solo objeto, los MLLMs tienen un rendimiento deficiente, con el modelo GPT-4o, el más avanzado, alcanzando solo un 63% de precisión en comparación con la línea base humana del 91%. Estos hallazgos resaltan una brecha sustancial en la comprensión de objetos 4D y la necesidad de avances adicionales en los MLLMs.
El desarrollo de sistemas de IA confiables para asistir a los médicos humanos en el diagnóstico médico multimodal ha sido durante mucho tiempo un objetivo clave para los investigadores. Recientemente, los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) han ganado una atención significativa y han logrado éxitos en diversos dominios. Con fuertes capacidades de razonamiento y la habilidad de realizar diversas tareas basadas en instrucciones del usuario, estos modelos tienen un gran potencial para mejorar el diagnóstico médico. Sin embargo, la aplicación directa de los MLLMs en el ámbito médico aún presenta desafíos. Carecen de una percepción detallada de las entradas visuales, lo que limita su capacidad para realizar análisis cuantitativos de imágenes, algo crucial para el diagnóstico médico. Además, los MLLMs a menudo muestran alucinaciones e inconsistencias en el razonamiento, mientras que los diagnósticos clínicos deben adherirse estrictamente a criterios establecidos. Para abordar estos desafíos, proponemos MedAgent-Pro, un sistema de razonamiento basado en evidencia diseñado para lograr diagnósticos médicos confiables, explicables y precisos. Esto se consigue mediante un flujo de trabajo jerárquico: a nivel de tarea, el razonamiento basado en conocimiento genera planes de diagnóstico confiables para enfermedades específicas siguiendo criterios clínicos recuperados. Mientras que a nivel de caso, múltiples agentes de herramientas procesan entradas multimodales, analizan diferentes indicadores según el plan y proporcionan un diagnóstico final basado en evidencia tanto cuantitativa como cualitativa. Experimentos exhaustivos en tareas de diagnóstico médico en 2D y 3D demuestran la superioridad y efectividad de MedAgent-Pro, mientras que estudios de caso destacan aún más su confiabilidad e interpretabilidad. El código está disponible en https://github.com/jinlab-imvr/MedAgent-Pro.
La clasificación tradicional de imágenes requiere una lista predefinida de categorías semánticas. En contraste, los Modelos Multimodales de Gran Escala (LMMs) pueden eludir este requisito al clasificar imágenes directamente utilizando lenguaje natural (por ejemplo, respondiendo a la pregunta "¿Cuál es el objeto principal en la imagen?"). A pesar de esta capacidad notable, la mayoría de los estudios existentes sobre el rendimiento de clasificación de los LMMs son sorprendentemente limitados en alcance, a menudo asumiendo un entorno de mundo cerrado con un conjunto predefinido de categorías. En este trabajo, abordamos esta brecha evaluando exhaustivamente el rendimiento de clasificación de los LMMs en un entorno verdaderamente de mundo abierto. Primero formalizamos la tarea e introducimos un protocolo de evaluación, definiendo varias métricas para evaluar la alineación entre las clases predichas y las verdaderas. Luego evaluamos 13 modelos en 10 benchmarks, abarcando clases prototípicas, no prototípicas, de grano fino y de grano muy fino, demostrando los desafíos que enfrentan los LMMs en esta tarea. Análisis adicionales basados en las métricas propuestas revelan los tipos de errores que cometen los LMMs, destacando desafíos relacionados con la granularidad y las capacidades de grano fino, y mostrando cómo el uso de indicaciones y razonamientos personalizados puede mitigarlos.
La IA para la ingeniería de software ha logrado avances notables recientemente, convirtiéndose en un éxito destacado dentro de la IA generativa. A pesar de esto, aún existen muchos desafíos que deben abordarse antes de que la ingeniería de software automatizada alcance su máximo potencial. Debería ser posible alcanzar altos niveles de automatización donde los humanos puedan centrarse en las decisiones críticas sobre qué construir y cómo equilibrar compensaciones difíciles, mientras que la mayor parte del esfuerzo de desarrollo rutinario se automatice. Alcanzar este nivel de automatización requerirá esfuerzos sustanciales de investigación e ingeniería tanto en la academia como en la industria. En este artículo, nuestro objetivo es discutir el progreso hacia este objetivo de tres maneras. Primero, proporcionamos una taxonomía estructurada de tareas concretas en IA para ingeniería de software, enfatizando las muchas otras tareas en ingeniería de software más allá de la generación y completado de código. Segundo, delineamos varios cuellos de botella clave que limitan los enfoques actuales. Finalmente, ofrecemos una lista opinada de direcciones de investigación prometedoras para avanzar en estos cuellos de botella, con la esperanza de inspirar futuras investigaciones en este campo que madura rápidamente.
La reconstrucción de tomografía computarizada cuatridimensional (4D CT) es crucial para capturar cambios anatómicos dinámicos, pero enfrenta limitaciones inherentes de los flujos de trabajo convencionales de agrupación por fases. Los métodos actuales discretizan la resolución temporal en fases fijas utilizando dispositivos de sincronización respiratoria, lo que introduce desalineación de movimiento y restringe la practicidad clínica. En este artículo, proponemos X^2-Gaussian, un marco novedoso que permite la reconstrucción de 4D-CT en tiempo continuo mediante la integración de la técnica de splatting Gaussiano radiante dinámico con el aprendizaje autosupervisado del movimiento respiratorio. Nuestro enfoque modela la dinámica anatómica a través de una arquitectura codificador-decodificador espacio-temporal que predice deformaciones Gaussianas variables en el tiempo, eliminando la discretización por fases. Para eliminar la dependencia de dispositivos de sincronización externos, introducimos una pérdida de consistencia periódica impulsada por la fisiología que aprende los ciclos respiratorios específicos del paciente directamente desde las proyecciones mediante optimización diferenciable. Experimentos extensivos demuestran un rendimiento de vanguardia, logrando una ganancia de 9.93 dB en PSNR sobre métodos tradicionales y una mejora de 2.25 dB frente a técnicas previas de splatting Gaussiano. Al unificar el modelado continuo de movimiento con el aprendizaje de periodos sin hardware, X^2-Gaussian avanza en la reconstrucción de alta fidelidad de 4D CT para imágenes clínicas dinámicas. Sitio web del proyecto en: https://x2-gaussian.github.io/.
La intención, típicamente formulada y planificada de manera clara, funciona como un marco cognitivo para el razonamiento y la resolución de problemas. Este artículo introduce el concepto de Hablar con Intención (SWI, por sus siglas en inglés) en los modelos de lenguaje de gran escala (LLMs), donde la intención generada explícitamente encapsula la intención subyacente del modelo y proporciona una planificación de alto nivel para guiar el análisis y la comunicación posteriores. Al emular pensamientos deliberados y con propósito en la mente humana, se hipotetiza que SWI mejora las capacidades de razonamiento y la calidad de la generación de los LLMs. Experimentos extensos en benchmarks de razonamiento matemático demuestran consistentemente la superioridad de Hablar con Intención sobre la Línea Base (es decir, generación sin intención explícita). Además, SWI supera a los métodos de prompting basados en respuestas como Cadena de Pensamiento (Chain-of-Thought) y Planificar y Resolver (Plan-and-Solve) y mantiene un rendimiento competitivo con el método fuerte ARR (Analizar, Recuperar y Razonar). Adicionalmente, la efectividad y generalización de SWI se consolidan en benchmarks de preguntas y respuestas (QA) intensivas en razonamiento y resumen de texto, donde SWI aporta mejoras consistentes a la generación de la Línea Base. En la tarea de resumen de texto, los resúmenes generados por SWI exhiben mayor precisión, concisión y corrección factual, con menos alucinaciones. Además, evaluaciones humanas verifican la coherencia, efectividad e interpretabilidad de la intención producida por SWI. Este estudio de prueba de concepto abre una nueva vía para mejorar las habilidades de razonamiento de los LLMs mediante nociones cognitivas.