Artículos de investigación en IA seleccionados diariamente con traducciones
Este informe técnico presenta una estrategia rentable para entrenar un modelo base de generación de videos. Introducimos un modelo de investigación de tamaño medio con aproximadamente 7 mil millones de parámetros (7B), denominado Seaweed-7B, entrenado desde cero utilizando 665,000 horas de GPU H100. A pesar de haber sido entrenado con recursos computacionales moderados, Seaweed-7B demuestra un rendimiento altamente competitivo en comparación con modelos contemporáneos de generación de videos de tamaño mucho mayor. Las decisiones de diseño son especialmente cruciales en un entorno con recursos limitados. Este informe técnico destaca las decisiones clave de diseño que mejoran el rendimiento del modelo de difusión de tamaño medio. Empíricamente, observamos dos aspectos: (1) Seaweed-7B logra un rendimiento comparable o incluso superior al de modelos más grandes entrenados con recursos de GPU sustancialmente mayores, y (2) nuestro modelo, que exhibe una fuerte capacidad de generalización, puede adaptarse eficazmente a una amplia gama de aplicaciones posteriores mediante ajustes finos ligeros o continuando el entrenamiento. Consulte la página del proyecto en https://seaweed.video/.
En la generación autoregresiva (AR) de imágenes, los tokenizadores visuales comprimen las imágenes en tokens latentes discretos compactos, permitiendo un entrenamiento eficiente de modelos autoregresivos posteriores para la generación visual mediante la predicción del siguiente token. Si bien escalar los tokenizadores visuales mejora la calidad de la reconstrucción de imágenes, a menudo degrada la calidad de la generación posterior, un desafío que no ha sido abordado adecuadamente en la literatura existente. Para resolver esto, presentamos GigaTok, el primer enfoque que mejora simultáneamente la reconstrucción de imágenes, la generación y el aprendizaje de representaciones al escalar los tokenizadores visuales. Identificamos la creciente complejidad del espacio latente como el factor clave detrás del dilema entre reconstrucción y generación. Para mitigar esto, proponemos la regularización semántica, que alinea las características del tokenizador con características semánticamente consistentes de un codificador visual preentrenado. Esta restricción evita una complejidad excesiva del espacio latente durante el escalado, obteniendo mejoras consistentes tanto en la reconstrucción como en la generación autoregresiva posterior. Basándonos en la regularización semántica, exploramos tres prácticas clave para escalar tokenizadores: (1) usar tokenizadores 1D para una mejor escalabilidad, (2) priorizar el escalado del decodificador al expandir tanto el codificador como el decodificador, y (3) emplear la pérdida de entropía para estabilizar el entrenamiento de tokenizadores a escala de miles de millones. Al escalar a 3 mil millones de parámetros, GigaTok logra un rendimiento de vanguardia en reconstrucción, generación AR posterior y calidad de representación AR posterior.
La modelización del mundo es una tarea crucial para permitir que los agentes inteligentes interactúen de manera efectiva con los humanos y operen en entornos dinámicos. En este trabajo, proponemos MineWorld, un modelo de mundo interactivo en tiempo real basado en Minecraft, un juego de sandbox de mundo abierto que se ha utilizado como un banco de pruebas común para la modelización del mundo. MineWorld está impulsado por un Transformer autorregresivo visual-accional, que toma como entrada escenas del juego y las acciones correspondientes, y genera nuevas escenas consecuentes siguiendo las acciones. Específicamente, al transformar las escenas visuales del juego y las acciones en identificadores de tokens discretos con un tokenizador de imágenes y un tokenizador de acciones respectivamente, construimos la entrada del modelo con la concatenación de los dos tipos de identificadores intercalados. Luego, el modelo se entrena con la predicción del siguiente token para aprender representaciones ricas de los estados del juego, así como las condiciones entre estados y acciones simultáneamente. En la inferencia, desarrollamos un novedoso algoritmo de decodificación paralela que predice los tokens redundantes espaciales en cada fotograma al mismo tiempo, permitiendo que los modelos de diferentes escalas generen de 4 a 7 fotogramas por segundo y posibilitando interacciones en tiempo real con los jugadores. En la evaluación, proponemos nuevas métricas para evaluar no solo la calidad visual, sino también la capacidad de seguimiento de acciones al generar nuevas escenas, lo cual es crucial para un modelo de mundo. Nuestra evaluación integral muestra la eficacia de MineWorld, superando significativamente a los modelos de mundo basados en difusión de última generación de código abierto. El código y el modelo han sido liberados.
Recientemente, DeepSeek R1 ha demostrado que el aprendizaje por refuerzo (RL, por sus siglas en inglés) puede mejorar sustancialmente las capacidades de razonamiento de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) mediante un diseño simple pero efectivo. El núcleo de R1 radica en su formulación de recompensas basada en reglas, que aprovecha tareas con respuestas de verdad fundamental deterministas para permitir un cálculo de recompensas preciso y estable. En el dominio visual, observamos de manera similar que una amplia gama de tareas de comprensión visual están intrínsecamente equipadas con anotaciones de verdad fundamental bien definidas. Esta propiedad las hace naturalmente compatibles con mecanismos de recompensa basados en reglas. Motivados por esta observación, investigamos la extensión del aprendizaje por refuerzo al estilo R1 a los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés), con el objetivo de mejorar sus capacidades de razonamiento visual. Para ello, desarrollamos VLM-R1, un marco dedicado diseñado para aprovechar el RL para mejorar el rendimiento de los VLMs en tareas generales de visión-lenguaje. Utilizando este marco, exploramos además la viabilidad de aplicar RL al dominio visual. Los resultados experimentales indican que el modelo basado en RL no solo ofrece un rendimiento competitivo en tareas de comprensión visual, sino que también supera al Ajuste Fino Supervisado (SFT, por sus siglas en inglés) en capacidad de generalización. Además, realizamos estudios de ablación exhaustivos que revelan una serie de hallazgos notables, incluyendo la presencia de "hacking de recompensas" en la detección de objetos, la aparición del "momento aha de OD", el impacto de la calidad de los datos de entrenamiento y el comportamiento de escalado del RL en diferentes tamaños de modelos. A través de estos análisis, buscamos profundizar en la comprensión de cómo el aprendizaje por refuerzo mejora las capacidades de los modelos de visión-lenguaje, y esperamos que nuestros hallazgos y contribuciones de código abierto apoyen el progreso continuo en la comunidad de RL de visión-lenguaje. Nuestro código y modelo están disponibles en https://github.com/om-ai-lab/VLM-R1.
Natural Language to SQL (NL2SQL) permite interacciones intuitivas con bases de datos al transformar consultas en lenguaje natural en sentencias SQL estructuradas. A pesar de los avances recientes en la mejora de la interacción humano-computadora en aplicaciones de bases de datos, persisten desafíos significativos, particularmente en relación con el rendimiento de inferencia en escenarios complejos que involucran uniones de múltiples tablas y consultas anidadas. Las metodologías actuales utilizan principalmente el ajuste fino supervisado (SFT) para entrenar el modelo NL2SQL, lo que puede limitar la adaptabilidad y la interpretabilidad en nuevos entornos (por ejemplo, finanzas y atención médica). Para mejorar el rendimiento de razonamiento del modelo NL2SQL en las situaciones complejas mencionadas, presentamos SQL-R1, un novedoso modelo de razonamiento NL2SQL entrenado mediante algoritmos de aprendizaje por refuerzo (RL). Diseñamos una función de recompensa basada en RL especializada para tareas NL2SQL y discutimos el impacto del arranque en frío en la efectividad del entrenamiento intensivo. Además, logramos una precisión competitiva utilizando solo una pequeña cantidad de datos sintéticos NL2SQL para entrenamiento aumentado y exploramos más a fondo la ingeniería de datos para RL. En experimentos existentes, SQL-R1 alcanza una precisión de ejecución del 88.6% y 66.6% en los benchmarks Spider y BIRD, respectivamente, utilizando únicamente el modelo base de 7B.
Los recientes avances en modelos generativos han mejorado significativamente las capacidades de restauración de imágenes, particularmente a través de potentes modelos de difusión que ofrecen una recuperación notable de detalles semánticos y fidelidad local. Sin embargo, la implementación de estos modelos en resoluciones ultra altas enfrenta un compromiso crítico entre calidad y eficiencia debido a las demandas computacionales de los mecanismos de atención de largo alcance. Para abordar esto, presentamos ZipIR, un marco novedoso que mejora la eficiencia, escalabilidad y modelado de largo alcance para la restauración de imágenes de alta resolución. ZipIR emplea una representación latente altamente comprimida que reduce la imagen 32 veces, disminuyendo efectivamente el número de tokens espaciales y permitiendo el uso de modelos de alta capacidad como el Transformer de Difusión (DiT). Con este objetivo, proponemos un diseño de VAE de Pirámide Latente (LP-VAE) que estructura el espacio latente en sub-bandas para facilitar el entrenamiento de difusión. Entrenado en imágenes completas de hasta 2K de resolución, ZipIR supera a los métodos basados en difusión existentes, ofreciendo una velocidad y calidad sin precedentes en la restauración de imágenes de alta resolución a partir de entradas severamente degradadas.
Presentamos PixelFlow, una familia de modelos de generación de imágenes que operan directamente en el espacio de píxeles sin procesar, en contraste con los modelos predominantes que trabajan en espacios latentes. Este enfoque simplifica el proceso de generación de imágenes al eliminar la necesidad de un Autoencoder Variacional (VAE) preentrenado y permitir que todo el modelo sea entrenable de extremo a extremo. A través de un modelado eficiente de flujo en cascada, PixelFlow logra un costo computacional asequible en el espacio de píxeles. Alcanza un FID de 1.98 en el benchmark de generación de imágenes condicionadas por clase de ImageNet con resolución de 256x256. Los resultados cualitativos de texto a imagen demuestran que PixelFlow sobresale en calidad de imagen, artisticidad y control semántico. Esperamos que este nuevo paradigma inspire y abra nuevas oportunidades para los modelos de generación visual de próxima generación. El código y los modelos están disponibles en https://github.com/ShoufaChen/PixelFlow.
Con el rápido avance de los modelos generativos 2D, preservar la identidad del sujeto mientras se habilita una edición diversa se ha convertido en un enfoque de investigación crítico. Los métodos existentes suelen enfrentar compromisos inherentes entre la preservación de la identidad y la manipulación personalizada. Presentamos FlexIP, un marco novedoso que desacopla estos objetivos mediante dos componentes dedicados: un Adaptador de Personalización para la manipulación estilística y un Adaptador de Preservación para el mantenimiento de la identidad. Al inyectar explícitamente ambos mecanismos de control en el modelo generativo, nuestro marco permite un control parametrizado flexible durante la inferencia a través de la sintonización dinámica del adaptador de pesos. Los resultados experimentales demuestran que nuestro enfoque supera las limitaciones de rendimiento de los métodos convencionales, logrando una preservación de la identidad superior al mismo tiempo que admite capacidades de generación personalizada más diversas (Página del Proyecto: https://flexip-tech.github.io/flexip/).
Presentamos un sistema que utiliza Modelos de Lenguaje Multimodales (MLLMs, por sus siglas en inglés) para analizar una gran base de datos con decenas de millones de imágenes capturadas en diferentes momentos, con el objetivo de descubrir patrones en los cambios temporales. Específicamente, buscamos capturar cambios frecuentes que ocurren simultáneamente ("tendencias") en una ciudad durante un período determinado. A diferencia de análisis visuales previos, nuestro análisis responde a consultas abiertas (por ejemplo, "¿cuáles son los tipos de cambios frecuentes en la ciudad?") sin sujetos objetivos predeterminados ni etiquetas de entrenamiento. Estas propiedades hacen que las herramientas de análisis visual basadas en aprendizaje previo o no supervisado no sean adecuadas. Identificamos a los MLLMs como una herramienta novedosa por sus capacidades de comprensión semántica abierta. Sin embargo, nuestros conjuntos de datos son cuatro órdenes de magnitud demasiado grandes para que un MLLM los ingiera como contexto. Por lo tanto, introducimos un procedimiento de abajo hacia arriba que descompone el masivo problema de análisis visual en subproblemas más manejables. Diseñamos cuidadosamente soluciones basadas en MLLMs para cada subproblema. Durante los experimentos y estudios de ablación con nuestro sistema, encontramos que supera significativamente a las líneas base y es capaz de descubrir tendencias interesantes a partir de imágenes capturadas en grandes ciudades (por ejemplo, "adición de comedores al aire libre", "el paso elevado fue pintado de azul", etc.). Consulte más resultados y demostraciones interactivas en https://boyangdeng.com/visual-chronicles.
Proponemos un nuevo problema, In-2-4D, para la generación de intermedios en 4D (es decir, 3D + movimiento) a partir de una configuración de entrada minimalista: dos imágenes de vista única que capturan un objeto en dos estados de movimiento distintos. Dadas dos imágenes que representan los estados inicial y final de un objeto en movimiento, nuestro objetivo es generar y reconstruir el movimiento en 4D. Utilizamos un modelo de interpolación de video para predecir el movimiento, pero los grandes cambios entre fotogramas pueden llevar a interpretaciones ambiguas. Para superar esto, empleamos un enfoque jerárquico para identificar fotogramas clave que estén visualmente cercanos a los estados de entrada y muestren un movimiento significativo, luego generamos fragmentos suaves entre ellos. Para cada fragmento, construimos la representación 3D del fotograma clave utilizando Gaussian Splatting. Los fotogramas temporales dentro del fragmento guían el movimiento, permitiendo su transformación en Gaussianos dinámicos a través de un campo de deformación. Para mejorar la consistencia temporal y refinar el movimiento 3D, ampliamos la auto-atención de la difusión multi-vista a lo largo de los pasos de tiempo y aplicamos una regularización de transformación rígida. Finalmente, fusionamos los segmentos de movimiento 3D generados de manera independiente interpolando los campos de deformación en los límites y optimizándolos para alinearse con el video guía, asegurando transiciones suaves y sin parpadeos. A través de extensos experimentos cualitativos y cuantitativos, así como un estudio de usuario, demostramos la efectividad de nuestro método y sus componentes. La página del proyecto está disponible en https://in-2-4d.github.io/.
A pesar de obtener puntuaciones altas en benchmarks, los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) a menudo fallan en problemas simples, lo que plantea una pregunta crítica: ¿Los LLMs aprenden principios matemáticos o simplemente memorizan patrones? En lugar de diseñar benchmarks cada vez más complejos como en trabajos recientes, investigamos esto utilizando la suma elemental de dos enteros (de 0 a 2^{64}), explorando dos propiedades fundamentales: la conmutatividad (A+B=B+A) y la generalización composicional (mediante mapeos simbólicos isomórficos, por ejemplo, 7 → y). Si bien los LLMs de última generación logran una precisión del 73.8-99.8\% en la suma numérica, su rendimiento colapsa a ≤7.5\% bajo mapeos simbólicos, lo que indica una incapacidad para generalizar las reglas aprendidas. El escalamiento no monótono del rendimiento con el número de dígitos y las frecuentes violaciones de la conmutatividad (más de 1,700 casos de A+B ≠ B+A) respaldan aún más esta conclusión. Proporcionar explícitamente las reglas de suma degrada el rendimiento en un 81.2\% en promedio, mientras que la autoexplicación mantiene la precisión base, lo que sugiere que el procesamiento aritmético de los LLMs no está alineado con los principios definidos por humanos. Nuestros hallazgos indican que los LLMs actuales dependen de la memorización de patrones en lugar del aprendizaje genuino de reglas, destacando limitaciones arquitectónicas y la necesidad de nuevos enfoques para lograr un razonamiento matemático verdadero.
Los modelos preentrenados de codificador transformador como DeBERTaV3 y ModernBERT introducen avances arquitectónicos orientados a mejorar la eficiencia y el rendimiento. Aunque los autores de ModernBERT reportan un mejor rendimiento en comparación con DeBERTaV3 en varios benchmarks, la falta de datos de entrenamiento divulgados y la ausencia de comparaciones utilizando un conjunto de datos compartido dificultan determinar si estas mejoras se deben a avances arquitectónicos o a diferencias en los datos de entrenamiento. En este trabajo, realizamos un estudio controlado preentrenando ModernBERT con el mismo conjunto de datos que CamemBERTaV2, un modelo DeBERTaV3 en francés, aislando así el efecto del diseño del modelo. Nuestros resultados muestran que la generación anterior de modelos sigue siendo superior en eficiencia de muestreo y rendimiento general en los benchmarks, siendo la principal ventaja de ModernBERT su velocidad más rápida en entrenamiento e inferencia. Sin embargo, el nuevo modelo propuesto aún ofrece mejoras arquitectónicas significativas en comparación con modelos anteriores como BERT y RoBERTa. Además, observamos que los datos de preentrenamiento de alta calidad aceleran la convergencia pero no mejoran significativamente el rendimiento final, lo que sugiere una posible saturación en los benchmarks. Estos hallazgos destacan la importancia de separar los datos de preentrenamiento de las innovaciones arquitectónicas al evaluar modelos transformadores.
Los modelos de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) destacan en tareas intensivas en conocimiento, especialmente bajo restricciones de aprendizaje con pocos ejemplos. Presentamos CoRAG, un marco que extiende RAG a entornos colaborativos, donde los clientes entrenan conjuntamente un modelo compartido utilizando un almacén de pasajes colaborativo. Para evaluar CoRAG, introducimos CRAB, un punto de referencia para la respuesta colaborativa homogénea a preguntas de dominio abierto. Nuestros experimentos demuestran que CoRAG supera consistentemente tanto a los métodos de aprendizaje colaborativo paramétricos como a los modelos RAG entrenados localmente en escenarios de bajos recursos. Un análisis más profundo revela la importancia crítica de los pasajes relevantes dentro del almacén compartido, los beneficios sorprendentes de incorporar pasajes irrelevantes y el potencial de que los negativos duros afecten negativamente el rendimiento. Esto introduce una consideración novedosa en RAG colaborativo: el equilibrio entre aprovechar una base de conocimiento colectivamente enriquecida y el riesgo potencial de incorporar pasajes perjudiciales de otros clientes. Nuestros hallazgos subrayan la viabilidad de CoRAG, al mismo tiempo que destacan desafíos clave de diseño y áreas prometedoras para futuras investigaciones.
Los recientes avances en los modelos de difusión de texto a video (T2V) han mejorado significativamente la calidad visual de los videos generados. Sin embargo, incluso los modelos T2V más recientes encuentran dificultades para seguir con precisión las descripciones de texto, especialmente cuando el prompt requiere un control preciso de los diseños espaciales o las trayectorias de los objetos. Una línea de investigación reciente utiliza guías de diseño para modelos T2V que requieren ajustes finos o manipulación iterativa del mapa de atención durante el tiempo de inferencia. Esto aumenta considerablemente los requisitos de memoria, dificultando la adopción de un modelo T2V grande como columna vertebral. Para abordar esto, presentamos Video-MSG, un método de guía sin necesidad de entrenamiento para la generación T2V basado en planificación multimodal e inicialización estructurada de ruido. Video-MSG consta de tres pasos: en los dos primeros, Video-MSG crea un Video Sketch, un plan espacio-temporal detallado para el video final, especificando el fondo, el primer plano y las trayectorias de los objetos en forma de borradores de fotogramas. En el último paso, Video-MSG guía un modelo de difusión T2V descendente con el Video Sketch mediante inversión de ruido y eliminación de ruido. Cabe destacar que Video-MSG no requiere ajustes finos ni manipulación de la atención con memoria adicional durante el tiempo de inferencia, lo que facilita la adopción de modelos T2V grandes. Video-MSG demuestra su eficacia para mejorar la alineación del texto con múltiples modelos T2V (VideoCrafter2 y CogVideoX-5B) en benchmarks populares de generación T2V (T2VCompBench y VBench). Proporcionamos estudios de ablación exhaustivos sobre la proporción de inversión de ruido, diferentes generadores de fondo, detección de objetos en el fondo y segmentación de objetos en primer plano.
En el campo de las imágenes médicas, el principal desafío es recopilar datos etiquetados a gran escala debido a preocupaciones de privacidad, logística y los altos costos de etiquetado. En este trabajo, presentamos UK Biobank Organs and Bones (UKBOB), el conjunto de datos etiquetados más grande de órganos corporales, que comprende 51,761 muestras de resonancia magnética (MRI) en 3D (equivalentes a 17.9 millones de imágenes 2D) y más de 1.37 mil millones de máscaras de segmentación 2D de 72 órganos, todo basado en el conjunto de datos de MRI del UK Biobank. Utilizamos etiquetado automático, introducimos una canalización automatizada de limpieza de etiquetas con filtros específicos para órganos y anotamos manualmente un subconjunto de 300 MRI con 11 clases abdominales para validar la calidad (denominado UKBOB-manual). Este enfoque permite escalar la recopilación de datos manteniendo la confianza en las etiquetas. Además, confirmamos la validez de las etiquetas demostrando la generalización zero-shot de modelos entrenados en el UKBOB filtrado a otros conjuntos de datos etiquetados pequeños de dominios similares (por ejemplo, MRI abdominal). Para mitigar aún más el efecto de las etiquetas ruidosas, proponemos un método novedoso llamado Entropy Test-time Adaptation (ETTA) para refinar la salida de segmentación. Utilizamos UKBOB para entrenar un modelo base, Swin-BOB, para la segmentación de imágenes médicas 3D basado en la arquitectura Swin-UNetr, logrando resultados de vanguardia en varios benchmarks de imágenes médicas 3D, incluido el desafío de tumores cerebrales en MRI BRATS (con una mejora del 0.4%) y el benchmark de tomografías computarizadas (CT) abdominales BTCV (con una mejora del 1.3%). Los modelos preentrenados y el código están disponibles en https://emmanuelleb985.github.io/ukbob, y las etiquetas filtradas se pondrán a disposición junto con el UK Biobank.
La edición de gráficos 3D es crucial en aplicaciones como la producción de películas y el diseño de videojuegos, pero sigue siendo un proceso que consume mucho tiempo y requiere un conocimiento altamente especializado en el dominio. Automatizar este proceso es un desafío porque la edición gráfica implica realizar una variedad de tareas, cada una de las cuales requiere habilidades distintas. Recientemente, los modelos de visión y lenguaje (VLMs, por sus siglas en inglés) han surgido como un marco poderoso para automatizar el proceso de edición, pero su desarrollo y evaluación se ven limitados por la falta de un punto de referencia integral que exija una percepción a nivel humano y presente la complejidad de la edición en el mundo real. En este trabajo, presentamos BlenderGym, el primer punto de referencia integral para sistemas VLM en la edición de gráficos 3D. BlenderGym evalúa los sistemas VLM a través de tareas de reconstrucción 3D basadas en código. Evaluamos sistemas VLM tanto de código cerrado como abierto y observamos que incluso el sistema VLM más avanzado tiene dificultades con tareas relativamente fáciles para usuarios humanos de Blender. Habilitados por BlenderGym, estudiamos cómo las técnicas de escalado de inferencia impactan el rendimiento de los VLM en tareas de edición gráfica. Notablemente, nuestros hallazgos revelan que el verificador utilizado para guiar el escalado de la generación puede mejorarse a través del escalado de inferencia, complementando insights recientes sobre el escalado de inferencia en la generación de LLM en tareas de codificación y matemáticas. Además, demostramos que el cómputo de inferencia no es uniformemente efectivo y puede optimizarse distribuyéndolo estratégicamente entre la generación y la verificación.
Este estudio presenta Latent Diffusion Autoencoder (LDAE), un novedoso marco de trabajo basado en difusión de tipo codificador-decodificador para el aprendizaje no supervisado eficiente y significativo en imágenes médicas, centrándose en la enfermedad de Alzheimer (EA) utilizando resonancias magnéticas cerebrales de la base de datos ADNI como caso de estudio. A diferencia de los autoencoders de difusión convencionales que operan en el espacio de la imagen, LDAE aplica el proceso de difusión en una representación latente comprimida, mejorando la eficiencia computacional y haciendo viable el aprendizaje de representaciones en imágenes médicas 3D. Para validar el enfoque propuesto, exploramos dos hipótesis clave: (i) LDAE captura efectivamente representaciones semánticas significativas en resonancias magnéticas cerebrales 3D asociadas con la EA y el envejecimiento, y (ii) LDAE logra una generación y reconstrucción de imágenes de alta calidad mientras mantiene la eficiencia computacional. Los resultados experimentales respaldan ambas hipótesis: (i) las evaluaciones con sonda lineal demuestran un rendimiento diagnóstico prometedor para la EA (ROC-AUC: 90%, ACC: 84%) y la predicción de edad (MAE: 4.1 años, RMSE: 5.2 años); (ii) las representaciones semánticas aprendidas permiten la manipulación de atributos, produciendo modificaciones anatómicamente plausibles; (iii) los experimentos de interpolación semántica muestran una reconstrucción sólida de escaneos faltantes, con un SSIM de 0.969 (MSE: 0.0019) para un intervalo de 6 meses. Incluso para intervalos más largos (24 meses), el modelo mantiene un rendimiento robusto (SSIM > 0.93, MSE < 0.004), indicando una capacidad para capturar tendencias de progresión temporal; (iv) en comparación con los autoencoders de difusión convencionales, LDAE aumenta significativamente el rendimiento de inferencia (20 veces más rápido) mientras también mejora la calidad de la reconstrucción. Estos hallazgos posicionan a LDAE como un marco prometedor para aplicaciones escalables en imágenes médicas, con el potencial de servir como un modelo base para el análisis de imágenes médicas. Código disponible en https://github.com/GabrieleLozupone/LDAE.
Los recientes avances en el cómputo durante la inferencia han mejorado significativamente el rendimiento en tareas complejas mediante la generación de largas cadenas de pensamiento (CoTs, por sus siglas en inglés) utilizando Modelos de Razonamiento a Gran Escala (LRMs, por sus siglas en inglés). Sin embargo, esta mayor precisión conlleva un alto costo en latencia de inferencia debido a la longitud de las secuencias de razonamiento generadas y a la naturaleza autoregresiva del proceso de decodificación. Nuestra clave para abordar estos sobrecostos radica en que la inferencia de los LRMs, y el razonamiento que esta conlleva, es altamente tolerante a las aproximaciones: las tareas complejas suelen descomponerse en pasos más simples, cada uno de los cuales aporta utilidad basada en la comprensión semántica que proporciona para los pasos subsiguientes, más que en los tokens exactos que genera. En consecuencia, presentamos SpecReason, un sistema que acelera automáticamente la inferencia de los LRMs utilizando un modelo ligero para llevar a cabo (especulativamente) los pasos intermedios de razonamiento más simples y reservando el modelo base costoso únicamente para evaluar (y potencialmente corregir) las salidas especuladas. Es importante destacar que el enfoque de SpecReason en explotar la flexibilidad semántica de los tokens de pensamiento para preservar la precisión de la respuesta final es complementario a las técnicas de especulación previas, especialmente la decodificación especulativa, que exige equivalencia a nivel de token en cada paso. En una variedad de benchmarks de razonamiento, SpecReason logra una aceleración de 1.5 a 2.5 veces sobre la inferencia estándar de los LRMs, mejorando además la precisión entre un 1.0 y un 9.9%. En comparación con la decodificación especulativa sin SpecReason, su combinación produce una reducción adicional de latencia del 19.4 al 44.2%. Hemos liberado el código de SpecReason en https://github.com/ruipeterpan/specreason.
Presentamos InteractVLM, un método novedoso para estimar puntos de contacto 3D en cuerpos humanos y objetos a partir de imágenes únicas en entornos naturales, permitiendo una reconstrucción precisa de la interacción humano-objeto en 3D. Esto representa un desafío debido a oclusiones, ambigüedades de profundidad y la amplia variedad de formas de los objetos. Los métodos existentes dependen de anotaciones de contacto 3D recolectadas mediante costosos sistemas de captura de movimiento o etiquetado manual tedioso, lo que limita la escalabilidad y generalización. Para superar esto, InteractVLM aprovecha el amplio conocimiento visual de los grandes Modelos de Visión-Lenguaje (VLMs), ajustados con datos limitados de contacto 3D. Sin embargo, aplicar directamente estos modelos no es trivial, ya que razonan solo en 2D, mientras que el contacto humano-objeto es inherentemente 3D. Por ello, introducimos un módulo novedoso llamado Render-Localize-Lift que: (1) incrusta superficies 3D de cuerpos y objetos en espacio 2D mediante renderizado multi-vista, (2) entrena un nuevo modelo de localización multi-vista (MV-Loc) para inferir contactos en 2D, y (3) eleva estos a 3D. Además, proponemos una nueva tarea llamada Estimación Semántica de Contacto Humano, donde las predicciones de contacto humano se condicionan explícitamente en la semántica del objeto, permitiendo un modelado de interacción más rico. InteractVLM supera el trabajo existente en estimación de contacto y también facilita la reconstrucción 3D a partir de una imagen en entorno natural. El código y los modelos están disponibles en https://interactvlm.is.tue.mpg.de.
El desaprendizaje automático es un enfoque prometedor para mejorar la seguridad de los LLM al eliminar conocimientos no deseados del modelo. Sin embargo, los métodos predominantes de desaprendizaje basados en gradientes presentan problemas como altos costos computacionales, inestabilidad de hiperparámetros, capacidad limitada para el desaprendizaje secuencial, vulnerabilidad a ataques de reaprendizaje, baja eficiencia en el uso de datos y falta de interpretabilidad. Aunque los Autoencoders Dispersos (SAE) son adecuados para mejorar estos aspectos al permitir un desaprendizaje dirigido basado en activaciones, enfoques anteriores han tenido un rendimiento inferior a los métodos basados en gradientes. Este trabajo demuestra que, contrariamente a estos hallazgos previos, los SAE pueden mejorar significativamente el desaprendizaje cuando se emplean de manera dinámica. Introducimos Dynamic DAE Guardrails (DSG), un método novedoso para el desaprendizaje de precisión que aprovecha la selección de características basada en principios y un clasificador dinámico. Nuestros experimentos muestran que DSG supera sustancialmente a los principales métodos de desaprendizaje, logrando un equilibrio superior entre olvido y utilidad. DSG aborda las principales desventajas de los enfoques basados en gradientes para el desaprendizaje, ofreciendo una mayor eficiencia y estabilidad computacional, un rendimiento robusto en el desaprendizaje secuencial, una mayor resistencia a los ataques de reaprendizaje, una mejor eficiencia en el uso de datos, incluidos entornos de cero disparos, y un desaprendizaje más interpretable.