Artículos de investigación en IA seleccionados diariamente con traducciones
La fotometría estéreo universal (PS, por sus siglas en inglés) tiene como objetivo recuperar normales de superficie de alta calidad en objetos bajo condiciones de iluminación arbitrarias, sin depender de modelos de iluminación específicos. A pesar de avances recientes como SDM-UniPS y Uni MS-PS, persisten dos desafíos fundamentales: 1) el acoplamiento profundo entre la iluminación variable y las características de las normales de superficie, donde la ambigüedad en la intensidad observada dificulta determinar si las variaciones de brillo se deben a cambios en la iluminación o a la orientación de la superficie; y 2) la preservación de detalles geométricos de alta frecuencia en superficies complejas, donde geometrías intrincadas generan auto-sombras, inter-reflexiones y variaciones sutiles en las normales que las operaciones convencionales de procesamiento de características tienen dificultades para capturar con precisión.
En este trabajo presentamos OmniGen2, un modelo generativo versátil y de código abierto diseñado para ofrecer una solución unificada para diversas tareas de generación, incluyendo texto-a-imagen, edición de imágenes y generación en contexto. A diferencia de OmniGen v1, OmniGen2 cuenta con dos rutas de decodificación distintas para las modalidades de texto e imagen, utilizando parámetros no compartidos y un tokenizador de imágenes desacoplado. Este diseño permite a OmniGen2 basarse en modelos existentes de comprensión multimodal sin necesidad de readaptar las entradas del VAE, preservando así las capacidades originales de generación de texto. Para facilitar el entrenamiento de OmniGen2, desarrollamos pipelines integrales de construcción de datos, abarcando datos de edición de imágenes y generación en contexto. Además, introducimos un mecanismo de reflexión específico para tareas de generación de imágenes y creamos un conjunto de datos de reflexión dedicado basado en OmniGen2. A pesar de su tamaño de parámetros relativamente modesto, OmniGen2 logra resultados competitivos en múltiples benchmarks de tareas, incluyendo texto-a-imagen y edición de imágenes. Para evaluar aún más la generación en contexto, también conocida como tareas impulsadas por sujetos, introducimos un nuevo benchmark llamado OmniContext. OmniGen2 alcanza un rendimiento de vanguardia entre los modelos de código abierto en términos de consistencia. Publicaremos nuestros modelos, código de entrenamiento, conjuntos de datos y pipeline de construcción de datos para apoyar futuras investigaciones en este campo. Página del proyecto: https://vectorspacelab.github.io/OmniGen2; Enlace de GitHub: https://github.com/VectorSpaceLab/OmniGen2
La generación ultra-larga por parte de los modelos de lenguaje de gran escala (LLMs) es un escenario ampliamente demandado, pero sigue siendo un desafío significativo debido a su límite máximo de longitud de generación y la degradación general de la calidad a medida que aumenta la longitud de la secuencia. Enfoques anteriores, ejemplificados por LongWriter, suelen basarse en la "enseñanza", que implica un ajuste fino supervisado (SFT) en salidas sintéticas de formato largo. Sin embargo, esta estrategia depende en gran medida de datos sintéticos de SFT, que son difíciles y costosos de construir, a menudo carecen de coherencia y consistencia, y tienden a ser excesivamente artificiales y estructuralmente monótonos. En este trabajo, proponemos un enfoque basado en incentivos que, partiendo completamente desde cero y sin depender de datos anotados o sintéticos, aprovecha el aprendizaje por refuerzo (RL) para fomentar la aparición de capacidades de generación de texto ultra-largo y de alta calidad en los LLMs. Realizamos entrenamiento de RL a partir de un modelo base, similar a R1-Zero, guiándolo para que participe en un razonamiento que facilite la planificación y el refinamiento durante el proceso de escritura. Para apoyar esto, empleamos modelos de recompensa especializados que dirigen al LLM hacia un mejor control de la longitud, calidad de escritura y formato estructural. Las evaluaciones experimentales muestran que nuestro modelo LongWriter-Zero, entrenado a partir de Qwen2.5-32B, supera consistentemente los métodos tradicionales de SFT en tareas de escritura de formato largo, logrando resultados de vanguardia en todas las métricas en WritingBench y Arena-Write, e incluso superando modelos de 100B+ como DeepSeek R1 y Qwen3-235B. Hemos liberado nuestros datos y puntos de control del modelo en https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
El Aprendizaje por Refuerzo con Recompensas Verificables (RLVR, por sus siglas en inglés) demuestra un potencial prometedor para avanzar en las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLMs). Sin embargo, su éxito sigue estando principalmente confinado a dominios matemáticos y de código. Esta limitación principal surge de la fuerte dependencia de verificadores específicos del dominio, lo que resulta en una complejidad prohibitiva y una escalabilidad limitada. Para abordar este desafío, nuestra observación clave es que la probabilidad intrínseca de un LLM de generar una respuesta correcta en formato libre indica directamente su propia evaluación de la recompensa de razonamiento (es decir, qué tan bien el proceso de razonamiento conduce a la respuesta correcta). Basándonos en esta idea, proponemos RLPR, un marco simple sin verificadores que extrapola RLVR a dominios generales más amplios. RLPR utiliza las puntuaciones de probabilidad de los tokens del propio LLM para respuestas de referencia como señal de recompensa y maximiza la recompensa esperada durante el entrenamiento. Descubrimos que abordar la alta varianza de esta recompensa de probabilidad ruidosa es crucial para que funcione, y proponemos métodos de conversión de probabilidad a recompensa y de estabilización para garantizar una recompensa precisa y estable a partir de las probabilidades intrínsecas del LLM. Experimentos exhaustivos en cuatro puntos de referencia de dominio general y tres puntos de referencia matemáticos muestran que RLPR mejora consistentemente las capacidades de razonamiento en ambas áreas para modelos basados en Gemma, Llama y Qwen. Notablemente, RLPR supera a VeriFree concurrente en 7.6 puntos en TheoremQA y 7.5 puntos en Minerva, e incluso supera a enfoques fuertes dependientes de modelos verificadores como General-Reasoner en un promedio de 1.6 puntos en siete puntos de referencia.
La Síntesis Dinámica de Nuevas Vistas tiene como objetivo generar vistas fotorrealistas de sujetos en movimiento desde perspectivas arbitrarias. Esta tarea es particularmente desafiante cuando se depende de video monocular, donde separar la estructura del movimiento es un problema mal planteado y la supervisión es escasa. Presentamos Video Diffusion-Aware Reconstruction (ViDAR), un novedoso marco de reconstrucción 4D que aprovecha modelos de difusión personalizados para sintetizar una señal de supervisión pseudo multi-vista para entrenar una representación basada en splatting gaussiano. Al condicionar en características específicas de la escena, ViDAR recupera detalles de apariencia de grano fino mientras mitiga los artefactos introducidos por la ambigüedad monocular. Para abordar la inconsistencia espacio-temporal de la supervisión basada en difusión, proponemos una función de pérdida consciente de la difusión y una estrategia de optimización de la pose de la cámara que alinea las vistas sintéticas con la geometría subyacente de la escena. Los experimentos en DyCheck, un punto de referencia desafiante con variaciones extremas de perspectiva, muestran que ViDAR supera a todas las líneas base de última generación en calidad visual y consistencia geométrica. Además, destacamos la fuerte mejora de ViDAR sobre las líneas base en regiones dinámicas y proporcionamos un nuevo punto de referencia para comparar el rendimiento en la reconstrucción de partes de la escena ricas en movimiento. Página del proyecto: https://vidar-4d.github.io
Recientemente, la IA Agente se ha convertido en un campo de investigación cada vez más popular. Sin embargo, argumentamos que las prácticas actuales de investigación en agentes carecen de estandarización y rigor científico, lo que dificulta realizar comparaciones justas entre métodos. Como resultado, aún no está claro cómo las diferentes decisiones de diseño en los marcos de agentes afectan su efectividad, y medir su progreso sigue siendo un desafío. En este trabajo, realizamos un estudio empírico sistemático en los benchmarks GAIA y BrowseComp para examinar el impacto de las decisiones de diseño populares en los componentes clave de los agentes de manera justa y rigurosa. Descubrimos que la falta de un protocolo de evaluación estándar hace que trabajos anteriores, incluso aquellos de código abierto, no sean reproducibles, con una variación significativa entre ejecuciones aleatorias. Por lo tanto, introducimos un protocolo de evaluación más robusto para estabilizar las comparaciones. Nuestro estudio revela qué componentes y diseños son cruciales para agentes efectivos, mientras que otros son redundantes, a pesar de parecer lógicos. Basándonos en nuestros hallazgos, construimos y publicamos OAgents, un nuevo marco de agente base que logra un rendimiento de vanguardia entre los proyectos de código abierto. OAgents ofrece un diseño modular para varios componentes de agentes, promoviendo futuras investigaciones en IA Agente.
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) han surgido recientemente como un marco poderoso para supervisar los pasos intermedios de razonamiento en modelos de lenguaje de gran escala (LLMs). Los PRMs anteriores se entrenan principalmente en las respuestas finales del modelo y tienen dificultades para evaluar de manera robusta las trayectorias de pensamiento intermedias, especialmente en el contexto emergente de salidas de trayectoria-respuesta generadas por modelos de razonamiento de vanguardia como Deepseek-R1. En este trabajo, presentamos ReasonFlux-PRM, un PRM novedoso y consciente de la trayectoria, diseñado explícitamente para evaluar el tipo de trazas de razonamiento de trayectoria-respuesta. ReasonFlux-PRM incorpora supervisión tanto a nivel de paso como de trayectoria, permitiendo la asignación de recompensas de grano fino alineadas con datos estructurados de cadena de pensamiento. Adaptamos ReasonFlux-PRM para admitir supervisión de recompensas en entornos tanto fuera de línea como en línea, incluyendo (i) la selección de datos de alta calidad para la destilación de modelos en el ajuste fino supervisado de modelos más pequeños, (ii) la provisión de recompensas densas a nivel de proceso para la optimización de políticas durante el aprendizaje por refuerzo, y (iii) la habilitación de escalado en tiempo de prueba guiado por recompensas Best-of-N. Los resultados empíricos en benchmarks desafiantes como AIME, MATH500 y GPQA-Diamond demuestran que ReasonFlux-PRM-7B selecciona datos de mayor calidad que PRMs potentes (por ejemplo, Qwen2.5-Math-PRM-72B) y líneas base curadas por humanos. Además, nuestro ReasonFlux-PRM-7B derivado produce mejoras consistentes en el rendimiento, logrando ganancias promedio del 12.1% en ajuste fino supervisado, 4.5% en aprendizaje por refuerzo y 6.3% en escalado en tiempo de prueba. También lanzamos nuestro eficiente ReasonFlux-PRM-1.5B para aplicaciones con recursos limitados y despliegue en el borde. Proyectos: https://github.com/Gen-Verse/ReasonFlux
La generación de sujeto a video ha experimentado avances significativos en los últimos años. Sin embargo, los modelos existentes aún enfrentan desafíos importantes para seguir fielmente las instrucciones textuales. Esta limitación, comúnmente conocida como el problema de copiar y pegar, surge del paradigma de entrenamiento en pares ampliamente utilizado. Este enfoque inherentemente entrelaza la identidad del sujeto con los atributos de fondo y contextuales al muestrear imágenes de referencia de la misma escena que el video objetivo. Para abordar este problema, presentamos Phantom-Data, el primer conjunto de datos de consistencia de sujeto a video de propósito general entre pares cruzados, que contiene aproximadamente un millón de pares con identidad consistente en diversas categorías. Nuestro conjunto de datos se construye mediante una canalización de tres etapas: (1) un módulo de detección de sujetos general y alineado con la entrada, (2) recuperación de sujetos a gran escala en contextos cruzados a partir de más de 53 millones de videos y 3 mil millones de imágenes, y (3) verificación de identidad guiada por prioridades para garantizar la consistencia visual bajo variación contextual. Experimentos exhaustivos muestran que el entrenamiento con Phantom-Data mejora significativamente la alineación con las indicaciones y la calidad visual, al mismo tiempo que preserva la consistencia de la identidad a la par con las líneas base en pares.
Este artículo presenta un marco multimodal que busca unificar la comprensión y generación visual dentro de una representación semántica discreta compartida. En su núcleo se encuentra el Tokenizador Alineado con Texto (TA-Tok), que convierte imágenes en tokens discretos utilizando un libro de códigos alineado con texto, proyectado desde el vocabulario de un modelo de lenguaje grande (LLM). Al integrar visión y texto en un espacio unificado con un vocabulario expandido, nuestro LLM multimodal, Tar, permite entradas y salidas cruzadas a través de una interfaz compartida, sin necesidad de diseños específicos para cada modalidad. Además, proponemos codificación y decodificación adaptativas a escala para equilibrar la eficiencia y el detalle visual, junto con un de-tokenizador generativo para producir salidas visuales de alta fidelidad. Para abordar diversas necesidades de decodificación, utilizamos dos de-tokenizadores complementarios: un modelo autorregresivo rápido y un modelo basado en difusión. Para mejorar la fusión de modalidades, investigamos tareas avanzadas de pre-entrenamiento, demostrando mejoras tanto en la comprensión como en la generación visual. Los experimentos en diversos benchmarks muestran que Tar iguala o supera los métodos existentes de LLM multimodal, logrando una convergencia más rápida y una mayor eficiencia en el entrenamiento. El código, modelos y datos están disponibles en https://tar.csuhan.com.
Proponemos un novedoso mecanismo de memoria para construir generadores de video que puedan explorar entornos de manera interactiva. Resultados similares se han logrado previamente mediante la técnica de "out-painting" de vistas 2D de la escena mientras se reconstruye incrementalmente su geometría 3D, lo que acumula errores rápidamente, o mediante generadores de video con una ventana de contexto corta, que tienen dificultades para mantener la coherencia de la escena a largo plazo. Para abordar estas limitaciones, introducimos Surfel-Indexed View Memory (VMem), un mecanismo que recuerda vistas pasadas indexándolas geométricamente en función de los elementos de superficie 3D (surfels) que han observado. VMem permite la recuperación eficiente de las vistas pasadas más relevantes al generar nuevas vistas. Al centrarse únicamente en estas vistas relevantes, nuestro método produce exploraciones consistentes de entornos imaginados con una fracción del costo computacional de utilizar todas las vistas pasadas como contexto. Evaluamos nuestro enfoque en benchmarks desafiantes de síntesis de escenas a largo plazo y demostramos un rendimiento superior en comparación con los métodos existentes en términos de mantener la coherencia de la escena y el control de la cámara.
Presentamos DIP, un novedoso método no supervisado de post-entrenamiento diseñado para mejorar las representaciones densas de imágenes en codificadores de visión preentrenados a gran escala para la comprensión de escenas en contexto. A diferencia de enfoques previos que dependen de arquitecturas complejas de auto-distilación, nuestro método entrena el codificador de visión utilizando pseudo-tareas que simulan explícitamente escenarios en contexto posteriores, inspirados en principios de meta-aprendizaje. Para permitir el post-entrenamiento con datos no etiquetados, proponemos un mecanismo automático para generar tareas en contexto que combina un modelo de difusión preentrenado y el propio codificador de visión. DIP es simple, no supervisado y computacionalmente eficiente, requiriendo menos de 9 horas en una sola GPU A100. Al aprender representaciones densas a través de pseudo-tareas en contexto, logra un rendimiento sólido en una amplia variedad de tareas posteriores de comprensión de escenas en contexto del mundo real. Supera tanto al codificador de visión inicial como a métodos previos, ofreciendo una solución práctica y efectiva para mejorar las representaciones densas. Código disponible aquí: https://github.com/sirkosophia/DIP.
Presentamos RealPlay, un motor de juegos basado en redes neuronales que permite la generación interactiva de videos a partir de señales de control del usuario. A diferencia de trabajos previos centrados en gráficos de estilo de juego, RealPlay tiene como objetivo producir secuencias de video fotorrealistas y temporalmente consistentes que se asemejen a imágenes del mundo real. Opera en un bucle interactivo: los usuarios observan una escena generada, emiten un comando de control y reciben un fragmento de video corto como respuesta. Para habilitar una generación tan realista y receptiva, abordamos desafíos clave, como la predicción iterativa por fragmentos para retroalimentación de baja latencia, la consistencia temporal entre iteraciones y la respuesta precisa al control. RealPlay se entrena con una combinación de datos etiquetados de juegos y videos del mundo real sin etiquetar, sin requerir anotaciones de acciones del mundo real. Es notable observar dos formas de generalización: (1) transferencia de control—RealPlay mapea eficazmente las señales de control de escenarios virtuales a escenarios del mundo real; y (2) transferencia de entidades—aunque las etiquetas de entrenamiento provienen únicamente de un juego de carreras de autos, RealPlay generaliza el control a diversas entidades del mundo real, incluyendo bicicletas y peatones, más allá de vehículos. La página del proyecto se puede encontrar en: https://wenqsun.github.io/RealPlay/.
La creación de perfiles de usuarios es fundamental para los sistemas de recomendación, ya que transforma los datos brutos de interacción del usuario en representaciones concisas y estructuradas que impulsan recomendaciones personalizadas. Si bien los perfiles tradicionales basados en embeddings carecen de interpretabilidad y adaptabilidad, los avances recientes con modelos de lenguaje de gran escala (LLMs) permiten perfiles basados en texto que son semánticamente más ricos y transparentes. Sin embargo, los métodos existentes suelen adherirse a formatos fijos que limitan su capacidad para capturar la diversidad completa de los comportamientos de los usuarios. En este artículo, presentamos LettinGo, un marco novedoso para generar perfiles de usuarios diversos y adaptativos. Al aprovechar el poder expresivo de los LLMs e incorporar retroalimentación directa de las tareas de recomendación posteriores, nuestro enfoque evita las restricciones rígidas impuestas por el ajuste fino supervisado (SFT). En su lugar, empleamos la Optimización Directa de Preferencias (DPO) para alinear el generador de perfiles con el rendimiento específico de la tarea, asegurando que los perfiles permanezcan adaptativos y efectivos. LettinGo opera en tres etapas: (1) exploración de perfiles de usuarios diversos mediante múltiples LLMs, (2) evaluación de la calidad de los perfiles basada en su impacto en los sistemas de recomendación, y (3) alineación de la generación de perfiles a través de datos de preferencias por pares derivados del rendimiento de la tarea. Los resultados experimentales demuestran que nuestro marco mejora significativamente la precisión, flexibilidad y conciencia contextual de las recomendaciones. Este trabajo mejora la generación de perfiles como una innovación clave para los sistemas de recomendación de próxima generación.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) han comenzado a demostrar capacidades de razonamiento robustas en tareas generales, aunque su aplicación en el ámbito médico sigue en sus etapas iniciales. La construcción de datos de entrenamiento de cadena de pensamiento (CoT, por sus siglas en inglés) es esencial para fortalecer las habilidades de razonamiento de los MLLMs médicos. Sin embargo, los enfoques existentes presentan una deficiencia al no ofrecer un marco integral para buscar y evaluar rutas de razonamiento efectivas hacia diagnósticos críticos. Para abordar este desafío, proponemos Mentor-Intern Collaborative Search (MICS), un esquema novedoso de búsqueda de rutas de razonamiento para generar datos médicos CoT rigurosos y efectivos. MICS primero aprovecha los modelos mentores para inicializar el razonamiento, paso a paso, luego solicita a cada modelo interno que continúe el pensamiento a lo largo de esas rutas iniciadas, y finalmente selecciona la ruta de razonamiento óptima según el rendimiento general de razonamiento de múltiples modelos internos. El rendimiento del razonamiento se determina mediante una puntuación MICS, que evalúa la calidad de las rutas de razonamiento generadas. Finalmente, construimos MMRP, un conjunto de datos de razonamiento médico multitarea con dificultad clasificada, y Chiron-o1, un nuevo MLLM médico diseñado mediante una estrategia de aprendizaje curricular, con capacidades robustas de respuesta visual a preguntas y razonamiento generalizable. Experimentos extensos demuestran que Chiron-o1, entrenado en nuestro conjunto de datos CoT construido utilizando MICS, logra un rendimiento de vanguardia en una lista de benchmarks de respuesta visual a preguntas y razonamiento médico. Los códigos están disponibles en GitHub - manglu097/Chiron-o1: Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs.
Proponemos el primer marco capaz de calcular una cuadrícula espacio-temporal 4D de fotogramas de video y partículas Gaussianas 3D para cada paso de tiempo utilizando una arquitectura de avance. Nuestra arquitectura consta de dos componentes principales: un modelo de video 4D y un modelo de reconstrucción 4D. En la primera parte, analizamos las arquitecturas actuales de difusión de video 4D que realizan atención espacial y temporal de manera secuencial o en paralelo dentro de un diseño de dos flujos. Destacamos las limitaciones de los enfoques existentes e introducimos una arquitectura fusionada novedosa que realiza atención espacial y temporal dentro de una sola capa. La clave de nuestro método es un patrón de atención disperso, donde los tokens atienden a otros en el mismo fotograma, en el mismo instante de tiempo o desde el mismo punto de vista. En la segunda parte, extendemos los algoritmos de reconstrucción 3D existentes mediante la introducción de una cabeza Gaussiana, un algoritmo de reemplazo de tokens de cámara y capas dinámicas adicionales junto con entrenamiento. En general, establecemos un nuevo estado del arte para la generación 4D, mejorando tanto la calidad visual como la capacidad de reconstrucción.
La evaluación de modelos generativos 3D sigue siendo un desafío debido a la desalineación entre las métricas automatizadas y la percepción humana de la calidad. Los puntos de referencia actuales dependen de métricas basadas en imágenes que ignoran la estructura 3D o de medidas geométricas que no logran capturar el atractivo perceptual y la utilidad en el mundo real. Para abordar esta brecha, presentamos 3D Arena, una plataforma abierta para evaluar modelos de generación de imagen a 3D mediante la recopilación a gran escala de preferencias humanas utilizando comparaciones por pares. Desde su lanzamiento en junio de 2024, la plataforma ha recopilado 123,243 votos de 8,096 usuarios en 19 modelos de última generación, estableciendo la evaluación de preferencias humanas más grande para la generación 3D. Contribuimos con el conjunto de datos iso3d de 100 indicaciones de evaluación y demostramos un control de calidad que alcanza un 99.75% de autenticidad del usuario mediante detección estadística de fraudes. Nuestro sistema de clasificación basado en ELO proporciona una evaluación confiable de los modelos, consolidando la plataforma como un recurso establecido de evaluación. A través del análisis de estos datos de preferencia, presentamos insights sobre los patrones de preferencia humana. Nuestros hallazgos revelan preferencias por características de presentación visual, con salidas de splat gaussiano obteniendo una ventaja de 16.6 ELO sobre mallas, y modelos texturizados recibiendo una ventaja de 144.1 ELO sobre modelos sin textura. Ofrecemos recomendaciones para mejorar los métodos de evaluación, incluyendo la evaluación multicriterio, la evaluación orientada a tareas y la comparación consciente del formato. El compromiso de la comunidad con la plataforma establece a 3D Arena como un punto de referencia en el campo, al mismo tiempo que avanza la comprensión de la evaluación centrada en el ser humano en la generación 3D.
La arquitectura Mixture of Experts (MoE) ha surgido como un paradigma poderoso para escalar modelos de lenguaje grandes (LLMs) manteniendo la eficiencia en la inferencia. Sin embargo, sus enormes requisitos de memoria los hacen prohibitivamente costosos de ajustar o desplegar en entornos con recursos limitados. Para abordar este desafío, presentamos SlimMoE, un marco de compresión multi-etapa que transforma modelos MoE grandes en variantes mucho más pequeñas y eficientes sin incurrir en los costos prohibitivos de entrenar desde cero. Nuestro método reduce sistemáticamente el número de parámetros mediante la reducción de expertos y la transferencia de conocimiento a través de etapas intermedias, mitigando efectivamente la degradación del rendimiento común en enfoques de poda de una sola vez. Utilizando este marco, comprimimos Phi 3.5-MoE (41.9B parámetros totales/6.6B parámetros activados) para crear Phi-mini-MoE (7.6B totales/2.4B activados) y Phi-tiny-MoE (3.8B totales/1.1B activados) usando solo 400B tokens—menos del 10% de los datos de entrenamiento del modelo original. Estos modelos comprimidos pueden ajustarse en una sola GPU (A100 para Phi-mini-MoE, A6000 para Phi-tiny-MoE), lo que los hace altamente adecuados para entornos académicos y con recursos limitados. Nuestros experimentos demuestran que estos modelos comprimidos superan a otros de tamaño similar y se mantienen competitivos con modelos más grandes. Por ejemplo, Phi-mini-MoE logra un rendimiento similar o mejor que Phi-3-mini usando solo 2/3 de los parámetros activados y obtiene puntajes MMLU comparables a Llama 3.1 8B a pesar de tener una latencia significativamente menor. Nuestros hallazgos demuestran que la poda estructurada combinada con destilación por etapas ofrece un camino efectivo para crear modelos MoE compactos y de alta calidad, allanando el camino para una adopción más amplia de las arquitecturas MoE. Hacemos nuestros modelos disponibles públicamente en https://huggingface.co/microsoft/Phi-mini-MoE-instruct y https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.
Este artículo presenta FinCoT, un enfoque estructurado de cadena de pensamiento (CoT, por sus siglas en inglés) que incorpora conocimientos del razonamiento experto en el dominio financiero para guiar los rastros de razonamiento de los modelos de lenguaje grandes. Investigamos que existen tres estilos principales de "prompting" en FinNLP: (1) "prompting" estándar—"zero-shot prompting"; (2) CoT no estructurado—"prompting" CoT sin una estructura de razonamiento explícita, como el uso de etiquetas; y (3) "prompting" CoT estructurado—"prompting" CoT con instrucciones o ejemplos explícitos que definen pasos de razonamiento estructurados. Anteriormente, FinNLP se ha centrado principalmente en la ingeniería de "prompts" utilizando "prompting" estándar o CoT no estructurado. Sin embargo, el "prompting" CoT estructurado ha recibido poca atención en trabajos previos. Además, el diseño de estructuras de razonamiento en el "prompting" CoT estructurado a menudo se basa en heurísticas de expertos no especializados en el dominio. En este estudio, investigamos cada enfoque de "prompting" en FinNLP. Evaluamos los tres estilos principales de "prompting" y FinCoT en preguntas de estilo CFA que abarcan diez dominios financieros. Observamos que FinCoT mejora el rendimiento de 63.2% a 80.5% y de Qwen-2.5-7B-Instruct de 69.7% a 74.2%, mientras reduce los tokens generados ocho veces en comparación con el "prompting" CoT estructurado. Nuestros hallazgos muestran que los "prompts" estructurados alineados con el dominio no solo mejoran el rendimiento y reducen los costos de inferencia, sino que también producen rastros de razonamiento más interpretables y alineados con el razonamiento experto.
La edición de iluminación en videos largos con dinámicas complejas tiene un valor significativo en diversas tareas posteriores, incluyendo la creación y manipulación de contenido visual, así como la ampliación de datos para la IA encarnada a través de transferencias sim2real y real2real. Sin embargo, las técnicas existentes de reiluminación de videos están predominantemente limitadas a videos de retratos o caen en el cuello de botella de la consistencia temporal y la eficiencia computacional. En este artículo, proponemos TC-Light, un nuevo paradigma caracterizado por el mecanismo de optimización posterior en dos etapas propuesto. Partiendo del video preliminarmente reiluminado por un modelo inflado de reiluminación de video, optimiza la incrustación de apariencia en la primera etapa para alinear la iluminación global. Luego, optimiza la representación canónica de video propuesta, es decir, el Tensor de Video Único (UVT), para alinear la textura y la iluminación detallada en la segunda etapa. Para evaluar de manera integral el rendimiento, también establecemos un punto de referencia de videos largos y altamente dinámicos. Experimentos extensos muestran que nuestro método permite resultados de reiluminación físicamente plausibles con una coherencia temporal superior y un bajo costo computacional. El código y las demostraciones en video están disponibles en https://dekuliutesla.github.io/tclight/.
DeepSeek-R1 ha logrado mejorar las capacidades de razonamiento de los Modelos de Lenguaje de Gran Escala (LLM) mediante su sistema de recompensas basado en reglas. Aunque se trata de un sistema de recompensas "perfecto" que mitiga eficazmente el hackeo de recompensas, estas funciones de recompensa suelen ser discretas. Nuestras observaciones experimentales sugieren que las recompensas discretas pueden provocar anomalías en el gradiente, optimización inestable y convergencia lenta. Para abordar este problema, proponemos ReDit (Reward Dithering), un método que modula la señal de recompensa discreta añadiendo ruido aleatorio simple. Con esta recompensa perturbada, se proporcionan gradientes exploratorios de manera continua durante el proceso de aprendizaje, permitiendo actualizaciones de gradiente más suaves y acelerando la convergencia. El ruido inyectado también introduce estocasticidad en regiones de recompensa plana, incentivando al modelo a explorar políticas novedosas y escapar de óptimos locales. Los experimentos en diversas tareas demuestran la eficacia y eficiencia de ReDit. En promedio, ReDit alcanza un rendimiento comparable al GRPO estándar con solo aproximadamente el 10% de los pasos de entrenamiento, y además, muestra una mejora del 4% en el rendimiento sobre el GRPO estándar cuando se entrena durante un período similar. Las visualizaciones confirman una mitigación significativa de los problemas de gradiente con ReDit. Además, se proporcionan análisis teóricos para validar aún más estas ventajas.
El reciente cambio en las aplicaciones de IA Generativa (GenAI) desde entornos exclusivos en la nube hacia dispositivos de usuario final introduce nuevos desafíos en la gestión de recursos, eficiencia del sistema y experiencia del usuario. Este artículo presenta ConsumerBench, un marco de evaluación integral diseñado para medir la eficiencia del sistema y el tiempo de respuesta de modelos GenAI ejecutándose en dispositivos de usuario final. A diferencia de los puntos de referencia existentes que asumen acceso exclusivo a modelos en GPUs dedicadas, ConsumerBench simula escenarios realistas de múltiples aplicaciones ejecutándose concurrentemente en hardware limitado. Además, ConsumerBench admite flujos de trabajo personalizables que simulan tareas complejas que requieren coordinación entre múltiples aplicaciones. ConsumerBench captura tanto métricas a nivel de aplicación, incluyendo latencia y cumplimiento de Objetivos de Nivel de Servicio (SLO), como métricas a nivel de sistema, como utilización de CPU/GPU y ancho de banda de memoria. A través de experimentos exhaustivos, ConsumerBench revela ineficiencias en el uso compartido de recursos, asignación injusta bajo estrategias de asignación codiciosa y problemas de rendimiento en configuraciones estáticas de servidores de modelos. El artículo también ofrece ideas prácticas para desarrolladores de modelos y diseñadores de sistemas, destacando los beneficios de kernels personalizados adaptados a arquitecturas GPU de consumo y el valor de implementar estrategias de planificación conscientes de los SLO.
Los modelos de recompensa (RMs) son fundamentales para alinear los Modelos de Lenguaje de Gran Escala (LLMs) mediante retroalimentación humana, pero a menudo sufren de manipulación de recompensas. Tienden a enfocarse en atributos superficiales o espurios, como la longitud o el formato de la respuesta, confundiendo estas señales aprendidas de correlaciones en los datos de entrenamiento con los verdaderos factores causales de calidad (por ejemplo, factualidad, relevancia). Esto ocurre porque los objetivos estándar de entrenamiento tienen dificultades para separar estos factores, lo que lleva a RMs frágiles y políticas desalineadas. Presentamos Crome (Modelado de Recompensas Causalmente Robusto), un marco novedoso basado en un modelo causal explícito diseñado para mitigar la manipulación de recompensas. Crome emplea las siguientes aumentaciones sintéticas dirigidas durante el entrenamiento: (1) Aumentaciones Causales, que son pares que difieren en atributos causales específicos, para reforzar la sensibilidad a cada atributo causal individualmente, y (2) Aumentaciones Neutrales, que son pares con etiquetas de empate que varían principalmente en atributos espurios, para reforzar la invarianza en atributos espurios. Es notable que nuestras aumentaciones se producen sin ningún conocimiento de factores espurios, mediante intervenciones en respuestas solo a lo largo de rúbricas causales, que se identifican consultando un LLM oráculo. Empíricamente, Crome supera significativamente a los baselines estándar en RewardBench, mejorando la precisión promedio hasta en un 5.4% y logrando ganancias de hasta 13.2% y 7.2% en categorías específicas. La robustez de Crome se ve aún más respaldada por las ganancias consistentes obtenidas en un escenario de inferencia Best-of-N a medida que aumenta N, en varios benchmarks, incluyendo el popular RewardBench (que cubre tareas de chat, chat-hard, seguridad y razonamiento), el WildGuardTest centrado en seguridad y el GSM8k específico para razonamiento.
Este trabajo examina si la activación de subespacios latentes en modelos de lenguaje (LLMs) puede dirigir la generación de código científico hacia un lenguaje de programación específico. Primero se evaluaron cinco LLMs causales en tareas de codificación científica para cuantificar su sesgo inicial entre cuatro lenguajes de programación. Un método estático de atribución de neuronas, que perturba el peso MLP más activado para un token de C++ o CPP, resultó frágil y mostró una generalización limitada entre estilos de prompts y escalas de modelos. Para abordar estas limitaciones, se desarrolló un marco de activación adaptativa refinado por gradientes (G-ACT): las diferencias de activación por prompt se agrupan en un pequeño conjunto de direcciones de guía, y se entrenan y refinan en línea sondas ligeras por capa para seleccionar el vector de guía adecuado. En LLaMA-3.2 3B, este enfoque sesga de manera confiable la generación hacia el lenguaje CPP, aumentando la precisión promedio de clasificación de las sondas en un 15% y mejorando la precisión de clasificación de las sondas en las capas iniciales (0-6) en un 61.5% en comparación con el marco ACT estándar. Para LLaMA-3.3 70B, donde las señales de las cabezas de atención se vuelven más difusas, las inyecciones dirigidas en capas clave aún mejoran la selección del lenguaje. Aunque el sondeo por capa introduce un modesto sobrecosto en la inferencia, sigue siendo práctico al guiar solo un subconjunto de capas y permite un comportamiento reproducible del modelo. Estos resultados demuestran un mecanismo escalable, interpretable y eficiente para el control a nivel de concepto en sistemas agentes prácticos.
La generación de imágenes multivista a partir de instrucciones humanas es crucial para la creación de contenido 3D. Los principales desafíos incluyen mantener la consistencia entre múltiples vistas y sintetizar eficazmente formas y texturas bajo diversas condiciones. En este artículo, proponemos el método Auto-Regresivo Multivista (MV-AR), que aprovecha un modelo auto-regresivo para generar progresivamente imágenes multivista consistentes a partir de indicaciones arbitrarias. En primer lugar, la capacidad de predicción del siguiente token del modelo AR mejora significativamente su eficacia en la síntesis progresiva multivista. Al generar vistas ampliamente separadas, MV-AR puede utilizar todas sus vistas anteriores para extraer información de referencia efectiva. Posteriormente, proponemos un modelo unificado que acomoda diversas indicaciones mediante el diseño de arquitectura y estrategias de entrenamiento. Para abordar múltiples condiciones, introducimos módulos de inyección de condiciones para texto, pose de cámara, imagen y forma. Para gestionar condiciones multimodales simultáneamente, se emplea una estrategia de entrenamiento progresivo. Esta estrategia adopta inicialmente el modelo de texto a multivista (t2mv) como línea base para mejorar el desarrollo de un modelo integral de X a multivista (X2mv) mediante la eliminación y combinación aleatoria de condiciones. Finalmente, para mitigar el problema de sobreajuste causado por datos de alta calidad limitados, proponemos la técnica de aumento de datos "Shuffle View", expandiendo significativamente los datos de entrenamiento en varios órdenes de magnitud. Los experimentos demuestran el rendimiento y la versatilidad de nuestro MV-AR, que genera consistentemente imágenes multivista coherentes en un rango de condiciones y se desempeña a la par con los principales modelos de generación de imágenes multivista basados en difusión. El código y los modelos se publicarán en https://github.com/MILab-PKU/MVAR.
Los Autoencoders Escasos (SAEs, por sus siglas en inglés) han surgido como una solución prometedora para descomponer las representaciones de los modelos de lenguaje extensos en características interpretables. Sin embargo, Paulo y Belrose (2025) han destacado la inestabilidad en diferentes semillas de inicialización, y Heap et al. (2025) han señalado que los SAEs podrían no capturar las características internas del modelo. Estos problemas probablemente se originan al entrenar SAEs en conjuntos de datos externos, ya sea recopilados de la Web o generados por otro modelo, que pueden contener datos fuera de distribución (OOD, por sus siglas en inglés) más allá de las capacidades de generalización del modelo. Esto puede resultar en características de SAE alucinadas, a las que denominamos "Características Falsas", que tergiversan las activaciones internas del modelo. Para abordar estos problemas, proponemos FaithfulSAE, un método que entrena SAEs en un conjunto de datos sintéticos generados por el propio modelo. Utilizando FaithfulSAEs, demostramos que entrenar SAEs en conjuntos de datos de instrucciones con menos OOD resulta en SAEs más estables entre semillas. Cabe destacar que los FaithfulSAEs superan a los SAEs entrenados en conjuntos de datos basados en la Web en la tarea de sondeo de SAE y exhiben una menor proporción de Características Falsas en 5 de 7 modelos. En general, nuestro enfoque elimina la dependencia de conjuntos de datos externos, avanzando en la interpretabilidad al capturar mejor las características internas del modelo, al tiempo que resalta la importancia frecuentemente descuidada de los conjuntos de datos de entrenamiento de SAEs.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) se utilizan cada vez más en aplicaciones que requieren contextos largos, pero la caché de clave-valor (KV) suele convertirse en un cuello de botella de memoria en las GPU a medida que el contexto crece. Para abordar este problema, proponemos la Cuantización Vectorial Conmutativa (CommVQ) para reducir significativamente el uso de memoria en la inferencia de LLMs con contextos largos. Primero, introducimos la cuantización aditiva con un codificador ligero y un libro de códigos para comprimir la caché KV, la cual puede decodificarse mediante una simple multiplicación de matrices. Para reducir aún más los costos computacionales durante la decodificación, diseñamos el libro de códigos para que sea conmutativo con la Incrustación de Posición Rotatoria (RoPE) y lo entrenamos utilizando un algoritmo de Expectation-Maximization (EM). Esto permite una integración eficiente de la decodificación en el mecanismo de auto-atención. Nuestro enfoque logra alta precisión con cuantización aditiva y bajo sobrecosto gracias al libro de códigos conmutativo con RoPE. Los experimentos en benchmarks de contextos largos y GSM8K muestran que nuestro método reduce el tamaño de la caché KV en FP16 en un 87.5% con cuantización de 2 bits, superando a los métodos de cuantización de caché KV más avanzados. Destacablemente, permite la cuantización de 1 bit en la caché KV con una pérdida mínima de precisión, permitiendo que un modelo LLaMA-3.1 8B funcione con un contexto de 128K en una sola GPU RTX 4090. El código fuente está disponible en: https://github.com/UMass-Embodied-AGI/CommVQ.
A pesar de sus impresionantes capacidades, los modelos de lenguaje grandes alineados (LLMs, por sus siglas en inglés) a menudo generan resultados que carecen de diversidad. ¿Qué impulsa esta estabilidad en la generación? Investigamos este fenómeno a través del lente de la concentración de probabilidad en la distribución de salida del modelo. Para cuantificar esta concentración, introducimos el Factor de Ramificación (BF, por sus siglas en inglés) —una medida invariante de tokens que evalúa el número efectivo de pasos plausibles siguientes durante la generación. Nuestro análisis empírico revela dos hallazgos clave: (1) el BF a menudo disminuye a medida que avanza la generación, lo que sugiere que los LLMs se vuelven más predecibles a medida que generan. (2) el ajuste de alineación agudiza sustancialmente la distribución de salida del modelo desde el principio, reduciendo el BF en casi un orden de magnitud (por ejemplo, de 12 a 1.2) en comparación con los modelos base. Esta reducción drástica ayuda a explicar por qué los modelos alineados a menudo parecen menos sensibles a las estrategias de decodificación. Basándonos en esta idea, encontramos que esta estabilidad tiene implicaciones sorprendentes para el razonamiento complejo. Los modelos alineados de Cadena de Pensamiento (CoT, por sus siglas en inglés) (por ejemplo, los modelos destilados de DeepSeek), por ejemplo, aprovechan este efecto; al generar cadenas de razonamiento más largas, llevan la generación a etapas posteriores, más deterministas (con BF más bajo), lo que resulta en salidas más estables. Hipotetizamos que el ajuste de alineación no cambia fundamentalmente el comportamiento de un modelo, sino que lo dirige hacia tokens estilísticos (por ejemplo, "Claro") que desbloquean trayectorias de baja entropía ya presentes en el modelo base. Esta visión está respaldada por experimentos de empuje, que muestran que al incitar a los modelos base con dichos tokens se puede reducir el BF de manera similar. En conjunto, nuestros hallazgos establecen el BF como una herramienta diagnóstica poderosa para comprender y controlar las salidas de los LLMs —aclarando cómo la alineación reduce la variabilidad, cómo el CoT promueve generaciones estables y cómo los modelos base pueden ser dirigidos lejos de la diversidad.
La detección de código generado por IA, deepfakes y otro contenido sintético es un desafío de investigación emergente. A medida que el código generado por modelos de lenguaje de gran escala (LLMs) se vuelve más común, identificar el modelo específico detrás de cada muestra es cada vez más importante. Este artículo presenta el primer estudio sistemático de atribución de autoría de LLMs para programas en C. Lanzamos CodeT5-Authorship, un modelo novedoso que utiliza únicamente las capas del codificador de la arquitectura original de codificador-decodificador de CodeT5, descartando el decodificador para centrarse en la clasificación. La salida del codificador de nuestro modelo (primer token) se pasa a través de una cabeza de clasificación de dos capas con activación GELU y dropout, produciendo una distribución de probabilidad sobre los posibles autores. Para evaluar nuestro enfoque, introducimos LLM-AuthorBench, un benchmark de 32,000 programas en C compilables generados por ocho LLMs de última generación en diversas tareas. Comparamos nuestro modelo con siete clasificadores tradicionales de aprendizaje automático y ocho modelos de transformadores ajustados, incluyendo BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer y Qwen2-1.5B ajustado con LoRA. En clasificación binaria, nuestro modelo alcanza un 97.56% de precisión al distinguir programas en C generados por modelos estrechamente relacionados como GPT-4.1 y GPT-4o, y un 95.40% de precisión en la atribución multiclase entre cinco LLMs líderes (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 y DeepSeek-V3). Para apoyar la ciencia abierta, publicamos la arquitectura de CodeT5-Authorship, el benchmark LLM-AuthorBench y todos los scripts relevantes de Google Colab en GitHub: https://github.com/LLMauthorbench/.
Los recientes Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) destacan en tareas de referencia de visión y lenguaje, pero se sabe poco sobre cómo la calidad visual de las entradas influye en sus respuestas. ¿Se traduce una mayor calidad perceptual de las imágenes en una mejor comprensión por parte de los MLLMs? Realizamos el primer estudio sistemático que abarca los principales MLLMs y un conjunto de benchmarks de visión y lenguaje, aplicando degradaciones controladas y cambios estilísticos a cada imagen. Sorprendentemente, descubrimos una paradoja de calidad visual: el rendimiento del modelo, la tarea e incluso instancias individuales pueden mejorar cuando las imágenes se desvían de la fidelidad percibida por los humanos. Las pipelines de restauración estándar no logran reconciliar estas preferencias idiosincrásicas. Para cerrar esta brecha, introducimos el Ajuste en Tiempo de Prueba de Calidad Visual (VQ-TTT, por sus siglas en inglés), un módulo de adaptación ligero que: (1) inserta un núcleo de bajo rango y aprendible antes del codificador visual congelado para modular el contenido de frecuencia; y (2) ajusta finamente solo las capas superficiales del codificador visual mediante LoRA. VQ-TTT ajusta dinámicamente cada imagen de entrada en un único paso hacia adelante, alineándola con las preferencias específicas del modelo para la tarea. En todos los MLLMs evaluados y en todos los conjuntos de datos, VQ-TTT aumenta significativamente la precisión promedio, sin necesidad de modelos externos, características almacenadas en caché o datos de entrenamiento adicionales. Estos hallazgos redefinen lo que significa una entrada visual "mejor" para los MLLMs y resaltan la necesidad de imágenes adaptativas, en lugar de universalmente "limpias", en esta nueva era donde la IA es el principal consumidor de datos.
¿Podemos escalar el preentrenamiento 4D para aprender representaciones espacio-temporales generales que reconstruyan un objeto a partir de unas pocas vistas en algunos momentos a cualquier vista en cualquier momento? Proporcionamos una respuesta afirmativa con 4D-LRM, el primer modelo de reconstrucción 4D a gran escala que toma entradas de vistas y marcas de tiempo no restringidas y renderiza combinaciones arbitrarias de vistas y tiempos novedosos. A diferencia de enfoques 4D previos, como los basados en optimización, geometría o generativos, que luchan con la eficiencia, la generalización o la fidelidad, 4D-LRM aprende una representación espacio-temporal unificada y predice directamente primitivas gaussianas 4D por píxel a partir de tokens de imágenes posicionadas a lo largo del tiempo, permitiendo una renderización rápida y de alta calidad, en principio, a una tasa de fotogramas infinita. Nuestros resultados demuestran que escalar el preentrenamiento espacio-temporal permite una reconstrucción 4D precisa y eficiente. Mostramos que 4D-LRM generaliza a objetos novedosos, interpola a lo largo del tiempo y maneja configuraciones de cámaras diversas. Reconstruye secuencias de 24 fotogramas en un solo paso hacia adelante en menos de 1.5 segundos en una sola GPU A100.
La respuesta visual a preguntas médicas tiene como objetivo apoyar la toma de decisiones clínicas al permitir que los modelos respondan preguntas en lenguaje natural basadas en imágenes médicas. Si bien los avances recientes en el aprendizaje multimodal han mejorado significativamente el rendimiento, los métodos actuales aún adolecen de una fiabilidad limitada en las respuestas y una escasa interpretabilidad, lo que dificulta que los clínicos y los pacientes comprendan y confíen en las respuestas generadas por los modelos. Para abordar este problema, este trabajo propone primero un conjunto de datos denominado "Pensamiento con Anclaje Visual" (ThinkVG), en el que la generación de respuestas se descompone en pasos intermedios de razonamiento que anclan explícitamente las regiones visuales relevantes de la imagen médica, proporcionando así una explicabilidad detallada. Además, introducimos un novedoso mecanismo de recompensa verificable para el aprendizaje por refuerzo que guía el posentrenamiento, mejorando la alineación entre el proceso de razonamiento del modelo y su respuesta final. Notablemente, nuestro método logra un rendimiento comparable utilizando solo un octavo de los datos de entrenamiento, lo que demuestra la eficiencia y efectividad de la propuesta. El conjunto de datos está disponible en https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
Los avances recientes en los modelos fundamentales de música han mejorado el aprendizaje de representaciones de audio, aunque su efectividad en diversas tradiciones musicales sigue siendo limitada. Presentamos CultureMERT-95M, un modelo fundamental adaptado multiculturalmente desarrollado para mejorar el aprendizaje y la comprensión de representaciones musicales transculturales. Para lograrlo, proponemos una estrategia de preentrenamiento continuo en dos etapas que integra el recalentamiento y el redecaimiento de la tasa de aprendizaje, permitiendo una adaptación estable incluso con recursos computacionales limitados. El entrenamiento en una mezcla de datos multiculturales de 650 horas, que incluye tradiciones musicales griegas, turcas e indias, resulta en una mejora promedio del 4,9 % en ROC-AUC y AP en diversas tareas de etiquetado automático de música no occidental, superando los modelos más avanzados anteriores, con un olvido mínimo en los puntos de referencia centrados en la música occidental. Además, investigamos la aritmética de tareas, un enfoque alternativo para la adaptación multicultural que combina modelos adaptados a una sola cultura en el espacio de pesos. La aritmética de tareas tiene un rendimiento similar al de nuestro modelo entrenado multiculturalmente en tareas de etiquetado automático no occidental y no muestra regresión en conjuntos de datos occidentales. La evaluación transcultural revela que los modelos de una sola cultura se transfieren con efectividad variable entre tradiciones musicales, mientras que el modelo adaptado multiculturalmente logra el mejor rendimiento general. Para apoyar la investigación sobre el aprendizaje de representaciones de música mundial, publicamos CultureMERT-95M y CultureMERT-TA-95M, fomentando el desarrollo de modelos fundamentales de música más conscientes culturalmente.
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han logrado avances notables, pero su implementación ha expuesto vulnerabilidades críticas, particularmente frente a ataques de jailbreak que eluden los mecanismos de seguridad. Las barreras de protección (guardrails)—mecanismos de defensa externos que monitorean y controlan la interacción con los LLMs—han surgido como una solución prometedora. Sin embargo, el panorama actual de las barreras de protección para LLMs está fragmentado, careciendo de una taxonomía unificada y un marco de evaluación integral. En este artículo de Sistematización del Conocimiento (SoK), presentamos el primer análisis holístico de las barreras de protección contra jailbreak para LLMs. Proponemos una taxonomía novedosa y multidimensional que categoriza las barreras de protección en seis dimensiones clave, e introducimos un marco de evaluación Seguridad-Eficiencia-Utilidad para valorar su efectividad práctica. A través de un análisis extenso y experimentos, identificamos las fortalezas y limitaciones de los enfoques existentes de barreras de protección, exploramos su universalidad frente a diferentes tipos de ataques y ofrecemos ideas para optimizar combinaciones de defensas. Nuestro trabajo proporciona una base estructurada para futuras investigaciones y desarrollos, con el objetivo de guiar el avance y la implementación de barreras de protección robustas para LLMs de manera fundamentada. El código está disponible en https://github.com/xunguangwang/SoK4JailbreakGuardrails.
La visualización de historias se ha convertido en una tarea popular en la que se generan escenas visuales para representar una narrativa a través de múltiples paneles. Un desafío central en este contexto es mantener la consistencia visual, particularmente en cómo los personajes y los objetos persisten y evolucionan a lo largo de la historia. A pesar de los avances recientes en los modelos de difusión, los enfoques actuales a menudo no logran preservar los atributos clave de los personajes, lo que lleva a narrativas incoherentes. En este trabajo, proponemos un marco colaborativo de múltiples agentes que identifica, corrige y refina de manera autónoma las inconsistencias en las visualizaciones de historias de múltiples paneles. Los agentes operan en un ciclo iterativo, permitiendo actualizaciones detalladas a nivel de panel sin necesidad de regenerar secuencias completas. Nuestro marco es independiente del modelo y se integra de manera flexible con una variedad de modelos de difusión, incluyendo transformadores de flujo rectificado como Flux y modelos de difusión latente como Stable Diffusion. Los experimentos cuantitativos y cualitativos muestran que nuestro método supera a los enfoques anteriores en términos de consistencia en múltiples paneles.
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) a menudo enfrentan dificultades para generar descripciones de imágenes personalizadas, incluso cuando se entrenan con subtítulos de alta calidad. En este trabajo, observamos que tales limitaciones persisten en los métodos de personalización de MLLM basados en ajustes posteriores al entrenamiento. Específicamente, a pesar de ser ajustados con grandes volúmenes de datos de subtítulos mediante ajuste fino supervisado (SFT, por sus siglas en inglés), estos modelos frecuentemente no logran producir descripciones fieles en escenarios del mundo real, como la descripción de imágenes con múltiples conceptos. Sin embargo, adquirir grandes volúmenes de subtítulos de alta calidad para tales configuraciones complejas resulta costoso y difícil. Para abordar la naturaleza centrada en los datos del SFT, proponemos un marco de ajuste posterior basado en aprendizaje por refuerzo (RL, por sus siglas en inglés). Hasta donde sabemos, este es el primer enfoque basado en RL para ajustar MLLMs en la generación de descripciones de imágenes personalizadas. Nuestro método mejora significativamente tanto las capacidades de reconocimiento visual como de generación personalizada de los MLLMs, y supera consistentemente los enfoques basados en SFT existentes, especialmente en la tarea desafiante de describir imágenes con múltiples conceptos.
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han impulsado un progreso notable en el procesamiento del lenguaje natural, pero sus demandas computacionales y de memoria siguen siendo un desafío significativo, especialmente para la inferencia de contextos largos. Presentamos TPTT (Transformando Transformadores Preentrenados en Titanes), un marco novedoso para mejorar los modelos Transformadores preentrenados con mecanismos de atención linealizada eficiente y gestión avanzada de memoria. TPTT emplea técnicas como Memoria como Puerta (MaG) y atención linealizada mixta (LiZA). Es totalmente compatible con la biblioteca Hugging Face Transformers, lo que permite la adaptación fluida de cualquier LLM causal mediante ajuste fino eficiente en parámetros (LoRA) sin necesidad de un reentrenamiento completo. Demostramos la efectividad de TPTT en el benchmark MMLU con modelos de aproximadamente mil millones de parámetros, observando mejoras sustanciales tanto en eficiencia como en precisión. Por ejemplo, Titans-Llama-3.2-1B logra un aumento del 20% en Exact Match (EM) respecto a su línea base. Los análisis estadísticos y las comparaciones con métodos recientes de vanguardia confirman la escalabilidad práctica y la robustez de TPTT. El código está disponible en https://github.com/fabienfrfr/tptt. El paquete de Python se encuentra en https://pypi.org/project/tptt/.
La mortalidad neonatal sigue siendo una realidad preocupante en países subdesarrollados e incluso en algunos desarrollados. Datos globales indican que 26,693 bebés de cada 1,000 nacimientos mueren, según Macro Trades. Para reducir esta cifra, la predicción temprana de bebés en riesgo es crucial. Dicha predicción permite la oportunidad de brindar un cuidado adecuado al niño y a la madre, evitando así la muerte temprana del infante. En este contexto, se utilizó el aprendizaje automático para determinar si un recién nacido está en peligro. Para entrenar el modelo predictivo, se emplearon datos históricos de 1,4 millones de recién nacidos. Se implementaron técnicas de aprendizaje automático y aprendizaje profundo, como regresión logística, K-vecinos más cercanos, clasificador de bosque aleatorio, aumento de gradiente extremo (XGBoost), red neuronal convolucional y memoria de corto-largo plazo (LSTM), utilizando el conjunto de datos para identificar el modelo más preciso para predecir la mortalidad neonatal. Entre los algoritmos de aprendizaje automático, XGBoost y el clasificador de bosque aleatorio alcanzaron la mejor precisión con un 94%, mientras que, entre los modelos de aprendizaje profundo, LSTM obtuvo la mayor precisión con un 99%. Por lo tanto, el uso de LSTM parece ser el enfoque más adecuado para predecir si son necesarias medidas preventivas para un niño.
A pesar de los avances recientes en la generación de código RTL de hardware con LLMs, las soluciones existentes aún presentan una brecha considerable entre los escenarios de aplicación práctica y los requisitos del desarrollo de código RTL en el mundo real. Los enfoques previos se centran en descripciones de hardware excesivamente simplificadas o dependen de una guía humana extensa para procesar especificaciones complejas, lo que limita su escalabilidad y potencial de automatización. En este artículo, abordamos esta brecha proponiendo un sistema de agente LLM, denominado Spec2RTL-Agent, diseñado para procesar directamente documentación de especificaciones complejas y generar implementaciones de código RTL correspondientes, avanzando hacia entornos de aplicación más realistas en la generación de código RTL basada en LLMs. Para lograr este objetivo, Spec2RTL-Agent introduce un marco de colaboración multiagente novedoso que integra tres facilitadores clave: (1) un módulo de razonamiento y comprensión que traduce las especificaciones en planes de implementación estructurados y paso a paso; (2) un módulo de codificación progresiva y optimización de prompts que refina iterativamente el código a través de múltiples representaciones para mejorar la corrección y la sintetizabilidad para la conversión RTL; y (3) un módulo de reflexión adaptativa que identifica y rastrea el origen de errores durante la generación, asegurando un flujo de generación de código más robusto. En lugar de generar RTL directamente a partir de lenguaje natural, nuestro sistema genera estratégicamente código C++ sintetizable, que luego se optimiza para HLS. Este refinamiento impulsado por agentes asegura una mayor corrección y compatibilidad en comparación con enfoques ingenuos de generación directa de RTL. Evaluamos Spec2RTL-Agent en tres documentos de especificaciones, demostrando que genera código RTL preciso con hasta un 75% menos de intervenciones humanas que los métodos existentes. Esto destaca su papel como el primer sistema multiagente completamente automatizado para la generación de RTL a partir de especificaciones no estructuradas, reduciendo la dependencia del esfuerzo humano en el diseño de hardware.