Artículos de investigación en IA seleccionados diariamente con traducciones
Con el lanzamiento del modelo o1 por OpenAI, han surgido gradualmente modelos de razonamiento que adoptan estrategias de pensamiento lento. Dado que las respuestas generadas por estos modelos suelen incluir razonamientos complejos, pasos intermedios y autorreflexión, los métodos de evaluación existentes a menudo resultan insuficientes. Les cuesta determinar si la salida del LLM es verdaderamente equivalente a la respuesta de referencia, y también tienen dificultades para identificar y extraer la respuesta final de respuestas largas y complejas. Para abordar este problema, proponemos xVerify, un verificador de respuestas eficiente para la evaluación de modelos de razonamiento. xVerify demuestra una gran capacidad en el juicio de equivalencia, permitiéndole determinar de manera efectiva si las respuestas producidas por los modelos de razonamiento son equivalentes a las respuestas de referencia en diversos tipos de preguntas objetivas. Para entrenar y evaluar xVerify, construimos el conjunto de datos VAR recopilando pares de preguntas y respuestas generados por múltiples LLMs en varios conjuntos de datos, aprovechando múltiples modelos de razonamiento y conjuntos de evaluación desafiantes diseñados específicamente para la evaluación de modelos de razonamiento. Se emplea un proceso de anotación de múltiples rondas para garantizar la precisión de las etiquetas. Basándonos en el conjunto de datos VAR, entrenamos múltiples modelos xVerify de diferentes escalas. En experimentos de evaluación realizados tanto en el conjunto de prueba como en el conjunto de generalización, todos los modelos xVerify logran puntajes F1 y precisión general superiores al 95%. Destacablemente, la variante más pequeña, xVerify-0.5B-I, supera a todos los métodos de evaluación excepto GPT-4o, mientras que xVerify-3B-Ib supera a GPT-4o en rendimiento general. Estos resultados validan la efectividad y generalización de xVerify.
Presentamos Seedream 3.0, un modelo base de generación de imágenes bilingüe chino-inglés de alto rendimiento. Desarrollamos varias mejoras técnicas para abordar los desafíos existentes en Seedream 2.0, incluyendo la alineación con indicaciones complejas, la generación de tipografía detallada, la estética visual y fidelidad subóptimas, y las resoluciones de imagen limitadas. Específicamente, los avances de Seedream 3.0 provienen de mejoras en toda la pipeline, desde la construcción de datos hasta la implementación del modelo. En el estrato de datos, duplicamos el conjunto de datos utilizando un paradigma de entrenamiento consciente de defectos y un marco de muestreo de datos colaborativo de doble eje. Además, adoptamos varias técnicas efectivas como el entrenamiento de resolución mixta, RoPE de cross-modalidad, pérdida de alineación de representación y muestreo de pasos de tiempo consciente de la resolución en la fase de pre-entrenamiento. Durante la etapa de post-entrenamiento, utilizamos descripciones estéticas diversificadas en SFT, y un modelo de recompensa basado en VLM con escalado, logrando así salidas que se alinean bien con las preferencias humanas. Además, Seedream 3.0 introduce un nuevo paradigma de aceleración. Al emplear una expectativa de ruido consistente y un muestreo de pasos de tiempo consciente de la importancia, logramos una aceleración de 4 a 8 veces manteniendo la calidad de la imagen. Seedream 3.0 demuestra mejoras significativas sobre Seedream 2.0: mejora las capacidades generales, en particular para la representación de texto en caracteres chinos complejos, lo cual es importante para la generación de tipografía profesional. Además, proporciona una salida nativa de alta resolución (hasta 2K), permitiendo generar imágenes con alta calidad visual.
El avance de las habilidades de razonamiento de los LLM ha capturado un amplio interés. Sin embargo, las técnicas actuales de posentrenamiento dependen en gran medida de señales de supervisión, como la supervisión de resultados o modelos de recompensa auxiliares, que enfrentan problemas de escalabilidad y altos costos de anotación. Esto nos motiva a mejorar el razonamiento de los LLM sin la necesidad de supervisión externa. Introducimos un marco de autoentrenamiento generalizable y puramente no supervisado, denominado Genius. Sin asistencia externa, Genius requiere buscar la secuencia de respuestas óptima de manera gradual y optimizar el LLM. Para explorar los pasos potenciales y aprovechar los óptimos, Genius introduce una estrategia de remuestreo con visión gradual que simula resultados futuros para muestrear y estimar el valor de cada paso. Además, reconocemos que el entorno no supervisado induce inevitablemente ruido intrínseco e incertidumbre. Para proporcionar una optimización robusta, proponemos una función de pérdida de optimización calibrada por ventaja (ACO) para mitigar inconsistencias en la estimación. Combinando estas técnicas, Genius ofrece un paso inicial avanzado hacia la automejora del razonamiento de los LLM con consultas generales y sin supervisión, revolucionando las leyes de escalado del razonamiento dada la amplia disponibilidad de consultas generales. El código se publicará en https://github.com/xufangzhi/Genius.
A medida que el entrenamiento posterior de modelos de lenguaje de gran escala (LLMs) avanza desde la capacidad de seguir instrucciones hasta tareas de razonamiento complejo, comprender cómo diferentes datos afectan la dinámica del ajuste fino sigue siendo en gran medida un área inexplorada. En este artículo, presentamos un análisis espectral de los gradientes por capas inducidos por datos de instrucción y razonamiento de baja/alta calidad para el entrenamiento posterior de LLMs. Nuestro análisis revela que las métricas ampliamente estudiadas para la evaluación de datos, como IFD, InsTag, Dificultad y Recompensa, pueden ser explicadas y unificadas mediante propiedades espectrales calculadas a partir de la descomposición en valores singulares (SVD) de los gradientes. Específicamente, los datos de mayor calidad suelen estar asociados con normas nucleares más bajas y rangos efectivos más altos. Notablemente, el rango efectivo muestra una mejor robustez y resolución que la norma nuclear al capturar diferencias sutiles en la calidad. Por ejemplo, los datos de razonamiento alcanzan rangos efectivos sustancialmente más altos que los datos de instrucción, lo que implica estructuras de gradiente más ricas en tareas más complejas. Nuestros experimentos también destacan que los modelos dentro de la misma familia comparten patrones de gradiente similares independientemente de sus tamaños, mientras que diferentes familias de modelos divergen significativamente. Al proporcionar una visión unificada sobre los efectos de la calidad de los datos en datos de instrucción y razonamiento, este trabajo ilumina la interacción entre la calidad de los datos y la estabilidad del entrenamiento, ofreciendo nuevas perspectivas para desarrollar mejores estrategias de exploración de datos en el entrenamiento posterior.
Un sistema de IA solo puede crear y mantener conocimiento en la medida en que pueda verificar ese conocimiento por sí mismo. Trabajos recientes sobre razonamiento de Cadenas de Pensamiento (CoT) largas han demostrado el gran potencial de los LLM para resolver problemas competitivos, pero su capacidad de verificación sigue siendo débil y no ha sido suficientemente investigada. En este artículo, proponemos Heimdall, un LLM de verificación de CoT largas que puede juzgar con precisión la corrección de las soluciones. Utilizando únicamente aprendizaje por refuerzo, aumentamos la precisión de verificación del 62.5% al 94.5% en problemas matemáticos competitivos. Al escalar con muestreo repetido, la precisión aumenta aún más al 97.5%. A través de evaluaciones humanas, Heimdall demuestra capacidades impresionantes de generalización, detectando con éxito la mayoría de los problemas en pruebas matemáticas desafiantes, un tipo de problema que no se incluyó durante el entrenamiento. Además, proponemos la Verificación Pesimista para extender la funcionalidad de Heimdall y escalar la resolución de problemas. Este método llama a Heimdall para juzgar las soluciones de un modelo resolutor y, basándose en el principio pesimista, selecciona la solución más probablemente correcta con la menor incertidumbre. Utilizando DeepSeek-R1-Distill-Qwen-32B como modelo resolutor, la Verificación Pesimista mejora la precisión de las soluciones en AIME2025 del 54.2% al 70.0% con un presupuesto computacional de 16x, y al 83.3% con un presupuesto computacional mayor. Con el modelo resolutor más potente, Gemini 2.5 Pro, la puntuación alcanza el 93.0%. Finalmente, prototipamos un sistema automático de descubrimiento de conocimiento, un sistema ternario donde uno plantea preguntas, otro proporciona soluciones y el tercero verifica las soluciones. Utilizando el trabajo de síntesis de datos NuminaMath para los dos primeros componentes, Heimdall identifica eficazmente registros problemáticos dentro del conjunto de datos y revela que casi la mitad de los datos están defectuosos, lo que curiosamente coincide con los estudios de ablación recientes de NuminaMath.
TextArena es una colección de código abierto de juegos competitivos basados en texto para el entrenamiento y evaluación del comportamiento agente en Modelos de Lenguaje a Gran Escala (LLMs). Abarca más de 57 entornos únicos (incluyendo configuraciones para un jugador, dos jugadores y múltiples jugadores) y permite una evaluación sencilla de las capacidades de los modelos mediante un sistema de juego en línea (contra humanos y otros modelos enviados) con puntuaciones TrueSkill en tiempo real. Los puntos de referencia tradicionales rara vez evalúan habilidades sociales dinámicas como la negociación, la teoría de la mente y el engaño, creando un vacío que TextArena aborda. Diseñado con la investigación, la comunidad y la extensibilidad en mente, TextArena enfatiza la facilidad para agregar nuevos juegos, adaptar el marco de trabajo, probar modelos, jugar contra los modelos y entrenar modelos. La documentación detallada de los entornos, juegos, tablas de clasificación y ejemplos está disponible en https://github.com/LeonGuertler/TextArena y https://www.textarena.ai/.
Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs, por sus siglas en inglés) logran un rendimiento notable en tareas de comprensión a nivel de píxeles de gran detalle. Sin embargo, todos los trabajos dependen en gran medida de componentes adicionales, como un codificador visual (CLIP) o expertos en segmentación, lo que aumenta la complejidad del sistema y limita la escalabilidad del modelo. En este trabajo, nuestro objetivo es explorar un MLLM altamente simplificado sin introducir componentes adicionales. Nuestra investigación está motivada por trabajos recientes sobre el diseño de un único Transformer como Modelo Unificado de Visión y Lenguaje (SAIL), donde estos trabajos aprenden conjuntamente tokens visuales y de texto en transformers. Presentamos Pixel-SAIL, un único transformer para tareas MLLM a nivel de píxeles. En particular, presentamos tres mejoras técnicas sobre la línea base simple. Primero, diseñamos un módulo de muestreo ascendente aprendible para refinar las características de los tokens visuales. En segundo lugar, proponemos una novedosa estrategia de inyección de indicaciones visuales para permitir que el transformer único comprenda entradas de indicaciones visuales y se beneficie de la fusión temprana de las incrustaciones de indicaciones visuales y los tokens visuales. En tercer lugar, introducimos una estrategia de destilación de expertos visuales para mejorar eficientemente la capacidad de extracción de características detalladas del transformer único. Además, hemos recopilado un punto de referencia integral para la comprensión de píxeles (PerBench), utilizando una verificación manual. Este incluye tres tareas: descripción detallada de objetos, respuesta a preguntas basadas en indicaciones visuales y segmentación referencial visual-textual. Experimentos extensos en cuatro puntos de referencia de segmentación referencial, un punto de referencia de indicaciones visuales y nuestro PerBench muestran que Pixel-SAIL logra resultados comparables o incluso mejores con una canalización mucho más simple. El código y el modelo se publicarán en https://github.com/magic-research/Sa2VA.
La estimación de normales de superficie sirve como piedra angular para un espectro de aplicaciones en visión por computadora. Si bien se han dedicado numerosos esfuerzos a escenarios de imágenes estáticas, garantizar la coherencia temporal en la estimación de normales basada en videos sigue siendo un desafío formidable. En lugar de simplemente aumentar los métodos existentes con componentes temporales, presentamos NormalCrafter para aprovechar los priors temporales inherentes de los modelos de difusión de video. Para asegurar una estimación de normales de alta fidelidad en secuencias, proponemos la Regularización de Características Semánticas (SFR, por sus siglas en inglés), que alinea las características de difusión con pistas semánticas, incentivando al modelo a concentrarse en la semántica intrínseca de la escena. Además, introducimos un protocolo de entrenamiento en dos etapas que aprovecha el aprendizaje tanto en el espacio latente como en el espacio de píxeles para preservar la precisión espacial mientras se mantiene un contexto temporal prolongado. Evaluaciones exhaustivas demuestran la eficacia de nuestro método, mostrando un rendimiento superior en la generación de secuencias de normales temporalmente consistentes con detalles intrincados a partir de diversos videos.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) se ha convertido en un enfoque predominante para el ajuste fino de modelos de lenguaje grandes (LLMs) en tareas de razonamiento complejo. Entre los métodos recientes, GRPO destaca por su éxito empírico en el entrenamiento de modelos como DeepSeek-R1, aunque las fuentes de su efectividad siguen siendo poco comprendidas. En este trabajo, revisitamos GRPO desde una perspectiva de algoritmo similar a refuerzo y analizamos sus componentes principales. Sorprendentemente, encontramos que una línea base simple de muestreo por rechazo, RAFT, que entrena únicamente con muestras positivamente recompensadas, ofrece un rendimiento competitivo en comparación con GRPO y PPO. Nuestros estudios de ablación revelan que la principal ventaja de GRPO surge de descartar indicaciones con respuestas completamente incorrectas, en lugar de su normalización de recompensas. Motivados por esta observación, proponemos Reinforce-Rej, una extensión mínima del gradiente de políticas que filtra tanto las muestras completamente incorrectas como las completamente correctas. Reinforce-Rej mejora la eficiencia y estabilidad de la divergencia KL, sirviendo como una alternativa ligera pero efectiva a algoritmos de RL más complejos. Defendemos RAFT como una línea base robusta e interpretable, y sugerimos que los avances futuros deberían centrarse en diseños más fundamentados para incorporar muestras negativas, en lugar de depender de ellas indiscriminadamente. Nuestros hallazgos proporcionan orientación para trabajos futuros en el post-entrenamiento de LLMs basado en recompensas.
Los modelos de razonamiento han demostrado un progreso notable en la resolución de tareas complejas e intensivas en lógica al generar Cadenas de Pensamiento (CoTs, por sus siglas en inglés) extensas antes de llegar a una respuesta final. Sin embargo, el surgimiento de este paradigma de "pensamiento lento", con numerosos tokens generados en secuencia, introduce inevitablemente una sobrecarga computacional significativa. Por ello, se destaca la necesidad urgente de una aceleración efectiva. Este estudio tiene como objetivo proporcionar una visión general exhaustiva de los avances recientes en el razonamiento eficiente. Clasifica los trabajos existentes en tres direcciones clave: (1) más corto: comprimir CoTs extensas en cadenas de razonamiento concisas pero efectivas; (2) más pequeño: desarrollar modelos de lenguaje compactos con capacidades de razonamiento sólidas mediante técnicas como la destilación de conocimiento, otras técnicas de compresión de modelos y aprendizaje por refuerzo; y (3) más rápido: diseñar estrategias de decodificación eficientes para acelerar la inferencia. Una colección seleccionada de los artículos discutidos en este estudio está disponible en nuestro repositorio de GitHub.
Dado que los modelos de lenguaje de gran escala son costosos de preentrenar en diferentes conjuntos de datos, utilizar experimentos a menor escala para decidir sobre los datos es crucial para reducir costos. ¿Qué puntos de referencia y métodos para tomar decisiones basadas en el rendimiento observado a pequeña escala predicen con mayor precisión los conjuntos de datos que producen los mejores modelos grandes? Para fomentar la exploración abierta de esta pregunta, publicamos modelos, datos y evaluaciones en DataDecide, el conjunto más extenso y abierto de modelos que abarca diferencias en datos y escala. Realizamos experimentos controlados de preentrenamiento en 25 corpus con diferentes fuentes, deduplicación y filtrado, hasta 100 mil millones de tokens, tamaños de modelo de hasta 1 mil millones de parámetros y 3 semillas aleatorias. Descubrimos que la clasificación de modelos en un único tamaño pequeño (por ejemplo, 150 millones de parámetros) es una línea base sólida para predecir los mejores modelos en nuestra escala objetivo más grande (1 mil millones) (~80% de las comparaciones correctas). Ninguno de los 8 métodos de leyes de escalamiento supera la frontera de decisión computacional de las predicciones a escala única, pero DataDecide puede medir mejoras en futuras leyes de escalamiento. También identificamos que el uso de métricas de verosimilitud continua como proxies en experimentos pequeños hace que los puntos de referencia, incluyendo MMLU, ARC, HellaSwag, MBPP y HumanEval, sean predecibles en más del 80% en la escala objetivo de 1 mil millones con solo el 0.01% del cómputo.
La Generación Aumentada por Recuperación (RAG, por sus siglas en inglés) mejora el rendimiento de los Modelos de Lenguaje a Gran Escala (LLM) en tareas intensivas en conocimiento, pero depende en gran medida de la calidad de la consulta de búsqueda inicial. Los métodos actuales, que a menudo utilizan Aprendizaje por Refuerzo (RL), suelen centrarse en la formulación de consultas o el razonamiento sobre los resultados, sin fomentar explícitamente la persistencia tras una búsqueda fallida. Presentamos ReZero (Reintentar-Cero), un novedoso marco de RL que recompensa directamente el acto de reintentar una consulta de búsqueda después de un intento inicial sin éxito. Esto incentiva al LLM a explorar consultas alternativas en lugar de detenerse prematuramente. ReZero demuestra una mejora significativa, alcanzando un 46,88% de precisión en comparación con un 25% de referencia. Al recompensar la persistencia, ReZero aumenta la robustez de los LLM en escenarios complejos de búsqueda de información donde las consultas iniciales pueden resultar insuficientes.
Este artículo presenta SAIL, un modelo de lenguaje multimodal grande (MLLM) unificado basado en un único transformador que integra la codificación de píxeles en bruto y la decodificación de lenguaje dentro de una arquitectura singular. A diferencia de los MLLM modulares existentes, que dependen de un transformador de visión preentrenado (ViT), SAIL elimina la necesidad de un codificador de visión separado, presentando un diseño arquitectónico más minimalista. En lugar de introducir componentes arquitectónicos novedosos, SAIL adapta mecanismos de atención mixta y codificaciones posicionales multimodales para alinearse mejor con las características distintivas de las modalidades visuales y textuales. Sistemáticamente comparamos las propiedades de SAIL, incluyendo escalabilidad, patrones de flujo de información multimodal y capacidades de representación visual, con las de los MLLM modulares. Al escalar tanto los datos de entrenamiento como el tamaño del modelo, SAIL logra un rendimiento comparable al de los MLLM modulares. Notablemente, la eliminación de los componentes preentrenados de ViT mejora la escalabilidad de SAIL y resulta en patrones de flujo de información multimodal significativamente diferentes. Además, SAIL demuestra fuertes capacidades de representación visual, alcanzando resultados comparables a ViT-22B en tareas de visión como la segmentación semántica. El código y los modelos están disponibles en https://github.com/bytedance/SAIL.
Este trabajo presenta SimpleAR, un marco de generación visual autorregresivo básico sin modificaciones arquitectónicas complejas. A través de una exploración cuidadosa de la optimización en el entrenamiento y la inferencia, demostramos que: 1) con solo 0.5 mil millones de parámetros, nuestro modelo puede generar imágenes de resolución 1024x1024 con alta fidelidad y lograr resultados competitivos en benchmarks desafiantes de texto a imagen, por ejemplo, 0.59 en GenEval y 79.66 en DPG; 2) tanto el ajuste fino supervisado (SFT) como el entrenamiento con Optimización de Política Relativa de Grupo (GRPO) pueden conducir a mejoras significativas en la estética de la generación y la alineación con el prompt; y 3) cuando se optimiza con técnicas de aceleración de inferencia como vLLM, el tiempo que tarda SimpleAR en generar una imagen de 1024x1024 puede reducirse a alrededor de 14 segundos. Al compartir estos hallazgos y hacer el código de código abierto, esperamos revelar el potencial de la generación visual autorregresiva y fomentar una mayor participación en este campo de investigación. El código está disponible en https://github.com/wdrink/SimpleAR.
La capacidad para el razonamiento matemático complejo es un punto de referencia clave para la inteligencia artificial. Si bien el aprendizaje por refuerzo (RL, por sus siglas en inglés) aplicado a los modelos de lenguaje grandes (LLMs) muestra promesa, el progreso se ve significativamente obstaculizado por la falta de datos de entrenamiento a gran escala que sean lo suficientemente desafiantes, posean formatos de respuestas verificables adecuados para RL y estén libres de contaminación con benchmarks de evaluación. Para abordar estas limitaciones, presentamos DeepMath-103K, un nuevo conjunto de datos a gran escala que comprende aproximadamente 103K problemas matemáticos, diseñado específicamente para entrenar modelos avanzados de razonamiento mediante RL. DeepMath-103K se ha curado a través de un proceso riguroso que incluye análisis de fuentes, descontaminación estricta frente a numerosos benchmarks y filtrado por alta dificultad (principalmente niveles 5-9), superando significativamente los recursos abiertos existentes en términos de desafío. Cada problema incluye una respuesta final verificable, lo que permite RL basado en reglas, y tres soluciones distintas generadas por R1 adecuadas para diversos paradigmas de entrenamiento, como el ajuste fino supervisado o la destilación. Abarcando una amplia gama de temas matemáticos, DeepMath-103K fomenta el desarrollo de un razonamiento generalizable. Demostramos que los modelos entrenados con DeepMath-103K logran mejoras significativas en benchmarks matemáticos desafiantes, validando su efectividad. Publicamos DeepMath-103K de manera abierta para facilitar el progreso de la comunidad en la construcción de sistemas de razonamiento de IA más capaces: https://github.com/zwhe99/DeepMath.
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) proporcionan supervisión a nivel de paso para los modelos de lenguaje grandes (LLMs), pero escalar la anotación de datos de entrenamiento sigue siendo un desafío tanto para humanos como para LLMs. Para abordar esta limitación, proponemos un enfoque de aprendizaje activo, ActPRM, que selecciona proactivamente las muestras más inciertas para el entrenamiento, reduciendo sustancialmente los costos de etiquetado. Durante el entrenamiento, utilizamos el PRM para estimar la incertidumbre después del paso hacia adelante, conservando solo los datos altamente inciertos. Un modelo de razonamiento capaz pero costoso etiqueta entonces estos datos. Luego calculamos la pérdida con respecto a las etiquetas y actualizamos los pesos del PRM. Comparamos ActPRM frente al ajuste fino convencional, en un entorno de aprendizaje activo basado en un conjunto de datos, demostrando que ActPRM reduce un 50% la anotación, pero logrando un rendimiento comparable o incluso mejor. Más allá de la eficiencia en la anotación, avanzamos aún más el PRM entrenado activamente filtrando más de 1 millón de trayectorias de razonamiento matemático con ActPRM, conservando el 60% de los datos. Un entrenamiento posterior en este conjunto de datos seleccionado produce un nuevo PRM de última generación (SOTA) en ProcessBench (75.0%) y PRMBench (65.5%) en comparación con modelos del mismo tamaño.
Los modelos de difusión sobresalen en la generación de datos de alta dimensionalidad, pero se quedan cortos en eficiencia de entrenamiento y calidad de representación en comparación con los métodos de auto-supervisión. Identificamos un cuello de botella clave: la subutilización de representaciones de alta calidad y semánticamente ricas durante el entrenamiento ralentiza notablemente la convergencia. Nuestro análisis sistemático revela una región crítica de procesamiento de representaciones —principalmente en las capas iniciales— donde tiene lugar el aprendizaje de patrones semánticos y estructurales antes de que pueda ocurrir la generación. Para abordar esto, proponemos Embedded Representation Warmup (ERW), un marco plug-and-play en el que, en la primera etapa, el módulo ERW sirve como un calentamiento que inicializa las capas iniciales del modelo de difusión con representaciones preentrenadas de alta calidad. Este calentamiento minimiza la carga de aprender representaciones desde cero, acelerando así la convergencia y mejorando el rendimiento. Nuestro análisis teórico demuestra que la eficacia de ERW depende de su integración precisa en capas específicas de la red neuronal —denominadas la región de procesamiento de representaciones— donde el modelo procesa y transforma principalmente las representaciones de características para la generación posterior. Además, establecemos que ERW no solo acelera la convergencia del entrenamiento, sino que también mejora la calidad de las representaciones: empíricamente, nuestro método logra una aceleración de 40 veces en la velocidad de entrenamiento en comparación con REPA, los métodos actuales más avanzados. El código está disponible en https://github.com/LINs-lab/ERW.
Los modelos de difusión son ampliamente reconocidos por su capacidad para generar imágenes de alta fidelidad. A pesar del excelente rendimiento y escalabilidad de la arquitectura Diffusion Transformer (DiT), esta aplica una compresión fija en diferentes regiones de la imagen durante el proceso de difusión, ignorando las densidades de información naturalmente variables presentes en estas regiones. Sin embargo, una compresión grande limita el realismo local, mientras que una compresión pequeña aumenta la complejidad computacional y compromete la consistencia global, afectando finalmente la calidad de las imágenes generadas. Para abordar estas limitaciones, proponemos comprimir dinámicamente diferentes regiones de la imagen al reconocer la importancia de cada región, e introducimos un marco novedoso de dos etapas diseñado para mejorar la efectividad y eficiencia de la generación de imágenes: (1) El Dynamic VAE (DVAE) en la primera etapa emplea un codificador jerárquico para codificar diferentes regiones de la imagen a diferentes tasas de submuestreo, adaptadas a sus densidades de información específicas, proporcionando así códigos latentes más precisos y naturales para el proceso de difusión. (2) El Dynamic Diffusion Transformer (D^2iT) en la segunda etapa genera imágenes prediciendo ruido de múltiples granularidades, que consiste en granularidad gruesa (menos códigos latentes en regiones suaves) y granularidad fina (más códigos latentes en regiones detalladas), a través de una combinación novedosa del Dynamic Grain Transformer y el Dynamic Content Transformer. La estrategia de combinar la predicción aproximada del ruido con la corrección de regiones detalladas logra una unificación de la consistencia global y el realismo local. Experimentos exhaustivos en diversas tareas de generación validan la efectividad de nuestro enfoque. El código será publicado en https://github.com/jiawn-creator/Dynamic-DiT.
Los puntos de referencia multimodales actuales a menudo confunden el razonamiento con el conocimiento específico del dominio, lo que dificulta aislar y evaluar las habilidades de razonamiento general en entornos no especializados. Para abordar esto, presentamos VisualPuzzles, un punto de referencia que se enfoca en el razonamiento visual mientras minimiza deliberadamente la dependencia del conocimiento especializado. VisualPuzzles consta de preguntas diversas que abarcan cinco categorías: razonamiento algorítmico, analógico, deductivo, inductivo y espacial. Una fuente importante de nuestras preguntas son las traducciones manuales de preguntas de razonamiento lógico del Examen de Servicio Civil Chino. Los experimentos muestran que VisualPuzzles requiere significativamente menos conocimiento específico del dominio y un razonamiento más complejo en comparación con puntos de referencia como MMMU, lo que nos permite evaluar mejor el razonamiento multimodal genuino. Las evaluaciones muestran que los modelos de lenguaje multimodal de última generación se quedan consistentemente atrás del rendimiento humano en VisualPuzzles, y que un buen desempeño en puntos de referencia intensivos en conocimiento no necesariamente se traduce en éxito en tareas centradas en el razonamiento y ligeras en conocimiento. Además, las mejoras de razonamiento, como escalar el cómputo de inferencia (con modos de "pensar"), producen ganancias inconsistentes entre modelos y tipos de tareas, y no observamos una correlación clara entre el tamaño del modelo y el rendimiento. También encontramos que los modelos exhiben patrones de razonamiento y respuesta diferentes en VisualPuzzles en comparación con puntos de referencia que enfatizan más el conocimiento. VisualPuzzles ofrece una lente más clara a través de la cual evaluar las capacidades de razonamiento más allá de la recuperación de hechos y el conocimiento del dominio.
El despliegue de modelos de lenguaje en aplicaciones orientadas al consumidor introduce numerosos riesgos. Si bien la investigación existente sobre los daños y peligros de dichas aplicaciones sigue enfoques de arriba hacia abajo derivados de marcos regulatorios y análisis teóricos, la evidencia empírica de modos de fallo en el mundo real sigue siendo poco explorada. En este trabajo, presentamos RealHarm, un conjunto de datos de interacciones problemáticas anotadas con agentes de IA, construido a partir de una revisión sistemática de incidentes reportados públicamente. Al analizar daños, causas y peligros específicamente desde la perspectiva del implementador, encontramos que el daño reputacional constituye el principal daño organizacional, mientras que la desinformación emerge como la categoría de peligro más común. Evaluamos empíricamente los sistemas de protección y moderación de contenido más avanzados para determinar si dichos sistemas habrían prevenido los incidentes, revelando una brecha significativa en la protección de las aplicaciones de IA.
Las arquitecturas híbridas de LLM que combinan modelos de Atención y modelos de Espacio de Estados (SSMs) logran una precisión y rendimiento en tiempo de ejecución de vanguardia. Trabajos recientes han demostrado que aplicar compresión y destilación a modelos basados únicamente en Atención produce modelos más pequeños y precisos con una fracción del costo de entrenamiento. En este trabajo, exploramos la efectividad de comprimir arquitecturas híbridas. Introducimos una novedosa estrategia de poda consciente de grupos que preserva la integridad estructural de los bloques SSM y sus capacidades de modelado de secuencias. Además, demostramos la necesidad de dicha poda en SSM para lograr una mayor precisión y velocidad de inferencia en comparación con enfoques tradicionales. Nuestra receta de compresión combina la poda de SSM, FFN, dimensiones de incrustación y capas, seguida de un reentrenamiento basado en destilación de conocimiento, similar a la técnica MINITRON. Utilizando este enfoque, comprimimos el modelo híbrido Nemotron-H 8B a 4B parámetros con hasta 40 veces menos tokens de entrenamiento. El modelo resultante supera la precisión de modelos de tamaño similar mientras logra una inferencia 2 veces más rápida, avanzando significativamente la frontera de Pareto.
Presentamos AI University (AI-U), un marco flexible para la entrega de contenido de cursos impulsado por IA que se adapta a los estilos de enseñanza de los instructores. En su núcleo, AI-U ajusta un modelo de lenguaje grande (LLM) con generación aumentada por recuperación (RAG) para generar respuestas alineadas con el instructor a partir de videos de clases, notas y libros de texto. Utilizando un curso de posgrado sobre el método de elementos finitos (FEM) como estudio de caso, presentamos una canalización escalable para construir sistemáticamente datos de entrenamiento, ajustar un LLM de código abierto con Adaptación de Bajo Rango (LoRA) y optimizar sus respuestas mediante síntesis basada en RAG. Nuestra evaluación, que combina similitud de coseno, evaluación basada en LLM y revisión de expertos, demuestra una fuerte alineación con los materiales del curso. También hemos desarrollado una aplicación web prototipo, disponible en https://my-ai-university.com, que mejora la trazabilidad al vincular las respuestas generadas por IA con secciones específicas del material del curso y momentos específicos de las clases en video de acceso abierto. Nuestro modelo experto mostró una mayor similitud de coseno con una referencia en el 86% de los casos de prueba. Un juez basado en LLM también encontró que nuestro modelo experto superó al modelo base Llama 3.2 aproximadamente cuatro de cada cinco veces. AI-U ofrece un enfoque escalable para la educación asistida por IA, allanando el camino para una adopción más amplia en la educación superior. Aquí, nuestro marco se ha presentado en el contexto de una clase sobre FEM, un tema central en la formación de estudiantes de doctorado y maestría en ciencias de la ingeniería. Sin embargo, este contexto es una instancia particular de un escenario más amplio: el ajuste fino de LLMs para contenido de investigación en ciencias.
Este informe ofrece una visión integral del 4º Desafío de Comprensión de Vídeo a Nivel de Píxel en Entornos Naturales (PVUW), celebrado en conjunto con CVPR 2025. Resume los resultados del desafío, las metodologías participantes y las futuras direcciones de investigación. El desafío incluye dos categorías: MOSE, que se centra en la segmentación de objetos en vídeo de escenas complejas, y MeViS, que aborda la segmentación de vídeo guiada por movimiento y basada en lenguaje. Ambas categorías introducen nuevos conjuntos de datos más desafiantes, diseñados para reflejar mejor escenarios del mundo real. A través de una evaluación y análisis detallados, el desafío proporciona valiosas perspectivas sobre el estado del arte actual y las tendencias emergentes en la segmentación de vídeo compleja. Más información puede encontrarse en el sitio web del taller: https://pvuw.github.io/.
La aplicación de modelos de difusión en la completación de escenas 3D con LiDAR está limitada debido a la lenta velocidad de muestreo de la difusión. La destilación de puntuaciones acelera el muestreo de difusión, pero con una degradación del rendimiento, mientras que el entrenamiento posterior con optimización directa de políticas (DPO) mejora el rendimiento utilizando datos de preferencia. Este artículo propone Distillation-DPO, un novedoso marco de destilación de difusión para la completación de escenas LiDAR con alineación de preferencias. Primero, el modelo estudiante genera pares de escenas completadas con diferentes ruidos iniciales. Segundo, utilizando métricas de evaluación de escenas LiDAR como preferencia, construimos pares de muestras ganadoras y perdedoras. Esta construcción es razonable, ya que la mayoría de las métricas de escenas LiDAR son informativas pero no diferenciables para ser optimizadas directamente. Tercero, Distillation-DPO optimiza el modelo estudiante aprovechando la diferencia en las funciones de puntuación entre los modelos profesor y estudiante en las escenas completadas emparejadas. Este procedimiento se repite hasta la convergencia. Experimentos extensivos demuestran que, en comparación con los modelos de difusión de completación de escenas LiDAR más avanzados, Distillation-DPO logra una completación de escenas de mayor calidad mientras acelera la velocidad de completación en más de 5 veces. Nuestro método es el primero en explorar la adopción del aprendizaje de preferencias en la destilación, hasta donde sabemos, y proporciona ideas sobre la destilación alineada con preferencias. Nuestro código está disponible públicamente en https://github.com/happyw1nd/DistillationDPO.
La revisión por pares es un pilar fundamental del control de calidad en la publicación científica. Con la creciente carga de trabajo, el uso no intencionado de heurísticas "rápidas", denominado pensamiento perezoso, ha surgido como un problema recurrente que compromete la calidad de las revisiones. Los métodos automatizados para detectar tales heurísticas pueden ayudar a mejorar el proceso de revisión por pares. Sin embargo, existe una investigación limitada en PLN (Procesamiento del Lenguaje Natural) sobre este tema, y no hay un conjunto de datos del mundo real que respalde el desarrollo de herramientas de detección. Este trabajo presenta LazyReview, un conjunto de datos de oraciones de revisiones por pares anotadas con categorías detalladas de pensamiento perezoso. Nuestro análisis revela que los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) tienen dificultades para detectar estos casos en un entorno de cero disparos (zero-shot). Sin embargo, el ajuste fino basado en instrucciones utilizando nuestro conjunto de datos mejora significativamente el rendimiento en 10-20 puntos, destacando la importancia de los datos de entrenamiento de alta calidad. Además, un experimento controlado demuestra que las revisiones corregidas con retroalimentación sobre pensamiento perezoso son más completas y accionables que aquellas escritas sin dicha retroalimentación. Publicaremos nuestro conjunto de datos y las pautas mejoradas que pueden utilizarse para capacitar a revisores junior en la comunidad. (Código disponible aquí: https://github.com/UKPLab/arxiv2025-lazy-review)
Los recientes avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han llevado a avances significativos en la comprensión de videos. Sin embargo, los modelos existentes aún enfrentan dificultades en el procesamiento de videos largos debido a la limitación en la longitud del contexto de los LLMs y la gran cantidad de información presente en el video. Aunque algunos métodos recientes están diseñados para la comprensión de videos largos, a menudo pierden información crucial durante la compresión de tokens y tienen dificultades con modalidades adicionales como el audio. En este trabajo, proponemos un método dinámico de codificación de videos largos que utiliza la relación temporal entre los fotogramas, denominado Contexto Temporal Dinámico (TDC, por sus siglas en inglés). En primer lugar, segmentamos el video en escenas semánticamente consistentes basándonos en las similitudes entre fotogramas, luego codificamos cada fotograma en tokens utilizando codificadores visuales y de audio. En segundo lugar, proponemos un novedoso compresor de contexto temporal para reducir el número de tokens dentro de cada segmento. Específicamente, empleamos un Transformer basado en consultas para agregar tokens de video, audio y texto de instrucción en un conjunto limitado de tokens de contexto temporal. Finalmente, alimentamos los tokens estáticos de los fotogramas y los tokens de contexto temporal en el LLM para la comprensión del video. Además, para manejar videos extremadamente largos, proponemos una estrategia de cadena de pensamiento sin entrenamiento que extrae progresivamente respuestas de múltiples segmentos de video. Estas respuestas intermedias sirven como parte del proceso de razonamiento y contribuyen a la respuesta final. Realizamos extensos experimentos en puntos de referencia de comprensión general de video y comprensión de audio-video, donde nuestro método demuestra un rendimiento sólido. El código y los modelos están disponibles en https://github.com/Hoar012/TDC-Video.
Los Modelos de Visión-Lenguaje (VLMs) pueden procesar información visual y textual en múltiples formatos: textos, imágenes, textos e imágenes intercalados, o incluso videos de larga duración. En este trabajo, realizamos análisis cuantitativos y cualitativos detallados de la generación automática de resúmenes de presentaciones multimodales utilizando VLMs con diversas representaciones como entrada. A partir de estos experimentos, proponemos estrategias rentables para generar resúmenes de documentos multimodales con predominio de texto bajo diferentes límites de longitud de entrada utilizando VLMs. Demostramos que las diapositivas extraídas del flujo de video pueden utilizarse de manera beneficiosa como entrada en comparación con el video crudo, y que una representación estructurada a partir de diapositivas y transcripciones intercaladas ofrece el mejor rendimiento. Finalmente, reflexionamos y comentamos sobre la naturaleza de las interacciones intermodales en presentaciones multimodales, y compartimos sugerencias para mejorar las capacidades de los VLMs para comprender documentos de este tipo.
El recientemente propuesto Transformador con Olvido (FoX) incorpora una puerta de olvido en la atención softmax y ha demostrado un rendimiento consistentemente mejor o similar en comparación con el Transformador estándar basado en RoPE. Notablemente, muchas cabezas de atención en FoX tienden a olvidar rápidamente, haciendo que su salida en cada paso de tiempo dependa principalmente del contexto local. Basándonos en esta observación, proponemos la Poda de Cómputo Adaptativa (ACP) para FoX, un método que poda dinámicamente los cálculos que involucran dependencias entrada-salida que son fuertemente decaídas por la puerta de olvido. Esto se logra utilizando un umbral de poda establecido dinámicamente que asegura que los pesos de atención podados permanezcan insignificantes. Aplicamos ACP al preentrenamiento de modelos de lenguaje con FoX y mostramos que reduce consistentemente el número de FLOPs en la atención softmax en aproximadamente un 70% en diferentes tamaños de modelos y longitudes de contexto, lo que resulta en una mejora de aproximadamente un 10% a 35% en el rendimiento del entrenamiento. Además, las longitudes de contexto más largas generan mayores ahorros computacionales. Todas estas mejoras de velocidad se logran sin ninguna degradación del rendimiento. También realizamos varios análisis para proporcionar una comprensión más profunda de nuestro método, como examinar los patrones de poda y analizar la distribución de los ahorros de FLOPs en diferentes cabezas de atención. Nuestro código está disponible en https://github.com/zhixuan-lin/arctic-fox.
Con el éxito de la generación de imágenes, los modelos de difusión generativa se están adoptando cada vez más para tareas discriminativas, ya que la generación de píxeles proporciona una interfaz de percepción unificada. Sin embargo, reutilizar directamente el proceso de eliminación de ruido generativo para objetivos discriminativos revela brechas críticas que rara vez se han abordado anteriormente. Los modelos generativos toleran errores de muestreo intermedios si la distribución final sigue siendo plausible, pero las tareas discriminativas requieren una precisión rigurosa en todo momento, como se evidencia en tareas multimodales desafiantes como la segmentación de imágenes referenciales. Motivados por esta brecha, analizamos y mejoramos la alineación entre los procesos de difusión generativa y las tareas de percepción, centrándonos en cómo evoluciona la calidad de la percepción durante la eliminación de ruido. Encontramos: (1) los pasos iniciales de eliminación de ruido contribuyen de manera desproporcionada a la calidad de la percepción, lo que nos lleva a proponer objetivos de aprendizaje personalizados que reflejan las contribuciones variables en cada paso temporal; (2) los pasos posteriores de eliminación de ruido muestran una degradación inesperada de la percepción, destacando la sensibilidad a los cambios en la distribución de entrenamiento-eliminación de ruido, abordada por nuestra ampliación de datos adaptada a la difusión; y (3) los procesos generativos permiten de manera única la interactividad, sirviendo como interfaces de usuario controlables adaptables a indicaciones correctivas en interacciones de múltiples rondas. Nuestras ideas mejoran significativamente los modelos de percepción basados en difusión sin cambios arquitectónicos, logrando un rendimiento de vanguardia en estimación de profundidad, segmentación de imágenes referenciales y tareas de percepción generalistas. El código está disponible en https://github.com/ziqipang/ADDP.
A pesar de su uso frecuente para la detección de cambios, tanto las ConvNets como los Transformers de Visión (ViT) presentan limitaciones bien conocidas: las primeras tienen dificultades para modelar dependencias de largo alcance, mientras que los segundos son computacionalmente ineficientes, lo que dificulta su entrenamiento en conjuntos de datos a gran escala. Vision Mamba, una arquitectura basada en Modelos de Espacio de Estados, ha surgido como una alternativa que aborda estas deficiencias y ya se ha aplicado en la detección de cambios en teledetección, aunque principalmente como un backbone para la extracción de características. En este artículo se presenta el Modelo de Espacio de Estados para Cambios (Change State Space Model), diseñado específicamente para la detección de cambios al centrarse en las variaciones relevantes entre imágenes bi-temporales, filtrando eficazmente la información irrelevante. Al concentrarse únicamente en las características modificadas, se reduce el número de parámetros de la red, mejorando significativamente la eficiencia computacional mientras se mantiene un alto rendimiento en la detección y robustez frente a la degradación de la entrada. El modelo propuesto ha sido evaluado en tres conjuntos de datos de referencia, donde superó a las ConvNets, ViTs y contrapartes basadas en Mamba con una fracción de su complejidad computacional. La implementación estará disponible en https://github.com/Elman295/CSSM tras su aceptación.