Artículos de investigación en IA seleccionados diariamente con traducciones
Sora ha revelado el inmenso potencial de la arquitectura del Transformer de Difusión (DiT) en la generación de videos de escena única. Sin embargo, la tarea más desafiante de la generación de videos de múltiples escenas, que ofrece aplicaciones más amplias, sigue siendo relativamente poco explorada. Para cerrar esta brecha, proponemos Mask^2DiT, un enfoque novedoso que establece una alineación granular uno a uno entre segmentos de video y sus anotaciones de texto correspondientes. Específicamente, introducimos una máscara binaria simétrica en cada capa de atención dentro de la arquitectura DiT, asegurando que cada anotación de texto se aplique exclusivamente a su respectivo segmento de video mientras se preserva la coherencia temporal entre los tokens visuales. Este mecanismo de atención permite una alineación precisa a nivel de segmento entre texto y visuales, permitiendo que la arquitectura DiT maneje efectivamente tareas de generación de videos con un número fijo de escenas. Para dotar aún más a la arquitectura DiT con la capacidad de generar escenas adicionales basadas en las existentes, incorporamos una máscara condicional a nivel de segmento, que condiciona cada nuevo segmento generado en los segmentos de video anteriores, permitiendo así la extensión autoregresiva de escenas. Tanto los experimentos cualitativos como cuantitativos confirman que Mask^2DiT sobresale en mantener la consistencia visual entre segmentos mientras asegura la alineación semántica entre cada segmento y su descripción de texto correspondiente. Nuestra página del proyecto es https://tianhao-qi.github.io/Mask2DiTProject.
En este informe, presentamos Qwen2.5-Omni, un modelo multimodal de extremo a extremo diseñado para percibir diversas modalidades, incluyendo texto, imágenes, audio y video, mientras genera simultáneamente respuestas en texto y habla natural de manera continua. Para habilitar el flujo continuo de entradas de información multimodal, tanto los codificadores de audio como los visuales utilizan un enfoque de procesamiento por bloques. Para sincronizar las marcas de tiempo de las entradas de video con el audio, organizamos el audio y el video de manera secuencial e intercalada, y proponemos un nuevo enfoque de incrustación posicional denominado TMRoPE (Time-aligned Multimodal RoPE). Para generar texto y habla de manera concurrente evitando la interferencia entre ambas modalidades, proponemos la arquitectura Thinker-Talker. En este marco, Thinker funciona como un modelo de lenguaje grande encargado de la generación de texto, mientras que Talker es un modelo autorregresivo de doble pista que utiliza directamente las representaciones ocultas de Thinker para producir tokens de audio como salida. Tanto el modelo Thinker como el Talker están diseñados para ser entrenados e inferidos de manera integral. Para decodificar tokens de audio de forma continua, introducimos un DiT de ventana deslizante que limita el campo receptivo, con el objetivo de reducir el retardo inicial del paquete. Qwen2.5-Omni es comparable con Qwen2.5-VL de tamaño similar y supera a Qwen2-Audio. Además, Qwen2.5-Omni logra un rendimiento de vanguardia en benchmarks multimodales como Omni-Bench. Cabe destacar que el rendimiento de Qwen2.5-Omni en la ejecución de instrucciones de habla de extremo a extremo es comparable a sus capacidades con entradas de texto, como lo demuestran benchmarks como MMLU y GSM8K. En cuanto a la generación de habla, el Talker continuo de Qwen2.5-Omni supera a la mayoría de las alternativas existentes, tanto continuas como no continuas, en robustez y naturalidad.
Este informe presenta Wan, una suite integral y abierta de modelos fundamentales de video diseñada para impulsar los límites de la generación de video. Basado en el paradigma predominante de transformadores de difusión, Wan logra avances significativos en capacidades generativas a través de una serie de innovaciones, incluyendo nuestro novedoso VAE, estrategias escalables de pre-entrenamiento, curación de datos a gran escala y métricas de evaluación automatizadas. Estas contribuciones mejoran colectivamente el rendimiento y la versatilidad del modelo. Específicamente, Wan se caracteriza por cuatro características clave: Rendimiento Líder: El modelo de 14B de Wan, entrenado en un vasto conjunto de datos que incluye miles de millones de imágenes y videos, demuestra las leyes de escalamiento de la generación de video con respecto tanto al tamaño de los datos como al del modelo. Supera consistentemente a los modelos de código abierto existentes, así como a las soluciones comerciales de vanguardia en múltiples puntos de referencia internos y externos, mostrando una superioridad de rendimiento clara y significativa. Integralidad: Wan ofrece dos modelos capaces, es decir, de 1.3B y 14B parámetros, para eficiencia y efectividad respectivamente. También cubre múltiples aplicaciones posteriores, incluyendo imagen a video, edición de video guiada por instrucciones y generación de video personalizado, abarcando hasta ocho tareas. Eficiencia de Grado Consumidor: El modelo de 1.3B demuestra una excepcional eficiencia de recursos, requiriendo solo 8.19 GB de VRAM, lo que lo hace compatible con una amplia gama de GPUs de grado consumidor. Apertura: Hemos liberado el código fuente de toda la serie de Wan, incluyendo el código fuente y todos los modelos, con el objetivo de fomentar el crecimiento de la comunidad de generación de video. Esta apertura busca expandir significativamente las posibilidades creativas de la producción de video en la industria y proporcionar a la academia modelos fundamentales de video de alta calidad. Todo el código y los modelos están disponibles en https://github.com/Wan-Video/Wan2.1.
Presentamos Gemma 3, una adición multimodal a la familia Gemma de modelos ligeros y abiertos, que abarcan desde 1 hasta 27 mil millones de parámetros. Esta versión introduce capacidades de comprensión visual, una mayor cobertura de idiomas y un contexto más extenso, de al menos 128 mil tokens. También modificamos la arquitectura del modelo para reducir la memoria de la caché KV, que tiende a incrementarse exponencialmente con contextos largos. Esto se logra aumentando la proporción de capas de atención local frente a global y manteniendo un alcance corto en la atención local. Los modelos Gemma 3 se entrenan mediante destilación y alcanzan un rendimiento superior al de Gemma 2, tanto en versiones preentrenadas como ajustadas por instrucciones. En particular, nuestra novedosa receta de posentrenamiento mejora significativamente las habilidades en matemáticas, conversación, seguimiento de instrucciones y multilingüismo, haciendo que Gemma3-4B-IT sea competitiva con Gemma2-27B-IT y que Gemma3-27B-IT sea comparable a Gemini-1.5-Pro en diversos benchmarks. Liberamos todos nuestros modelos para la comunidad.
Si bien los modelos recientes de visión-lenguaje-acción entrenados en diversos conjuntos de datos robóticos exhiben capacidades prometedoras de generalización con datos limitados en el dominio, su dependencia de cabezales de acción compactos para predecir acciones discretizadas o continuas limita la adaptabilidad a espacios de acción heterogéneos. Presentamos Dita, un marco escalable que aprovecha arquitecturas Transformer para desruir directamente secuencias de acción continuas mediante un proceso unificado de difusión multimodal. A diferencia de métodos anteriores que condicionan la desruido en incrustaciones fusionadas a través de redes superficiales, Dita emplea condicionamiento en contexto, permitiendo una alineación detallada entre acciones desruidas y tokens visuales crudos de observaciones históricas. Este diseño modela explícitamente los deltas de acción y los matices ambientales. Al escalar el desruidor de acción por difusión junto con la escalabilidad del Transformer, Dita integra efectivamente conjuntos de datos de múltiples embodiments a través de diversas perspectivas de cámara, escenas de observación, tareas y espacios de acción. Esta sinergia mejora la robustez frente a varias variaciones y facilita la ejecución exitosa de tareas de largo horizonte. Las evaluaciones en extensos puntos de referencia demuestran un rendimiento de vanguardia o comparable en simulación. Notablemente, Dita logra una adaptación robusta en el mundo real a variaciones ambientales y tareas complejas de largo horizonte mediante ajuste fino con 10 ejemplos, utilizando únicamente entradas de cámara en tercera persona. La arquitectura establece una base versátil, ligera y de código abierto para el aprendizaje de políticas robóticas generalistas. Página del proyecto: https://robodita.github.io.
Presentamos Open Deep Search (ODS) para cerrar la creciente brecha entre las soluciones de búsqueda de IA propietarias, como Sonar Reasoning Pro de Perplexity y GPT-4o Search Preview de OpenAI, y sus contrapartes de código abierto. La principal innovación introducida en ODS es mejorar las capacidades de razonamiento de los últimos modelos de lenguaje grandes (LLM) de código abierto con agentes de razonamiento que pueden utilizar herramientas de búsqueda web de manera juiciosa para responder consultas. Concretamente, ODS consta de dos componentes que funcionan con un LLM base elegido por el usuario: Open Search Tool y Open Reasoning Agent. Open Reasoning Agent interpreta la tarea dada y la completa orquestando una secuencia de acciones que incluye llamar a herramientas, una de las cuales es Open Search Tool. Open Search Tool es una novedosa herramienta de búsqueda web que supera a sus contrapartes propietarias. Junto con potentes LLM de razonamiento de código abierto, como DeepSeek-R1, ODS casi iguala y, en ocasiones, supera los mejores baselines existentes en dos benchmarks: SimpleQA y FRAMES. Por ejemplo, en el benchmark de evaluación FRAMES, ODS mejora el mejor baseline existente del recientemente lanzado GPT-4o Search Preview en un 9.7% en precisión. ODS es un marco general para aumentar de manera fluida cualquier LLM —por ejemplo, DeepSeek-R1, que alcanza un 82.4% en SimpleQA y un 30.1% en FRAMES— con capacidades de búsqueda y razonamiento para lograr un rendimiento de vanguardia: 88.3% en SimpleQA y 75.3% en FRAMES.
El razonamiento espacial multi-paso implica comprender y razonar sobre relaciones espaciales a través de múltiples pasos secuenciales, lo cual es crucial para abordar aplicaciones complejas del mundo real, como la manipulación robótica, la navegación autónoma y el ensamblaje automatizado. Para evaluar qué tan bien los Modelos de Lenguaje Multimodal de Gran Escala (MLLMs, por sus siglas en inglés) actuales han adquirido esta capacidad fundamental, presentamos LEGO-Puzzles, un punto de referencia escalable diseñado para evaluar tanto la comprensión espacial como el razonamiento secuencial en MLLMs a través de tareas basadas en LEGO. LEGO-Puzzles consta de 1,100 muestras cuidadosamente seleccionadas de preguntas y respuestas visuales (VQA, por sus siglas en inglés) que abarcan 11 tareas distintas, desde la comprensión espacial básica hasta el razonamiento multi-paso complejo. Basándonos en LEGO-Puzzles, realizamos una evaluación exhaustiva de los MLLMs más avanzados y descubrimos limitaciones significativas en sus capacidades de razonamiento espacial: incluso los MLLMs más potentes solo pueden responder aproximadamente la mitad de los casos de prueba, mientras que los participantes humanos logran una precisión superior al 90%. Además de las tareas VQA, evaluamos las habilidades de los MLLMs para generar imágenes de LEGO siguiendo ilustraciones de ensamblaje. Nuestros experimentos muestran que solo Gemini-2.0-Flash y GPT-4o exhiben una capacidad limitada para seguir estas instrucciones, mientras que otros MLLMs replican la imagen de entrada o generan resultados completamente irrelevantes. En general, LEGO-Puzzles expone deficiencias críticas en la comprensión espacial y las capacidades de razonamiento secuencial de los MLLMs existentes, y subraya la necesidad de avances adicionales en el razonamiento espacial multimodal.
Los recientes avances en los modelos multimodales de gran escala han llevado al surgimiento de capacidades generalistas notables en dominios digitales, aunque su traslado a agentes físicos como los robots sigue siendo un desafío significativo. Este informe presenta una nueva familia de modelos de IA diseñados específicamente para robótica y construidos sobre la base de Gemini 2.0. Presentamos Gemini Robotics, un modelo generalista avanzado de Visión-Lenguaje-Acción (VLA) capaz de controlar robots directamente. Gemini Robotics ejecuta movimientos fluidos y reactivos para abordar una amplia gama de tareas de manipulación complejas, siendo además robusto frente a variaciones en los tipos y posiciones de objetos, manejando entornos no vistos previamente y siguiendo instrucciones diversas y de vocabulario abierto. Demostramos que, con un ajuste fino adicional, Gemini Robotics puede especializarse en nuevas capacidades, incluyendo la resolución de tareas de largo alcance y alta destreza, el aprendizaje de tareas de corto alcance a partir de tan solo 100 demostraciones y la adaptación a configuraciones de robots completamente nuevas. Esto es posible porque Gemini Robotics se construye sobre el modelo Gemini Robotics-ER, el segundo modelo que presentamos en este trabajo. Gemini Robotics-ER (Razonamiento Embebido) extiende las capacidades de razonamiento multimodal de Gemini al mundo físico, con una comprensión espacial y temporal mejorada. Esto permite capacidades relevantes para la robótica, como la detección de objetos, el señalamiento, la predicción de trayectorias y agarres, así como la correspondencia multivista y la predicción de cajas delimitadoras 3D. Mostramos cómo esta combinación novedosa puede respaldar una variedad de aplicaciones robóticas. También discutimos y abordamos consideraciones importantes de seguridad relacionadas con esta nueva clase de modelos fundamentales para robótica. La familia Gemini Robotics marca un paso sustancial hacia el desarrollo de robots de propósito general que materializan el potencial de la IA en el mundo físico.
Classifier-Free Guidance (CFG) es una técnica fundamental en el entrenamiento de modelos de difusión condicionales. La práctica común para el entrenamiento basado en CFG es utilizar una única red para aprender tanto la predicción de ruido condicional como la incondicional, con una pequeña tasa de dropout para la condición. Sin embargo, observamos que el aprendizaje conjunto del ruido incondicional con un ancho de banda limitado durante el entrenamiento resulta en priors deficientes para el caso incondicional. Más importante aún, estas predicciones deficientes de ruido incondicional se convierten en una razón seria para la degradación de la calidad de la generación condicional. Inspirados por el hecho de que la mayoría de los modelos condicionales basados en CFG se entrenan mediante el ajuste fino de un modelo base con mejor generación incondicional, primero demostramos que simplemente reemplazar el ruido incondicional en CFG con el predicho por el modelo base puede mejorar significativamente la generación condicional. Además, mostramos que un modelo de difusión distinto al utilizado para entrenar el modelo ajustado puede emplearse para el reemplazo del ruido incondicional. Verificamos experimentalmente nuestra afirmación con una variedad de modelos condicionales basados en CFG para la generación de imágenes y videos, incluyendo Zero-1-to-3, Versatile Diffusion, DiT, DynamiCrafter e InstructPix2Pix.
La sinergia entre los modelos generativos y discriminativos está recibiendo una atención creciente. Mientras que el entrenamiento previo de lenguaje e imagen contrastivo (CLIP) discriminativo sobresale en semántica de alto nivel, tiene dificultades para percibir detalles visuales de grano fino. Generalmente, para mejorar las representaciones, los modelos generativos toman las características visuales de CLIP como condiciones para la reconstrucción. Sin embargo, el principio subyacente sigue siendo poco explorado. En este trabajo, encontramos empíricamente que las generaciones visualmente perfectas no siempre son óptimas para la mejora de representaciones. La esencia radica en extraer efectivamente conocimiento de grano fino de los modelos generativos mientras se mitiga la información irrelevante. Para explorar factores críticos, profundizamos en tres aspectos: (1) Mecanismos de condicionamiento: Descubrimos que incluso un pequeño número de tokens locales puede reducir drásticamente la dificultad de la reconstrucción, llevando a un colapso en el entrenamiento. Por lo tanto, concluimos que utilizar solo tokens visuales globales como condiciones es la estrategia más efectiva. (2) Configuraciones de eliminación de ruido: Observamos que el entrenamiento de extremo a extremo introduce información extraña. Para abordar esto, proponemos una estrategia de entrenamiento en dos etapas para priorizar el aprendizaje de conocimiento visual útil. Además, demostramos que los eliminadores de ruido ligeros pueden producir mejoras notables. (3) Paradigmas de generación: Exploramos tanto eliminadores de ruido continuos como discretos con resultados deseables, validando la versatilidad de nuestro método. A través de nuestras exploraciones en profundidad, finalmente hemos llegado a un método efectivo, denominado GenHancer, que supera consistentemente a las técnicas anteriores en el benchmark MMVP-VLM, por ejemplo, un 6.0% en OpenAICLIP. El CLIP mejorado puede integrarse en modelos de lenguaje multimodal de gran escala para un mejor rendimiento centrado en la visión. Todos los modelos y códigos están disponibles públicamente.
Recientemente, los modelos de última generación para la generación de imágenes a partir de texto, como Flux e Ideogram 2.0, han logrado avances significativos en la representación visual de texto a nivel de oraciones. En este artículo, nos centramos en los escenarios más desafiantes de la representación visual de texto a nivel de artículos y abordamos una tarea novedosa: la generación de contenido empresarial de alta calidad, que incluye infografías y diapositivas, basada en indicaciones descriptivas a nivel de artículo proporcionadas por el usuario y diseños ultra-densos. Los desafíos fundamentales son dos: longitudes de contexto significativamente mayores y la escasez de datos de contenido empresarial de alta calidad. A diferencia de la mayoría de los trabajos anteriores, que se centran en un número limitado de subregiones y indicaciones a nivel de oración, garantizar la adherencia precisa a diseños ultra-densos con decenas o incluso cientos de subregiones en contenido empresarial es mucho más desafiante. Hacemos dos contribuciones técnicas clave: (i) la construcción de un conjunto de datos escalable y de alta calidad de contenido empresarial, es decir, Infographics-650K, equipado con diseños ultra-densos e indicaciones mediante la implementación de un esquema de generación de infografías aumentado por recuperación capa por capa; y (ii) un esquema de atención cruzada guiada por diseño, que inyecta decenas de indicaciones por región en un conjunto de espacios latentes de regiones recortadas según los diseños ultra-densos, y refina cada subregión de manera flexible durante la inferencia utilizando un CFG condicional al diseño. Demostramos los sólidos resultados de nuestro sistema en comparación con sistemas SOTA anteriores como Flux y SD3 en nuestro conjunto de indicaciones BizEval. Además, realizamos experimentos de ablación exhaustivos para verificar la efectividad de cada componente. Esperamos que nuestro Infographics-650K y BizEval construidos puedan alentar a la comunidad en general a avanzar en el progreso de la generación de contenido empresarial.
Presentamos LogQuant, una técnica innovadora de cuantización de 2 bits para la caché KV en la inferencia de modelos de lenguaje grande (LLM), que ofrece ahorros significativos de memoria mientras mantiene un rendimiento superior. Métodos anteriores asumen que los tokens posteriores son más importantes o intentan predecir tokens importantes basándose en patrones de atención previos. Sin embargo, ambos enfoques pueden resultar en cuellos de botella de rendimiento o predicciones erróneas frecuentes. LogQuant adopta un enfoque diferente. Al aplicar un mecanismo de filtrado basado en logaritmos, comprime selectivamente la caché KV en todo el contexto, logrando un mejor rendimiento con la misma o incluso menor huella de memoria en comparación con métodos existentes. En pruebas de referencia, aumenta el rendimiento en un 25% y el tamaño del lote en un 60% sin incrementar el consumo de memoria. Para tareas desafiantes como Matemáticas y Completado de Código, LogQuant mejora la precisión entre un 40% y un 200% con la misma tasa de compresión, superando a técnicas comparables. LogQuant se integra sin esfuerzo con marcos de inferencia populares como la biblioteca transformers de Python. La implementación está disponible en https://github.com/Concyclics/LogQuantKV.
Presentamos MCTS-RAG, un enfoque novedoso que mejora las capacidades de razonamiento de modelos de lenguaje pequeños en tareas intensivas en conocimiento al aprovechar la generación aumentada por recuperación (RAG) para proporcionar contexto relevante y la Búsqueda en Árbol de Monte Carlo (MCTS) para refinar las rutas de razonamiento. MCTS-RAG integra dinámicamente la recuperación y el razonamiento a través de un proceso iterativo de toma de decisiones. A diferencia de los métodos RAG estándar, que suelen recuperar información de manera independiente al razonamiento y, por lo tanto, integran el conocimiento de manera subóptima, o del razonamiento MCTS convencional, que depende únicamente del conocimiento interno del modelo sin hechos externos, MCTS-RAG combina el razonamiento estructurado con la recuperación adaptativa. Este enfoque integrado mejora la toma de decisiones, reduce las alucinaciones y garantiza una mayor precisión factual y consistencia en las respuestas. Los resultados experimentales en múltiples conjuntos de datos de razonamiento e intensivos en conocimiento (es decir, ComplexWebQA, GPQA y FoolMeTwice) muestran que nuestro método permite que los modelos de lenguaje de pequeña escala alcancen un rendimiento comparable al de modelos de lenguaje de vanguardia como GPT-4 al escalar eficazmente el cómputo en tiempo de inferencia, estableciendo un nuevo estándar para el razonamiento en modelos de pequeña escala.
Los modelos de difusión han logrado avances notables en el campo de la generación de videos. Sin embargo, su naturaleza iterativa de eliminación de ruido requiere un gran número de pasos de inferencia para generar un video, lo que resulta lento y computacionalmente costoso. En este artículo, comenzamos con un análisis detallado de los desafíos presentes en los métodos existentes de destilación de difusión y proponemos un método novedoso y eficiente, denominado AccVideo, para reducir los pasos de inferencia y acelerar los modelos de difusión de videos utilizando un conjunto de datos sintético. Aprovechamos el modelo de difusión de videos preentrenado para generar múltiples trayectorias válidas de eliminación de ruido como nuestro conjunto de datos sintético, lo que elimina el uso de puntos de datos inútiles durante la destilación. Basándonos en el conjunto de datos sintético, diseñamos una guía de pocos pasos basada en trayectorias que utiliza puntos clave de las trayectorias de eliminación de ruido para aprender la asignación de ruido a video, permitiendo la generación de videos en menos pasos. Además, dado que el conjunto de datos sintético captura la distribución de datos en cada paso de difusión, introducimos una estrategia de entrenamiento adversarial para alinear la distribución de salida del modelo estudiante con la de nuestro conjunto de datos sintético, mejorando así la calidad del video. Experimentos extensos demuestran que nuestro modelo logra una mejora de 8.5x en la velocidad de generación en comparación con el modelo maestro, manteniendo un rendimiento comparable. En comparación con métodos anteriores de aceleración, nuestro enfoque es capaz de generar videos con mayor calidad y resolución, es decir, 5 segundos, 720x1280, 24 fps.
La transición del razonamiento de Sistema 1 a Sistema 2 en los modelos de lenguaje grandes (LLMs) ha marcado avances significativos en el manejo de tareas complejas mediante un pensamiento deliberado e iterativo. Sin embargo, este progreso suele venir a costa de la eficiencia, ya que los modelos tienden a sobrepensar, generando pasos de razonamiento redundantes sin mejoras proporcionales en la calidad de la salida. El razonamiento de Largo a Corto (L2S) ha surgido como una solución prometedora a este desafío, buscando equilibrar la profundidad del razonamiento con la eficiencia práctica. Aunque enfoques existentes, como el ajuste fino supervisado (SFT), el aprendizaje por refuerzo (RL) y la ingeniería de prompts, han mostrado potencial, son computacionalmente costosos o inestables. La fusión de modelos, por otro lado, ofrece una alternativa rentable y robusta al integrar las capacidades de pensamiento rápido de los modelos de Sistema 1 con el razonamiento metódico de los modelos de Sistema 2. En este trabajo, presentamos un estudio empírico exhaustivo sobre la fusión de modelos para el razonamiento L2S, explorando diversas metodologías, incluyendo la fusión basada en vectores de tareas, SVD y activaciones informadas. Nuestros experimentos revelan que la fusión de modelos puede reducir la longitud promedio de las respuestas hasta en un 55% mientras se preserva o incluso mejora el rendimiento base. También identificamos una fuerte correlación entre la escala del modelo y la eficacia de la fusión mediante evaluaciones extensas en modelos de 1.5B/7B/14B/32B. Además, investigamos la capacidad del modelo fusionado para autocriticarse y autocorregirse, así como su longitud de respuesta adaptativa según la complejidad de la tarea. Nuestros hallazgos destacan la fusión de modelos como un paradigma altamente eficiente y efectivo para el razonamiento L2S, ofreciendo una solución práctica al problema del sobrepensamiento mientras se mantiene la robustez del razonamiento de Sistema 2. Este trabajo puede encontrarse en Github https://github.com/hahahawu/Long-to-Short-via-Model-Merging.
Los recientes avances en Modelos Multimodales de Gran Escala (LMMs) han mostrado un gran potencial en los Sistemas de Conducción Autónoma (ADS). Sin embargo, su aplicación directa a los ADS se ve obstaculizada por desafíos como la mala interpretación del conocimiento sobre tráfico, las condiciones complejas de las carreteras y los diversos estados de los vehículos. Para abordar estos desafíos, proponemos el uso de la Edición de Conocimiento, que permite realizar modificaciones específicas en el comportamiento de un modelo sin necesidad de un reentrenamiento completo. Además, presentamos ADS-Edit, un conjunto de datos de edición de conocimiento multimodal diseñado específicamente para ADS, que incluye diversos escenarios del mundo real, múltiples tipos de datos y métricas de evaluación exhaustivas. Realizamos experimentos exhaustivos y obtenemos varias conclusiones interesantes. Esperamos que nuestro trabajo contribuya al avance de las aplicaciones de edición de conocimiento en el campo de la conducción autónoma. El código y los datos están disponibles en https://github.com/zjunlp/EasyEdit.
Los modelos de recompensa supervisados por procesos funcionan como una herramienta detallada que proporciona retroalimentación paso a paso sobre las respuestas del modelo, facilitando la selección efectiva de trayectorias de razonamiento para tareas complejas. A pesar de sus ventajas, la evaluación de los modelos de recompensa por procesos (PRMs) sigue siendo poco explorada, especialmente en el dominio multimodal. Para abordar esta brecha, este artículo primero evalúa los modelos de lenguaje de visión a gran escala (VLLMs) actuales como dos tipos de modelos de recompensa: modelos de recompensa de salida (ORMs) y modelos de recompensa por procesos (PRMs) en múltiples benchmarks de visión y lenguaje, lo que revela que ni los ORMs ni los PRMs superan consistentemente en todas las tareas, y que los VLLMs superiores no necesariamente ofrecen un mejor rendimiento en la asignación de recompensas. Para avanzar en la evaluación, introducimos ViLBench, un benchmark de visión y lenguaje diseñado para requerir señales intensivas de recompensa por procesos. Notablemente, GPT-4o de OpenAI con Cadena de Pensamiento (CoT) alcanza solo un 27.3% de precisión, lo que indica el desafío que este benchmark representa para los VLLMs actuales. Finalmente, mostramos preliminarmente una vía prometedora para cerrar la brecha entre los VLLMs generales y los modelos de recompensa: al recopilar 73.6K datos de recompensa por procesos de visión y lenguaje utilizando un algoritmo mejorado de búsqueda en árbol, nuestro modelo de 3B logra una mejora promedio del 3.3% sobre CoT estándar y hasta un 2.5% en comparación con su contraparte no entrenada en ViLBench, seleccionando las generaciones de OpenAI o1. Publicamos las implementaciones en https://ucsc-vlaa.github.io/ViLBench con nuestro código, modelo y datos.
Se ha demostrado que los modelos de visión por computadora exhiben y amplifican sesgos en una amplia variedad de conjuntos de datos y tareas. Los métodos existentes para cuantificar el sesgo en modelos de clasificación se centran principalmente en la distribución del conjunto de datos y el rendimiento del modelo en subgrupos, pasando por alto el funcionamiento interno del modelo. Introducimos la métrica Attention-IoU (Intersección sobre Unión de Atención) y puntuaciones relacionadas, que utilizan mapas de atención para revelar sesgos dentro de las representaciones internas de un modelo e identificar características de la imagen que podrían estar causando los sesgos. Primero, validamos Attention-IoU en el conjunto de datos sintético Waterbirds, mostrando que la métrica mide con precisión el sesgo del modelo. Luego analizamos el conjunto de datos CelebA, encontrando que Attention-IoU descubre correlaciones más allá de las disparidades en la precisión. A través de una investigación de atributos individuales utilizando el atributo protegido de "Hombre", examinamos las distintas formas en que los sesgos están representados en CelebA. Finalmente, al submuestrear el conjunto de entrenamiento para cambiar las correlaciones de atributos, demostramos que Attention-IoU revela posibles variables de confusión no presentes en las etiquetas del conjunto de datos.
En muchas aplicaciones de robótica y realidad virtual/aumentada, los movimientos rápidos de la cámara generan un alto nivel de desenfoque por movimiento, lo que hace que los métodos existentes de estimación de la pose de la cámara fallen. En este trabajo, proponemos un marco novedoso que aprovecha el desenfoque por movimiento como una señal rica para la estimación del movimiento, en lugar de tratarlo como un artefacto no deseado. Nuestro enfoque funciona prediciendo un campo de flujo de movimiento denso y un mapa de profundidad monocular directamente a partir de una única imagen con desenfoque por movimiento. Luego, recuperamos la velocidad instantánea de la cámara resolviendo un problema de mínimos cuadrados lineales bajo el supuesto de movimiento pequeño. En esencia, nuestro método produce una medición similar a la de una IMU que captura de manera robusta movimientos rápidos y agresivos de la cámara. Para entrenar nuestro modelo, construimos un conjunto de datos a gran escala con desenfoque por movimiento sintético realista derivado de ScanNet++v2 y refinamos aún más nuestro modelo entrenándolo de extremo a extremo con datos reales utilizando nuestra canalización completamente diferenciable. Evaluaciones exhaustivas en benchmarks del mundo real demuestran que nuestro método logra estimaciones de velocidad angular y traslacional de vanguardia, superando a métodos actuales como MASt3R y COLMAP.
La destilación de conocimiento puede ser una técnica rentable para transferir conocimiento en Modelos de Lenguaje de Gran Escala, si los logits de salida del profesor pueden precomputarse y almacenarse en caché. Sin embargo, la aplicación exitosa de esto durante el preentrenamiento sigue siendo en gran parte inexplorada. En este trabajo, demostramos que los enfoques ingenuos para la destilación de conocimiento disperso, como almacenar en caché las probabilidades Top-K, aunque intuitivos, proporcionan estimaciones sesgadas de la distribución de probabilidad del profesor al estudiante, lo que resulta en un rendimiento y calibración subóptimos. Proponemos un método basado en muestreo por importancia llamado `Destilación de Conocimiento por Muestreo Aleatorio', que proporciona estimaciones no sesgadas, preserva el gradiente en expectativa y requiere almacenar logits significativamente más dispersos. Nuestro método permite un entrenamiento más rápido de los modelos estudiantes con un sobrecosto marginal (<10%) en comparación con el entrenamiento basado en entropía cruzada, manteniendo un rendimiento competitivo en comparación con la destilación completa, en un rango de tamaños de modelo desde 300M hasta 3B.
Los recientes avances en modelos autoregresivos y de difusión han logrado un rendimiento sólido en la generación de imágenes con palabras cortas de texto en escenas. Sin embargo, generar texto coherente y extenso en imágenes, como párrafos en diapositivas o documentos, sigue siendo un desafío importante para los modelos generativos actuales. Presentamos el primer trabajo específicamente enfocado en la generación de imágenes con texto extenso, abordando una brecha crítica en los sistemas existentes de texto a imagen que generalmente manejan solo frases breves u oraciones individuales. A través de un análisis exhaustivo de los modelos de generación autoregresiva de vanguardia, identificamos al tokenizador de imágenes como un cuello de botella crítico en la calidad de la generación de texto. Para abordar esto, introducimos un novedoso tokenizador binario centrado en texto, optimizado para capturar características detalladas de texto en escenas. Aprovechando nuestro tokenizador, desarrollamos \ModelName, un modelo autoregresivo multimodal que sobresale en la generación de imágenes de texto extenso de alta calidad con una fidelidad sin precedentes. Nuestro modelo ofrece una robusta capacidad de control, permitiendo la personalización de propiedades del texto como estilo de fuente, tamaño, color y alineación. Experimentos extensos demuestran que \ModelName~supera significativamente a SD3.5 Large~sd3 y GPT4o~gpt4o con DALL-E 3~dalle3 en la generación precisa, consistente y flexible de texto extenso. Más allá de sus logros técnicos, \ModelName~abre emocionantes oportunidades para aplicaciones innovadoras como la generación intercalada de documentos y presentaciones de PowerPoint, estableciendo una nueva frontera en la generación de imágenes con texto extenso.
El aprendizaje por refuerzo (RL, por sus siglas en inglés) es un componente crítico del posentrenamiento de modelos de lenguaje grandes (LLM). Sin embargo, los algoritmos on-policy existentes utilizados para el posentrenamiento son inherentemente incompatibles con el uso de búferes de experiencia (replay buffers), los cuales pueden poblarse de manera escalable mediante actores off-policy distribuidos para mejorar la exploración a medida que aumenta el cómputo. Proponemos obtener eficientemente este beneficio de los búferes de experiencia mediante Trajectory Balance with Asynchrony (TBA), un sistema de RL para LLM altamente escalable. A diferencia de los enfoques existentes, TBA utiliza una mayor fracción del cómputo en la búsqueda, generando constantemente datos off-policy para un búfer de experiencia central. Un nodo de entrenamiento muestrea simultáneamente datos de este búfer basándose en la recompensa o la antigüedad para actualizar la política utilizando Trajectory Balance (TB), un objetivo de RL que busca diversidad introducido para GFlowNets. TBA ofrece tres ventajas clave: (1) entrenamiento y búsqueda desacoplados, acelerando el tiempo de entrenamiento en 4x o más; (2) mayor diversidad mediante muestreo off-policy a gran escala; y (3) búsqueda escalable en entornos de recompensas escasas. En tareas de razonamiento matemático, ajuste de preferencias y pruebas de red teaming automatizadas (tareas representativas y diversas de posentrenamiento), TBA produce mejoras en velocidad y rendimiento frente a líneas base sólidas.
La estimación de pose 3D/6D a nivel de categoría es un paso crucial hacia la comprensión integral de escenas 3D, lo que permitiría una amplia gama de aplicaciones en robótica e IA encarnada. Trabajos recientes han explorado modelos de mallas neuronales que abordan una variedad de tareas 2D y 3D desde una perspectiva de análisis por síntesis. A pesar de la mayor robustez frente a oclusiones parciales y cambios de dominio, estos métodos dependían en gran medida de anotaciones 3D para el aprendizaje contrastivo de partes, lo que los limita a un conjunto reducido de categorías y dificulta su escalabilidad eficiente. En este trabajo, presentamos DINeMo, un novedoso modelo de malla neuronal que se entrena sin anotaciones 3D al aprovechar pseudo-correspondencias obtenidas de grandes modelos visuales fundamentales. Adoptamos un método bidireccional de generación de pseudo-correspondencias, que produce pseudo-correspondencias utilizando tanto características locales de apariencia como información de contexto global. Los resultados experimentales en conjuntos de datos de automóviles demuestran que nuestro DINeMo supera ampliamente a los métodos anteriores de estimación de pose 3D con cero y pocos ejemplos, reduciendo la brecha con los métodos completamente supervisados en un 67.3%. Nuestro DINeMo también escala de manera efectiva y eficiente al incorporar más imágenes no etiquetadas durante el entrenamiento, lo que demuestra las ventajas sobre los métodos de aprendizaje supervisado que dependen de anotaciones 3D. Nuestra página del proyecto está disponible en https://analysis-by-synthesis.github.io/DINeMo/.
La estimación de movimiento en videos es un problema fundamental en visión por computadora con múltiples aplicaciones posteriores, incluyendo la generación controlada de videos y la robótica. Las soluciones actuales se entrenan principalmente utilizando datos sintéticos o requieren ajustes de heurísticas específicas para cada situación, lo que limita inherentemente las capacidades de estos modelos en contextos del mundo real. A pesar de los recientes avances en el aprendizaje autosupervisado a gran escala a partir de videos, el aprovechamiento de tales representaciones para la estimación de movimiento sigue siendo relativamente poco explorado. En este trabajo, desarrollamos Opt-CWM, una técnica autosupervisada para la estimación de flujo y oclusión a partir de un modelo preentrenado de predicción de fotogramas siguientes. Opt-CWM funciona aprendiendo a optimizar sondas contrafactuales que extraen información de movimiento de un modelo base de video, evitando la necesidad de heurísticas fijas mientras se entrena con entradas de video no restringidas. Logramos un rendimiento de vanguardia en la estimación de movimiento en videos del mundo real sin requerir datos etiquetados.
Los modelos basados en puntuación o de difusión generan datos tabulares de alta calidad, superando a los modelos basados en GAN y VAE. Sin embargo, estos métodos requieren un tiempo de entrenamiento considerable. En este artículo, presentamos RecTable, que utiliza el modelado de flujo rectificado, aplicado en áreas como la generación de texto a imagen y texto a video. RecTable se caracteriza por una arquitectura simple que consta de unos pocos bloques de unidades lineales con compuerta apilados. Además, nuestras estrategias de entrenamiento también son sencillas, incorporando una distribución de ruido de tipo mixto y una distribución de pasos de tiempo logit-normal. Nuestros experimentos demuestran que RecTable logra un rendimiento competitivo en comparación con varios modelos de difusión y basados en puntuación de última generación, mientras reduce el tiempo de entrenamiento requerido. Nuestro código está disponible en https://github.com/fmp453/rectable.
El análisis de la estructura de documentos, también conocido como análisis de diseño de documentos, es crucial para comprender tanto la disposición física como la estructura lógica de los documentos, sirviendo para la recuperación de información, la síntesis de documentos, la extracción de conocimiento, entre otros. El Análisis Jerárquico de la Estructura de Documentos (HDSA, por sus siglas en inglés) tiene como objetivo específico restaurar la estructura jerárquica de los documentos creados utilizando software de autoría con esquemas jerárquicos. Investigaciones previas han seguido principalmente dos enfoques: uno se centra en abordar subtareas específicas del HDSA de manera aislada, como la detección de tablas o la predicción del orden de lectura, mientras que el otro adopta un marco unificado que utiliza múltiples ramas o módulos, cada uno diseñado para abordar una tarea distinta. En este trabajo, proponemos un enfoque unificado de predicción de relaciones para el HDSA, llamado UniHDSA, que trata varias subtareas del HDSA como problemas de predicción de relaciones y consolida las etiquetas de predicción de relaciones en un espacio de etiquetas unificado. Esto permite que un único módulo de predicción de relaciones maneje múltiples tareas simultáneamente, ya sea en un análisis de estructura a nivel de página o de documento. Para validar la efectividad de UniHDSA, desarrollamos un sistema multimodal de extremo a extremo basado en arquitecturas Transformer. Los resultados experimentales extensivos demuestran que nuestro enfoque alcanza un rendimiento de vanguardia en un punto de referencia de análisis jerárquico de la estructura de documentos, Comp-HRDoc, y resultados competitivos en un conjunto de datos a gran escala de análisis de diseño de documentos, DocLayNet, ilustrando efectivamente la superioridad de nuestro método en todas las subtareas. El punto de referencia Comp-HRDoc y las configuraciones de UniHDSA están disponibles públicamente en https://github.com/microsoft/CompHRDoc.
La predicción de supervivencia en cáncer de mama en patología computacional presenta un desafío notable debido a la heterogeneidad tumoral. Por ejemplo, diferentes regiones del mismo tumor en la imagen patológica pueden mostrar características morfológicas y moleculares distintas. Esto dificulta la extracción de características representativas de las imágenes de lámina completa (WSIs, por sus siglas en inglés) que reflejen verdaderamente el potencial agresivo del tumor y los posibles resultados de supervivencia. En este artículo, presentamos PathoHR, una novedosa pipeline para la predicción precisa de la supervivencia en cáncer de mama que mejora imágenes patológicas de cualquier tamaño para permitir un aprendizaje de características más efectivo. Nuestro enfoque incluye (1) la incorporación de un Vision Transformer (ViT) de alta resolución plug-and-play para mejorar la representación por parches de las WSIs, permitiendo una extracción de características más detallada y completa, (2) la evaluación sistemática de múltiples métricas de similitud avanzadas para comparar las características extraídas de las WSIs, optimizando el proceso de aprendizaje de representación para capturar mejor las características del tumor, (3) la demostración de que parches de imagen más pequeños mejorados siguiendo la pipeline propuesta pueden lograr una precisión de predicción equivalente o superior en comparación con parches más grandes en su estado original, mientras reducen significativamente la carga computacional. Los hallazgos experimentales validan que PathoHR ofrece una forma potencial de integrar la resolución mejorada de imágenes con un aprendizaje de características optimizado para avanzar en la patología computacional, proporcionando una dirección prometedora para una predicción de supervivencia en cáncer de mama más precisa y eficiente. El código estará disponible en https://github.com/AIGeeksGroup/PathoHR.
Los asistentes de escritura (por ejemplo, Grammarly, Microsoft Copilot) tradicionalmente generan descripciones de imágenes diversas empleando variaciones sintácticas y semánticas para describir los componentes de la imagen. Sin embargo, las descripciones escritas por humanos priorizan transmitir un mensaje central junto con descripciones visuales utilizando señales pragmáticas. Para mejorar la diversidad pragmática, es esencial explorar formas alternativas de comunicar estos mensajes en conjunto con el contenido visual. Para abordar este desafío, proponemos RONA, una novedosa estrategia de indicación para Modelos de Lenguaje Multimodales de Gran Escala (MLLM) que aprovecha las Relaciones de Coherencia como un eje de variación. Demostramos que RONA genera descripciones con una mejor diversidad general y alineación con la verdad de referencia, en comparación con los modelos MLLM de referencia en múltiples dominios. Nuestro código está disponible en: https://github.com/aashish2000/RONA.