Artículos de investigación en IA seleccionados diariamente con traducciones
A pesar del rápido crecimiento de la investigación en aprendizaje automático, las implementaciones de código correspondientes a menudo no están disponibles, lo que hace que sea lento y laborioso para los investigadores reproducir resultados y construir sobre trabajos previos. Mientras tanto, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) recientes sobresalen en la comprensión de documentos científicos y en la generación de código de alta calidad. Inspirados por esto, presentamos PaperCoder, un marco de trabajo multiagente basado en LLMs que transforma artículos de aprendizaje automático en repositorios de código funcionales. PaperCoder opera en tres etapas: planificación, donde construye un plan de alto nivel, diseña la arquitectura del sistema con diagramas, identifica dependencias de archivos y genera archivos de configuración; análisis, que se centra en interpretar detalles específicos de la implementación; y generación, donde se produce código modular y consciente de las dependencias. Además, cada fase se implementa a través de un conjunto de agentes especializados diseñados para colaborar de manera efectiva en todo el proceso. Luego evaluamos PaperCoder en la generación de implementaciones de código a partir de artículos de aprendizaje automático, basándonos tanto en evaluaciones basadas en modelos como en evaluaciones humanas, específicamente de los autores originales de los artículos, utilizando repositorios publicados por los autores como referencia cuando están disponibles. Nuestros resultados demuestran la efectividad de PaperCoder en la creación de implementaciones de alta calidad y fieles. Además, muestra consistentemente fortalezas en el recientemente lanzado benchmark PaperBench, superando a fuertes líneas base por márgenes sustanciales.
En los últimos años, los modelos de edición de imágenes han experimentado un desarrollo notable y rápido. El reciente lanzamiento de modelos multimodales de vanguardia, como GPT-4o y Gemini2 Flash, ha introducido capacidades de edición de imágenes altamente prometedoras. Estos modelos demuestran una aptitud impresionante para satisfacer la gran mayoría de los requisitos de edición impulsados por el usuario, lo que marca un avance significativo en el campo de la manipulación de imágenes. Sin embargo, aún existe una gran brecha entre los algoritmos de código abierto y estos modelos de código cerrado. Por lo tanto, en este artículo, nuestro objetivo es lanzar un modelo de edición de imágenes de última generación, llamado Step1X-Edit, que pueda ofrecer un rendimiento comparable al de los modelos de código cerrado como GPT-4o y Gemini2 Flash. Más específicamente, adoptamos el modelo de lenguaje multimodal (Multimodal LLM) para procesar la imagen de referencia y la instrucción de edición del usuario. Se ha extraído un embedding latente y se ha integrado con un decodificador de imágenes basado en difusión para obtener la imagen objetivo. Para entrenar el modelo, construimos una pipeline de generación de datos para producir un conjunto de datos de alta calidad. Para la evaluación, desarrollamos GEdit-Bench, un nuevo benchmark basado en instrucciones de usuarios del mundo real. Los resultados experimentales en GEdit-Bench demuestran que Step1X-Edit supera a los baselines de código abierto existentes por un margen considerable y se acerca al rendimiento de los modelos propietarios líderes, contribuyendo así significativamente al campo de la edición de imágenes.
La generación de imágenes a partir de texto impulsada por sujetos (T2I) tiene como objetivo producir imágenes que se alineen con una descripción textual dada, mientras preservan la identidad visual de una imagen de referencia. A pesar de su amplia aplicabilidad en diversas áreas —desde la personalización mejorada en la generación de imágenes hasta la representación consistente de personajes en la renderización de videos—, el progreso en este campo se ve limitado por la falta de una evaluación automática confiable. Los métodos existentes evalúan solo un aspecto de la tarea (es decir, la alineación textual o la preservación del sujeto), no se alinean con los juicios humanos o dependen de evaluaciones costosas basadas en API. Para abordar esto, presentamos RefVNLI, una métrica rentable que evalúa tanto la alineación textual como la preservación del sujeto en una sola predicción. Entrenada en un conjunto de datos a gran escala derivado de benchmarks de razonamiento de video y perturbaciones de imágenes, RefVNLI supera o iguala a los métodos de referencia existentes en múltiples benchmarks y categorías de sujetos (por ejemplo, Animal, Objeto), logrando mejoras de hasta 6.4 puntos en alineación textual y 8.5 puntos en consistencia del sujeto. También destaca en conceptos menos conocidos, alineándose con las preferencias humanas con una precisión superior al 87%.
El marco de preentrenamiento de lenguaje-imagen contrastivo (CLIP) se ha convertido en un enfoque ampliamente utilizado para el aprendizaje de representaciones multimodales, particularmente en la recuperación y agrupación de imágenes y texto. Sin embargo, su eficacia está limitada por tres aspectos clave: (1) truncamiento de tokens de texto, (2) codificación aislada de imágenes y texto, y (3) composicionalidad deficiente debido al comportamiento de bolsa de palabras. Aunque los modelos de lenguaje multimodal de gran escala (MLLMs) recientes han demostrado avances significativos en la comprensión generalizada de visión y lenguaje, su potencial para aprender representaciones multimodales transferibles sigue siendo poco explorado. En este trabajo, presentamos UniME (Universal Multimodal Embedding), un marco novedoso de dos etapas que aprovecha los MLLMs para aprender representaciones discriminativas para diversas tareas posteriores. En la primera etapa, realizamos una destilación de conocimiento discriminativo textual a partir de un modelo maestro basado en un LLM potente para mejorar la capacidad de incrustación del componente de lenguaje del MLLM. En la segunda etapa, introducimos una sintonización de instrucciones mejorada con negativos difíciles para avanzar aún más en el aprendizaje de representaciones discriminativas. Específicamente, primero mitigamos la contaminación por falsos negativos y luego muestreamos múltiples negativos difíciles por instancia dentro de cada lote, forzando al modelo a centrarse en muestras desafiantes. Este enfoque no solo mejora el poder discriminativo, sino que también aumenta la capacidad de seguir instrucciones en tareas posteriores. Realizamos experimentos extensos en el benchmark MMEB y múltiples tareas de recuperación, incluyendo la recuperación de descripciones cortas y largas, así como la recuperación composicional. Los resultados demuestran que UniME logra una mejora consistente en el rendimiento en todas las tareas, exhibiendo capacidades discriminativas y composicionales superiores.
Presentamos un marco para el razonamiento consciente de la perspectiva en modelos de visión y lenguaje (VLMs) mediante la simulación de imágenes mentales. La toma de perspectiva, la capacidad de percibir un entorno o situación desde un punto de vista alternativo, es un criterio clave para la comprensión visual a nivel humano, esencial para la interacción con el entorno y la colaboración con agentes autónomos. A pesar de los avances en el razonamiento espacial dentro de los VLMs, investigaciones recientes han demostrado que los VLMs modernos carecen significativamente de capacidades de razonamiento consciente de la perspectiva y muestran un fuerte sesgo hacia interpretaciones egocéntricas. Para cerrar la brecha entre los VLMs y la percepción humana, nos centramos en el papel de las imágenes mentales, donde los humanos perciben el mundo a través de representaciones abstractas que facilitan los cambios de perspectiva. Motivados por esto, proponemos un marco para el razonamiento consciente de la perspectiva, denominado Cambio de Perspectiva Abstracta (APC), que aprovecha eficazmente modelos fundamentales de visión, como la detección de objetos, la segmentación y la estimación de orientación, para construir abstracciones de escenas y permitir transformaciones de perspectiva. Nuestros experimentos en benchmarks sintéticos y de imágenes reales, comparados con varios VLMs, demuestran mejoras significativas en el razonamiento consciente de la perspectiva con nuestro marco, superando además modelos de razonamiento espacial ajustados y enfoques basados en la síntesis de nuevas vistas.
Con la llegada de conjuntos de datos 3D a gran escala, los modelos generativos 3D de avance directo, como el Modelo de Reconstrucción a Gran Escala (LRM), han captado una atención significativa y han logrado un éxito notable. Sin embargo, observamos que las imágenes RGB a menudo conducen a objetivos de entrenamiento conflictivos y carecen de la claridad necesaria para la reconstrucción de geometría. En este artículo, revisitamos los sesgos inductivos asociados con la reconstrucción de mallas e introducimos DiMeR, un novedoso modelo de avance directo de doble flujo desacoplado para la reconstrucción de mallas con vistas escasas. La idea clave es desacoplar tanto la entrada como el marco en partes de geometría y textura, reduciendo así la dificultad de entrenamiento para cada parte según el Principio de la Navaja de Occam. Dado que los mapas normales son estrictamente consistentes con la geometría y capturan con precisión las variaciones de la superficie, utilizamos mapas normales como entrada exclusiva para la rama de geometría, reduciendo la complejidad entre la entrada y la salida de la red. Además, mejoramos el algoritmo de extracción de mallas para introducir supervisión de verdad terreno en 3D. En cuanto a la rama de textura, utilizamos imágenes RGB como entrada para obtener la malla texturizada. En general, DiMeR demuestra capacidades robustas en diversas tareas, incluyendo la reconstrucción con vistas escasas, la conversión de imagen única a 3D y la generación de texto a 3D. Numerosos experimentos muestran que DiMeR supera significativamente a métodos anteriores, logrando una mejora de más del 30% en la Distancia de Chamfer en los conjuntos de datos GSO y OmniObject3D.
Los modelos autorregresivos (AR), que han dominado durante mucho tiempo la generación de lenguaje, se están aplicando cada vez más a la síntesis de imágenes, pero a menudo se consideran menos competitivos que los modelos basados en Difusión. Una limitación principal es el número sustancial de tokens de imagen que requieren los modelos AR, lo que restringe tanto la eficiencia del entrenamiento como de la inferencia, así como la resolución de la imagen. Para abordar esto, presentamos Token-Shuffle, un método novedoso pero simple que reduce el número de tokens de imagen en Transformers. Nuestra idea clave es la redundancia dimensional de los vocabularios visuales en los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs), donde los códigos visuales de baja dimensión del codificador visual se mapean directamente a vocabularios de lenguaje de alta dimensión. Aprovechando esto, consideramos dos operaciones clave: token-shuffle, que fusiona tokens locales espacialmente a lo largo de la dimensión del canal para disminuir el número de tokens de entrada, y token-unshuffle, que desenreda los tokens inferidos después de los bloques de Transformer para restaurar la disposición espacial en la salida. Entrenado conjuntamente con indicaciones textuales, nuestra estrategia no requiere un codificador de texto preentrenado adicional y permite que los MLLMs admitan la síntesis de imágenes de resolución extremadamente alta de manera unificada mediante la predicción del siguiente token, manteniendo un entrenamiento e inferencia eficientes. Por primera vez, llevamos el límite de la generación de imágenes a partir de texto AR a una resolución de 2048x2048 con un rendimiento de generación satisfactorio. En el benchmark GenAI, nuestro modelo de 2.7B logra una puntuación general de 0.77 en indicaciones difíciles, superando a los modelos AR LlamaGen por 0.18 y a los modelos de difusión LDM por 0.15. Evaluaciones exhaustivas a gran escala por parte de humanos también demuestran nuestra destacada capacidad de generación de imágenes en términos de alineación con el texto, defectos visuales y apariencia visual. Esperamos que Token-Shuffle pueda servir como un diseño fundamental para la generación eficiente de imágenes de alta resolución dentro de los MLLMs.
La calidad y la diversidad son dos métricas críticas para los datos de entrenamiento de los modelos de lenguaje de gran escala (LLMs), impactando positivamente en su rendimiento. Los estudios existentes suelen optimizar estas métricas por separado, generalmente aplicando primero un filtrado de calidad y luego ajustando las proporciones de los datos. Sin embargo, estos enfoques pasan por alto la inherente compensación entre calidad y diversidad, lo que hace necesario considerarlas de manera conjunta. Dada una cuota fija de entrenamiento, es esencial evaluar tanto la calidad de cada punto de datos como su efecto complementario en el conjunto de datos general. En este artículo, presentamos un marco unificado de selección de datos llamado QuaDMix, que optimiza automáticamente la distribución de datos para el preentrenamiento de LLMs mientras equilibra calidad y diversidad. Específicamente, primero proponemos múltiples criterios para medir la calidad de los datos y empleamos clasificación de dominio para distinguir los puntos de datos, midiendo así la diversidad general. QuaDMix luego utiliza una función de muestreo de datos parametrizada y unificada que determina la probabilidad de muestreo de cada punto de datos basándose en estas etiquetas relacionadas con calidad y diversidad. Para acelerar la búsqueda de los parámetros óptimos involucrados en el marco de QuaDMix, realizamos experimentos simulados en modelos más pequeños y utilizamos LightGBM para la búsqueda de parámetros, inspirados en el método RegMix. Nuestros experimentos en diversos modelos y conjuntos de datos demuestran que QuaDMix logra una mejora promedio del rendimiento del 7.2% en múltiples benchmarks. Estos resultados superan a las estrategias independientes para calidad y diversidad, destacando la necesidad y capacidad de equilibrar la calidad y diversidad de los datos.
El video try-on reemplaza la ropa en videos con prendas objetivo. Los métodos existentes tienen dificultades para generar resultados de alta calidad y temporalmente consistentes al manejar patrones de ropa complejos y diversas posturas corporales. Presentamos 3DV-TON, un marco novedoso basado en difusión para generar resultados de video try-on de alta fidelidad y temporalmente consistentes. Nuestro enfoque emplea mallas 3D texturizadas animables generadas como guía explícita a nivel de fotograma, mitigando el problema de que los modelos se enfoquen demasiado en la fidelidad de apariencia a expensas de la coherencia del movimiento. Esto se logra al permitir la referencia directa a los movimientos consistentes de la textura de la prenda a lo largo de las secuencias de video. El método propuesto incluye una pipeline adaptativa para generar guía 3D dinámica: (1) seleccionar un fotograma clave para el try-on inicial de imagen 2D, seguido de (2) reconstruir y animar una malla 3D texturizada sincronizada con las posturas originales del video. Además, introducimos una estrategia robusta de enmascaramiento rectangular que mitiga con éxito la propagación de artefactos causada por la filtración de información de la ropa durante los movimientos dinámicos de humanos y prendas. Para avanzar en la investigación de video try-on, presentamos HR-VVT, un conjunto de datos de referencia de alta resolución que contiene 130 videos con diversos tipos de ropa y escenarios. Los resultados cuantitativos y cualitativos demuestran nuestro rendimiento superior en comparación con los métodos existentes. La página del proyecto está disponible en este enlace: https://2y7c3.github.io/3DV-TON/
Los verificadores paso a paso, también conocidos como modelos de recompensa por proceso (PRMs, por sus siglas en inglés), son un componente clave para el escalamiento en tiempo de prueba. Los PRMs requieren supervisión a nivel de paso, lo que los hace costosos de entrenar. Este trabajo tiene como objetivo construir PRMs eficientes en términos de datos como modelos de recompensa verbalizados paso a paso que verifican cada paso en la solución generando una cadena de pensamiento (CoT) de verificación. Proponemos ThinkPRM, un verificador de CoT largo ajustado con órdenes de magnitud menos etiquetas de proceso que las requeridas por los PRMs discriminativos. Nuestro enfoque aprovecha las habilidades de razonamiento inherentes de los modelos de CoT largo y supera a los enfoques de LLM-como-juez y verificadores discriminativos, utilizando solo el 1% de las etiquetas de proceso en PRM800K, en varios benchmarks desafiantes. Específicamente, ThinkPRM supera a las líneas base en ProcessBench, MATH-500 y AIME '24 bajo selección de mejor-de-N y búsqueda guiada por recompensa. En una evaluación fuera de dominio en un subconjunto de GPQA-Diamond y LiveCodeBench, nuestro PRM supera a los verificadores discriminativos entrenados con el conjunto completo de PRM800K en un 8% y 4.5%, respectivamente. Por último, con el mismo presupuesto de tokens, ThinkPRM escala el cómputo de verificación de manera más efectiva en comparación con LLM-como-juez, superándolo en un 7.2% en un subconjunto de ProcessBench. Nuestro trabajo destaca el valor de los PRMs generativos de CoT largo que pueden escalar el cómputo de verificación en tiempo de prueba mientras requieren una supervisión mínima para el entrenamiento. Nuestro código, datos y modelos serán publicados en https://github.com/mukhal/thinkprm.
Los modelos de difusión latente (LDMs, por sus siglas en inglés) dominan la generación de imágenes de alta calidad, pero integrar el aprendizaje de representaciones con el modelado generativo sigue siendo un desafío. Presentamos un novedoso marco de modelado generativo de imágenes que cierra esta brecha de manera fluida al aprovechar un modelo de difusión para modelar conjuntamente latentes de imágenes de bajo nivel (provenientes de un autoencoder variacional) y características semánticas de alto nivel (de un codificador autosupervisado preentrenado como DINO). Nuestro enfoque de difusión latente-semántica aprende a generar pares coherentes de imágenes y características a partir de ruido puro, mejorando significativamente tanto la calidad generativa como la eficiencia del entrenamiento, todo ello requiriendo solo modificaciones mínimas en las arquitecturas estándar de Transformadores de Difusión. Al eliminar la necesidad de objetivos de destilación complejos, nuestro diseño unificado simplifica el entrenamiento y desbloquea una nueva y poderosa estrategia de inferencia: la Guía de Representación, que aprovecha las semánticas aprendidas para dirigir y refinar la generación de imágenes. Evaluado tanto en configuraciones condicionales como incondicionales, nuestro método ofrece mejoras sustanciales en la calidad de las imágenes y la velocidad de convergencia del entrenamiento, estableciendo una nueva dirección para el modelado generativo consciente de las representaciones.
Presentamos DyMU, un marco eficiente y libre de entrenamiento que reduce dinámicamente la carga computacional de los modelos de visión y lenguaje (VLMs) mientras mantiene un alto rendimiento en las tareas. Nuestro enfoque consta de dos componentes clave. Primero, Dynamic Token Merging (DToMe) reduce el número de embeddings de tokens visuales fusionando tokens similares según la complejidad de la imagen, abordando la ineficiencia inherente de las salidas de longitud fija en los transformadores de visión. Segundo, Virtual Token Unmerging (VTU) simula la secuencia esperada de tokens para los modelos de lenguaje grandes (LLMs) reconstruyendo eficientemente la dinámica de atención de una secuencia completa, preservando así el rendimiento en tareas posteriores sin necesidad de ajustes adicionales. A diferencia de enfoques anteriores, nuestro método adapta dinámicamente la compresión de tokens al contenido de la imagen y opera completamente sin entrenamiento, lo que lo hace aplicable a la mayoría de las arquitecturas VLM de vanguardia. Experimentos exhaustivos en tareas de comprensión de imágenes y videos demuestran que DyMU puede reducir el recuento promedio de tokens visuales entre un 32% y un 85%, logrando un rendimiento comparable a los modelos de longitud completa en diversas arquitecturas VLM, incluyendo los codificadores visuales basados en AnyRes recientemente popularizados. Además, mediante análisis cualitativos, demostramos que DToMe adapta efectivamente la reducción de tokens según la complejidad de la imagen y, a diferencia de los sistemas existentes, ofrece a los usuarios mayor control sobre los costos computacionales. Página del proyecto: https://mikewangwzhl.github.io/dymu/.
El rápido crecimiento de las plataformas de video en línea, particularmente los servicios de transmisión en vivo, ha creado una necesidad urgente de sistemas de comprensión de video en tiempo real. Estos sistemas deben procesar flujos de video continuos y responder a las consultas de los usuarios de manera instantánea, lo que presenta desafíos únicos para los Modelos de Lenguaje de Gran Escala para Video (VideoLLMs) actuales. Si bien los VideoLLMs existentes sobresalen en el procesamiento de videos completos, enfrentan limitaciones significativas en escenarios de transmisión debido a su incapacidad para manejar eficientemente marcos densos y redundantes. Presentamos TimeChat-Online, un novedoso VideoLLM en línea que revoluciona la interacción con video en tiempo real. En su núcleo se encuentra nuestro innovador módulo de Eliminación Diferencial de Tokens (DTD, por sus siglas en inglés), que aborda el desafío fundamental de la redundancia visual en videos en streaming. Inspirándonos en el fenómeno de la Ceguera al Cambio de la percepción visual humana, DTD preserva los cambios temporales significativos mientras filtra el contenido estático y redundante entre marcos. Notablemente, nuestros experimentos demuestran que DTD logra una reducción del 82.8% en los tokens de video mientras mantiene un 98% de rendimiento en StreamingBench, revelando que más del 80% del contenido visual en videos en streaming es naturalmente redundante sin necesidad de guía lingüística. Para permitir una interacción en tiempo real sin interrupciones, presentamos TimeChat-Online-139K, un conjunto de datos completo de video en streaming que incluye diversos patrones de interacción, como escenarios de rastreo hacia atrás, percepción actual y respuesta futura. La capacidad única de Respuesta Proactiva de TimeChat-Online, lograda naturalmente mediante el monitoreo continuo de las transiciones de escenas de video a través de DTD, la distingue de los enfoques convencionales. Nuestra evaluación exhaustiva demuestra el rendimiento superior de TimeChat-Online en benchmarks de streaming (StreamingBench y OvOBench) y su capacidad para mantener resultados competitivos en tareas de video de larga duración, como Video-MME y MLVU.
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) siguen siendo difíciles de evaluar de manera integral, especialmente para idiomas distintos al inglés, donde los datos de alta calidad suelen ser limitados. Los puntos de referencia y clasificaciones existentes están predominantemente centrados en el inglés, con solo unos pocos que abordan otros idiomas. Estos puntos de referencia presentan varias deficiencias clave: pasan por alto la diversidad de variedades lingüísticas, priorizan capacidades fundamentales de Procesamiento del Lenguaje Natural (NLP) sobre tareas de relevancia industrial y son estáticos. Con estos aspectos en mente, presentamos IberBench, un punto de referencia integral y extensible diseñado para evaluar el rendimiento de los LLMs tanto en tareas fundamentales como en aquellas relevantes para la industria, en idiomas hablados en la Península Ibérica e Iberoamérica. IberBench integra 101 conjuntos de datos de campañas de evaluación y puntos de referencia recientes, cubriendo 22 categorías de tareas como análisis de sentimientos y emociones, detección de toxicidad y resumen. El punto de referencia aborda limitaciones clave en las prácticas de evaluación actuales, como la falta de diversidad lingüística y configuraciones de evaluación estáticas, al permitir actualizaciones continuas y envíos de modelos y conjuntos de datos impulsados por la comunidad, moderados por un comité de expertos. Evaluamos 23 LLMs que van desde 100 millones hasta 14 mil millones de parámetros y proporcionamos información empírica sobre sus fortalezas y limitaciones. Nuestros hallazgos indican que (i) los LLMs tienen un peor rendimiento en tareas relevantes para la industria que en las fundamentales, (ii) el rendimiento es en promedio más bajo para el gallego y el euskera, (iii) algunas tareas muestran resultados cercanos al azar, y (iv) en otras tareas los LLMs tienen un rendimiento superior al azar pero por debajo de los sistemas de tareas compartidas. IberBench ofrece implementaciones de código abierto para toda la canalización de evaluación, incluyendo normalización y alojamiento de conjuntos de datos, evaluación incremental de LLMs y una clasificación de acceso público.
Presentamos ViSMap: Resumen de Video No Supervisado mediante Meta Prompting, un sistema para resumir videos de una hora de duración sin supervisión. La mayoría de los modelos existentes de comprensión de video funcionan bien en videos cortos de eventos pre-segmentados, pero tienen dificultades para resumir videos más largos donde los eventos relevantes están distribuidos de manera dispersa y no están pre-segmentados. Además, la comprensión de videos de larga duración suele depender de entrenamiento jerárquico supervisado que requiere anotaciones extensas, las cuales son costosas, lentas y propensas a inconsistencias. Con ViSMaP, cerramos la brecha entre los videos cortos (donde los datos anotados son abundantes) y los largos (donde no lo son). Nos basamos en LLMs para crear pseudo-resúmenes optimizados de videos largos utilizando descripciones de segmentos de videos cortos. Estos pseudo-resúmenes se utilizan como datos de entrenamiento para un modelo que genera resúmenes de videos de larga duración, evitando la necesidad de anotaciones costosas en videos largos. Específicamente, adoptamos una estrategia de meta-prompting para generar y refinar iterativamente pseudo-resúmenes de videos largos. La estrategia aprovecha descripciones de clips cortos obtenidas de un modelo supervisado de video corto para guiar el resumen. Cada iteración utiliza tres LLMs que trabajan en secuencia: uno para generar el pseudo-resumen a partir de las descripciones de los clips, otro para evaluarlo y un tercero para optimizar el prompt del generador. Esta iteración es necesaria porque la calidad de los pseudo-resúmenes depende en gran medida del prompt del generador y varía ampliamente entre los videos. Evaluamos nuestros resúmenes extensamente en múltiples conjuntos de datos; nuestros resultados muestran que ViSMaP logra un rendimiento comparable a los modelos supervisados de última generación, mientras generaliza entre dominios sin sacrificar el rendimiento. El código se publicará junto con la publicación.
La generación de imágenes basada en parches autoregresivos ha demostrado recientemente resultados competitivos en términos de calidad de imagen y escalabilidad. Además, puede integrarse y escalarse fácilmente dentro de modelos de Visión-Lenguaje. Sin embargo, los modelos autoregresivos requieren un orden definido para la generación de parches. Mientras que un orden natural basado en la dictación de las palabras tiene sentido para la generación de texto, no existe un orden inherente de generación para la creación de imágenes. Tradicionalmente, un orden de escaneo en raster (de arriba a la izquierda a abajo a la derecha) guía a los modelos autoregresivos de generación de imágenes. En este artículo, argumentamos que este orden es subóptimo, ya que no respeta la causalidad del contenido de la imagen: por ejemplo, cuando se condiciona con una descripción visual de un atardecer, un modelo autoregresivo podría generar las nubes antes que el sol, a pesar de que el color de las nubes debería depender del color del sol y no al revés. En este trabajo, demostramos que, primero, al entrenar un modelo para generar parches en cualquier orden dado, podemos inferir tanto el contenido como la ubicación (orden) de cada parche durante la generación. En segundo lugar, utilizamos estos órdenes extraídos para ajustar el modelo de cualquier orden dado y producir imágenes de mejor calidad. A través de nuestros experimentos, mostramos en dos conjuntos de datos que este nuevo método de generación produce mejores imágenes que el enfoque tradicional de escaneo en raster, con costos de entrenamiento similares y sin anotaciones adicionales.
La anotación de poses de cámara en videos dinámicos de Internet a gran escala es crucial para avanzar en campos como la generación de videos realistas y la simulación. Sin embargo, recopilar un conjunto de datos de este tipo es difícil, ya que la mayoría de los videos de Internet no son adecuados para la estimación de poses. Además, anotar videos dinámicos de Internet presenta desafíos significativos incluso para los métodos más avanzados. En este artículo, presentamos DynPose-100K, un conjunto de datos a gran escala de videos dinámicos de Internet anotados con poses de cámara. Nuestra canalización de recopilación aborda el filtrado utilizando un conjunto cuidadosamente combinado de modelos específicos para la tarea y generalistas. Para la estimación de poses, combinamos las últimas técnicas de seguimiento de puntos, enmascaramiento dinámico y estructura a partir del movimiento, logrando mejoras sobre los enfoques más avanzados. Nuestro análisis y experimentos demuestran que DynPose-100K es tanto de gran escala como diverso en varios atributos clave, abriendo caminos para avances en diversas aplicaciones posteriores.
Las técnicas de reducción de dimensionalidad son fundamentales para analizar y visualizar datos de alta dimensión. Métodos establecidos como t-SNE y PCA presentan un equilibrio entre poder representativo e interpretabilidad. Este artículo introduce un enfoque novedoso que cierra esta brecha al combinar la interpretabilidad de los métodos lineales con la expresividad de las transformaciones no lineales. El algoritmo propuesto construye un mapeo no lineal entre espacios de alta y baja dimensión mediante una combinación de transformaciones lineales, cada una ponderada por funciones gaussianas. Esta arquitectura permite transformaciones no lineales complejas mientras preserva las ventajas de interpretabilidad de los métodos lineales, ya que cada transformación puede analizarse de manera independiente. El modelo resultante ofrece tanto una potente reducción de dimensionalidad como insights transparentes sobre el espacio transformado. Se presentan técnicas para interpretar las transformaciones aprendidas, incluyendo métodos para identificar dimensiones suprimidas y cómo se expande y contrae el espacio. Estas herramientas permiten a los profesionales comprender cómo el algoritmo preserva y modifica las relaciones geométricas durante la reducción de dimensionalidad. Para garantizar la utilidad práctica de este algoritmo, se enfatiza la creación de paquetes de software fáciles de usar, facilitando su adopción tanto en la academia como en la industria.