Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de difusión de imágenes se han adaptado para la superresolución de videos del mundo real para abordar problemas de suavizado excesivo en métodos basados en GAN. Sin embargo, estos modelos tienen dificultades para mantener la consistencia temporal, ya que están entrenados en imágenes estáticas, lo que limita su capacidad para capturar de manera efectiva las dinámicas temporales. La integración de modelos de texto a video (T2V) en la superresolución de videos para mejorar el modelado temporal es directa. Sin embargo, dos desafíos clave persisten: artefactos introducidos por degradaciones complejas en escenarios del mundo real y fidelidad comprometida debido a la fuerte capacidad generativa de potentes modelos T2V (por ejemplo, CogVideoX-5B). Para mejorar la calidad espacio-temporal de videos restaurados, presentamos \name (Aumento Espacio-Temporal con modelos T2V para superresolución de videos del mundo real), un enfoque novedoso que aprovecha modelos T2V para la superresolución de videos del mundo real, logrando detalles espaciales realistas y una consistencia temporal sólida. Específicamente, introducimos un Módulo de Mejora de Información Local (LIEM) antes del bloque de atención global para enriquecer detalles locales y mitigar artefactos de degradación. Además, proponemos una Pérdida de Frecuencia Dinámica (DF) para reforzar la fidelidad, guiando al modelo para que se enfoque en diferentes componentes de frecuencia a lo largo de los pasos de difusión. Experimentos extensos demuestran que \name supera a los métodos de vanguardia en conjuntos de datos sintéticos y del mundo real.
El notable rendimiento del modelo o1 en el razonamiento complejo demuestra que la escalabilidad del cálculo en tiempo de prueba puede desbloquear aún más el potencial del modelo, permitiendo un pensamiento poderoso del Sistema-2. Sin embargo, todavía existe una falta de encuestas exhaustivas sobre la escalabilidad del cálculo en tiempo de prueba. Rastreamos el concepto de cálculo en tiempo de prueba hasta los modelos del Sistema-1. En los modelos del Sistema-1, el cálculo en tiempo de prueba aborda cambios en la distribución y mejora la robustez y generalización a través de la actualización de parámetros, la modificación de entradas, la edición de representaciones y la calibración de salidas. En los modelos del Sistema-2, mejora la capacidad de razonamiento del modelo para resolver problemas complejos a través de muestreos repetidos, autocorrección y búsqueda en árbol. Organizamos esta encuesta de acuerdo con la tendencia del pensamiento del Sistema-1 al Sistema-2, resaltando el papel clave del cálculo en tiempo de prueba en la transición de modelos del Sistema-1 a modelos débiles del Sistema-2, y luego a modelos fuertes del Sistema-2. También señalamos algunas posibles direcciones futuras.
Los modelos de lenguaje grandes (LLMs) de vanguardia demuestran un rendimiento prometedor en la resolución de problemas matemáticos complejos con un proceso de dividir y conquistar y la asistencia de ejemplos de aprendizaje en contexto (ICL). Sin embargo, su potencial de mejora se ve limitado por dos problemas críticos dentro de sus ejemplos de ICL: la falta de coincidencia de granularidad y el consiguiente problema de ruido de efecto negativo. Específicamente, los LLMs son capaces de llevar a cabo el proceso de división pero fallan principalmente en el razonamiento inexacto dentro de unos pocos pasos de conquista, mientras que los ejemplos de ICL recuperados a veces carecen de pasos relevantes para un paso de razonamiento desafiante específico. Además, esta desconexión puede obstaculizar el razonamiento correcto debido a su falta de relevancia. Con este fin, nos enfocamos en mejorar la calidad del razonamiento en cada paso y presentamos BoostStep. BoostStep alinea la granularidad entre la recuperación y el razonamiento en pasos, y proporciona ejemplos de ICL altamente relacionados para cada paso de razonamiento con una estrategia novedosa de 'primer intento'. BoostStep proporciona ejemplos más relevantes que la estrategia de granularidad de pregunta gruesa, mejorando la calidad del razonamiento del modelo en cada paso de manera constante. BoostStep es un método general y robusto para mejorar el razonamiento que no solo mejora el rendimiento de razonamiento independiente, sino que también se integra perfectamente con los métodos de Búsqueda de Árbol de Monte Carlo (MCTS) para refinar tanto la generación de candidatos como la toma de decisiones. Cuantitativamente, mejora GPT-4o y Qwen2.5-Math-72B en un 3.6\% y 2.0\% respectivamente en varios puntos de referencia matemáticos, y un aumento del 7.5\% combinado con MCTS.
La interacción activa en tiempo real con modelos de lenguaje de video introduce un nuevo paradigma para la interacción humano-computadora, donde el modelo no solo comprende la intención del usuario, sino que también responde mientras procesa continuamente el video en tiempo real. A diferencia de los modelos de lenguaje de video offline, que analizan todo el video antes de responder preguntas, la interacción activa en tiempo real requiere tres capacidades: 1) Percepción: monitoreo de video en tiempo real y captura de interacción. 2) Decisión: generación de interacción proactiva en situaciones adecuadas. 3) Reacción: interacción continua con los usuarios. Sin embargo, existen conflictos inherentes entre las capacidades deseadas. La Decisión y la Reacción requieren una escala y detalle de Percepción contrarios, y la decodificación autoregresiva bloquea la Percepción y la Decisión en tiempo real durante la Reacción. Para unificar las capacidades en conflicto dentro de un sistema armonioso, presentamos Dispider, un sistema que desentraña Percepción, Decisión y Reacción. Dispider cuenta con un módulo ligero de procesamiento de video en tiempo real que rastrea el flujo de video e identifica momentos óptimos para la interacción. Una vez que se activa la interacción, un módulo de interacción asincrónica proporciona respuestas detalladas, mientras que el módulo de procesamiento continúa monitoreando el video en ese momento. Nuestro diseño desentrañado y asincrónico garantiza respuestas oportunas, precisas en contexto y eficientes computacionalmente, lo que hace a Dispider ideal para la interacción activa en tiempo real en transmisiones de video de larga duración. Los experimentos muestran que Dispider no solo mantiene un rendimiento sólido en tareas convencionales de preguntas y respuestas de video, sino que también supera significativamente a modelos en línea anteriores en respuestas de escenarios de transmisión, validando así la efectividad de nuestra arquitectura. El código y el modelo se encuentran disponibles en https://github.com/Mark12Ding/Dispider.
A medida que los modelos de lenguaje de gran escala (LLMs) evolucionan, su capacidad para ofrecer respuestas personalizadas y contextualmente conscientes ofrece un potencial transformador para mejorar las experiencias de usuario. Sin embargo, los enfoques de personalización existentes a menudo se basan únicamente en el historial del usuario para complementar la solicitud, lo que limita su efectividad en la generación de salidas adaptadas, especialmente en escenarios de inicio en frío con datos escasos. Para abordar estas limitaciones, proponemos Recuperación Generativa Basada en Grafo Personalizado (PGraphRAG), un marco que aprovecha los grafos de conocimiento centrados en el usuario para enriquecer la personalización. Al integrar directamente el conocimiento estructurado del usuario en el proceso de recuperación y mejorar las solicitudes con contexto relevante para el usuario, PGraphRAG mejora la comprensión contextual y la calidad de la salida. También presentamos el Conjunto de Datos de Benchmark Basado en Grafo Personalizado para Generación de Texto, diseñado para evaluar tareas de generación de texto personalizado en entornos del mundo real donde el historial del usuario es escaso o no está disponible. Los resultados experimentales muestran que PGraphRAG supera significativamente a los métodos de personalización de vanguardia en diversas tareas, demostrando las ventajas únicas de la recuperación basada en grafo para la personalización.
Los modelos generativos de texto a video han avanzado significativamente, permitiendo diversas aplicaciones en entretenimiento, publicidad y educación. Sin embargo, la generación de video RGBA, que incluye canales alfa para transparencia, sigue siendo un desafío debido a conjuntos de datos limitados y la dificultad de adaptar modelos existentes. Los canales alfa son cruciales para efectos visuales (VFX), permitiendo que elementos transparentes como humo y reflejos se integren sin problemas en las escenas. Presentamos TransPixar, un método para extender modelos de video preentrenados para generación RGBA manteniendo las capacidades originales de RGB. TransPixar aprovecha una arquitectura de transformador de difusión (DiT), incorporando tokens específicos para alfa y utilizando ajuste fino basado en LoRA para generar conjuntamente canales RGB y alfa con alta consistencia. Optimizando los mecanismos de atención, TransPixar conserva las fortalezas del modelo RGB original y logra una fuerte alineación entre los canales RGB y alfa a pesar de los datos de entrenamiento limitados. Nuestro enfoque genera de manera efectiva videos RGBA diversos y consistentes, avanzando en las posibilidades para VFX y la creación de contenido interactivo.
El entrenamiento de baja precisión se considera una estrategia efectiva para reducir tanto los costos de entrenamiento como los costos de inferencia posteriores. Las leyes de escala anteriores para la precisión se centran principalmente en la cuantificación de enteros, prestando menos atención a los componentes en la cuantificación de punto flotante y, por lo tanto, no pueden adaptarse bien a las pérdidas de LLM en este escenario. En contraste, aunque el entrenamiento de cuantificación de punto flotante se implementa más comúnmente en la producción, la investigación al respecto ha sido relativamente superficial. En este documento, exploramos a fondo los efectos de los objetivos de cuantificación de punto flotante, los bits del exponente, los bits de la mantisa y la granularidad del cálculo del factor de escala en el rendimiento del entrenamiento de cuantificación de punto flotante de modelos LLM. Al presentar una ley de escala unificada precisa para la cuantificación de punto flotante, también brindamos sugerencias valiosas para la comunidad: (1) Los bits del exponente contribuyen ligeramente más al rendimiento del modelo que los bits de la mantisa. Proporcionamos la proporción óptima de bits de exponente-mantisa para diferentes números de bits, que está disponible para futura referencia por parte de los fabricantes de hardware; (2) Descubrimos la formación del tamaño crítico de datos en el entrenamiento de LLM de baja precisión. Demasiados datos de entrenamiento que exceden el tamaño crítico de datos traerán inversamente una degradación del rendimiento de LLM; (3) La precisión óptima de cuantificación de punto flotante es directamente proporcional al poder computacional, pero dentro de un amplio rango de poder computacional, estimamos que la mejor precisión en términos de costo-rendimiento se encuentra entre 4 y 8 bits.
Consideramos la tarea de generación de Imagen-a-Video (I2V), que implica transformar imágenes estáticas en secuencias de video realistas basadas en una descripción textual. Si bien los avances recientes producen salidas fotorrealistas, a menudo tienen dificultades para crear videos con un movimiento de objetos preciso y consistente, especialmente en escenarios con múltiples objetos. Para abordar estas limitaciones, proponemos un marco compositivo de dos etapas que descompone la generación I2V en: (i) Una etapa de generación de representación intermedia explícita, seguida por (ii) Una etapa de generación de video condicionada a esta representación. Nuestra innovación clave es la introducción de una trayectoria de movimiento basada en máscara como representación intermedia, que captura tanto información semántica de objetos como movimiento, permitiendo una representación expresiva pero compacta de movimiento y semántica. Para incorporar la representación aprendida en la segunda etapa, utilizamos objetivos de atención a nivel de objeto. Específicamente, consideramos un objetivo de atención cruzada enmascarada espacial, por objeto, integrando indicaciones específicas de objetos en regiones correspondientes del espacio latente y un objetivo de auto-atención espacial-temporal enmascarada, asegurando consistencia de fotograma a fotograma para cada objeto. Evaluamos nuestro método en desafiantes benchmarks con escenarios de múltiples objetos y alto movimiento y demostramos empíricamente que el método propuesto logra resultados de vanguardia en coherencia temporal, realismo de movimiento y fidelidad a la descripción de texto. Además, presentamos \benchmark, un nuevo benchmark desafiante para la generación I2V de un solo objeto y múltiples objetos, y demostramos la superioridad de nuestro método en este benchmark. La página del proyecto está disponible en https://guyyariv.github.io/TTM/.
Preentrenamos METAGENE-1, un modelo autoregresivo transformer de 7 mil millones de parámetros, al que nos referimos como un modelo base metagenómico, en un corpus novedoso de diversas secuencias de ADN y ARN metagenómicas que comprenden más de 1.5 billones de pares de bases. Este conjunto de datos se obtiene de una amplia colección de muestras de aguas residuales humanas, procesadas y secuenciadas utilizando métodos de secuenciación metagenómica profunda (de próxima generación). A diferencia de los modelos genómicos que se centran en genomas individuales o conjuntos curados de especies específicas, el objetivo de METAGENE-1 es capturar la distribución completa de información genómica presente en estas aguas residuales, para ayudar en tareas relevantes para el monitoreo de pandemias y la detección de patógenos. Realizamos la tokenización de codificación de pares de bytes (BPE) en nuestro conjunto de datos, adaptada para secuencias metagenómicas, y luego preentrenamos nuestro modelo. En este artículo, detallamos primero el conjunto de datos de preentrenamiento, la estrategia de tokenización y la arquitectura del modelo, resaltando las consideraciones y decisiones de diseño que permiten el modelado efectivo de datos metagenómicos. Luego mostramos los resultados de preentrenar este modelo en nuestro conjunto de datos metagenómico, proporcionando detalles sobre nuestras pérdidas, métricas del sistema y estabilidad del entrenamiento a lo largo del preentrenamiento. Finalmente, demostramos el rendimiento de METAGENE-1, que logra resultados de vanguardia en un conjunto de pruebas genómicas y nuevas evaluaciones centradas en la detección de patógenos humanos y la incrustación de secuencias genómicas, mostrando su potencial para aplicaciones de salud pública en el monitoreo de pandemias, la biovigilancia y la detección temprana de amenazas emergentes para la salud.
La realización automatizada de red teaming se ha convertido en un enfoque crucial para descubrir vulnerabilidades en modelos de lenguaje grandes (LLMs). Sin embargo, la mayoría de los métodos existentes se centran en fallos de seguridad aislados, limitando su capacidad para adaptarse a defensas dinámicas y descubrir vulnerabilidades complejas de manera eficiente. Para abordar este desafío, proponemos Auto-RT, un marco de aprendizaje por refuerzo que explora y optimiza automáticamente estrategias de ataque complejas para descubrir de manera efectiva vulnerabilidades de seguridad a través de consultas maliciosas. Específicamente, introducimos dos mecanismos clave para reducir la complejidad de la exploración y mejorar la optimización de estrategias: 1) Exploración con terminación anticipada, que acelera la exploración al centrarse en estrategias de ataque con alto potencial; y 2) Algoritmo de Seguimiento de Recompensas Progresivas con modelos de degradación intermedia, que refinan dinámicamente la trayectoria de búsqueda hacia la explotación exitosa de vulnerabilidades. Experimentos extensos en diversos LLMs demuestran que, al mejorar significativamente la eficiencia de la exploración y optimizar automáticamente las estrategias de ataque, Auto-RT detecta un rango más amplio de vulnerabilidades, logrando una detección más rápida y tasas de éxito un 16.63\% más altas en comparación con los métodos existentes.
El control de video 4D es esencial en la generación de video, ya que permite el uso de técnicas sofisticadas de lentes, como la filmación con múltiples cámaras y el efecto dolly zoom, que actualmente no son compatibles con los métodos existentes. Entrenar un Transformador de Difusión de Video (DiT) directamente para controlar contenido 4D requiere videos de múltiples vistas costosos. Inspirados por la Síntesis de Nueva Vista Dinámica Monocular (MDVS) que optimiza una representación 4D y renderiza videos según diferentes elementos 4D, como la posición de la cámara y la edición de movimiento de objetos, introducimos campos gaussianos pseudo 4D en la generación de video. Específicamente, proponemos un nuevo marco de trabajo que construye un campo gaussiano pseudo 4D con seguimiento denso de puntos 3D y renderiza el campo gaussiano para todos los fotogramas de video. Luego afinamos un DiT preentrenado para generar videos siguiendo la guía del video renderizado, denominado GS-DiT. Para potenciar el entrenamiento del GS-DiT, también proponemos un método eficiente de Seguimiento Denso de Puntos 3D (D3D-PT) para la construcción del campo gaussiano pseudo 4D. Nuestro D3D-PT supera a SpatialTracker, el método de seguimiento de puntos 3D dispersos de última generación, en precisión y acelera la velocidad de inferencia en dos órdenes de magnitud. Durante la etapa de inferencia, GS-DiT puede generar videos con el mismo contenido dinámico mientras se adhiere a diferentes parámetros de la cámara, abordando una limitación significativa de los modelos actuales de generación de video. GS-DiT demuestra fuertes capacidades de generalización y amplía la capacidad de control 4D del salpicado gaussiano en la generación de video más allá de solo las posiciones de cámara. Admite efectos cinematográficos avanzados a través de la manipulación del campo gaussiano y de los intrínsecos de la cámara, convirtiéndolo en una herramienta poderosa para la producción de video creativa. Las demostraciones están disponibles en https://wkbian.github.io/Projects/GS-DiT/.
La estimación de profundidad monocular dentro del paradigma de difusión-denoising muestra una impresionante capacidad de generalización pero sufre de baja velocidad de inferencia. Métodos recientes adoptan un paradigma determinista de un solo paso para mejorar la eficiencia de inferencia manteniendo un rendimiento comparable. Sin embargo, pasan por alto la brecha entre características generativas y discriminativas, lo que lleva a resultados subóptimos. En este trabajo, proponemos DepthMaster, un modelo de difusión de un solo paso diseñado para adaptar características generativas para la tarea de estimación de profundidad discriminativa. Primero, para mitigar el sobreajuste a los detalles de textura introducidos por características generativas, proponemos un módulo de Alineación de Características, que incorpora características semánticas de alta calidad para mejorar la capacidad de representación de la red de denoising. Segundo, para abordar la falta de detalles finos en el marco determinista de un solo paso, proponemos un módulo de Mejora de Fourier para equilibrar de forma adaptativa la estructura de baja frecuencia y los detalles de alta frecuencia. Adoptamos una estrategia de entrenamiento de dos etapas para aprovechar completamente el potencial de los dos módulos. En la primera etapa, nos enfocamos en aprender la estructura global de la escena con el módulo de Alineación de Características, mientras que en la segunda etapa, explotamos el módulo de Mejora de Fourier para mejorar la calidad visual. A través de estos esfuerzos, nuestro modelo logra un rendimiento de vanguardia en términos de generalización y preservación de detalles, superando a otros métodos basados en difusión en varios conjuntos de datos. Nuestra página del proyecto se puede encontrar en https://indu1ge.github.io/DepthMaster_page.
Los Modelos de Recompensa a Nivel de Proceso (PRMs, por sus siglas en inglés) son cruciales para tareas de razonamiento y toma de decisiones complejas, donde cada paso intermedio juega un papel importante en el proceso de razonamiento. Dado que los modelos de lenguaje son propensos a diversos tipos de errores durante el proceso de razonamiento, se requiere que los PRMs posean capacidades matizadas para detectar varios tipos de errores implícitos en escenarios del mundo real. Sin embargo, los benchmarks actuales se centran principalmente en la corrección de pasos, sin evaluar sistemáticamente el rendimiento de los PRMs. Para abordar esta brecha, presentamos PRMBench, un benchmark a nivel de proceso diseñado específicamente para evaluar las capacidades de detección de errores detallados de los PRMs. PRMBench consta de 6,216 problemas cuidadosamente diseñados y 83,456 etiquetas a nivel de paso, evaluando modelos en múltiples dimensiones, incluyendo simplicidad, solidez y sensibilidad. En nuestros experimentos con 15 modelos, que abarcan tanto PRMs de código abierto como grandes modelos de lenguaje de código cerrado presentados como modelos críticos, descubrimos debilidades significativas en los PRMs actuales. Estos hallazgos subrayan los desafíos inherentes en la evaluación a nivel de proceso y resaltan direcciones clave para futuras investigaciones. Esperamos que PRMBench pueda ser un banco de pruebas sólido para avanzar en la investigación sobre la evaluación y desarrollo de PRMs.
La evaluación efectiva del uso de herramientas de múltiples saltos es fundamental para analizar la comprensión, el razonamiento y las capacidades de llamada a funciones de modelos de lenguaje grandes (LLMs). Sin embargo, el progreso se ha visto obstaculizado por la falta de conjuntos de datos de evaluación confiables. Para abordar esto, presentamos ToolHop, un conjunto de datos que consta de 995 consultas de usuario y 3,912 herramientas asociadas, diseñado específicamente para una evaluación rigurosa del uso de herramientas de múltiples saltos. ToolHop garantiza consultas diversas, interdependencias significativas, herramientas localmente ejecutables, retroalimentación detallada y respuestas verificables a través de un enfoque novedoso de construcción de datos impulsado por consultas que incluye la creación de herramientas, el refinamiento de documentos y la generación de código. Evaluamos 14 LLMs en cinco familias de modelos (es decir, LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 y GPT), revelando desafíos significativos en el manejo de escenarios de uso de herramientas de múltiples saltos. El modelo líder, GPT-4o, logra una precisión del 49.04%, subrayando un amplio margen para mejoras. Un análisis adicional revela variaciones en las estrategias de uso de herramientas para diversas familias, ofreciendo ideas prácticas para guiar el desarrollo de enfoques más efectivos. El código y los datos se pueden encontrar en https://huggingface.co/bytedance-research/ToolHop.
Proponemos Samba ASR, el primer modelo de Reconocimiento Automático del Habla (ASR) de última generación que aprovecha la novedosa arquitectura Mamba tanto como codificador como decodificador, construido sobre los fundamentos de los modelos de espacio de estados (SSMs). A diferencia de los modelos de ASR basados en transformadores, que dependen de mecanismos de autoatención para capturar dependencias, Samba ASR modela eficazmente tanto las dependencias temporales locales como globales utilizando dinámicas eficientes de espacio de estados, logrando notables mejoras de rendimiento. Al abordar las limitaciones de los transformadores, como la escalabilidad cuadrática con la longitud de entrada y la dificultad para manejar dependencias a larga distancia, Samba ASR logra una precisión y eficiencia superiores. Los resultados experimentales demuestran que Samba ASR supera a los modelos de ASR basados en transformadores de código abierto existentes en diversos benchmarks estándar, estableciéndose como el nuevo estado del arte en ASR. Evaluaciones extensas en conjuntos de datos de referencia muestran mejoras significativas en la Tasa de Error de Palabras (WER), con un rendimiento competitivo incluso en escenarios de recursos limitados. Además, la eficiencia computacional y la optimización de parámetros de la arquitectura Mamba hacen de Samba ASR una solución escalable y robusta para diversas tareas de ASR. Nuestras contribuciones incluyen: Una nueva arquitectura Samba ASR que demuestra la superioridad de los SSMs sobre los modelos basados en transformadores para el procesamiento de secuencias de habla. Una evaluación exhaustiva en benchmarks públicos que muestra un rendimiento de última generación. Un análisis de eficiencia computacional, robustez al ruido y generalización de secuencias. Este trabajo destaca la viabilidad de los SSMs de Mamba como una alternativa libre de transformadores para un ASR eficiente y preciso. Al aprovechar los avances en modelado de espacio de estados, Samba ASR establece un nuevo punto de referencia para el rendimiento de ASR y la investigación futura.
Este artículo presenta un marco poderoso para personalizar creaciones de video mediante la incorporación de múltiples fotos de identidad (ID) específicas, con Transformers de difusión de video, denominados Ingredientes. En general, nuestro método consta de tres módulos principales: (i) un extractor facial que captura rasgos faciales versátiles y precisos para cada ID humano desde perspectivas globales y locales; (ii) un proyector multi-escala que mapea incrustaciones faciales en el espacio contextual de la consulta de imagen en los Transformers de difusión de video; (iii) un enrutador de ID que combina dinámicamente y asigna múltiples incrustaciones de ID a las regiones espacio-temporales correspondientes. Aprovechando un conjunto de datos de texto-video meticulosamente seleccionado y un protocolo de entrenamiento de múltiples etapas, Ingredientes demuestra un rendimiento superior al convertir fotos personalizadas en contenido de video dinámico y personalizado. Las evaluaciones cualitativas destacan las ventajas del método propuesto, posicionándolo como un avance significativo hacia herramientas de control de video generativo más efectivas en la arquitectura basada en Transformers, en comparación con los métodos existentes. Los datos, el código y los pesos del modelo están disponibles públicamente en: https://github.com/feizc/Ingredients.
Diseñar visuales estructurados como diapositivas de presentación es esencial para las necesidades comunicativas, requiriendo habilidades tanto en la creación de contenido como en la planificación visual. En este trabajo, abordamos el desafío de la generación automatizada de diapositivas, donde los modelos producen presentaciones de diapositivas a partir de instrucciones en lenguaje natural (NL). Primero presentamos el benchmark SlidesBench, el primer benchmark para la generación de diapositivas con 7k ejemplos de entrenamiento y 585 de prueba derivados de 310 conjuntos de diapositivas en 10 dominios. SlidesBench admite evaluaciones que son (i) basadas en referencia para medir la similitud con una diapositiva objetivo, y (ii) sin referencia para medir la calidad de diseño de las diapositivas generadas por sí solas. Evaluamos métodos de generación de imágenes y programas de extremo a extremo con una variedad de modelos, y encontramos que los métodos programáticos producen diapositivas de mayor calidad en formatos con los que el usuario puede interactuar. Basándonos en el éxito de la generación de programas, creamos AutoPresent, un modelo basado en Llama de 8B entrenado en 7k pares de instrucciones emparejadas con código para la generación de diapositivas, y logramos resultados comparables al modelo cerrado GPT-4o. Exploramos además el refinamiento iterativo del diseño donde el modelo tiene la tarea de automejorar su propia salida, y encontramos que este proceso mejora la calidad de la diapositiva. Esperamos que nuestro trabajo siente las bases para futuros trabajos sobre la generación de visuales estructurados.
El rápido desarrollo de los modelos de lenguaje visual (VLMs) exige una evaluación rigurosa y confiable. Sin embargo, los actuales puntos de referencia de respuesta a preguntas visuales (VQA) a menudo dependen de preguntas abiertas, lo que dificulta la evaluación precisa debido a la variabilidad en las respuestas en lenguaje natural. Para abordar esto, presentamos AutoConverter, un marco agente que convierte automáticamente estas preguntas abiertas en formato de opción múltiple, permitiendo una evaluación objetiva al tiempo que reduce el costoso proceso de creación de preguntas. Nuestros experimentos demuestran que AutoConverter puede generar preguntas de opción múltiple correctas y desafiantes, con los VLMs demostrando una precisión consistentemente similar o inferior en estas preguntas en comparación con las creadas por humanos. Utilizando AutoConverter, construimos VMCBench, un punto de referencia creado transformando 20 conjuntos de datos VQA existentes en un formato unificado de opción múltiple, con un total de 9,018 preguntas. Evaluamos exhaustivamente 33 VLMs de última generación en VMCBench, estableciendo un nuevo estándar para la evaluación escalable, consistente y reproducible de VLMs.
En este documento, proponemos ProTracker, un marco novedoso para el seguimiento denso a largo plazo robusto y preciso de puntos arbitrarios en videos. La idea clave de nuestro método es la incorporación de integración probabilística para refinar múltiples predicciones tanto de flujo óptico como de características semánticas para un seguimiento robusto a corto y largo plazo. Específicamente, integramos estimaciones de flujo óptico de manera probabilística, produciendo trayectorias suaves y precisas al maximizar la verosimilitud de cada predicción. Para relocalizar de manera efectiva puntos desafiantes que desaparecen y reaparecen debido a la oclusión, incorporamos además la correspondencia de características a largo plazo en nuestras predicciones de flujo para la generación continua de trayectorias. Experimentos extensos muestran que ProTracker logra un rendimiento de vanguardia entre enfoques no supervisados y auto-supervisados, e incluso supera a los métodos supervisados en varios benchmarks. Nuestro código y modelo estarán disponibles públicamente al ser publicados.