Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

STAR: Aumento Espacio-Temporal con Modelos de Texto a Video para Super-Resolución de Video en el Mundo Real
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Jan 6

ByRui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai

Los modelos de difusión de imágenes se han adaptado para la superresolución de videos del mundo real para abordar problemas de suavizado excesivo en métodos basados en GAN. Sin embargo, estos modelos tienen dificultades para mantener la consistencia temporal, ya que están entrenados en imágenes estáticas, lo que limita su capacidad para capturar de manera efectiva las dinámicas temporales. La integración de modelos de texto a video (T2V) en la superresolución de videos para mejorar el modelado temporal es directa. Sin embargo, dos desafíos clave persisten: artefactos introducidos por degradaciones complejas en escenarios del mundo real y fidelidad comprometida debido a la fuerte capacidad generativa de potentes modelos T2V (por ejemplo, CogVideoX-5B). Para mejorar la calidad espacio-temporal de videos restaurados, presentamos \name (Aumento Espacio-Temporal con modelos T2V para superresolución de videos del mundo real), un enfoque novedoso que aprovecha modelos T2V para la superresolución de videos del mundo real, logrando detalles espaciales realistas y una consistencia temporal sólida. Específicamente, introducimos un Módulo de Mejora de Información Local (LIEM) antes del bloque de atención global para enriquecer detalles locales y mitigar artefactos de degradación. Además, proponemos una Pérdida de Frecuencia Dinámica (DF) para reforzar la fidelidad, guiando al modelo para que se enfoque en diferentes componentes de frecuencia a lo largo de los pasos de difusión. Experimentos extensos demuestran que \name supera a los métodos de vanguardia en conjuntos de datos sintéticos y del mundo real.

Computación en tiempo de prueba: desde el Pensamiento del Sistema-1 hasta el Pensamiento del Sistema-2
Test-time Computing: from System-1 Thinking to System-2 Thinking

Jan 5

ByYixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang

El notable rendimiento del modelo o1 en el razonamiento complejo demuestra que la escalabilidad del cálculo en tiempo de prueba puede desbloquear aún más el potencial del modelo, permitiendo un pensamiento poderoso del Sistema-2. Sin embargo, todavía existe una falta de encuestas exhaustivas sobre la escalabilidad del cálculo en tiempo de prueba. Rastreamos el concepto de cálculo en tiempo de prueba hasta los modelos del Sistema-1. En los modelos del Sistema-1, el cálculo en tiempo de prueba aborda cambios en la distribución y mejora la robustez y generalización a través de la actualización de parámetros, la modificación de entradas, la edición de representaciones y la calibración de salidas. En los modelos del Sistema-2, mejora la capacidad de razonamiento del modelo para resolver problemas complejos a través de muestreos repetidos, autocorrección y búsqueda en árbol. Organizamos esta encuesta de acuerdo con la tendencia del pensamiento del Sistema-1 al Sistema-2, resaltando el papel clave del cálculo en tiempo de prueba en la transición de modelos del Sistema-1 a modelos débiles del Sistema-2, y luego a modelos fuertes del Sistema-2. También señalamos algunas posibles direcciones futuras.

BoostStep: Mejorando la capacidad matemática de los Modelos de Lenguaje Grandes mediante un razonamiento de un solo paso mejorado
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Jan 6

ByBeichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang

Los modelos de lenguaje grandes (LLMs) de vanguardia demuestran un rendimiento prometedor en la resolución de problemas matemáticos complejos con un proceso de dividir y conquistar y la asistencia de ejemplos de aprendizaje en contexto (ICL). Sin embargo, su potencial de mejora se ve limitado por dos problemas críticos dentro de sus ejemplos de ICL: la falta de coincidencia de granularidad y el consiguiente problema de ruido de efecto negativo. Específicamente, los LLMs son capaces de llevar a cabo el proceso de división pero fallan principalmente en el razonamiento inexacto dentro de unos pocos pasos de conquista, mientras que los ejemplos de ICL recuperados a veces carecen de pasos relevantes para un paso de razonamiento desafiante específico. Además, esta desconexión puede obstaculizar el razonamiento correcto debido a su falta de relevancia. Con este fin, nos enfocamos en mejorar la calidad del razonamiento en cada paso y presentamos BoostStep. BoostStep alinea la granularidad entre la recuperación y el razonamiento en pasos, y proporciona ejemplos de ICL altamente relacionados para cada paso de razonamiento con una estrategia novedosa de 'primer intento'. BoostStep proporciona ejemplos más relevantes que la estrategia de granularidad de pregunta gruesa, mejorando la calidad del razonamiento del modelo en cada paso de manera constante. BoostStep es un método general y robusto para mejorar el razonamiento que no solo mejora el rendimiento de razonamiento independiente, sino que también se integra perfectamente con los métodos de Búsqueda de Árbol de Monte Carlo (MCTS) para refinar tanto la generación de candidatos como la toma de decisiones. Cuantitativamente, mejora GPT-4o y Qwen2.5-Math-72B en un 3.6\% y 2.0\% respectivamente en varios puntos de referencia matemáticos, y un aumento del 7.5\% combinado con MCTS.

Dispider: Permitiendo LLMs de Video con Interacción Activa en Tiempo Real a través de Percepción, Decisión y Reacción Disentanguladas.
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Jan 6

ByRui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

La interacción activa en tiempo real con modelos de lenguaje de video introduce un nuevo paradigma para la interacción humano-computadora, donde el modelo no solo comprende la intención del usuario, sino que también responde mientras procesa continuamente el video en tiempo real. A diferencia de los modelos de lenguaje de video offline, que analizan todo el video antes de responder preguntas, la interacción activa en tiempo real requiere tres capacidades: 1) Percepción: monitoreo de video en tiempo real y captura de interacción. 2) Decisión: generación de interacción proactiva en situaciones adecuadas. 3) Reacción: interacción continua con los usuarios. Sin embargo, existen conflictos inherentes entre las capacidades deseadas. La Decisión y la Reacción requieren una escala y detalle de Percepción contrarios, y la decodificación autoregresiva bloquea la Percepción y la Decisión en tiempo real durante la Reacción. Para unificar las capacidades en conflicto dentro de un sistema armonioso, presentamos Dispider, un sistema que desentraña Percepción, Decisión y Reacción. Dispider cuenta con un módulo ligero de procesamiento de video en tiempo real que rastrea el flujo de video e identifica momentos óptimos para la interacción. Una vez que se activa la interacción, un módulo de interacción asincrónica proporciona respuestas detalladas, mientras que el módulo de procesamiento continúa monitoreando el video en ese momento. Nuestro diseño desentrañado y asincrónico garantiza respuestas oportunas, precisas en contexto y eficientes computacionalmente, lo que hace a Dispider ideal para la interacción activa en tiempo real en transmisiones de video de larga duración. Los experimentos muestran que Dispider no solo mantiene un rendimiento sólido en tareas convencionales de preguntas y respuestas de video, sino que también supera significativamente a modelos en línea anteriores en respuestas de escenarios de transmisión, validando así la efectividad de nuestra arquitectura. El código y el modelo se encuentran disponibles en https://github.com/Mark12Ding/Dispider.

Recuperación Personalizada Basada en Grafos para Modelos de Lenguaje Grandes
Personalized Graph-Based Retrieval for Large Language Models

Jan 4

BySteven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed

A medida que los modelos de lenguaje de gran escala (LLMs) evolucionan, su capacidad para ofrecer respuestas personalizadas y contextualmente conscientes ofrece un potencial transformador para mejorar las experiencias de usuario. Sin embargo, los enfoques de personalización existentes a menudo se basan únicamente en el historial del usuario para complementar la solicitud, lo que limita su efectividad en la generación de salidas adaptadas, especialmente en escenarios de inicio en frío con datos escasos. Para abordar estas limitaciones, proponemos Recuperación Generativa Basada en Grafo Personalizado (PGraphRAG), un marco que aprovecha los grafos de conocimiento centrados en el usuario para enriquecer la personalización. Al integrar directamente el conocimiento estructurado del usuario en el proceso de recuperación y mejorar las solicitudes con contexto relevante para el usuario, PGraphRAG mejora la comprensión contextual y la calidad de la salida. También presentamos el Conjunto de Datos de Benchmark Basado en Grafo Personalizado para Generación de Texto, diseñado para evaluar tareas de generación de texto personalizado en entornos del mundo real donde el historial del usuario es escaso o no está disponible. Los resultados experimentales muestran que PGraphRAG supera significativamente a los métodos de personalización de vanguardia en diversas tareas, demostrando las ventajas únicas de la recuperación basada en grafo para la personalización.

Leyes de Escala para el Entrenamiento de Cuantificación de Punto Flotante
Scaling Laws for Floating Point Quantization Training

Jan 5

ByXingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang

El entrenamiento de baja precisión se considera una estrategia efectiva para reducir tanto los costos de entrenamiento como los costos de inferencia posteriores. Las leyes de escala anteriores para la precisión se centran principalmente en la cuantificación de enteros, prestando menos atención a los componentes en la cuantificación de punto flotante y, por lo tanto, no pueden adaptarse bien a las pérdidas de LLM en este escenario. En contraste, aunque el entrenamiento de cuantificación de punto flotante se implementa más comúnmente en la producción, la investigación al respecto ha sido relativamente superficial. En este documento, exploramos a fondo los efectos de los objetivos de cuantificación de punto flotante, los bits del exponente, los bits de la mantisa y la granularidad del cálculo del factor de escala en el rendimiento del entrenamiento de cuantificación de punto flotante de modelos LLM. Al presentar una ley de escala unificada precisa para la cuantificación de punto flotante, también brindamos sugerencias valiosas para la comunidad: (1) Los bits del exponente contribuyen ligeramente más al rendimiento del modelo que los bits de la mantisa. Proporcionamos la proporción óptima de bits de exponente-mantisa para diferentes números de bits, que está disponible para futura referencia por parte de los fabricantes de hardware; (2) Descubrimos la formación del tamaño crítico de datos en el entrenamiento de LLM de baja precisión. Demasiados datos de entrenamiento que exceden el tamaño crítico de datos traerán inversamente una degradación del rendimiento de LLM; (3) La precisión óptima de cuantificación de punto flotante es directamente proporcional al poder computacional, pero dentro de un amplio rango de poder computacional, estimamos que la mejor precisión en términos de costo-rendimiento se encuentra entre 4 y 8 bits.

TransPixar: Avanzando en la Generación de Video a partir de Texto con Transparencia
TransPixar: Advancing Text-to-Video Generation with Transparency

Jan 6

ByLuozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen

Los modelos generativos de texto a video han avanzado significativamente, permitiendo diversas aplicaciones en entretenimiento, publicidad y educación. Sin embargo, la generación de video RGBA, que incluye canales alfa para transparencia, sigue siendo un desafío debido a conjuntos de datos limitados y la dificultad de adaptar modelos existentes. Los canales alfa son cruciales para efectos visuales (VFX), permitiendo que elementos transparentes como humo y reflejos se integren sin problemas en las escenas. Presentamos TransPixar, un método para extender modelos de video preentrenados para generación RGBA manteniendo las capacidades originales de RGB. TransPixar aprovecha una arquitectura de transformador de difusión (DiT), incorporando tokens específicos para alfa y utilizando ajuste fino basado en LoRA para generar conjuntamente canales RGB y alfa con alta consistencia. Optimizando los mecanismos de atención, TransPixar conserva las fortalezas del modelo RGB original y logra una fuerte alineación entre los canales RGB y alfa a pesar de los datos de entrenamiento limitados. Nuestro enfoque genera de manera efectiva videos RGBA diversos y consistentes, avanzando en las posibilidades para VFX y la creación de contenido interactivo.

A través de la máscara: Trayectorias de movimiento basadas en máscaras para la generación de imagen a video.
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Jan 6

ByGuy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak

Consideramos la tarea de generación de Imagen-a-Video (I2V), que implica transformar imágenes estáticas en secuencias de video realistas basadas en una descripción textual. Si bien los avances recientes producen salidas fotorrealistas, a menudo tienen dificultades para crear videos con un movimiento de objetos preciso y consistente, especialmente en escenarios con múltiples objetos. Para abordar estas limitaciones, proponemos un marco compositivo de dos etapas que descompone la generación I2V en: (i) Una etapa de generación de representación intermedia explícita, seguida por (ii) Una etapa de generación de video condicionada a esta representación. Nuestra innovación clave es la introducción de una trayectoria de movimiento basada en máscara como representación intermedia, que captura tanto información semántica de objetos como movimiento, permitiendo una representación expresiva pero compacta de movimiento y semántica. Para incorporar la representación aprendida en la segunda etapa, utilizamos objetivos de atención a nivel de objeto. Específicamente, consideramos un objetivo de atención cruzada enmascarada espacial, por objeto, integrando indicaciones específicas de objetos en regiones correspondientes del espacio latente y un objetivo de auto-atención espacial-temporal enmascarada, asegurando consistencia de fotograma a fotograma para cada objeto. Evaluamos nuestro método en desafiantes benchmarks con escenarios de múltiples objetos y alto movimiento y demostramos empíricamente que el método propuesto logra resultados de vanguardia en coherencia temporal, realismo de movimiento y fidelidad a la descripción de texto. Además, presentamos \benchmark, un nuevo benchmark desafiante para la generación I2V de un solo objeto y múltiples objetos, y demostramos la superioridad de nuestro método en este benchmark. La página del proyecto está disponible en https://guyyariv.github.io/TTM/.

METAGENO-1: Modelo Fundacional Metagenómico para el Monitoreo de Pandemias
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Jan 3

ByOllie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger

Preentrenamos METAGENE-1, un modelo autoregresivo transformer de 7 mil millones de parámetros, al que nos referimos como un modelo base metagenómico, en un corpus novedoso de diversas secuencias de ADN y ARN metagenómicas que comprenden más de 1.5 billones de pares de bases. Este conjunto de datos se obtiene de una amplia colección de muestras de aguas residuales humanas, procesadas y secuenciadas utilizando métodos de secuenciación metagenómica profunda (de próxima generación). A diferencia de los modelos genómicos que se centran en genomas individuales o conjuntos curados de especies específicas, el objetivo de METAGENE-1 es capturar la distribución completa de información genómica presente en estas aguas residuales, para ayudar en tareas relevantes para el monitoreo de pandemias y la detección de patógenos. Realizamos la tokenización de codificación de pares de bytes (BPE) en nuestro conjunto de datos, adaptada para secuencias metagenómicas, y luego preentrenamos nuestro modelo. En este artículo, detallamos primero el conjunto de datos de preentrenamiento, la estrategia de tokenización y la arquitectura del modelo, resaltando las consideraciones y decisiones de diseño que permiten el modelado efectivo de datos metagenómicos. Luego mostramos los resultados de preentrenar este modelo en nuestro conjunto de datos metagenómico, proporcionando detalles sobre nuestras pérdidas, métricas del sistema y estabilidad del entrenamiento a lo largo del preentrenamiento. Finalmente, demostramos el rendimiento de METAGENE-1, que logra resultados de vanguardia en un conjunto de pruebas genómicas y nuevas evaluaciones centradas en la detección de patógenos humanos y la incrustación de secuencias genómicas, mostrando su potencial para aplicaciones de salud pública en el monitoreo de pandemias, la biovigilancia y la detección temprana de amenazas emergentes para la salud.

Auto-RT: Exploración Automática de Estrategias de Jailbreak para la Red Team de Modelos de Lenguaje Grandes
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Jan 3

ByYanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun

La realización automatizada de red teaming se ha convertido en un enfoque crucial para descubrir vulnerabilidades en modelos de lenguaje grandes (LLMs). Sin embargo, la mayoría de los métodos existentes se centran en fallos de seguridad aislados, limitando su capacidad para adaptarse a defensas dinámicas y descubrir vulnerabilidades complejas de manera eficiente. Para abordar este desafío, proponemos Auto-RT, un marco de aprendizaje por refuerzo que explora y optimiza automáticamente estrategias de ataque complejas para descubrir de manera efectiva vulnerabilidades de seguridad a través de consultas maliciosas. Específicamente, introducimos dos mecanismos clave para reducir la complejidad de la exploración y mejorar la optimización de estrategias: 1) Exploración con terminación anticipada, que acelera la exploración al centrarse en estrategias de ataque con alto potencial; y 2) Algoritmo de Seguimiento de Recompensas Progresivas con modelos de degradación intermedia, que refinan dinámicamente la trayectoria de búsqueda hacia la explotación exitosa de vulnerabilidades. Experimentos extensos en diversos LLMs demuestran que, al mejorar significativamente la eficiencia de la exploración y optimizar automáticamente las estrategias de ataque, Auto-RT detecta un rango más amplio de vulnerabilidades, logrando una detección más rápida y tasas de éxito un 16.63\% más altas en comparación con los métodos existentes.

GS-DiT: Avanzando en la Generación de Video con Campos Gaussianos Pseudo 4D a través de un Seguimiento Eficiente de Puntos 3D Denso.
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Jan 5

ByWeikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li

El control de video 4D es esencial en la generación de video, ya que permite el uso de técnicas sofisticadas de lentes, como la filmación con múltiples cámaras y el efecto dolly zoom, que actualmente no son compatibles con los métodos existentes. Entrenar un Transformador de Difusión de Video (DiT) directamente para controlar contenido 4D requiere videos de múltiples vistas costosos. Inspirados por la Síntesis de Nueva Vista Dinámica Monocular (MDVS) que optimiza una representación 4D y renderiza videos según diferentes elementos 4D, como la posición de la cámara y la edición de movimiento de objetos, introducimos campos gaussianos pseudo 4D en la generación de video. Específicamente, proponemos un nuevo marco de trabajo que construye un campo gaussiano pseudo 4D con seguimiento denso de puntos 3D y renderiza el campo gaussiano para todos los fotogramas de video. Luego afinamos un DiT preentrenado para generar videos siguiendo la guía del video renderizado, denominado GS-DiT. Para potenciar el entrenamiento del GS-DiT, también proponemos un método eficiente de Seguimiento Denso de Puntos 3D (D3D-PT) para la construcción del campo gaussiano pseudo 4D. Nuestro D3D-PT supera a SpatialTracker, el método de seguimiento de puntos 3D dispersos de última generación, en precisión y acelera la velocidad de inferencia en dos órdenes de magnitud. Durante la etapa de inferencia, GS-DiT puede generar videos con el mismo contenido dinámico mientras se adhiere a diferentes parámetros de la cámara, abordando una limitación significativa de los modelos actuales de generación de video. GS-DiT demuestra fuertes capacidades de generalización y amplía la capacidad de control 4D del salpicado gaussiano en la generación de video más allá de solo las posiciones de cámara. Admite efectos cinematográficos avanzados a través de la manipulación del campo gaussiano y de los intrínsecos de la cámara, convirtiéndolo en una herramienta poderosa para la producción de video creativa. Las demostraciones están disponibles en https://wkbian.github.io/Projects/GS-DiT/.

DepthMaster: Domando Modelos de Difusión para la Estimación de Profundidad Monocular
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Jan 5

ByZiyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang

La estimación de profundidad monocular dentro del paradigma de difusión-denoising muestra una impresionante capacidad de generalización pero sufre de baja velocidad de inferencia. Métodos recientes adoptan un paradigma determinista de un solo paso para mejorar la eficiencia de inferencia manteniendo un rendimiento comparable. Sin embargo, pasan por alto la brecha entre características generativas y discriminativas, lo que lleva a resultados subóptimos. En este trabajo, proponemos DepthMaster, un modelo de difusión de un solo paso diseñado para adaptar características generativas para la tarea de estimación de profundidad discriminativa. Primero, para mitigar el sobreajuste a los detalles de textura introducidos por características generativas, proponemos un módulo de Alineación de Características, que incorpora características semánticas de alta calidad para mejorar la capacidad de representación de la red de denoising. Segundo, para abordar la falta de detalles finos en el marco determinista de un solo paso, proponemos un módulo de Mejora de Fourier para equilibrar de forma adaptativa la estructura de baja frecuencia y los detalles de alta frecuencia. Adoptamos una estrategia de entrenamiento de dos etapas para aprovechar completamente el potencial de los dos módulos. En la primera etapa, nos enfocamos en aprender la estructura global de la escena con el módulo de Alineación de Características, mientras que en la segunda etapa, explotamos el módulo de Mejora de Fourier para mejorar la calidad visual. A través de estos esfuerzos, nuestro modelo logra un rendimiento de vanguardia en términos de generalización y preservación de detalles, superando a otros métodos basados en difusión en varios conjuntos de datos. Nuestra página del proyecto se puede encontrar en https://indu1ge.github.io/DepthMaster_page.

PRMBench: Un banco de pruebas detallado y desafiante para modelos de recompensa a nivel de proceso
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Jan 6

ByMingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng

Los Modelos de Recompensa a Nivel de Proceso (PRMs, por sus siglas en inglés) son cruciales para tareas de razonamiento y toma de decisiones complejas, donde cada paso intermedio juega un papel importante en el proceso de razonamiento. Dado que los modelos de lenguaje son propensos a diversos tipos de errores durante el proceso de razonamiento, se requiere que los PRMs posean capacidades matizadas para detectar varios tipos de errores implícitos en escenarios del mundo real. Sin embargo, los benchmarks actuales se centran principalmente en la corrección de pasos, sin evaluar sistemáticamente el rendimiento de los PRMs. Para abordar esta brecha, presentamos PRMBench, un benchmark a nivel de proceso diseñado específicamente para evaluar las capacidades de detección de errores detallados de los PRMs. PRMBench consta de 6,216 problemas cuidadosamente diseñados y 83,456 etiquetas a nivel de paso, evaluando modelos en múltiples dimensiones, incluyendo simplicidad, solidez y sensibilidad. En nuestros experimentos con 15 modelos, que abarcan tanto PRMs de código abierto como grandes modelos de lenguaje de código cerrado presentados como modelos críticos, descubrimos debilidades significativas en los PRMs actuales. Estos hallazgos subrayan los desafíos inherentes en la evaluación a nivel de proceso y resaltan direcciones clave para futuras investigaciones. Esperamos que PRMBench pueda ser un banco de pruebas sólido para avanzar en la investigación sobre la evaluación y desarrollo de PRMs.

ToolHop: Un banco de pruebas impulsado por consultas para evaluar modelos de lenguaje grandes en el uso de herramientas de múltiples saltos.
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Jan 5

ByJunjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen

La evaluación efectiva del uso de herramientas de múltiples saltos es fundamental para analizar la comprensión, el razonamiento y las capacidades de llamada a funciones de modelos de lenguaje grandes (LLMs). Sin embargo, el progreso se ha visto obstaculizado por la falta de conjuntos de datos de evaluación confiables. Para abordar esto, presentamos ToolHop, un conjunto de datos que consta de 995 consultas de usuario y 3,912 herramientas asociadas, diseñado específicamente para una evaluación rigurosa del uso de herramientas de múltiples saltos. ToolHop garantiza consultas diversas, interdependencias significativas, herramientas localmente ejecutables, retroalimentación detallada y respuestas verificables a través de un enfoque novedoso de construcción de datos impulsado por consultas que incluye la creación de herramientas, el refinamiento de documentos y la generación de código. Evaluamos 14 LLMs en cinco familias de modelos (es decir, LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5 y GPT), revelando desafíos significativos en el manejo de escenarios de uso de herramientas de múltiples saltos. El modelo líder, GPT-4o, logra una precisión del 49.04%, subrayando un amplio margen para mejoras. Un análisis adicional revela variaciones en las estrategias de uso de herramientas para diversas familias, ofreciendo ideas prácticas para guiar el desarrollo de enfoques más efectivos. El código y los datos se pueden encontrar en https://huggingface.co/bytedance-research/ToolHop.

AutoPresent: Diseñando Visuales Estructurados desde Cero
AutoPresent: Designing Structured Visuals from Scratch

Jan 1

ByJiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell

Diseñar visuales estructurados como diapositivas de presentación es esencial para las necesidades comunicativas, requiriendo habilidades tanto en la creación de contenido como en la planificación visual. En este trabajo, abordamos el desafío de la generación automatizada de diapositivas, donde los modelos producen presentaciones de diapositivas a partir de instrucciones en lenguaje natural (NL). Primero presentamos el benchmark SlidesBench, el primer benchmark para la generación de diapositivas con 7k ejemplos de entrenamiento y 585 de prueba derivados de 310 conjuntos de diapositivas en 10 dominios. SlidesBench admite evaluaciones que son (i) basadas en referencia para medir la similitud con una diapositiva objetivo, y (ii) sin referencia para medir la calidad de diseño de las diapositivas generadas por sí solas. Evaluamos métodos de generación de imágenes y programas de extremo a extremo con una variedad de modelos, y encontramos que los métodos programáticos producen diapositivas de mayor calidad en formatos con los que el usuario puede interactuar. Basándonos en el éxito de la generación de programas, creamos AutoPresent, un modelo basado en Llama de 8B entrenado en 7k pares de instrucciones emparejadas con código para la generación de diapositivas, y logramos resultados comparables al modelo cerrado GPT-4o. Exploramos además el refinamiento iterativo del diseño donde el modelo tiene la tarea de automejorar su propia salida, y encontramos que este proceso mejora la calidad de la diapositiva. Esperamos que nuestro trabajo siente las bases para futuros trabajos sobre la generación de visuales estructurados.

Reconocimiento de voz de vanguardia Samba-asr aprovechando modelos estructurados de espacio de estados.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Jan 6

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

Proponemos Samba ASR, el primer modelo de Reconocimiento Automático del Habla (ASR) de última generación que aprovecha la novedosa arquitectura Mamba tanto como codificador como decodificador, construido sobre los fundamentos de los modelos de espacio de estados (SSMs). A diferencia de los modelos de ASR basados en transformadores, que dependen de mecanismos de autoatención para capturar dependencias, Samba ASR modela eficazmente tanto las dependencias temporales locales como globales utilizando dinámicas eficientes de espacio de estados, logrando notables mejoras de rendimiento. Al abordar las limitaciones de los transformadores, como la escalabilidad cuadrática con la longitud de entrada y la dificultad para manejar dependencias a larga distancia, Samba ASR logra una precisión y eficiencia superiores. Los resultados experimentales demuestran que Samba ASR supera a los modelos de ASR basados en transformadores de código abierto existentes en diversos benchmarks estándar, estableciéndose como el nuevo estado del arte en ASR. Evaluaciones extensas en conjuntos de datos de referencia muestran mejoras significativas en la Tasa de Error de Palabras (WER), con un rendimiento competitivo incluso en escenarios de recursos limitados. Además, la eficiencia computacional y la optimización de parámetros de la arquitectura Mamba hacen de Samba ASR una solución escalable y robusta para diversas tareas de ASR. Nuestras contribuciones incluyen: Una nueva arquitectura Samba ASR que demuestra la superioridad de los SSMs sobre los modelos basados en transformadores para el procesamiento de secuencias de habla. Una evaluación exhaustiva en benchmarks públicos que muestra un rendimiento de última generación. Un análisis de eficiencia computacional, robustez al ruido y generalización de secuencias. Este trabajo destaca la viabilidad de los SSMs de Mamba como una alternativa libre de transformadores para un ASR eficiente y preciso. Al aprovechar los avances en modelado de espacio de estados, Samba ASR establece un nuevo punto de referencia para el rendimiento de ASR y la investigación futura.

Ingredientes: Mezclando Fotos Personalizadas con Transformadores de Difusión de Video
Ingredients: Blending Custom Photos with Video Diffusion Transformers

Jan 3

ByZhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan

Este artículo presenta un marco poderoso para personalizar creaciones de video mediante la incorporación de múltiples fotos de identidad (ID) específicas, con Transformers de difusión de video, denominados Ingredientes. En general, nuestro método consta de tres módulos principales: (i) un extractor facial que captura rasgos faciales versátiles y precisos para cada ID humano desde perspectivas globales y locales; (ii) un proyector multi-escala que mapea incrustaciones faciales en el espacio contextual de la consulta de imagen en los Transformers de difusión de video; (iii) un enrutador de ID que combina dinámicamente y asigna múltiples incrustaciones de ID a las regiones espacio-temporales correspondientes. Aprovechando un conjunto de datos de texto-video meticulosamente seleccionado y un protocolo de entrenamiento de múltiples etapas, Ingredientes demuestra un rendimiento superior al convertir fotos personalizadas en contenido de video dinámico y personalizado. Las evaluaciones cualitativas destacan las ventajas del método propuesto, posicionándolo como un avance significativo hacia herramientas de control de video generativo más efectivas en la arquitectura basada en Transformers, en comparación con los métodos existentes. Los datos, el código y los pesos del modelo están disponibles públicamente en: https://github.com/feizc/Ingredients.

Generación Automatizada de Preguntas de Opción Múltiple Desafiantes para la Evaluación de Modelos de Visión y Lenguaje
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Jan 6

ByYuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy

El rápido desarrollo de los modelos de lenguaje visual (VLMs) exige una evaluación rigurosa y confiable. Sin embargo, los actuales puntos de referencia de respuesta a preguntas visuales (VQA) a menudo dependen de preguntas abiertas, lo que dificulta la evaluación precisa debido a la variabilidad en las respuestas en lenguaje natural. Para abordar esto, presentamos AutoConverter, un marco agente que convierte automáticamente estas preguntas abiertas en formato de opción múltiple, permitiendo una evaluación objetiva al tiempo que reduce el costoso proceso de creación de preguntas. Nuestros experimentos demuestran que AutoConverter puede generar preguntas de opción múltiple correctas y desafiantes, con los VLMs demostrando una precisión consistentemente similar o inferior en estas preguntas en comparación con las creadas por humanos. Utilizando AutoConverter, construimos VMCBench, un punto de referencia creado transformando 20 conjuntos de datos VQA existentes en un formato unificado de opción múltiple, con un total de 9,018 preguntas. Evaluamos exhaustivamente 33 VLMs de última generación en VMCBench, estableciendo un nuevo estándar para la evaluación escalable, consistente y reproducible de VLMs.

ProTracker: Integración Probabilística para un Seguimiento Preciso y Robusto de Puntos
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking

Jan 6

ByTingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu

En este documento, proponemos ProTracker, un marco novedoso para el seguimiento denso a largo plazo robusto y preciso de puntos arbitrarios en videos. La idea clave de nuestro método es la incorporación de integración probabilística para refinar múltiples predicciones tanto de flujo óptico como de características semánticas para un seguimiento robusto a corto y largo plazo. Específicamente, integramos estimaciones de flujo óptico de manera probabilística, produciendo trayectorias suaves y precisas al maximizar la verosimilitud de cada predicción. Para relocalizar de manera efectiva puntos desafiantes que desaparecen y reaparecen debido a la oclusión, incorporamos además la correspondencia de características a largo plazo en nuestras predicciones de flujo para la generación continua de trayectorias. Experimentos extensos muestran que ProTracker logra un rendimiento de vanguardia entre enfoques no supervisados y auto-supervisados, e incluso supera a los métodos supervisados en varios benchmarks. Nuestro código y modelo estarán disponibles públicamente al ser publicados.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

STAR: Aumento Espacio-Temporal con Modelos de Texto a Video para Super-Resolución de Video en el Mundo Real
STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Jan 6

ByRui Xie, Yinhong Liu, Penghao Zhou, Chen Zhao, Jun Zhou, Kai Zhang, Zhenyu Zhang, Jian Yang, Zhenheng Yang, Ying Tai

Computación en tiempo de prueba: desde el Pensamiento del Sistema-1 hasta el Pensamiento del Sistema-2
Test-time Computing: from System-1 Thinking to System-2 Thinking

Jan 5

ByYixin Ji, Juntao Li, Hai Ye, Kaixin Wu, Jia Xu, Linjian Mo, Min Zhang

BoostStep: Mejorando la capacidad matemática de los Modelos de Lenguaje Grandes mediante un razonamiento de un solo paso mejorado
BoostStep: Boosting mathematical capability of Large Language Models via improved single-step reasoning

Jan 6

ByBeichen Zhang, Yuhong Liu, Xiaoyi Dong, Yuhang Zang, Pan Zhang, Haodong Duan, Yuhang Cao, Dahua Lin, Jiaqi Wang

Dispider: Permitiendo LLMs de Video con Interacción Activa en Tiempo Real a través de Percepción, Decisión y Reacción Disentanguladas.
Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

Jan 6

ByRui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Recuperación Personalizada Basada en Grafos para Modelos de Lenguaje Grandes
Personalized Graph-Based Retrieval for Large Language Models

Jan 4

BySteven Au, Cameron J. Dimacali, Ojasmitha Pedirappagari, Namyong Park, Franck Dernoncourt, Yu Wang, Nikos Kanakaris, Hanieh Deilamsalehy, Ryan A. Rossi, Nesreen K. Ahmed

Leyes de Escala para el Entrenamiento de Cuantificación de Punto Flotante
Scaling Laws for Floating Point Quantization Training

Jan 5

ByXingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang

TransPixar: Avanzando en la Generación de Video a partir de Texto con Transparencia
TransPixar: Advancing Text-to-Video Generation with Transparency

Jan 6

ByLuozhou Wang, Yijun Li, Zhifei Chen, Jui-Hsien Wang, Zhifei Zhang, He Zhang, Zhe Lin, Yingcong Chen

A través de la máscara: Trayectorias de movimiento basadas en máscaras para la generación de imagen a video.
Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation

Jan 6

ByGuy Yariv, Yuval Kirstain, Amit Zohar, Shelly Sheynin, Yaniv Taigman, Yossi Adi, Sagie Benaim, Adam Polyak

METAGENO-1: Modelo Fundacional Metagenómico para el Monitoreo de Pandemias
METAGENE-1: Metagenomic Foundation Model for Pandemic Monitoring

Jan 3

ByOllie Liu, Sami Jaghouar, Johannes Hagemann, Shangshang Wang, Jason Wiemels, Jeff Kaufman, Willie Neiswanger

Auto-RT: Exploración Automática de Estrategias de Jailbreak para la Red Team de Modelos de Lenguaje Grandes
Auto-RT: Automatic Jailbreak Strategy Exploration for Red-Teaming Large Language Models

Jan 3

ByYanjiang Liu, Shuhen Zhou, Yaojie Lu, Huijia Zhu, Weiqiang Wang, Hongyu Lin, Ben He, Xianpei Han, Le Sun

GS-DiT: Avanzando en la Generación de Video con Campos Gaussianos Pseudo 4D a través de un Seguimiento Eficiente de Puntos 3D Denso.
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking

Jan 5

ByWeikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li

DepthMaster: Domando Modelos de Difusión para la Estimación de Profundidad Monocular
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation

Jan 5

ByZiyang Song, Zerong Wang, Bo Li, Hao Zhang, Ruijie Zhu, Li Liu, Peng-Tao Jiang, Tianzhu Zhang

PRMBench: Un banco de pruebas detallado y desafiante para modelos de recompensa a nivel de proceso
PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Jan 6

ByMingyang Song, Zhaochen Su, Xiaoye Qu, Jiawei Zhou, Yu Cheng

ToolHop: Un banco de pruebas impulsado por consultas para evaluar modelos de lenguaje grandes en el uso de herramientas de múltiples saltos.
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

Jan 5

ByJunjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiechao Chen

AutoPresent: Diseñando Visuales Estructurados desde Cero
AutoPresent: Designing Structured Visuals from Scratch

Jan 1

ByJiaxin Ge, Zora Zhiruo Wang, Xuhui Zhou, Yi-Hao Peng, Sanjay Subramanian, Qinyue Tan, Maarten Sap, Alane Suhr, Daniel Fried, Graham Neubig, Trevor Darrell

Reconocimiento de voz de vanguardia Samba-asr aprovechando modelos estructurados de espacio de estados.
Samba-asr state-of-the-art speech recognition leveraging structured state-space models

Jan 6

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

Ingredientes: Mezclando Fotos Personalizadas con Transformadores de Difusión de Video
Ingredients: Blending Custom Photos with Video Diffusion Transformers

Jan 3

ByZhengcong Fei, Debang Li, Di Qiu, Changqian Yu, Mingyuan Fan

Generación Automatizada de Preguntas de Opción Múltiple Desafiantes para la Evaluación de Modelos de Visión y Lenguaje
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Jan 6

ByYuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy

ProTracker: Integración Probabilística para un Seguimiento Preciso y Robusto de Puntos
ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking

Jan 6

ByTingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu