Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Sapiens: Fundamentos para Modelos de Visión Humana
Sapiens: Foundation for Human Vision Models

Aug 22

ByRawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito

Presentamos Sapiens, una familia de modelos para cuatro tareas fundamentales centradas en la visión humana: estimación de postura en 2D, segmentación de partes del cuerpo, estimación de profundidad y predicción de normales de superficie. Nuestros modelos admiten nativamente inferencias de alta resolución de 1K y son extremadamente fáciles de adaptar para tareas individuales simplemente ajustando modelos preentrenados en más de 300 millones de imágenes humanas en entornos naturales. Observamos que, dado el mismo presupuesto computacional, el preentrenamiento auto-supervisado en un conjunto de datos seleccionado de imágenes humanas mejora significativamente el rendimiento para un conjunto diverso de tareas centradas en humanos. Los modelos resultantes muestran una notable generalización a datos en entornos naturales, incluso cuando los datos etiquetados son escasos o completamente sintéticos. Nuestro diseño de modelo simple también aporta escalabilidad: el rendimiento del modelo en las tareas mejora a medida que aumentamos el número de parámetros de 0.3 a 2 mil millones. Sapiens supera consistentemente los baselines existentes en varios benchmarks centrados en humanos. Logramos mejoras significativas sobre el estado del arte previo en Humans-5K (postura) en 7.6 mAP, Humans-2K (segmentación de partes) en 17.1 mIoU, Hi4D (profundidad) en un 22.4% de RMSE relativo, y THuman2 (normales) en un 53.5% de error angular relativo.

Generación de Texto Controlable para Modelos de Lenguaje Grandes: Una Encuesta
Controllable Text Generation for Large Language Models: A Survey

Aug 22

ByXun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li

En el Procesamiento del Lenguaje Natural (PLN), los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) han demostrado una alta calidad en la generación de texto. Sin embargo, en aplicaciones del mundo real, los LLMs deben cumplir con requisitos cada vez más complejos. Además de evitar contenido engañoso o inapropiado, se espera que los LLMs satisfagan necesidades específicas de los usuarios, como imitar estilos de escritura particulares o generar texto con riqueza poética. Estas demandas variadas han impulsado el desarrollo de técnicas de Generación de Texto Controlada (CTG, por sus siglas en inglés), que garantizan que las salidas cumplan con condiciones de control predefinidas, como seguridad, sentimiento, consistencia temática y estilo lingüístico, manteniendo altos estándares de utilidad, fluidez y diversidad. Este artículo revisa sistemáticamente los últimos avances en CTG para LLMs, ofreciendo una definición integral de sus conceptos principales y aclarando los requisitos para las condiciones de control y la calidad del texto. Clasificamos las tareas de CTG en dos tipos principales: control de contenido y control de atributos. Se discuten los métodos clave, que incluyen el reentrenamiento del modelo, el ajuste fino, el aprendizaje por refuerzo, la ingeniería de indicaciones, la manipulación del espacio latente y la intervención en tiempo de decodificación. Analizamos las características, ventajas y limitaciones de cada método, brindando ideas detalladas para lograr un control de generación. Además, revisamos los métodos de evaluación de CTG, resumimos sus aplicaciones en diferentes dominios y abordamos los desafíos clave en la investigación actual, incluida la reducción de fluidez y practicidad. También proponemos varias sugerencias, como dar mayor énfasis a las aplicaciones del mundo real en futuras investigaciones. Este artículo tiene como objetivo ofrecer orientación valiosa a investigadores y desarrolladores en el campo. Nuestra lista de referencias y la versión en chino están disponibles en código abierto en https://github.com/IAAR-Shanghai/CTGSurvey.

Open-FinLLMs: Modelos de Lenguaje Grandes Multimodales Abiertos para Aplicaciones Financieras
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Aug 20

ByQianqian Xie, Dong Li, Mengxi Xiao, Zihao Jiang, Ruoyu Xiang, Xiao Zhang, Zhengyu Chen, Yueru He, Weiguang Han, Yuzhe Yang, Shunian Chen, Yifei Zhang, Lihang Shen, Daniel Kim, Zhiwei Liu, Zheheng Luo, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Zhiyuan Yao, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Yilun Zhao, Yitao Long, Guojun Xiong, Kaleb Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jianyun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Jimin Huang, Sophia Ananiadou

Los modelos de lenguaje grandes (LLMs) han avanzado en aplicaciones financieras, sin embargo, a menudo carecen de conocimiento financiero suficiente y tienen dificultades con tareas que involucran entradas multimodales como tablas y datos de series temporales. Para abordar estas limitaciones, presentamos Open-FinLLMs, una serie de LLMs financieros. Comenzamos con FinLLaMA, pre-entrenado en un corpus financiero de 52 mil millones de tokens, incorporando texto, tablas y datos de series temporales para incrustar un conocimiento financiero integral. Posteriormente, FinLLaMA se ajusta finamente con 573 mil instrucciones financieras, lo que resulta en FinLLaMA-instruct, que mejora el rendimiento en tareas. Finalmente, presentamos FinLLaVA, un LLM multimodal entrenado con 1.43 millones de instrucciones de imagen-texto para manejar tipos de datos financieros complejos. Evaluaciones exhaustivas demuestran el rendimiento superior de FinLLaMA sobre LLaMA3-8B, LLaMA3.1-8B y BloombergGPT tanto en configuraciones de cero disparos como de pocos disparos en 19 y 4 conjuntos de datos, respectivamente. FinLLaMA-instruct supera a GPT-4 y otros LLMs financieros en 15 conjuntos de datos. FinLLaVA destaca en la comprensión de tablas y gráficos en 4 tareas multimodales. Además, FinLLaMA logra impresionantes Índices de Sharpe en simulaciones de trading, destacando sus sólidas capacidades de aplicación financiera. Continuaremos manteniendo y mejorando nuestros modelos y puntos de referencia para respaldar la innovación continua en la academia y la industria.

Informe Técnico de Hermes 3
Hermes 3 Technical Report

Aug 15

ByRyan Teknium, Jeffrey Quesnelle, Chen Guang

Los modelos ajustados mediante instrucciones (o "conversacionales") se han convertido en la forma principal en la que la mayoría de las personas interactúan con grandes modelos de lenguaje. A diferencia de los modelos "base" o "fundamentales", los modelos ajustados mediante instrucciones están optimizados para responder a declaraciones imperativas. Presentamos Hermes 3, un modelo generalista alineado de manera neutral para instrucciones y uso de herramientas, con sólidas habilidades de razonamiento y creatividad. Su versión más grande, Hermes 3 405B, logra un rendimiento de vanguardia entre los modelos de peso abierto en varios benchmarks públicos.

Mostrar: Un solo transformador para unificar la comprensión y generación multimodal.
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Aug 22

ByJinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou

Presentamos un transformer unificado, es decir, Show-o, que unifica la comprensión y generación multimodal. A diferencia de los modelos totalmente autoregresivos, Show-o unifica la modelización autoregresiva y de difusión (discreta) para manejar de manera adaptativa entradas y salidas de diversas y mixtas modalidades. El modelo unificado soporta de manera flexible una amplia gama de tareas visión-lenguaje, incluyendo preguntas y respuestas visuales, generación de texto a imagen, inpainting/extrapolación guiados por texto, y generación de modalidades mixtas. A través de varios benchmarks, demuestra un rendimiento comparable o superior a los modelos individuales existentes con un número equivalente o mayor de parámetros adaptados para comprensión o generación. Esto destaca significativamente su potencial como un modelo base de próxima generación. El código y los modelos están disponibles en https://github.com/showlab/Show-o.

xGen-VideoSyn-1: Síntesis de Texto a Video de Alta Fidelidad con Representaciones Comprimidas
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Aug 22

ByCan Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong

Presentamos xGen-VideoSyn-1, un modelo generador de texto a video (T2V) capaz de producir escenas realistas a partir de descripciones textuales. Basándonos en avances recientes, como Sora de OpenAI, exploramos la arquitectura del modelo de difusión latente (LDM) e introducimos un autoencoder variacional de video (VidVAE). VidVAE comprime datos de video tanto espacial como temporalmente, reduciendo significativamente la longitud de los tokens visuales y las demandas computacionales asociadas con la generación de videos de secuencias largas. Para abordar aún más los costos computacionales, proponemos una estrategia de dividir y fusionar que mantiene la consistencia temporal entre segmentos de video. Nuestro modelo de Transformador de Difusión (DiT) incorpora capas de autoatención espacial y temporal, permitiendo una generalización robusta a través de diferentes marcos temporales y relaciones de aspecto. Hemos diseñado un pipeline de procesamiento de datos desde el principio y recopilado más de 13 millones de pares de video-texto de alta calidad. El pipeline incluye múltiples pasos como recorte, detección de texto, estimación de movimiento, puntuación estética y subtitulado denso basado en nuestro modelo de video-LLM interno. Entrenar los modelos VidVAE y DiT requirió aproximadamente 40 y 642 días de H100, respectivamente. Nuestro modelo admite la generación de videos de 720p de más de 14 segundos de manera integral y demuestra un rendimiento competitivo frente a modelos T2V de última generación.

Jamba-1.5: Modelos híbridos Transformer-Mamba a escala
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Aug 22

ByJamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham

Presentamos Jamba-1.5, nuevos modelos de lenguaje grandes ajustados a instrucciones basados en nuestra arquitectura Jamba. Jamba es una arquitectura híbrida de mezcla de expertos Transformer-Mamba, que proporciona alta capacidad de procesamiento y bajo uso de memoria a lo largo de diferentes longitudes de contexto, manteniendo la misma o mejor calidad que los modelos Transformer. Lanzamos dos tamaños de modelo: Jamba-1.5-Grande, con 94 mil millones de parámetros activos, y Jamba-1.5-Mini, con 12 mil millones de parámetros activos. Ambos modelos están ajustados para una variedad de capacidades conversacionales y de seguimiento de instrucciones, y tienen una longitud de contexto efectiva de 256 mil tokens, la más grande entre los modelos de peso abierto. Para respaldar inferencias rentables, presentamos ExpertsInt8, una técnica de cuantificación novedosa que permite ajustar Jamba-1.5-Grande en una máquina con 8 GPUs de 80 GB al procesar contextos de 256 mil tokens sin pérdida de calidad. Al ser evaluados en una serie de pruebas académicas y de chatbot, los modelos Jamba-1.5 logran excelentes resultados al proporcionar alta capacidad de procesamiento y superar a otros modelos de peso abierto en pruebas de largo contexto. Los pesos del modelo para ambos tamaños están disponibles públicamente bajo la Licencia de Modelo Abierto de Jamba y lanzamos ExpertsInt8 como código abierto.

DreamCinema: Transferencia Cinematográfica con Cámara Libre y Personaje 3D
DreamCinema: Cinematic Transfer with Free Camera and 3D Character

Aug 22

ByWeiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Haixu Song, Yueqi Duan

Estamos viviendo en una era floreciente de medios digitales, donde todos tienen el potencial de convertirse en cineastas personales. La investigación actual sobre transferencia cinematográfica capacita a los cineastas para reproducir y manipular los elementos visuales (por ejemplo, cinematografía y comportamientos de personajes) de tomas clásicas. Sin embargo, los personajes en las películas reimaginadas aún dependen de la creación manual, lo cual implica una complejidad técnica significativa y altos costos, haciéndolo inalcanzable para usuarios comunes. Además, su cinematografía estimada carece de fluidez debido a una captura inadecuada del movimiento entre fotogramas y modelado de trayectorias físicas. Afortunadamente, el notable éxito de la IA generativa 2D y 3D ha abierto la posibilidad de generar eficientemente personajes adaptados a las necesidades de los usuarios, diversificando la cinematografía. En este documento, proponemos DreamCinema, un nuevo marco de transferencia cinematográfica que pone a la IA generativa a la vanguardia del paradigma de producción cinematográfica, con el objetivo de facilitar la creación de películas fácil de usar. Específicamente, primero extraemos elementos cinematográficos (es decir, postura humana y de cámara) y optimizamos la trayectoria de la cámara. Luego, aplicamos un generador de personajes para crear eficientemente personajes 3D de alta calidad con una estructura humana previa. Finalmente, desarrollamos una estrategia de transferencia de movimiento guiada por la estructura para incorporar personajes generados en la creación de películas y transferirlo suavemente a través de motores gráficos 3D. Experimentos extensos demuestran la efectividad de nuestro método para crear películas de alta calidad con cámara libre y personajes 3D.

La exploración de los incrustadores centrados en el ruso: el banco de pruebas ruMTEB y el diseño del modelo de incrustación ruso.
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

Aug 22

ByArtem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov

Los modelos de incrustación desempeñan un papel crucial en el Procesamiento del Lenguaje Natural (PLN) al crear incrustaciones de texto utilizadas en diversas tareas como la recuperación de información y la evaluación de la similitud semántica del texto. Este artículo se centra en la investigación relacionada con los modelos de incrustación en el idioma ruso. Introduce un nuevo modelo de incrustación centrado en el ruso llamado ru-en-RoSBERTa y el banco de pruebas ruMTEB, la versión rusa que amplía el Massive Text Embedding Benchmark (MTEB). Nuestro banco de pruebas incluye siete categorías de tareas, como similitud textual semántica, clasificación de texto, reordenamiento y recuperación. La investigación también evalúa un conjunto representativo de modelos rusos y multilingües en el banco de pruebas propuesto. Los hallazgos indican que el nuevo modelo logra resultados equiparables a los modelos de vanguardia en ruso. Publicamos el modelo ru-en-RoSBERTa, y el marco ruMTEB viene con código de fuente abierta, integración en el marco original y un tablero público de clasificación.

Generación de Imágenes Autoregresivas Escalables con Mamba
Scalable Autoregressive Image Generation with Mamba

Aug 22

ByHaopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li

Presentamos AiM, un modelo generativo de imágenes autoregresivo (AR) basado en la arquitectura Mamba. AiM emplea Mamba, un modelo novedoso de espacio de estados caracterizado por su rendimiento excepcional en modelado de secuencias largas con complejidad temporal lineal, para reemplazar a los Transformadores comúnmente utilizados en modelos de generación de imágenes AR, con el objetivo de lograr tanto una calidad de generación superior como una velocidad de inferencia mejorada. A diferencia de los métodos existentes que adaptan Mamba para manejar señales bidimensionales a través de exploración multidireccional, AiM utiliza directamente el paradigma de predicción de siguiente token para la generación de imágenes autoregresivas. Este enfoque evita la necesidad de modificaciones extensas para permitir que Mamba aprenda representaciones espaciales 2D. Al implementar modificaciones sencillas pero estratégicamente dirigidas para tareas generativas visuales, preservamos la estructura central de Mamba, explotando completamente sus eficientes capacidades de modelado de secuencias largas y escalabilidad. Proporcionamos modelos AiM en diversas escalas, con recuentos de parámetros que van desde 148M hasta 1.3B. En la evaluación ImageNet1K 256*256, nuestro mejor modelo AiM logra un FID de 2.21, superando a todos los modelos AR existentes con recuentos de parámetros comparables y demostrando una competitividad significativa frente a los modelos de difusión, con una velocidad de inferencia de 2 a 10 veces más rápida. El código está disponible en https://github.com/hp-l33/AiM

Vintern-1B: Un Modelo de Lenguaje Grande Multimodal Eficiente para el Vietnamita
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Aug 22

ByKhang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang

En este informe, presentamos Vintern-1B, un modelo de lenguaje grande multimodal confiable de mil millones de parámetros (MLLM) para tareas en idioma vietnamita. Al integrar el modelo de lenguaje Qwen2-0.5B-Instruct con el modelo visual InternViT-300M-448px, Vintern-1B está optimizado para una variedad de aplicaciones, incluyendo reconocimiento óptico de caracteres (OCR), extracción de documentos y respuesta a preguntas generales en el contexto vietnamita. El modelo se ajusta finamente en un extenso conjunto de datos de más de 3 millones de pares imagen-pregunta-respuesta, logrando un rendimiento sólido y resultados confiables en múltiples puntos de referencia del idioma vietnamita como OpenViVQA y ViTextVQA. Vintern-1B es lo suficientemente pequeño como para adaptarse fácilmente a diversas aplicaciones en dispositivos. Además, hemos liberado varios conjuntos de datos vietnamitas de respuesta a preguntas visuales (VQA) para texto y diagramas, creados con Gemini 1.5 Flash. Nuestros modelos están disponibles en: https://huggingface.co/5CD-AI/Vintern-1B-v2.

Generación de Video en Tiempo Real con Atención en Pirámide Broadcast.
Real-Time Video Generation with Pyramid Attention Broadcast

Aug 22

ByXuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You

Presentamos Pyramid Attention Broadcast (PAB), un enfoque en tiempo real, de alta calidad y sin entrenamiento para la generación de video basada en DiT. Nuestro método se basa en la observación de que la diferencia de atención en el proceso de difusión muestra un patrón en forma de U, lo que indica una redundancia significativa. Mitigamos esto transmitiendo las salidas de atención a pasos posteriores de manera piramidal. Aplicamos diferentes estrategias de transmisión a cada atención basadas en su varianza para lograr la mejor eficiencia. Además, introducimos la transmisión paralela de secuencia para una inferencia distribuida más eficiente. PAB demuestra resultados superiores en tres modelos en comparación con los baselines, logrando generación en tiempo real de videos de hasta 720p. Anticipamos que nuestro método simple pero efectivo servirá como una línea base sólida y facilitará la investigación y aplicación futuras para la generación de video.

Estratega: Aprendizaje de Habilidades Estratégicas por LLMs a través de Búsqueda en Árbol Bi-Nivel
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Aug 20

ByJonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu

En este documento, proponemos un nuevo método llamado Estratega que utiliza LLMs para adquirir nuevas habilidades para jugar juegos multiagente a través de un proceso de auto-mejora. Nuestro método recopila retroalimentación de calidad a través de simulaciones de auto-juego con búsqueda de árbol Monte Carlo y reflexión basada en LLM, que luego se puede utilizar para aprender habilidades estratégicas de alto nivel, como evaluar estados que guían la ejecución de bajo nivel. Mostramos cómo nuestro método puede ser utilizado tanto en la planificación de acciones como en la generación de diálogos en el contexto de juegos, logrando un buen rendimiento en ambas tareas. Específicamente, demostramos que nuestro método puede ayudar a entrenar agentes con un mejor rendimiento que enfoques tradicionales basados en aprendizaje por refuerzo y otros enfoques de aprendizaje de habilidades basados en LLM en juegos que incluyen el Juego de Estrategia Pura (GOPS) y The Resistance: Avalon.

SPARK: Banco de pruebas de percepción y razonamiento de sensores de visión múltiple para modelos de visión y lenguaje a gran escala
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Aug 22

ByYoungjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro

Los Modelos de Visión-Lenguaje a Gran Escala (LVLMs, por sus siglas en inglés) han avanzado significativamente con entradas de visión alineadas con texto. Han logrado un progreso notable en tareas de visión por computadora al alinear la modalidad de texto con las entradas de visión. También hay esfuerzos para incorporar sensores de visión múltiple más allá del RGB, incluyendo imágenes térmicas, de profundidad y rayos X médicos. Sin embargo, observamos que los LVLMs actuales consideran las imágenes tomadas de sensores de visión múltiple como si estuvieran en el mismo dominio RGB sin tener en cuenta las características físicas de los sensores de visión múltiple. No logran transmitir correctamente la información fundamental de los sensores de visión múltiple del conjunto de datos y el conocimiento contextual correspondiente. En consecuencia, no se logra una alineación correcta entre la información del entorno físico real y el texto, lo que dificulta responder preguntas complejas relacionadas con los sensores que consideran el entorno físico. En este documento, nuestro objetivo es establecer un banco de pruebas de Percepción y Razonamiento de Sensores de Visión Múltiple llamado SPARK que pueda reducir la brecha de información fundamental de los sensores de visión múltiple entre las imágenes y los sensores de visión múltiple. Generamos automáticamente 6,248 muestras de prueba de visión-lenguaje para investigar la percepción sensorial de visión múltiple y el razonamiento sensorial de visión múltiple sobre la competencia en el conocimiento físico del sensor a través de diferentes formatos, cubriendo diferentes tipos de preguntas relacionadas con los sensores. Utilizamos estas muestras para evaluar diez LVLMs líderes. Los resultados mostraron que la mayoría de los modelos mostraron deficiencias en el razonamiento sensorial de visión múltiple en diversos grados. Los códigos y los datos están disponibles en https://github.com/top-yun/SPARK

SEA: Alineación de Incrustaciones Supervisada para Integración Visual-Textual a Nivel de Token en MLLMs
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Aug 21

ByYuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang

Los Modelos de Lenguaje Multimodales de Gran Escala (MLLMs) han demostrado recientemente notables habilidades perceptivas y de razonamiento, típicamente compuestos por un Codificador de Visión, un Adaptador y un Modelo de Lenguaje de Gran Escala (LLM). El adaptador sirve como puente crítico entre los componentes visual y de lenguaje. Sin embargo, entrenar adaptadores con supervisión a nivel de imagen a menudo resulta en un desalineamiento significativo, socavando las capacidades de los LLMs y limitando el potencial de los MLLMs. Para abordar esto, presentamos el Alineamiento de Incrustaciones Supervisado (SEA), un método de alineación a nivel de token que aprovecha modelos pre-entrenados de visión-lenguaje, como CLIP, para alinear tokens visuales con el espacio de incrustación del LLM a través de aprendizaje por contraste. Este enfoque garantiza una integración más coherente de las representaciones visual y de lenguaje, mejorando el rendimiento y la interpretabilidad de los MLLMs mientras se preservan sus capacidades inherentes. Experimentos extensos muestran que SEA mejora efectivamente los MLLMs, especialmente para modelos más pequeños, sin agregar datos adicionales o computación de inferencia. SEA también sienta las bases para desarrollar soluciones más generales y adaptables para mejorar sistemas multimodales.

ConflictBank: Un conjunto de datos de referencia para evaluar la influencia de conflictos de conocimiento en LLM.
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM

Aug 22

ByZhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng

Los modelos de lenguaje grandes (LLMs) han logrado avances impresionantes en numerosas disciplinas, sin embargo, el problema crítico de conflictos de conocimiento, una fuente importante de alucinaciones, rara vez ha sido estudiado. Solo unos pocos estudios han explorado los conflictos entre el conocimiento inherente de los LLMs y el conocimiento contextual recuperado. Sin embargo, aún falta una evaluación exhaustiva de conflictos de conocimiento en los LLMs. Motivados por esta brecha en la investigación, presentamos ConflictBank, el primer banco de pruebas exhaustivo desarrollado para evaluar sistemáticamente conflictos de conocimiento desde tres aspectos: (i) conflictos encontrados en el conocimiento recuperado, (ii) conflictos dentro del conocimiento codificado de los modelos, y (iii) la interacción entre estas formas de conflicto. Nuestra investigación profundiza en cuatro familias de modelos y doce instancias de LLM, analizando meticulosamente conflictos derivados de desinformación, discrepancias temporales y divergencias semánticas. Basándonos en nuestro novedoso marco de construcción propuesto, creamos 7,453,853 pares de afirmación-evidencia y 553,117 pares de preguntas y respuestas. Presentamos numerosos hallazgos sobre la escala del modelo, las causas de conflicto y los tipos de conflicto. Esperamos que nuestro banco de pruebas ConflictBank ayude a la comunidad a comprender mejor el comportamiento del modelo en conflictos y a desarrollar LLMs más confiables.

Anim-Director: Un modelo multimodal grande impulsado por agentes para la generación de videos de animación controlables
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

Aug 19

ByYunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang

Los métodos tradicionales de generación de animaciones dependen de entrenar modelos generativos con datos etiquetados por humanos, lo que implica un sofisticado proceso de múltiples etapas que requiere un esfuerzo humano sustancial y conlleva altos costos de entrenamiento. Debido a planes de instrucción limitados, estos métodos suelen producir animaciones breves, pobres en información e incoherentes en contexto. Para superar estas limitaciones y automatizar el proceso de animación, nosotros inauguramos la introducción de grandes modelos multimodales (LMMs) como el procesador central para construir un agente autónomo de creación de animaciones, denominado Anim-Director. Este agente aprovecha principalmente las avanzadas capacidades de comprensión y razonamiento de los LMMs y herramientas de IA generativa para crear videos animados a partir de narrativas concisas o instrucciones simples. Específicamente, opera en tres etapas principales: En primer lugar, el Anim-Director genera una trama coherente a partir de las entradas del usuario, seguido por un detallado guion del director que abarca la configuración de perfiles de personajes y descripciones de interiores/exteriores, y descripciones de escenas coherentes con el contexto que incluyen personajes que aparecen, interiores o exteriores, y eventos de la escena. En segundo lugar, empleamos LMMs con la herramienta de generación de imágenes para producir imágenes visuales de configuraciones y escenas. Estas imágenes están diseñadas para mantener consistencia visual entre diferentes escenas utilizando un método de instrucción visual-lingüística que combina descripciones de escenas e imágenes del personaje y entorno que aparecen. En tercer lugar, las imágenes de escenas sirven como base para producir videos animados, con los LMMs generando instrucciones para guiar este proceso. Todo el proceso es notablemente autónomo sin intervención manual, ya que los LMMs interactúan perfectamente con herramientas generativas para generar instrucciones, evaluar la calidad visual y seleccionar la mejor para optimizar la salida final.

Video-Foley: Generación de Sonido a partir de Video en Dos Etapas a través de la Condición de Eventos Temporales para Sonido Foley
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

Aug 21

ByJunwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam

La síntesis de sonido Foley es crucial para la producción multimedia, mejorando la experiencia del usuario al sincronizar el audio y el video tanto temporal como semánticamente. Estudios recientes sobre la automatización de este proceso intensivo en mano de obra a través de la generación de video a sonido enfrentan desafíos significativos. Los sistemas que carecen de características temporales explícitas sufren de una baja controlabilidad y alineación, mientras que los modelos basados en marcas de tiempo requieren una costosa y subjetiva anotación humana. Proponemos Video-Foley, un sistema de video a sonido que utiliza la Raíz de la Media Cuadrática (RMS) como una condición temporal de evento con indicaciones semánticas de timbre (audio o texto). RMS, una característica de envolvente de intensidad a nivel de cuadro estrechamente relacionada con la semántica de audio, garantiza una alta controlabilidad y sincronización. El marco de aprendizaje auto-supervisado sin anotaciones consta de dos etapas, Video2RMS y RMS2Sound, incorporando ideas novedosas que incluyen la discretización de RMS y RMS-ControlNet con un modelo preentrenado de texto a audio. Nuestra extensa evaluación muestra que Video-Foley logra un rendimiento de vanguardia en la alineación audiovisual y controlabilidad para el tiempo, intensidad, timbre y matiz del sonido. El código, los pesos del modelo y las demostraciones están disponibles en el sitio web adjunto. (https://jnwnlee.github.io/video-foley-demo)

Dispersión subsuperficial para la técnica de "splatting" gaussiano en 3D.
Subsurface Scattering for 3D Gaussian Splatting

Aug 22

ByJan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch

La reconstrucción en 3D y el reiluminado de objetos hechos de materiales dispersantes presentan un desafío significativo debido al complejo transporte de luz debajo de la superficie. El Splatting Gaussiano en 3D introdujo una síntesis de vista novedosa de alta calidad a velocidades en tiempo real. Si bien los Gaussianos en 3D aproximan eficientemente la superficie de un objeto, no logran capturar las propiedades volumétricas de la dispersión subsuperficial. Proponemos un marco para optimizar la forma de un objeto junto con el campo de transferencia de radiación dado un conjunto de datos OLAT (un solo haz de luz a la vez) de múltiples vistas. Nuestro método descompone la escena en una superficie explícita representada como Gaussianos en 3D, con un BRDF variable espacialmente, y una representación volumétrica implícita del componente de dispersión. Un campo de luz incidente aprendido tiene en cuenta el sombreado. Optimizamos todos los parámetros conjuntamente a través de un renderizado diferenciable trazado por rayos. Nuestro enfoque permite la edición de materiales, el reiluminado y la síntesis de nuevas vistas a tasas interactivas. Mostramos una aplicación exitosa en datos sintéticos e introducimos un conjunto de datos de múltiples vistas y múltiples luces adquirido recientemente de objetos en una configuración de escenario de luces. En comparación con trabajos anteriores, logramos resultados comparables o mejores en una fracción del tiempo de optimización y renderizado, al tiempo que permitimos un control detallado sobre los atributos del material. Página del proyecto: https://sss.jdihlmann.com/

Verificación de hechos respaldada por evidencia utilizando RAG y Aprendizaje en Contexto con Pocas Muestras con LLMs
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

Aug 22

ByRonit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das

Dada la amplia difusión de la desinformación en las redes sociales, es esencial implementar mecanismos de verificación de hechos para las afirmaciones en línea. Verificar manualmente cada afirmación es sumamente desafiante, lo que subraya la necesidad de un sistema automatizado de verificación de hechos. Este artículo presenta nuestro sistema diseñado para abordar este problema. Utilizamos el conjunto de datos Averitec para evaluar la veracidad de las afirmaciones. Además de la predicción de veracidad, nuestro sistema proporciona pruebas de respaldo, las cuales se extraen del conjunto de datos. Desarrollamos un pipeline de Recuperación y Generación (RAG) para extraer frases de evidencia relevantes de una base de conocimiento, las cuales se ingresan junto con la afirmación en un modelo de lenguaje grande (LLM) para su clasificación. También evaluamos las capacidades de aprendizaje en contexto de pocos ejemplos (ICL) de múltiples LLMs. Nuestro sistema logra una puntuación 'Averitec' de 0.33, lo que representa una mejora absoluta del 22% sobre el valor base. Todo el código estará disponible en https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Sapiens: Fundamentos para Modelos de Visión Humana
Sapiens: Foundation for Human Vision Models

Aug 22

ByRawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito

Generación de Texto Controlable para Modelos de Lenguaje Grandes: Una Encuesta
Controllable Text Generation for Large Language Models: A Survey

Aug 22

ByXun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li

Open-FinLLMs: Modelos de Lenguaje Grandes Multimodales Abiertos para Aplicaciones Financieras
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Aug 20

Informe Técnico de Hermes 3
Hermes 3 Technical Report

Aug 15

ByRyan Teknium, Jeffrey Quesnelle, Chen Guang

Mostrar: Un solo transformador para unificar la comprensión y generación multimodal.
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Aug 22

ByJinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou

xGen-VideoSyn-1: Síntesis de Texto a Video de Alta Fidelidad con Representaciones Comprimidas
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Aug 22

Jamba-1.5: Modelos híbridos Transformer-Mamba a escala
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Aug 22

DreamCinema: Transferencia Cinematográfica con Cámara Libre y Personaje 3D
DreamCinema: Cinematic Transfer with Free Camera and 3D Character

Aug 22

ByWeiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Haixu Song, Yueqi Duan

La exploración de los incrustadores centrados en el ruso: el banco de pruebas ruMTEB y el diseño del modelo de incrustación ruso.
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

Aug 22

ByArtem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov

Generación de Imágenes Autoregresivas Escalables con Mamba
Scalable Autoregressive Image Generation with Mamba

Aug 22

ByHaopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li

Vintern-1B: Un Modelo de Lenguaje Grande Multimodal Eficiente para el Vietnamita
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Aug 22

ByKhang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang

Generación de Video en Tiempo Real con Atención en Pirámide Broadcast.
Real-Time Video Generation with Pyramid Attention Broadcast

Aug 22

ByXuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You

Estratega: Aprendizaje de Habilidades Estratégicas por LLMs a través de Búsqueda en Árbol Bi-Nivel
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Aug 20

ByJonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu

SPARK: Banco de pruebas de percepción y razonamiento de sensores de visión múltiple para modelos de visión y lenguaje a gran escala
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Aug 22

ByYoungjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro

SEA: Alineación de Incrustaciones Supervisada para Integración Visual-Textual a Nivel de Token en MLLMs
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Aug 21

ByYuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang

ConflictBank: Un conjunto de datos de referencia para evaluar la influencia de conflictos de conocimiento en LLM.
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM

Aug 22

ByZhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng

Anim-Director: Un modelo multimodal grande impulsado por agentes para la generación de videos de animación controlables
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

Aug 19

ByYunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang

Video-Foley: Generación de Sonido a partir de Video en Dos Etapas a través de la Condición de Eventos Temporales para Sonido Foley
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

Aug 21

ByJunwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam

Dispersión subsuperficial para la técnica de "splatting" gaussiano en 3D.
Subsurface Scattering for 3D Gaussian Splatting

Aug 22

ByJan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch

Verificación de hechos respaldada por evidencia utilizando RAG y Aprendizaje en Contexto con Pocas Muestras con LLMs
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

Aug 22

ByRonit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das