HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

16 papers found

WaveCoder: Ajuste de Instrucciones Mejorado Generalizado y Versátil con Generación de Datos Refinada
WaveCoder: Widespread And Versatile Enhanced Instruction Tuning with Refined Data Generation

Dec 20

ByZhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin

Trabajos recientes demuestran que, después de ser ajustado en un conjunto de datos de instrucciones de alta calidad, el modelo resultante puede adquirir capacidades impresionantes para abordar una amplia gama de tareas. Sin embargo, los métodos existentes para la generación de datos de instrucciones a menudo producen datos duplicados y no son lo suficientemente controlables en cuanto a la calidad de los datos. En este artículo, extendemos la generalización del ajuste por instrucciones clasificando los datos de instrucciones en 4 tareas relacionadas con código y proponemos un marco de procesamiento de datos basado en Generador-Discriminador con modelos de lenguaje (LLM) para generar datos de instrucciones diversos y de alta calidad a partir de código de fuente abierta. Así, presentamos CodeOcean, un conjunto de datos que comprende 20,000 instancias de instrucciones en 4 tareas universales relacionadas con código, cuyo objetivo es aumentar la efectividad del ajuste por instrucciones y mejorar la capacidad de generalización del modelo ajustado. Posteriormente, presentamos WaveCoder, un modelo de lenguaje de código (Code LLM) ajustado con un ajuste por instrucciones amplio y versátil mejorado (Widespread And Versatile Enhanced instruction tuning). Este modelo está específicamente diseñado para mejorar el ajuste por instrucciones de los modelos de lenguaje de código (LLMs). Nuestros experimentos demuestran que los modelos Wavecoder superan a otros modelos de código abierto en términos de capacidad de generalización en diferentes tareas relacionadas con código en el mismo nivel de escala de ajuste. Además, Wavecoder exhibe una alta eficiencia en tareas previas de generación de código. Este artículo ofrece, por lo tanto, una contribución significativa al campo de la generación de datos de instrucciones y el ajuste de modelos, proporcionando nuevas perspectivas y herramientas para mejorar el rendimiento en tareas relacionadas con código.

InternVL: Escalando modelos fundamentales de visión y alineándolos para tareas genéricas visual-lingüísticas
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

Dec 21

ByZhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Zhong Muyan, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai

El crecimiento exponencial de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) ha abierto numerosas posibilidades para los sistemas de AGI multimodal. Sin embargo, el progreso en los modelos fundamentales de visión y visión-lenguaje, que también son elementos críticos de la AGI multimodal, no ha avanzado al mismo ritmo que los LLMs. En este trabajo, diseñamos un modelo fundamental de visión-lenguaje a gran escala (InternVL), que escala el modelo fundamental de visión hasta 6 mil millones de parámetros y lo alinea progresivamente con el modelo de lenguaje de gran escala, utilizando datos de imagen-texto a escala web provenientes de diversas fuentes. Este modelo puede aplicarse ampliamente y lograr un rendimiento de vanguardia en tareas de percepción visual, como el reconocimiento a nivel de imagen o píxel, tareas de visión-lenguaje como la clasificación de imágenes/vídeos con cero disparos, la recuperación de imágenes/vídeos-texto con cero disparos, y la conexión con LLMs para crear sistemas de diálogo multimodal. Esperamos que nuestra investigación pueda contribuir al desarrollo de modelos grandes multimodales. El código y los modelos están disponibles en https://github.com/OpenGVLab/InternVL.

¿Razones para rechazar? Alineando modelos de lenguaje con juicios
Reasons to Reject? Aligning Language Models with Judgments

Dec 22

ByWeiwen Xu, Deng Cai, Zhisong Zhang, Wai Lam, Shuming Shi

Como seres humanos, constantemente interactuamos con nuestros pares y recibimos retroalimentación en forma de lenguaje natural. Esta retroalimentación lingüística nos permite reflexionar sobre nuestras acciones, mantener un comportamiento adecuado y corregir nuestros errores. Surge entonces la pregunta: ¿podemos utilizar la retroalimentación lingüística para alinear modelos de lenguaje de gran escala (LLMs)? A diferencia de investigaciones previas que alinean LLMs con datos de recompensa o preferencia, presentamos la primera exploración sistemática de la alineación a través de la lente de la retroalimentación lingüística (es decir, juicios). Comenzamos con una investigación en profundidad de métodos potenciales que pueden adaptarse para alinear LLMs con juicios, revelando que estos métodos no son capaces de aprovechar completamente los juicios. Para facilitar un uso más efectivo de los juicios, proponemos un marco novedoso, Entrenamiento de Contraste de Improbabilidad (CUT, por sus siglas en inglés), que permite la detección y corrección de contenido inapropiado de manera granular basado en juicios. Nuestros resultados de alineación offline muestran que, con apenas 1317 datos de juicio disponibles, CUT (LLaMA2-13b) puede superar al DaVinci003 de 175B y superar al mejor baseline por 52.34 puntos en AlpacaEval. Los resultados de alineación online demuestran que CUT puede alinear LLMs (LLaMA2-chat-13b) de manera iterativa utilizando datos de juicio específicos del modelo, con una mejora constante en el rendimiento de 81.09 a 91.36 puntos en AlpacaEval. Nuestro análisis sugiere además que los juicios exhiben un mayor potencial que las recompensas para la alineación de LLMs y merecen futuras investigaciones.

VCoder: Codificadores Visuales Versátiles para Modelos de Lenguaje Multimodales de Gran Escala
VCoder: Versatile Vision Encoders for Multimodal Large Language Models

Dec 21

ByJitesh Jain, Jianwei Yang, Humphrey Shi

Los seres humanos poseen la notable habilidad de la Percepción Visual, la capacidad de ver y comprender lo observado, lo que les permite dar sentido al mundo visual y, a su vez, razonar. Los Modelos de Lenguaje Multimodales de Gran Escala (MLLM, por sus siglas en inglés) han logrado recientemente un rendimiento impresionante en tareas de visión y lenguaje, que van desde la respuesta a preguntas visuales y la generación de descripciones de imágenes hasta el razonamiento visual y la generación de imágenes. Sin embargo, cuando se les solicita identificar o contar (percibir) las entidades en una imagen dada, los sistemas MLLM existentes fallan. Con el objetivo de desarrollar un sistema MLLM preciso para la percepción y el razonamiento, proponemos el uso de Codificadores Visuales Versátiles (VCoder) como "ojos perceptivos" para los MLLM. Alimentamos el VCoder con modalidades de percepción, como mapas de segmentación o profundidad, mejorando así las habilidades perceptivas del MLLM. En segundo lugar, aprovechamos las imágenes de COCO y los resultados de modelos de percepción visual preexistentes para crear nuestro conjunto de datos COCO Segmentation Text (COST), destinado a entrenar y evaluar MLLM en la tarea de percepción de objetos. En tercer lugar, introducimos métricas para evaluar las habilidades de percepción de objetos en MLLM utilizando nuestro conjunto de datos COST. Por último, proporcionamos evidencia experimental extensa que demuestra las habilidades mejoradas de percepción a nivel de objeto del VCoder en comparación con los MLLM existentes, incluyendo GPT-4V. Hacemos públicos nuestro conjunto de datos, código y modelos para fomentar la investigación. Nuestro código está disponible en https://github.com/SHI-Labs/VCoder.

Pangu-Agent: Un Agente Generalista Ajustable con Razonamiento Estructurado
Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning

Dec 22

ByFilippos Christianos, Georgios Papoudakis, Matthieu Zimmer, Thomas Coste, Zhihao Wu, Jingxuan Chen, Khyati Khandelwal, James Doran, Xidong Feng, Jiacheng Liu, Zheng Xiong, Yicheng Luo, Jianye Hao, Kun Shao, Haitham Bou-Ammar, Jun Wang

Un método clave para crear agentes de Inteligencia Artificial (IA) es el Aprendizaje por Refuerzo (RL, por sus siglas en inglés). Sin embargo, construir una política de RL independiente que mapee la percepción directamente a la acción enfrenta problemas severos, siendo los principales la falta de generalidad en múltiples tareas y la necesidad de una gran cantidad de datos de entrenamiento. La causa principal es que no puede integrar eficazmente información previa en el ciclo de percepción-acción al diseñar la política. Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) surgieron como una forma fundamental de incorporar conocimiento interdominio en los agentes de IA, pero carecen de aprendizaje y adaptación cruciales hacia problemas de decisión específicos. Este artículo presenta un marco de trabajo general para integrar y aprender razonamiento estructurado en las políticas de los agentes de IA. Nuestra metodología está motivada por la modularidad encontrada en el cerebro humano. El marco utiliza la construcción de funciones intrínsecas y extrínsecas para añadir comprensiones previas de estructuras de razonamiento. También proporciona la capacidad adaptativa para aprender modelos dentro de cada módulo o función, en consonancia con la estructura modular de los procesos cognitivos. Describimos el marco en profundidad y lo comparamos con otras arquitecturas de IA y marcos existentes. El artículo explora aplicaciones prácticas, cubriendo experimentos que muestran la efectividad de nuestro método. Nuestros resultados indican que los agentes de IA desempeñan y se adaptan mucho mejor cuando se incorporan razonamiento organizado y conocimiento previo. Esto abre la puerta a sistemas de agentes de IA más resilientes y generales.

YAYI 2: Modelos de Lenguaje Multilingües de Gran Escala de Código Abierto
YAYI 2: Multilingual Open-Source Large Language Models

Dec 22

ByYin Luo, Qingchao Kong, Nan Xu, Jia Cao, Bao Hao, Baoyu Qu, Bo Chen, Chao Zhu, Chenyang Zhao, Donglei Zhang, Fan Feng, Feifei Zhao, Hailong Sun, Hanxuan Yang, Haojun Pan, Hongyu Liu, Jianbin Guo, Jiangtao Du, Jingyi Wang, Junfeng Li, Lei Sun, Liduo Liu, Lifeng Dong, Lili Liu, Lin Wang, Liwen Zhang, Minzheng Wang, Pin Wang, Ping Yu, Qingxiao Li, Rui Yan, Rui Zou, Ruiqun Li, Taiwen Huang, Xiaodong Wang, Xiaofei Wu, Xin Peng, Xina Zhang, Xing Fang, Xinglin Xiao, Yanni Hao, Yao Dong, Yigang Wang, Ying Liu, Yongyu Jiang, Yungan Wang, Yuqi Wang, Zhangsheng Wang, Zhaoxin Yu, Zhen Luo, Wenji Mao, Lei Wang, Dajun Zeng

Como los avances más recientes en procesamiento del lenguaje natural, los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han alcanzado capacidades de comprensión y generación de lenguaje a nivel humano en muchas tareas del mundo real, e incluso han sido considerados como una ruta potencial hacia la inteligencia artificial general. Para facilitar mejor la investigación sobre LLMs, muchos modelos de código abierto, como Llama 2 y Falcon, han sido propuestos recientemente y han obtenido rendimientos comparables a los modelos propietarios. Sin embargo, estos modelos están principalmente diseñados para escenarios en inglés y muestran un rendimiento deficiente en contextos chinos. En este informe técnico, proponemos YAYI 2, que incluye tanto modelos base como de chat, con 30 mil millones de parámetros. YAYI 2 ha sido preentrenado desde cero en un corpus multilingüe que contiene 2.65 billones de tokens filtrados por nuestra pipeline de procesamiento de datos de preentrenamiento. El modelo base está alineado con valores humanos mediante ajuste fino supervisado con millones de instrucciones y aprendizaje por refuerzo a partir de retroalimentación humana. Experimentos extensos en múltiples benchmarks, como MMLU y CMMLU, demuestran consistentemente que el propuesto YAYI 2 supera a otros modelos de código abierto de tamaño similar.

Aprovechando las nuevas API de GPT-4
Exploiting Novel GPT-4 APIs

Dec 21

ByKellin Pelrine, Mohammad Taufeeque, Michał Zając, Euan McLean, Adam Gleave

Los ataques a modelos de lenguaje suelen asumir uno de dos modelos de amenaza extremos: acceso completo de tipo "caja blanca" a los pesos del modelo, o acceso de tipo "caja negra" limitado a una API de generación de texto. Sin embargo, las API del mundo real suelen ser más flexibles que la mera generación de texto: estas API exponen un acceso de tipo "caja gris" que da lugar a nuevos vectores de ataque. Para explorar esto, realizamos pruebas de "red teaming" en tres nuevas funcionalidades expuestas en las API de GPT-4: ajuste fino (fine-tuning), llamadas a funciones y recuperación de conocimiento. Descubrimos que ajustar un modelo con tan solo 15 ejemplos dañinos o 100 ejemplos benignos puede eliminar las salvaguardas principales de GPT-4, permitiendo una variedad de salidas perjudiciales. Además, encontramos que los Asistentes de GPT-4 revelan fácilmente el esquema de llamadas a funciones y pueden ser manipulados para ejecutar llamadas arbitrarias. Por último, observamos que la recuperación de conocimiento puede ser secuestrada inyectando instrucciones en los documentos de recuperación. Estas vulnerabilidades destacan que cualquier adición a la funcionalidad expuesta por una API puede crear nuevas vulnerabilidades.

Los subtítulos de Parrot enseñan a CLIP a detectar texto.
Parrot Captions Teach CLIP to Spot Text

Dec 21

ByYiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou

A pesar de que CLIP es el modelo base en numerosas aplicaciones de visión y lenguaje, CLIP sufre de un sesgo severo en la detección de texto. Este sesgo hace que los modelos CLIP "repitan" el texto visual incrustado en las imágenes, ignorando la semántica visual auténtica. Descubrimos que en el conjunto de datos imagen-texto más popular, LAION-2B, los textos descriptivos también repiten densamente (deletrean) el texto incrustado en las imágenes. Nuestro análisis muestra que alrededor del 50\% de las imágenes contienen texto visual, y el 90\% de sus descripciones repiten, en mayor o menor medida, dicho texto visual. Basándonos en esta observación, inspeccionamos exhaustivamente las diferentes versiones lanzadas de los modelos CLIP y verificamos que el texto visual es el factor dominante al medir la similitud imagen-texto al estilo LAION en estos modelos. Para examinar si estas descripciones repetitivas moldean el sesgo en la detección de texto, entrenamos una serie de modelos CLIP con subconjuntos de LAION seleccionados según diferentes criterios orientados a descripciones repetitivas. Demostramos que entrenar con descripciones repetitivas fácilmente forma este sesgo, pero perjudica el aprendizaje esperado de representaciones visuales y lingüísticas en los modelos CLIP. Esto sugiere que es urgente reconsiderar tanto el diseño de modelos similares a CLIP como el proceso actual de curación de conjuntos de datos imagen-texto basado en filtrado por puntuación CLIP.

PlatoNeRF: Reconstrucción 3D en la Cueva de Platón mediante Lidar de Doble Rebote con Vista Única
PlatoNeRF: 3D Reconstruction in Plato's Cave via Single-View Two-Bounce Lidar

Dec 21

ByTzofi Klinghoffer, Xiaoyu Xiang, Siddharth Somasundaram, Yuchen Fan, Christian Richardt, Ramesh Raskar, Rakesh Ranjan

La reconstrucción 3D a partir de una sola vista es un desafío debido a la ambigüedad de las señales monoculares y la falta de información sobre las regiones ocluidas. Los campos de radiancia neural (NeRF), aunque populares para la síntesis de vistas y la reconstrucción 3D, suelen depender de imágenes multivista. Los métodos existentes para la reconstrucción 3D con NeRF a partir de una sola vista se basan en previos de datos para generar vistas de regiones ocluidas, que pueden no ser físicamente precisas, o en sombras observadas por cámaras RGB, que son difíciles de detectar en condiciones de luz ambiental y fondos con bajo albedo. Proponemos utilizar datos de tiempo de vuelo capturados por un diodo de avalancha de un solo fotón para superar estas limitaciones. Nuestro método modela trayectorias ópticas de dos rebotes con NeRF, utilizando datos transitorios de lidar para la supervisión. Al aprovechar las ventajas tanto de NeRF como de la luz de dos rebotes medida por lidar, demostramos que podemos reconstruir geometría visible y ocluida sin depender de previos de datos ni de condiciones controladas de iluminación ambiental o albedo de la escena. Además, mostramos una mejora en la generalización bajo restricciones prácticas en la resolución espacial y temporal del sensor. Creemos que nuestro método es una dirección prometedora a medida que los lidars de un solo fotón se vuelven omnipresentes en dispositivos de consumo, como teléfonos, tabletas y auriculares.

DreamDistribution: Aprendizaje de Distribución de Prompts para Modelos de Difusión de Texto a Imagen
DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models

Dec 21

ByBrian Nlong Zhao, Yuhang Xiao, Jiashu Xu, Xinyang Jiang, Yifan Yang, Dongsheng Li, Laurent Itti, Vibhav Vineet, Yunhao Ge

La popularización de los modelos de difusión de Texto a Imagen (T2I) permite la generación de imágenes de alta calidad a partir de descripciones textuales. Sin embargo, generar imágenes personalizadas diversas con atributos visuales de referencia sigue siendo un desafío. Este trabajo se centra en personalizar los modelos de difusión T2I a un nivel más abstracto de concepto o categoría, adaptando las características comunes de un conjunto de imágenes de referencia mientras se crean nuevas instancias con variaciones suficientes. Introducimos una solución que permite a un modelo de difusión T2I preentrenado aprender un conjunto de indicaciones suaves (soft prompts), lo que posibilita la generación de imágenes novedosas al muestrear indicaciones de la distribución aprendida. Estas indicaciones ofrecen capacidades de edición guiada por texto y una flexibilidad adicional para controlar la variación y la mezcla entre múltiples distribuciones. También mostramos la adaptabilidad de la distribución de indicaciones aprendida a otras tareas, como la generación de texto a 3D. Finalmente, demostramos la efectividad de nuestro enfoque a través de un análisis cuantitativo que incluye evaluación automática y evaluación humana. Sitio web del proyecto: https://briannlongzhao.github.io/DreamDistribution

ZeroShape: Reconstrucción de Formas Cero-Shot Basada en Regresión
ZeroShape: Regression-based Zero-shot Shape Reconstruction

Dec 21

ByZixuan Huang, Stefan Stojanov, Anh Thai, Varun Jampani, James M. Rehg

Estudiamos el problema de la reconstrucción 3D de formas con una sola imagen y enfoque zero-shot. Trabajos recientes abordan la reconstrucción zero-shot de formas mediante modelado generativo de activos 3D, pero estos modelos son computacionalmente costosos tanto en el entrenamiento como en la inferencia. En contraste, el enfoque tradicional para este problema se basa en regresión, donde modelos determinísticos son entrenados para predecir directamente la forma del objeto. Estos métodos de regresión poseen una eficiencia computacional mucho mayor que los métodos generativos. Esto plantea una pregunta natural: ¿es necesario el modelado generativo para obtener un alto rendimiento, o, por el contrario, los enfoques basados en regresión siguen siendo competitivos? Para responder esto, diseñamos un modelo robusto basado en regresión, llamado ZeroShape, fundamentado en hallazgos convergentes en este campo y una nueva perspectiva. Además, creamos un amplio benchmark de evaluación en el mundo real, con objetos provenientes de tres conjuntos de datos 3D diferentes. Este benchmark de evaluación es más diverso y un orden de magnitud más grande que los utilizados en trabajos previos para evaluar cuantitativamente sus modelos, con el objetivo de reducir la varianza en la evaluación en nuestro campo. Demostramos que ZeroShape no solo logra un rendimiento superior frente a los métodos más avanzados, sino que también exhibe una eficiencia computacional y de datos significativamente mayor.

El ajuste eficiente de parámetros permite la personalización escalable de LLMs para la entrada de texto: un estudio de caso sobre la expansión de abreviaturas.
Parameter Efficient Tuning Allows Scalable Personalization of LLMs for Text Entry: A Case Study on Abbreviation Expansion

Dec 21

ByKatrin Tomanek, Shanqing Cai, Subhashini Venugopalan

La expansión de abreviaturas es una estrategia utilizada para agilizar la comunicación al limitar la cantidad de escritura y emplear un modelo de lenguaje para sugerir expansiones. Aquí examinamos la personalización de las sugerencias de un Modelo de Lenguaje de Gran Escala (LLM, por sus siglas en inglés) basándose en conversaciones previas para mejorar la relevancia de las predicciones, especialmente cuando los datos del usuario son escasos (~1000 muestras). Específicamente, comparamos el ajuste fino, el ajuste por indicación (prompt-tuning) y la generación aumentada por recuperación (retrieval augmented generation) de sugerencias de texto expandido para entradas abreviadas. Nuestro estudio de caso con un LLM de 8 mil millones de parámetros implementado en un usuario real que vive con ELA, junto con experimentos de personalización de personajes de películas, indica que (1) la personalización puede ser necesaria en algunos escenarios y el ajuste por indicación se adapta bien a ellos, (2) el ajuste fino con datos del dominio (con tan solo 600 muestras) aún muestra ciertas mejoras, sin embargo (3) la selección de pocos ejemplos aumentada por recuperación también supera al ajuste fino. (4) El ajuste eficiente en parámetros permite una personalización eficaz y escalable. Para el ajuste por indicación, también encontramos que inicializar los "indicadores suaves" aprendidos con tokens de conceptos relevantes para el usuario conduce a una mayor precisión que la inicialización aleatoria.

IA Generativa Más Allá de los LLM: Implicaciones Sistémicas de la Generación Multimodal
Generative AI Beyond LLMs: System Implications of Multi-Modal Generation

Dec 22

ByAlicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu

A medida que el desarrollo de modelos de IA Generativa a gran escala evoluciona más allá de la generación de texto (1D) para incluir la generación de imágenes (2D) y videos (3D), el procesamiento de información espacial y temporal presenta desafíos únicos en cuanto a calidad, rendimiento y eficiencia. Presentamos el primer trabajo hacia la comprensión de este nuevo espacio de diseño de sistemas para modelos multimodales de texto a imagen (TTI) y texto a video (TTV). Los diseños actuales de arquitecturas de modelos se bifurcan en dos categorías: modelos basados en Difusión y modelos basados en Transformers. Nuestra caracterización sistemática del rendimiento en un conjunto de ocho modelos representativos de TTI/TTV muestra que, después de aplicar técnicas de optimización de vanguardia como Flash Attention, las convoluciones representan hasta el 44% del tiempo de ejecución en modelos TTI basados en Difusión, mientras que las capas lineales consumen hasta el 49% del tiempo de ejecución en modelos basados en Transformers. Además, observamos que los modelos TTI basados en Difusión se asemejan a la etapa de Prellenado en la inferencia de modelos de lenguaje grandes (LLM) y se benefician de una aceleración de 1.1 a 2.5 veces mayor con Flash Attention en comparación con los modelos TTI basados en Transformers, que se asemejan a la fase de Decodificación. Dado que las optimizaciones diseñadas para LLM no se aplican directamente a los modelos TTI/TTV, es necesario realizar una caracterización exhaustiva de estas cargas de trabajo para obtener ideas sobre nuevas oportunidades de optimización. Al hacerlo, definimos la longitud de secuencia en el contexto de los modelos TTI/TTV y observamos que esta puede variar hasta 4 veces en la inferencia de modelos de Difusión. Además, observamos que los aspectos temporales de las cargas de trabajo TTV presentan cuellos de botella únicos en el sistema, con la Atención Temporal representando más del 60% del tiempo total de Atención. En general, nuestra caracterización profunda del rendimiento del sistema es un primer paso crítico hacia el diseño de sistemas eficientes y desplegables para las emergentes cargas de trabajo TTI/TTV.

Shai: Un modelo de lenguaje de gran escala para la gestión de activos
Shai: A large language model for asset management

Dec 21

ByZhongyang Guo, Guanran Jiang, Zhongdan Zhang, Peng Li, Zhefeng Wang, Yinchun Wang

Este artículo presenta "Shai", un modelo de lenguaje grande de nivel 10B específicamente diseñado para la industria de gestión de activos, construido sobre un modelo base de código abierto. Con un preentrenamiento y ajuste fino continuo utilizando un corpus especializado, Shai demuestra un rendimiento mejorado en tareas relevantes para su dominio, superando a los modelos de referencia. Nuestra investigación incluye el desarrollo de un marco de evaluación innovador, que integra exámenes de calificación profesional, tareas personalizadas, respuestas a preguntas abiertas y evaluaciones de seguridad, para evaluar de manera integral las capacidades de Shai. Además, discutimos los desafíos y las implicaciones de utilizar modelos de lenguaje grandes como GPT-4 para la evaluación de rendimiento en la gestión de activos, sugiriendo una combinación de evaluación automatizada y juicio humano. El desarrollo de Shai, que muestra el potencial y la versatilidad de los modelos de lenguaje grandes de nivel 10B en el sector financiero con un rendimiento significativo y requisitos computacionales modestos, espera proporcionar ideas prácticas y metodologías para ayudar a colegas de la industria en esfuerzos similares.

MACS: Síntesis de Movimiento 3D de Manos y Objetos Condicionada por Masa
MACS: Mass Conditioned 3D Hand and Object Motion Synthesis

Dec 22

BySoshi Shimada, Franziska Mueller, Jan Bednarik, Bardia Doosti, Bernd Bickel, Danhang Tang, Vladislav Golyanik, Jonathan Taylor, Christian Theobalt, Thabo Beeler

Las propiedades físicas de un objeto, como la masa, afectan significativamente cómo lo manipulamos con nuestras manos. Sorprendentemente, este aspecto ha sido descuidado hasta ahora en trabajos previos sobre síntesis de movimiento 3D. Para mejorar la naturalidad de los movimientos sintetizados de manos y objetos en 3D, este trabajo propone MACS, el primer enfoque de Síntesis de Movimiento 3D de Manos y Objetos Condicionado por Masa (MAss Conditioned 3D hand and object motion Synthesis). Nuestro enfoque se basa en modelos de difusión en cascada y genera interacciones que se ajustan de manera plausible según la masa del objeto y el tipo de interacción. MACS también acepta como entrada una trayectoria de objeto en 3D dibujada manualmente y sintetiza los movimientos naturales de la mano en 3D condicionados por la masa del objeto. Esta flexibilidad permite que MACS se utilice en diversas aplicaciones posteriores, como la generación de datos sintéticos de entrenamiento para tareas de aprendizaje automático, la animación rápida de manos en flujos de trabajo gráficos y la generación de interacciones de personajes para videojuegos. Demostramos experimentalmente que un conjunto de datos a pequeña escala es suficiente para que MACS generalice razonablemente en masas de objetos interpoladas y extrapoladas no vistas durante el entrenamiento. Además, MACS muestra una generalización moderada a objetos no vistos, gracias a las etiquetas de contacto condicionadas por masa generadas por nuestro modelo de síntesis de contacto superficial ConNet. Nuestro estudio de usuario exhaustivo confirma que las interacciones sintetizadas entre manos y objetos en 3D son altamente plausibles y realistas.

LLM4VG: Evaluación de Modelos de Lenguaje de Gran Escala para la Localización en Videos
LLM4VG: Large Language Models Evaluation for Video Grounding

Dec 21

ByWei Feng, Xin Wang, Hong Chen, Zeyang Zhang, Zihan Song, Yuwei Zhou, Wenwu Zhu

Recientemente, los investigadores han intentado explorar la capacidad de los LLM (Modelos de Lenguaje de Gran Escala) para manejar videos y han propuesto varios modelos de LLM para video. Sin embargo, la habilidad de los LLM para abordar el video grounding (VG), que es una tarea importante relacionada con el tiempo que requiere que el modelo localice con precisión los momentos temporales en los videos que coinciden con las consultas textuales dadas, aún permanece poco clara y sin explorar en la literatura. Para llenar este vacío, en este artículo proponemos el benchmark LLM4VG, que evalúa sistemáticamente el rendimiento de diferentes LLM en tareas de video grounding. Basándonos en nuestro LLM4VG, diseñamos experimentos exhaustivos para examinar dos grupos de modelos de LLM para video en video grounding: (i) los LLM para video entrenados con pares de texto-video (denominados VidLLM), y (ii) los LLM combinados con modelos preentrenados de descripción visual, como los modelos de subtitulado de video/imágenes. Proponemos métodos de prompt para integrar la instrucción de VG y la descripción de diferentes tipos de generadores, incluyendo generadores basados en subtítulos para la descripción visual directa y generadores basados en VQA para la mejora de la información. También proporcionamos comparaciones exhaustivas de varios VidLLM y exploramos la influencia de diferentes elecciones de modelos visuales, LLM, diseños de prompt, etc. Nuestras evaluaciones experimentales llevan a dos conclusiones: (i) los VidLLM existentes aún están lejos de alcanzar un rendimiento satisfactorio en video grounding, y se deberían incluir más tareas relacionadas con el tiempo para ajustar mejor estos modelos, y (ii) la combinación de LLM y modelos visuales muestra habilidades preliminares para video grounding con un potencial considerable de mejora al recurrir a modelos más confiables y una mayor orientación en las instrucciones de prompt.

IA Generativa Más Allá de los LLM: Implicaciones Sistémicas de la Generación Multimodal
Generative AI Beyond LLMs: System Implications of Multi-Modal Generation

Dec 22

ByAlicia Golden, Samuel Hsia, Fei Sun, Bilge Acun, Basil Hosmer, Yejin Lee, Zachary DeVito, Jeff Johnson, Gu-Yeon Wei, David Brooks, Carole-Jean Wu