HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

19 papers found

StemGen: Un modelo de generación musical que escucha
StemGen: A music generation model that listens

Dec 14

ByJulian D. Parker, Janne Spijkervet, Katerina Kosta, Furkan Yesiler, Boris Kuznetsov, Ju-Chiang Wang, Matt Avent, Jitong Chen, Duc Le

La generación de audio musical de extremo a extremo utilizando técnicas de aprendizaje profundo ha experimentado una explosión de actividad recientemente. Sin embargo, la mayoría de los modelos se concentran en generar música completamente mezclada en respuesta a información de condicionamiento abstracta. En este trabajo, presentamos un paradigma alternativo para producir modelos de generación musical que pueden escuchar y responder al contexto musical. Describimos cómo se puede construir dicho modelo utilizando una arquitectura basada en transformadores no autoregresivos y presentamos varias mejoras novedosas en la arquitectura y el muestreo. Entrenamos la arquitectura descrita tanto en un conjunto de datos de código abierto como en uno propietario. Evaluamos los modelos producidos utilizando métricas de calidad estándar y un nuevo enfoque basado en descriptores de recuperación de información musical. El modelo resultante alcanza la calidad de audio de los modelos de última generación condicionados por texto, además de exhibir una fuerte coherencia musical con su contexto.

TinyGSM: logrando más del 80% en GSM8k con modelos de lenguaje pequeños
TinyGSM: achieving >80% on GSM8k with small language models

Dec 14

ByBingbin Liu, Sebastien Bubeck, Ronen Eldan, Janardhan Kulkarni, Yuanzhi Li, Anh Nguyen, Rachel Ward, Yi Zhang

Los modelos a pequeña escala ofrecen diversas ventajas computacionales, aunque hasta qué punto el tamaño es crítico para las habilidades de resolución de problemas sigue siendo una pregunta abierta. Específicamente, para resolver matemáticas de nivel escolar, el tamaño de modelo más pequeño requerido hasta ahora para superar la barrera del 80\% en el benchmark GSM8K sigue siendo de 34B. Nuestro trabajo estudia cómo los conjuntos de datos de alta calidad pueden ser la clave para que los modelos de lenguaje pequeños adquieran razonamiento matemático. Presentamos TinyGSM, un conjunto de datos sintético de 12.3M problemas de matemáticas de nivel escolar emparejados con soluciones en Python, generado completamente por GPT-3.5. Tras el ajuste fino en TinyGSM, encontramos que un dúo compuesto por un modelo de generación de 1.3B y un modelo verificador de 1.3B puede alcanzar una precisión del 81.5\%, superando a modelos existentes que son órdenes de magnitud más grandes. Esto también rivaliza con el rendimiento del modelo "maestro" GPT-3.5 (77.4\%), del cual se generaron los datos de entrenamiento de nuestro modelo. Nuestro enfoque es simple y tiene dos componentes clave: 1) el conjunto de datos de alta calidad TinyGSM, 2) el uso de un verificador, que selecciona las salidas finales entre múltiples generaciones candidatas.

CogAgent: Un Modelo de Lenguaje Visual para Agentes de Interfaz Gráfica de Usuario
CogAgent: A Visual Language Model for GUI Agents

Dec 14

ByWenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang

Las personas están dedicando una enorme cantidad de tiempo a dispositivos digitales a través de interfaces gráficas de usuario (GUIs), como pantallas de computadoras o smartphones. Los modelos de lenguaje de gran escala (LLMs), como ChatGPT, pueden ayudar a las personas en tareas como redactar correos electrónicos, pero tienen dificultades para comprender e interactuar con las GUIs, lo que limita su potencial para aumentar los niveles de automatización. En este artículo, presentamos CogAgent, un modelo de lenguaje visual (VLM) de 18 mil millones de parámetros especializado en la comprensión y navegación de GUIs. Al utilizar codificadores de imágenes de baja y alta resolución, CogAgent admite entradas con una resolución de 1120*1120, lo que le permite reconocer elementos de página y texto diminutos. Como modelo de lenguaje visual generalista, CogAgent alcanza el estado del arte en cinco benchmarks ricos en texto y cuatro benchmarks generales de VQA, incluyendo VQAv2, OK-VQA, Text-VQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet y POPE. CogAgent, utilizando únicamente capturas de pantalla como entrada, supera a los métodos basados en LLMs que consumen texto HTML extraído en tareas de navegación de GUIs tanto en PC como en Android — Mind2Web y AITW, avanzando el estado del arte. El modelo y los códigos están disponibles en https://github.com/THUDM/CogVLM.

VideoLCM: Modelo de Consistencia Latente para Vídeo
VideoLCM: Video Latent Consistency Model

Dec 14

ByXiang Wang, Shiwei Zhang, Han Zhang, Yu Liu, Yingya Zhang, Changxin Gao, Nong Sang

Los modelos de consistencia han demostrado una capacidad poderosa en la generación eficiente de imágenes y han permitido la síntesis en pocos pasos de muestreo, reduciendo el alto costo computacional en los modelos de difusión. Sin embargo, el modelo de consistencia en la generación de videos, un desafío más complejo y con mayor consumo de recursos, aún ha sido poco explorado. En este informe, presentamos el marco VideoLCM para llenar este vacío, el cual aprovecha el concepto de modelos de consistencia de la generación de imágenes para sintetizar videos de manera eficiente con un número mínimo de pasos, manteniendo una alta calidad. VideoLCM se basa en modelos de difusión latente de video existentes e incorpora técnicas de destilación de consistencia para entrenar el modelo de consistencia latente. Los resultados experimentales revelan la efectividad de VideoLCM en términos de eficiencia computacional, fidelidad y consistencia temporal. Destacablemente, VideoLCM logra una síntesis de videos de alta fidelidad y fluidez con solo cuatro pasos de muestreo, mostrando el potencial para la síntesis en tiempo real. Esperamos que VideoLCM pueda servir como una base simple pero efectiva para investigaciones posteriores. El código fuente y los modelos estarán disponibles públicamente.

Una imagen vale más que 77 tokens de texto: Evaluación de modelos estilo CLIP en descripciones densas
A Picture is Worth More Than 77 Text Tokens: Evaluating CLIP-Style Models on Dense Captions

Dec 14

ByJack Urbanek, Florian Bordes, Pietro Astolfi, Mary Williamson, Vasu Sharma, Adriana Romero-Soriano

Los métodos de curaduría para conjuntos masivos de datos de visión y lenguaje buscan equilibrar el tamaño del conjunto de datos con su calidad. Sin embargo, incluso los subtítulos curados de mayor calidad disponibles son demasiado breves para capturar los detalles visuales ricos en una imagen. Para demostrar el valor de pares imagen-texto densos y altamente alineados, recopilamos el conjunto de datos Densely Captioned Images (DCI), que contiene 8012 imágenes naturales anotadas manualmente con descripciones alineadas a máscaras que promedian más de 1000 palabras cada una. Con subtítulos precisos y confiables asociados a partes específicas de una imagen, podemos evaluar la comprensión del contenido visual de los modelos de visión y lenguaje (VLMs) mediante una tarea novedosa que empareja cada subtítulo con su subrecorte correspondiente. Dado que los modelos actuales suelen estar limitados a 77 tokens de texto, también introducimos una versión resumida (sDCI) en la que se limita la longitud de cada subtítulo. Demostramos que las técnicas modernas que muestran avances en los puntos de referencia estándar no se corresponden con mejoras significativas en nuestro punto de referencia basado en sDCI. Por último, ajustamos CLIP utilizando sDCI y mostramos mejoras significativas sobre la línea base a pesar de un conjunto de entrenamiento pequeño. Al publicar el primer conjunto de datos de subtitulación densa de imágenes anotado manualmente, esperamos habilitar el desarrollo de nuevos puntos de referencia o recetas de ajuste fino para la próxima generación de VLMs.

Mosaic-SDF para Modelos Generativos 3D
Mosaic-SDF for 3D Generative Models

Dec 14

ByLior Yariv, Omri Puny, Natalia Neverova, Oran Gafni, Yaron Lipman

Los modelos generativos actuales basados en difusión o flujo para formas 3D se dividen en dos categorías: la destilación de modelos de difusión de imágenes 2D preentrenados y el entrenamiento directo sobre formas 3D. Al entrenar modelos de difusión o flujo en formas 3D, una decisión de diseño crucial es la representación de la forma. Una representación efectiva de la forma debe cumplir tres principios de diseño: debe permitir una conversión eficiente de grandes conjuntos de datos 3D a la forma de representación; debe ofrecer un buen equilibrio entre el poder de aproximación y el número de parámetros; y debe tener una forma tensorial simple que sea compatible con arquitecturas neuronales potentes existentes. Mientras que las representaciones estándar de formas 3D, como las mallas volumétricas y las nubes de puntos, no cumplen todos estos principios simultáneamente, en este artículo abogamos por una nueva representación que sí lo hace. Introducimos Mosaic-SDF (M-SDF): una representación simple de formas 3D que aproxima la Función de Distancia con Signo (SDF) de una forma dada utilizando un conjunto de mallas locales distribuidas cerca del límite de la forma. La representación M-SDF es rápida de calcular para cada forma individual, lo que la hace fácilmente paralelizable; es eficiente en parámetros, ya que solo cubre el espacio alrededor del límite de la forma; y tiene una forma matricial simple, compatible con arquitecturas basadas en Transformers. Demostramos la eficacia de la representación M-SDF utilizándola para entrenar un modelo generativo de flujo 3D, incluyendo la generación condicionada por clase con el conjunto de datos 3D Warehouse, y la generación de texto a 3D utilizando un conjunto de datos de aproximadamente 600k pares de descripción-forma.

Modelos de Lenguaje Alineados por Píxeles
Pixel Aligned Language Models

Dec 14

ByJiarui Xu, Xingyi Zhou, Shen Yan, Xiuye Gu, Anurag Arnab, Chen Sun, Xiaolong Wang, Cordelia Schmid

Los grandes modelos de lenguaje han logrado un gran éxito en los últimos años, al igual que sus variantes en el ámbito visual. Los modelos visión-lenguaje existentes pueden describir imágenes en lenguaje natural, responder preguntas relacionadas con el contenido visual o realizar razonamientos complejos sobre la imagen. Sin embargo, aún no está claro cómo se pueden realizar tareas de localización, como la anclaje de palabras o la localización referencial, utilizando grandes modelos de lenguaje. En este trabajo, nuestro objetivo es desarrollar un modelo visión-lenguaje que pueda tomar ubicaciones, por ejemplo, un conjunto de puntos o cuadros delimitadores, como entradas o salidas. Cuando se toman ubicaciones como entradas, el modelo realiza subtitulación condicionada por la ubicación, generando descripciones para el objeto o región indicada. Al generar ubicaciones como salidas, nuestro modelo regresa coordenadas de píxeles para cada palabra generada por el modelo de lenguaje, realizando así un anclaje denso de palabras. Nuestro modelo se pre-entrena en el conjunto de datos Localized Narrative, que contiene subtítulos alineados a nivel de píxel-palabra basados en la atención humana. Demostramos que nuestro modelo puede aplicarse a diversas tareas visión-lenguaje conscientes de la ubicación, incluyendo localización referencial, subtitulación condicionada por la ubicación y subtitulación densa de objetos, logrando un rendimiento de vanguardia en RefCOCO y Visual Genome. Página del proyecto: https://jerryxu.net/PixelLLM.

SEEAvatar: Generación de Avatares 3D Fotorrealistas a partir de Texto con Geometría y Apariencia Restringidas
SEEAvatar: Photorealistic Text-to-3D Avatar Generation with Constrained Geometry and Appearance

Dec 13

ByYuanyou Xu, Zongxin Yang, Yi Yang

Impulsada por modelos de generación de texto a imagen a gran escala, la generación de avatares 3D a partir de texto ha logrado avances prometedores. Sin embargo, la mayoría de los métodos no consiguen resultados fotorrealistas, limitados por geometrías imprecisas y apariencias de baja calidad. Para avanzar hacia una generación de avatares más práctica, presentamos SEEAvatar, un método para generar avatares 3D fotorrealistas a partir de texto con restricciones de auto-evolución para geometría y apariencia desacopladas. Para la geometría, proponemos restringir el avatar optimizado en una forma global adecuada utilizando un avatar plantilla. Esta plantilla se inicializa con un conocimiento previo humano y puede actualizarse periódicamente por el avatar optimizado, funcionando como una plantilla evolutiva que permite una generación de formas más flexible. Además, la geometría también se restringe mediante un conocimiento previo humano estático en partes locales como el rostro y las manos para mantener estructuras delicadas. Para la generación de apariencia, utilizamos un modelo de difusión mejorado mediante ingeniería de prompts para guiar una canalización de renderizado basada en física, generando texturas realistas. Se aplica una restricción de luminosidad en la textura de albedo para suprimir efectos de iluminación incorrectos. Los experimentos muestran que nuestro método supera a los métodos anteriores tanto en la calidad global como local de la geometría y la apariencia por un amplio margen. Dado que nuestro método puede producir mallas y texturas de alta calidad, estos activos pueden aplicarse directamente en una canalización gráfica clásica para renderizado realista bajo cualquier condición de iluminación. Página del proyecto: https://seeavatar3d.github.io.

Zebra: Extensión de la Ventana de Contexto con Atención Local-Global Agrupada por Capas
Zebra: Extending Context Window with Layerwise Grouped Local-Global Attention

Dec 14

ByKaiqiang Song, Xiaoyang Wang, Sangwoo Cho, Xiaoman Pan, Dong Yu

Este artículo presenta un enfoque novedoso para mejorar las capacidades de los Modelos de Lenguaje de Gran Escala (LLMs) en el procesamiento y comprensión de secuencias de texto extensas, un aspecto crítico en aplicaciones que requieren una comprensión profunda y síntesis de grandes volúmenes de información. Reconociendo los desafíos inherentes en la extensión de la ventana de contexto para los LLMs, principalmente basados en la arquitectura Transformer, proponemos una nueva arquitectura de modelo, denominada Zebra. Esta arquitectura gestiona eficientemente los problemas de complejidad cuadrática en tiempo y memoria asociados con la atención completa en el Transformer mediante el uso de capas de atención local-global agrupadas. Nuestro modelo, similar a las rayas alternas de una cebra, equilibra capas de atención local y global, reduciendo significativamente los requisitos computacionales y el consumo de memoria. Se llevan a cabo experimentos exhaustivos, que incluyen preentrenamiento desde cero, continuación de entrenamiento de adaptación de contexto largo y ajuste de instrucciones largas, para evaluar el rendimiento de Zebra. Los resultados muestran que Zebra logra un rendimiento comparable o superior en puntos de referencia de secuencias cortas y largas, al mismo tiempo que mejora la eficiencia en el entrenamiento y la inferencia.

Modelos de Visión-Lenguaje como Fuente de Recompensas
Vision-Language Models as a Source of Rewards

Dec 14

ByKate Baumli, Satinder Baveja, Feryal Behbahani, Harris Chan, Gheorghe Comanici, Sebastian Flennerhag, Maxime Gazeau, Kristian Holsheimer, Dan Horgan, Michael Laskin, Clare Lyle, Hussain Masoom, Kay McKinney, Volodymyr Mnih, Alexander Neitz, Fabio Pardo, Jack Parker-Holder, John Quan, Tim Rocktäschel, Himanshu Sahni, Tom Schaul, Yannick Schroecker, Stephen Spencer, Richie Steigerwald, Luyu Wang, Lei Zhang

Desarrollar agentes generalistas capaces de alcanzar múltiples objetivos en entornos ricos y abiertos representa una de las fronteras de investigación en el aprendizaje por refuerzo. Un factor limitante clave para construir agentes generalistas con aprendizaje por refuerzo ha sido la necesidad de un gran número de funciones de recompensa para lograr diferentes objetivos. Investigamos la viabilidad de utilizar modelos visión-lenguaje (VLMs) disponibles comercialmente como fuentes de recompensas para agentes de aprendizaje por refuerzo. Demostramos cómo se pueden derivar recompensas para el logro visual de diversos objetivos lingüísticos a partir de la familia de modelos CLIP, y cómo estas pueden utilizarse para entrenar agentes de aprendizaje por refuerzo que alcancen una variedad de objetivos lingüísticos. Mostramos este enfoque en dos dominios visuales distintos y presentamos una tendencia de escalabilidad que indica cómo los VLMs más grandes generan recompensas más precisas para el logro de objetivos visuales, lo que a su vez produce agentes de aprendizaje por refuerzo más competentes.

FineControlNet: Control de Texto a Nivel Fino para la Generación de Imágenes con Inyección de Control de Texto Alineado Espacialmente
FineControlNet: Fine-level Text Control for Image Generation with Spatially Aligned Text Control Injection

Dec 14

ByHongsuk Choi, Isaac Kasahara, Selim Engin, Moritz Graule, Nikhil Chavan-Dafle, Volkan Isler

Recientemente introducido, ControlNet tiene la capacidad de guiar el proceso de generación de imágenes basado en texto con entradas geométricas, como la pose 2D humana o características de bordes. Si bien ControlNet ofrece control sobre la forma geométrica de las instancias en la imagen generada, carece de la capacidad para dictar la apariencia visual de cada instancia. Presentamos FineControlNet para proporcionar un control detallado sobre la apariencia de cada instancia, manteniendo al mismo tiempo la capacidad de control preciso de la pose. Específicamente, desarrollamos y demostramos FineControlNet con control geométrico mediante imágenes de poses humanas y control de apariencia mediante indicaciones de texto a nivel de instancia. La alineación espacial de las indicaciones de texto específicas de instancia y las poses 2D en el espacio latente permite las capacidades de control fino de FineControlNet. Evaluamos el rendimiento de FineControlNet mediante una comparación rigurosa con los modelos de difusión de texto a imagen condicionados por pose más avanzados. FineControlNet logra un rendimiento superior en la generación de imágenes que siguen las indicaciones de texto específicas de instancia y las poses proporcionadas por el usuario, en comparación con los métodos existentes. Página del proyecto: https://samsunglabs.github.io/FineControlNet-project-page

LIME: Edición Localizada de Imágenes mediante Regularización de Atención en Modelos de Difusión
LIME: Localized Image Editing via Attention Regularization in Diffusion Models

Dec 14

ByEnis Simsar, Alessio Tonioni, Yongqin Xian, Thomas Hofmann, Federico Tombari

Los modelos de difusión (DMs) han ganado prominencia debido a su capacidad para generar imágenes de alta calidad y variadas, con avances recientes en la generación de texto a imagen. El enfoque de investigación se está desplazando ahora hacia la controlabilidad de los DMs. Un desafío significativo en este ámbito es la edición localizada, donde se modifican áreas específicas de una imagen sin afectar el resto del contenido. Este artículo presenta LIME para la edición localizada de imágenes en modelos de difusión que no requieren regiones de interés (RoI) especificadas por el usuario ni entradas de texto adicionales. Nuestro método emplea características de métodos preentrenados y una técnica simple de agrupamiento para obtener mapas de segmentación semántica precisos. Luego, al aprovechar mapas de atención cruzada, refina estos segmentos para realizar ediciones localizadas. Finalmente, proponemos una novedosa técnica de regularización de atención cruzada que penaliza las puntuaciones de atención cruzada no relacionadas en la RoI durante los pasos de eliminación de ruido, asegurando ediciones localizadas. Nuestro enfoque, sin necesidad de reentrenamiento o ajuste fino, mejora consistentemente el rendimiento de los métodos existentes en varios benchmarks de edición.

Modelo de Fundamento General para Objetos en Imágenes y Videos a Escala
General Object Foundation Model for Images and Videos at Scale

Dec 14

ByJunfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai

En este trabajo presentamos GLEE, un modelo fundacional a nivel de objetos para localizar e identificar objetos en imágenes y videos. A través de un marco unificado, GLEE realiza detección, segmentación, seguimiento, anclaje e identificación de objetos arbitrarios en escenarios de mundo abierto para diversas tareas de percepción de objetos. Adoptando una estrategia de aprendizaje cohesiva, GLEE adquiere conocimiento de diversas fuentes de datos con distintos niveles de supervisión para formular representaciones generales de objetos, destacándose en la transferencia zero-shot a nuevos datos y tareas. Específicamente, empleamos un codificador de imágenes, un codificador de texto y un promotor visual para manejar entradas multimodales, permitiendo resolver simultáneamente diversas tareas descendentes centradas en objetos mientras se mantiene un rendimiento de vanguardia. Demostrado a través de un extenso entrenamiento en más de cinco millones de imágenes de diversos benchmarks, GLEE exhibe una versatilidad notable y un rendimiento de generalización mejorado, abordando eficientemente tareas descendentes sin necesidad de adaptación específica para cada tarea. Al integrar grandes volúmenes de datos etiquetados automáticamente, mejoramos aún más sus capacidades de generalización zero-shot. Además, GLEE es capaz de integrarse en Modelos de Lenguaje de Gran Escala, sirviendo como un modelo fundacional para proporcionar información universal a nivel de objetos para tareas multimodales. Esperamos que la versatilidad y universalidad de nuestro método marque un paso significativo en el desarrollo de modelos fundacionales visuales eficientes para sistemas de AGI. El modelo y el código se lanzarán en https://glee-vision.github.io.

UniDream: Unificación de Priores de Difusión para la Generación de Texto a 3D Relumbrante
UniDream: Unifying Diffusion Priors for Relightable Text-to-3D Generation

Dec 14

ByZexiang Liu, Yangguang Li, Youtian Lin, Xin Yu, Sida Peng, Yan-Pei Cao, Xiaojuan Qi, Xiaoshui Huang, Ding Liang, Wanli Ouyang

Los recientes avances en la tecnología de generación de texto a 3D han impulsado significativamente la conversión de descripciones textuales en objetos 3D imaginativos, con geometrías bien definidas y texturas refinadas. A pesar de estos progresos, una limitación común surge del uso de datos RGB en modelos de difusión o reconstrucción, lo que a menudo resulta en modelos con efectos inherentes de iluminación y sombras que reducen su realismo, limitando así su utilidad en aplicaciones que requieren capacidades precisas de reiluminación. Para abordar esta brecha, presentamos UniDream, un marco de generación de texto a 3D que incorpora prioridades de difusión unificadas. Nuestro enfoque consta de tres componentes principales: (1) un proceso de entrenamiento en dos fases para obtener modelos de difusión y reconstrucción multi-vista alineados con albedo-normal, (2) un procedimiento de generación progresiva para geometría y texturas de albedo basado en la Muestra de Destilación de Puntaje (SDS) utilizando los modelos de reconstrucción y difusión entrenados, y (3) una aplicación innovadora de SDS para finalizar la generación de PBR manteniendo un albedo fijo basado en el modelo Stable Diffusion. Evaluaciones exhaustivas demuestran que UniDream supera a los métodos existentes en la generación de objetos 3D con texturas de albedo más claras, superficies más suaves, mayor realismo y capacidades superiores de reiluminación.

ZeroQuant(4+2): Redefiniendo la cuantización de LLMs con una nueva estrategia centrada en FP6 para diversas tareas generativas
ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks

Dec 14

ByXiaoxia Wu, Haojun Xia, Stephen Youn, Zhen Zheng, Shiyang Chen, Arash Bakhtiari, Michael Wyatt, Yuxiong He, Olatunji Ruwase, Leon Song, Zhewei Yao

Este estudio examina métodos de cuantización de 4 bits como GPTQ en modelos de lenguaje grandes (LLMs), destacando el sobreajuste de GPTQ y su mejora limitada en tareas de Zero-Shot. Mientras que trabajos previos se centraban únicamente en la medición de Zero-Shot, ampliamos el alcance de las tareas a categorías más generativas, como la generación de código y la resumen abstractivo, donde encontramos que la cuantización INT4 puede tener un rendimiento significativamente inferior. Sin embargo, simplemente cambiar a formatos de mayor precisión como FP6 ha sido particularmente desafiante y, por lo tanto, pasado por alto, debido al bajo rendimiento causado por la falta de integración sofisticada y estrategias de aceleración del sistema en el hardware actual de IA. Nuestros resultados muestran que FP6, incluso con un esquema de cuantización de grano grueso, funciona de manera robusta en varios algoritmos y tareas, demostrando su superioridad en precisión y versatilidad. Notablemente, con la cuantización FP6, el modelo \codestar-15B tiene un rendimiento comparable a su contraparte FP16 en la generación de código, y para modelos más pequeños como el de 406M, se acerca mucho a sus líneas base en la tarea de resumen. Ninguno de estos logros puede ser alcanzado por INT4. Para adaptarse mejor a diversos hardwares de IA y lograr el mejor rendimiento del sistema, proponemos un diseño novedoso de 4+2 para FP6 que logra una latencia similar a la cuantización de grano fino INT4 de última generación. Con nuestro diseño, FP6 puede convertirse en una solución prometedora para los métodos actuales de cuantización de 4 bits utilizados en LLMs.

VL-GPT: Un Transformer Preentrenado Generativo para la Comprensión y Generación de Visión y Lenguaje
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation

Dec 14

ByJinguo Zhu, Xiaohan Ding, Yixiao Ge, Yuying Ge, Sijie Zhao, Hengshuang Zhao, Xiaohua Wang, Ying Shan

En este trabajo, presentamos el Transformer Generativo Preentrenado de Visión y Lenguaje (VL-GPT), un modelo basado en transformers que es competente para percibir y generar simultáneamente datos visuales y lingüísticos. VL-GPT logra un enfoque de preentrenamiento unificado para las modalidades de imagen y texto mediante el uso de un objetivo auto-regresivo sencillo, lo que permite al modelo procesar imágenes y texto de manera tan fluida como un modelo de lenguaje procesa texto. Para lograr esto, inicialmente proponemos un novedoso marco de tokenización y detokenización de imágenes para datos visuales, específicamente diseñado para transformar imágenes en bruto en una secuencia de embeddings continuos y reconstruirlas en consecuencia. En combinación con el tokenizador y detokenizador de texto existentes, este marco permite codificar datos intercalados de imagen y texto en una secuencia multimodal, que posteriormente puede ser alimentada al modelo transformer. Como resultado, VL-GPT puede realizar preentrenamiento a gran escala en corpus multimodales utilizando un objetivo auto-regresivo unificado (es decir, la predicción del siguiente token). Una vez completado el preentrenamiento, VL-GPT exhibe un rendimiento notable en tareas de comprensión y generación de visión y lenguaje en escenarios de zero-shot y few-shot, incluyendo la generación de descripciones de imágenes, respuesta a preguntas visuales, generación de imágenes a partir de texto, y más. Además, el modelo preentrenado conserva capacidades de aprendizaje en contexto cuando se le proporcionan indicaciones multimodales. Realizamos también ajuste por instrucciones en nuestro VL-GPT, destacando su potencial excepcional para la asistencia multimodal. El código fuente y los pesos del modelo serán publicados.

¿Ayudar o guiar? Los conjuntos de modelos de recompensa mitigan pero no eliminan la manipulación de recompensas
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant

Los modelos de recompensa desempeñan un papel clave en alinear las aplicaciones de los modelos de lenguaje con las preferencias humanas. Sin embargo, esta configuración crea un incentivo para que el modelo de lenguaje explote los errores del modelo de recompensa con el fin de lograr una recompensa estimada alta, un fenómeno a menudo denominado "hackeo de recompensas". Una mitigación natural es entrenar un conjunto de modelos de recompensa, agregando sus salidas para obtener una estimación de recompensa más robusta. Exploramos la aplicación de conjuntos de recompensas en la alineación tanto durante el entrenamiento (mediante aprendizaje por refuerzo) como en el momento de inferencia (a través de reordenamiento). Primero, demostramos que los modelos de recompensa están subespecificados: modelos de recompensa que se desempeñan de manera similar dentro de la distribución pueden generar recompensas muy diferentes cuando se usan en la alineación, debido al cambio de distribución. Segundo, la subespecificación resulta en sobreoptimización, donde la alineación a un modelo de recompensa no mejora la recompensa medida por otro modelo de recompensa entrenado con los mismos datos. Tercero, la sobreoptimización se mitiga mediante el uso de conjuntos de recompensas, y los conjuntos que varían según sus semillas de preentrenamiento logran una mejor generalización que los conjuntos que difieren solo por sus semillas de ajuste fino, superando ambos a los modelos de recompensa individuales. Sin embargo, incluso los conjuntos de recompensas de preentrenamiento no eliminan el hackeo de recompensas: mostramos varios fenómenos cualitativos de hackeo de recompensas que no se mitigan mediante el uso de conjuntos, ya que todos los modelos de recompensa en el conjunto exhiben patrones de error similares.

SHAP-EDITOR: Edición Latente 3D Guiada por Instrucciones en Segundos
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds

Dec 14

ByMinghao Chen, Junyu Xie, Iro Laina, Andrea Vedaldi

Proponemos un novedoso marco de edición 3D de propagación directa llamado Shap-Editor. Investigaciones previas sobre la edición de objetos 3D se centraron principalmente en la edición de objetos individuales mediante el aprovechamiento de redes de edición de imágenes 2D preexistentes. Esto se logra a través de un proceso llamado destilación, que transfiere conocimiento desde la red 2D a los activos 3D. La destilación requiere al menos decenas de minutos por activo para obtener resultados de edición satisfactorios, lo que la hace poco práctica. En contraste, nos preguntamos si la edición 3D puede realizarse directamente mediante una red de propagación directa, evitando la optimización en tiempo de prueba. En particular, planteamos la hipótesis de que la edición puede simplificarse significativamente codificando primero los objetos 3D en un espacio latente adecuado. Validamos esta hipótesis basándonos en el espacio latente de Shap-E. Demostramos que la edición 3D directa en este espacio es posible y eficiente mediante la construcción de una red editora de propagación directa que solo requiere aproximadamente un segundo por edición. Nuestros experimentos muestran que Shap-Editor generaliza bien tanto a activos 3D dentro de la distribución como fuera de ella con diferentes indicaciones, exhibiendo un rendimiento comparable con métodos que realizan optimización en tiempo de prueba para cada instancia editada.

TigerBot: Un Modelo de Lenguaje Multilingüe y Multitarea de Código Abierto
TigerBot: An Open Multilingual Multitask LLM

Dec 14

ByYe Chen, Wei Cai, Liangmin Wu, Xiaowei Li, Zhanxuan Xin, Cong Fu

Presentamos la familia de modelos de lenguaje extenso (LLMs) TigerBot, que consta de modelos base y de chat, con tamaños que van desde 7, 13, 70 hasta 180 mil millones de parámetros. Desarrollamos nuestros modelos partiendo de Llama-2 y BLOOM, y llevamos los límites más allá en términos de datos, algoritmos de entrenamiento, infraestructura y herramientas de aplicación. Nuestros modelos muestran mejoras significativas en el rendimiento sobre los modelos de código abierto más avanzados (SOTA), como Llama-2, específicamente un 6% de mejora en inglés y un 20% en chino. La familia de modelos TigerBot también alcanza un rendimiento líder en los principales benchmarks académicos e industriales y en las tablas de clasificación. Creemos que TigerBot representa solo una instantánea del progreso extremadamente rápido en la comunidad de código abierto de LLMs. Por ello, estamos emocionados de contribuir liberando públicamente nuestros modelos y compartiendo nuestro enfoque, con un énfasis adicional en la construcción de LLMs SOTA de manera democratizada y en hacer que los LLMs sean útiles en aplicaciones del mundo real.

¿Ayudar o guiar? Los conjuntos de modelos de recompensa mitigan pero no eliminan la manipulación de recompensas
Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Dec 14

ByJacob Eisenstein, Chirag Nagpal, Alekh Agarwal, Ahmad Beirami, Alex D'Amour, DJ Dvijotham, Adam Fisch, Katherine Heller, Stephen Pfohl, Deepak Ramachandran, Peter Shaw, Jonathan Berant