HuggingFace Daily Papers

Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

14 papers found

TinyLlama: Un Modelo de Lenguaje Pequeño de Código Abierto
TinyLlama: An Open-Source Small Language Model

Jan 4

ByPeiyuan Zhang, Guangtao Zeng, Tianduo Wang, Wei Lu

Presentamos TinyLlama, un modelo de lenguaje compacto de 1.1B preentrenado con aproximadamente 1 billón de tokens durante cerca de 3 épocas. Basado en la arquitectura y el tokenizador de Llama 2, TinyLlama aprovecha diversos avances aportados por la comunidad de código abierto (por ejemplo, FlashAttention), logrando una mayor eficiencia computacional. A pesar de su tamaño relativamente pequeño, TinyLlama demuestra un rendimiento notable en una serie de tareas posteriores. Supera significativamente a los modelos de lenguaje de código abierto existentes con tamaños comparables. Nuestros puntos de control del modelo y el código están disponibles públicamente en GitHub en https://github.com/jzhang38/TinyLlama.

Comprensión de los LLM: Una visión integral desde el entrenamiento hasta la inferencia
Understanding LLMs: A Comprehensive Overview from Training to Inference

Jan 4

ByYiheng Liu, Hao He, Tianle Han, Xu Zhang, Mengyuan Liu, Jiaming Tian, Yutong Zhang, Jiaqi Wang, Xiaohui Gao, Tianyang Zhong, Yi Pan, Shaochen Xu, Zihao Wu, Zhengliang Liu, Xin Zhang, Shu Zhang, Xintao Hu, Tuo Zhang, Ning Qiang, Tianming Liu, Bao Ge

La introducción de ChatGPT ha llevado a un aumento significativo en la utilización de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) para abordar tareas posteriores. En este contexto, existe un enfoque creciente en el entrenamiento y despliegue eficientes en términos de costos. El entrenamiento y despliegue de bajo costo de los LLMs representan la tendencia futura de desarrollo. Este artículo revisa la evolución de las técnicas de entrenamiento de modelos de lenguaje a gran escala y las tecnologías de inferencia y despliegue alineadas con esta tendencia emergente. La discusión sobre el entrenamiento incluye diversos aspectos, como el preprocesamiento de datos, la arquitectura de entrenamiento, las tareas de preentrenamiento, el entrenamiento paralelo y contenido relevante relacionado con el ajuste fino del modelo. En el lado de la inferencia, el artículo cubre temas como la compresión de modelos, el cálculo paralelo, la planificación de memoria y la optimización estructural. También explora la utilización de los LLMs y ofrece perspectivas sobre su desarrollo futuro.

LLaMA Pro: LLaMA Progresivo con Expansión de Bloques
LLaMA Pro: Progressive LLaMA with Block Expansion

Jan 4

ByChengyue Wu, Yukang Gan, Yixiao Ge, Zeyu Lu, Jiahao Wang, Ye Feng, Ping Luo, Ying Shan

Los seres humanos generalmente adquieren nuevas habilidades sin comprometer las antiguas; sin embargo, lo contrario ocurre con los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como en el caso de LLaMA a CodeLLaMA. Para abordar esto, proponemos un nuevo método de post-entrenamiento para LLMs que incluye una expansión de bloques Transformer. Ajustamos los bloques expandidos utilizando únicamente un nuevo corpus, mejorando de manera eficiente y efectiva el conocimiento del modelo sin incurrir en olvido catastrófico. En este artículo, experimentamos con corpus de código y matemáticas, dando lugar a LLaMA Pro-8.3B, un modelo base versátil inicializado a partir de LLaMA2-7B, que destaca en tareas generales, programación y matemáticas. LLaMA Pro y su variante de seguimiento de instrucciones (LLaMA Pro-Instruct) logran un rendimiento avanzado en diversos benchmarks, demostrando superioridad sobre los modelos abiertos existentes en la familia LLaMA y el inmenso potencial para razonar y abordar diversas tareas como un agente inteligente. Nuestros hallazgos ofrecen valiosas perspectivas sobre la integración de lenguajes naturales y de programación, sentando una base sólida para el desarrollo de agentes lingüísticos avanzados que operen eficazmente en diversos entornos.

LLM Aumentados con LLM: Ampliando Capacidades mediante Composición
LLM Augmented LLMs: Expanding Capabilities through Composition

Jan 4

ByRachit Bansal, Bidisha Samanta, Siddharth Dalmia, Nitish Gupta, Shikhar Vashishth, Sriram Ganapathy, Abhishek Bapna, Prateek Jain, Partha Talukdar

Los modelos fundamentales con miles de millones de parámetros, entrenados en grandes corpus de datos, han demostrado habilidades no triviales en una variedad de dominios. Sin embargo, debido a su estructura monolítica, es desafiante y costoso aumentarlos o impartirles nuevas habilidades. Por otro lado, gracias a sus capacidades de adaptación, se están entrenando varias nuevas instancias de estos modelos para nuevos dominios y tareas. En este trabajo, estudiamos el problema de la composición eficiente y práctica de modelos fundamentales existentes con modelos más específicos para habilitar nuevas capacidades. Con este fin, proponemos CALM -- Composición para Aumentar Modelos de Lenguaje -- que introduce atención cruzada entre modelos para componer sus representaciones y permitir nuevas capacidades. Las características destacadas de CALM son: (i) Escala modelos de lenguaje grandes (LLMs) en nuevas tareas al "reutilizar" LLMs existentes junto con algunos parámetros y datos adicionales, (ii) Los pesos del modelo existente se mantienen intactos, preservando así las capacidades actuales, y (iii) Se aplica a diversos dominios y configuraciones. Demostramos que aumentar PaLM2-S con un modelo más pequeño entrenado en lenguajes de bajos recursos resulta en una mejora absoluta de hasta el 13\% en tareas como la traducción al inglés y el razonamiento aritmético para lenguajes de bajos recursos. De manera similar, cuando PaLM2-S se aumenta con un modelo específico para código, observamos una mejora relativa del 40\% sobre el modelo base para tareas de generación y explicación de código -- a la par con contrapartes completamente ajustadas.

Mobile ALOHA: Aprendizaje de manipulación móvil bimanual con teleoperación de cuerpo completo de bajo costo
Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation

Jan 4

ByZipeng Fu, Tony Z. Zhao, Chelsea Finn

El aprendizaje por imitación a partir de demostraciones humanas ha mostrado un rendimiento impresionante en robótica. Sin embargo, la mayoría de los resultados se centran en la manipulación sobre mesas, careciendo de la movilidad y destreza necesarias para tareas de utilidad general. En este trabajo, desarrollamos un sistema para imitar tareas de manipulación móvil que son bimanuales y requieren control de todo el cuerpo. Primero presentamos Mobile ALOHA, un sistema de teleoperación de bajo costo y de cuerpo completo para la recopilación de datos. Este sistema amplía ALOHA con una base móvil y una interfaz de teleoperación de cuerpo completo. Utilizando datos recopilados con Mobile ALOHA, realizamos clonación de comportamiento supervisada y encontramos que el entrenamiento conjunto con los conjuntos de datos estáticos existentes de ALOHA mejora el rendimiento en tareas de manipulación móvil. Con 50 demostraciones para cada tarea, el entrenamiento conjunto puede aumentar las tasas de éxito hasta en un 90%, permitiendo que Mobile ALOHA complete de manera autónoma tareas complejas de manipulación móvil, como saltear y servir un camarón, abrir un armario de pared de dos puertas para almacenar ollas pesadas, llamar y entrar a un ascensor, y enjuagar ligeramente una sartén usada con el grifo de la cocina. Sitio web del proyecto: https://mobile-aloha.github.io

Instruct-Imagen: Generación de imágenes con instrucciones multimodales
Instruct-Imagen: Image Generation with Multi-modal Instruction

Jan 3

ByHexiang Hu, Kelvin C. K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, Boqing Gong, William Cohen, Ming-Wei Chang, Xuhui Jia

Este artículo presenta instruct-imagen, un modelo que aborda tareas heterogéneas de generación de imágenes y generaliza a tareas no vistas. Introducimos la *instrucción multimodal* para la generación de imágenes, una representación de tareas que articula con precisión una variedad de intenciones de generación. Utiliza lenguaje natural para amalgamar modalidades dispares (por ejemplo, texto, bordes, estilo, sujeto, etc.), de modo que las abundantes intenciones de generación puedan estandarizarse en un formato uniforme. Luego, construimos instruct-imagen ajustando un modelo de difusión de texto a imagen preentrenado con un marco de dos etapas. Primero, adaptamos el modelo utilizando entrenamiento aumentado con recuperación, para mejorar la capacidad del modelo de basar su generación en un contexto multimodal externo. Posteriormente, ajustamos el modelo adaptado en diversas tareas de generación de imágenes que requieren comprensión visión-lenguaje (por ejemplo, generación impulsada por sujetos, etc.), cada una emparejada con una instrucción multimodal que encapsula la esencia de la tarea. La evaluación humana en varios conjuntos de datos de generación de imágenes revela que instruct-imagen iguala o supera a modelos previos específicos de tareas dentro de su dominio y demuestra una prometedora generalización a tareas no vistas y más complejas.

LLaVA-φ: Asistente Multimodal Eficiente con un Modelo de Lenguaje Pequeño
LLaVA-φ: Efficient Multi-Modal Assistant with Small Language Model

Jan 4

ByYichen Zhu, Minjie Zhu, Ning Liu, Zhicai Ou, Xiaofeng Mou, Jian Tang

En este artículo, presentamos LLaVA-phi (LLaVA-Phi), un asistente multimodal eficiente que aprovecha el poder del reciente modelo de lenguaje pequeño avanzado, Phi-2, para facilitar diálogos multimodales. LLaVA-Phi representa un avance notable en el ámbito de los modelos multimodales compactos. Demuestra que incluso modelos de lenguaje más pequeños, con tan solo 2.7 mil millones de parámetros, pueden participar efectivamente en diálogos complejos que integran elementos tanto textuales como visuales, siempre que se entrenen con corpus de alta calidad. Nuestro modelo ofrece un rendimiento destacado en benchmarks públicos que abarcan comprensión visual, razonamiento y percepción basada en conocimiento. Más allá de su notable desempeño en tareas de diálogo multimodal, nuestro modelo abre nuevas vías para aplicaciones en entornos sensibles al tiempo y sistemas que requieren interacción en tiempo real, como agentes corporizados. Destaca el potencial de los modelos de lenguaje más pequeños para alcanzar niveles sofisticados de comprensión e interacción, manteniendo una mayor eficiencia de recursos. El proyecto está disponible en {https://github.com/zhuyiche/llava-phi}.

Lo que ves es lo que obtienes con GAN: Renderizado de cada píxel para geometría de alta fidelidad en GANs 3D
What You See is What You GAN: Rendering Every Pixel for High-Fidelity Geometry in 3D GANs

Jan 4

ByAlex Trevithick, Matthew Chan, Towaki Takikawa, Umar Iqbal, Shalini De Mello, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano

Las Redes Generativas Adversarias (GANs) 3D han mostrado avances notables en la generación de imágenes consistentes desde múltiples vistas y geometrías 3D de escenas a partir de colecciones de imágenes 2D mediante renderizado neural volumétrico. Sin embargo, los significativos costos de memoria y computación asociados al muestreo denso en el renderizado volumétrico han obligado a las GANs 3D a adoptar entrenamiento basado en parches o a emplear renderizado de baja resolución con superresolución 2D posterior, lo que sacrifica la consistencia multivista y la calidad de la geometría resuelta. Como consecuencia, las GANs 3D aún no han podido resolver completamente la rica geometría 3D presente en las imágenes 2D. En este trabajo, proponemos técnicas para escalar el renderizado neural volumétrico a la resolución mucho más alta de las imágenes 2D nativas, resolviendo así geometrías 3D detalladas con un nivel de detalle sin precedentes. Nuestro enfoque utiliza muestreadores basados en aprendizaje para acelerar el renderizado neural en el entrenamiento de GANs 3D, utilizando hasta 5 veces menos muestras de profundidad. Esto nos permite "renderizar cada píxel" de la imagen a resolución completa durante el entrenamiento y la inferencia sin necesidad de superresolución 2D posterior. Junto con nuestra estrategia para aprender geometría de superficie de alta calidad, nuestro método sintetiza geometría 3D de alta resolución e imágenes estrictamente consistentes en vista, manteniendo una calidad de imagen comparable con los métodos basales que dependen de superresolución posterior. Demostramos una calidad geométrica 3D de vanguardia en FFHQ y AFHQ, estableciendo un nuevo estándar para el aprendizaje no supervisado de formas 3D en GANs 3D.

ODIN: Un Modelo Único para Percepción en 2D y 3D
ODIN: A Single Model for 2D and 3D Perception

Jan 4

ByAyush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki

Los modelos de vanguardia en los benchmarks contemporáneos de percepción 3D, como ScanNet, consumen y etiquetan nubes de puntos 3D proporcionadas por el conjunto de datos, obtenidas mediante el procesamiento posterior de imágenes RGB-D multivista captadas por sensores. Estos modelos suelen entrenarse en el mismo dominio, prescinden del preentrenamiento a gran escala en 2D y superan a las alternativas que extraen características de las imágenes RGB-D multivista con pose. La brecha en el rendimiento entre los métodos que consumen imágenes con pose y aquellos que utilizan nubes de puntos 3D procesadas ha alimentado la creencia de que la percepción en 2D y 3D requiere arquitecturas de modelos distintas. En este artículo, cuestionamos esta perspectiva y proponemos ODIN (Omni-Dimensional INstance segmentation), un modelo que puede segmentar y etiquetar tanto imágenes RGB en 2D como nubes de puntos en 3D, utilizando una arquitectura de transformadores que alterna entre la fusión de información 2D dentro de la vista y 3D entre vistas. Nuestro modelo diferencia las operaciones de características en 2D y 3D mediante las codificaciones posicionales de los tokens involucrados, que capturan las coordenadas de píxeles para los tokens de parches en 2D y las coordenadas 3D para los tokens de características en 3D. ODIN logra un rendimiento de vanguardia en los benchmarks de segmentación de instancias 3D ScanNet200, Matterport3D y AI2THOR, y un rendimiento competitivo en ScanNet, S3DIS y COCO. Supera ampliamente a todos los trabajos anteriores cuando se utiliza la nube de puntos 3D captada por sensores en lugar de la nube de puntos muestreada a partir de una malla 3D. Cuando se utiliza como motor de percepción 3D en una arquitectura de agente encarnado instruible, establece un nuevo estado del arte en el benchmark TEACh de acción a partir de diálogo. Nuestro código y puntos de control están disponibles en el sitio web del proyecto: https://odin-seg.github.io.

ICE-GRT: Mejora del Contexto de Instrucción mediante Transformadores Basados en Refuerzo Generativo
ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers

Jan 4

ByChen Zheng, Ke Sun, Da Tang, Yukun Ma, Yuyu Zhang, Chenguang Xi, Xun Zhou

El surgimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como ChatGPT y LLaMA, enfrenta limitaciones en tareas específicas de dominio, ya que estos modelos a menudo carecen de profundidad y precisión en áreas especializadas, y muestran una disminución en sus capacidades generales cuando se ajustan, particularmente en la capacidad de análisis en modelos de tamaño reducido. Para abordar estas brechas, presentamos ICE-GRT, que utiliza Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) basado en Optimización de Políticas Proximales (PPO, por sus siglas en inglés), demostrando una capacidad notable en escenarios de dominio específico sin comprometer el rendimiento en tareas generales. Nuestra exploración de ICE-GRT resalta su capacidad de comprensión y razonamiento para no solo generar respuestas robustas, sino también proporcionar análisis detallados de las razones detrás de la respuesta. Esta capacidad marca un avance significativo más allá del alcance de los modelos de Ajuste Fino Supervisado. El éxito de ICE-GRT depende de varios factores cruciales, incluyendo Datos Apropiados, Escalado del Tamaño de la Recompensa, Control KL, Normalización de Ventajas, entre otros. El modelo ICE-GRT exhibe un rendimiento de vanguardia en tareas específicas de dominio y en 12 tareas generales de lenguaje en comparación con LLMs de tamaño equivalente e incluso mayor, destacando la efectividad de nuestro enfoque. Proporcionamos un análisis exhaustivo de ICE-GRT, subrayando los avances significativos que aporta al campo de los LLMs.

Aprendizaje de la Fauna 3D en la Web
Learning the 3D Fauna of the Web

Jan 4

ByZizhang Li, Dor Litvak, Ruining Li, Yunzhi Zhang, Tomas Jakab, Christian Rupprecht, Shangzhe Wu, Andrea Vedaldi, Jiajun Wu

Aprender modelos 3D de todos los animales de la Tierra requiere escalar masivamente las soluciones existentes. Con este objetivo final en mente, desarrollamos 3D-Fauna, un enfoque que aprende un modelo deformable 3D de animales pan-categórico para más de 100 especies de manera conjunta. Un cuello de botella crucial en el modelado de animales es la disponibilidad limitada de datos de entrenamiento, lo cual superamos simplemente aprendiendo a partir de imágenes 2D de Internet. Demostramos que los intentos previos específicos por categoría no logran generalizar a especies raras con imágenes de entrenamiento limitadas. Abordamos este desafío introduciendo el Banco Semántico de Modelos Articulados (SBSM, por sus siglas en inglés), que descubre automáticamente un pequeño conjunto de formas base de animales al combinar priors geométricos inductivos con conocimiento semántico capturado implícitamente por un extractor de características auto-supervisado estándar. Para entrenar dicho modelo, también contribuimos con un nuevo conjunto de datos a gran escala de diversas especies animales. En el momento de la inferencia, dada una sola imagen de cualquier animal cuadrúpedo, nuestro modelo reconstruye una malla 3D articulada de manera directa en cuestión de segundos.

Mejorando la síntesis de imágenes basada en difusión con predicción de contexto
Improving Diffusion-Based Image Synthesis with Context Prediction

Jan 4

ByLing Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui

Los modelos de difusión son una nueva clase de modelos generativos que han impulsado significativamente la generación de imágenes con una calidad y diversidad sin precedentes. Los modelos de difusión existentes intentan principalmente reconstruir una imagen de entrada a partir de una versión corrompida, utilizando restricciones basadas en píxeles o características a lo largo de ejes espaciales. Sin embargo, esta reconstrucción basada en puntos puede fallar al hacer que cada píxel/característica predicha preserve completamente su contexto vecinal, lo que perjudica la síntesis de imágenes basada en difusión. Como una poderosa fuente de señal de supervisión automática, el contexto ha sido ampliamente estudiado para el aprendizaje de representaciones. Inspirados por esto, proponemos por primera vez ConPreDiff para mejorar la síntesis de imágenes basada en difusión mediante la predicción de contexto. Refuerzamos explícitamente cada punto para predecir su contexto vecinal (es decir, características/tokens/píxeles con múltiples pasos) utilizando un decodificador de contexto al final de los bloques de eliminación de ruido en la etapa de entrenamiento, y eliminamos el decodificador durante la inferencia. De esta manera, cada punto puede reconstruirse mejor al preservar sus conexiones semánticas con el contexto vecinal. Este nuevo paradigma de ConPreDiff puede generalizarse a cualquier arquitectura de difusión discreta o continua sin introducir parámetros adicionales en el proceso de muestreo. Se realizaron experimentos exhaustivos en tareas de generación de imágenes incondicional, generación de texto a imagen y restauración de imágenes. Nuestro ConPreDiff supera consistentemente los métodos anteriores y logra nuevos resultados de referencia en la generación de texto a imagen en MS-COCO, con un puntaje FID de cero-shot de 6.21.

FMGS: Modelo Fundacional Integrado en Proyección Gaussiana 3D para la Comprensión Holística de Escenas 3D
FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding

Jan 3

ByXingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li

La percepción precisa de las propiedades geométricas y semánticas de objetos 3D del mundo real es crucial para la evolución continua de las aplicaciones de realidad aumentada y robótica. Con este fin, presentamos (), que incorpora incrustaciones de visión y lenguaje de modelos fundamentales en el método de 3D Gaussian Splatting (GS). La contribución clave de este trabajo es un método eficiente para reconstruir y representar modelos 3D de visión y lenguaje. Esto se logra destilando mapas de características generados por modelos fundamentales basados en imágenes en aquellos renderizados desde nuestro modelo 3D. Para garantizar una renderización de alta calidad y un entrenamiento rápido, introducimos una nueva representación de escena que integra las fortalezas tanto de GS como de codificaciones de hash multi-resolución (MHE). Nuestro procedimiento de entrenamiento efectivo también introduce una pérdida de alineación de píxeles que acerca la distancia de características renderizadas de entidades semánticas iguales, siguiendo los límites semánticos a nivel de píxel. Nuestros resultados demuestran una notable consistencia semántica multi-vista, facilitando diversas tareas posteriores, superando a los métodos más avanzados en un 10.2 por ciento en la detección de objetos basada en lenguaje de vocabulario abierto, a pesar de que somos 851 veces más rápidos en la inferencia. Esta investigación explora la intersección entre visión, lenguaje y representación de escenas 3D, allanando el camino para una comprensión mejorada de escenas en entornos reales no controlados. Planeamos liberar el código tras la aceptación del artículo.

Hacia un razonamiento visual composicional verdaderamente de cero disparos con LLMs como programadores
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers

Jan 3

ByAleksandar Stanić, Sergi Caelles, Michael Tschannen

El razonamiento visual está dominado por redes neuronales de extremo a extremo escaladas a miles de millones de parámetros y ejemplos de entrenamiento. Sin embargo, incluso los modelos más grandes tienen dificultades con el razonamiento composicional, la generalización, el razonamiento espacial y temporal de gran detalle, y el conteo. El razonamiento visual utilizando modelos de lenguaje grandes (LLMs) como controladores puede, en principio, abordar estas limitaciones al descomponer la tarea y resolver subtareas mediante la orquestación de un conjunto de herramientas (visuales). Recientemente, estos modelos han logrado un gran rendimiento en tareas como la respuesta a preguntas visuales composicionales, la localización visual y el razonamiento temporal en videos. No obstante, en su forma actual, estos modelos dependen en gran medida de la ingeniería humana de ejemplos en contexto en el prompt, que suelen ser específicos del conjunto de datos y la tarea, y requieren un esfuerzo significativo por parte de programadores altamente capacitados. En este trabajo, presentamos un marco que mitiga estos problemas al introducir rutinas abstractas espaciales y temporales, y al aprovechar un pequeño número de ejemplos etiquetados para generar automáticamente ejemplos en contexto, evitando así la creación manual de estos. En varias tareas de razonamiento visual, demostramos que nuestro marco conduce a mejoras consistentes en el rendimiento, hace que la configuración de LLMs como controladores sea más robusta, y elimina la necesidad de ingeniería humana en la creación de ejemplos en contexto.

ODIN: Un Modelo Único para Percepción en 2D y 3D
ODIN: A Single Model for 2D and 3D Perception

Jan 4

ByAyush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki