Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos TinyLlama, un modelo de lenguaje compacto de 1.1B preentrenado con aproximadamente 1 billón de tokens durante cerca de 3 épocas. Basado en la arquitectura y el tokenizador de Llama 2, TinyLlama aprovecha diversos avances aportados por la comunidad de código abierto (por ejemplo, FlashAttention), logrando una mayor eficiencia computacional. A pesar de su tamaño relativamente pequeño, TinyLlama demuestra un rendimiento notable en una serie de tareas posteriores. Supera significativamente a los modelos de lenguaje de código abierto existentes con tamaños comparables. Nuestros puntos de control del modelo y el código están disponibles públicamente en GitHub en https://github.com/jzhang38/TinyLlama.
La introducción de ChatGPT ha llevado a un aumento significativo en la utilización de Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) para abordar tareas posteriores. En este contexto, existe un enfoque creciente en el entrenamiento y despliegue eficientes en términos de costos. El entrenamiento y despliegue de bajo costo de los LLMs representan la tendencia futura de desarrollo. Este artículo revisa la evolución de las técnicas de entrenamiento de modelos de lenguaje a gran escala y las tecnologías de inferencia y despliegue alineadas con esta tendencia emergente. La discusión sobre el entrenamiento incluye diversos aspectos, como el preprocesamiento de datos, la arquitectura de entrenamiento, las tareas de preentrenamiento, el entrenamiento paralelo y contenido relevante relacionado con el ajuste fino del modelo. En el lado de la inferencia, el artículo cubre temas como la compresión de modelos, el cálculo paralelo, la planificación de memoria y la optimización estructural. También explora la utilización de los LLMs y ofrece perspectivas sobre su desarrollo futuro.
Los seres humanos generalmente adquieren nuevas habilidades sin comprometer las antiguas; sin embargo, lo contrario ocurre con los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como en el caso de LLaMA a CodeLLaMA. Para abordar esto, proponemos un nuevo método de post-entrenamiento para LLMs que incluye una expansión de bloques Transformer. Ajustamos los bloques expandidos utilizando únicamente un nuevo corpus, mejorando de manera eficiente y efectiva el conocimiento del modelo sin incurrir en olvido catastrófico. En este artículo, experimentamos con corpus de código y matemáticas, dando lugar a LLaMA Pro-8.3B, un modelo base versátil inicializado a partir de LLaMA2-7B, que destaca en tareas generales, programación y matemáticas. LLaMA Pro y su variante de seguimiento de instrucciones (LLaMA Pro-Instruct) logran un rendimiento avanzado en diversos benchmarks, demostrando superioridad sobre los modelos abiertos existentes en la familia LLaMA y el inmenso potencial para razonar y abordar diversas tareas como un agente inteligente. Nuestros hallazgos ofrecen valiosas perspectivas sobre la integración de lenguajes naturales y de programación, sentando una base sólida para el desarrollo de agentes lingüísticos avanzados que operen eficazmente en diversos entornos.
Los modelos fundamentales con miles de millones de parámetros, entrenados en grandes corpus de datos, han demostrado habilidades no triviales en una variedad de dominios. Sin embargo, debido a su estructura monolítica, es desafiante y costoso aumentarlos o impartirles nuevas habilidades. Por otro lado, gracias a sus capacidades de adaptación, se están entrenando varias nuevas instancias de estos modelos para nuevos dominios y tareas. En este trabajo, estudiamos el problema de la composición eficiente y práctica de modelos fundamentales existentes con modelos más específicos para habilitar nuevas capacidades. Con este fin, proponemos CALM -- Composición para Aumentar Modelos de Lenguaje -- que introduce atención cruzada entre modelos para componer sus representaciones y permitir nuevas capacidades. Las características destacadas de CALM son: (i) Escala modelos de lenguaje grandes (LLMs) en nuevas tareas al "reutilizar" LLMs existentes junto con algunos parámetros y datos adicionales, (ii) Los pesos del modelo existente se mantienen intactos, preservando así las capacidades actuales, y (iii) Se aplica a diversos dominios y configuraciones. Demostramos que aumentar PaLM2-S con un modelo más pequeño entrenado en lenguajes de bajos recursos resulta en una mejora absoluta de hasta el 13\% en tareas como la traducción al inglés y el razonamiento aritmético para lenguajes de bajos recursos. De manera similar, cuando PaLM2-S se aumenta con un modelo específico para código, observamos una mejora relativa del 40\% sobre el modelo base para tareas de generación y explicación de código -- a la par con contrapartes completamente ajustadas.
El aprendizaje por imitación a partir de demostraciones humanas ha mostrado un rendimiento impresionante en robótica. Sin embargo, la mayoría de los resultados se centran en la manipulación sobre mesas, careciendo de la movilidad y destreza necesarias para tareas de utilidad general. En este trabajo, desarrollamos un sistema para imitar tareas de manipulación móvil que son bimanuales y requieren control de todo el cuerpo. Primero presentamos Mobile ALOHA, un sistema de teleoperación de bajo costo y de cuerpo completo para la recopilación de datos. Este sistema amplía ALOHA con una base móvil y una interfaz de teleoperación de cuerpo completo. Utilizando datos recopilados con Mobile ALOHA, realizamos clonación de comportamiento supervisada y encontramos que el entrenamiento conjunto con los conjuntos de datos estáticos existentes de ALOHA mejora el rendimiento en tareas de manipulación móvil. Con 50 demostraciones para cada tarea, el entrenamiento conjunto puede aumentar las tasas de éxito hasta en un 90%, permitiendo que Mobile ALOHA complete de manera autónoma tareas complejas de manipulación móvil, como saltear y servir un camarón, abrir un armario de pared de dos puertas para almacenar ollas pesadas, llamar y entrar a un ascensor, y enjuagar ligeramente una sartén usada con el grifo de la cocina. Sitio web del proyecto: https://mobile-aloha.github.io
Este artículo presenta instruct-imagen, un modelo que aborda tareas heterogéneas de generación de imágenes y generaliza a tareas no vistas. Introducimos la *instrucción multimodal* para la generación de imágenes, una representación de tareas que articula con precisión una variedad de intenciones de generación. Utiliza lenguaje natural para amalgamar modalidades dispares (por ejemplo, texto, bordes, estilo, sujeto, etc.), de modo que las abundantes intenciones de generación puedan estandarizarse en un formato uniforme. Luego, construimos instruct-imagen ajustando un modelo de difusión de texto a imagen preentrenado con un marco de dos etapas. Primero, adaptamos el modelo utilizando entrenamiento aumentado con recuperación, para mejorar la capacidad del modelo de basar su generación en un contexto multimodal externo. Posteriormente, ajustamos el modelo adaptado en diversas tareas de generación de imágenes que requieren comprensión visión-lenguaje (por ejemplo, generación impulsada por sujetos, etc.), cada una emparejada con una instrucción multimodal que encapsula la esencia de la tarea. La evaluación humana en varios conjuntos de datos de generación de imágenes revela que instruct-imagen iguala o supera a modelos previos específicos de tareas dentro de su dominio y demuestra una prometedora generalización a tareas no vistas y más complejas.
En este artículo, presentamos LLaVA-phi (LLaVA-Phi), un asistente multimodal eficiente que aprovecha el poder del reciente modelo de lenguaje pequeño avanzado, Phi-2, para facilitar diálogos multimodales. LLaVA-Phi representa un avance notable en el ámbito de los modelos multimodales compactos. Demuestra que incluso modelos de lenguaje más pequeños, con tan solo 2.7 mil millones de parámetros, pueden participar efectivamente en diálogos complejos que integran elementos tanto textuales como visuales, siempre que se entrenen con corpus de alta calidad. Nuestro modelo ofrece un rendimiento destacado en benchmarks públicos que abarcan comprensión visual, razonamiento y percepción basada en conocimiento. Más allá de su notable desempeño en tareas de diálogo multimodal, nuestro modelo abre nuevas vías para aplicaciones en entornos sensibles al tiempo y sistemas que requieren interacción en tiempo real, como agentes corporizados. Destaca el potencial de los modelos de lenguaje más pequeños para alcanzar niveles sofisticados de comprensión e interacción, manteniendo una mayor eficiencia de recursos. El proyecto está disponible en {https://github.com/zhuyiche/llava-phi}.
Las Redes Generativas Adversarias (GANs) 3D han mostrado avances notables en la generación de imágenes consistentes desde múltiples vistas y geometrías 3D de escenas a partir de colecciones de imágenes 2D mediante renderizado neural volumétrico. Sin embargo, los significativos costos de memoria y computación asociados al muestreo denso en el renderizado volumétrico han obligado a las GANs 3D a adoptar entrenamiento basado en parches o a emplear renderizado de baja resolución con superresolución 2D posterior, lo que sacrifica la consistencia multivista y la calidad de la geometría resuelta. Como consecuencia, las GANs 3D aún no han podido resolver completamente la rica geometría 3D presente en las imágenes 2D. En este trabajo, proponemos técnicas para escalar el renderizado neural volumétrico a la resolución mucho más alta de las imágenes 2D nativas, resolviendo así geometrías 3D detalladas con un nivel de detalle sin precedentes. Nuestro enfoque utiliza muestreadores basados en aprendizaje para acelerar el renderizado neural en el entrenamiento de GANs 3D, utilizando hasta 5 veces menos muestras de profundidad. Esto nos permite "renderizar cada píxel" de la imagen a resolución completa durante el entrenamiento y la inferencia sin necesidad de superresolución 2D posterior. Junto con nuestra estrategia para aprender geometría de superficie de alta calidad, nuestro método sintetiza geometría 3D de alta resolución e imágenes estrictamente consistentes en vista, manteniendo una calidad de imagen comparable con los métodos basales que dependen de superresolución posterior. Demostramos una calidad geométrica 3D de vanguardia en FFHQ y AFHQ, estableciendo un nuevo estándar para el aprendizaje no supervisado de formas 3D en GANs 3D.
Los modelos de vanguardia en los benchmarks contemporáneos de percepción 3D, como ScanNet, consumen y etiquetan nubes de puntos 3D proporcionadas por el conjunto de datos, obtenidas mediante el procesamiento posterior de imágenes RGB-D multivista captadas por sensores. Estos modelos suelen entrenarse en el mismo dominio, prescinden del preentrenamiento a gran escala en 2D y superan a las alternativas que extraen características de las imágenes RGB-D multivista con pose. La brecha en el rendimiento entre los métodos que consumen imágenes con pose y aquellos que utilizan nubes de puntos 3D procesadas ha alimentado la creencia de que la percepción en 2D y 3D requiere arquitecturas de modelos distintas. En este artículo, cuestionamos esta perspectiva y proponemos ODIN (Omni-Dimensional INstance segmentation), un modelo que puede segmentar y etiquetar tanto imágenes RGB en 2D como nubes de puntos en 3D, utilizando una arquitectura de transformadores que alterna entre la fusión de información 2D dentro de la vista y 3D entre vistas. Nuestro modelo diferencia las operaciones de características en 2D y 3D mediante las codificaciones posicionales de los tokens involucrados, que capturan las coordenadas de píxeles para los tokens de parches en 2D y las coordenadas 3D para los tokens de características en 3D. ODIN logra un rendimiento de vanguardia en los benchmarks de segmentación de instancias 3D ScanNet200, Matterport3D y AI2THOR, y un rendimiento competitivo en ScanNet, S3DIS y COCO. Supera ampliamente a todos los trabajos anteriores cuando se utiliza la nube de puntos 3D captada por sensores en lugar de la nube de puntos muestreada a partir de una malla 3D. Cuando se utiliza como motor de percepción 3D en una arquitectura de agente encarnado instruible, establece un nuevo estado del arte en el benchmark TEACh de acción a partir de diálogo. Nuestro código y puntos de control están disponibles en el sitio web del proyecto: https://odin-seg.github.io.
Aprender modelos 3D de todos los animales de la Tierra requiere escalar masivamente las soluciones existentes. Con este objetivo final en mente, desarrollamos 3D-Fauna, un enfoque que aprende un modelo deformable 3D de animales pan-categórico para más de 100 especies de manera conjunta. Un cuello de botella crucial en el modelado de animales es la disponibilidad limitada de datos de entrenamiento, lo cual superamos simplemente aprendiendo a partir de imágenes 2D de Internet. Demostramos que los intentos previos específicos por categoría no logran generalizar a especies raras con imágenes de entrenamiento limitadas. Abordamos este desafío introduciendo el Banco Semántico de Modelos Articulados (SBSM, por sus siglas en inglés), que descubre automáticamente un pequeño conjunto de formas base de animales al combinar priors geométricos inductivos con conocimiento semántico capturado implícitamente por un extractor de características auto-supervisado estándar. Para entrenar dicho modelo, también contribuimos con un nuevo conjunto de datos a gran escala de diversas especies animales. En el momento de la inferencia, dada una sola imagen de cualquier animal cuadrúpedo, nuestro modelo reconstruye una malla 3D articulada de manera directa en cuestión de segundos.
El surgimiento de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), como ChatGPT y LLaMA, enfrenta limitaciones en tareas específicas de dominio, ya que estos modelos a menudo carecen de profundidad y precisión en áreas especializadas, y muestran una disminución en sus capacidades generales cuando se ajustan, particularmente en la capacidad de análisis en modelos de tamaño reducido. Para abordar estas brechas, presentamos ICE-GRT, que utiliza Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF, por sus siglas en inglés) basado en Optimización de Políticas Proximales (PPO, por sus siglas en inglés), demostrando una capacidad notable en escenarios de dominio específico sin comprometer el rendimiento en tareas generales. Nuestra exploración de ICE-GRT resalta su capacidad de comprensión y razonamiento para no solo generar respuestas robustas, sino también proporcionar análisis detallados de las razones detrás de la respuesta. Esta capacidad marca un avance significativo más allá del alcance de los modelos de Ajuste Fino Supervisado. El éxito de ICE-GRT depende de varios factores cruciales, incluyendo Datos Apropiados, Escalado del Tamaño de la Recompensa, Control KL, Normalización de Ventajas, entre otros. El modelo ICE-GRT exhibe un rendimiento de vanguardia en tareas específicas de dominio y en 12 tareas generales de lenguaje en comparación con LLMs de tamaño equivalente e incluso mayor, destacando la efectividad de nuestro enfoque. Proporcionamos un análisis exhaustivo de ICE-GRT, subrayando los avances significativos que aporta al campo de los LLMs.
Los modelos de difusión son una nueva clase de modelos generativos que han impulsado significativamente la generación de imágenes con una calidad y diversidad sin precedentes. Los modelos de difusión existentes intentan principalmente reconstruir una imagen de entrada a partir de una versión corrompida, utilizando restricciones basadas en píxeles o características a lo largo de ejes espaciales. Sin embargo, esta reconstrucción basada en puntos puede fallar al hacer que cada píxel/característica predicha preserve completamente su contexto vecinal, lo que perjudica la síntesis de imágenes basada en difusión. Como una poderosa fuente de señal de supervisión automática, el contexto ha sido ampliamente estudiado para el aprendizaje de representaciones. Inspirados por esto, proponemos por primera vez ConPreDiff para mejorar la síntesis de imágenes basada en difusión mediante la predicción de contexto. Refuerzamos explícitamente cada punto para predecir su contexto vecinal (es decir, características/tokens/píxeles con múltiples pasos) utilizando un decodificador de contexto al final de los bloques de eliminación de ruido en la etapa de entrenamiento, y eliminamos el decodificador durante la inferencia. De esta manera, cada punto puede reconstruirse mejor al preservar sus conexiones semánticas con el contexto vecinal. Este nuevo paradigma de ConPreDiff puede generalizarse a cualquier arquitectura de difusión discreta o continua sin introducir parámetros adicionales en el proceso de muestreo. Se realizaron experimentos exhaustivos en tareas de generación de imágenes incondicional, generación de texto a imagen y restauración de imágenes. Nuestro ConPreDiff supera consistentemente los métodos anteriores y logra nuevos resultados de referencia en la generación de texto a imagen en MS-COCO, con un puntaje FID de cero-shot de 6.21.
La percepción precisa de las propiedades geométricas y semánticas de objetos 3D del mundo real es crucial para la evolución continua de las aplicaciones de realidad aumentada y robótica. Con este fin, presentamos (), que incorpora incrustaciones de visión y lenguaje de modelos fundamentales en el método de 3D Gaussian Splatting (GS). La contribución clave de este trabajo es un método eficiente para reconstruir y representar modelos 3D de visión y lenguaje. Esto se logra destilando mapas de características generados por modelos fundamentales basados en imágenes en aquellos renderizados desde nuestro modelo 3D. Para garantizar una renderización de alta calidad y un entrenamiento rápido, introducimos una nueva representación de escena que integra las fortalezas tanto de GS como de codificaciones de hash multi-resolución (MHE). Nuestro procedimiento de entrenamiento efectivo también introduce una pérdida de alineación de píxeles que acerca la distancia de características renderizadas de entidades semánticas iguales, siguiendo los límites semánticos a nivel de píxel. Nuestros resultados demuestran una notable consistencia semántica multi-vista, facilitando diversas tareas posteriores, superando a los métodos más avanzados en un 10.2 por ciento en la detección de objetos basada en lenguaje de vocabulario abierto, a pesar de que somos 851 veces más rápidos en la inferencia. Esta investigación explora la intersección entre visión, lenguaje y representación de escenas 3D, allanando el camino para una comprensión mejorada de escenas en entornos reales no controlados. Planeamos liberar el código tras la aceptación del artículo.
El razonamiento visual está dominado por redes neuronales de extremo a extremo escaladas a miles de millones de parámetros y ejemplos de entrenamiento. Sin embargo, incluso los modelos más grandes tienen dificultades con el razonamiento composicional, la generalización, el razonamiento espacial y temporal de gran detalle, y el conteo. El razonamiento visual utilizando modelos de lenguaje grandes (LLMs) como controladores puede, en principio, abordar estas limitaciones al descomponer la tarea y resolver subtareas mediante la orquestación de un conjunto de herramientas (visuales). Recientemente, estos modelos han logrado un gran rendimiento en tareas como la respuesta a preguntas visuales composicionales, la localización visual y el razonamiento temporal en videos. No obstante, en su forma actual, estos modelos dependen en gran medida de la ingeniería humana de ejemplos en contexto en el prompt, que suelen ser específicos del conjunto de datos y la tarea, y requieren un esfuerzo significativo por parte de programadores altamente capacitados. En este trabajo, presentamos un marco que mitiga estos problemas al introducir rutinas abstractas espaciales y temporales, y al aprovechar un pequeño número de ejemplos etiquetados para generar automáticamente ejemplos en contexto, evitando así la creación manual de estos. En varias tareas de razonamiento visual, demostramos que nuestro marco conduce a mejoras consistentes en el rendimiento, hace que la configuración de LLMs como controladores sea más robusta, y elimina la necesidad de ingeniería humana en la creación de ejemplos en contexto.