Artículos de investigación en IA seleccionados diariamente con traducciones
El rápido desarrollo de los modelos grandes de lenguaje y visión (LLVMs, por sus siglas en inglés) ha sido impulsado por avances en el ajuste de instrucciones visuales. Recientemente, los LLVMs de código abierto han curado conjuntos de datos de alta calidad para el ajuste de instrucciones visuales y han utilizado codificadores visuales adicionales o múltiples modelos de visión por computadora con el fin de reducir la brecha de rendimiento con los potentes LLVMs de código cerrado. Estos avances se atribuyen a la información multifacética requerida para diversas capacidades, incluyendo la comprensión fundamental de imágenes, el conocimiento del mundo real sobre conceptos de sentido común y no objetos (por ejemplo, gráficos, diagramas, símbolos, señales y problemas matemáticos), y procedimientos paso a paso para resolver preguntas complejas. Basándonos en esta información multifacética, presentamos un nuevo LLVM eficiente, el recorrido basado en Mamba de razonamientos (Meteor), que aprovecha los razonamientos multifacéticos para mejorar las capacidades de comprensión y respuesta. Para incorporar razonamientos extensos que contienen abundante información, empleamos la arquitectura Mamba, capaz de procesar datos secuenciales con complejidad temporal lineal. Introducimos un nuevo concepto de recorrido de razonamiento que facilita la incorporación eficiente de los razonamientos. Posteriormente, el modelo multimodal de lenguaje (MLM) principal se entrena para generar respuestas con la ayuda de los razonamientos. A través de estos pasos, Meteor logra mejoras significativas en el rendimiento de lenguaje visual en múltiples puntos de referencia de evaluación que requieren diversas capacidades, sin aumentar el tamaño del modelo ni emplear codificadores visuales adicionales o modelos de visión por computadora.
Los Modelos Multimodales de Gran Escala (LMMs) de alta resolución enfrentan los desafíos de un exceso de tokens visuales y una complejidad visual cuadrática. Los LMMs de alta resolución actuales abordan la complejidad cuadrática, pero aún generan un exceso de tokens visuales. Sin embargo, la redundancia en los tokens visuales es el problema clave, ya que conlleva un mayor costo computacional. Para mitigar este problema, proponemos ConvLLaVA, que emplea ConvNeXt, una arquitectura jerárquica, como codificador visual del LMM en lugar del Transformer de Visión (ViT). ConvLLaVA comprime imágenes de alta resolución en características visuales ricas en información, evitando efectivamente la generación de un exceso de tokens visuales. Para mejorar las capacidades de ConvLLaVA, proponemos dos optimizaciones críticas. Dado que ConvNeXt preentrenado en baja resolución tiene un rendimiento inferior cuando se aplica directamente en alta resolución, lo actualizamos para cerrar esta brecha. Además, dado que la relación de compresión original de ConvNeXt es insuficiente para entradas de resolución mucho mayor, entrenamos una etapa sucesiva para comprimir aún más los tokens visuales, reduciendo así la redundancia. Estas optimizaciones permiten que ConvLLaVA admita entradas de resolución 1536x1536 generando solo 576 tokens visuales, capaces de manejar imágenes con relaciones de aspecto arbitrarias. Los resultados experimentales demuestran que nuestro método alcanza un rendimiento competitivo con los modelos más avanzados en benchmarks principales. La serie de modelos ConvLLaVA está disponible públicamente en https://github.com/alibaba/conv-llava.
Estudiamos si los transformadores pueden aprender a razonar implícitamente sobre conocimiento paramétrico, una habilidad con la que incluso los modelos de lenguaje más avanzados tienen dificultades. Centrándonos en dos tipos de razonamiento representativos, composición y comparación, encontramos consistentemente que los transformadores pueden aprender razonamiento implícito, pero solo a través del "grokking", es decir, entrenamiento extendido mucho más allá del sobreajuste. Los niveles de generalización también varían según los tipos de razonamiento: cuando se enfrentan a ejemplos fuera de distribución, los transformadores no logran generalizar sistemáticamente para la composición, pero sí lo hacen para la comparación. Profundizamos en los mecanismos internos del modelo durante el entrenamiento, realizando experimentos analíticos que revelan: 1) el mecanismo detrás del grokking, como la formación del circuito generalizador y su relación con la eficiencia relativa de los circuitos de generalización y memorización, y 2) la conexión entre la sistematicidad y la configuración del circuito generalizador. Nuestros hallazgos guían la configuración de datos y entrenamiento para inducir mejor el razonamiento implícito y sugieren posibles mejoras en la arquitectura del transformador, como fomentar el intercambio de conocimiento entre capas. Además, demostramos que para una tarea de razonamiento desafiante con un espacio de búsqueda grande, GPT-4-Turbo y Gemini-1.5-Pro, basados en memoria no paramétrica, fracasan rotundamente independientemente del estilo de "prompting" o la ampliación de recuperación, mientras que un transformador completamente "grokked" puede alcanzar una precisión casi perfecta, mostrando el poder de la memoria paramétrica para el razonamiento complejo.
Este informe técnico presenta Aya 23, una familia de modelos de lenguaje multilingüe. Aya 23 se basa en el lanzamiento reciente del modelo Aya (\"Ust\"un et al., 2024), centrándose en combinar un modelo preentrenado de alto rendimiento con la colección Aya recientemente publicada (Singh et al., 2024). El resultado es un potente modelo de lenguaje grande multilingüe que abarca 23 idiomas, ampliando las capacidades de modelado de lenguaje de vanguardia a aproximadamente la mitad de la población mundial. Mientras que el modelo Aya cubría 101 idiomas, Aya 23 es un experimento en profundidad versus amplitud, explorando el impacto de asignar más capacidad a un menor número de idiomas incluidos durante el preentrenamiento. Aya 23 supera tanto a modelos multilingües masivos anteriores como Aya 101 en los idiomas que cubre, como a modelos ampliamente utilizados como Gemma, Mistral y Mixtral en una amplia gama de tareas discriminativas y generativas. Publicamos los pesos abiertos tanto para los modelos de 8B como de 35B como parte de nuestro compromiso continuo de ampliar el acceso al progreso multilingüe.
Los LLM (Modelos de Lenguaje de Gran Escala) son computacionalmente costosos de preentrenar debido a su gran escala. El crecimiento de modelos surge como un enfoque prometedor al aprovechar modelos más pequeños para acelerar el entrenamiento de otros más grandes. Sin embargo, la viabilidad de estos métodos de crecimiento de modelos en el preentrenamiento eficiente de LLM sigue siendo poco explorada. Este trabajo identifica tres obstáculos críticos: (O1) la falta de evaluación integral, (O2) la viabilidad no probada para escalar y (O3) la ausencia de pautas empíricas. Para abordar O1, resumimos los enfoques existentes en cuatro operadores de crecimiento atómicos y los evaluamos sistemáticamente en un entorno estandarizado de preentrenamiento de LLM. Nuestros hallazgos revelan que un operador de apilamiento en profundidad, llamado G_{stack}, muestra una aceleración notable en el entrenamiento, lo que lleva a una disminución de la pérdida y un mejor rendimiento general en ocho benchmarks estándar de PLN en comparación con líneas base sólidas. Motivados por estos resultados prometedores, realizamos experimentos extensos para profundizar en G_{stack} y abordar O2 y O3. Para O2 (escalabilidad no probada), nuestro estudio muestra que G_{stack} es escalable y funciona consistentemente bien, con experimentos que llegan hasta LLM de 7B después del crecimiento y preentrenamiento de LLM con 750B tokens. Por ejemplo, en comparación con un modelo de 7B entrenado convencionalmente usando 300B tokens, nuestro modelo G_{stack} converge al mismo nivel de pérdida con 194B tokens, lo que resulta en una aceleración del 54.6%. Además, abordamos O3 (falta de pautas empíricas) formalizando directrices para determinar el momento de crecimiento y el factor de crecimiento para G_{stack}, haciéndolo práctico en el preentrenamiento general de LLM. También proporcionamos discusiones detalladas y estudios de ablación exhaustivos de G_{stack}. Nuestro código y modelo preentrenado están disponibles en https://llm-stacking.github.io/{https://llm-stacking.github.io/}.
Los programas de tasas de aprendizaje existentes que no requieren la especificación del paso de parada de optimización T son superados ampliamente por los programas de tasas de aprendizaje que dependen de T. Proponemos un enfoque que evita la necesidad de este tiempo de parada al prescindir completamente del uso de programas, mientras exhibe un rendimiento de vanguardia en comparación con los programas en una amplia gama de problemas, desde problemas convexos hasta problemas de aprendizaje profundo a gran escala. Nuestro enfoque Sin Programa no introduce hiperparámetros adicionales sobre los optimizadores estándar con momento. Nuestro método es una consecuencia directa de una nueva teoría que desarrollamos y que unifica la programación y el promediado de iteraciones. Una implementación de código abierto de nuestro método está disponible (https://github.com/facebookresearch/schedule_free).
Presentamos AutoCoder, el primer Modelo de Lenguaje Grande en superar a GPT-4 Turbo (abril de 2024) y GPT-4o en pass@1 en la prueba de referencia Human Eval (90.9% vs. 90.2%). Además, AutoCoder ofrece un intérprete de código más versátil en comparación con GPT-4 Turbo y GPT-4o. Su intérprete de código puede instalar paquetes externos en lugar de limitarse a paquetes integrados. Los datos de entrenamiento de AutoCoder provienen de un conjunto de datos de diálogo multiturno creado por un sistema que combina la interacción de agentes y la verificación mediante ejecución de código externo, un método que denominamos \textsc{AIEV-Instruct} (Afinamiento de Instrucciones con Interacción de Agentes y Verificación de Ejecución). En comparación con los métodos anteriores de generación de conjuntos de datos de código a gran escala, AIEV-Instruct reduce la dependencia de modelos grandes propietarios y proporciona un conjunto de datos de código validado mediante ejecución. El código y el video de demostración están disponibles en https://github.com/bin123apple/AutoCoder.
Presentamos un novedoso sistema generativo de modelado 3D, denominado CraftsMan, que puede generar geometrías 3D de alta fidelidad con formas muy variadas, topologías de malla regulares y superficies detalladas, y, notablemente, permite refinar la geometría de manera interactiva. A pesar de los avances significativos en la generación 3D, los métodos existentes aún enfrentan problemas con procesos de optimización prolongados, topologías de malla irregulares, superficies ruidosas y dificultades para incorporar ediciones de los usuarios, lo que obstaculiza su adopción generalizada e implementación en software de modelado 3D. Nuestro trabajo está inspirado en el artesano, quien generalmente esboza primero la figura holística de la obra y elabora los detalles de la superficie posteriormente. Específicamente, empleamos un modelo de difusión nativo 3D, que opera en un espacio latente aprendido a partir de representaciones 3D basadas en conjuntos latentes, para generar geometrías aproximadas con topología de malla regular en cuestión de segundos. En particular, este proceso toma como entrada un texto descriptivo o una imagen de referencia y aprovecha un potente modelo de difusión multi-vista (MV) para generar múltiples vistas de la geometría aproximada, las cuales se alimentan a nuestro modelo de difusión 3D condicionado por MV para generar la geometría 3D, mejorando significativamente la robustez y generalización. Posteriormente, se utiliza un refinador de geometría basado en normales para mejorar considerablemente los detalles de la superficie. Este refinamiento puede realizarse automáticamente o de manera interactiva con ediciones proporcionadas por el usuario. Experimentos extensos demuestran que nuestro método logra una alta eficacia en la producción de activos 3D de calidad superior en comparación con los métodos existentes. Página principal: https://craftsman3d.github.io/, Código: https://github.com/wyysf-98/CraftsMan.
Las características auto-supervisadas son la piedra angular de los sistemas modernos de aprendizaje automático. Normalmente se pre-entrenan en colecciones de datos cuya construcción y curaduría requieren un esfuerzo humano considerable. Este proceso manual tiene algunas limitaciones similares a las encontradas en el aprendizaje supervisado, por ejemplo, la selección de datos mediante crowdsourcing es costosa y consume mucho tiempo, lo que impide escalar el tamaño del conjunto de datos. En este trabajo, consideramos el problema de la curaduría automática de conjuntos de datos de alta calidad para el pre-entrenamiento auto-supervisado. Postulamos que dichos conjuntos de datos deben ser grandes, diversos y equilibrados, y proponemos un enfoque basado en clustering para construir conjuntos que satisfagan todos estos criterios. Nuestro método implica aplicaciones sucesivas y jerárquicas de k-means sobre un repositorio de datos grande y diverso para obtener clusters que se distribuyan uniformemente entre los conceptos de los datos, seguido de un paso de muestreo jerárquico y equilibrado a partir de estos clusters. Experimentos exhaustivos en tres dominios de datos diferentes, incluyendo imágenes web, imágenes satelitales y texto, muestran que las características entrenadas en nuestros conjuntos de datos curados automáticamente superan a las entrenadas en datos no curados, mientras que son comparables o mejores que las entrenadas en datos curados manualmente.
Los modelos del mundo capacitan a los agentes basados en modelos para explorar, razonar y planificar de manera interactiva dentro de entornos imaginados, con el fin de tomar decisiones en el mundo real. Sin embargo, la alta demanda de interactividad plantea desafíos al aprovechar los avances recientes en modelos generativos de video para desarrollar modelos del mundo a gran escala. Este trabajo presenta Interactive VideoGPT (iVideoGPT), un marco escalable de transformadores autorregresivos que integra señales multimodales—observaciones visuales, acciones y recompensas—en una secuencia de tokens, facilitando una experiencia interactiva de los agentes mediante la predicción del siguiente token. iVideoGPT incluye una novedosa técnica de tokenización compresiva que discretiza eficientemente observaciones visuales de alta dimensionalidad. Aprovechando su arquitectura escalable, hemos podido preentrenar iVideoGPT en millones de trayectorias de manipulación humana y robótica, estableciendo una base versátil que es adaptable para servir como modelos del mundo interactivos en una amplia gama de tareas posteriores. Estas incluyen la predicción de video condicionada por acciones, planificación visual y aprendizaje por refuerzo basado en modelos, donde iVideoGPT logra un rendimiento competitivo en comparación con los métodos más avanzados. Nuestro trabajo avanza en el desarrollo de modelos del mundo generales e interactivos, cerrando la brecha entre los modelos generativos de video y las aplicaciones prácticas de aprendizaje por refuerzo basado en modelos.
Los modelos de lenguaje (LM, por sus siglas en inglés) se han utilizado durante mucho tiempo para mejorar los resultados de los sistemas de reconocimiento automático del habla (ASR, por sus siglas en inglés), pero no son conscientes de los errores que cometen estos sistemas. Los modelos de corrección de errores están diseñados para corregir los errores del ASR; sin embargo, han mostrado pocas mejoras en comparación con los LM tradicionales, principalmente debido a la falta de datos de entrenamiento supervisados. En este artículo, presentamos el Modelo de Lenguaje de Desruido (DLM, por sus siglas en inglés), que es un modelo de corrección de errores escalado entrenado con grandes cantidades de datos sintéticos, superando significativamente intentos previos y logrando un nuevo estado del arte en el rendimiento del ASR. Utilizamos sistemas de texto a voz (TTS, por sus siglas en inglés) para sintetizar audio, que luego se introduce en un sistema ASR para generar hipótesis ruidosas, las cuales se emparejan con los textos originales para entrenar el DLM. El DLM tiene varios componentes clave: (i) modelo y datos escalados; (ii) uso de sistemas TTS con múltiples hablantes; (iii) combinación de múltiples estrategias de aumento de ruido; y (iv) nuevas técnicas de decodificación. Con un ASR Transformer-CTC, el DLM logra una tasa de error por palabra (WER, por sus siglas en inglés) del 1.5% en test-clean y del 3.3% en test-other en Librispeech, que, hasta donde sabemos, son los mejores resultados reportados en el escenario donde no se utilizan datos de audio externos e incluso igualan a los métodos autosupervisados que sí los utilizan. Además, un único DLM es aplicable a diferentes sistemas ASR, superando ampliamente el rendimiento del rescoring convencional basado en búsqueda por haz con LM. Estos resultados indican que los modelos de corrección de errores, cuando se investigan adecuadamente, tienen el potencial de reemplazar a los LM tradicionales, abriendo la puerta a un nuevo nivel de precisión en los sistemas ASR.
Los modelos de lenguaje a gran escala exhiben capacidades excepcionales de generalización, atribuidas principalmente al uso de datos provenientes de fuentes diversas. Sin embargo, las prácticas convencionales para integrar estos datos diversos dependen en gran medida de esquemas heurísticos, carentes de orientación teórica. Esta investigación aborda estas limitaciones al explorar estrategias basadas en proxies de bajo costo para mezclas de datos, con el objetivo de optimizar la curación de datos para mejorar la eficiencia del entrenamiento. Específicamente, proponemos una ley de escalado unificada, denominada BiMix, que modela con precisión los comportamientos de escalado bivariado tanto de la cantidad de datos como de las proporciones de mezcla. Realizamos experimentos sistemáticos y proporcionamos evidencia empírica sobre el poder predictivo y los principios fundamentales de BiMix. En particular, nuestros hallazgos revelan que las mezclas de datos libres de entrenamiento impulsadas por entropía pueden lograr un rendimiento comparable o incluso superior a métodos más intensivos en recursos. Esperamos que nuestras perspectivas cuantitativas puedan iluminar futuras investigaciones y desarrollos juiciosos en el modelado de lenguaje rentable.
La síntesis de vistas novedosas de alto rango dinámico (HDR NVS, por sus siglas en inglés) tiene como objetivo crear imágenes fotorrealistas desde perspectivas novedosas utilizando técnicas de imagen HDR. Las imágenes HDR renderizadas capturan un rango más amplio de niveles de brillo, conteniendo más detalles de la escena en comparación con las imágenes de bajo rango dinámico (LDR). Los métodos existentes de HDR NVS se basan principalmente en NeRF, pero sufren de tiempos de entrenamiento prolongados y velocidades de inferencia lentas. En este artículo, proponemos un nuevo marco de trabajo, High Dynamic Range Gaussian Splatting (HDR-GS), que puede renderizar eficientemente vistas HDR novedosas y reconstruir imágenes LDR con un tiempo de exposición proporcionado por el usuario. Específicamente, diseñamos un modelo de nube de puntos Gaussianos de Doble Rango Dinámico (DDR) que utiliza armónicos esféricos para ajustar el color HDR y emplea un mapeador de tonos basado en MLP para renderizar el color LDR. Los colores HDR y LDR se alimentan luego en dos procesos de Rasterización Diferenciable Paralela (PDR) para reconstruir las vistas HDR y LDR. Para establecer la base de datos necesaria para la investigación de métodos basados en splatting de Gaussianos 3D en HDR NVS, recalibramos los parámetros de la cámara y calculamos las posiciones iniciales para las nubes de puntos Gaussianos. Los experimentos demuestran que nuestro HDR-GS supera al método basado en NeRF más avanzado en 3.84 y 1.91 dB en LDR y HDR NVS, respectivamente, mientras disfruta de una velocidad de inferencia 1000 veces mayor y requiere solo el 6.3% del tiempo de entrenamiento.