Artículos de investigación en IA seleccionados diariamente con traducciones
Estudiamos la efectividad de un enfoque simple para desarrollar un modelo de lenguaje base (LM) pequeño partiendo de un LM base grande existente: primero heredamos algunos bloques de transformadores del LM más grande, y luego entrenamos este modelo más pequeño en un subconjunto muy reducido (0,1\%) de los datos de preentrenamiento crudos del modelo más grande. Llamamos a nuestra receta simple Inheritune y primero la demostramos para construir un LM base pequeño con 1.500 millones de parámetros utilizando 1.000 millones de tokens (y algunas capas iniciales de un LM más grande de 3.000 millones de parámetros); lo hacemos utilizando una sola GPU A6000 durante menos de medio día. En 9 conjuntos de datos de evaluación diversos, así como en el benchmark MMLU, el modelo resultante se compara favorablemente con modelos base disponibles públicamente de tamaño 1.000-2.000 millones de parámetros, algunos de los cuales han sido entrenados utilizando entre 50 y 1.000 veces más tokens. Investigamos Inheritune en un escenario ligeramente diferente donde entrenamos LMs pequeños utilizando LMs más grandes y su conjunto de datos de preentrenamiento completo. Aquí mostramos que LMs más pequeños entrenados utilizando algunas de las capas de GPT2-medium (355M) y GPT-2-large (770M) pueden igualar efectivamente la pérdida de validación (val loss) de sus contrapartes más grandes cuando estas son entrenadas desde cero durante el mismo número de pasos de entrenamiento en el conjunto de datos OpenWebText con 9.000 millones de tokens. Analizamos nuestra receta con experimentos extensos y demostramos su eficacia en diversos escenarios. Nuestro código está disponible en https://github.com/sanyalsunny111/LLM-Inheritune.
En las últimas décadas, la comunidad de visión por computadora ha sido testigo de avances notables en el reconocimiento visual, en parte gracias a los progresos en los benchmarks de conjuntos de datos. En particular, el establecido benchmark COCO ha impulsado el desarrollo de sistemas modernos de detección y segmentación. Sin embargo, el benchmark de segmentación de COCO ha experimentado una mejora comparativamente lenta en la última década. Originalmente equipado con anotaciones de polígonos aproximados para instancias de objetos, gradualmente incorporó anotaciones de superpíxeles aproximados para regiones de fondo, que posteriormente se amalgamaron heurísticamente para producir anotaciones de segmentación panóptica. Estas anotaciones, realizadas por diferentes grupos de evaluadores, han resultado no solo en máscaras de segmentación aproximadas, sino también en inconsistencias entre los tipos de segmentación. En este estudio, llevamos a cabo una reevaluación exhaustiva de las anotaciones de segmentación de COCO. Al mejorar la calidad de las anotaciones y ampliar el conjunto de datos para abarcar 383K imágenes con más de 5.18M máscaras panópticas, presentamos COCONut, el conjunto de datos COCO Next Universal segmenTation. COCONut armoniza las anotaciones de segmentación en segmentación semántica, de instancias y panóptica con máscaras de alta calidad meticulosamente elaboradas, y establece un benchmark sólido para todas las tareas de segmentación. Hasta donde sabemos, COCONut se erige como el primer conjunto de datos de segmentación universal a gran escala, verificado por evaluadores humanos. Anticipamos que el lanzamiento de COCONut contribuirá significativamente a la capacidad de la comunidad para evaluar el progreso de nuevas redes neuronales.
Este artículo investiga el rendimiento del modelo Contrastive Language-Image Pre-training (CLIP) cuando se escala para ajustarse a presupuestos computacionales limitados. Exploramos CLIP en tres dimensiones: datos, arquitectura y estrategias de entrenamiento. En cuanto a los datos, demostramos la importancia de los datos de entrenamiento de alta calidad y mostramos que un conjunto de datos más pequeño pero de alta calidad puede superar a un conjunto de datos más grande pero de menor calidad. También examinamos cómo varía el rendimiento del modelo con diferentes tamaños de conjuntos de datos, sugiriendo que los modelos ViT más pequeños son más adecuados para conjuntos de datos más pequeños, mientras que los modelos más grandes funcionan mejor en conjuntos de datos más grandes con un cómputo fijo. Además, proporcionamos orientación sobre cuándo elegir una arquitectura basada en CNN o una basada en ViT para el entrenamiento de CLIP. Comparamos cuatro estrategias de entrenamiento de CLIP —SLIP, FLIP, CLIP y CLIP+Aumento de Datos— y mostramos que la elección de la estrategia de entrenamiento depende de los recursos computacionales disponibles. Nuestro análisis revela que CLIP+Aumento de Datos puede lograr un rendimiento comparable al de CLIP utilizando solo la mitad de los datos de entrenamiento. Este trabajo ofrece ideas prácticas sobre cómo entrenar e implementar modelos CLIP de manera efectiva, haciéndolos más accesibles y asequibles para su uso práctico en diversas aplicaciones.
Los recientes avances en el preentrenamiento a gran escala han dado lugar a modelos visuales fundamentales con capacidades sólidas. No solo los modelos recientes pueden generalizar a imágenes arbitrarias para su tarea de entrenamiento, sino que sus representaciones intermedias son útiles para otras tareas visuales como la detección y la segmentación. Dado que tales modelos pueden clasificar, delimitar y localizar objetos en 2D, nos preguntamos si también representan su estructura 3D. En este trabajo, analizamos la conciencia 3D de los modelos visuales fundamentales. Postulamos que la conciencia 3D implica que las representaciones (1) codifican la estructura 3D de la escena y (2) representan consistentemente la superficie a través de diferentes vistas. Realizamos una serie de experimentos utilizando sondas específicas para tareas y procedimientos de inferencia de cero disparos sobre características congeladas. Nuestros experimentos revelan varias limitaciones de los modelos actuales. Nuestro código y análisis se pueden encontrar en https://github.com/mbanani/probe3d.
Los recientes avances en la estimación de profundidad monocular han incorporado el lenguaje natural como guía adicional. Aunque estos avances han producido resultados impresionantes, el impacto del lenguaje como prior, particularmente en términos de generalización y robustez, sigue sin explorarse. En este artículo, abordamos esta brecha cuantificando el impacto de esta prior e introduciendo métodos para evaluar su efectividad en diversos escenarios. Generamos oraciones de "bajo nivel" que transmiten relaciones espaciales tridimensionales centradas en objetos, las incorporamos como prior de lenguaje adicional y evaluamos su impacto en la estimación de profundidad. Nuestro hallazgo clave es que los estimadores de profundidad guiados por lenguaje actuales funcionan de manera óptima solo con descripciones a nivel de escena y, de manera contraintuitiva, obtienen peores resultados con descripciones de bajo nivel. A pesar de aprovechar datos adicionales, estos métodos no son robustos frente a ataques adversarios dirigidos y su rendimiento disminuye con un aumento en el cambio de distribución. Finalmente, para sentar las bases de investigaciones futuras, identificamos puntos de falla y ofrecemos insights para comprender mejor estas limitaciones. Con un número creciente de métodos que utilizan el lenguaje para la estimación de profundidad, nuestros hallazgos resaltan las oportunidades y los desafíos que requieren una consideración cuidadosa para su implementación efectiva en entornos del mundo real.
El Aprendizaje por Refuerzo (RL) basado en preferencias humanas es un paradigma popular para el ajuste fino de modelos generativos, que ha producido modelos impresionantes como GPT-4 y Claude3 Opus. Este marco de trabajo suele consistir en dos pasos: aprender un modelo de recompensa a partir de un conjunto de datos de preferencias offline, seguido de la ejecución de RL en línea para optimizar el modelo de recompensa aprendido. En este trabajo, aprovechando la idea del reinicio, proponemos un nuevo algoritmo RLHF con garantías demostrables. Motivados por el hecho de que el conjunto de datos de preferencias offline proporciona estados informativos (es decir, datos preferidos por los etiquetadores), nuestro nuevo algoritmo, Optimización de Políticas con Reinicio de Conjunto de Datos (DR-PO), integra el conjunto de datos de preferencias offline existente en el procedimiento de entrenamiento de políticas en línea mediante el reinicio del conjunto de datos: reinicia directamente el optimizador de políticas a los estados en el conjunto de datos offline, en lugar de comenzar siempre desde la distribución de estados inicial. Teóricamente, demostramos que DR-PO aprende a desempeñarse al menos tan bien como cualquier política cubierta por el conjunto de datos offline bajo aproximación de funciones generales con complejidad de muestra finita. En los experimentos, demostramos que tanto en la tarea de resumen TL;DR como en el conjunto de datos Anthropic Helpful Harmful (HH), la generación de DR-PO es mejor que la de Optimización de Políticas Proximal (PPO) y la Optimización de Preferencias Direccionales (DPO), según la métrica de tasa de victoria de GPT4. El código de este trabajo se puede encontrar en https://github.com/Cornell-RL/drpo.
Los últimos enfoques regularizados de Neural Radiance Field (NeRF) producen geometrías deficientes y extrapolaciones de vista en benchmarks de estereoscopía multivista (MVS) como ETH3D. En este artículo, nuestro objetivo es crear modelos 3D que proporcionen geometría precisa y síntesis de vistas, reduciendo parcialmente la gran brecha de rendimiento geométrico entre NeRF y los métodos tradicionales de MVS. Proponemos un enfoque basado en parches que aprovecha eficazmente las predicciones monoscópicas de normales de superficie y profundidad relativa. El muestreo de rayos basado en parches también permite la regularización de la apariencia mediante la correlación cruzada normalizada (NCC) y la similitud estructural (SSIM) entre vistas virtuales y de entrenamiento muestreadas aleatoriamente. Además, demostramos que las "restricciones de densidad" basadas en puntos escasos de estructura a partir de movimiento pueden mejorar significativamente la precisión geométrica con una ligera disminución en las métricas de síntesis de vistas novedosas. Nuestros experimentos muestran un rendimiento 4 veces superior al de RegNeRF y 8 veces al de FreeNeRF en la métrica promedio F1@2cm para el benchmark ETH3D MVS, lo que sugiere una dirección de investigación prometedora para mejorar la precisión geométrica de los modelos basados en NeRF, y arroja luz sobre un enfoque futuro potencial que permita que la optimización basada en NeRF supere eventualmente a los métodos tradicionales de MVS.