Artículos de investigación en IA seleccionados diariamente con traducciones
Presentamos la Interpolación de Posición (PI), que extiende los tamaños de ventana de contexto de modelos de lenguaje preentrenados basados en RoPE, como los modelos LLaMA, hasta 32768 con un ajuste fino mínimo (dentro de 1000 pasos), mientras demuestra resultados empíricos sólidos en diversas tareas que requieren contexto extenso, incluyendo la recuperación de claves, modelado de lenguaje y resumen de documentos largos desde LLaMA 7B hasta 65B. Además, el modelo extendido mediante Interpolación de Posición conserva relativamente bien la calidad en tareas dentro de su ventana de contexto original. Para lograr este objetivo, la Interpolación de Posición reduce linealmente los índices de posición de entrada para que coincidan con el tamaño original de la ventana de contexto, en lugar de extrapolar más allá de la longitud de contexto entrenada, lo que podría generar puntuaciones de atención catastróficamente altas que arruinarían por completo el mecanismo de auto-atención. Nuestro estudio teórico muestra que el límite superior de la interpolación es al menos ∼600 veces menor que el de la extrapolación, lo que demuestra aún más su estabilidad. Los modelos extendidos mediante Interpolación de Posición conservan su arquitectura original y pueden reutilizar la mayoría de las optimizaciones e infraestructuras preexistentes.
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han mostrado potencial para demostrar teoremas formales utilizando asistentes de pruebas como Lean. Sin embargo, los métodos existentes son difíciles de reproducir o ampliar debido a código privado, datos y grandes requisitos de cómputo. Esto ha creado barreras significativas para la investigación sobre métodos de aprendizaje automático en la demostración de teoremas. Este artículo elimina estas barreras al presentar LeanDojo: un entorno de desarrollo abierto para Lean que incluye herramientas, datos, modelos y puntos de referencia. LeanDojo extrae datos de Lean y permite la interacción programática con el entorno de pruebas. Contiene anotaciones detalladas de las premisas en las demostraciones, proporcionando datos valiosos para la selección de premisas: un cuello de botella clave en la demostración de teoremas. Utilizando estos datos, desarrollamos ReProver (Demostrador Aumentado con Recuperación): el primer demostrador basado en LLM que se complementa con recuperación para seleccionar premisas de una vasta biblioteca matemática. Es económico y requiere solo una semana de entrenamiento en una GPU. Nuestro recuperador aprovecha la capacidad de análisis de programas de LeanDojo para identificar premisas accesibles y ejemplos negativos difíciles, lo que hace que la recuperación sea mucho más efectiva. Además, construimos un nuevo punto de referencia que consta de 96,962 teoremas y demostraciones extraídos de la biblioteca matemática de Lean. Presenta una división de datos desafiante que requiere que el demostrador generalice teoremas que dependen de premisas novedosas que nunca se usan en el entrenamiento. Utilizamos este punto de referencia para entrenamiento y evaluación, y los resultados experimentales demuestran la efectividad de ReProver frente a líneas base sin recuperación y GPT-4. Así, proporcionamos el primer conjunto de demostradores de teoremas basados en LLM de código abierto sin ningún conjunto de datos propietario y lo publicamos bajo una licencia permisiva MIT para facilitar futuras investigaciones.
El trabajo reciente CLIPA presenta una ley de escala inversa para el entrenamiento de CLIP, según la cual cuanto más grandes son los codificadores de imagen/texto utilizados, menor es la longitud de secuencia de tokens de imagen/texto que se puede aplicar en el entrenamiento. Este hallazgo nos permite entrenar modelos CLIP de alto rendimiento con un cálculo significativamente reducido. Basándonos en este trabajo, presentamos CLIPA-v2 con dos contribuciones clave. Técnicamente, encontramos que esta ley de escala inversa también es aplicable en la etapa de ajuste fino, permitiendo una mayor reducción en las necesidades computacionales. Empíricamente, exploramos CLIPA a gran escala, extendiendo los experimentos hasta el modelo H/14 con aproximadamente 13B pares de imagen-texto vistos durante el entrenamiento. Nuestros resultados son emocionantes: al asignar un presupuesto de solo \$10,000, nuestro modelo CLIP logra una impresionante precisión de cero disparos en ImageNet del 81.1%, superando el mejor modelo CLIP anterior (de OpenCLIP, 80.1%) en un 1.0% y reduciendo simultáneamente el costo computacional en aproximadamente 39 veces. Además, con una inversión adicional de \$4,000, podemos elevar aún más la precisión de cero disparos en ImageNet al 81.8%. Nuestro código y modelos están disponibles en https://github.com/UCSC-VLAA/CLIPA.
La estimación de la pose de la cámara es un problema clásico en visión por computadora que, hasta la fecha, a menudo depende de métodos tradicionales, como la coincidencia de puntos clave diseñados manualmente, RANSAC y el ajuste de haces. En este artículo, proponemos formular el problema de Estructura a partir del Movimiento (SfM) dentro de un marco de difusión probabilística, modelando la distribución condicional de las poses de la cámara dadas las imágenes de entrada. Esta nueva perspectiva de un problema antiguo ofrece varias ventajas: (i) La naturaleza del marco de difusión refleja el procedimiento iterativo del ajuste de haces. (ii) La formulación permite una integración fluida de restricciones geométricas derivadas de la geometría epipolar. (iii) Sobresale en escenarios típicamente difíciles, como vistas escasas con líneas base amplias. (iv) El método puede predecir parámetros intrínsecos y extrínsecos para una cantidad arbitraria de imágenes. Demostramos que nuestro método, PoseDiffusion, mejora significativamente respecto a las pipelines clásicas de SfM y los enfoques basados en aprendizaje en dos conjuntos de datos del mundo real. Finalmente, se observa que nuestro método puede generalizar entre conjuntos de datos sin necesidad de entrenamiento adicional. Página del proyecto: https://posediffusion.github.io/
Desentrañar información no correlacionada en las expresiones orales es un tema de investigación crucial dentro de la comunidad de procesamiento del habla. Diferentes tareas relacionadas con el habla se centran en extraer representaciones del habla distintas mientras se minimiza el impacto de otra información no correlacionada. Presentamos un corpus de habla a gran escala para facilitar la investigación sobre el desentrelazamiento de representaciones del habla. 3D-Speaker contiene más de 10,000 hablantes, cada uno de los cuales es grabado simultáneamente por múltiples dispositivos, ubicados a diferentes distancias, y algunos hablantes utilizan múltiples dialectos. Las combinaciones controladas de datos de audio multidimensionales generan una matriz de una mezcla diversa de entrelazamiento de representaciones del habla, lo que motiva métodos interesantes para desentrañarlas. La naturaleza multidominio de 3D-Speaker también lo convierte en un recurso adecuado para evaluar modelos universales de habla a gran escala y experimentar con métodos de aprendizaje fuera de dominio y aprendizaje autosupervisado. https://3dspeaker.github.io/
Muchas tareas de predicción densa píxel a píxel, como la estimación de profundidad y la segmentación semántica en visión por computadora, dependen actualmente de representaciones de imágenes preentrenadas. Por lo tanto, la creación de conjuntos de datos de preentrenamiento efectivos es crucial. Desafortunadamente, los conjuntos de datos de preentrenamiento efectivos son aquellos con escenas de múltiples vistas y solo se han creado utilizando mallas 3D anotadas, nubes de puntos y parámetros de cámara de entornos simulados. Proponemos un mecanismo de creación de conjuntos de datos que no requiere ninguna anotación. Extraemos dos conjuntos de datos: MIMIC-1M con 1.3 millones y MIMIC-3M con 3.1 millones de pares de imágenes de múltiples vistas, obtenidos de conjuntos de datos de video de código abierto y de entornos 3D sintéticos. Entrenamos múltiples modelos auto-supervisados con diferentes objetivos de modelado de imágenes enmascaradas para demostrar los siguientes hallazgos: Las representaciones entrenadas en MIMIC-3M superan a las extraídas utilizando anotaciones en múltiples tareas posteriores, incluyendo la estimación de profundidad, la segmentación semántica, las normales de superficie y la estimación de pose. También superan a las representaciones que están congeladas y cuando los datos de entrenamiento posteriores se limitan a pocos ejemplos. Un conjunto de datos más grande (MIMIC-3M) mejora significativamente el rendimiento, lo cual es prometedor ya que nuestro método de creación puede escalar arbitrariamente para producir conjuntos de datos aún más grandes. El código de MIMIC, el conjunto de datos y los modelos preentrenados están disponibles en https://github.com/RAIVNLab/MIMIC.
El aprendizaje en contexto (ICL, por sus siglas en inglés) mejora el rendimiento de los modelos de lenguaje en una variedad de tareas de PLN simplemente mostrando unos pocos ejemplos durante el tiempo de inferencia. No se comprende bien por qué surge la capacidad de ICL, ya que el modelo nunca ha sido entrenado específicamente en tales demostraciones. A diferencia de trabajos previos que exploran los mecanismos implícitos detrás del ICL, nosotros estudiamos el ICL investigando los datos de preentrenamiento. Específicamente, primero adaptamos un enfoque iterativo basado en gradientes para encontrar un subconjunto pequeño de datos de preentrenamiento que respalda el ICL. Observamos que un preentrenamiento continuado en este pequeño subconjunto mejora significativamente la capacidad de ICL del modelo, hasta en un 18%. Luego, comparamos este subconjunto de apoyo de manera contrastiva con subconjuntos aleatorios de datos de preentrenamiento y descubrimos: (1) Los datos de preentrenamiento que respaldan el ICL no tienen una mayor relevancia de dominio con respecto a las tareas posteriores. (2) Los datos de preentrenamiento de apoyo contienen una mayor cantidad de tokens raros y de cola larga. (3) Los datos de preentrenamiento de apoyo son ejemplos desafiantes donde la ganancia de información del contexto de largo alcance está por debajo del promedio, lo que indica que aprender a incorporar contextos de largo alcance difíciles fomenta el ICL. Nuestro trabajo da un primer paso hacia la comprensión del ICL mediante el análisis de datos de preentrenamiento a nivel de instancia. Nuestros hallazgos tienen el potencial de mejorar la capacidad de ICL de los modelos de lenguaje al guiar activamente la construcción de datos de preentrenamiento en el futuro.
Los grandes modelos de lenguaje ahora están ajustados para alinearse con los objetivos de sus creadores, específicamente para ser "útiles e inofensivos". Estos modelos deben responder de manera útil a las preguntas de los usuarios, pero rechazar solicitudes que podrían causar daño. Sin embargo, los usuarios adversarios pueden construir entradas que eluden los intentos de alineación. En este trabajo, estudiamos hasta qué punto estos modelos permanecen alineados, incluso cuando interactúan con un usuario adversario que construye entradas de peor caso (ejemplos adversarios). Estas entradas están diseñadas para hacer que el modelo emita contenido dañino que de otro modo estaría prohibido. Mostramos que los ataques de optimización basados en PLN existentes no son lo suficientemente potentes para atacar de manera confiable a los modelos de texto alineados: incluso cuando los ataques actuales basados en PLN fallan, podemos encontrar entradas adversarias mediante fuerza bruta. Como resultado, el fracaso de los ataques actuales no debe verse como una prueba de que los modelos de texto alineados permanecen alineados bajo entradas adversarias. Sin embargo, la tendencia reciente en los modelos de aprendizaje automático a gran escala son los modelos multimodales que permiten a los usuarios proporcionar imágenes que influyen en el texto generado. Mostramos que estos modelos pueden ser atacados fácilmente, es decir, inducidos a realizar comportamientos no alineados arbitrarios mediante perturbaciones adversarias de la imagen de entrada. Conjeturamos que los ataques mejorados de PLN pueden demostrar este mismo nivel de control adversario sobre los modelos de solo texto.
Examinamos cómo los transformadores enfrentan dos desafíos: aprender aritmética básica de números enteros y generalizar a secuencias más largas que las vistas durante el entrenamiento. Encontramos que los embeddings de posición relativa permiten la generalización de longitud para tareas simples, como la suma: modelos entrenados con números de 5 dígitos pueden realizar sumas de 15 dígitos. Sin embargo, este método falla para la multiplicación, y proponemos el "priming" del conjunto de entrenamiento: agregar algunas secuencias largas (de 10 a 50) al conjunto de entrenamiento. Demostramos que el priming permite que modelos entrenados con multiplicaciones de 5 dígitos por 3 dígitos generalicen a ejemplos de 35 por 3. También mostramos que los modelos pueden ser preparados para diferentes longitudes de generalización, y que el tamaño de la muestra de priming escala como el logaritmo del tamaño del conjunto de entrenamiento. Finalmente, discutimos posibles aplicaciones del priming más allá de la aritmética.