Artículos de investigación en IA seleccionados diariamente con traducciones
La destilación de conocimiento (KD, por sus siglas en inglés) se utiliza ampliamente para comprimir un modelo maestro con el fin de reducir su costo de inferencia y huella de memoria, entrenando un modelo estudiante más pequeño. Sin embargo, los métodos actuales de KD para modelos de secuencias auto-regresivos sufren de un desajuste en la distribución entre las secuencias de salida observadas durante el entrenamiento y aquellas generadas por el estudiante durante la inferencia. Para abordar este problema, introducimos la Destilación de Conocimiento Generalizada (GKD, por sus siglas en inglés). En lugar de depender únicamente de un conjunto fijo de secuencias de salida, GKD entrena al estudiante en sus propias secuencias de salida generadas, aprovechando la retroalimentación del maestro sobre dichas secuencias. A diferencia de los enfoques de KD supervisados, GKD también ofrece la flexibilidad de emplear funciones de pérdida alternativas entre el estudiante y el maestro, lo que puede ser útil cuando el estudiante carece de la capacidad expresiva para imitar la distribución del maestro. Además, GKD facilita la integración fluida de la destilación con el ajuste fino mediante aprendizaje por refuerzo (RLHF). Demostramos la eficacia de GKD para destilar modelos de lenguaje auto-regresivos en tareas de resumen, traducción y razonamiento aritmético, así como en la destilación independiente de tareas para el ajuste por instrucciones.
Los modelos de lenguaje aumentados con recuperación (LMs) han recibido mucha atención recientemente. Sin embargo, normalmente el recuperador no se entrena de manera conjunta como un componente nativo del LM, sino que se añade a un LM ya preentrenado, lo que limita la capacidad del LM y el recuperador para adaptarse mutuamente. En este trabajo, proponemos el Transformer Preentrenado con Recuperación (RPT), una arquitectura y procedimiento de entrenamiento para entrenar conjuntamente un LM aumentado con recuperación desde cero para la tarea de modelar textos largos. Dado un fragmento de texto recientemente generado en un documento extenso, el LM calcula representaciones de consulta, que luego se utilizan para recuperar fragmentos anteriores en el documento, ubicados potencialmente decenas de miles de tokens antes. La información de los fragmentos recuperados se fusiona en las representaciones del LM para predecir el siguiente fragmento objetivo. Entrenamos el componente de recuperación con un objetivo semántico, donde la meta es recuperar fragmentos que aumenten la probabilidad del siguiente fragmento, según un LM de referencia. Evaluamos RPT en cuatro tareas de modelado de lenguaje de largo alcance, que abarcan libros, código y escritura matemática, y demostramos que RPT mejora la calidad de la recuperación y, en consecuencia, la perplejidad en general en comparación con líneas base sólidas.
Con el auge de los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) y su despliegue omnipresente en diversos dominios, es imperativo medir el comportamiento de estos modelos en datos realistas. Por ejemplo, una empresa que implementa un chatbot orientado al cliente debe asegurarse de que el modelo no responda a las solicitudes de los clientes con lenguaje soez. Las evaluaciones actuales abordan este problema utilizando conjuntos de datos pequeños y específicos del dominio, con etiquetas curadas por humanos. Estos conjuntos de evaluación suelen estar muestreados de una distribución estrecha y simplificada, y las fuentes de datos pueden filtrarse inadvertidamente en el conjunto de entrenamiento, lo que puede llevar a evaluaciones engañosas. Para sortear estos inconvenientes, proponemos un marco para la evaluación autosupervisada de LLMs mediante el análisis de su sensibilidad o invariancia a transformaciones en el texto de entrada. La evaluación autosupervisada puede monitorear directamente el comportamiento de los LLMs en conjuntos de datos recopilados en entornos reales o transmitidos durante el despliegue en vivo del modelo. Demostramos estrategias de evaluación autosupervisada para medir el conocimiento de memoria cerrada, la toxicidad y la dependencia de contexto de largo alcance, además de la sensibilidad a la estructura gramatical y los errores de tokenización. Cuando se dispone de comparaciones con puntos de referencia similares etiquetados por humanos, encontramos fuertes correlaciones entre las evaluaciones autosupervisadas y las supervisadas por humanos. El paradigma autosupervisado complementa las estrategias de evaluación actuales que dependen de datos etiquetados.
En este trabajo revisitamos el bloque fundamental más básico del aprendizaje profundo, el perceptrón multicapa (MLP), y estudiamos los límites de su rendimiento en tareas de visión. Las perspectivas empíricas sobre los MLPs son importantes por múltiples razones. (1) Dada la narrativa reciente de que "menos sesgo inductivo es mejor", popularizada debido a que los transformadores han eclipsado a los modelos convolucionales, es natural explorar los límites de esta hipótesis. En ese sentido, los MLPs ofrecen un banco de pruebas ideal, ya que están completamente libres de cualquier sesgo inductivo. (2) Los MLPs han sido casi exclusivamente los protagonistas principales en la literatura teórica del aprendizaje profundo debido a su simplicidad matemática, sirviendo como un proxy para explicar fenómenos empíricos observados en arquitecturas más complejas. Sorprendentemente, los puntos de datos experimentales para MLPs son muy difíciles de encontrar en la literatura, especialmente cuando se combinan con protocolos de preentrenamiento a gran escala. Esta discrepancia entre la práctica y la teoría es preocupante: ¿Reflejan los MLPs los avances empíricos exhibidos por los modelos prácticos? ¿O los teóricos necesitan reconsiderar el papel de los MLPs como proxy? Ofrecemos perspectivas sobre ambos aspectos. Mostramos que el rendimiento de los MLPs mejora drásticamente con la escala (93% en CIFAR10, 79% en CIFAR100, 69% en TinyImageNet), destacando que la falta de sesgo inductivo puede compensarse. Observamos que los MLPs imitan fielmente el comportamiento de sus contrapartes modernas, aunque algunos componentes en el entorno de aprendizaje exhiben comportamientos más fuertes o inesperados. Debido a su eficiencia computacional inherente, los experimentos de preentrenamiento a gran escala se vuelven más accesibles para los investigadores académicos. Todos nuestros experimentos se ejecutaron en una sola GPU.
Presentamos la tarea de segmentación de instancias 3D de vocabulario abierto. Los enfoques tradicionales para la segmentación de instancias 3D dependen en gran medida de conjuntos de datos 3D anotados existentes, los cuales están limitados a un conjunto cerrado de categorías de objetos. Esta es una limitación importante para aplicaciones de la vida real, donde podría ser necesario realizar tareas guiadas por consultas novedosas de vocabulario abierto relacionadas con objetos de una amplia variedad. Recientemente, han surgido métodos de comprensión de escenas 3D de vocabulario abierto para abordar este problema, aprendiendo características consultables por cada punto en la escena. Si bien dicha representación puede emplearse directamente para realizar segmentación semántica, los métodos existentes tienen limitaciones en su capacidad para identificar instancias de objetos. En este trabajo, abordamos esta limitación y proponemos OpenMask3D, un enfoque de cero-shot para la segmentación de instancias 3D de vocabulario abierto. Guiado por máscaras de instancias 3D agnósticas a la clase predichas, nuestro modelo agrega características por máscara mediante la fusión multi-vista de incrustaciones de imágenes basadas en CLIP. Realizamos experimentos y estudios de ablación en el conjunto de datos ScanNet200 para evaluar el rendimiento de OpenMask3D y proporcionamos insights sobre la tarea de segmentación de instancias 3D de vocabulario abierto. Demostramos que nuestro enfoque supera a otras contrapartes de vocabulario abierto, particularmente en la distribución de cola larga. Además, OpenMask3D va más allá de las limitaciones de los enfoques de vocabulario cerrado y permite la segmentación de instancias de objetos basada en consultas de forma libre que describen propiedades de los objetos, como semántica, geometría, affordances y propiedades de los materiales.
La retroalimentación en lenguaje natural (LN) contiene información valiosa sobre la experiencia del usuario. Los estudios existentes se centran en un enfoque a nivel de instancia, donde la retroalimentación se utiliza para refinar ejemplos específicos, ignorando su aplicación a nivel del sistema. Este artículo propone un marco general para aprovechar el uso de la retroalimentación en LN a nivel del sistema. Mostramos cómo utilizar la retroalimentación para formalizar decisiones de diseño a nivel del sistema en un proceso con intervención humana, con el fin de producir mejores modelos. En particular, esto se logra mediante: (i) el diseño de métricas para tareas; y (ii) el diseño de prompts para modelos de lenguaje con el fin de refinar las respuestas del modelo. Realizamos dos estudios de caso de este enfoque para mejorar la generación de consultas de búsqueda y la generación de respuestas en diálogos, demostrando la efectividad del uso de la retroalimentación a nivel del sistema. Mostramos que la combinación de retroalimentación a nivel del sistema y a nivel de instancia aporta beneficios adicionales, y que la retroalimentación escrita por humanos a nivel de instancia resulta en refinamientos más fundamentados que los escritos por GPT-3.5, destacando la importancia de la retroalimentación humana para la construcción de sistemas.
Los campos neuronales han logrado avances impresionantes en la síntesis de vistas y la reconstrucción de escenas. Sin embargo, editar estos campos neuronales sigue siendo un desafío debido a la codificación implícita de la geometría y la información de textura. En este artículo, proponemos DreamEditor, un marco novedoso que permite a los usuarios realizar ediciones controladas de campos neuronales utilizando indicaciones de texto. Al representar las escenas como campos neuronales basados en mallas, DreamEditor permite ediciones localizadas dentro de regiones específicas. DreamEditor utiliza el codificador de texto de un modelo de difusión de texto a imagen preentrenado para identificar automáticamente las regiones que deben editarse según la semántica de las indicaciones de texto. Posteriormente, DreamEditor optimiza la región de edición y alinea su geometría y textura con las indicaciones de texto mediante muestreo de destilación de puntuación [29]. Experimentos exhaustivos han demostrado que DreamEditor puede editar con precisión los campos neuronales de escenas del mundo real según las indicaciones de texto dadas, asegurando la consistencia en áreas irrelevantes. DreamEditor genera texturas y geometrías altamente realistas, superando significativamente trabajos anteriores tanto en evaluaciones cuantitativas como cualitativas.