Artículos de investigación en IA seleccionados diariamente con traducciones
Los modelos de lenguaje de gran escala (LLMs) y los modelos de visión-lenguaje (VLMs) han demostrado sobresalir en múltiples tareas, como el razonamiento de sentido común. Aunque estos modelos pueden ser muy potentes, no están fundamentados en el mundo físico 3D, que involucra conceptos más ricos como relaciones espaciales, affordances, física, disposición, entre otros. En este trabajo, proponemos inyectar el mundo 3D en los modelos de lenguaje de gran escala e introducir una nueva familia de 3D-LLMs. Específicamente, los 3D-LLMs pueden tomar nubes de puntos 3D y sus características como entrada y realizar un conjunto diverso de tareas relacionadas con 3D, incluyendo generación de descripciones, descripciones densas, preguntas y respuestas en 3D, descomposición de tareas, anclaje en 3D, diálogo asistido por 3D, navegación, entre otros. Utilizando tres tipos de mecanismos de prompting que diseñamos, hemos logrado recopilar más de 300k datos de lenguaje-3D que cubren estas tareas. Para entrenar eficientemente los 3D-LLMs, primero utilizamos un extractor de características 3D que obtiene características 3D a partir de imágenes renderizadas de múltiples vistas. Luego, usamos VLMs 2D como nuestra base para entrenar nuestros 3D-LLMs. Al introducir un mecanismo de localización 3D, los 3D-LLMs pueden capturar mejor la información espacial 3D. Los experimentos en ScanQA muestran que nuestro modelo supera a los baselines de última generación por un amplio margen (por ejemplo, el puntaje BLEU-1 supera al puntaje de última generación en un 9%). Además, los experimentos en nuestros conjuntos de datos retenidos para generación de descripciones 3D, composición de tareas y diálogo asistido por 3D muestran que nuestro modelo supera a los VLMs 2D. Ejemplos cualitativos también muestran que nuestro modelo podría realizar más tareas más allá del alcance de los LLMs y VLMs existentes. Página del proyecto: https://vis-www.cs.umass.edu/3dllm/.
Los modelos de lenguaje preentrenados a gran escala (LLMs, por sus siglas en inglés) han logrado recientemente una mejor generalización y eficiencia en muestras para la navegación web autónoma. Sin embargo, el rendimiento en sitios web del mundo real aún se ha visto afectado por (1) la apertura del dominio, (2) la longitud limitada del contexto y (3) la falta de sesgo inductivo en HTML. Presentamos WebAgent, un agente impulsado por LLM que puede completar tareas en sitios web reales siguiendo instrucciones en lenguaje natural. WebAgent planifica descomponiendo las instrucciones en subinstrucciones canónicas, resume documentos HTML largos en fragmentos relevantes para la tarea y actúa en los sitios web mediante programas Python generados a partir de estos. Diseñamos WebAgent con Flan-U-PaLM, para la generación de código fundamentado, y HTML-T5, nuevos LLMs preentrenados para documentos HTML largos que utilizan mecanismos de atención local y global y una mezcla de objetivos de desenmascaramiento de larga duración, para planificación y resumen. Demostramos empíricamente que nuestra receta mejora el éxito en un sitio web real en más del 50%, y que HTML-T5 es el mejor modelo para resolver tareas basadas en HTML; logrando una tasa de éxito un 14.9% mayor que el estado del arte anterior en el benchmark de navegación web MiniWoB y una mejor precisión en la evaluación de planificación de tareas fuera de línea.
Una frontera poco explorada en la generación y edición de imágenes es la tarea de interpolar entre dos imágenes de entrada, una característica ausente en todas las pipelines de generación de imágenes actualmente implementadas. Argumentamos que esta funcionalidad puede ampliar las aplicaciones creativas de dichos modelos, y proponemos un método para la interpolación en modo zero-shot utilizando modelos de difusión latente. Aplicamos la interpolación en el espacio latente en una secuencia de niveles de ruido decrecientes, luego realizamos un proceso de eliminación de ruido condicionado por embeddings de texto interpolados derivados de inversión textual y (opcionalmente) poses del sujeto. Para mayor consistencia, o para especificar criterios adicionales, podemos generar varios candidatos y utilizar CLIP para seleccionar la imagen de mayor calidad. Obtenemos interpolaciones convincentes en diversas poses de sujetos, estilos de imagen y contenido de imagen, y demostramos que métricas cuantitativas estándar como FID son insuficientes para medir la calidad de una interpolación. El código y los datos están disponibles en https://clintonjwang.github.io/interpolation.
Los modelos de lenguaje grande (LLM, por sus siglas en inglés) han demostrado ser altamente versátiles, capaces de resolver una amplia gama de tareas generativas, como la resumen abstractivo y la respuesta a preguntas de respuesta abierta. En este artículo, ampliamos las capacidades de los LLM al adjuntar directamente un pequeño codificador de audio que le permite realizar reconocimiento de voz. Al anteponer directamente una secuencia de incrustaciones auditivas a las incrustaciones de tokens de texto, el LLM puede convertirse en un sistema de reconocimiento automático del habla (ASR, por sus siglas en inglés) y utilizarse de la misma manera que su contraparte textual. Los experimentos en Multilingual LibriSpeech (MLS) muestran que la incorporación de un codificador conformer en el LLaMA-7B de código abierto le permite superar los baselines monolingües en un 18% y realizar reconocimiento de voz multilingüe, a pesar de que LLaMA fue entrenado predominantemente con texto en inglés. Además, realizamos estudios de ablación para investigar si el LLM puede congelarse por completo durante el entrenamiento para mantener sus capacidades originales, escalar el codificador de audio y aumentar el paso del codificador de audio para generar menos incrustaciones. Los resultados de estos estudios muestran que el ASR multilingüe es posible incluso cuando el LLM está congelado o cuando se utilizan pasos de casi 1 segundo en el codificador de audio, lo que abre la posibilidad de que los LLM operen en audio de larga duración.
Con ChatGPT como representante, numerosas empresas han comenzado a ofrecer servicios basados en modelos grandes de Transformers. Sin embargo, el uso de dichos servicios inevitablemente expone las indicaciones de los usuarios al proveedor del modelo. Estudios previos han explorado la inferencia segura para modelos Transformer utilizando computación multipartita segura (MPC), donde tanto los parámetros del modelo como las indicaciones de los clientes se mantienen en secreto. A pesar de esto, estos marcos siguen siendo limitados en términos de rendimiento del modelo, eficiencia y despliegue. Para abordar estas limitaciones, proponemos el marco PUMA, que permite una inferencia rápida y segura en modelos Transformer. Nuestro marco diseña aproximaciones de alta calidad para funciones costosas, como GeLU y Softmax, lo que reduce significativamente el costo de la inferencia segura mientras se preserva el rendimiento del modelo. Además, diseñamos procedimientos seguros para Embedding y LayerNorm que implementan fielmente la funcionalidad deseada sin comprometer la arquitectura Transformer. PUMA es aproximadamente 2 veces más rápido que el marco MPC de última generación MPCFORMER (ICLR 2023) y tiene una precisión similar a los modelos en texto plano sin necesidad de ajuste fino (algo que los trabajos anteriores no lograron alcanzar). Otro aspecto destacable es que PUMA puede evaluar LLaMA-7B en aproximadamente 5 minutos para generar 1 token. Hasta donde sabemos, esta es la primera vez que un modelo con un tamaño de parámetros tan grande puede ser evaluado bajo MPC. PUMA ha sido publicado como código abierto en el repositorio de GitHub de SecretFlow-SPU.
A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) realizan tareas más complejas, se vuelve más difícil verificar la corrección y seguridad de su comportamiento. Un enfoque para abordar este problema es solicitar a los LLMs que externalicen su razonamiento, por ejemplo, pidiéndoles que generen un razonamiento paso a paso mientras responden una pregunta (Cadena de Pensamiento; CoT, por sus siglas en inglés). Este razonamiento podría permitirnos verificar el proceso que los modelos utilizan para realizar tareas. Sin embargo, este enfoque depende de que el razonamiento declarado refleje fielmente el razonamiento real del modelo, lo cual no siempre ocurre. Para mejorar la fidelidad del razonamiento CoT, hacemos que los modelos generen razonamiento descomponiendo las preguntas en subpreguntas. Los métodos basados en descomposición logran un rendimiento sólido en tareas de respuesta a preguntas, a veces acercándose al de CoT mientras mejoran la fidelidad del razonamiento declarado del modelo según varias métricas propuestas recientemente. Al obligar al modelo a responder subpreguntas más simples en contextos separados, aumentamos significativamente la fidelidad del razonamiento generado por el modelo en comparación con CoT, al mismo tiempo que conservamos parte de las mejoras de rendimiento de CoT. Nuestros resultados muestran que es posible mejorar la fidelidad del razonamiento generado por los modelos; continuas mejoras podrían llevar a un razonamiento que nos permita verificar la corrección y seguridad del comportamiento de los LLMs.
Los modelos de lenguaje modernos capturan un amplio conjunto de conocimientos factuales. Sin embargo, algunos hechos pueden ser inducidos incorrectamente o volverse obsoletos con el tiempo, lo que resulta en generaciones factualmente incorrectas. Esto ha llevado al desarrollo de diversos métodos de edición que permiten actualizar los hechos codificados por el modelo. La evaluación de estos métodos se ha centrado principalmente en comprobar si un hecho individual se ha inyectado con éxito y si las predicciones similares para otros sujetos no han cambiado. Aquí argumentamos que dicha evaluación es limitada, ya que inyectar un hecho (por ejemplo, "Jack Depp es el hijo de Johnny Depp") introduce un "efecto dominó" en forma de hechos adicionales que el modelo necesita actualizar (por ejemplo, "Jack Depp es el hermano de Lily-Rose Depp"). Para abordar este problema, proponemos un nuevo conjunto de criterios de evaluación que consideran las implicaciones de una edición en hechos relacionados. Utilizando estos criterios, construimos un punto de referencia diagnóstico de 5K ediciones factuales, capturando una variedad de tipos de efectos dominó. Evaluamos métodos de edición destacados en este punto de referencia, mostrando que los métodos actuales no logran introducir cambios consistentes en el conocimiento del modelo. Además, encontramos que una línea base simple de edición en contexto obtiene los mejores puntajes en nuestro punto de referencia, sugiriendo una dirección prometedora de investigación para la edición de modelos.
Proponemos Aprendizaje por Refuerzo a partir de Distilación de Contraste (RLCD, por sus siglas en inglés), un método para alinear modelos de lenguaje con el fin de seguir principios de lenguaje natural sin utilizar retroalimentación humana. RLCD entrena un modelo de preferencias utilizando pares de preferencias simulados que contienen tanto un ejemplo de alta calidad como uno de baja calidad, generados mediante indicaciones positivas y negativas contrastantes. Este modelo de preferencias se utiliza luego para mejorar un modelo de lenguaje base no alineado mediante aprendizaje por refuerzo. Empíricamente, RLCD supera a los baselines de RLAIF (Bai et al., 2022b) y distilación de contexto (Huang et al., 2022) en tres tareas de alineación diversas: inocuidad, utilidad y generación de esquemas de historias, tanto en escalas de modelos de 7B como de 30B para la simulación de datos de preferencias.
Este artículo cuestiona el paradigma bien establecido para construir redes de cualquier a cualquier (any-to-any) para entrenar Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés). Demostramos que los LLMs exhiben un patrón de comunicación único en el que solo pequeños grupos de GPUs requieren comunicación de alto ancho de banda de cualquier a cualquier dentro de ellos, para alcanzar un rendimiento de entrenamiento casi óptimo. Entre estos grupos de GPUs, la comunicación es insignificante, dispersa y homogénea. Proponemos una nueva arquitectura de red que se ajusta estrechamente a los requisitos de comunicación de los LLMs. Nuestra arquitectura divide el clúster en conjuntos de GPUs interconectadas con enlaces de cualquier a cualquier de alto ancho de banda no bloqueantes, a los que denominamos dominios HB. Entre los dominios HB, la red solo conecta las GPUs con demandas de comunicación. Llamamos a esta conexión una conexión "solo riel" (rail-only), y demostramos que nuestra arquitectura propuesta reduce el costo de la red hasta en un 75% en comparación con las redes Clos de cualquier a cualquier más avanzadas, sin comprometer el rendimiento del entrenamiento de LLMs.
El aprendizaje autosupervisado de representaciones visuales se ha centrado en aprender características de contenido, las cuales no capturan el movimiento o la ubicación de los objetos, sino que se enfocan en identificar y diferenciar objetos en imágenes y videos. Por otro lado, la estimación de flujo óptico es una tarea que no implica comprender el contenido de las imágenes sobre las cuales se estima. Unificamos ambos enfoques y presentamos MC-JEPA, una arquitectura predictiva de incrustación conjunta y un método de aprendizaje autosupervisado para aprender conjuntamente el flujo óptico y las características de contenido dentro de un codificador compartido, demostrando que los dos objetivos asociados; el objetivo de estimación de flujo óptico y el objetivo de aprendizaje autosupervisado; se benefician mutuamente y, por lo tanto, aprenden características de contenido que incorporan información de movimiento. El enfoque propuesto logra un rendimiento comparable con los puntos de referencia existentes de flujo óptico no supervisado, así como con los enfoques comunes de aprendizaje autosupervisado en tareas posteriores, como la segmentación semántica de imágenes y videos.
Los modelos tipo DETR han impulsado significativamente el rendimiento de los detectores e incluso han superado a los modelos convolucionales clásicos. Sin embargo, tratar todos los tokens por igual sin discriminación genera una carga computacional redundante en la estructura tradicional del codificador. Las estrategias recientes de esparsificación aprovechan un subconjunto de tokens informativos para reducir la complejidad de la atención, manteniendo el rendimiento a través del codificador disperso. Pero estos métodos tienden a depender de estadísticas del modelo poco confiables. Además, simplemente reducir la población de tokens perjudica en gran medida el rendimiento de la detección, limitando la aplicación de estos modelos dispersos. Proponemos Focus-DETR, que centra la atención en tokens más informativos para lograr un mejor equilibrio entre la eficiencia computacional y la precisión del modelo. Específicamente, reconstruimos el codificador con atención dual, que incluye un mecanismo de puntuación de tokens que considera tanto la localización como la información semántica de categoría de los objetos a partir de mapas de características multi-escala. Abandonamos eficientemente las consultas de fondo y mejoramos la interacción semántica de las consultas de objetos de grano fino basándonos en las puntuaciones. En comparación con los detectores dispersos tipo DETR más avanzados en la misma configuración, nuestro Focus-DETR obtiene una complejidad comparable mientras alcanza 50.4 AP (+2.2) en COCO. El código está disponible en https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR y https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
La predicción de actividades a largo plazo es un problema de investigación especialmente desafiante porque requiere comprender las relaciones temporales entre las acciones observadas, así como la variabilidad y complejidad de las actividades humanas. A pesar de depender de una supervisión fuerte mediante anotaciones humanas costosas, los enfoques de predicción de última generación a menudo generalizan pobremente a datos no vistos. Para mitigar este problema, proponemos Multiscale Video Pretraining (MVP), un novedoso enfoque de preentrenamiento autosupervisado que aprende representaciones robustas para la predicción al aprender a predecir representaciones contextualizadas de clips de video futuros en múltiples escalas temporales. MVP se basa en nuestra observación de que las acciones en los videos tienen una naturaleza multiescala, donde las acciones atómicas típicamente ocurren en una escala de tiempo corta y acciones más complejas pueden abarcar escalas de tiempo más largas. Comparamos MVP con enfoques de aprendizaje de video autosupervisado de última generación en tareas de predicción a largo plazo, incluyendo la anticipación de acciones a largo plazo y la predicción de resúmenes de video. Nuestros experimentos exhaustivos en los conjuntos de datos Ego4D y Epic-Kitchens-55/100 demuestran que MVP supera a los métodos de última generación por márgenes significativos. Notablemente, MVP obtiene una mejora relativa de más del 20% en precisión en la predicción de resúmenes de video sobre los métodos existentes.