Artículos de investigación en IA seleccionados diariamente con traducciones
En los últimos años, se han logrado avances notables en el rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs) basados en Transformers en diversos dominios. A medida que estos LLMs se despliegan para tareas cada vez más complejas, a menudo enfrentan la necesidad de llevar a cabo procesos de razonamiento más largos o comprender contextos más amplios. En estas situaciones, el fallo en la generalización de longitud de los LLMs en secuencias largas se vuelve más evidente. La mayoría de los esquemas de preentrenamiento truncan las secuencias de entrenamiento a una longitud fija (como 2048 para LLaMa). Los LLMs suelen tener dificultades para generar textos fluidos, y mucho menos para realizar tareas posteriores, después de contextos más largos, incluso con codificación posicional relativa que está diseñada para abordar este problema. Soluciones comunes como el ajuste fino en corpus más largos a menudo implican costos de hardware y tiempo abrumadores y requieren un diseño cuidadoso del proceso de entrenamiento. Para aprovechar de manera más eficiente la capacidad de generación de los LLMs existentes, investigamos teórica y empíricamente los principales factores fuera de distribución (OOD) que contribuyen a este problema. Inspirados por este diagnóstico, proponemos una solución simple pero efectiva para la generalización de longitud sobre la marcha, LM-Infinite, que implica solo una máscara de atención en forma de Lambda y un límite de distancia, sin necesidad de actualizaciones de parámetros o aprendizaje. Encontramos que es aplicable a una variedad de LLMs que utilizan métodos de codificación posicional relativa. LM-Infinite es computacionalmente eficiente con tiempo y espacio O(n), y demuestra fluidez y calidad de generación consistentes hasta 32k tokens en los conjuntos de datos ArXiv y OpenWebText2, con una aceleración de decodificación de 2.72x. En tareas posteriores como la recuperación de claves, continúa funcionando en entradas mucho más largas que las longitudes de entrenamiento donde los modelos convencionales fallan inmediatamente.
Los modelos de lenguaje multimodal de gran escala han generado un interés significativo recientemente. Sin embargo, la mayoría de los trabajos se centran en modelos multimodales de visión y lenguaje, ofreciendo capacidades sólidas para seguir instrucciones que combinan visión y lenguaje. No obstante, sostenemos que el habla también es una modalidad importante a través de la cual los humanos interactúan con el mundo. Por lo tanto, es crucial que un asistente de propósito general sea capaz de seguir instrucciones multimodales que combinen habla y lenguaje. En este trabajo, proponemos el Modelo de Lenguaje y Habla de Gran Escala (LLaSM, por sus siglas en inglés). LLaSM es un modelo multimodal de gran escala entrenado de extremo a extremo con capacidades conversacionales entre modalidades, capaz de seguir instrucciones que combinan habla y lenguaje. Nuestros primeros experimentos muestran que LLaSM ofrece una forma más conveniente y natural para que los humanos interactúen con la inteligencia artificial. Específicamente, también publicamos un gran conjunto de datos de Seguimiento de Instrucciones de Habla, denominado LLaSM-Audio-Instructions. El código y la demostración están disponibles en https://github.com/LinkSoul-AI/LLaSM y https://huggingface.co/spaces/LinkSoul/LLaSM. El conjunto de datos LLaSM-Audio-Instructions está disponible en https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
Presentamos Jais y Jais-chat, nuevos modelos generativos abiertos de gran escala (LLMs) de última generación centrados en el árabe, tanto en su versión base como ajustada para instrucciones. Estos modelos se basan en la arquitectura de solo decodificador de GPT-3 y fueron preentrenados con una mezcla de textos en árabe e inglés, incluyendo código fuente en varios lenguajes de programación. Con 13 mil millones de parámetros, demuestran capacidades superiores de conocimiento y razonamiento en árabe en comparación con cualquier modelo abierto existente en árabe y multilingüe, según una evaluación exhaustiva. Además, los modelos son competitivos en inglés frente a modelos abiertos centrados en inglés de tamaño similar, a pesar de haber sido entrenados con mucha menos cantidad de datos en inglés. Ofrecemos una descripción detallada del entrenamiento, el ajuste, la alineación de seguridad y la evaluación de los modelos. Publicamos dos versiones abiertas del modelo: el modelo base Jais y una variante ajustada para instrucciones, Jais-chat, con el objetivo de fomentar la investigación en LLMs en árabe. Disponible en https://huggingface.co/inception-mbzuai/jais-13b-chat.
Para que los robots sean útiles fuera de los laboratorios y fábricas especializadas, necesitamos una forma de enseñarles nuevos comportamientos útiles de manera rápida. Los enfoques actuales carecen ya sea de la generalidad necesaria para incorporar nuevas tareas sin ingeniería específica para cada tarea, o bien de la eficiencia en el uso de datos para hacerlo en un tiempo que permita su uso práctico. En este trabajo exploramos el seguimiento denso como un vehículo representacional para permitir un aprendizaje más rápido y general a partir de demostraciones. Nuestro enfoque utiliza modelos Track-Any-Point (TAP) para aislar el movimiento relevante en una demostración y parametrizar un controlador de bajo nivel para reproducir este movimiento a través de cambios en la configuración de la escena. Demostramos que esto da como resultado políticas de robot robustas que pueden resolver tareas complejas de organización de objetos, como la coincidencia de formas, apilamiento, e incluso tareas completas de seguimiento de trayectorias, como aplicar pegamento y unir objetos, todo a partir de demostraciones que pueden recopilarse en minutos.
WeatherBench 2 es una actualización del punto de referencia para la predicción meteorológica global a medio plazo (1-14 días) propuesto por Rasp et al. (2020), diseñado con el objetivo de acelerar el progreso en los modelos meteorológicos basados en datos. WeatherBench 2 consta de un marco de evaluación de código abierto, datos de entrenamiento, datos de referencia y datos de línea base disponibles públicamente, así como un sitio web actualizado continuamente con las últimas métricas y modelos de vanguardia: https://sites.research.google/weatherbench. Este artículo describe los principios de diseño del marco de evaluación y presenta resultados para los modelos meteorológicos físicos y basados en datos más avanzados actualmente. Las métricas se basan en prácticas establecidas para evaluar pronósticos meteorológicos en los principales centros operativos de meteorología. Definimos un conjunto de puntuaciones principales para proporcionar una visión general del rendimiento de los modelos. Además, también discutimos advertencias en la configuración actual de evaluación y los desafíos para el futuro de la predicción meteorológica basada en datos.
Aprender comportamientos estratégicos en robots -- como los requeridos en interacciones de persecución-evitación -- bajo las limitaciones del mundo real es extremadamente desafiante. Esto requiere explotar la dinámica de la interacción y planificar considerando tanto la incertidumbre del estado físico como la intención latente. En este artículo, transformamos este problema intratable en un problema de aprendizaje supervisado, donde una política de robot completamente observable genera supervisión para una parcialmente observable. Descubrimos que la calidad de la señal de supervisión para la política de persecución parcialmente observable depende de dos factores clave: el equilibrio entre diversidad y optimalidad del comportamiento del evasor y la solidez de los supuestos de modelado en la política completamente observable. Implementamos nuestra política en un robot cuadrúpedo físico con una cámara RGB-D para interacciones de persecución-evitación en entornos reales. A pesar de todos los desafíos, las limitaciones sensoriales fomentan la creatividad: el robot se ve impulsado a recopilar información cuando está inseguro, predecir intenciones a partir de mediciones ruidosas y anticiparse para interceptar. Página del proyecto: https://abajcsy.github.io/vision-based-pursuit/