Papers Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

Seleccionar fecha

LM-Infinite: Generalización Simple de Longitud en Tiempo Real para Modelos de Lenguaje a Gran Escala
LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

Aug 30, 2023

Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang

404

En los últimos años, se han logrado avances notables en el rendimiento de los Modelos de Lenguaje de Gran Escala (LLMs) basados en Transformers en diversos dominios. A medida que estos LLMs se despliegan para tareas cada vez más complejas, a menudo enfrentan la necesidad de llevar a cabo procesos de razonamiento más largos o comprender contextos más amplios. En estas situaciones, el fallo en la generalización de longitud de los LLMs en secuencias largas se vuelve más evidente. La mayoría de los esquemas de preentrenamiento truncan las secuencias de entrenamiento a una longitud fija (como 2048 para LLaMa). Los LLMs suelen tener dificultades para generar textos fluidos, y mucho menos para realizar tareas posteriores, después de contextos más largos, incluso con codificación posicional relativa que está diseñada para abordar este problema. Soluciones comunes como el ajuste fino en corpus más largos a menudo implican costos de hardware y tiempo abrumadores y requieren un diseño cuidadoso del proceso de entrenamiento. Para aprovechar de manera más eficiente la capacidad de generación de los LLMs existentes, investigamos teórica y empíricamente los principales factores fuera de distribución (OOD) que contribuyen a este problema. Inspirados por este diagnóstico, proponemos una solución simple pero efectiva para la generalización de longitud sobre la marcha, LM-Infinite, que implica solo una máscara de atención en forma de Lambda y un límite de distancia, sin necesidad de actualizaciones de parámetros o aprendizaje. Encontramos que es aplicable a una variedad de LLMs que utilizan métodos de codificación posicional relativa. LM-Infinite es computacionalmente eficiente con tiempo y espacio O(n), y demuestra fluidez y calidad de generación consistentes hasta 32k tokens en los conjuntos de datos ArXiv y OpenWebText2, con una aceleración de decodificación de 2.72x. En tareas posteriores como la recuperación de claves, continúa funcionando en entradas mucho más largas que las longitudes de entrenamiento donde los modelos convencionales fallan inmediatamente.

LLaSM: Modelo de Lenguaje y Habla a Gran Escala
LLaSM: Large Language and Speech Model

Aug 30, 2023

Yu Shu, Siwei Dong, Guangyao Chen, Wenhao Huang, Ruihua Zhang, Daochen Shi, Qiqi Xiang, Yemin Shi

342

Los modelos de lenguaje multimodal de gran escala han generado un interés significativo recientemente. Sin embargo, la mayoría de los trabajos se centran en modelos multimodales de visión y lenguaje, ofreciendo capacidades sólidas para seguir instrucciones que combinan visión y lenguaje. No obstante, sostenemos que el habla también es una modalidad importante a través de la cual los humanos interactúan con el mundo. Por lo tanto, es crucial que un asistente de propósito general sea capaz de seguir instrucciones multimodales que combinen habla y lenguaje. En este trabajo, proponemos el Modelo de Lenguaje y Habla de Gran Escala (LLaSM, por sus siglas en inglés). LLaSM es un modelo multimodal de gran escala entrenado de extremo a extremo con capacidades conversacionales entre modalidades, capaz de seguir instrucciones que combinan habla y lenguaje. Nuestros primeros experimentos muestran que LLaSM ofrece una forma más conveniente y natural para que los humanos interactúen con la inteligencia artificial. Específicamente, también publicamos un gran conjunto de datos de Seguimiento de Instrucciones de Habla, denominado LLaSM-Audio-Instructions. El código y la demostración están disponibles en https://github.com/LinkSoul-AI/LLaSM y https://huggingface.co/spaces/LinkSoul/LLaSM. El conjunto de datos LLaSM-Audio-Instructions está disponible en https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.

Jais y Jais-chat: Modelos Generativos Abiertos de Gran Escala Centrados en el Árabe, con Ajuste de Base y de Instrucciones
Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models

Aug 30, 2023

Neha Sengupta, Sunil Kumar Sahu, Bokang Jia, Satheesh Katipomu, Haonan Li, Fajri Koto, Osama Mohammed Afzal, Samta Kamboj, Onkar Pandit, Rahul Pal, Lalit Pradhan, Zain Muhammad Mujahid, Massa Baali, Alham Fikri Aji, Zhengzhong Liu, Andy Hock, Andrew Feldman, Jonathan Lee, Andrew Jackson, Preslav Nakov, Timothy Baldwin, Eric Xing

286

Presentamos Jais y Jais-chat, nuevos modelos generativos abiertos de gran escala (LLMs) de última generación centrados en el árabe, tanto en su versión base como ajustada para instrucciones. Estos modelos se basan en la arquitectura de solo decodificador de GPT-3 y fueron preentrenados con una mezcla de textos en árabe e inglés, incluyendo código fuente en varios lenguajes de programación. Con 13 mil millones de parámetros, demuestran capacidades superiores de conocimiento y razonamiento en árabe en comparación con cualquier modelo abierto existente en árabe y multilingüe, según una evaluación exhaustiva. Además, los modelos son competitivos en inglés frente a modelos abiertos centrados en inglés de tamaño similar, a pesar de haber sido entrenados con mucha menos cantidad de datos en inglés. Ofrecemos una descripción detallada del entrenamiento, el ajuste, la alineación de seguridad y la evaluación de los modelos. Publicamos dos versiones abiertas del modelo: el modelo base Jais y una variante ajustada para instrucciones, Jais-chat, con el objetivo de fomentar la investigación en LLMs en árabe. Disponible en https://huggingface.co/inception-mbzuai/jais-13b-chat.

RoboTAP: Seguimiento de Puntos Arbitrarios para la Imitación Visual con Pocos Ejemplos
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation

Aug 30, 2023

Mel Vecerik, Carl Doersch, Yi Yang, Todor Davchev, Yusuf Aytar, Guangyao Zhou, Raia Hadsell, Lourdes Agapito, Jon Scholz

121

Para que los robots sean útiles fuera de los laboratorios y fábricas especializadas, necesitamos una forma de enseñarles nuevos comportamientos útiles de manera rápida. Los enfoques actuales carecen ya sea de la generalidad necesaria para incorporar nuevas tareas sin ingeniería específica para cada tarea, o bien de la eficiencia en el uso de datos para hacerlo en un tiempo que permita su uso práctico. En este trabajo exploramos el seguimiento denso como un vehículo representacional para permitir un aprendizaje más rápido y general a partir de demostraciones. Nuestro enfoque utiliza modelos Track-Any-Point (TAP) para aislar el movimiento relevante en una demostración y parametrizar un controlador de bajo nivel para reproducir este movimiento a través de cambios en la configuración de la escena. Demostramos que esto da como resultado políticas de robot robustas que pueden resolver tareas complejas de organización de objetos, como la coincidencia de formas, apilamiento, e incluso tareas completas de seguimiento de trayectorias, como aplicar pegamento y unir objetos, todo a partir de demostraciones que pueden recopilarse en minutos.

WeatherBench 2: Un punto de referencia para la próxima generación de modelos globales de pronóstico del tiempo basados en datos
WeatherBench 2: A benchmark for the next generation of data-driven global weather models

Aug 29, 2023

Stephan Rasp, Stephan Hoyer, Alexander Merose, Ian Langmore, Peter Battaglia, Tyler Russel, Alvaro Sanchez-Gonzalez, Vivian Yang, Rob Carver, Shreya Agrawal, Matthew Chantry, Zied Ben Bouallegue, Peter Dueben, Carla Bromberg, Jared Sisk, Luke Barrington, Aaron Bell, Fei Sha

WeatherBench 2 es una actualización del punto de referencia para la predicción meteorológica global a medio plazo (1-14 días) propuesto por Rasp et al. (2020), diseñado con el objetivo de acelerar el progreso en los modelos meteorológicos basados en datos. WeatherBench 2 consta de un marco de evaluación de código abierto, datos de entrenamiento, datos de referencia y datos de línea base disponibles públicamente, así como un sitio web actualizado continuamente con las últimas métricas y modelos de vanguardia: https://sites.research.google/weatherbench. Este artículo describe los principios de diseño del marco de evaluación y presenta resultados para los modelos meteorológicos físicos y basados en datos más avanzados actualmente. Las métricas se basan en prácticas establecidas para evaluar pronósticos meteorológicos en los principales centros operativos de meteorología. Definimos un conjunto de puntuaciones principales para proporcionar una visión general del rendimiento de los modelos. Además, también discutimos advertencias en la configuración actual de evaluación y los desafíos para el futuro de la predicción meteorológica basada en datos.

Aprendizaje de Políticas de Robots para Persecución-Evasión Basadas en Visión
Learning Vision-based Pursuit-Evasion Robot Policies

Aug 30, 2023

Andrea Bajcsy, Antonio Loquercio, Ashish Kumar, Jitendra Malik

Aprender comportamientos estratégicos en robots -- como los requeridos en interacciones de persecución-evitación -- bajo las limitaciones del mundo real es extremadamente desafiante. Esto requiere explotar la dinámica de la interacción y planificar considerando tanto la incertidumbre del estado físico como la intención latente. En este artículo, transformamos este problema intratable en un problema de aprendizaje supervisado, donde una política de robot completamente observable genera supervisión para una parcialmente observable. Descubrimos que la calidad de la señal de supervisión para la política de persecución parcialmente observable depende de dos factores clave: el equilibrio entre diversidad y optimalidad del comportamiento del evasor y la solidez de los supuestos de modelado en la política completamente observable. Implementamos nuestra política en un robot cuadrúpedo físico con una cámara RGB-D para interacciones de persecución-evitación en entornos reales. A pesar de todos los desafíos, las limitaciones sensoriales fomentan la creatividad: el robot se ve impulsado a recopilar información cuando está inseguro, predecir intenciones a partir de mediciones ruidosas y anticiparse para interceptar. Página del proyecto: https://abajcsy.github.io/vision-based-pursuit/

LM-Infinite: Generalización Simple de Longitud en Tiempo Real para Modelos de Lenguaje a Gran Escala
LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

Aug 30, 2023

Chi Han, Qifan Wang, Wenhan Xiong, Yu Chen, Heng Ji, Sinong Wang

404

Papers Diarios

LM-Infinite: Generalización Simple de Longitud en Tiempo Real para Modelos de Lenguaje a Gran Escala
LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

LLaSM: Modelo de Lenguaje y Habla a Gran Escala
LLaSM: Large Language and Speech Model

Jais y Jais-chat: Modelos Generativos Abiertos de Gran Escala Centrados en el Árabe, con Ajuste de Base y de Instrucciones
Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models

RoboTAP: Seguimiento de Puntos Arbitrarios para la Imitación Visual con Pocos Ejemplos
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation

WeatherBench 2: Un punto de referencia para la próxima generación de modelos globales de pronóstico del tiempo basados en datos
WeatherBench 2: A benchmark for the next generation of data-driven global weather models

Aprendizaje de Políticas de Robots para Persecución-Evasión Basadas en Visión
Learning Vision-based Pursuit-Evasion Robot Policies

Support

Support

Papers Diarios

LM-Infinite: Generalización Simple de Longitud en Tiempo Real para Modelos de Lenguaje a Gran Escala
LM-Infinite: Simple On-the-Fly Length Generalization for Large Language Models

LLaSM: Modelo de Lenguaje y Habla a Gran Escala
LLaSM: Large Language and Speech Model

Jais y Jais-chat: Modelos Generativos Abiertos de Gran Escala Centrados en el Árabe, con Ajuste de Base y de Instrucciones
Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models

RoboTAP: Seguimiento de Puntos Arbitrarios para la Imitación Visual con Pocos Ejemplos
RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation

WeatherBench 2: Un punto de referencia para la próxima generación de modelos globales de pronóstico del tiempo basados en datos
WeatherBench 2: A benchmark for the next generation of data-driven global weather models

Aprendizaje de Políticas de Robots para Persecución-Evasión Basadas en Visión
Learning Vision-based Pursuit-Evasion Robot Policies