Artigos de pesquisa em IA selecionados diariamente com traduções
Nos últimos anos, houve avanços notáveis no desempenho de Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers em diversos domínios. À medida que esses LLMs são implantados para tarefas cada vez mais complexas, eles frequentemente enfrentam a necessidade de realizar processos de raciocínio mais longos ou compreender contextos maiores. Nessas situações, a falha de generalização de comprimento dos LLMs em sequências longas torna-se mais evidente. A maioria dos esquemas de pré-treinamento trunca as sequências de treinamento para um comprimento fixo (como 2048 para LLaMa). Os LLMs frequentemente lutam para gerar textos fluentes, muito menos realizar tarefas subsequentes, após contextos mais longos, mesmo com codificação posicional relativa, que foi projetada para lidar com esse problema. Soluções comuns, como ajuste fino em corpora mais longos, muitas vezes envolvem custos assustadores de hardware e tempo e exigem um design cuidadoso do processo de treinamento. Para aproveitar de forma mais eficiente a capacidade de geração dos LLMs existentes, investigamos teoricamente e empiricamente os principais fatores fora da distribuição (OOD) que contribuem para esse problema. Inspirados por esse diagnóstico, propomos uma solução simples, mas eficaz, para generalização de comprimento em tempo real, o LM-Infinite, que envolve apenas uma máscara de atenção em forma de Lambda e um limite de distância, sem exigir atualizações de parâmetros ou aprendizado. Descobrimos que ele é aplicável a uma variedade de LLMs que utilizam métodos de codificação posicional relativa. O LM-Infinite é computacionalmente eficiente, com tempo e espaço O(n), e demonstra fluência e qualidade de geração consistentes para até 32 mil tokens nos conjuntos de dados ArXiv e OpenWebText2, com uma aceleração de decodificação de 2,72x. Em tarefas subsequentes, como recuperação de chave de acesso, ele continua a funcionar em entradas muito mais longas do que os comprimentos de treinamento, onde os modelos convencionais falham imediatamente.
Modelos de linguagem multimodal de grande escala têm despertado um interesse significativo recentemente. No entanto, a maioria dos trabalhos se concentra em modelos multimodais de visão e linguagem, oferecendo capacidades robustas para seguir instruções que envolvem visão e linguagem. Contudo, afirmamos que a fala também é uma modalidade importante por meio da qual os humanos interagem com o mundo. Portanto, é crucial que um assistente de propósito geral seja capaz de seguir instruções multimodais que envolvem fala e linguagem. Neste trabalho, propomos o Large Language and Speech Model (LLaSM). O LLaSM é um modelo multimodal de grande escala treinado de ponta a ponta com habilidades conversacionais entre modalidades, capaz de seguir instruções que envolvem fala e linguagem. Nossos experimentos iniciais mostram que o LLaSM oferece uma maneira mais conveniente e natural para os humanos interagirem com a inteligência artificial. Especificamente, também lançamos um grande conjunto de dados de Seguimento de Instruções de Fala, chamado LLaSM-Audio-Instructions. O código e a demonstração estão disponíveis em https://github.com/LinkSoul-AI/LLaSM e https://huggingface.co/spaces/LinkSoul/LLaSM. O conjunto de dados LLaSM-Audio-Instructions está disponível em https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
Apresentamos o Jais e o Jais-chat, novos modelos generativos de linguagem de grande escala (LLMs) de última geração, centrados no árabe, tanto na versão base quanto na versão ajustada para instruções. Esses modelos são baseados na arquitetura de apenas decodificação do GPT-3 e foram pré-treinados em uma mistura de textos em árabe e inglês, incluindo código-fonte em várias linguagens de programação. Com 13 bilhões de parâmetros, eles demonstram capacidades superiores de conhecimento e raciocínio em árabe em comparação com qualquer modelo aberto existente em árabe ou multilíngue, com uma margem significativa, com base em uma avaliação extensiva. Além disso, os modelos são competitivos em inglês quando comparados a modelos abertos centrados no inglês de tamanho similar, apesar de terem sido treinados com muito menos dados em inglês. Fornecemos uma descrição detalhada do treinamento, do ajuste fino, do alinhamento de segurança e da avaliação dos modelos. Lançamos duas versões abertas do modelo — o modelo base Jais e uma variante ajustada para instruções, o Jais-chat — com o objetivo de promover pesquisas sobre LLMs em árabe. Disponível em https://huggingface.co/inception-mbzuai/jais-13b-chat.
Para que os robôs sejam úteis fora de laboratórios e fábricas especializadas, precisamos de uma maneira de ensinar-lhes novos comportamentos úteis rapidamente. As abordagens atuais carecem da generalidade necessária para incorporar novas tarefas sem engenharia específica para cada tarefa, ou então não possuem a eficiência de dados necessária para fazê-lo em um período de tempo que permita o uso prático. Neste trabalho, exploramos o rastreamento denso como um veículo representacional para permitir um aprendizado mais rápido e mais geral a partir de demonstrações. Nossa abordagem utiliza modelos Track-Any-Point (TAP) para isolar o movimento relevante em uma demonstração e parametrizar um controlador de baixo nível para reproduzir esse movimento em diferentes configurações de cena. Mostramos que isso resulta em políticas robustas para robôs que podem resolver tarefas complexas de organização de objetos, como correspondência de formas, empilhamento, e até mesmo tarefas completas de seguimento de trajetória, como aplicar cola e unir objetos, tudo a partir de demonstrações que podem ser coletadas em minutos.
O WeatherBench 2 é uma atualização do benchmark global de previsão do tempo de médio prazo (1-14 dias) proposto por Rasp et al. (2020), projetado com o objetivo de acelerar o progresso na modelagem de tempo baseada em dados. O WeatherBench 2 consiste em um framework de avaliação de código aberto, dados de treinamento, dados de referência e dados de linha de base disponíveis publicamente, além de um site continuamente atualizado com as métricas mais recentes e os modelos de ponta: https://sites.research.google/weatherbench. Este artigo descreve os princípios de design do framework de avaliação e apresenta resultados para os modelos físicos e baseados em dados mais avançados atualmente. As métricas são baseadas em práticas estabelecidas para avaliar previsões do tempo nos principais centros operacionais de meteorologia. Definimos um conjunto de pontuações principais para fornecer uma visão geral do desempenho dos modelos. Além disso, também discutimos limitações na configuração atual de avaliação e desafios para o futuro da previsão do tempo baseada em dados.
Aprender comportamentos estratégicos em robôs -- como os necessários em interações de perseguição-evasão -- sob restrições do mundo real é extremamente desafiador. Isso requer explorar a dinâmica da interação e planejar considerando tanto a incerteza do estado físico quanto a intenção latente. Neste artigo, transformamos esse problema intratável em um problema de aprendizado supervisionado, onde uma política de robô totalmente observável gera supervisão para uma política parcialmente observável. Descobrimos que a qualidade do sinal de supervisão para a política de perseguidor parcialmente observável depende de dois fatores-chave: o equilíbrio entre diversidade e otimalidade do comportamento do evasor e a força das suposições de modelagem na política totalmente observável. Implantamos nossa política em um robô quadrúpede físico com uma câmera RGB-D em interações de perseguição-evasão em ambientes reais. Apesar de todos os desafios, as restrições de sensoriamento estimulam a criatividade: o robô é impulsionado a coletar informações quando incerto, prever intenções a partir de medições ruidosas e antecipar para interceptar. Página do projeto: https://abajcsy.github.io/vision-based-pursuit/