Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, apresentamos os resultados do nosso Projeto ALPINE, que significa "Aprendizado Autoregressivo para Planejamento em Redes" (Autoregressive Learning for Planning In NEtworks). O Projeto ALPINE inicia uma investigação teórica sobre o desenvolvimento de capacidades de planejamento em modelos de linguagem baseados em Transformers por meio de seus mecanismos de aprendizado autoregressivo, com o objetivo de identificar possíveis limitações em suas habilidades de planejamento. Abstraímos o planejamento como uma tarefa de encontrar caminhos em redes, onde o objetivo é gerar um caminho válido de um nó de origem especificado para um nó de destino designado. Em termos de expressividade, mostramos que o Transformer é capaz de executar a busca de caminhos ao incorporar as matrizes de adjacência e alcançabilidade em seus pesos. Nossa análise teórica da dinâmica de aprendizado baseada em gradientes do Transformer revela que o Transformer é capaz de aprender tanto a matriz de adjacência quanto uma forma limitada da matriz de alcançabilidade. Esses insights teóricos são então validados por meio de experimentos, que demonstram que o Transformer de fato aprende a matriz de adjacência e uma matriz de alcançabilidade incompleta, o que está alinhado com as previsões feitas em nossa análise teórica. Além disso, ao aplicar nossa metodologia a um benchmark de planejamento do mundo real, chamado Blocksworld, nossas observações permanecem consistentes. Nossas análises teóricas e empíricas também revelam uma potencial limitação do Transformer na busca de caminhos: ele não consegue identificar relações de alcançabilidade por transitividade e, portanto, falharia quando a concatenação de caminhos for necessária para gerar um caminho. Em resumo, nossas descobertas lançam nova luz sobre como os mecanismos internos do aprendizado autoregressivo permitem o planejamento em redes. Este estudo pode contribuir para nossa compreensão das capacidades gerais de planejamento em outros domínios relacionados.
Apresentamos o Xmodel-VLM, um modelo multimodal de visão e linguagem de última geração. Ele foi projetado para implantação eficiente em servidores com GPUs de consumo. Nosso trabalho aborda diretamente uma questão crucial da indústria ao lidar com os custos proibitivos de serviço que dificultam a ampla adoção de sistemas multimodais em larga escala. Por meio de treinamento rigoroso, desenvolvemos um modelo de linguagem em escala de 1B a partir do zero, empregando o paradigma LLaVA para alinhamento modal. O resultado, que chamamos de Xmodel-VLM, é um modelo multimodal de visão e linguagem leve, porém poderoso. Testes extensivos em diversos benchmarks clássicos multimodais revelaram que, apesar de seu tamanho menor e execução mais rápida, o Xmodel-VLM oferece desempenho comparável ao de modelos maiores. Nossos checkpoints de modelo e código estão disponíveis publicamente no GitHub em https://github.com/XiaoduoAILab/XmodelVLM.
Neste artigo, exploramos o potencial dos modelos de difusão latente, uma família de modelos generativos poderosos, para a tarefa de reconstruir música naturalística a partir de gravações de eletroencefalograma (EEG). Diferente de músicas mais simples com timbres limitados, como melodias geradas por MIDI ou peças monofônicas, o foco aqui está em músicas complexas que apresentam uma diversidade de instrumentos, vozes e efeitos, ricas em harmônicos e timbres. Este estudo representa uma incursão inicial na reconstrução geral de música de alta qualidade utilizando dados de EEG não invasivos, empregando uma abordagem de treinamento end-to-end diretamente em dados brutos, sem a necessidade de pré-processamento manual e seleção de canais. Treinamos nossos modelos no conjunto de dados público NMED-T e realizamos avaliação quantitativa propondo métricas baseadas em embeddings neurais. Além disso, realizamos classificação de músicas com base nas faixas geradas. Nosso trabalho contribui para a pesquisa contínua em decodificação neural e interfaces cérebro-computador, oferecendo insights sobre a viabilidade de usar dados de EEG para a reconstrução de informações auditivas complexas.
A avaliação sistemática e a compreensão de modelos de visão computacional sob diversas condições exigem grandes quantidades de dados com rótulos abrangentes e personalizados, algo que os conjuntos de dados de visão do mundo real raramente satisfazem. Embora os geradores de dados sintéticos atuais ofereçam uma alternativa promissora, especialmente para tarefas de IA incorporada, eles frequentemente não atendem às necessidades das tarefas de visão computacional devido à baixa qualidade de ativos e renderização, diversidade limitada e propriedades físicas irrealistas. Apresentamos o BEHAVIOR Vision Suite (BVS), um conjunto de ferramentas e ativos para gerar dados sintéticos totalmente personalizados para a avaliação sistemática de modelos de visão computacional, com base no novo benchmark de IA incorporada, BEHAVIOR-1K. O BVS suporta um grande número de parâmetros ajustáveis no nível da cena (por exemplo, iluminação, posicionamento de objetos), no nível do objeto (por exemplo, configuração de juntas, atributos como "preenchido" e "dobrado") e no nível da câmera (por exemplo, campo de visão, distância focal). Os pesquisadores podem variar arbitrariamente esses parâmetros durante a geração de dados para realizar experimentos controlados. Demonstramos três cenários de aplicação exemplares: avaliar sistematicamente a robustez dos modelos em diferentes eixos contínuos de mudança de domínio, avaliar modelos de compreensão de cenas no mesmo conjunto de imagens e treinar e avaliar a transferência de simulação para o real em uma nova tarefa de visão: previsão de estados unários e binários. Site do projeto: https://behavior-vision-suite.github.io/