Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes de linguagem têm demonstrado habilidades impressionantes de resolução de problemas em ambientes definidos e prazos curtos. No entanto, com as complexidades em constante evolução de simulações de mundo aberto, há uma necessidade urgente de agentes que possam se adaptar de forma flexível a ambientes complexos e manter consistentemente uma memória de longo prazo para garantir ações coerentes. Para preencher a lacuna entre agentes de linguagem e jogos de mundo aberto, apresentamos o Language Agent for Role-Playing (LARP), que inclui uma arquitetura cognitiva que abrange o processamento de memória e um assistente de tomada de decisão, um módulo de interação com o ambiente com um espaço de ação aprendível baseado em feedback, e um método de pós-processamento que promove o alinhamento de várias personalidades. O framework LARP aprimora as interações entre usuários e agentes, pré-definidos com históricos e personalidades únicos, melhorando, em última instância, a experiência de jogo em contextos de mundo aberto. Além disso, destaca os diversos usos de modelos de linguagem em uma variedade de áreas, como entretenimento, educação e vários cenários de simulação. A página do projeto está disponível em https://miao-ai-lab.github.io/LARP/.
Os modelos de difusão transformaram a síntese de imagem para imagem (I2I) e agora estão se expandindo para vídeos. No entanto, o avanço da síntese de vídeo para vídeo (V2V) tem sido dificultado pelo desafio de manter a consistência temporal entre os quadros do vídeo. Este artigo propõe um framework consistente para síntese V2V, utilizando conjuntamente condições espaciais e pistas de fluxo óptico temporal do vídeo de origem. Diferente de métodos anteriores que seguem rigidamente o fluxo óptico, nossa abordagem aproveita seus benefícios enquanto lida com as imperfeições na estimativa do fluxo. Codificamos o fluxo óptico via deformação a partir do primeiro quadro e o utilizamos como uma referência suplementar no modelo de difusão. Isso permite que nosso modelo realize a síntese de vídeo editando o primeiro quadro com qualquer modelo I2I prevalente e, em seguida, propagando as edições para os quadros subsequentes. Nosso modelo V2V, FlowVid, demonstra propriedades notáveis: (1) Flexibilidade: o FlowVid funciona perfeitamente com modelos I2I existentes, facilitando várias modificações, incluindo estilização, troca de objetos e edições locais. (2) Eficiência: a geração de um vídeo de 4 segundos com 30 FPS e resolução de 512x512 leva apenas 1,5 minuto, o que é 3,1x, 7,2x e 10,5x mais rápido que CoDeF, Rerender e TokenFlow, respectivamente. (3) Alta qualidade: em estudos com usuários, nosso FlowVid foi preferido 45,7% das vezes, superando CoDeF (3,5%), Rerender (10,2%) e TokenFlow (40,4%).
A tendência recente dos grandes modelos de linguagem (LLMs, do inglês *Large Language Models*) é aumentar a escala tanto do tamanho do modelo (\aka o número de parâmetros) quanto do conjunto de dados para alcançar uma melhor capacidade gerativa, o que é definitivamente comprovado por diversos trabalhos, como os famosos GPT e Llama. No entanto, modelos grandes frequentemente envolvem custos computacionais massivos, e aplicações práticas não podem arcar com preços tão elevados. Além disso, o método de construir uma arquitetura de modelo robusta para LLMs raramente é discutido. Primeiramente, analisamos as arquiteturas de modelos de linguagem state-of-the-art e observamos o problema de colapso de características. Com base na análise teórica, propomos que a não linearidade também é muito importante para modelos de linguagem, algo que geralmente é estudado em redes neurais convolucionais para tarefas de visão. A função de ativação em série informada é então introduzida com cálculos mínimos que podem ser ignorados, e um atalho aumentado é utilizado para reforçar a não linearidade do modelo. Em seguida, demonstramos que a abordagem proposta é significativamente eficaz para melhorar a não linearidade do modelo por meio de ablações cuidadosamente projetadas; assim, apresentamos uma nova arquitetura de modelo eficiente para estabelecer um modelo moderno, denominado PanGu-pi. Experimentos são então conduzidos usando o mesmo conjunto de dados e estratégia de treinamento para comparar o PanGu-pi com LLMs state-of-the-art. Os resultados mostram que o PanGu-pi-7B pode alcançar um desempenho comparável ao dos benchmarks com uma aceleração de aproximadamente 10\% na velocidade de inferência, e o PanGu-pi-1B pode atingir desempenho state-of-the-art em termos de precisão e eficiência. Além disso, implantamos o PanGu-pi-7B em domínios de alto valor, como finanças e direito, desenvolvendo um LLM chamado YunShan para aplicação prática. Os resultados mostram que o YunShan pode superar outros modelos de escalas semelhantes em benchmarks.
Apresentamos o SynCLR, uma abordagem inovadora para o aprendizado de representações visuais exclusivamente a partir de imagens sintéticas e legendas sintéticas, sem o uso de dados reais. Sintetizamos um grande conjunto de dados de legendas de imagens utilizando LLMs (Large Language Models) e, em seguida, empregamos um modelo pronto para uso de texto para imagem para gerar múltiplas imagens correspondentes a cada legenda sintética. Realizamos o aprendizado de representações visuais nessas imagens sintéticas por meio de aprendizado contrastivo, tratando imagens que compartilham a mesma legenda como pares positivos. As representações resultantes transferem-se bem para diversas tarefas subsequentes, competindo favoravelmente com outros métodos de aprendizado de representações visuais de propósito geral, como CLIP e DINO v2, em tarefas de classificação de imagens. Além disso, em tarefas de predição densa, como segmentação semântica, o SynCLR supera métodos anteriores de auto-supervisão por uma margem significativa, por exemplo, melhorando em 6,2 e 4,3 mIoU sobre MAE e iBOT no conjunto de dados ADE20k para ViT-B/16.
O crescente interesse nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), como o GPT-4V(ision) da OpenAI, impactou significativamente tanto o meio acadêmico quanto o industrial. Esses modelos aprimoram os Modelos de Linguagem de Grande Escala (LLMs) com capacidades avançadas de compreensão visual, facilitando sua aplicação em uma variedade de tarefas multimodais. Recentemente, a Google introduziu o Gemini, um MLLM de ponta projetado especificamente para integração multimodal. Apesar de seus avanços, benchmarks preliminares indicam que o Gemini fica atrás dos modelos GPT em tarefas de raciocínio de senso comum. No entanto, essa avaliação, baseada em um conjunto de dados limitado (ou seja, HellaSWAG), não captura plenamente o potencial autêntico de raciocínio de senso comum do Gemini. Para abordar essa lacuna, nosso estudo realiza uma avaliação minuciosa do desempenho do Gemini em tarefas complexas de raciocínio que exigem a integração de conhecimento de senso comum entre modalidades. Realizamos uma análise abrangente de 12 conjuntos de dados de raciocínio de senso comum, variando de tarefas gerais a específicas de domínio. Isso inclui 11 conjuntos de dados focados exclusivamente em linguagem, além de um que incorpora elementos multimodais. Nossos experimentos com quatro LLMs e dois MLLMs demonstram as capacidades competitivas de raciocínio de senso comum do Gemini. Além disso, identificamos desafios comuns enfrentados pelos LLMs e MLLMs atuais ao abordar problemas de senso comum, destacando a necessidade de avanços adicionais no aprimoramento das habilidades de raciocínio de senso comum desses modelos.