Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, apresentamos o OtterHD-8B, um modelo multimodal inovador evoluído a partir do Fuyu-8B, especificamente projetado para interpretar entradas visuais de alta resolução com precisão granular. Diferente dos modelos convencionais, que são limitados por codificadores visuais de tamanho fixo, o OtterHD-8B possui a capacidade de lidar com dimensões de entrada flexíveis, garantindo sua versatilidade em diversas necessidades de inferência. Juntamente com este modelo, introduzimos o MagnifierBench, um framework de avaliação projetado para examinar a capacidade dos modelos de discernir detalhes minuciosos e relações espaciais de objetos pequenos. Nossa análise comparativa revela que, enquanto os modelos líderes atuais apresentam falhas nesse benchmark, o OtterHD-8B, especialmente ao processar diretamente entradas de alta resolução, supera seus concorrentes por uma margem substancial. Os resultados destacam as diferenças estruturais no processamento de informações visuais entre diferentes modelos e a influência que as disparidades de resolução no pré-treinamento dos codificadores visuais têm na eficácia dos modelos dentro de tais benchmarks. Nosso estudo enfatiza o papel crítico da flexibilidade e das capacidades de entrada de alta resolução em modelos multimodais de grande porte e também exemplifica o potencial inerente à simplicidade da arquitetura Fuyu para lidar com dados visuais complexos.
Modelos de Linguagem de Grande Escala Multimodal (MLLMs) têm demonstrado habilidades impressionantes de instrução em diversas tarefas de natureza aberta. No entanto, métodos anteriores concentram-se principalmente em aprimorar capacidades multimodais. Neste trabalho, introduzimos um modelo de linguagem de grande escala multimodal versátil, o mPLUG-Owl2, que efetivamente aproveita a colaboração entre modalidades para melhorar o desempenho tanto em tarefas de texto quanto em tarefas multimodais. O mPLUG-Owl2 utiliza um design de rede modularizado, com o decodificador de linguagem atuando como uma interface universal para gerenciar diferentes modalidades. Especificamente, o mPLUG-Owl2 incorpora módulos funcionais compartilhados para facilitar a colaboração entre modalidades e introduz um módulo adaptativo de modalidade que preserva características específicas de cada modalidade. Experimentos extensivos revelam que o mPLUG-Owl2 é capaz de generalizar tanto tarefas de texto quanto tarefas multimodais, alcançando desempenhos de ponta com um único modelo genérico. Notavelmente, o mPLUG-Owl2 é o primeiro modelo MLLM que demonstra o fenômeno de colaboração entre modalidades tanto em cenários de texto puro quanto em cenários multimodais, estabelecendo um caminho pioneiro no desenvolvimento de futuros modelos fundamentais multimodais.
Os recentes avanços nos Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a tomada de decisão ao decompor problemas complexos em sequências linguísticas mais gerenciáveis, denominadas "pensamentos". Um design eficaz de pensamento deve considerar três perspectivas-chave: desempenho, eficiência e flexibilidade. No entanto, os pensamentos existentes podem apresentar, no máximo, dois desses atributos. Para superar essas limitações, introduzimos uma nova abordagem de indução de pensamento chamada "Everything of Thoughts" (XoT), que desafia a lei do "triângulo de Penrose" dos paradigmas de pensamento existentes. O XoT aproveita o aprendizado por reforço pré-treinado e a Busca em Árvore de Monte Carlo (MCTS) para incorporar conhecimento externo de domínio aos pensamentos, aprimorando assim as capacidades dos LLMs e permitindo que generalizem problemas não vistos de forma eficiente. Por meio da utilização do framework colaborativo de revisão de pensamento MCTS-LLM, essa abordagem produz de forma autônoma mapeamentos cognitivos abrangentes e de alta qualidade com interações mínimas dos LLMs. Além disso, o XoT capacita os LLMs a se engajarem em pensamentos sem restrições, permitindo mapeamentos cognitivos flexíveis para problemas com múltiplas soluções.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) são implantados com responsabilidades cada vez mais reais, é importante ser capaz de especificar e restringir o comportamento desses sistemas de maneira confiável. Desenvolvedores de modelos podem desejar estabelecer regras explícitas para o modelo, como "não gerar conteúdo abusivo", mas essas podem ser contornadas por técnicas de jailbreaking. Avaliar o quão bem os LLMs seguem as regras fornecidas pelos desenvolvedores diante de entradas adversárias geralmente requer revisão manual, o que retarda o monitoramento e o desenvolvimento de métodos. Para abordar essa questão, propomos Cenários de Avaliação de Linguagem de Seguimento de Regras (RuLES), uma estrutura programática para medir a capacidade de seguir regras em LLMs. O RuLES consiste em 15 cenários de texto simples nos quais o modelo é instruído a obedecer a um conjunto de regras em linguagem natural enquanto interage com o usuário humano. Cada cenário possui um programa de avaliação conciso para determinar se o modelo violou alguma regra em uma conversa. Através da exploração manual do comportamento do modelo em nossos cenários, identificamos 6 categorias de estratégias de ataque e coletamos dois conjuntos de casos de teste: um consistindo de conversas únicas de testes manuais e outro que implementa sistematicamente estratégias das 6 categorias. Em vários modelos populares proprietários e abertos, como GPT-4 e Llama 2, descobrimos que todos os modelos são suscetíveis a uma ampla variedade de entradas de usuário adversariais criadas manualmente, embora o GPT-4 seja o modelo com melhor desempenho. Além disso, avaliamos modelos abertos sob ataques baseados em gradiente e encontramos vulnerabilidades significativas. Propomos o RuLES como um novo cenário desafiador para pesquisas que explorem e defendam contra ataques manuais e automáticos em LLMs.
As propriedades acústicas de uma sala são resultado da geometria da sala, dos objetos presentes nela e de suas posições específicas. As propriedades acústicas de uma sala podem ser caracterizadas por sua resposta ao impulso (RIR, do inglês Room Impulse Response) entre uma fonte e um ponto de escuta, ou inferidas aproximadamente a partir de gravações de sinais naturais presentes na sala. Variações nas posições dos objetos em uma sala podem causar mudanças mensuráveis nas propriedades acústicas da sala, conforme caracterizado pela RIR. Os conjuntos de dados existentes de RIRs ou não variam sistematicamente as posições dos objetos em um ambiente, ou consistem apenas em RIRs simulados. Apresentamos o SoundCam, o maior conjunto de dados de RIRs únicas de salas do mundo real já disponibilizado publicamente. Ele inclui 5.000 medições de 10 canais de respostas ao impulso de salas do mundo real e 2.000 gravações de 10 canais de música em três salas diferentes, incluindo um laboratório acústico controlado, uma sala de estar do mundo real e uma sala de reuniões, com diferentes humanos posicionados em vários pontos de cada sala. Mostramos que essas medições podem ser usadas para tarefas interessantes, como detectar e identificar humanos, e rastrear suas posições.
O Neural MMO 2.0 é um ambiente massivamente multiagente para pesquisa em aprendizado por reforço. A principal característica desta nova versão é um sistema de tarefas flexível que permite aos usuários definir uma ampla gama de objetivos e sinais de recompensa. Desafiamos os pesquisadores a treinar agentes capazes de generalizar para tarefas, mapas e oponentes nunca vistos durante o treinamento. O Neural MMO apresenta mapas gerados proceduralmente com 128 agentes na configuração padrão e suporte para até. A versão 2.0 é uma reescrita completa de sua predecessora, com desempenho três vezes melhor e compatibilidade com o CleanRL. Lançamos a plataforma como software livre e de código aberto, com documentação abrangente disponível em neuralmmo.github.io e uma comunidade ativa no Discord. Para estimular pesquisas iniciais nesta nova plataforma, estamos realizando simultaneamente uma competição na NeurIPS 2023.
A matização convencional de vídeos produz uma única matte alfa para todas as instâncias presentes em um quadro de vídeo, de modo que as instâncias individuais não são distinguidas. Embora a segmentação de instâncias em vídeo forneça máscaras de instâncias temporalmente consistentes, os resultados são insatisfatórios para aplicações de matização, especialmente devido à binarização aplicada. Para remediar essa deficiência, propomos a Matização de Instâncias em Vídeo (VIM), ou seja, a estimativa de mattes alfa de cada instância em cada quadro de uma sequência de vídeo. Para abordar esse problema desafiador, apresentamos o MSG-VIM, uma rede neural de Matização de Instâncias em Vídeo Guiada por Sequência de Máscaras, como um novo modelo de referência para VIM. O MSG-VIM aproveita uma mistura de aumentos de máscara para tornar as previsões robustas a orientações de máscara imprecisas e inconsistentes. Ele incorpora orientação temporal de máscara e de características para melhorar a consistência temporal das previsões de matte alfa. Além disso, construímos um novo benchmark para VIM, chamado VIM50, que compreende 50 clipes de vídeo com múltiplas instâncias humanas como objetos em primeiro plano. Para avaliar o desempenho na tarefa de VIM, introduzimos uma métrica adequada chamada Qualidade de Matização Consciente de Instâncias em Vídeo (VIMQ). Nosso modelo proposto, MSG-VIM, estabelece uma forte referência no benchmark VIM50 e supera os métodos existentes por uma grande margem. O projeto é de código aberto em https://github.com/SHI-Labs/VIM.
À medida que os modelos de linguagem de grande escala se tornam mais prevalentes, suas possíveis respostas prejudiciais ou inadequadas são motivo de preocupação. Este artigo apresenta um conjunto de dados único contendo exemplos adversários na forma de perguntas, que chamamos de AttaQ, projetado para provocar tais respostas prejudiciais ou inadequadas. Avaliamos a eficácia do nosso conjunto de dados analisando as vulnerabilidades de vários modelos quando submetidos a ele. Além disso, introduzimos uma nova abordagem automática para identificar e nomear regiões semânticas vulneráveis - áreas semânticas de entrada para as quais o modelo provavelmente produzirá saídas prejudiciais. Isso é alcançado por meio da aplicação de técnicas de agrupamento especializadas que consideram tanto a similaridade semântica dos ataques de entrada quanto a nocividade das respostas do modelo. A identificação automática de regiões semânticas vulneráveis aprimora a avaliação das fraquezas do modelo, facilitando melhorias direcionadas em seus mecanismos de segurança e confiabilidade geral.
O aprendizado de representações auto-supervisionado depende fortemente de aumentos de dados para especificar as invariâncias codificadas nas representações. Trabalhos anteriores mostraram que a aplicação de aumentos de dados diversos é crucial para o desempenho em tarefas subsequentes, mas as técnicas de aumento ainda são pouco exploradas. Neste trabalho, propomos uma nova família de transformações locais baseadas em campos aleatórios gaussianos para gerar aumentos de imagens para o aprendizado de representações auto-supervisionado. Essas transformações generalizam as bem estabelecidas transformações afins e de cor (translação, rotação, variação de cor, etc.) e aumentam significativamente o espaço de aumentos ao permitir que os valores dos parâmetros de transformação variem de pixel para pixel. Os parâmetros são tratados como funções contínuas das coordenadas espaciais e modelados como campos aleatórios gaussianos independentes. Resultados empíricos mostram a eficácia das novas transformações para o aprendizado de representações auto-supervisionado. Especificamente, alcançamos uma melhoria de 1,7% na acurácia top-1 em relação à linha de base na classificação subsequente do ImageNet e uma melhoria de 3,6% na classificação subsequente do iNaturalist fora da distribuição. No entanto, devido à flexibilidade das novas transformações, as representações aprendidas são sensíveis aos hiperparâmetros. Enquanto transformações suaves melhoram as representações, observamos que transformações fortes podem degradar a estrutura de uma imagem, indicando que equilibrar a diversidade e a força dos aumentos é importante para melhorar a generalização das representações aprendidas.
A verificação formal pode garantir comprovadamente a correção de softwares críticos de sistemas, mas a alta carga de provas tem dificultado sua ampla adoção. Recentemente, os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado sucesso na análise e síntese de código. Neste artigo, apresentamos uma combinação de LLMs e análise estática para sintetizar invariantes, asserções e outras estruturas de prova para um framework de verificação formal baseado em Rust chamado Verus. Em um cenário de poucos exemplos, os LLMs demonstram uma impressionante capacidade lógica na geração de pós-condições e invariantes de loop, especialmente ao analisar trechos curtos de código. No entanto, os LLMs carecem da capacidade de reter e propagar informações de contexto, uma vantagem da análise estática tradicional. Com base nessas observações, desenvolvemos um protótipo baseado no modelo GPT-4 da OpenAI. Nosso protótipo decompõe a tarefa de verificação em várias menores, consulta iterativamente o GPT-4 e combina sua saída com uma análise estática leve. Avaliamos o protótipo com um desenvolvedor no loop de automação em 20 programas de manipulação de vetores. Os resultados demonstram que ele reduz significativamente o esforço humano na escrita de código de prova de nível básico.