Artigos de pesquisa em IA selecionados diariamente com traduções
StarCraft II é um dos ambientes de aprendizado por reforço simulado mais desafiadores; ele é parcialmente observável, estocástico, multiagente, e dominar StarCraft II requer planejamento estratégico em horizontes temporais longos com execução em tempo real em nível baixo. Ele também possui uma cena competitiva profissional ativa. StarCraft II é especialmente adequado para avançar algoritmos de RL offline, tanto por sua natureza desafiadora quanto porque a Blizzard liberou um conjunto massivo de dados com milhões de partidas de StarCraft II jogadas por humanos. Este artigo aproveita isso e estabelece um benchmark, chamado AlphaStar Unplugged, introduzindo desafios sem precedentes para o aprendizado por reforço offline. Definimos um conjunto de dados (um subconjunto do lançamento da Blizzard), ferramentas que padronizam uma API para métodos de aprendizado de máquina e um protocolo de avaliação. Também apresentamos agentes de linha de base, incluindo clonagem comportamental, variantes offline de actor-critic e MuZero. Melhoramos o estado da arte de agentes que usam apenas dados offline e alcançamos uma taxa de vitória de 90% contra o agente de clonagem comportamental do AlphaStar previamente publicado.
Os Modelos de Linguagem de Grande Escala (LLMs) estão se tornando cada vez mais inteligentes e autônomos, visando missões pragmáticas do mundo real além das tarefas tradicionais de PLN. Como resultado, tem havido uma necessidade urgente de avaliar LLMs como agentes em tarefas desafiadoras em ambientes interativos. Apresentamos o AgentBench, um benchmark multidimensional e em evolução que atualmente consiste em 8 ambientes distintos para avaliar as habilidades de raciocínio e tomada de decisão de LLMs como agentes em um cenário de geração aberta e multi-turnos. Nossos extensos testes com 25 LLMs (incluindo APIs e modelos de código aberto) mostram que, embora os principais LLMs comerciais apresentem uma forte capacidade de atuar como agentes em ambientes complexos, há uma disparidade significativa no desempenho entre eles e os concorrentes de código aberto. Ele também serve como um componente de um projeto contínuo com maior cobertura e consideração mais profunda em relação à avaliação sistemática de LLMs. Conjuntos de dados, ambientes e um pacote de avaliação integrado para o AgentBench são disponibilizados em https://github.com/THUDM/AgentBench.
Criar avatares 3D expressivos, diversos e de alta qualidade a partir de descrições de texto altamente personalizadas e orientações de pose é uma tarefa desafiadora, devido à complexidade da modelagem e texturização em 3D que garantem detalhes e diversos estilos (realistas, ficcionais, etc.). Apresentamos o AvatarVerse, um pipeline estável para gerar avatares 3D de alta qualidade e expressivos a partir de nada mais do que descrições de texto e orientações de pose. Especificamente, introduzimos um modelo de difusão 2D condicionado ao sinal DensePose para estabelecer o controle de pose 3D de avatares por meio de imagens 2D, o que melhora a consistência de visualização em cenários parcialmente observados. Isso resolve o famoso Problema de Janus e estabiliza significativamente o processo de geração. Além disso, propomos uma estratégia progressiva de síntese 3D de alta resolução, que obtém uma melhoria substancial na qualidade dos avatares 3D criados. Com isso, o pipeline proposto pelo AvatarVerse alcança a modelagem 3D zero-shot de avatares 3D que não apenas são mais expressivos, mas também de maior qualidade e fidelidade do que trabalhos anteriores. Avaliações qualitativas rigorosas e estudos com usuários demonstram a superioridade do AvatarVerse na síntese de avatares 3D de alta fidelidade, estabelecendo um novo padrão na criação de avatares 3D de alta qualidade e estáveis. Nossa página do projeto é: https://avatarverse3d.github.io
Modelos recentes de geração de texto para imagem nos permitiram transformar nossas palavras em imagens vibrantes e cativantes. A onda de técnicas de personalização que se seguiu também nos permitiu imaginar conceitos únicos em novas cenas. No entanto, uma questão intrigante permanece: Como podemos gerar um novo conceito imaginário que nunca foi visto antes? Neste artigo, apresentamos a tarefa de geração criativa de texto para imagem, onde buscamos gerar novos membros de uma categoria ampla (por exemplo, gerar um animal de estimação que difere de todos os animais de estimação existentes). Aproveitamos os modelos de Prior de Difusão, pouco estudados, e mostramos que o problema de geração criativa pode ser formulado como um processo de otimização sobre o espaço de saída do prior de difusão, resultando em um conjunto de "restrições de prior". Para evitar que nosso conceito gerado convirja para membros existentes, incorporamos um modelo de perguntas e respostas que adiciona adaptativamente novas restrições ao problema de otimização, incentivando o modelo a descobrir criações cada vez mais únicas. Por fim, mostramos que nossas restrições de prior também podem servir como um forte mecanismo de mistura, permitindo-nos criar híbridos entre conceitos gerados, introduzindo ainda mais flexibilidade no processo criativo.
Modelos de linguagem de grande escala (LLMs) têm demonstrado uma generalizabilidade notável, como a compreensão de entidades e relações arbitrárias. O ajuste por instrução tem se mostrado eficaz para destilar LLMs em modelos mais econômicos, como Alpaca e Vicuna. No entanto, esses modelos estudantis ainda ficam muito atrás dos LLMs originais em aplicações subsequentes. Neste artigo, exploramos a destilação direcionada com ajuste por instrução focado em missão para treinar modelos estudantis que podem se destacar em uma ampla classe de aplicações, como a extração aberta de informações. Usando o reconhecimento de entidades nomeadas (NER) como estudo de caso, mostramos como o ChatGPT pode ser destilado em modelos UniversalNER muito menores para NER aberto. Para avaliação, montamos o maior benchmark de NER até o momento, compreendendo 43 conjuntos de dados em 9 domínios diversos, como biomedicina, programação, mídias sociais, direito e finanças. Sem usar qualquer supervisão direta, o UniversalNER atinge uma precisão notável em NER em dezenas de milhares de tipos de entidades, superando modelos ajustados por instrução geral, como Alpaca e Vicuna, em mais de 30 pontos F1 absolutos em média. Com uma fração minúscula de parâmetros, o UniversalNER não apenas adquire a capacidade do ChatGPT de reconhecer tipos de entidades arbitrários, mas também supera sua precisão em NER em 7-9 pontos F1 absolutos em média. Notavelmente, o UniversalNER até supera por uma grande margem sistemas de última geração ajustados por instrução multitarefa, como o InstructUIE, que usa exemplos supervisionados de NER. Também realizamos estudos de ablação completos para avaliar o impacto de vários componentes em nossa abordagem de destilação. Liberaremos a receita de destilação, os dados e os modelos UniversalNER para facilitar pesquisas futuras sobre destilação direcionada.
Ver é acreditar, no entanto, o mecanismo subjacente de como as percepções visuais humanas estão entrelaçadas com nossas cognições ainda é um mistério. Graças aos recentes avanços tanto na neurociência quanto na inteligência artificial, conseguimos registrar as atividades cerebrais evocadas visualmente e imitar a capacidade de percepção visual por meio de abordagens computacionais. Neste artigo, focamos na reconstrução de estímulos visuais, reconstruindo as imagens observadas com base em sinais cerebrais de acesso portátil, ou seja, dados de eletroencefalografia (EEG). Como os sinais de EEG são dinâmicos no formato de série temporal e são notoriamente ruidosos, o processamento e a extração de informações úteis exigem esforços mais dedicados. Neste artigo, propomos um pipeline abrangente, denominado NeuroImagen, para reconstruir imagens de estímulos visuais a partir de sinais de EEG. Especificamente, incorporamos uma nova decodificação de informações perceptivas em múltiplos níveis para obter saídas de múltiplas granularidades a partir dos dados de EEG fornecidos. Um modelo de difusão latente então aproveitará as informações extraídas para reconstruir as imagens de estímulos visuais em alta resolução. Os resultados experimentais ilustraram a eficácia da reconstrução de imagens e o desempenho quantitativo superior do método proposto.
Com os recentes avanços no processamento de linguagem natural, os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) surgiram como ferramentas poderosas para diversas aplicações do mundo real. Apesar de sua capacidade, as habilidades gerativas intrínsecas dos LLMs podem se mostrar insuficientes para lidar com tarefas complexas que exigem uma combinação de planejamento de tarefas e o uso de ferramentas externas. Neste artigo, propomos inicialmente uma estrutura estruturada adaptada para Agentes de IA baseados em LLMs e discutimos as capacidades cruciais necessárias para resolver problemas intrincados. Dentro dessa estrutura, projetamos dois tipos distintos de agentes (ou seja, agente de etapa única e agente sequencial) para executar o processo de inferência. Posteriormente, instanciamos a estrutura utilizando diversos LLMs e avaliamos suas habilidades de Planejamento de Tarefas e Uso de Ferramentas (TPTU, na sigla em inglês) em tarefas típicas. Ao destacar descobertas e desafios importantes, nosso objetivo é fornecer um recurso útil para pesquisadores e profissionais aproveitarem o poder dos LLMs em suas aplicações de IA. Nosso estudo enfatiza o potencial substancial desses modelos, ao mesmo tempo em que identifica áreas que precisam de mais investigação e aprimoramento.
Ao buscar obter uma visão mais clara de um modelo de aprendizado de máquina para compreender e mitigar os riscos associados, uma fonte potencialmente valiosa de evidência é: quais exemplos de treinamento contribuem mais para um determinado comportamento? As funções de influência visam responder a uma questão contrafactual: como os parâmetros do modelo (e, consequentemente, suas saídas) mudariam se uma determinada sequência fosse adicionada ao conjunto de treinamento? Embora as funções de influência tenham gerado insights para modelos pequenos, elas são difíceis de escalar para modelos de linguagem de grande escala (LLMs, na sigla em inglês) devido à dificuldade de calcular um produto vetorial inverso-Hessiano (IHVP, na sigla em inglês). Utilizamos a aproximação Eigenvalue-corrected Kronecker-Factored Approximate Curvature (EK-FAC) para escalar as funções de influência até LLMs com até 52 bilhões de parâmetros. Em nossos experimentos, o EK-FAC alcança uma precisão semelhante aos estimadores tradicionais de funções de influência, apesar do cálculo do IHVP ser ordens de magnitude mais rápido. Investigamos duas técnicas algorítmicas para reduzir o custo de calcular gradientes de sequências candidatas de treinamento: filtragem TF-IDF e agrupamento de consultas. Usamos funções de influência para investigar os padrões de generalização de LLMs, incluindo a esparsidade dos padrões de influência, o aumento da abstração com a escala, habilidades em matemática e programação, generalização cruzada entre idiomas e comportamento de interpretação de papéis. Apesar de muitas formas aparentemente sofisticadas de generalização, identificamos uma limitação surpreendente: as influências decaem para quase zero quando a ordem das frases-chave é invertida. No geral, as funções de influência nos fornecem uma nova ferramenta poderosa para estudar as propriedades de generalização de LLMs.
A amplificação de movimento nos ajuda a visualizar movimentos sutis e imperceptíveis. No entanto, os métodos anteriores funcionam apenas para vídeos 2D capturados com uma câmera fixa. Apresentamos um método de amplificação de movimento 3D que pode amplificar movimentos sutis em cenas capturadas por uma câmera em movimento, ao mesmo tempo que suporta a renderização de novas perspectivas. Representamos a cena com campos de radiação variáveis no tempo e utilizamos o princípio Euleriano de amplificação de movimento para extrair e amplificar a variação da incorporação de um ponto fixo ao longo do tempo. Estudamos e validamos nosso princípio proposto para amplificação de movimento 3D usando tanto campos de radiação implícitos quanto baseados em triplanos como nossa representação subjacente da cena 3D. Avaliamos a eficácia do nosso método em cenas sintéticas e do mundo real capturadas sob várias configurações de câmera.
Os recentes avanços nos Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) demonstraram progresso significativo na abordagem de tarefas multimodais complexas. Entre esses desenvolvimentos de ponta, o Bard, da Google, destaca-se por suas notáveis capacidades multimodais, promovendo uma compreensão e raciocínio abrangentes em diversos domínios. Este trabalho apresenta uma avaliação inicial e holística das habilidades multimodais dos LVLMs, com foco particular no Bard, propondo uma variante leve do LVLM-eHub, denominada Tiny LVLM-eHub. Em comparação com a versão original, o Tiny LVLM-eHub possui várias propriedades atraentes. Em primeiro lugar, ele fornece uma avaliação sistemática de seis categorias de capacidades multimodais, incluindo percepção visual, aquisição de conhecimento visual, raciocínio visual, senso comum visual, alucinação de objetos e inteligência incorporada, por meio da avaliação quantitativa de 42 benchmarks visuais padrão relacionados a texto. Em segundo lugar, ele realiza uma análise aprofundada das previsões dos LVLMs usando a Avaliação de Conjunto ChatGPT (CEE, na sigla em inglês), o que resulta em uma avaliação robusta e precisa e exibe uma melhor alinhamento com a avaliação humana em comparação com a abordagem de correspondência de palavras. Em terceiro lugar, ele compreende apenas 2,1 mil pares de imagem-texto, facilitando o uso por profissionais para avaliar seus próprios LVLMs offline. Por meio de uma extensa análise experimental, este estudo demonstra que o Bard supera os LVLMs anteriores na maioria das capacidades multimodais, exceto na alucinação de objetos, à qual o Bard ainda é suscetível. O Tiny LVLM-eHub serve como uma avaliação de base para vários LVLMs e incentiva estratégias inovadoras voltadas para o avanço das técnicas multimodais. Nosso projeto está publicamente disponível em https://github.com/OpenGVLab/Multi-Modality-Arena.
Os grandes modelos de linguagem existentes precisam ser executados K vezes para gerar uma sequência de K tokens. Neste artigo, apresentamos o RecycleGPT, um modelo de linguagem generativo com velocidade de decodificação rápida, reciclando estados do modelo pré-gerados sem a necessidade de executar o modelo completo em múltiplas etapas. Nossa abordagem se baseia na observação de que tokens adjacentes em uma sequência geralmente possuem fortes correlações, e o próximo token em uma sequência pode ser razoavelmente adivinhado ou inferido com base nos anteriores. Por meio de avaliações teóricas e testes práticos em tarefas de geração de texto, demonstramos a eficácia de nossa abordagem na redução da latência de inferência, alcançando uma aceleração de até 1,4x enquanto mantém um alto desempenho.
Para controle industrial, desenvolver controladores de alto desempenho com poucas amostras e baixa dívida técnica é altamente desejável. Modelos de base, que possuem conhecimento prévio rico obtido por meio de pré-treinamento com corpus em escala da internet, têm o potencial de se tornarem bons controladores quando devidamente instruídos. Neste artigo, utilizamos o controle de HVAC (Aquecimento, Ventilação e Ar Condicionado) em edifícios como exemplo para examinar a capacidade do GPT-4 (um dos principais modelos de base) como controlador. Para controlar o HVAC, encapsulamos a tarefa como um jogo de linguagem, fornecendo ao GPT-4, em cada etapa, um texto que inclui uma breve descrição da tarefa, várias demonstrações selecionadas e a observação atual, e executamos as ações respondidas pelo GPT-4. Realizamos uma série de experimentos para responder às seguintes perguntas: 1) Quão bem o GPT-4 pode controlar o HVAC? 2) Quão bem o GPT-4 pode generalizar para diferentes cenários de controle de HVAC? 3) Como diferentes partes do contexto textual afetam o desempenho? Em geral, descobrimos que o GPT-4 alcança um desempenho comparável aos métodos de RL (Aprendizado por Reforço) com poucas amostras e baixa dívida técnica, indicando o potencial de aplicar diretamente modelos de base a tarefas de controle industrial.
Recentemente, os Campos de Radiação Neural (NeRF) têm demonstrado sucesso significativo na síntese de novas perspectivas, reconstrução de superfícies, entre outras aplicações. No entanto, como nenhuma reflexão física é considerada em seu pipeline de renderização, o NeRF interpreta a reflexão no espelho como uma cena virtual separada, resultando na reconstrução imprecisa do espelho e em reflexões inconsistentes em múltiplas perspectivas no espelho. Neste artigo, apresentamos uma nova estrutura de renderização neural, denominada Mirror-NeRF, que é capaz de aprender a geometria e a reflexão precisas do espelho e suportar diversas aplicações de manipulação de cenas com espelhos, como adicionar novos objetos ou espelhos à cena e sintetizar as reflexões desses novos objetos nos espelhos, controlar a rugosidade do espelho, entre outras. Para alcançar esse objetivo, propomos um campo de radiação unificado ao introduzir a probabilidade de reflexão e traçar raios seguindo o modelo de transporte de luz do Whitted Ray Tracing, além de desenvolver várias técnicas para facilitar o processo de aprendizado. Experimentos e comparações em conjuntos de dados sintéticos e reais demonstram a superioridade do nosso método. O código e o material suplementar estão disponíveis na página do projeto: https://zju3dv.github.io/Mirror-NeRF/.
O desenvolvimento de bibliotecas de software para aprendizado profundo possibilitou avanços significativos na área, permitindo que os usuários se concentrassem na modelagem, enquanto a biblioteca se encarregava da tarefa tediosa e demorada de otimizar a execução para aceleradores de hardware modernos. No entanto, isso beneficiou apenas tipos específicos de modelos de aprendizado profundo, como os Transformers, cujas primitivas se mapeiam facilmente para a computação vetorizada. Os modelos que explicitamente consideram objetos estruturados, como árvores e segmentações, não se beneficiaram da mesma forma, pois exigem algoritmos personalizados que são difíceis de implementar de forma vetorizada. O SynJax aborda diretamente esse problema ao fornecer uma implementação eficiente e vetorizada de algoritmos de inferência para distribuições estruturadas, abrangendo alinhamento, etiquetagem, segmentação, árvores de constituintes e árvores de abrangência. Com o SynJax, podemos construir modelos diferenciáveis em larga escala que explicitamente modelam a estrutura nos dados. O código está disponível em https://github.com/deepmind/synjax.
A quantização tornou-se uma técnica de compressão predominante para reduzir o tamanho do modelo, os requisitos computacionais e o consumo de energia em redes neurais profundas (DNNs) modernas. Com o suporte numérico aprimorado em hardware recente, incluindo múltiplas variantes de inteiros e ponto flutuante, a quantização de precisão mista tornou-se necessária para alcançar resultados de alta qualidade com baixo custo de modelo. Métodos anteriores de quantização de precisão mista realizaram uma busca de quantização pós-treinamento, o que compromete a precisão, ou uma busca de quantização diferenciável, que resulta em alto uso de memória devido ao ramificamento. Portanto, propomos a primeira busca de quantização de precisão mista em uma única etapa que elimina a necessidade de retreinamento tanto em modelos de inteiros quanto de ponto flutuante de baixa precisão. Avaliamos nossa busca de quantização de ponto flutuante e inteiro (FLIQS) em várias redes convolucionais e modelos de transformadores de visão para descobrir modelos Pareto-ótimos. Nossa abordagem descobre modelos que superam a precisão uniforme, a precisão mista manual e os métodos recentes de busca de quantização de inteiros. Com a busca de quantização de inteiros proposta, aumentamos a precisão do ResNet-18 no ImageNet em 1,31 pontos percentuais e do ResNet-50 em 0,90 pontos percentuais com custo de modelo equivalente em relação a métodos anteriores. Além disso, pela primeira vez, exploramos uma nova busca de ponto flutuante de precisão mista e melhoramos o MobileNetV2 em até 0,98 pontos percentuais em comparação com os modelos FP8 de última geração anteriores. Por fim, estendemos o FLIQS para pesquisar simultaneamente um espaço de quantização conjunta e arquitetura neural e melhoramos a precisão do ImageNet em 2,69 pontos percentuais com custo de modelo semelhante em um espaço de busca do MobileNetV2.
Modelos generativos profundos podem gerar áudio de alta fidelidade condicionado a diversos tipos de representações (por exemplo, mel-espectrogramas, coeficientes cepstrais em frequência Mel (MFCC)). Recentemente, tais modelos têm sido usados para sintetizar formas de onda de áudio condicionadas a representações altamente comprimidas. Embora esses métodos produzam resultados impressionantes, eles tendem a gerar artefatos audíveis quando o condicionamento é falho ou imperfeito. Uma abordagem alternativa de modelagem é o uso de modelos de difusão. No entanto, esses modelos têm sido principalmente utilizados como vocoders de fala (ou seja, condicionados a mel-espectrogramas) ou para gerar sinais com taxa de amostragem relativamente baixa. Neste trabalho, propomos uma estrutura baseada em difusão multibanda de alta fidelidade que gera qualquer tipo de modalidade de áudio (por exemplo, fala, música, sons ambientais) a partir de representações discretas de baixa taxa de bits. Em taxas de bits iguais, a abordagem proposta supera as técnicas generativas de última geração em termos de qualidade perceptual. O código de treinamento e avaliação, juntamente com amostras de áudio, estão disponíveis na página do Github facebookresearch/audiocraft.