Artigos de pesquisa em IA selecionados diariamente com traduções
Uma melhor compreensão das habilidades de análise jurídica dos Modelos de Linguagem de Grande Escala (LLMs) pode contribuir para melhorar a eficiência dos serviços jurídicos, governar a inteligência artificial e aproveitar os LLMs para identificar inconsistências na lei. Este artigo explora as capacidades dos LLMs na aplicação da legislação tributária. Escolhemos essa área do direito porque ela possui uma estrutura que nos permite configurar pipelines de validação automatizados em milhares de exemplos, exige raciocínio lógico e habilidades matemáticas, e nos permite testar as capacidades dos LLMs de uma maneira relevante para as vidas econômicas reais de cidadãos e empresas. Nossos experimentos demonstram capacidades emergentes de compreensão jurídica, com desempenho aprimorado em cada lançamento subsequente de modelos da OpenAI. Experimentamos com a recuperação e utilização da autoridade legal relevante para avaliar o impacto de fornecer contexto jurídico adicional aos LLMs. O prompting de poucos exemplos, apresentando pares de perguntas e respostas, também foi encontrado para melhorar significativamente o desempenho do modelo mais avançado, GPT-4. Os resultados indicam que os LLMs, particularmente quando combinados com aprimoramentos de prompting e os textos jurídicos corretos, podem atingir altos níveis de precisão, mas ainda não em níveis de um especialista em direito tributário. À medida que os LLMs continuam a avançar, sua capacidade de raciocinar sobre a lei de forma autônoma pode ter implicações significativas para a profissão jurídica e a governança da IA.
Modelos de difusão têm demonstrado excelente potencial para gerar imagens diversas. No entanto, seu desempenho frequentemente sofre com a geração lenta devido ao processo iterativo de remoção de ruído. A destilação de conhecimento foi recentemente proposta como uma solução que pode reduzir o número de etapas de inferência para uma ou poucas, sem degradação significativa da qualidade. Contudo, os métodos de destilação existentes ou exigem uma quantidade significativa de computação offline para gerar dados de treinamento sintéticos a partir do modelo professor ou precisam realizar um aprendizado online caro com o auxílio de dados reais. Neste trabalho, apresentamos uma técnica inovadora chamada BOOT, que supera essas limitações com um algoritmo eficiente de destilação sem dados. A ideia central é aprender um modelo condicionado no tempo que prevê a saída de um modelo de difusão pré-treinado (professor) dado qualquer passo de tempo. Esse modelo pode ser treinado de forma eficiente com base em bootstrapping a partir de dois passos amostrados consecutivos. Além disso, nosso método pode ser facilmente adaptado a modelos de difusão de texto para imagem em larga escala, que são desafiadores para métodos convencionais, considerando que os conjuntos de treinamento são frequentemente grandes e de difícil acesso. Demonstramos a eficácia de nossa abordagem em vários conjuntos de dados de referência no cenário DDIM, alcançando qualidade de geração comparável enquanto sendo ordens de magnitude mais rápido que o modelo de difusão professor. Os resultados de texto para imagem mostram que a abordagem proposta é capaz de lidar com distribuições altamente complexas, lançando luz sobre uma modelagem generativa mais eficiente.
Sistemas de IA generativa em diversas modalidades, como texto, imagem, áudio e vídeo, têm amplos impactos sociais, mas não existe um padrão oficial para avaliar esses impactos ou quais impactos devem ser avaliados. Avançamos em direção a uma abordagem padronizada para avaliar um sistema de IA generativa em qualquer modalidade, em duas categorias principais: o que pode ser avaliado em um sistema base que não tem uma aplicação predeterminada e o que pode ser avaliado na sociedade. Descrevemos categorias específicas de impacto social e como abordar e conduzir avaliações no sistema técnico base, e depois em pessoas e sociedade. Nosso framework para um sistema base define sete categorias de impacto social: viés, estereótipos e danos representacionais; valores culturais e conteúdo sensível; desempenho desigual; privacidade e proteção de dados; custos financeiros; custos ambientais; e custos de moderação de dados e conteúdo. Métodos sugeridos para avaliação aplicam-se a todas as modalidades, e análises das limitações das avaliações existentes servem como ponto de partida para o investimento necessário em avaliações futuras. Oferecemos cinco categorias principais para o que pode ser avaliado na sociedade, cada uma com suas próprias subcategorias: confiabilidade e autonomia; desigualdade, marginalização e violência; concentração de autoridade; trabalho e criatividade; e ecossistema e meio ambiente. Cada subcategoria inclui recomendações para mitigar danos. Estamos simultaneamente criando um repositório de avaliações para a comunidade de pesquisa em IA contribuir com avaliações existentes ao longo das categorias fornecidas. Esta versão será atualizada após uma sessão CRAFT na ACM FAccT 2023.
O que constitui a "vibe" de uma cena específica? O que se deve encontrar em "uma rua movimentada e suja de uma cidade", "um campo idílico" ou "uma cena de crime em uma sala de estar abandonada"? A tradução de descrições abstratas de cenas para elementos estilizados de cena não pode ser feita com generalidade por sistemas existentes treinados em conjuntos de dados internos rígidos e limitados. Neste artigo, propomos aproveitar o conhecimento capturado por modelos de fundação para realizar essa tradução. Apresentamos um sistema que pode servir como uma ferramenta para gerar recursos estilizados para cenas 3D descritas por uma frase curta, sem a necessidade de enumerar os objetos a serem encontrados na cena ou fornecer instruções sobre sua aparência. Além disso, ele é robusto a conceitos de mundo aberto de uma forma que métodos tradicionais treinados em dados limitados não são, proporcionando mais liberdade criativa ao artista 3D. Nosso sistema demonstra isso usando uma "equipe" de modelos de fundação composta por um modelo de linguagem grande, um modelo de visão-linguagem e vários modelos de difusão de imagens, que se comunicam usando uma representação intermediária interpretável e editável pelo usuário, permitindo assim uma geração de recursos estilizados mais versátil e controlável para artistas 3D. Introduzimos novas métricas para essa tarefa e mostramos, por meio de avaliações humanas, que em 91% dos casos, as saídas do nosso sistema são julgadas mais fiéis à semântica da descrição da cena de entrada do que a linha de base, destacando o potencial dessa abordagem para acelerar radicalmente o processo de criação de conteúdo 3D para artistas 3D.
O objetivo deste artigo é a detecção de objetos de vocabulário aberto (OVOD, na sigla em inglês) – construir um modelo capaz de detectar objetos além do conjunto de categorias vistas durante o treinamento, permitindo assim que o usuário especifique categorias de interesse durante a inferência sem a necessidade de retreinar o modelo. Adotamos uma arquitetura padrão de detector de objetos em dois estágios e exploramos três maneiras de especificar categorias novas: por meio de descrições em linguagem natural, por meio de exemplos de imagens ou por meio de uma combinação das duas. Fazemos três contribuições: primeiro, solicitamos que um modelo de linguagem de grande escala (LLM) gere descrições informativas em linguagem natural para classes de objetos, construindo classificadores baseados em texto poderosos; segundo, empregamos um agregador visual em exemplos de imagens que pode processar qualquer número de imagens como entrada, formando classificadores baseados em visão; e terceiro, fornecemos um método simples para fundir informações de descrições em linguagem natural e exemplos de imagens, resultando em um classificador multimodal. Ao avaliar no desafiador benchmark LVIS de vocabulário aberto, demonstramos que: (i) nossos classificadores baseados em texto superam todos os trabalhos anteriores de OVOD; (ii) nossos classificadores baseados em visão têm desempenho equivalente aos classificadores baseados em texto em trabalhos anteriores; (iii) o uso de classificadores multimodais apresenta desempenho superior ao de qualquer modalidade isolada; e, finalmente, (iv) nossos classificadores baseados em texto e multimodais alcançam desempenho melhor do que um detector totalmente supervisionado.
Neural Radiance Fields (NeRF) têm demonstrado resultados impressionantes na síntese de novas visões; no entanto, mesmo gravações detalhadas apresentam imperfeições nas reconstruções, por exemplo, devido a áreas mal observadas ou pequenas mudanças de iluminação. Nosso objetivo é mitigar essas imperfeições de várias fontes com uma solução conjunta: aproveitamos a capacidade das redes adversariais generativas (GANs) de produzir imagens realistas e as utilizamos para aprimorar o realismo na reconstrução de cenas 3D com NeRFs. Para isso, aprendemos a distribuição de patches de uma cena usando um discriminador adversarial, que fornece feedback para a reconstrução do campo de radiação, melhorando assim o realismo de forma consistente em 3D. Dessa maneira, artefatos de renderização são corrigidos diretamente na representação 3D subjacente, impondo restrições de renderização de caminho multi-visão. Além disso, condicionamos um gerador com renderizações NeRF de múltiplas resoluções, que é treinado de forma adversarial para melhorar ainda mais a qualidade da renderização. Demonstramos que nossa abordagem melhora significativamente a qualidade da renderização, por exemplo, reduzindo quase pela metade os escores LPIPS em comparação com o Nerfacto, ao mesmo tempo em que melhora o PSNR em 1,4 dB nas cenas internas avançadas do Tanks and Temples.
As operações de edição comuns realizadas por fotógrafos profissionais incluem as operações de limpeza: desenfatizar elementos distrativos e realçar os sujeitos. Essas edições são desafiadoras, exigindo um equilíbrio delicado entre manipular a atenção do espectador e manter o realismo fotográfico. Embora abordagens recentes possam exibir exemplos bem-sucedidos de atenuação ou ampliação da atenção, a maioria delas também sofre com edições irrealistas frequentes. Propomos uma função de perda de realismo para aprimoramento de imagens guiado por saliência, a fim de manter um alto realismo em diversos tipos de imagem, enquanto atenua distrações e amplifica objetos de interesse. Avaliações com fotógrafos profissionais confirmam que alcançamos o duplo objetivo de realismo e eficácia, superando as abordagens recentes em seus próprios conjuntos de dados, enquanto exigimos uma menor pegada de memória e tempo de execução. Assim, oferecemos uma solução viável para automatizar o aprimoramento de imagens e as operações de limpeza fotográfica.