Artigos de pesquisa em IA selecionados diariamente com traduções
A automação web é uma técnica significativa que realiza tarefas complexas na web automatizando ações comuns, aumentando a eficiência operacional e reduzindo a necessidade de intervenção manual. Métodos tradicionais, como wrappers, sofrem com adaptabilidade e escalabilidade limitadas quando confrontados com um novo site. Por outro lado, agentes generativos impulsionados por modelos de linguagem de grande escala (LLMs) apresentam desempenho e reutilização insatisfatórios em cenários de mundo aberto. Neste trabalho, introduzimos uma tarefa de geração de crawlers para páginas web de informação vertical e o paradigma de combinar LLMs com crawlers, o que ajuda os crawlers a lidar com ambientes web diversos e em constante mudança de forma mais eficiente. Propomos o AutoCrawler, um framework de dois estágios que aproveita a estrutura hierárquica do HTML para compreensão progressiva. Por meio de operações de cima para baixo e de retrocesso, o AutoCrawler pode aprender com ações errôneas e podar continuamente o HTML para melhor geração de ações. Realizamos experimentos abrangentes com múltiplos LLMs e demonstramos a eficácia do nosso framework. Os recursos deste artigo podem ser encontrados em https://github.com/EZ-hwh/AutoCrawler.
Apresentamos o Groma, um Modelo de Linguagem Multimodal de Grande Escala (MLLM) com capacidade de percepção visual fundamentada e detalhada. Além da compreensão holística de imagens, o Groma é especializado em tarefas em nível de região, como descrição de regiões e fundamentação visual. Essas capacidades são construídas sobre um mecanismo de tokenização visual localizada, onde uma imagem de entrada é decomposta em regiões de interesse e subsequentemente codificada em tokens de região. Ao integrar tokens de região nas instruções do usuário e nas respostas do modelo, permitimos que o Groma compreenda entradas de região especificadas pelo usuário e fundamenta sua saída textual em imagens. Além disso, para aprimorar a capacidade de chat fundamentado do Groma, criamos um conjunto de dados de instruções visualmente fundamentadas, utilizando o poderoso GPT-4V e técnicas de prompt visual. Em comparação com MLLMs que dependem do modelo de linguagem ou de módulos externos para localização, o Groma demonstra consistentemente desempenhos superiores em benchmarks padrão de referência e fundamentação, destacando as vantagens de incorporar a localização na tokenização de imagens. Página do projeto: https://groma-mllm.github.io/.
A resposta visual a perguntas centrada em texto (VQA) fez grandes avanços com o desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs), mas os modelos de código aberto ainda ficam aquém dos líderes como GPT4V e Gemini, em parte devido à falta de dados extensivos e de alta qualidade para ajuste por instrução. Para isso, introduzimos uma nova abordagem para criar um conjunto de dados massivo e de alta qualidade para ajuste por instrução, o Square-10M, gerado usando MLLMs de código fechado. O processo de construção dos dados, denominado Square, consiste em quatro etapas: Autoquestionamento, Resposta, Raciocínio e Avaliação. Nossos experimentos com o Square-10M resultaram em três descobertas principais: 1) Nosso modelo, TextSquare, supera consideravelmente os MLLMs centrados em texto de código aberto anteriores e estabelece um novo padrão no OCRBench (62,2%). Ele até supera modelos de ponta como GPT4V e Gemini em 6 de 10 benchmarks centrados em texto. 2) Além disso, demonstramos o papel crucial dos dados de raciocínio VQA em fornecer insights contextuais abrangentes para perguntas específicas. Isso não apenas melhora a precisão, mas também mitiga significativamente as alucinações. Especificamente, o TextSquare obtém uma média de 75,1% em quatro conjuntos de dados gerais de avaliação VQA e de alucinação, superando os modelos state-of-the-art anteriores. 3) Notavelmente, o fenômeno observado na escalabilidade de conjuntos de dados VQA centrados em texto revela um padrão claro: o aumento exponencial do volume de dados de ajuste por instrução é diretamente proporcional à melhoria no desempenho do modelo, validando assim a necessidade da escala do conjunto de dados e a alta qualidade do Square-10M.
Interações realistas com objetos são cruciais para criar experiências virtuais imersivas, mas a síntese de dinâmicas 3D realistas em resposta a interações novas continua sendo um desafio significativo. Diferente da geração de dinâmicas incondicionais ou condicionadas por texto, a geração de dinâmicas condicionadas por ação requer a percepção das propriedades físicas dos materiais dos objetos e a fundamentação da previsão de movimento 3D nessas propriedades, como a rigidez do objeto. No entanto, estimar as propriedades físicas dos materiais é um problema em aberto devido à falta de dados de verdade terrestre sobre materiais, já que medir essas propriedades para objetos reais é altamente difícil. Apresentamos o PhysDreamer, uma abordagem baseada em física que confere dinâmicas interativas a objetos 3D estáticos, aproveitando os conhecimentos prévios sobre dinâmicas de objetos aprendidos por modelos de geração de vídeo. Ao destilar esses conhecimentos prévios, o PhysDreamer permite a síntese de respostas realistas de objetos a interações novas, como forças externas ou manipulações por agentes. Demonstramos nossa abordagem em diversos exemplos de objetos elásticos e avaliamos o realismo das interações sintetizadas por meio de um estudo com usuários. O PhysDreamer dá um passo em direção a experiências virtuais mais envolventes e realistas, permitindo que objetos 3D estáticos respondam dinamicamente a estímulos interativos de maneira fisicamente plausível. Veja nossa página do projeto em https://physdreamer.github.io/.
A reescrita de consultas, que visa gerar consultas mais eficientes alterando a estrutura de uma consulta SQL sem mudar o resultado da consulta, tem sido um importante problema de pesquisa. Para manter a equivalência entre a consulta reescrita e a original durante a reescrita, os métodos tradicionais de reescrita de consultas sempre reescrevem as consultas seguindo certas regras de reescrita. No entanto, alguns problemas ainda persistem. Em primeiro lugar, os métodos existentes para encontrar a escolha ou sequência ótima de regras de reescrita ainda são limitados, e o processo sempre consome muitos recursos. Métodos que envolvem a descoberta de novas regras de reescrita geralmente exigem provas complicadas de lógica estrutural ou interações extensas com o usuário. Em segundo lugar, os métodos atuais de reescrita de consultas geralmente dependem muito de estimadores de custo de SGBD, que muitas vezes não são precisos. Neste artigo, abordamos esses problemas propondo um novo método de reescrita de consultas chamado LLM-R2, que adota um modelo de linguagem de grande escala (LLM) para propor possíveis regras de reescrita para um sistema de reescrita de banco de dados. Para melhorar ainda mais a capacidade de inferência do LLM na recomendação de regras de reescrita, treinamos um modelo contrastivo por currículo para aprender representações de consultas e selecionar demonstrações eficazes de consultas para o LLM. Os resultados experimentais mostraram que nosso método pode melhorar significativamente a eficiência de execução de consultas e superar os métodos de linha de base. Além disso, nosso método apresenta alta robustez em diferentes conjuntos de dados.
O 3D Gaussian Splatting tem sido recentemente adotado como um método versátil e eficaz para reconstrução de cenas e síntese de novas perspectivas, graças aos seus resultados de alta qualidade e compatibilidade com rasterização em hardware. Apesar de suas vantagens, a dependência do Gaussian Splatting em uma inicialização de nuvem de pontos de alta qualidade por meio de algoritmos de Structure-from-Motion (SFM) representa uma limitação significativa a ser superada. Para isso, investigamos diversas estratégias de inicialização para o Gaussian Splatting e exploramos como reconstruções volumétricas a partir de Neural Radiance Fields (NeRF) podem ser utilizadas para contornar a dependência de dados SFM. Nossos resultados demonstram que uma inicialização aleatória pode ter um desempenho muito melhor se cuidadosamente projetada e que, ao empregar uma combinação de estratégias de inicialização aprimoradas e destilação de estrutura a partir de modelos NeRF de baixo custo, é possível alcançar resultados equivalentes ou, em alguns casos, até superiores aos obtidos com inicialização SFM.
Recentemente, várias técnicas de Reparo Automatizado de Programas (APR) baseadas em Modelos de Linguagem de Grande Escala (LLMs) foram propostas para melhorar o desempenho do reparo. Embora essas técnicas se concentrem principalmente no reparo em nível de linha única ou de bloco, elas enfrentam desafios significativos em aplicações do mundo real devido ao escopo limitado da tarefa de reparo e à localização de falhas em nível de instrução, que é custosa. No entanto, o APR em nível de função, que é mais prático ao ampliar o escopo da tarefa de APR para corrigir funções inteiras com bugs e requer apenas a localização de falhas em nível de função, que é mais eficiente em termos de custo, permanece pouco explorado. Neste artigo, realizamos o primeiro estudo abrangente de APR em nível de função baseado em LLMs, incluindo a investigação do efeito do mecanismo de aprendizado few-shot e das informações auxiliares relevantes para o reparo. Especificamente, adotamos seis LLMs amplamente estudados e construímos um benchmark nos conjuntos de dados Defects4J 1.2 e 2.0. Nosso estudo demonstra que LLMs com aprendizado zero-shot já são técnicas poderosas de APR em nível de função, enquanto a aplicação do mecanismo de aprendizado few-shot leva a desempenhos de reparo distintos. Além disso, descobrimos que a aplicação direta de informações auxiliares relevantes para o reparo aos LLMs aumenta significativamente o desempenho do reparo em nível de função. Inspirados por nossas descobertas, propomos uma técnica de APR em nível de função baseada em LLMs, denominada SRepair, que adota uma estrutura de LLM duplo para aproveitar o poder das informações auxiliares relevantes para o reparo e avançar o desempenho do reparo. Os resultados da avaliação demonstram que o SRepair pode corrigir corretamente 300 bugs de função única no conjunto de dados Defects4J, superando amplamente todas as técnicas de APR anteriores em pelo menos 85%, sem a necessidade de informações custosas de localização de falhas em nível de instrução. Além disso, o SRepair corrige com sucesso 32 bugs de múltiplas funções no conjunto de dados Defects4J, o que, até onde sabemos, é a primeira vez que isso é alcançado por qualquer técnica de APR.