Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) são úteis em muitas tarefas de PLN e se tornam mais capazes com o aumento de tamanho, com os melhores modelos de código aberto possuindo mais de 50 bilhões de parâmetros. No entanto, o uso desses modelos com 50B+ de parâmetros requer hardware de alta performance, tornando-os inacessíveis para a maioria dos pesquisadores. Neste trabalho, investigamos métodos para inferência e ajuste fino de LLMs de forma econômica, comparando estratégias locais e distribuídas. Observamos que um modelo suficientemente grande (50B+) pode ser executado de forma eficiente mesmo em dispositivos geodistribuídos em uma rede de nível consumidor. Isso poderia permitir a execução eficiente de LLMs ao agrupar recursos de computação ociosos de múltiplos grupos de pesquisa e voluntários. Abordamos dois problemas em aberto: (1) como realizar inferência e ajuste fino de forma confiável se qualquer dispositivo pode se desconectar abruptamente e (2) como particionar LLMs entre dispositivos com hardware desigual, que podem entrar e sair a qualquer momento. Para isso, desenvolvemos algoritmos especiais de inferência tolerante a falhas e protocolos de balanceamento de carga que atribuem automaticamente dispositivos para maximizar o throughput total do sistema. Demonstramos esses algoritmos no Petals - um sistema descentralizado que executa Llama 2 (70B) e BLOOM (176B) pela Internet com até 10x mais velocidade do que o offloading para geração interativa. Avaliamos o desempenho do nosso sistema em condições simuladas e em uma configuração real abrangendo dois continentes.
Os métodos existentes de segmentação de imagens de vocabulário aberto exigem uma etapa de ajuste fino em anotações de máscaras e/ou conjuntos de dados de imagem-texto. As etiquetas de máscaras são intensivas em mão de obra, o que limita o número de categorias em conjuntos de dados de segmentação. Como resultado, a capacidade de vocabulário aberto dos VLMs (Modelos de Linguagem Visual) pré-treinados é severamente reduzida após o ajuste fino. No entanto, sem o ajuste fino, os VLMs treinados sob supervisão fraca de imagem-texto tendem a fazer previsões de máscara subótimas quando há consultas de texto que se referem a conceitos inexistentes na imagem. Para aliviar esses problemas, introduzimos uma nova estrutura recorrente que filtra progressivamente textos irrelevantes e melhora a qualidade da máscara sem esforços de treinamento. A unidade recorrente é um segmentador de dois estágios construído sobre um VLM com pesos congelados. Assim, nosso modelo retém o amplo espaço de vocabulário do VLM e fortalece sua capacidade de segmentação. Os resultados experimentais mostram que nosso método supera não apenas as contrapartes sem treinamento, mas também aquelas ajustadas com milhões de amostras de dados adicionais, e estabelece novos recordes de estado da arte para tarefas de segmentação semântica e de referência de imagem zero-shot. Especificamente, melhoramos o recorde atual em 28,8, 16,0 e 6,9 mIoU no Pascal VOC, COCO Object e Pascal Context.
Ambientes simulados em 3D desempenham um papel crucial na Inteligência Artificial Embarcada, mas sua criação exige expertise e esforço manual extensivo, limitando sua diversidade e escopo. Para mitigar essa limitação, apresentamos o Holodeck, um sistema que gera ambientes 3D de forma totalmente automatizada com base em um prompt fornecido pelo usuário. O Holodeck pode gerar cenas diversas, como arcades, spas e museus, ajustar os designs para diferentes estilos e capturar a semântica de consultas complexas, como "apartamento para um pesquisador com um gato" e "escritório de um professor que é fã de Star Wars". O Holodeck utiliza um modelo de linguagem de grande escala (GPT-4) para obter conhecimento de senso comum sobre como a cena pode parecer e emprega uma vasta coleção de ativos 3D do Objaverse para preencher a cena com objetos diversos. Para resolver o desafio de posicionar os objetos corretamente, solicitamos ao GPT-4 que gere restrições de relações espaciais entre os objetos e, em seguida, otimizamos o layout para satisfazer essas restrições. Nossa avaliação humana em larga escala mostra que os anotadores preferem o Holodeck em comparação com baselines procedurais projetadas manualmente em cenas residenciais e que o Holodeck pode produzir saídas de alta qualidade para diversos tipos de cenas. Também demonstramos uma aplicação empolgante do Holodeck na Inteligência Artificial Embarcada, treinando agentes para navegar em cenas novas, como salas de música e creches, sem dados construídos por humanos, o que representa um avanço significativo no desenvolvimento de agentes embarcados de propósito geral.
Este trabalho visa melhorar a eficiência dos modelos de difusão texto-imagem. Embora os modelos de difusão utilizem operações de remoção de ruído baseadas em UNet, que são computacionalmente caras, em cada etapa de geração, identificamos que nem todas as operações são igualmente relevantes para a qualidade final da saída. Em particular, observamos que as camadas da UNet que operam em mapas de características de alta resolução são relativamente sensíveis a pequenas perturbações. Em contraste, os mapas de características de baixa resolução influenciam o layout semântico da imagem final e podem frequentemente ser perturbados sem alterações perceptíveis na saída. Com base nessa observação, propomos o Clockwork Diffusion, um método que reutiliza periodicamente cálculos de etapas anteriores de remoção de ruído para aproximar mapas de características de baixa resolução em uma ou mais etapas subsequentes. Para múltiplas linhas de base, tanto na geração de texto-imagem quanto na edição de imagens, demonstramos que o Clockwork leva a pontuações perceptivas comparáveis ou melhoradas com uma redução drástica na complexidade computacional. Como exemplo, para o Stable Diffusion v1.5 com 8 passos DPM++, economizamos 32% de FLOPs com mudanças insignificantes no FID e no CLIP.
Apresentamos o FoundationPose, um modelo de base unificado para estimação e rastreamento de pose 6D de objetos, suportando configurações baseadas em modelo e livres de modelo. Nossa abordagem pode ser aplicada instantaneamente em tempo de teste a um novo objeto sem necessidade de ajuste fino, desde que seu modelo CAD seja fornecido ou um pequeno número de imagens de referência seja capturado. Reduzimos a lacuna entre essas duas configurações com uma representação neural implícita que permite uma síntese eficaz de novas perspectivas, mantendo os módulos de estimação de pose subsequentes invariantes sob o mesmo framework unificado. Uma forte generalizabilidade é alcançada por meio de treinamento sintético em larga escala, auxiliado por um modelo de linguagem de grande escala (LLM), uma nova arquitetura baseada em transformers e uma formulação de aprendizado contrastivo. Avaliações extensas em múltiplos conjuntos de dados públicos envolvendo cenários e objetos desafiadores indicam que nossa abordagem unificada supera os métodos existentes especializados para cada tarefa por uma grande margem. Além disso, ela alcança resultados comparáveis aos métodos de nível de instância, apesar das suposições reduzidas. Página do projeto: https://nvlabs.github.io/FoundationPose/
Modelos de linguagem de grande escala (LLMs) enfrentam desafios ao resolver problemas matemáticos complexos que exigem capacidades abrangentes para analisar as afirmações, associar conhecimentos de domínio, realizar raciocínio lógico composto e integrar as racionalizações intermediárias. Abordar todos esses problemas de uma vez pode ser árduo para os LLMs, levando assim à confusão na geração. Neste trabalho, exploramos o potencial de aprimorar os LLMs com agentes por meio da decomposição meticulosa e modelagem do processo de raciocínio matemático. Especificamente, propomos uma descrição formal da resolução matemática e estendemos os LLMs com uma estrutura zero-shot baseada em agentes chamada Planejador-Raciocinador-Executor-Refletor (PRER). Além disso, fornecemos e implementamos dois MathAgents que definem as formas lógicas e relações inerentes por meio de um conjunto de ações em diferentes granularidades e orientações: o MathAgent-M adapta suas ações aos LLMs, enquanto o MathAgent-H se alinha com a humanidade. Experimentos no miniF2F e MATH demonstraram a eficácia do PRER e dos MathAgents propostos, alcançando um aumento de 12,3% (53,9%→66,2%) no miniF2F, 9,2% (49,8%→59,0%) no MATH e 13,2% (23,2%→35,4%) para problemas de nível 5 do MATH em comparação com o GPT-4. Resultados analíticos adicionais fornecem perspectivas mais profundas sobre a exploração dos comportamentos dos LLMs como agentes.
A descoberta de racional é definida como encontrar um subconjunto dos dados de entrada que maximiza o suporte à previsão de tarefas subsequentes. No contexto de aprendizado de máquina em grafos, o racional de grafo é definido como a localização do subgrafo crítico na topologia do grafo dado, que fundamentalmente determina os resultados da previsão. Em contraste com o subgrafo racional, o subgrafo restante é denominado subgrafo ambiente. A racionalização de grafos pode melhorar o desempenho do modelo, pois o mapeamento entre o racional de grafo e o rótulo de previsão é considerado invariante, por suposição. Para garantir o poder discriminativo dos subgrafos racionais extraídos, uma técnica-chave chamada "intervenção" é aplicada. A ideia central da intervenção é que, dados quaisquer subgrafos ambiente em mudança, a semântica do subgrafo racional permanece invariante, o que garante o resultado correto da previsão. No entanto, a maioria, se não todas, das abordagens existentes de racionalização em dados de grafos desenvolvem suas estratégias de intervenção no nível do grafo, o que é grosseiro. Neste artigo, propomos estratégias de intervenção bem ajustadas em dados de grafos. Nossa ideia é impulsionada pelo desenvolvimento de modelos Transformer, cujo módulo de auto-atenção fornece interações ricas entre os nós de entrada. Com base no módulo de auto-atenção, nosso Transformer de Grafo Invariante (IGT) proposto pode alcançar intervenção em nível fino, mais especificamente, em nível de nó e em nível de nó virtual. Nossos experimentos abrangentes envolvem 7 conjuntos de dados do mundo real, e o IGT proposto mostra vantagens significativas de desempenho em comparação com 13 métodos de linha de base.
Avanços recentes em renderização neural demonstraram que, embora lentos, modelos compactos implícitos podem aprender as geometrias de uma cena e aparências dependentes da visão a partir de múltiplas perspectivas. Para manter uma pegada de memória tão pequena, mas alcançar tempos de inferência mais rápidos, trabalhos recentes adotaram redes `sampler` que amostram de forma adaptativa um pequeno subconjunto de pontos ao longo de cada raio nos campos de radiação neural implícitos. Embora esses métodos alcancem uma redução de até 10 vezes no tempo de renderização, eles ainda sofrem com uma degradação considerável de qualidade em comparação com o NeRF tradicional. Em contraste, propomos o ProNeRF, que oferece um equilíbrio ideal entre pegada de memória (semelhante ao NeRF), velocidade (mais rápido que o HyperReel) e qualidade (melhor que o K-Planes). O ProNeRF é equipado com uma nova rede de amostragem consciente da projeção (PAS) juntamente com uma nova estratégia de treinamento para exploração e exploração de raios, permitindo uma amostragem eficiente de partículas em nível fino. Nosso ProNeRF produz métricas de última geração, sendo 15-23 vezes mais rápido com um PSNR 0,65 dB maior que o NeRF e gerando um PSNR 0,95 dB maior que o melhor método baseado em sampler publicado, o HyperReel. Nossa estratégia de treinamento de exploração e exploração permite que o ProNeRF aprenda as distribuições completas de cor e densidade das cenas, ao mesmo tempo em que aprende uma amostragem eficiente de raios focada nas regiões de maior densidade. Fornecemos resultados experimentais extensos que apoiam a eficácia do nosso método nos amplamente adotados conjuntos de dados de visão frontal e 360, LLFF e Blender, respectivamente.