Artigos de pesquisa em IA selecionados diariamente com traduções
Dadas duas imagens que retratam uma pessoa e uma peça de roupa vestida por outra pessoa, nosso objetivo é gerar uma visualização de como a peça de roupa poderia parecer na pessoa de entrada. Um desafio crucial é sintetizar uma visualização fotorealista que preserve os detalhes da peça de roupa, enquanto deforma a peça para acomodar uma mudança significativa na postura e na forma corporal entre os indivíduos. Métodos anteriores ou se concentram na preservação dos detalhes da peça de roupa sem variação eficaz de postura e forma, ou permitem a experimentação virtual com a forma e postura desejadas, mas carecem de detalhes na peça de roupa. Neste artigo, propomos uma arquitetura baseada em difusão que unifica duas UNets (denominada Parallel-UNet), o que nos permite preservar os detalhes da peça de roupa e deformá-la para uma mudança significativa de postura e corpo em uma única rede. As ideias-chave por trás do Parallel-UNet incluem: 1) a peça de roupa é deformada implicitamente por meio de um mecanismo de atenção cruzada, 2) a deformação da peça de roupa e a mesclagem com a pessoa ocorrem como parte de um processo unificado, em vez de uma sequência de duas tarefas separadas. Os resultados experimentais indicam que o TryOnDiffusion alcança desempenho de ponta tanto qualitativa quanto quantitativamente.
A natureza reflexiva do olho humano é uma fonte de informação subestimada sobre a aparência do mundo ao nosso redor. Ao capturar imagens dos olhos de uma pessoa em movimento, podemos coletar múltiplas visões de uma cena fora da linha de visão direta da câmera por meio dos reflexos nos olhos. Neste artigo, reconstruímos uma cena 3D além da linha de visão da câmera utilizando imagens de retrato que contêm reflexos nos olhos. Essa tarefa é desafiadora devido a 1) a dificuldade de estimar com precisão as poses dos olhos e 2) a aparência entrelaçada da íris do olho e dos reflexos da cena. Nosso método refina conjuntamente as poses da córnea, o campo de radiação que descreve a cena e a textura da íris do observador. Além disso, propomos um prior de regularização simples no padrão de textura da íris para melhorar a qualidade da reconstrução. Por meio de diversos experimentos com capturas sintéticas e do mundo real, envolvendo pessoas com diferentes cores de olhos, demonstramos a viabilidade de nossa abordagem para recuperar cenas 3D utilizando reflexos nos olhos.
Modelos de Linguagem de Grande Escala para Código (Code LLMs), como o StarCoder, demonstraram desempenho excepcional em tarefas relacionadas a código. No entanto, a maioria dos modelos existentes é pré-treinada exclusivamente em grandes volumes de dados brutos de código, sem ajuste fino por instruções. Neste artigo, apresentamos o WizardCoder, que capacita os Code LLMs com ajuste fino de instruções complexas, adaptando o método Evol-Instruct ao domínio do código. Por meio de experimentos abrangentes em quatro benchmarks proeminentes de geração de código, nomeadamente HumanEval, HumanEval+, MBPP e DS-1000, revelamos as capacidades excepcionais do nosso modelo. Ele supera todos os outros Code LLMs de código aberto por uma margem substancial. Além disso, nosso modelo até supera os maiores LLMs fechados, o Claude da Anthropic e o Bard da Google, no HumanEval e HumanEval+. Nosso código, pesos do modelo e dados estão disponíveis publicamente em https://github.com/nlpxucan/WizardLM.
Pesquisas recentes sobre Modelos de Linguagem de Grande Escala (LLMs) levaram a avanços notáveis em assistentes de IA de Processamento de Linguagem Natural (NLP) de propósito geral. Alguns estudos exploraram ainda mais o uso de LLMs para planejamento e invocação de modelos ou APIs a fim de abordar consultas multimodais mais amplas dos usuários. Apesar desse progresso, tarefas visuais complexas ainda permanecem desafiadoras devido à natureza diversificada das tarefas visuais. Essa diversidade se reflete em dois aspectos: 1) Caminhos de raciocínio. Para muitas aplicações do mundo real, é difícil decompor uma consulta com precisão apenas examinando a consulta em si. Geralmente, é necessário planejar com base no conteúdo visual específico e nos resultados de cada etapa. 2) Entradas e resultados intermediários flexíveis. As formas de entrada podem ser flexíveis para casos do mundo real, envolvendo não apenas uma única imagem ou vídeo, mas uma mistura de vídeos e imagens, por exemplo, uma imagem da visão do usuário com alguns vídeos de referência. Além disso, um processo de raciocínio complexo também gerará resultados intermediários multimodais diversos, como narrações em vídeo, clipes de vídeo segmentados, etc. Para abordar esses casos gerais, propomos um assistente de IA multimodal, o AssistGPT, com uma abordagem de raciocínio intercalado entre código e linguagem chamada Planejar, Executar, Inspecionar e Aprender (PEIL) para integrar LLMs com várias ferramentas. Especificamente, o Planejador é capaz de usar linguagem natural para planejar qual ferramenta no Executor deve ser usada em seguida com base no progresso atual do raciocínio. O Inspetor é um gerenciador de memória eficiente para auxiliar o Planejador a fornecer informações visuais adequadas a uma ferramenta específica. Por fim, como todo o processo de raciocínio é complexo e flexível, um Aprendiz foi projetado para permitir que o modelo explore e descubra autonomamente a solução ideal. Realizamos experimentos nos benchmarks A-OKVQA e NExT-QA, alcançando resultados de ponta. Além disso, demonstrações mostram a capacidade do nosso sistema de lidar com questões muito mais complexas do que as encontradas nos benchmarks.
A Distilação de Conhecimento (KD) é uma técnica promissora para reduzir a alta demanda computacional de grandes modelos de linguagem (LLMs). No entanto, os métodos anteriores de KD são aplicados principalmente a modelos de classificação de caixa branca ou ao treinamento de modelos menores para imitar APIs de modelos de caixa preta, como o ChatGPT. Como efetivamente destilar o conhecimento de LLMs generativos de caixa branca ainda é pouco explorado, tornando-se cada vez mais importante com o crescimento dos LLMs. Neste trabalho, propomos o MiniLLM, que destila modelos de linguagem menores a partir de LLMs generativos maiores. Primeiro, substituímos o objetivo de divergência de Kullback-Leibler (KLD) direta nas abordagens padrão de KD pela KLD reversa, que é mais adequada para KD em modelos de linguagem generativos, para evitar que o modelo estudante superestime as regiões de baixa probabilidade da distribuição do professor. Em seguida, derivamos uma abordagem de otimização eficaz para aprender esse objetivo. Experimentos extensos no cenário de seguimento de instruções mostram que os modelos MiniLLM geram respostas mais precisas, com maior qualidade geral, menor viés de exposição, melhor calibração e maior desempenho na geração de textos longos. Nosso método também é escalável para diferentes famílias de modelos, com parâmetros variando de 120M a 13B. Disponibilizaremos nosso código e checkpoints de modelo em https://aka.ms/MiniLLM.
O desempenho sem precedentes dos grandes modelos de linguagem (LLMs) exige melhorias nas avaliações. Em vez de apenas explorar a amplitude das habilidades dos LLMs, acreditamos que designs meticulosos e bem pensados são essenciais para avaliações abrangentes, imparciais e aplicáveis. Dada a importância do conhecimento mundial para os LLMs, construímos um benchmark de Avaliação de LLMs Orientado ao Conhecimento (KoLA), no qual projetamos cuidadosamente três fatores cruciais: (1) Para a modelagem de habilidades, imitamos a cognição humana para formar uma taxonomia de quatro níveis de habilidades relacionadas ao conhecimento, abrangendo 19 tarefas. (2) Para os dados, a fim de garantir comparações justas, utilizamos tanto a Wikipedia, um corpus amplamente pré-treinado por LLMs, quanto corpora emergentes coletados continuamente, com o objetivo de avaliar a capacidade de lidar com dados não vistos e conhecimento em evolução. (3) Para os critérios de avaliação, adotamos um sistema contrastivo, incluindo pontuações padrão gerais para melhor comparabilidade numérica entre tarefas e modelos, e uma métrica única de auto-contraste para avaliar automaticamente a alucinação de conhecimento. Avaliamos 21 LLMs de código aberto e comerciais e obtivemos algumas descobertas intrigantes. O conjunto de dados KoLA e o quadro de liderança de participação aberta são publicamente disponibilizados em https://kola.xlore.cn e serão continuamente atualizados para fornecer referências para o desenvolvimento de LLMs e sistemas relacionados ao conhecimento.
Modelos de Linguagem de Grande Escala (LLMs) de base, como o GPT-4, representam uma revolução na IA devido às suas aplicações no mundo real por meio do processamento de linguagem natural. No entanto, eles também apresentam muitos riscos significativos, como a presença de textos tendenciosos, privados ou prejudiciais, e a inclusão não autorizada de material protegido por direitos autorais. Apresentamos o h2oGPT, um conjunto de repositórios de código aberto para a criação e uso de Modelos de Linguagem de Grande Escala (LLMs) baseados em Transformers Pré-treinados Generativos (GPTs). O objetivo deste projeto é criar a melhor alternativa verdadeiramente de código aberto aos GPTs de código fechado. Em colaboração e como parte da incrível e imparável comunidade de código aberto, disponibilizamos vários modelos h2oGPT ajustados, com parâmetros que variam de 7 a 40 bilhões, prontos para uso comercial sob licenças totalmente permissivas Apache 2.0. Incluído em nosso lançamento está uma busca de documentos 100% privada usando linguagem natural. Modelos de linguagem de código aberto ajudam a impulsionar o desenvolvimento da IA e a torná-la mais acessível e confiável. Eles reduzem as barreiras de entrada, permitindo que indivíduos e grupos adaptem esses modelos às suas necessidades. Essa abertura aumenta a inovação, a transparência e a justiça. Uma estratégia de código aberto é necessária para compartilhar os benefícios da IA de forma justa, e a H2O.ai continuará a democratizar a IA e os LLMs.
Apresentamos o DreamHuman, um método para gerar modelos realistas de avatares humanos 3D animáveis a partir de descrições textuais. Métodos recentes de texto-para-3D fizeram avanços consideráveis na geração, mas ainda carecem em aspectos importantes. O controle e, frequentemente, a resolução espacial permanecem limitados, os métodos existentes produzem modelos humanos 3D fixos em vez de animados, e a consistência antropométrica para estruturas complexas como pessoas continua sendo um desafio. O DreamHuman conecta grandes modelos de síntese de imagem a partir de texto, campos de radiação neural e modelos estatísticos do corpo humano em uma nova estrutura de modelagem e otimização. Isso torna possível gerar avatares humanos 3D dinâmicos com texturas de alta qualidade e deformações de superfície específicas para cada instância, aprendidas durante o processo. Demonstramos que nosso método é capaz de gerar uma ampla variedade de modelos humanos 3D realistas e animáveis a partir de texto. Nossos modelos 3D possuem aparência diversificada, roupas, tons de pele e formas corporais, e superam significativamente tanto as abordagens genéricas de texto-para-3D quanto os geradores de avatares 3D baseados em texto anteriores em termos de fidelidade visual. Para mais resultados e animações, visite nosso site em https://dream-human.github.io.
Embora os grandes modelos de linguagem (LLMs) ajustados por instruções tenham demonstrado capacidades notáveis em várias tarefas de PLN, sua eficácia em outras modalidades de dados além do texto ainda não foi totalmente estudada. Neste trabalho, propomos o Macaw-LLM, um novo LLM multimodal que integra de forma harmoniosa informações visuais, auditivas e textuais. O Macaw-LLM consiste em três componentes principais: um módulo de modalidade para codificar dados multimodais, um módulo cognitivo para aproveitar LLMs pré-treinados e um módulo de alinhamento para harmonizar representações diversas. Nosso novo módulo de alinhamento conecta de forma fluida características multimodais a características textuais, simplificando o processo de adaptação dos módulos de modalidade para o módulo cognitivo. Além disso, construímos um grande conjunto de dados de instrução multimodal em termos de diálogo multivolta, incluindo 69 mil instâncias de imagem e 50 mil instâncias de vídeo. Disponibilizamos publicamente nossos dados, código e modelo, com a esperança de que isso possa abrir caminho para pesquisas futuras em LLMs multimodais e expandir as capacidades dos LLMs para lidar com diversas modalidades de dados e abordar cenários complexos do mundo real.
Modelos de linguagem de grande escala (LLMs) têm demonstrado progresso empolgante na aquisição de diversas novas capacidades por meio de aprendizado em contexto, variando de raciocínio lógico à escrita de código. Pesquisadores em robótica também exploraram o uso de LLMs para avançar as capacidades de controle robótico. No entanto, como as ações de baixo nível dos robôs dependem de hardware e são sub-representadas nos corpora de treinamento de LLMs, os esforços existentes na aplicação de LLMs à robótica têm tratado os LLMs principalmente como planejadores semânticos ou dependido de primitivas de controle projetadas por humanos para interagir com o robô. Por outro lado, funções de recompensa são representações flexíveis que podem ser otimizadas para políticas de controle a fim de realizar diversas tarefas, enquanto sua riqueza semântica as torna adequadas para serem especificadas por LLMs. Neste trabalho, introduzimos um novo paradigma que aproveita essa percepção, utilizando LLMs para definir parâmetros de recompensa que podem ser otimizados e realizar uma variedade de tarefas robóticas. Usando a recompensa como a interface intermediária gerada por LLMs, podemos efetivamente preencher a lacuna entre instruções ou correções de linguagem de alto nível e ações de baixo nível do robô. Enquanto isso, a combinação disso com um otimizador em tempo real, o MuJoCo MPC, capacita uma experiência interativa de criação de comportamentos, onde os usuários podem observar imediatamente os resultados e fornecer feedback ao sistema. Para avaliar sistematicamente o desempenho do nosso método proposto, projetamos um total de 17 tarefas para um robô quadrúpede simulado e um robô manipulador dextro. Demonstramos que o nosso método proposto resolve com confiabilidade 90% das tarefas projetadas, enquanto uma linha de base que usa habilidades primitivas como interface com "Código-como-políticas" alcança 50% das tarefas. Validamos ainda mais o nosso método em um braço robótico real, onde habilidades complexas de manipulação, como empurrar sem preensão, emergem por meio do nosso sistema interativo.
Ao resolver tarefas de tomada de decisão, os humanos geralmente dependem de informações de duas fontes principais: (1) Dados históricos de políticas, que fornecem replay de interações com o ambiente, e (2) Insights analíticos em forma de linguagem natural, expondo o valioso processo de pensamento ou considerações estratégicas. Apesar disso, a maioria das pesquisas anteriores foca em apenas uma fonte: ou usam exclusivamente o replay histórico para aprender diretamente funções de política ou valor, ou se engajam no treinamento de modelos de linguagem utilizando apenas corpus linguísticos. Neste artigo, argumentamos que um agente autônomo poderoso deve abranger ambas as fontes. Assim, propomos o ChessGPT, um modelo GPT que une o aprendizado de políticas e a modelagem de linguagem ao integrar dados dessas duas fontes em jogos de xadrez. Especificamente, construímos um grande conjunto de dados de jogos e linguagem relacionados ao xadrez. Utilizando esse conjunto de dados, apresentamos dois exemplos de modelos, ChessCLIP e ChessGPT, que integram aprendizado de políticas e modelagem de linguagem. Por fim, propomos um framework completo de avaliação para testar a habilidade de xadrez de modelos de linguagem. Os resultados experimentais validam a eficácia do nosso modelo e conjunto de dados. Disponibilizamos nosso código, modelo e conjunto de dados em código aberto em https://github.com/waterhorse1/ChessGPT.
Nós compilamos um conjunto de dados abrangente de 4.550 questões e soluções provenientes de listas de exercícios, provas intermediárias e finais de todos os cursos de Matemática e Engenharia Elétrica e Ciência da Computação (EECS) do MIT necessários para a obtenção de um diploma. Avaliamos a capacidade de modelos de linguagem de grande escala em cumprir os requisitos de graduação para qualquer curso de Matemática e EECS do MIT. Nossos resultados demonstram que o GPT-3.5 resolve com sucesso um terço de todo o currículo do MIT, enquanto o GPT-4, com engenharia de prompts, alcança uma taxa de acerto perfeita em um conjunto de teste que exclui questões baseadas em imagens. Ajustamos um modelo de linguagem de grande escala de código aberto nesse conjunto de dados. Utilizamos o GPT-4 para avaliar automaticamente as respostas do modelo, fornecendo uma análise detalhada de desempenho por curso, questão e tipo de resposta. Ao incorporar as questões em um espaço de baixa dimensionalidade, exploramos as relações entre questões, tópicos e disciplinas, e descobrimos quais questões e classes são necessárias para resolver outras questões e classes por meio de aprendizado few-shot. Nossa análise oferece insights valiosos sobre pré-requisitos de cursos e design de currículo, destacando o potencial dos modelos de linguagem para aprender e melhorar o ensino de Matemática e EECS.
Apresentamos a antecipação: um método para construir um modelo generativo controlável de um processo pontual temporal (o processo de eventos) condicionado de forma assíncrona às realizações de um segundo processo correlacionado (o processo de controle). Isso é alcançado intercalando sequências de eventos e controles, de modo que os controles apareçam após tempos de parada na sequência de eventos. Este trabalho é motivado por problemas que surgem no controle da geração de música simbólica. Focamos em tarefas de controle de preenchimento, nas quais os controles são um subconjunto dos próprios eventos, e a geração condicional completa uma sequência de eventos dados os eventos de controle fixos. Treinamos modelos de preenchimento antecipatório utilizando o grande e diversificado conjunto de dados Lakh MIDI. Esses modelos igualam o desempenho de modelos autoregressivos na geração de música com prompts, com a capacidade adicional de realizar tarefas de controle de preenchimento, incluindo acompanhamento. Avaliadores humanos relatam que um modelo antecipatório produz acompanhamentos com musicalidade semelhante até mesmo à música composta por humanos em um clipe de 20 segundos.
A variedade de objetos no mundo real é praticamente ilimitada, sendo assim impossível de capturar usando modelos treinados em um conjunto fixo de categorias. Como resultado, nos últimos anos, métodos de vocabulário aberto têm atraído o interesse da comunidade. Este artigo propõe um novo método para segmentação de vocabulário aberto em zero-shot. Trabalhos anteriores dependem amplamente de treinamento contrastivo usando pares imagem-texto, aproveitando mecanismos de agrupamento para aprender características de imagem que estão alinhadas com a linguagem e bem localizadas. No entanto, isso pode introduzir ambiguidade, pois a aparência visual de imagens com legendas semelhantes frequentemente varia. Em vez disso, aproveitamos as propriedades generativas de modelos de difusão de texto para imagem em grande escala para amostrar um conjunto de imagens de suporte para uma determinada categoria textual. Isso fornece uma distribuição de aparências para um dado texto, contornando o problema de ambiguidade. Além disso, propomos um mecanismo que considera o contexto de fundo das imagens amostradas para melhor localizar objetos e segmentar o fundo diretamente. Mostramos que nosso método pode ser usado para fundamentar vários extratoras de características auto-supervisionados pré-treinados em linguagem natural e fornecer previsões explicáveis mapeando de volta para regiões no conjunto de suporte. Nossa proposta é livre de treinamento, dependendo apenas de componentes pré-treinados, mas mostra um desempenho forte em uma variedade de benchmarks de segmentação de vocabulário aberto, obtendo uma vantagem de mais de 10% no benchmark Pascal VOC.
Abordamos uma tarefa de referência em robótica ágil: capturar objetos lançados em alta velocidade. Esta é uma tarefa desafiadora que envolve rastrear, interceptar e acomodar um objeto lançado, com acesso apenas a observações visuais do objeto e ao estado proprioceptivo do robô, tudo isso em uma fração de segundo. Apresentamos os méritos relativos de duas estratégias de solução fundamentalmente diferentes: (i) Controle Preditivo de Modelo usando otimização de trajetória com restrições acelerada, e (ii) Aprendizado por Reforço usando otimização de ordem zero. Fornecemos insights sobre várias compensações de desempenho, incluindo eficiência de amostragem, transferência de simulação para o mundo real, robustez a mudanças de distribuição e multimodalidade de corpo inteiro, por meio de extensos experimentos em hardware. Concluímos com propostas sobre a fusão de técnicas "clássicas" e "baseadas em aprendizado" para o controle ágil de robôs. Vídeos de nossos experimentos podem ser encontrados em https://sites.google.com/view/agile-catching.
Propomos um método para recomendar música para um vídeo de entrada, permitindo que o usuário oriente a seleção musical com linguagem natural de forma livre. Um desafio fundamental nesse cenário é que os conjuntos de dados existentes de vídeos musicais fornecem os pares de treinamento necessários (vídeo, música), mas carecem de descrições textuais da música. Este trabalho aborda esse desafio com as seguintes três contribuições. Primeiro, propomos uma abordagem de síntese textual que se baseia em um procedimento de prompt por analogia para gerar descrições musicais em linguagem natural a partir de um modelo de linguagem em larga escala (BLOOM-176B), utilizando saídas de um classificador de tags musicais pré-treinado e um pequeno número de descrições textuais humanas. Segundo, usamos essas descrições musicais sintetizadas para treinar um novo modelo trimodal, que funde representações de entrada de texto e vídeo para consultar amostras musicais. Para o treinamento, introduzimos um mecanismo de regularização por dropout textual, que demonstramos ser crucial para o desempenho do modelo. O design do nosso modelo permite que a música recuperada esteja alinhada com as duas modalidades de entrada, correspondendo ao estilo visual retratado no vídeo e ao gênero musical, humor ou instrumentação descritos na consulta em linguagem natural. Terceiro, para avaliar nossa abordagem, coletamos um conjunto de dados de teste para nosso problema, anotando um subconjunto de 4 mil clipes do conjunto de dados YT8M-MusicVideo com descrições musicais em linguagem natural, que disponibilizamos publicamente. Demonstramos que nossa abordagem pode igualar ou superar o desempenho de métodos anteriores na recuperação de música a partir de vídeo, enquanto melhora significativamente a precisão da recuperação ao usar orientação textual.
Modelos de visão e linguagem multimodal pré-treinados (VLMs, na sigla em inglês) estão se tornando cada vez mais populares devido ao seu desempenho excepcional em aplicações de visão computacional, especialmente em cenários de poucos exemplos (few-shot) e sem exemplos (zero-shot). No entanto, selecionar o VLM com melhor desempenho para determinadas aplicações downstream não é trivial, pois depende do conjunto de dados e da tarefa específica. Enquanto isso, a avaliação exaustiva de todos os VLMs disponíveis para uma nova aplicação não só é exigente em termos de tempo e recursos computacionais, mas também requer a coleta de um conjunto de dados rotulado para avaliação. À medida que o número de variantes de VLMs de código aberto aumenta, surge a necessidade de uma estratégia eficiente de seleção de modelos que não dependa de acesso a um conjunto de dados de avaliação curado. Este artigo propõe uma nova tarefa e benchmark para avaliar de forma eficiente o desempenho zero-shot de VLMs em aplicações downstream sem acesso ao conjunto de dados da tarefa específica. Especificamente, introduzimos uma nova tarefa chamada LOVM: Seleção de Modelos de Visão Baseada Apenas em Linguagem, na qual os métodos devem realizar tanto a seleção de modelos quanto a previsão de desempenho com base apenas em uma descrição textual da aplicação downstream desejada. Em seguida, apresentamos um benchmark LOVM extenso, composto por avaliações de referência de 35 VLMs pré-treinados e 23 conjuntos de dados, onde os métodos devem classificar os VLMs pré-treinados e prever seu desempenho zero-shot.
Recentemente, modelos generativos baseados em difusão alcançaram sucesso notável na geração e edição de imagens. No entanto, seu uso para edição de vídeo ainda enfrenta limitações importantes. Este artigo apresenta o VidEdit, um método inovador para edição de vídeo baseada em texto em zero-shot, garantindo forte consistência temporal e espacial. Primeiramente, propomos combinar modelos de difusão pré-treinados para texto-imagem com atlas, fornecendo um método de edição eficiente e sem necessidade de treinamento, que por design cumpre a suavidade temporal. Em segundo lugar, aproveitamos segmentadores panópticos prontos para uso, juntamente com detectores de bordas, e adaptamos seu uso para edição de atlas baseada em difusão condicionada. Isso garante um controle espacial refinado sobre regiões específicas, preservando estritamente a estrutura do vídeo original. Experimentos quantitativos e qualitativos mostram que o VidEdit supera métodos state-of-the-art no conjunto de dados DAVIS, em relação a métricas de fidelidade semântica, preservação de imagem e consistência temporal. Com essa estrutura, o processamento de um único vídeo leva aproximadamente um minuto, e é possível gerar múltiplas edições compatíveis com base em um único prompt de texto. Página do projeto em https://videdit.github.io.
Os avanços recentes na compreensão de cenas 3D permitem o aprendizado escalável de representações em grandes conjuntos de dados de cenas diversas. Como consequência, a generalização para cenas e objetos não vistos, a renderização de novas perspectivas a partir de apenas uma ou poucas imagens de entrada, e a geração controlável de cenas que suportam edição, agora são possíveis. No entanto, o treinamento conjunto em um grande número de cenas geralmente compromete a qualidade de renderização quando comparado a modelos otimizados para cena única, como os NeRFs. Neste artigo, aproveitamos os avanços recentes em modelos de difusão para equipar modelos de aprendizado de representação de cenas 3D com a capacidade de renderizar novas perspectivas de alta fidelidade, mantendo, em grande medida, benefícios como a edição de cenas em nível de objeto. Em particular, propomos o DORSal, que adapta uma arquitetura de difusão de vídeo para a geração de cenas 3D condicionada a representações de cenas baseadas em slots centrados em objetos. Tanto em cenas sintéticas complexas com múltiplos objetos quanto no conjunto de dados de grande escala do Street View do mundo real, mostramos que o DORSal permite a renderização neural escalável de cenas 3D com edição em nível de objeto e supera as abordagens existentes.
Mostramos como construir um modelo que permite renderizações realistas de cenas em novos pontos de vista e sob condições de iluminação variadas a partir de vídeos. Nosso método — UrbanIR: Urban Scene Inverse Rendering — calcula uma representação de gráficos inversos a partir do vídeo. O UrbanIR infere conjuntamente forma, albedo, visibilidade, e iluminação solar e do céu a partir de um único vídeo de cenas externas ilimitadas com iluminação desconhecida. O UrbanIR utiliza vídeos capturados por câmeras montadas em carros (em contraste com múltiplas visões dos mesmos pontos típicas da estimação no estilo NeRF). Como resultado, métodos padrão produzem estimativas de geometria pobres (por exemplo, telhados) e há numerosos "flutuadores". Erros na inferência de gráficos inversos podem resultar em artefatos de renderização significativos. O UrbanIR utiliza novas funções de perda para controlar essas e outras fontes de erro. O UrbanIR emprega uma função de perda inovadora para fazer estimativas muito precisas dos volumes de sombra na cena original. As representações resultantes facilitam edições controláveis, entregando renderizações fotorealísticas de cenas reiluminadas e objetos inseridos em novos pontos de vista. A avaliação qualitativa demonstra melhorias significativas em relação ao estado da arte.
Neste artigo, propomos um framework autônomo de busca de informação para resposta a perguntas visuais, denominado AVIS. Nosso método utiliza um Modelo de Linguagem de Grande Escala (LLM) para estrategizar dinamicamente o uso de ferramentas externas e investigar suas saídas, adquirindo assim o conhecimento indispensável necessário para fornecer respostas às perguntas formuladas. Responder a perguntas visuais que exigem conhecimento externo, como "Qual evento é comemorado pelo edifício retratado nesta imagem?", é uma tarefa complexa. Essa tarefa apresenta um espaço de busca combinatório que demanda uma sequência de ações, incluindo a invocação de APIs, a análise de suas respostas e a tomada de decisões informadas. Realizamos um estudo com usuários para coletar uma variedade de instâncias de tomada de decisão humana ao enfrentar essa tarefa. Esses dados são então usados para projetar um sistema composto por três componentes: um planejador alimentado por LLM que determina dinamicamente qual ferramenta usar a seguir, um raciocinador alimentado por LLM que analisa e extrai informações-chave das saídas das ferramentas, e um componente de memória de trabalho que retém as informações adquiridas ao longo do processo. O comportamento coletado dos usuários serve como guia para o nosso sistema de duas maneiras principais. Primeiro, criamos um grafo de transição analisando a sequência de decisões tomadas pelos usuários. Esse grafo delineia estados distintos e limita o conjunto de ações disponíveis em cada estado. Segundo, usamos exemplos de tomada de decisão dos usuários para fornecer ao nosso planejador e raciocinador alimentados por LLM instâncias contextuais relevantes, aprimorando sua capacidade de tomar decisões informadas. Demonstramos que o AVIS alcança resultados de ponta em benchmarks de resposta a perguntas visuais que demandam conhecimento intensivo, como Infoseek e OK-VQA.
Neste trabalho, estudamos o impacto dos Modelos de Linguagem de Grande Escala (LLM) no Reconhecimento Automático de Fala (ASR) de vídeos do YouTube, que utilizamos como fonte para ASR de longa duração. Demonstramos uma redução relativa de até 8\% na Taxa de Erro de Palavras (WER) em conjuntos de teste de ASR de longa duração para inglês americano (en-us) e inglês indiano com alternância de código (en-in), e uma redução relativa de até 30\% na Taxa de Erro de Termos Salientes (STER) em relação a uma linha de base forte de primeira passagem que utiliza um modelo de linguagem baseado em máxima entropia. O aprimoramento no processamento de treliças, resultando em uma treliça com uma topologia de dígrafo adequada (não-árvore) e carregando o contexto da hipótese 1-best do(s) segmento(s) anterior(es), leva a ganhos significativos na reavaliação com LLMs. Também constatamos que os ganhos de desempenho provenientes da combinação de LLMs treinados em grandes quantidades de dados disponíveis (como o C4) e modelos de linguagem neurais convencionais são aditivos e superam significativamente uma linha de base forte de primeira passagem com um modelo de linguagem de máxima entropia.
Os recentes avanços na reconstrução neural permitem a reconstrução de objetos 3D de alta qualidade a partir de coleções de imagens capturadas casualmente. As técnicas atuais analisam principalmente seu progresso em coleções de imagens relativamente simples, onde técnicas de Structure-from-Motion (SfM) podem fornecer poses de câmera de referência (ground-truth, GT). Observamos que as técnicas de SfM tendem a falhar em coleções de imagens capturadas em ambientes reais, como resultados de buscas de imagens com fundos e iluminações variados. Para permitir um progresso sistemático na pesquisa de reconstrução 3D a partir de capturas casuais de imagens, propomos o NAVI: um novo conjunto de dados de coleções de imagens agnósticas a categorias de objetos, com varreduras 3D de alta qualidade e alinhamentos 2D-3D por imagem que fornecem parâmetros de câmera GT quase perfeitos. Esses alinhamentos 2D-3D nos permitem extrair anotações derivadas precisas, como correspondências densas de pixels, mapas de profundidade e segmentação. Demonstramos o uso das coleções de imagens do NAVI em diferentes configurações de problemas e mostramos que o NAVI permite avaliações mais abrangentes que não eram possíveis com conjuntos de dados existentes. Acreditamos que o NAVI é benéfico para o progresso sistemático da pesquisa em reconstrução 3D e estimativa de correspondências. Página do projeto: https://navidataset.github.io
Reconstruir e reiluminar objetos e cenas sob diferentes condições de iluminação é um desafio: os métodos existentes de renderização neural frequentemente não conseguem lidar com as interações complexas entre materiais e luz. A incorporação de técnicas de transferência de radiance pré-computadas permite a iluminação global, mas ainda enfrenta dificuldades com materiais que apresentam efeitos de espalhamento subsuperficial. Propomos uma nova estrutura para aprender o campo de transferência de radiance por meio de renderização volumétrica e utilizar diversas pistas de aparência para refinar a geometria de ponta a ponta. Essa estrutura amplia as capacidades de reiluminação e reconstrução para lidar com uma gama mais ampla de materiais de forma orientada por dados. Os modelos resultantes produzem resultados de renderização plausíveis em condições existentes e novas. Disponibilizaremos publicamente nosso código e um novo conjunto de dados de estágio de luz de objetos com efeitos de espalhamento subsuperficial.
Considere um robô encarregado de organizar uma mesa com um carro esportivo de Lego meticulosamente construído. Um humano pode reconhecer que não é socialmente apropriado desmontar o carro esportivo e guardá-lo como parte da "organização". Como um robô pode chegar a essa conclusão? Embora os modelos de linguagem de grande escala (LLMs) tenham sido recentemente usados para habilitar o raciocínio social, fundamentar esse raciocínio no mundo real tem sido desafiador. Para raciocinar no mundo real, os robôs devem ir além de consultar passivamente os LLMs e *coletar ativamente informações do ambiente* que são necessárias para tomar a decisão correta. Por exemplo, após detectar que há um carro ocluído, o robô pode precisar perceber ativamente o carro para saber se é um carro modelo avançado feito de Legos ou um carrinho de brinquedo construído por uma criança. Propomos uma abordagem que aproveita um LLM e um modelo de linguagem visual (VLM) para ajudar um robô a perceber ativamente seu ambiente e realizar raciocínio social fundamentado. Para avaliar nossa estrutura em escala, lançamos o conjunto de dados MessySurfaces, que contém imagens de 70 superfícies do mundo real que precisam ser limpas. Além disso, ilustramos nossa abordagem com um robô em 2 superfícies cuidadosamente projetadas. Encontramos uma melhoria média de 12,9% no benchmark MessySurfaces e uma melhoria média de 15% nos experimentos com robôs em relação às linhas de base que não usam percepção ativa. O conjunto de dados, o código e os vídeos de nossa abordagem podem ser encontrados em https://minaek.github.io/groundedsocialreasoning.
A sintonia de hiperparâmetros em modelos de aprendizado profundo pode resultar em ganhos de desempenho de ordem de magnitude para a mesma quantidade de computação. Apesar disso, a sintonia sistemática é incomum, especialmente para modelos grandes, que são caros de avaliar e tendem a ter muitos hiperparâmetros, exigindo decisões difíceis sobre tradeoffs, orçamentos e limites de busca. Para abordar esses problemas e propor um método prático para a sintonia robusta de modelos grandes, apresentamos o Cost-Aware Pareto Region Bayesian Search (CARBS), um algoritmo de otimização bayesiana que realiza busca local em torno da fronteira de Pareto de desempenho-custo. O CARBS se sai bem mesmo em espaços de busca ilimitados com muitos hiperparâmetros, aprende relações de escalonamento para que possa ajustar modelos mesmo à medida que são ampliados e automatiza grande parte da "magia negra" da sintonia. Entre nossos resultados, resolvemos efetivamente todo o benchmark ProcGen apenas ajustando uma linha de base simples (PPO, conforme fornecido no artigo original do ProcGen). Também reproduzimos o resultado de escalonamento entre tamanho do modelo e tokens de treinamento do projeto Chinchilla (Hoffmann et al. 2022), ao mesmo tempo em que descobrimos leis de escalonamento para todos os outros hiperparâmetros, por meio de um processo automatizado fácil que usa significativamente menos computação e é aplicável a qualquer problema de aprendizado profundo (não apenas modelos de linguagem).