Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o campo de deformação de conteúdo CoDeF como um novo tipo de representação de vídeo, que consiste em um campo de conteúdo canônico agregando os conteúdos estáticos de todo o vídeo e um campo de deformação temporal registrando as transformações da imagem canônica (ou seja, renderizada a partir do campo de conteúdo canônico) para cada quadro individual ao longo do eixo do tempo. Dado um vídeo alvo, esses dois campos são otimizados em conjunto para reconstruí-lo por meio de um pipeline de renderização cuidadosamente elaborado. Introduzimos de forma ponderada algumas regularizações no processo de otimização, incentivando o campo de conteúdo canônico a herdar semânticas (por exemplo, a forma do objeto) do vídeo. Com esse design, o CoDeF suporta naturalmente a elevação de algoritmos de imagem para processamento de vídeo, no sentido de que é possível aplicar um algoritmo de imagem à imagem canônica e propagar os resultados de forma simples para todo o vídeo com o auxílio do campo de deformação temporal. Mostramos experimentalmente que o CoDeF é capaz de elevar a tradução de imagem para imagem para tradução de vídeo para vídeo e elevar a detecção de pontos-chave para rastreamento de pontos-chave sem qualquer treinamento. Mais importante, graças à nossa estratégia de elevação que implementa os algoritmos em apenas uma imagem, alcançamos uma consistência inter-quadros superior em vídeos processados em comparação com as abordagens existentes de tradução de vídeo para vídeo, e até conseguimos rastrear objetos não rígidos como água e fumaça. A página do projeto pode ser encontrada em https://qiuyu96.github.io/CoDeF/.
Os recentes avanços em modelos de linguagem de grande escala (LLMs), como GPT-4 e PaLM-2, trouxeram progressos significativos na resolução de problemas de raciocínio matemático. Em particular, a versão mais recente do GPT-4 da OpenAI, conhecida como GPT-4 Code Interpreter, demonstra um desempenho notável em conjuntos de dados matemáticos desafiadores. Neste artigo, exploramos o efeito do código na melhoria da capacidade de raciocínio dos LLMs, introduzindo diferentes restrições na Frequência de Uso de Código do GPT-4 Code Interpreter. Descobrimos que seu sucesso pode ser amplamente atribuído às suas habilidades poderosas em gerar e executar código, avaliar a saída da execução do código e corrigir sua solução ao receber saídas irracionais. Com base nessa percepção, propomos um método de prompt novo e eficaz, a auto-verificação baseada em código explícito (CSV), para impulsionar ainda mais o potencial de raciocínio matemático do GPT-4 Code Interpreter. Esse método emprega um prompt zero-shot no GPT-4 Code Interpreter para incentivá-lo a usar o código para auto-verificar suas respostas. Nos casos em que o estado de verificação é registrado como "Falso", o modelo deve automaticamente corrigir sua solução, de forma análoga à nossa abordagem de corrigir erros durante um exame de matemática. Além disso, reconhecemos que os estados do resultado da verificação indicam a confiança de uma solução, o que pode melhorar a eficácia da votação majoritária. Com o GPT-4 Code Interpreter e o CSV, alcançamos uma precisão zero-shot impressionante no conjunto de dados MATH (53,9% para 84,3%).
Neste artigo, investigamos a capacidade de aprendizado em contexto de modelos de linguagem codificador-decodificador aumentados por recuperação. Primeiramente, realizamos uma análise abrangente do modelo ATLAS, estado da arte, e identificamos suas limitações no aprendizado em contexto, principalmente devido a uma incompatibilidade entre o pré-treinamento e o teste, bem como a um comprimento de contexto restrito. Para abordar essas questões, propomos o RAVEN, um modelo que combina a modelagem de linguagem mascarada aumentada por recuperação e a modelagem de linguagem com prefixo. Além disso, introduzimos o Aprendizado de Fusão em Contexto para melhorar o desempenho em poucos exemplos, permitindo que o modelo aproveite mais exemplos em contexto sem a necessidade de treinamento adicional ou modificações no modelo. Por meio de experimentos extensivos, demonstramos que o RAVEN supera significativamente o ATLAS e alcança resultados comparáveis aos modelos de linguagem mais avançados em certos cenários, apesar de ter um número substancialmente menor de parâmetros. Nosso trabalho destaca o potencial dos modelos de linguagem codificador-decodificador aumentados por recuperação para o aprendizado em contexto e incentiva pesquisas adicionais nessa direção.
A capacidade de aprender a partir do contexto com conceitos novos e fornecer respostas apropriadas é essencial nas conversas humanas. Apesar dos atuais Modelos de Linguagem Multimodais de Grande Escala (MLLMs) e Modelos de Linguagem de Grande Escala (LLMs) serem treinados em conjuntos de dados de escala massiva, reconhecer imagens não vistas ou compreender conceitos novos de forma livre de treinamento continua sendo um desafio. O Aprendizado em Contexto (ICL, na sigla em inglês) explora o aprendizado de poucos exemplos (few-shot) sem treinamento, onde os modelos são incentivados a "aprender a aprender" a partir de tarefas limitadas e generalizar para tarefas não vistas. Neste trabalho, propomos o aprendizado de contexto com links (LCL, na sigla em inglês), que enfatiza o "raciocínio de causa e efeito" para ampliar as capacidades de aprendizado dos MLLMs. O LCL vai além do ICL tradicional ao fortalecer explicitamente a relação causal entre o conjunto de suporte e o conjunto de consultas. Ao fornecer demonstrações com links causais, o LCL orienta o modelo a discernir não apenas a analogia, mas também as associações causais subjacentes entre os pontos de dados, o que capacita os MLLMs a reconhecer imagens não vistas e compreender conceitos novos de forma mais eficaz. Para facilitar a avaliação dessa nova abordagem, introduzimos o conjunto de dados ISEKAI, composto exclusivamente por pares de imagem-rótulo gerados e não vistos, projetados para o aprendizado de contexto com links. Experimentos extensivos mostram que nosso LCL-MLLM exibe fortes capacidades de aprendizado de contexto com links para conceitos novos em comparação com MLLMs convencionais. O código e os dados serão disponibilizados em https://github.com/isekai-portal/Link-Context-Learning.
Este artigo aborda o desafio de criar avatares neurais reluzíveis e animáveis a partir de vídeos de visão esparsa (ou mesmo monoculares) de humanos dinâmicos sob iluminação desconhecida. Em comparação com ambientes de estúdio, essa configuração é mais prática e acessível, mas apresenta um problema mal-posto extremamente desafiador. Métodos anteriores de reconstrução neural de humanos conseguem reconstruir avatares animáveis a partir de visões esparsas usando Campos de Distância com Sinal (SDF) deformados, mas não conseguem recuperar parâmetros de material para reluzimento. Embora métodos baseados em renderização inversa diferenciável tenham obtido sucesso na recuperação de materiais de objetos estáticos, não é trivial estendê-los para humanos dinâmicos, pois é computacionalmente intensivo calcular a interseção pixel-superfície e a visibilidade da luz em SDFs deformados para renderização inversa. Para resolver esse desafio, propomos um algoritmo de Consulta Hierárquica de Distância (HDQ) para aproximar as distâncias no espaço mundial sob poses humanas arbitrárias. Especificamente, estimamos distâncias grosseiras com base em um modelo humano paramétrico e calculamos distâncias finas explorando a invariância de deformação local do SDF. Com base no algoritmo HDQ, utilizamos o rastreamento de esferas para estimar eficientemente a interseção da superfície e a visibilidade da luz. Isso nos permite desenvolver o primeiro sistema capaz de recuperar avatares neurais animáveis e reluzíveis a partir de entradas de visão esparsa (ou monoculares). Experimentos demonstram que nossa abordagem é capaz de produzir resultados superiores em comparação com os métodos mais avançados atualmente. Nosso código será liberado para reprodutibilidade.
A injeção de texto para reconhecimento automático de fala (ASR), na qual dados textuais não pareados são utilizados para complementar dados de áudio-texto pareados, tem demonstrado melhorias promissoras na taxa de erro de palavras. Este estudo examina o uso da injeção de texto para tarefas auxiliares, que são as tarefas não relacionadas ao ASR frequentemente realizadas por um modelo de ponta a ponta (E2E). Neste trabalho, utilizamos o treinamento conjunto de modelo de linguagem interno e de ponta a ponta (JEIT) como nosso algoritmo de injeção de texto para treinar um modelo de ASR que executa duas tarefas auxiliares. A primeira é a capitalização, que é uma tarefa de desnormalização. A segunda é a previsão de alternância de turnos, que tenta identificar se um usuário concluiu seu turno de conversa em uma interação com um assistente digital. Mostramos resultados que demonstram que nosso método de injeção de texto melhora o desempenho de capitalização para dados de cauda longa e aumenta a taxa de recall na detecção de alternância de turnos.
Trabalhos recentes em aprendizado por reforço profundo (DRL) destacaram que informações algorítmicas sobre boas políticas podem ser extraídas de dados offline que carecem de informações explícitas sobre ações executadas. Por exemplo, vídeos de humanos ou robôs podem transmitir muita informação implícita sobre sequências de ações recompensadoras, mas uma máquina de DRL que deseja se beneficiar ao assistir a esses vídeos deve primeiro aprender por si mesma a identificar e reconhecer estados/ações/recompensas relevantes. Sem depender de anotações de verdade absoluta, nosso novo método, chamado Deep State Identifier, aprende a prever retornos a partir de episódios codificados como vídeos. Em seguida, ele utiliza uma espécie de análise de sensibilidade baseada em máscaras para extrair/identificar estados críticos importantes. Experimentos extensivos demonstram o potencial do nosso método para compreender e melhorar o comportamento do agente. O código-fonte e os conjuntos de dados gerados estão disponíveis em https://github.com/AI-Initiative-KAUST/VideoRLCS.