Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos multimodais mais avançados de hoje permanecem proprietários. Os modelos abertos mais fortes dependem fortemente de dados sintéticos de VLMs proprietários para alcançar um bom desempenho, destilando efetivamente esses modelos fechados em modelos abertos. Como resultado, a comunidade ainda carece de conhecimento fundamental sobre como construir VLMs performáticos do zero. Apresentamos o Molmo, uma nova família de VLMs que são de ponta em sua classe de abertura. Nossa inovação chave é um novo conjunto de dados de legendas de imagens altamente detalhado coletado inteiramente por anotadores humanos usando descrições baseadas em fala. Para permitir uma ampla gama de interações do usuário, também introduzimos uma mistura diversificada de conjuntos de dados para ajuste fino que inclui perguntas e respostas do mundo real e dados inovadores de apontamento 2D. O sucesso de nossa abordagem depende de escolhas cuidadosas para os detalhes da arquitetura do modelo, um pipeline de treinamento bem ajustado e, mais criticamente, a qualidade de nossos conjuntos de dados recém-coletados, todos os quais serão disponibilizados. O modelo 72B líder da família Molmo não apenas supera outros na classe de modelos abertos e de dados, mas também se compara favoravelmente aos sistemas proprietários como GPT-4o, Claude 3.5 e Gemini 1.5 em ambos os benchmarks acadêmicos e avaliação humana. Estaremos disponibilizando todos os pesos do nosso modelo, dados de legendagem e ajuste fino, e código-fonte em um futuro próximo. Alguns pesos do modelo selecionados, código de inferência e demonstração estão disponíveis em https://molmo.allenai.org.
O pré-treinamento de grandes modelos de linguagem tradicionalmente dependeu de especialistas humanos para criar heurísticas para melhorar a qualidade das corpora, resultando em inúmeras regras desenvolvidas até o momento. No entanto, essas regras carecem da flexibilidade para lidar eficazmente com as características únicas de cada exemplo. Enquanto isso, aplicar regras personalizadas para cada exemplo é impraticável para especialistas humanos. Neste artigo, demonstramos que até mesmo pequenos modelos de linguagem, com apenas 0,3 bilhões de parâmetros, podem apresentar substanciais capacidades de refinamento de dados comparáveis às de especialistas humanos. Apresentamos a Programação de Cada Exemplo (ProX), um novo framework que trata o refinamento de dados como uma tarefa de programação, permitindo que os modelos refinem as corpora gerando e executando operações detalhadas, como normalização de strings, para cada exemplo individual em escala. Resultados experimentais mostram que os modelos pré-treinados em dados curados pelo ProX superam tanto os dados originais quanto os dados filtrados por outros métodos de seleção em mais de 2% em diversos benchmarks subsequentes. Sua eficácia abrange vários tamanhos de modelo e corpora de pré-treinamento, incluindo C4, RedPajama-V2 e FineWeb. Além disso, o ProX apresenta um potencial significativo em pré-treinamento contínuo específico de domínio: sem design específico de domínio, modelos treinados em OpenWebMath refinados pelo ProX superam métodos baseados em regras criadas por humanos, melhorando a precisão média em 7,6% em relação ao Mistral-7B, com 14,6% para Llama-2-7B e 20,3% para CodeLlama-7B, todos dentro de 10 bilhões de tokens para serem comparáveis a modelos como Llemma-7B treinados em 200 bilhões de tokens. Uma análise adicional destaca que o ProX economiza significativamente FLOPs de treinamento, oferecendo um caminho promissor para o pré-treinamento eficiente de LLM. Estamos disponibilizando o ProX como código aberto com um corpus de mais de 100 bilhões, modelos e compartilhando todos os detalhes de treinamento e implementação para pesquisa reproduzível e futuras inovações. Código: https://github.com/GAIR-NLP/ProX
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis no processamento de linguagem natural e, no entanto, suas imprecisões factuais e alucinações limitam sua aplicação, especialmente em domínios críticos como a saúde. Os métodos de recuperação de contexto, ao introduzir informações relevantes como entrada, surgiram como uma abordagem crucial para aprimorar a factualidade e confiabilidade dos LLMs. Este estudo explora os limites dos métodos de recuperação de contexto no domínio da saúde, otimizando seus componentes e avaliando seu desempenho em comparação com alternativas abertas e fechadas. Nossas descobertas revelam como os LLMs abertos, quando aprimorados com um sistema de recuperação otimizado, podem alcançar desempenho comparável às maiores soluções privadas em benchmarks de saúde estabelecidos (resposta a perguntas de múltipla escolha). Reconhecendo a falta de realismo de incluir as possíveis respostas dentro da pergunta (uma configuração encontrada apenas em exames médicos) e após avaliar uma forte degradação de desempenho de LLM na ausência dessas opções, estendemos o sistema de recuperação de contexto nessa direção. Em particular, propomos o OpenMedPrompt, um pipeline que aprimora a geração de respostas abertas mais confiáveis, aproximando essa tecnologia da aplicação prática.
Aproveitando modelos de difusão 2D pré-treinados e amostragem de destilação de pontuação (SDS), métodos recentes têm mostrado resultados promissores para a geração de avatares 3D a partir de texto. No entanto, gerar avatares 3D de alta qualidade capazes de animação expressiva ainda é desafiador. Neste trabalho, apresentamos o DreamWaltz-G, um novo framework de aprendizado para geração de avatares 3D animáveis a partir de texto. O cerne deste framework reside na Destilação de Pontuação Guiada por Esqueleto e na Representação Híbrida de Avatar 3D Gaussiano. Especificamente, a destilação de pontuação guiada por esqueleto proposta integra controles de esqueleto de modelos humanos 3D em modelos de difusão 2D, aprimorando a consistência da supervisão de SDS em termos de visualização e pose humana. Isso facilita a geração de avatares de alta qualidade, mitigando problemas como múltiplos rostos, membros extras e desfoque. A representação híbrida de avatar 3D Gaussiano proposta baseia-se nos Gaussianos 3D eficientes, combinando campos implícitos neurais e malhas 3D parametrizadas para permitir renderização em tempo real, otimização estável de SDS e animação expressiva. Experimentos extensivos demonstram que o DreamWaltz-G é altamente eficaz na geração e animação de avatares 3D, superando os métodos existentes tanto em qualidade visual quanto em expressividade de animação. Nosso framework ainda suporta diversas aplicações, incluindo reencenação de vídeo humano e composição de cena com vários sujeitos.
Os recentes avanços na renderização diferenciável e neural têm alcançado avanços impressionantes em uma variedade de tarefas 2D e 3D, como síntese de novas visualizações e reconstrução 3D. Tipicamente, a renderização diferenciável depende de uma cobertura densa de pontos de vista da cena, de modo que a geometria possa ser desambiguada apenas a partir das observações de aparência. Várias desafios surgem quando apenas algumas visualizações de entrada estão disponíveis, frequentemente referidas como renderização neural esparsa ou de poucas amostras. Por se tratar de um problema subdeterminado, a maioria das abordagens existentes introduz o uso de regularização, juntamente com uma diversidade de priors aprendidos e artesanais. Um problema recorrente na literatura de renderização esparsa é a falta de um conjunto de dados e protocolo de avaliação homogêneos e atualizados. Enquanto conjuntos de dados de alta resolução são padrão na literatura de reconstrução densa, métodos de renderização esparsa frequentemente avaliam com imagens de baixa resolução. Além disso, as divisões de dados são inconsistentes entre diferentes manuscritos, e imagens de referência para testes frequentemente estão disponíveis publicamente, o que pode levar ao overfitting. Neste trabalho, propomos o conjunto de dados e benchmark de Renderização Esparsa (SpaRe). Introduzimos um novo conjunto de dados que segue a configuração do conjunto de dados DTU MVS. O conjunto de dados é composto por 97 novas cenas baseadas em ativos sintéticos de alta qualidade. Cada cena possui até 64 visualizações de câmera e 7 configurações de iluminação, renderizadas com resolução de 1600x1200. Disponibilizamos um conjunto de treinamento com 82 cenas para promover abordagens generalizáveis, e fornecemos uma plataforma de avaliação online para os conjuntos de validação e teste, cujas imagens de referência permanecem ocultas. Propomos duas configurações esparsas diferentes (com 3 e 9 imagens de entrada, respectivamente). Isso fornece uma ferramenta poderosa e conveniente para avaliação reprodutível, e permite que os pesquisadores acessem facilmente um quadro de líderes público com os melhores resultados de desempenho. Disponível em: https://sparebenchmark.github.io/
Os métodos de super-resolução de imagens baseados em difusão alcançaram sucesso notável ao aproveitar grandes modelos de difusão pré-treinados texto-imagem como priors. No entanto, esses métodos ainda enfrentam dois desafios: a necessidade de dezenas de etapas de amostragem para obter resultados satisfatórios, o que limita a eficiência em cenários reais, e a negligência de modelos de degradação, que são informações auxiliares críticas na resolução do problema de super-resolução. Neste trabalho, introduzimos um novo modelo de super-resolução de um passo, que aborda significativamente o problema de eficiência dos métodos de super-resolução baseados em difusão. Ao contrário das estratégias de ajuste fino existentes, projetamos um módulo de Adaptação de Baixa Patente (LoRA) guiado por degradação especificamente para super-resolução, que corrige os parâmetros do modelo com base nas informações de degradação pré-estimadas de imagens de baixa resolução. Este módulo não apenas facilita um modelo de super-resolução poderoso dependente de dados ou degradação, mas também preserva o prior generativo do modelo de difusão pré-treinado o máximo possível. Além disso, adaptamos um novo pipeline de treinamento introduzindo uma estratégia de geração de amostras negativas online. Combinado com a estratégia de orientação livre de classificador durante a inferência, melhora significativamente a qualidade perceptual dos resultados de super-resolução. Experimentos extensivos demonstraram a eficiência e eficácia superiores do modelo proposto em comparação com os métodos recentes de ponta.
Apresentamos uma abordagem inovadora para sintetizar movimentos habilidosos para mãos simuladas fisicamente em tarefas que exigem coordenação entre o controle de duas mãos com alta precisão temporal. Em vez de aprender diretamente uma política conjunta para controlar as duas mãos, nossa abordagem realiza controle bimanual por meio de aprendizado cooperativo, onde cada mão é tratada como um agente individual. As políticas individuais para cada mão são primeiro treinadas separadamente e, em seguida, sincronizadas por meio da manipulação do espaço latente em um ambiente centralizado para servir como uma política conjunta para o controle de duas mãos. Ao fazer isso, evitamos realizar diretamente o aprendizado de políticas no espaço de ação-estado conjunto de duas mãos com dimensões mais altas, melhorando significativamente a eficiência geral do treinamento. Demonstramos a eficácia de nossa abordagem proposta na desafiadora tarefa de tocar guitarra. O guitarrista virtual treinado por nossa abordagem pode sintetizar movimentos a partir de dados de referência não estruturados de práticas gerais de tocar guitarra e tocar com precisão ritmos diversos com padrões complexos de pressionar acordes e tocar cordas com base nas abas de guitarra de entrada que não existem nas referências. Juntamente com este artigo, fornecemos os dados de captura de movimento que coletamos como referência para o treinamento de políticas. O código está disponível em: https://pei-xu.github.io/guitar.
Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a engenharia de software (SE), demonstrando capacidades notáveis em várias tarefas de codificação. Enquanto esforços recentes têm produzido agentes de software autônomos baseados em LLMs para tarefas de desenvolvimento de ponta a ponta, esses sistemas são tipicamente projetados para tarefas específicas de SE. Apresentamos o HyperAgent, um novo sistema multiagente generalista projetado para abordar um amplo espectro de tarefas de SE em diferentes linguagens de programação, imitando os fluxos de trabalho de desenvolvedores humanos. Composto por quatro agentes especializados - Planejador, Navegador, Editor de Código e Executor - o HyperAgent gerencia todo o ciclo de vida das tarefas de SE, desde a concepção inicial até a verificação final. Através de avaliações extensivas, o HyperAgent alcança um desempenho de ponta em diversas tarefas de SE: ele atinge uma taxa de sucesso de 25,01% no SWE-Bench-Lite e 31,40% no SWE-Bench-Verified para resolução de problemas do GitHub, superando métodos existentes. Além disso, o HyperAgent demonstra um desempenho de ponta na geração de código em nível de repositório (RepoExec) e na localização de falhas e reparo de programas (Defects4J), frequentemente superando sistemas especializados. Este trabalho representa um avanço significativo em direção a agentes autônomos e versáteis capazes de lidar com tarefas complexas de SE em vários domínios e linguagens, potencialmente transformando as práticas de desenvolvimento de software assistido por IA.
O vídeo tornou-se uma forma popular de mídia para compartilhamento e consumo de informações. No entanto, tomar notas enquanto assiste a um vídeo requer um tempo e esforço significativos. Para lidar com isso, propomos um novo sistema interativo, NoTeeline, para tomar notas personalizadas em tempo real. O NoTeeline permite aos usuários rapidamente anotar pontos-chave (micronotas), que são automaticamente expandidos em notas completas que capturam o conteúdo das micronotas do usuário e são consistentes com o estilo de escrita do usuário. Em um estudo dentro dos sujeitos (N=12), descobrimos que o NoTeeline ajuda os usuários a criar notas de alta qualidade que capturam a essência de suas micronotas com uma correção factual mais alta (93,2%), ao mesmo tempo que refletem com precisão seu estilo de escrita. Ao usar o NoTeeline, os participantes experimentaram uma redução significativa no esforço mental, capturaram notas satisfatórias enquanto escreviam 47% menos texto e completaram a tomada de notas com 43,9% menos tempo em comparação com uma linha de base de tomada de notas manual.
A tecnologia de geo-localização baseada em visão para UAV, atuando como uma fonte secundária de informações GPS além dos sistemas globais de navegação por satélite (GNSS), ainda pode operar de forma independente em ambientes sem sinal de GPS. Métodos recentes baseados em aprendizado profundo atribuem essa tarefa como correspondência e recuperação de imagens. Ao recuperar imagens da visão do drone em um banco de dados de imagens de satélite georreferenciadas, informações de localização aproximadas podem ser obtidas. No entanto, devido aos altos custos e preocupações com privacidade, geralmente é difícil obter grandes quantidades de imagens da visão do drone de uma área contínua. Conjuntos de dados de visão de drone existentes são principalmente compostos por fotografias aéreas em pequena escala com a forte suposição de que existe uma imagem de referência perfeitamente alinhada para qualquer consulta, deixando uma lacuna significativa em relação ao cenário prático de localização. Neste trabalho, construímos um conjunto de dados de geo-localização de UAV em uma área contígua de grande alcance chamado GTA-UAV, apresentando múltiplas altitudes de voo, atitudes, cenas e alvos usando jogos de computador modernos. Com base nesse conjunto de dados, introduzimos uma tarefa de geo-localização de UAV mais prática, incluindo correspondências parciais de dados em pares de visões cruzadas, e expandimos a recuperação de nível de imagem para a localização real em termos de distância (metros). Para a construção de pares de visão de drone e satélite, adotamos uma abordagem de aprendizado contrastivo baseado em peso, que permite uma aprendizagem eficaz evitando etapas adicionais de correspondência pós-processamento. Experimentos demonstram a eficácia de nossos dados e método de treinamento para geo-localização de UAV, bem como as capacidades de generalização para cenários do mundo real.
Apresentamos um novo framework que aprende um campo de radiância neural dinâmico (NeRF) para humanos falantes de corpo inteiro a partir de vídeos monoculares. Trabalhos anteriores representam apenas a pose do corpo ou o rosto. No entanto, os humanos se comunicam com seus corpos inteiros, combinando pose corporal, gestos das mãos, bem como expressões faciais. Neste trabalho, propomos o TalkinNeRF, uma rede unificada baseada em NeRF que representa o movimento humano holístico 4D. Dado um vídeo monocula de um sujeito, aprendemos módulos correspondentes para o corpo, rosto e mãos, que são combinados para gerar o resultado final. Para capturar a articulação complexa dos dedos, aprendemos um campo de deformação adicional para as mãos. Nossa representação multi-identidade permite o treinamento simultâneo para múltiplos sujeitos, bem como animação robusta sob poses completamente inéditas. Também pode generalizar para novas identidades, dadas apenas um vídeo curto como entrada. Demonstramos um desempenho de ponta para animar humanos falantes de corpo inteiro, com articulação detalhada das mãos e expressões faciais.
Apresentamos uma abordagem simples e auto-supervisionada para o problema de Rastreamento de Qualquer Ponto (TAP). Treinamos um transformador de correspondência global para encontrar trajetórias consistentes através de vídeos via caminhadas aleatórias contrastivas, utilizando a correspondência global baseada em atenção do transformador para definir as matrizes de transição para uma caminhada aleatória em um grafo espaço-temporal. A capacidade de realizar comparações "entre todos os pares" entre pontos permite que o modelo obtenha alta precisão espacial e um forte sinal de aprendizado contrastivo, evitando muitas das complexidades de abordagens recentes (como correspondência grosseira a fina). Para isso, propomos uma série de decisões de projeto que permitem que arquiteturas de correspondência global sejam treinadas por auto-supervisão usando consistência cíclica. Por exemplo, identificamos que métodos baseados em transformadores são sensíveis a soluções de atalho e propomos um esquema de aumento de dados para abordá-las. Nosso método alcança um desempenho robusto nos benchmarks do TapVid, superando métodos de rastreamento auto-supervisionados anteriores, como DIFT, e é competitivo com vários métodos supervisionados.