Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Molmo e PixMo: Pesos Abertos e Dados Abertos para Modelos Multimodais de Última Geração
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models

Sep 25

ByMatt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Jen Dumas, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi

121

Os modelos multimodais mais avançados de hoje permanecem proprietários. Os modelos abertos mais fortes dependem fortemente de dados sintéticos de VLMs proprietários para alcançar um bom desempenho, destilando efetivamente esses modelos fechados em modelos abertos. Como resultado, a comunidade ainda carece de conhecimento fundamental sobre como construir VLMs performáticos do zero. Apresentamos o Molmo, uma nova família de VLMs que são de ponta em sua classe de abertura. Nossa inovação chave é um novo conjunto de dados de legendas de imagens altamente detalhado coletado inteiramente por anotadores humanos usando descrições baseadas em fala. Para permitir uma ampla gama de interações do usuário, também introduzimos uma mistura diversificada de conjuntos de dados para ajuste fino que inclui perguntas e respostas do mundo real e dados inovadores de apontamento 2D. O sucesso de nossa abordagem depende de escolhas cuidadosas para os detalhes da arquitetura do modelo, um pipeline de treinamento bem ajustado e, mais criticamente, a qualidade de nossos conjuntos de dados recém-coletados, todos os quais serão disponibilizados. O modelo 72B líder da família Molmo não apenas supera outros na classe de modelos abertos e de dados, mas também se compara favoravelmente aos sistemas proprietários como GPT-4o, Claude 3.5 e Gemini 1.5 em ambos os benchmarks acadêmicos e avaliação humana. Estaremos disponibilizando todos os pesos do nosso modelo, dados de legendagem e ajuste fino, e código-fonte em um futuro próximo. Alguns pesos do modelo selecionados, código de inferência e demonstração estão disponíveis em https://molmo.allenai.org.

Programando Cada Exemplo: Elevando a Qualidade dos Dados de Pré-treinamento como Especialistas em Escala
Programming Every Example: Lifting Pre-training Data Quality like Experts at Scale

Sep 25

ByFan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu

O pré-treinamento de grandes modelos de linguagem tradicionalmente dependeu de especialistas humanos para criar heurísticas para melhorar a qualidade das corpora, resultando em inúmeras regras desenvolvidas até o momento. No entanto, essas regras carecem da flexibilidade para lidar eficazmente com as características únicas de cada exemplo. Enquanto isso, aplicar regras personalizadas para cada exemplo é impraticável para especialistas humanos. Neste artigo, demonstramos que até mesmo pequenos modelos de linguagem, com apenas 0,3 bilhões de parâmetros, podem apresentar substanciais capacidades de refinamento de dados comparáveis às de especialistas humanos. Apresentamos a Programação de Cada Exemplo (ProX), um novo framework que trata o refinamento de dados como uma tarefa de programação, permitindo que os modelos refinem as corpora gerando e executando operações detalhadas, como normalização de strings, para cada exemplo individual em escala. Resultados experimentais mostram que os modelos pré-treinados em dados curados pelo ProX superam tanto os dados originais quanto os dados filtrados por outros métodos de seleção em mais de 2% em diversos benchmarks subsequentes. Sua eficácia abrange vários tamanhos de modelo e corpora de pré-treinamento, incluindo C4, RedPajama-V2 e FineWeb. Além disso, o ProX apresenta um potencial significativo em pré-treinamento contínuo específico de domínio: sem design específico de domínio, modelos treinados em OpenWebMath refinados pelo ProX superam métodos baseados em regras criadas por humanos, melhorando a precisão média em 7,6% em relação ao Mistral-7B, com 14,6% para Llama-2-7B e 20,3% para CodeLlama-7B, todos dentro de 10 bilhões de tokens para serem comparáveis a modelos como Llemma-7B treinados em 200 bilhões de tokens. Uma análise adicional destaca que o ProX economiza significativamente FLOPs de treinamento, oferecendo um caminho promissor para o pré-treinamento eficiente de LLM. Estamos disponibilizando o ProX como código aberto com um corpus de mais de 100 bilhões, modelos e compartilhando todos os detalhes de treinamento e implementação para pesquisa reproduzível e futuras inovações. Código: https://github.com/GAIR-NLP/ProX

Impulsionando LLMs de Saúde Através do Contexto Recuperado
Boosting Healthcare LLMs Through Retrieved Context

Sep 23

ByJordi Bayarri-Planas, Ashwin Kumar Gururajan, Dario Garcia-Gasulla

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis no processamento de linguagem natural e, no entanto, suas imprecisões factuais e alucinações limitam sua aplicação, especialmente em domínios críticos como a saúde. Os métodos de recuperação de contexto, ao introduzir informações relevantes como entrada, surgiram como uma abordagem crucial para aprimorar a factualidade e confiabilidade dos LLMs. Este estudo explora os limites dos métodos de recuperação de contexto no domínio da saúde, otimizando seus componentes e avaliando seu desempenho em comparação com alternativas abertas e fechadas. Nossas descobertas revelam como os LLMs abertos, quando aprimorados com um sistema de recuperação otimizado, podem alcançar desempenho comparável às maiores soluções privadas em benchmarks de saúde estabelecidos (resposta a perguntas de múltipla escolha). Reconhecendo a falta de realismo de incluir as possíveis respostas dentro da pergunta (uma configuração encontrada apenas em exames médicos) e após avaliar uma forte degradação de desempenho de LLM na ausência dessas opções, estendemos o sistema de recuperação de contexto nessa direção. Em particular, propomos o OpenMedPrompt, um pipeline que aprimora a geração de respostas abertas mais confiáveis, aproximando essa tecnologia da aplicação prática.

DreamWaltz-G: Avatares Gaussianos 3D Expressivos a partir de Difusão 2D Guiada por Esqueleto
DreamWaltz-G: Expressive 3D Gaussian Avatars from Skeleton-Guided 2D Diffusion

Sep 25

ByYukun Huang, Jianan Wang, Ailing Zeng, Zheng-Jun Zha, Lei Zhang, Xihui Liu

Aproveitando modelos de difusão 2D pré-treinados e amostragem de destilação de pontuação (SDS), métodos recentes têm mostrado resultados promissores para a geração de avatares 3D a partir de texto. No entanto, gerar avatares 3D de alta qualidade capazes de animação expressiva ainda é desafiador. Neste trabalho, apresentamos o DreamWaltz-G, um novo framework de aprendizado para geração de avatares 3D animáveis a partir de texto. O cerne deste framework reside na Destilação de Pontuação Guiada por Esqueleto e na Representação Híbrida de Avatar 3D Gaussiano. Especificamente, a destilação de pontuação guiada por esqueleto proposta integra controles de esqueleto de modelos humanos 3D em modelos de difusão 2D, aprimorando a consistência da supervisão de SDS em termos de visualização e pose humana. Isso facilita a geração de avatares de alta qualidade, mitigando problemas como múltiplos rostos, membros extras e desfoque. A representação híbrida de avatar 3D Gaussiano proposta baseia-se nos Gaussianos 3D eficientes, combinando campos implícitos neurais e malhas 3D parametrizadas para permitir renderização em tempo real, otimização estável de SDS e animação expressiva. Experimentos extensivos demonstram que o DreamWaltz-G é altamente eficaz na geração e animação de avatares 3D, superando os métodos existentes tanto em qualidade visual quanto em expressividade de animação. Nosso framework ainda suporta diversas aplicações, incluindo reencenação de vídeo humano e composição de cena com vários sujeitos.

Desafio de Renderização Neural Esparsa AIM 2024: Conjunto de Dados e Referência
AIM 2024 Sparse Neural Rendering Challenge: Dataset and Benchmark

Sep 23

ByMichal Nazarczuk, Thomas Tanay, Sibi Catley-Chandar, Richard Shaw, Radu Timofte, Eduardo Pérez-Pellitero

Os recentes avanços na renderização diferenciável e neural têm alcançado avanços impressionantes em uma variedade de tarefas 2D e 3D, como síntese de novas visualizações e reconstrução 3D. Tipicamente, a renderização diferenciável depende de uma cobertura densa de pontos de vista da cena, de modo que a geometria possa ser desambiguada apenas a partir das observações de aparência. Várias desafios surgem quando apenas algumas visualizações de entrada estão disponíveis, frequentemente referidas como renderização neural esparsa ou de poucas amostras. Por se tratar de um problema subdeterminado, a maioria das abordagens existentes introduz o uso de regularização, juntamente com uma diversidade de priors aprendidos e artesanais. Um problema recorrente na literatura de renderização esparsa é a falta de um conjunto de dados e protocolo de avaliação homogêneos e atualizados. Enquanto conjuntos de dados de alta resolução são padrão na literatura de reconstrução densa, métodos de renderização esparsa frequentemente avaliam com imagens de baixa resolução. Além disso, as divisões de dados são inconsistentes entre diferentes manuscritos, e imagens de referência para testes frequentemente estão disponíveis publicamente, o que pode levar ao overfitting. Neste trabalho, propomos o conjunto de dados e benchmark de Renderização Esparsa (SpaRe). Introduzimos um novo conjunto de dados que segue a configuração do conjunto de dados DTU MVS. O conjunto de dados é composto por 97 novas cenas baseadas em ativos sintéticos de alta qualidade. Cada cena possui até 64 visualizações de câmera e 7 configurações de iluminação, renderizadas com resolução de 1600x1200. Disponibilizamos um conjunto de treinamento com 82 cenas para promover abordagens generalizáveis, e fornecemos uma plataforma de avaliação online para os conjuntos de validação e teste, cujas imagens de referência permanecem ocultas. Propomos duas configurações esparsas diferentes (com 3 e 9 imagens de entrada, respectivamente). Isso fornece uma ferramenta poderosa e conveniente para avaliação reprodutível, e permite que os pesquisadores acessem facilmente um quadro de líderes público com os melhores resultados de desempenho. Disponível em: https://sparebenchmark.github.io/

Super-Resolução de Imagem em Um Passo Guiada por Degradação com Priors de Difusão
Degradation-Guided One-Step Image Super-Resolution with Diffusion Priors

Sep 25

ByAiping Zhang, Zongsheng Yue, Renjing Pei, Wenqi Ren, Xiaochun Cao

Os métodos de super-resolução de imagens baseados em difusão alcançaram sucesso notável ao aproveitar grandes modelos de difusão pré-treinados texto-imagem como priors. No entanto, esses métodos ainda enfrentam dois desafios: a necessidade de dezenas de etapas de amostragem para obter resultados satisfatórios, o que limita a eficiência em cenários reais, e a negligência de modelos de degradação, que são informações auxiliares críticas na resolução do problema de super-resolução. Neste trabalho, introduzimos um novo modelo de super-resolução de um passo, que aborda significativamente o problema de eficiência dos métodos de super-resolução baseados em difusão. Ao contrário das estratégias de ajuste fino existentes, projetamos um módulo de Adaptação de Baixa Patente (LoRA) guiado por degradação especificamente para super-resolução, que corrige os parâmetros do modelo com base nas informações de degradação pré-estimadas de imagens de baixa resolução. Este módulo não apenas facilita um modelo de super-resolução poderoso dependente de dados ou degradação, mas também preserva o prior generativo do modelo de difusão pré-treinado o máximo possível. Além disso, adaptamos um novo pipeline de treinamento introduzindo uma estratégia de geração de amostras negativas online. Combinado com a estratégia de orientação livre de classificador durante a inferência, melhora significativamente a qualidade perceptual dos resultados de super-resolução. Experimentos extensivos demonstraram a eficiência e eficácia superiores do modelo proposto em comparação com os métodos recentes de ponta.

HyperAgente: Agentes de Engenharia de Software Generalistas para Resolver Tarefas de Codificação em Escala
HyperAgent: Generalist Software Engineering Agents to Solve Coding Tasks at Scale

Sep 9

ByHuy Nhat Phan, Phong X. Nguyen, Nghi D. Q. Bui

Os Modelos de Linguagem de Grande Escala (LLMs) revolucionaram a engenharia de software (SE), demonstrando capacidades notáveis em várias tarefas de codificação. Enquanto esforços recentes têm produzido agentes de software autônomos baseados em LLMs para tarefas de desenvolvimento de ponta a ponta, esses sistemas são tipicamente projetados para tarefas específicas de SE. Apresentamos o HyperAgent, um novo sistema multiagente generalista projetado para abordar um amplo espectro de tarefas de SE em diferentes linguagens de programação, imitando os fluxos de trabalho de desenvolvedores humanos. Composto por quatro agentes especializados - Planejador, Navegador, Editor de Código e Executor - o HyperAgent gerencia todo o ciclo de vida das tarefas de SE, desde a concepção inicial até a verificação final. Através de avaliações extensivas, o HyperAgent alcança um desempenho de ponta em diversas tarefas de SE: ele atinge uma taxa de sucesso de 25,01% no SWE-Bench-Lite e 31,40% no SWE-Bench-Verified para resolução de problemas do GitHub, superando métodos existentes. Além disso, o HyperAgent demonstra um desempenho de ponta na geração de código em nível de repositório (RepoExec) e na localização de falhas e reparo de programas (Defects4J), frequentemente superando sistemas especializados. Este trabalho representa um avanço significativo em direção a agentes autônomos e versáteis capazes de lidar com tarefas complexas de SE em vários domínios e linguagens, potencialmente transformando as práticas de desenvolvimento de software assistido por IA.

Sincronização de Mãos Duplas para Execução de Guitarra Dextrosa Baseada em Física
Synchronize Dual Hands for Physics-Based Dexterous Guitar Playing

Sep 25

ByPei Xu, Ruocheng Wang

Apresentamos uma abordagem inovadora para sintetizar movimentos habilidosos para mãos simuladas fisicamente em tarefas que exigem coordenação entre o controle de duas mãos com alta precisão temporal. Em vez de aprender diretamente uma política conjunta para controlar as duas mãos, nossa abordagem realiza controle bimanual por meio de aprendizado cooperativo, onde cada mão é tratada como um agente individual. As políticas individuais para cada mão são primeiro treinadas separadamente e, em seguida, sincronizadas por meio da manipulação do espaço latente em um ambiente centralizado para servir como uma política conjunta para o controle de duas mãos. Ao fazer isso, evitamos realizar diretamente o aprendizado de políticas no espaço de ação-estado conjunto de duas mãos com dimensões mais altas, melhorando significativamente a eficiência geral do treinamento. Demonstramos a eficácia de nossa abordagem proposta na desafiadora tarefa de tocar guitarra. O guitarrista virtual treinado por nossa abordagem pode sintetizar movimentos a partir de dados de referência não estruturados de práticas gerais de tocar guitarra e tocar com precisão ritmos diversos com padrões complexos de pressionar acordes e tocar cordas com base nas abas de guitarra de entrada que não existem nas referências. Juntamente com este artigo, fornecemos os dados de captura de movimento que coletamos como referência para o treinamento de políticas. O código está disponível em: https://pei-xu.github.io/guitar.

NoTeeline: Suportando a Tomada de Notas em Tempo Real a partir de Pontos-Chave com Modelos de Linguagem Grandes
NoTeeline: Supporting Real-Time Notetaking from Keypoints with Large Language Models

Sep 24

ByFaria Huq, Abdus Samee, David Chuan-en Lin, Xiaodi Alice Tang, Jeffrey P. Bigham

O vídeo tornou-se uma forma popular de mídia para compartilhamento e consumo de informações. No entanto, tomar notas enquanto assiste a um vídeo requer um tempo e esforço significativos. Para lidar com isso, propomos um novo sistema interativo, NoTeeline, para tomar notas personalizadas em tempo real. O NoTeeline permite aos usuários rapidamente anotar pontos-chave (micronotas), que são automaticamente expandidos em notas completas que capturam o conteúdo das micronotas do usuário e são consistentes com o estilo de escrita do usuário. Em um estudo dentro dos sujeitos (N=12), descobrimos que o NoTeeline ajuda os usuários a criar notas de alta qualidade que capturam a essência de suas micronotas com uma correção factual mais alta (93,2%), ao mesmo tempo que refletem com precisão seu estilo de escrita. Ao usar o NoTeeline, os participantes experimentaram uma redução significativa no esforço mental, capturaram notas satisfatórias enquanto escreviam 47% menos texto e completaram a tomada de notas com 43,9% menos tempo em comparação com uma linha de base de tomada de notas manual.

Game4Loc: Um Benchmark de Geo-Localização de UAV a partir de Dados de Jogos
Game4Loc: A UAV Geo-Localization Benchmark from Game Data

Sep 25

ByYuxiang Ji, Boyong He, Zhuoyue Tan, Liaoni Wu

A tecnologia de geo-localização baseada em visão para UAV, atuando como uma fonte secundária de informações GPS além dos sistemas globais de navegação por satélite (GNSS), ainda pode operar de forma independente em ambientes sem sinal de GPS. Métodos recentes baseados em aprendizado profundo atribuem essa tarefa como correspondência e recuperação de imagens. Ao recuperar imagens da visão do drone em um banco de dados de imagens de satélite georreferenciadas, informações de localização aproximadas podem ser obtidas. No entanto, devido aos altos custos e preocupações com privacidade, geralmente é difícil obter grandes quantidades de imagens da visão do drone de uma área contínua. Conjuntos de dados de visão de drone existentes são principalmente compostos por fotografias aéreas em pequena escala com a forte suposição de que existe uma imagem de referência perfeitamente alinhada para qualquer consulta, deixando uma lacuna significativa em relação ao cenário prático de localização. Neste trabalho, construímos um conjunto de dados de geo-localização de UAV em uma área contígua de grande alcance chamado GTA-UAV, apresentando múltiplas altitudes de voo, atitudes, cenas e alvos usando jogos de computador modernos. Com base nesse conjunto de dados, introduzimos uma tarefa de geo-localização de UAV mais prática, incluindo correspondências parciais de dados em pares de visões cruzadas, e expandimos a recuperação de nível de imagem para a localização real em termos de distância (metros). Para a construção de pares de visão de drone e satélite, adotamos uma abordagem de aprendizado contrastivo baseado em peso, que permite uma aprendizagem eficaz evitando etapas adicionais de correspondência pós-processamento. Experimentos demonstram a eficácia de nossos dados e método de treinamento para geo-localização de UAV, bem como as capacidades de generalização para cenários do mundo real.

Rastreamento de Qualquer Ponto Auto-supervisionado por Caminhadas Aleatórias Contrastivas
Self-Supervised Any-Point Tracking by Contrastive Random Walks

Sep 24

ByAyush Shrivastava, Andrew Owens

Apresentamos uma abordagem simples e auto-supervisionada para o problema de Rastreamento de Qualquer Ponto (TAP). Treinamos um transformador de correspondência global para encontrar trajetórias consistentes através de vídeos via caminhadas aleatórias contrastivas, utilizando a correspondência global baseada em atenção do transformador para definir as matrizes de transição para uma caminhada aleatória em um grafo espaço-temporal. A capacidade de realizar comparações "entre todos os pares" entre pontos permite que o modelo obtenha alta precisão espacial e um forte sinal de aprendizado contrastivo, evitando muitas das complexidades de abordagens recentes (como correspondência grosseira a fina). Para isso, propomos uma série de decisões de projeto que permitem que arquiteturas de correspondência global sejam treinadas por auto-supervisão usando consistência cíclica. Por exemplo, identificamos que métodos baseados em transformadores são sensíveis a soluções de atalho e propomos um esquema de aumento de dados para abordá-las. Nosso método alcança um desempenho robusto nos benchmarks do TapVid, superando métodos de rastreamento auto-supervisionados anteriores, como DIFT, e é competitivo com vários métodos supervisionados.

TalkinNeRF: Campos Neurais Animáveis para Humanos Falantes de Corpo Inteiro
TalkinNeRF: Animatable Neural Fields for Full-Body Talking Humans

Sep 25

ByAggelina Chatziagapi, Bindita Chaudhuri, Amit Kumar, Rakesh Ranjan, Dimitris Samaras, Nikolaos Sarafianos

Apresentamos um novo framework que aprende um campo de radiância neural dinâmico (NeRF) para humanos falantes de corpo inteiro a partir de vídeos monoculares. Trabalhos anteriores representam apenas a pose do corpo ou o rosto. No entanto, os humanos se comunicam com seus corpos inteiros, combinando pose corporal, gestos das mãos, bem como expressões faciais. Neste trabalho, propomos o TalkinNeRF, uma rede unificada baseada em NeRF que representa o movimento humano holístico 4D. Dado um vídeo monocula de um sujeito, aprendemos módulos correspondentes para o corpo, rosto e mãos, que são combinados para gerar o resultado final. Para capturar a articulação complexa dos dedos, aprendemos um campo de deformação adicional para as mãos. Nossa representação multi-identidade permite o treinamento simultâneo para múltiplos sujeitos, bem como animação robusta sob poses completamente inéditas. Também pode generalizar para novas identidades, dadas apenas um vídeo curto como entrada. Demonstramos um desempenho de ponta para animar humanos falantes de corpo inteiro, com articulação detalhada das mãos e expressões faciais.