Artigos de pesquisa em IA selecionados diariamente com traduções
Estudamos a eficácia de uma abordagem simples para desenvolver um modelo de linguagem base (LM) pequeno a partir de um LM base grande existente: primeiro herdar alguns blocos de transformadores do LM maior e, em seguida, treinar esse modelo menor em um subconjunto muito pequeno (0,1%) dos dados brutos de pré-treinamento do LM maior. Chamamos nossa receita simples de Inheritune e primeiro a demonstramos para construir um LM base pequeno com 1,5 bilhão de parâmetros usando 1 bilhão de tokens (e algumas camadas iniciais de um LM maior com 3 bilhões de parâmetros); fazemos isso usando uma única GPU A6000 por menos de meio dia. Em 9 conjuntos de dados de avaliação diversos, bem como no benchmark MMLU, o modelo resultante se compara favoravelmente a modelos base publicamente disponíveis de tamanho 1B-2B, alguns dos quais foram treinados usando 50 a 1000 vezes mais tokens. Investigamos o Inheritune em um cenário ligeiramente diferente, onde treinamos LMs pequenos utilizando LMs maiores e seu conjunto de dados completo de pré-treinamento. Aqui mostramos que LMs menores treinados utilizando algumas das camadas do GPT2-medium (355M) e GPT-2-large (770M) podem efetivamente igualar a perda de validação de seus equivalentes maiores quando treinados do zero pelo mesmo número de passos de treinamento no conjunto de dados OpenWebText com 9 bilhões de tokens. Analisamos nossa receita com experimentos extensos e demonstramos sua eficácia em diversos cenários. Nosso código está disponível em https://github.com/sanyalsunny111/LLM-Inheritune.
Nas últimas décadas, a comunidade de visão computacional testemunhou progressos notáveis em reconhecimento visual, em parte devido aos avanços em benchmarks de conjuntos de dados. Notavelmente, o estabelecido benchmark COCO impulsionou o desenvolvimento de sistemas modernos de detecção e segmentação. No entanto, o benchmark de segmentação do COCO tem apresentado uma melhoria comparativamente lenta na última década. Originalmente equipado com anotações de polígonos grosseiros para instâncias de objetos, ele gradualmente incorporou anotações de superpixels grosseiros para regiões de fundo, que foram subsequentemente amalgamadas heuristicamente para produzir anotações de segmentação panóptica. Essas anotações, executadas por diferentes grupos de avaliadores, resultaram não apenas em máscaras de segmentação grosseiras, mas também em inconsistências entre os tipos de segmentação. Neste estudo, realizamos uma reavaliação abrangente das anotações de segmentação do COCO. Ao aprimorar a qualidade das anotações e expandir o conjunto de dados para abranger 383 mil imagens com mais de 5,18 milhões de máscaras panópticas, introduzimos o COCONut, o COCO Next Universal segmenTation dataset. O COCONut harmoniza as anotações de segmentação em segmentação semântica, de instância e panóptica com máscaras de alta qualidade meticulosamente elaboradas, e estabelece um benchmark robusto para todas as tarefas de segmentação. Até onde sabemos, o COCONut é o primeiro conjunto de dados de segmentação universal em larga escala, verificado por avaliadores humanos. Antecipamos que o lançamento do COCONut contribuirá significativamente para a capacidade da comunidade de avaliar o progresso de novas redes neurais.
Este artigo investiga o desempenho do Contrastive Language-Image Pre-training (CLIP) quando dimensionado para orçamentos computacionais limitados. Exploramos o CLIP em três dimensões: dados, arquitetura e estratégias de treinamento. Em relação aos dados, demonstramos a importância de dados de treinamento de alta qualidade e mostramos que um conjunto de dados menor, mas de alta qualidade, pode superar um conjunto de dados maior com qualidade inferior. Também examinamos como o desempenho do modelo varia com diferentes tamanhos de conjuntos de dados, sugerindo que modelos ViT menores são mais adequados para conjuntos de dados menores, enquanto modelos maiores têm melhor desempenho em conjuntos de dados maiores com computação fixa. Além disso, fornecemos orientações sobre quando escolher uma arquitetura baseada em CNN ou uma baseada em ViT para o treinamento do CLIP. Comparamos quatro estratégias de treinamento do CLIP - SLIP, FLIP, CLIP e CLIP+Aumento de Dados - e mostramos que a escolha da estratégia de treinamento depende do recurso computacional disponível. Nossa análise revela que o CLIP+Aumento de Dados pode alcançar desempenho comparável ao CLIP usando apenas metade dos dados de treinamento. Este trabalho fornece insights práticos sobre como treinar e implantar modelos CLIP de forma eficaz, tornando-os mais acessíveis e viáveis para uso prático em diversas aplicações.
Os recentes avanços no pré-treinamento em grande escala resultaram em modelos de base visual com capacidades robustas. Não apenas os modelos recentes podem generalizar para imagens arbitrárias em sua tarefa de treinamento, mas suas representações intermediárias são úteis para outras tarefas visuais, como detecção e segmentação. Considerando que tais modelos podem classificar, delimitar e localizar objetos em 2D, questionamos se eles também representam sua estrutura 3D? Neste trabalho, analisamos a consciência 3D dos modelos de base visual. Postulamos que a consciência 3D implica que as representações (1) codificam a estrutura 3D da cena e (2) representam consistentemente a superfície através de diferentes perspectivas. Realizamos uma série de experimentos utilizando sondagens específicas para tarefas e procedimentos de inferência zero-shot em características congeladas. Nossos experimentos revelam várias limitações dos modelos atuais. Nosso código e análise podem ser encontrados em https://github.com/mbanani/probe3d.
Avanços recentes na estimativa de profundidade monocular têm sido alcançados ao incorporar a linguagem natural como uma orientação adicional. Embora tenham gerado resultados impressionantes, o impacto do prior de linguagem, particularmente em termos de generalização e robustez, permanece inexplorado. Neste artigo, abordamos essa lacuna ao quantificar o impacto desse prior e introduzimos métodos para avaliar sua eficácia em várias configurações. Geramos frases de "baixo nível" que transmitem relações espaciais tridimensionais centradas em objetos, as incorporamos como priors de linguagem adicionais e avaliamos seu impacto subsequente na estimativa de profundidade. Nossa principal descoberta é que os estimadores de profundidade guiados por linguagem atuais têm desempenho ideal apenas com descrições em nível de cena e, de forma contraintuitiva, apresentam pior desempenho com descrições de baixo nível. Apesar de aproveitarem dados adicionais, esses métodos não são robustos a ataques adversariais direcionados e apresentam queda de desempenho com o aumento da mudança de distribuição. Por fim, para fornecer uma base para pesquisas futuras, identificamos pontos de falha e oferecemos insights para melhor compreender essas deficiências. Com o crescente número de métodos que utilizam linguagem para estimativa de profundidade, nossas descobertas destacam as oportunidades e armadilhas que exigem consideração cuidadosa para uma implantação eficaz em cenários do mundo real.
O Aprendizado por Reforço (RL) baseado em feedback de preferências humanas é um paradigma popular para o ajuste fino de modelos generativos, que produziu modelos impressionantes como o GPT-4 e o Claude3 Opus. Esse framework geralmente consiste em duas etapas: aprender um modelo de recompensa a partir de um conjunto de dados de preferências offline, seguido pela execução de RL online para otimizar o modelo de recompensa aprendido. Neste trabalho, aproveitando a ideia de reset, propomos um novo algoritmo RLHF com garantias comprováveis. Motivados pelo fato de que o conjunto de dados de preferências offline fornece estados informativos (ou seja, dados que são preferidos pelos avaliadores), nosso novo algoritmo, Dataset Reset Policy Optimization (DR-PO), integra o conjunto de dados de preferências offline existente no procedimento de treinamento de política online por meio de reset de dataset: ele redefine diretamente o otimizador de política para os estados no conjunto de dados offline, em vez de sempre começar a partir da distribuição de estado inicial. Em teoria, mostramos que o DR-PO aprende a performar pelo menos tão bem quanto qualquer política que é coberta pelo conjunto de dados offline sob aproximação de função geral com complexidade de amostra finita. Nos experimentos, demonstramos que, tanto no resumo TL;DR quanto no conjunto de dados Anthropic Helpful Harmful (HH), a geração do DR-PO é melhor do que a do Proximal Policy Optimization (PPO) e do Direction Preference Optimization (DPO), sob a métrica de taxa de vitória do GPT4. O código deste trabalho pode ser encontrado em https://github.com/Cornell-RL/drpo.
As abordagens mais recentes de Campos de Radiação Neural Regularizados (NeRF) produzem geometria e extrapolação de visão deficientes para benchmarks de estereoscopia multivista (MVS), como o ETH3D. Neste artigo, buscamos criar modelos 3D que forneçam geometria precisa e síntese de visão, reduzindo parcialmente a grande lacuna de desempenho geométrico entre o NeRF e os métodos tradicionais de MVS. Propomos uma abordagem baseada em patches que utiliza efetivamente previsões de normais de superfície monoculares e profundidade relativa. A amostragem de raios baseada em patches também permite a regularização de aparência da correlação cruzada normalizada (NCC) e da similaridade estrutural (SSIM) entre visões virtuais e de treinamento amostradas aleatoriamente. Além disso, demonstramos que "restrições de densidade" baseadas em pontos esparsos de estrutura a partir de movimento podem ajudar a melhorar significativamente a precisão geométrica com uma leve queda nas métricas de síntese de novas visões. Nossos experimentos mostram um desempenho 4 vezes superior ao RegNeRF e 8 vezes superior ao FreeNeRF na média F1@2cm para o benchmark MVS ETH3D, sugerindo uma direção de pesquisa promissora para melhorar a precisão geométrica de modelos baseados em NeRF e lançando luz sobre uma abordagem futura potencial para permitir que a otimização baseada em NeRF supere eventualmente os métodos tradicionais de MVS.