Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o TinyLlama, um modelo de linguagem compacto de 1,1B de parâmetros, pré-treinado em aproximadamente 1 trilhão de tokens por cerca de 3 épocas. Baseando-se na arquitetura e no tokenizador do Llama 2, o TinyLlama aproveita diversos avanços contribuídos pela comunidade de código aberto (por exemplo, FlashAttention), alcançando uma melhor eficiência computacional. Apesar de seu tamanho relativamente pequeno, o TinyLlama demonstra um desempenho notável em uma série de tarefas subsequentes. Ele supera significativamente os modelos de linguagem de código aberto existentes com tamanhos comparáveis. Nossos checkpoints do modelo e o código estão disponíveis publicamente no GitHub em https://github.com/jzhang38/TinyLlama.
A introdução do ChatGPT levou a um aumento significativo na utilização de Modelos de Linguagem de Grande Escala (LLMs) para abordar tarefas subsequentes. Há um foco crescente em treinamento e implantação de baixo custo nesse contexto. O treinamento e a implantação de LLMs de baixo custo representam a tendência futura de desenvolvimento. Este artigo revisa a evolução das técnicas de treinamento de modelos de linguagem de grande escala e as tecnologias de inferência e implantação alinhadas a essa tendência emergente. A discussão sobre treinamento inclui vários aspectos, como pré-processamento de dados, arquitetura de treinamento, tarefas de pré-treinamento, treinamento paralelo e conteúdo relevante relacionado ao ajuste fino do modelo. No lado da inferência, o artigo aborda tópicos como compressão de modelos, computação paralela, agendamento de memória e otimização estrutural. Também explora a utilização de LLMs e oferece insights sobre seu desenvolvimento futuro.
Os seres humanos geralmente adquirem novas habilidades sem comprometer as antigas; no entanto, o oposto ocorre com os Modelos de Linguagem de Grande Escala (LLMs), como no caso de LLaMA para CodeLLaMA. Para isso, propomos um novo método de pós-pré-treinamento para LLMs com uma expansão de blocos Transformer. Ajustamos os blocos expandidos usando apenas novos corpora, melhorando de forma eficiente e eficaz o conhecimento do modelo sem causar esquecimento catastrófico. Neste artigo, realizamos experimentos com corpora de código e matemática, resultando no LLaMA Pro-8.3B, um modelo de base versátil inicializado a partir do LLaMA2-7B, que se destaca em tarefas gerais, programação e matemática. O LLaMA Pro e sua variante de seguimento de instruções (LLaMA Pro-Instruct) alcançam desempenho avançado em diversos benchmarks, demonstrando superioridade sobre os modelos abertos existentes na família LLaMA e o imenso potencial de raciocínio e resolução de diversas tarefas como um agente inteligente. Nossas descobertas fornecem insights valiosos para a integração de linguagens naturais e de programação, estabelecendo uma base sólida para o desenvolvimento de agentes de linguagem avançados que operam eficazmente em diversos ambientes.
Modelos fundamentais com bilhões de parâmetros, treinados em grandes corpora de dados, demonstraram habilidades significativas em uma variedade de domínios. No entanto, devido à sua estrutura monolítica, é desafiador e custoso aumentá-los ou incorporar novas habilidades. Por outro lado, devido às suas capacidades de adaptação, várias novas instâncias desses modelos estão sendo treinadas para novos domínios e tarefas. Neste trabalho, estudamos o problema da composição eficiente e prática de modelos fundamentais existentes com modelos mais específicos para habilitar novas capacidades. Para isso, propomos o CALM -- Composition to Augment Language Models -- que introduz a atenção cruzada entre modelos para compor suas representações e permitir novas funcionalidades. As características principais do CALM são: (i) Escala modelos de linguagem grandes (LLMs) em novas tarefas ao "reutilizar" LLMs existentes juntamente com alguns parâmetros e dados adicionais, (ii) Os pesos dos modelos existentes são mantidos intactos, preservando assim as capacidades atuais, e (iii) Aplica-se a diversos domínios e contextos. Demonstramos que aumentar o PaLM2-S com um modelo menor treinado em idiomas de baixo recurso resulta em uma melhoria absoluta de até 13% em tarefas como tradução para o inglês e raciocínio aritmético para idiomas de baixo recurso. Da mesma forma, quando o PaLM2-S é aumentado com um modelo específico para código, observamos uma melhoria relativa de 40% em relação ao modelo base para tarefas de geração e explicação de código -- em par com contrapartes totalmente ajustadas.
O aprendizado por imitação a partir de demonstrações humanas tem demonstrado desempenho impressionante em robótica. No entanto, a maioria dos resultados se concentra em manipulação em superfícies de mesa, carecendo da mobilidade e destreza necessárias para tarefas de utilidade geral. Neste trabalho, desenvolvemos um sistema para imitar tarefas de manipulação móvel que são bimanuais e exigem controle de todo o corpo. Primeiro, apresentamos o Mobile ALOHA, um sistema de teleoperação de baixo custo e controle de todo o corpo para coleta de dados. Ele amplia o sistema ALOHA com uma base móvel e uma interface de teleoperação de todo o corpo. Usando dados coletados com o Mobile ALOHA, realizamos clonagem de comportamento supervisionada e descobrimos que o co-treinamento com conjuntos de dados estáticos existentes do ALOHA melhora o desempenho em tarefas de manipulação móvel. Com 50 demonstrações para cada tarefa, o co-treinamento pode aumentar as taxas de sucesso em até 90%, permitindo que o Mobile ALOHA complete autonomamente tarefas complexas de manipulação móvel, como refogar e servir um camarão, abrir um armário de parede com duas portas para armazenar panelas pesadas, chamar e entrar em um elevador, e enxaguar levemente uma panela usada com uma torneira de cozinha. Site do projeto: https://mobile-aloha.github.io
Este artigo apresenta o instruct-imagen, um modelo que aborda tarefas heterogêneas de geração de imagens e generaliza para tarefas não vistas. Introduzimos a *instrução multimodal* para geração de imagens, uma representação de tarefa que articula uma variedade de intenções de geração com precisão. Ela utiliza linguagem natural para amalgamar modalidades distintas (por exemplo, texto, borda, estilo, sujeito, etc.), de modo que diversas intenções de geração possam ser padronizadas em um formato uniforme. Em seguida, construímos o instruct-imagen ajustando um modelo de difusão texto-para-imagem pré-treinado com uma estrutura de duas etapas. Primeiro, adaptamos o modelo usando o treinamento aumentado por recuperação, para aprimorar a capacidade do modelo de fundamentar sua geração em contextos multimodais externos. Posteriormente, ajustamos o modelo adaptado em diversas tarefas de geração de imagens que exigem compreensão visão-linguagem (por exemplo, geração orientada por sujeito, etc.), cada uma emparelhada com uma instrução multimodal que encapsula a essência da tarefa. A avaliação humana em vários conjuntos de dados de geração de imagens revela que o instruct-imagen iguala ou supera modelos anteriores específicos para tarefas em seu domínio e demonstra uma generalização promissora para tarefas não vistas e mais complexas.
Neste artigo, apresentamos o LLaVA-phi (LLaVA-Phi), um assistente multimodal eficiente que aproveita o poder do recente modelo de linguagem pequeno, Phi-2, para facilitar diálogos multimodais. O LLaVA-Phi representa um avanço significativo no domínio dos modelos multimodais compactos. Ele demonstra que mesmo modelos de linguagem menores, com apenas 2,7 bilhões de parâmetros, podem se envolver efetivamente em diálogos complexos que integram elementos textuais e visuais, desde que sejam treinados com corpora de alta qualidade. Nosso modelo apresenta um desempenho notável em benchmarks publicamente disponíveis que abrangem compreensão visual, raciocínio e percepção baseada em conhecimento. Além de seu desempenho impressionante em tarefas de diálogo multimodal, nosso modelo abre novas possibilidades para aplicações em ambientes sensíveis ao tempo e sistemas que exigem interação em tempo real, como agentes incorporados. Ele destaca o potencial dos modelos de linguagem menores para alcançar níveis sofisticados de compreensão e interação, mantendo uma maior eficiência de recursos. O projeto está disponível em {https://github.com/zhuyiche/llava-phi}.
As Redes Generativas Adversariais (GANs) 3D-aware têm demonstrado progresso notável na geração de imagens consistentes em múltiplas vistas e geometrias 3D de cenas a partir de coleções de imagens 2D por meio de renderização neural volumétrica. No entanto, os custos significativos de memória e computação associados à amostragem densa na renderização volumétrica forçaram as GANs 3D a adotar treinamento baseado em patches ou empregar renderização de baixa resolução com super-resolução 2D pós-processada, o que sacrifica a consistência multiview e a qualidade da geometria resolvida. Consequentemente, as GANs 3D ainda não conseguiram resolver completamente a rica geometria 3D presente em imagens 2D. Neste trabalho, propomos técnicas para escalar a renderização neural volumétrica para resoluções muito mais altas, equivalentes às das imagens 2D nativas, resolvendo assim geometrias 3D detalhadas com um nível de detalhe sem precedentes. Nossa abordagem emprega amostradores baseados em aprendizado para acelerar a renderização neural no treinamento de GANs 3D, utilizando até 5 vezes menos amostras de profundidade. Isso nos permite renderizar explicitamente "cada pixel" da imagem em resolução total durante o treinamento e inferência, sem a necessidade de super-resolução 2D pós-processada. Juntamente com nossa estratégia para aprender geometria de superfície de alta qualidade, nosso método sintetiza geometria 3D de alta resolução e imagens estritamente consistentes em diferentes vistas, mantendo a qualidade da imagem em paridade com métodos baseados em super-resolução pós-processada. Demonstramos qualidade geométrica 3D de ponta nos conjuntos FFHQ e AFHQ, estabelecendo um novo padrão para o aprendizado não supervisionado de formas 3D em GANs 3D.
Modelos de última geração em benchmarks contemporâneos de percepção 3D, como o ScanNet, consomem e rotulam nuvens de pontos 3D fornecidas pelos conjuntos de dados, obtidas através do pós-processamento de imagens RGB-D multivista capturadas. Esses modelos são tipicamente treinados no domínio específico, dispensam o pré-treinamento em larga escala em 2D e superam alternativas que extraem características das imagens RGB-D multivista com pose. A diferença de desempenho entre métodos que consomem imagens com pose versus nuvens de pontos 3D pós-processadas alimentou a crença de que a percepção 2D e 3D requer arquiteturas de modelos distintas. Neste artigo, desafiamos essa visão e propomos o ODIN (Omni-Dimensional INstance segmentation), um modelo que pode segmentar e rotular tanto imagens RGB 2D quanto nuvens de pontos 3D, utilizando uma arquitetura de transformer que alterna entre a fusão de informações 2D intra-visão e 3D inter-visão. Nosso modelo diferencia as operações de características 2D e 3D através das codificações posicionais dos tokens envolvidos, que capturam coordenadas de pixels para tokens de patches 2D e coordenadas 3D para tokens de características 3D. O ODIN alcança desempenho de última geração nos benchmarks de segmentação de instâncias 3D ScanNet200, Matterport3D e AI2THOR, e desempenho competitivo no ScanNet, S3DIS e COCO. Ele supera todos os trabalhos anteriores por uma ampla margem quando a nuvem de pontos 3D capturada é usada no lugar da nuvem de pontos amostrada a partir de uma malha 3D. Quando usado como o motor de percepção 3D em uma arquitetura de agente incorporado instruível, ele estabelece um novo estado da arte no benchmark TEACh de ação a partir de diálogo. Nosso código e checkpoints podem ser encontrados no site do projeto: https://odin-seg.github.io.
Aprender modelos 3D de todos os animais da Terra requer uma ampliação massiva das soluções existentes. Com esse objetivo final em mente, desenvolvemos o 3D-Fauna, uma abordagem que aprende um modelo 3D deformável pan-categoria para mais de 100 espécies de animais de forma conjunta. Um gargalo crucial na modelagem de animais é a disponibilidade limitada de dados de treinamento, que superamos ao simplesmente aprender a partir de imagens 2D da Internet. Mostramos que tentativas anteriores específicas por categoria falham em generalizar para espécies raras com imagens de treinamento limitadas. Abordamos esse desafio ao introduzir o Banco Semântico de Modelos Articulados (SBSM, na sigla em inglês), que descobre automaticamente um pequeno conjunto de formas básicas de animais ao combinar priores indutivos geométricos com conhecimento semântico implicitamente capturado por um extrator de características auto-supervisionado de prateleira. Para treinar tal modelo, também contribuímos com um novo conjunto de dados em larga escala de diversas espécies de animais. No momento da inferência, dada uma única imagem de qualquer animal quadrúpede, nosso modelo reconstrói uma malha 3D articulada de forma direta em questão de segundos.
O surgimento de Modelos de Linguagem de Grande Escala (LLMs), como ChatGPT e LLaMA, enfrenta limitações em tarefas específicas de domínio, com esses modelos frequentemente carecendo de profundidade e precisão em áreas especializadas, e exibindo uma diminuição nas capacidades gerais quando ajustados, particularmente na habilidade de análise em modelos de pequeno porte. Para abordar essas lacunas, introduzimos o ICE-GRT, utilizando Aprendizado por Reforço com Feedback Humano (RLHF) baseado em Otimização de Política Proximal (PPO), demonstrando uma habilidade notável em cenários de domínio específico sem comprometer o desempenho em tarefas gerais. Nossa exploração do ICE-GRT destaca sua capacidade de compreensão e raciocínio, não apenas para gerar respostas robustas, mas também para fornecer análises detalhadas das razões por trás da resposta. Essa capacidade marca um progresso significativo além do escopo dos modelos de Ajuste Fino Supervisionado. O sucesso do ICE-GRT depende de vários fatores cruciais, incluindo Dados Apropriados, Escalonamento do Tamanho da Recompensa, Controle KL, Normalização de Vantagem, entre outros. O modelo ICE-GRT exibe desempenho de ponta em tarefas específicas de domínio e em 12 tarefas gerais de Linguagem, comparado a LLMs de tamanho equivalente e até maiores, destacando a eficácia de nossa abordagem. Fornecemos uma análise abrangente do ICE-GRT, ressaltando os avanços significativos que ele traz para o campo dos LLMs.
Perceber com precisão as propriedades geométricas e semânticas de objetos 3D do mundo real é crucial para a evolução contínua de aplicações de realidade aumentada e robótica. Para isso, apresentamos (), que incorpora embeddings visão-linguagem de modelos de base ao 3D Gaussian Splatting (GS). A principal contribuição deste trabalho é um método eficiente para reconstruir e representar modelos 3D visão-linguagem. Isso é alcançado destilando mapas de características gerados por modelos de base baseados em imagens naqueles renderizados pelo nosso modelo 3D. Para garantir renderização de alta qualidade e treinamento rápido, introduzimos uma nova representação de cena, integrando os pontos fortes do GS e codificações de hash multi-resolução (MHE). Nosso procedimento de treinamento eficaz também introduz uma perda de alinhamento de pixels que aproxima a distância de características renderizadas de entidades semânticas iguais, seguindo os limites semânticos em nível de pixel. Nossos resultados demonstram uma consistência semântica multi-visão notável, facilitando diversas tarefas subsequentes, superando métodos state-of-the-art em 10,2% na detecção de objetos baseada em linguagem de vocabulário aberto, apesar de sermos 851 vezes mais rápidos na inferência. Esta pesquisa explora a interseção entre visão, linguagem e representação de cenas 3D, abrindo caminho para uma compreensão aprimorada de cenas em ambientes reais não controlados. Planejamos liberar o código após a aceitação do artigo.
Os modelos de difusão são uma nova classe de modelos generativos e promoveram dramaticamente a geração de imagens com qualidade e diversidade sem precedentes. Os modelos de difusão existentes tentam principalmente reconstruir a imagem de entrada a partir de uma imagem corrompida com uma restrição pixel a pixel ou baseada em características ao longo dos eixos espaciais. No entanto, essa reconstrução baseada em pontos pode falhar em fazer com que cada pixel/característica previsto preserve completamente o contexto de sua vizinhança, prejudicando a síntese de imagens baseada em difusão. Como uma poderosa fonte de sinal de supervisão automática, o contexto tem sido amplamente estudado para o aprendizado de representações. Inspirados por isso, propomos pela primeira vez o ConPreDiff para melhorar a síntese de imagens baseada em difusão com a previsão de contexto. Reforçamos explicitamente cada ponto para prever o contexto de sua vizinhança (ou seja, características/tokens/pixels com múltiplos passos) com um decodificador de contexto no final dos blocos de remoção de ruído da difusão durante a fase de treinamento, e removemos o decodificador para inferência. Dessa forma, cada ponto pode se reconstruir melhor preservando suas conexões semânticas com o contexto da vizinhança. Esse novo paradigma do ConPreDiff pode ser generalizado para backbones de difusão discretos e contínuos arbitrários sem introduzir parâmetros extras no procedimento de amostragem. Experimentos extensivos foram conduzidos em tarefas de geração incondicional de imagens, geração de texto para imagem e preenchimento de imagens. Nosso ConPreDiff supera consistentemente os métodos anteriores e alcança novos resultados de estado da arte (SOTA) em geração de texto para imagem no MS-COCO, com um score FID zero-shot de 6,21.
O raciocínio visual é dominado por redes neurais de ponta a ponta escaladas para bilhões de parâmetros de modelo e exemplos de treinamento. No entanto, mesmo os maiores modelos enfrentam dificuldades com raciocínio composicional, generalização, raciocínio espacial e temporal de alta granularidade, e contagem. O raciocínio visual com grandes modelos de linguagem (LLMs) como controladores pode, em princípio, abordar essas limitações ao decompor a tarefa e resolver subtarefas orquestrando um conjunto de ferramentas (visuais). Recentemente, esses modelos alcançaram grande desempenho em tarefas como resposta a perguntas visuais composicionais, fundamentação visual e raciocínio temporal em vídeos. No entanto, em sua forma atual, esses modelos dependem fortemente da engenharia humana de exemplos em contexto no prompt, que são frequentemente específicos para conjuntos de dados e tarefas, exigindo um trabalho significativo de programadores altamente qualificados. Neste trabalho, apresentamos uma estrutura que mitiga esses problemas ao introduzir rotinas abstratas espacial e temporalmente e ao aproveitar um pequeno número de exemplos rotulados para gerar automaticamente exemplos em contexto, evitando assim exemplos em contexto criados por humanos. Em várias tarefas de raciocínio visual, mostramos que nossa estrutura leva a ganhos consistentes de desempenho, torna a configuração de LLMs como controladores mais robusta e elimina a necessidade de engenharia humana de exemplos em contexto.