Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de linguagem têm sido eficazes em uma ampla gama de aplicações, porém os modelos mais sofisticados são frequentemente proprietários. Por exemplo, o GPT-4 da OpenAI e vários modelos da Anthropic são caros e consomem uma quantidade substancial de energia. Em contraste, a comunidade de código aberto produziu modelos competitivos, como o Llama3. Além disso, modelos de linguagem menores e específicos para nichos, como aqueles adaptados para tarefas jurídicas, médicas ou financeiras, superaram suas contrapartes proprietárias. Este artigo introduz uma nova abordagem que emprega tokens funcionais para integrar múltiplos modelos de código aberto, cada um otimizado para tarefas específicas. Nosso recém-desenvolvido modelo Octopus v4 aproveita tokens funcionais para direcionar inteligentemente as consultas dos usuários ao modelo vertical mais apropriado e reformatar a consulta para obter o melhor desempenho. O Octopus v4, uma evolução dos modelos Octopus v1, v2 e v3, se destaca na seleção e compreensão de parâmetros e na reformatação. Além disso, exploramos o uso de grafos como uma estrutura de dados versátil que coordena efetivamente múltiplos modelos de código aberto, aproveitando as capacidades do modelo Octopus e dos tokens funcionais. Use nosso GitHub de código aberto (https://www.nexa4ai.com/) para experimentar os modelos Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) e contribuir para um grafo maior de modelos de linguagem. Ao ativar modelos com menos de 10 bilhões de parâmetros, alcançamos uma pontuação SOTA MMLU de 74,8 entre modelos do mesmo nível.
Inspirados pelo teorema de representação de Kolmogorov-Arnold, propomos as Redes de Kolmogorov-Arnold (KANs) como alternativas promissoras aos Perceptrons de Múltiplas Camadas (MLPs). Enquanto os MLPs possuem funções de ativação fixas nos nós ("neurônios"), as KANs têm funções de ativação aprendíveis nas arestas ("pesos"). As KANs não possuem pesos lineares — cada parâmetro de peso é substituído por uma função univariada parametrizada como uma spline. Mostramos que essa mudança aparentemente simples faz com que as KANs superem os MLPs em termos de precisão e interpretabilidade. Em relação à precisão, KANs muito menores podem alcançar precisão comparável ou superior a MLPs muito maiores em ajuste de dados e resolução de EDPs. Teórica e empiricamente, as KANs possuem leis de escalonamento neural mais rápidas do que os MLPs. Quanto à interpretabilidade, as KANs podem ser visualizadas de forma intuitiva e interagem facilmente com usuários humanos. Através de dois exemplos em matemática e física, as KANs se mostram colaboradoras úteis, ajudando cientistas a (re)descobrir leis matemáticas e físicas. Em resumo, as KANs são alternativas promissoras aos MLPs, abrindo oportunidades para melhorar ainda mais os modelos de aprendizado profundo atuais, que dependem fortemente de MLPs.
Modelos de linguagem de grande escala, como GPT e Llama, são treinados com uma função de perda de previsão do próximo token. Neste trabalho, sugerimos que treinar modelos de linguagem para prever múltiplos tokens futuros simultaneamente resulta em maior eficiência amostral. Mais especificamente, em cada posição do corpus de treinamento, solicitamos que o modelo preveja os próximos n tokens usando n cabeças de saída independentes, operando sobre um tronco de modelo compartilhado. Ao considerar a previsão de múltiplos tokens como uma tarefa auxiliar de treinamento, medimos melhorias nas capacidades subsequentes sem sobrecarga no tempo de treinamento, tanto para modelos de código quanto de linguagem natural. O método é cada vez mais útil para tamanhos maiores de modelos e mantém seu apelo ao treinar por múltiplas épocas. Os ganhos são especialmente evidentes em benchmarks generativos, como codificação, onde nossos modelos consistentemente superam baselines fortes por vários pontos percentuais. Nossos modelos com 13 bilhões de parâmetros resolvem 12% mais problemas no HumanEval e 17% mais no MBPP em comparação com modelos de previsão de próximo token equivalentes. Experimentos em pequenas tarefas algorítmicas demonstram que a previsão de múltiplos tokens é favorável para o desenvolvimento de cabeças de indução e capacidades de raciocínio algorítmico. Como um benefício adicional, modelos treinados com previsão de 4 tokens são até 3 vezes mais rápidos na inferência, mesmo com grandes tamanhos de lote.
No campo da geração de imagens personalizadas, a capacidade de criar imagens que preservam conceitos melhorou significativamente. Criar uma imagem que integra naturalmente múltiplos conceitos em uma composição coesa e visualmente atraente pode ser, de fato, desafiador. Este artigo apresenta o "InstantFamily", uma abordagem que emprega um novo mecanismo de atenção cruzada mascarada e uma pilha de embeddings multimodais para alcançar a geração de imagens com múltiplos IDs em zero-shot. Nosso método preserva efetivamente o ID ao utilizar características globais e locais de um modelo pré-treinado de reconhecimento facial integrado com condições de texto. Além disso, nosso mecanismo de atenção cruzada mascarada permite o controle preciso de múltiplos IDs e da composição nas imagens geradas. Demonstramos a eficácia do InstantFamily por meio de experimentos que mostram sua superioridade na geração de imagens com múltiplos IDs, ao mesmo tempo em que resolve problemas conhecidos na geração de múltiplos IDs. Adicionalmente, nosso modelo alcança desempenho de ponta tanto na preservação de ID único quanto de múltiplos IDs. Além disso, nosso modelo exibe uma escalabilidade notável, preservando um número maior de IDs do que aquele com o qual foi originalmente treinado.
Métodos iterativos de otimização de preferências têm demonstrado recentemente um bom desempenho em tarefas gerais de ajuste de instruções, mas geralmente trazem pouca melhoria em tarefas de raciocínio (Yuan et al., 2024, Chen et al., 2024). Neste trabalho, desenvolvemos uma abordagem iterativa que otimiza a preferência entre candidatos gerados de Cadeia de Pensamento (CoT) concorrentes, otimizando para etapas de raciocínio vencedoras versus perdedoras que levam à resposta correta. Treinamos usando uma função de perda DPO modificada (Rafailov et al., 2023) com um termo adicional de log-verossimilhança negativa, que consideramos crucial. Mostramos que o raciocínio melhora ao longo de iterações repetidas desse esquema. Apesar de depender apenas de exemplos do conjunto de treinamento, nossa abordagem resulta em um aumento de precisão para o Llama-2-70B-Chat de 55,6% para 81,6% no GSM8K (e 88,7% com votação majoritária de 32 amostras), de 12,5% para 20,8% no MATH e de 77,8% para 86,7% no ARC-Challenge, superando outros modelos baseados no Llama-2 que não utilizam conjuntos de dados adicionais.
Estendemos o comprimento de contexto do Llama-3-8B-Instruct de 8K para 80K por meio de ajuste fino com QLoRA. Todo o ciclo de treinamento é extremamente eficiente, levando apenas 8 horas em uma máquina com 8 GPUs A800 (80G). O modelo resultante exibe desempenho superior em uma ampla gama de tarefas de avaliação, como NIHS, recuperação de tópicos e compreensão de linguagem em contextos longos; ao mesmo tempo, também preserva bem a capacidade original em contextos curtos. A extensão dramática do contexto é atribuída principalmente a apenas 3.5K amostras de treinamento sintéticas geradas pelo GPT-4, o que indica o potencial inerente (mas amplamente subestimado) dos LLMs para estender seu comprimento de contexto original. Na verdade, o comprimento de contexto poderia ser estendido muito além de 80K com mais recursos computacionais. Portanto, a equipe disponibilizará publicamente todos os recursos (incluindo dados, modelo, pipeline de geração de dados, código de treinamento) para facilitar pesquisas futuras da comunidade: https://github.com/FlagOpen/FlagEmbedding.
Este trabalho apresenta o MotionLCM, estendendo a geração controlável de movimentos para um nível em tempo real. Os métodos existentes para controle espacial na geração de movimentos condicionados por texto sofrem com ineficiência significativa no tempo de execução. Para resolver esse problema, propomos primeiro o modelo de consistência latente de movimento (MotionLCM) para geração de movimentos, baseado no modelo de difusão latente (MLD). Ao empregar inferência em uma etapa (ou poucas etapas), melhoramos ainda mais a eficiência de tempo de execução do modelo de difusão latente de movimento para geração de movimentos. Para garantir uma controlabilidade eficaz, incorporamos um ControlNet de movimento no espaço latente do MotionLCM e habilitamos sinais de controle explícitos (por exemplo, trajetória da pelve) no espaço de movimento padrão para controlar diretamente o processo de geração, semelhante ao controle de outros modelos de difusão sem latência para geração de movimentos. Ao empregar essas técnicas, nossa abordagem pode gerar movimentos humanos com texto e sinais de controle em tempo real. Os resultados experimentais demonstram as notáveis capacidades de geração e controle do MotionLCM, mantendo a eficiência de tempo de execução em tempo real.
Os métodos existentes de legendagem automática para conteúdo visual enfrentam desafios como falta de detalhes, alucinação de conteúdo e baixa aderência a instruções. Neste trabalho, propomos o VisualFactChecker (VFC), um pipeline flexível e sem necessidade de treinamento que gera legendas de alta fidelidade e detalhadas tanto para imagens 2D quanto para objetos 3D. O VFC consiste em três etapas: 1) proposta, onde modelos de legendagem de imagem para texto sugerem múltiplas legendas iniciais; 2) verificação, onde um modelo de linguagem de grande escala (LLM) utiliza ferramentas como detecção de objetos e modelos de VQA (Visual Question Answering) para verificar a veracidade das legendas propostas; 3) legendagem, onde um LLM gera a legenda final resumindo as propostas de legendas e os resultados da verificação de fatos. Nesta etapa, o VFC pode gerar legendas de forma flexível em vários estilos, seguindo instruções complexas. Realizamos avaliações abrangentes de legendagem usando quatro métricas: 1) CLIP-Score para similaridade entre imagem e texto; 2) CLIP-Image-Score para medir a similaridade entre a imagem original e a imagem reconstruída gerada por um modelo de texto para imagem usando a legenda; 3) estudo humano no Amazon Mechanical Turk; 4) GPT-4V para avaliação detalhada. Os resultados da avaliação mostram que o VFC supera os métodos de legendagem de código aberto mais avançados para imagens 2D no conjunto de dados COCO e para ativos 3D no conjunto de dados Objaverse. Nosso estudo demonstra que, ao combinar modelos de código aberto em um pipeline, podemos alcançar capacidade de legendagem comparável a modelos proprietários como o GPT-4V, apesar de ser mais de 10 vezes menor em tamanho de modelo.
Propomos o GS-LRM, um modelo escalável de reconstrução em larga escala que pode prever primitivas 3D de alta qualidade em Gaussianos a partir de 2-4 imagens esparsas com pose em 0,23 segundos em uma única GPU A100. Nosso modelo apresenta uma arquitetura extremamente simples baseada em transformers; dividimos as imagens de entrada com pose em patches, passamos os tokens de imagem multivista concatenados por uma sequência de blocos transformers e decodificamos os parâmetros Gaussianos finais por pixel diretamente a partir desses tokens para renderização diferenciável. Em contraste com LRMs anteriores que só conseguiam reconstruir objetos, ao prever Gaussianos por pixel, o GS-LRM lida naturalmente com cenas que apresentam grandes variações de escala e complexidade. Mostramos que nosso modelo pode funcionar tanto em capturas de objetos quanto de cenas, treinando-o no Objaverse e no RealEstate10K, respectivamente. Em ambos os cenários, os modelos superam as baselines state-of-the-art por uma ampla margem. Também demonstramos aplicações do nosso modelo em tarefas de geração 3D subsequentes. A página do nosso projeto está disponível em: https://sai-bi.github.io/project/gs-lrm/.
Após o advento dos NeRFs, o 3D Gaussian Splatting (3D-GS) abriu caminho para a renderização neural em tempo real, superando o custo computacional dos métodos volumétricos. Seguindo o trabalho pioneiro do 3D-GS, vários métodos tentaram alcançar alternativas de alta fidelidade e compressibilidade. No entanto, ao empregar um esquema de otimização agnóstico à geometria, esses métodos negligenciam a estrutura 3D inerente da cena, limitando assim a expressividade e a qualidade da representação, resultando em diversos pontos flutuantes e artefatos. Neste trabalho, propomos um método de Gaussian Splatting consciente da estrutura (SAGS) que codifica implicitamente a geometria da cena, refletindo-se em um desempenho de renderização de ponta e requisitos de armazenamento reduzidos em conjuntos de dados de síntese de novas vistas de referência. O SAGS é baseado em uma representação de grafo local-global que facilita a aprendizagem de cenas complexas e impõe deslocamentos de pontos significativos que preservam a geometria da cena. Além disso, introduzimos uma versão leve do SAGS, utilizando um esquema de interpolação de ponto médio simples, porém eficaz, que apresenta uma representação compacta da cena com redução de tamanho de até 24 vezes, sem depender de estratégias de compressão. Experimentos extensivos em vários conjuntos de dados de referência demonstram a superioridade do SAGS em comparação com os métodos 3D-GS de ponta, tanto em qualidade de renderização quanto em tamanho do modelo. Além disso, demonstramos que nosso método consciente da estrutura pode efetivamente mitigar artefatos flutuantes e distorções irregulares dos métodos anteriores, ao mesmo tempo em que obtém mapas de profundidade precisos. Página do projeto: https://eververas.github.io/SAGS/.
Conjuntos de dados visão-linguagem são essenciais tanto para pesquisas de texto-para-imagem (T2I) quanto de imagem-para-texto (I2T). No entanto, os conjuntos de dados atuais carecem de descrições com detalhes refinados que permitiriam que modelos aprendessem associações mais ricas. Para preencher essa lacuna, introduzimos o Descriptions of Connected and Contrasting Images (DOCCI), um conjunto de dados com longas descrições em inglês, anotadas por humanos, para 15 mil imagens que foram capturadas, curadas e doadas por um único pesquisador com o objetivo de capturar desafios-chave, como relações espaciais, contagem, renderização de texto, conhecimento do mundo e mais. Instruímos anotadores humanos a criar descrições abrangentes para cada imagem; essas têm, em média, 136 palavras de extensão e são elaboradas para distinguir claramente cada imagem daquelas que são relacionadas ou semelhantes. Cada descrição é altamente composicional e normalmente abrange múltiplos desafios. Por meio de análises quantitativas e qualitativas, demonstramos que o DOCCI serve como um recurso eficaz de treinamento para geração de imagem-para-texto — um modelo PaLI 5B ajustado com o DOCCI apresenta resultados iguais ou superiores em comparação com modelos maiores e de alto desempenho, como LLaVA-1.5 7B e InstructBLIP 7B. Além disso, mostramos que o DOCCI é um banco de testes útil para geração de texto-para-imagem, destacando as limitações dos modelos atuais de texto-para-imagem em capturar descrições longas e detalhes refinados.
A geração de cenas 3D rapidamente se tornou uma nova e desafiadora direção de pesquisa, impulsionada por melhorias consistentes nos modelos generativos de difusão 2D. A maior parte do trabalho anterior nessa área gera cenas iterativamente, unindo novos quadros gerados à geometria existente. Esses trabalhos frequentemente dependem de estimadores de profundidade monoculares pré-treinados para elevar as imagens geradas para 3D, fundindo-as com a representação da cena existente. Essas abordagens são então frequentemente avaliadas por meio de uma métrica textual, medindo a similaridade entre as imagens geradas e um prompt de texto fornecido. Neste trabalho, fazemos duas contribuições fundamentais para o campo da geração de cenas 3D. Primeiro, observamos que elevar imagens para 3D com um modelo de estimativa de profundidade monocular é subótimo, pois ignora a geometria da cena existente. Assim, introduzimos um novo modelo de completamento de profundidade, treinado por meio de destilação de professor e auto-treinamento para aprender o processo de fusão 3D, resultando em uma melhor coerência geométrica da cena. Segundo, introduzimos um novo esquema de avaliação para métodos de geração de cenas que se baseia em geometria de verdade terrestre, medindo assim a qualidade da estrutura da cena.
Abordagens baseadas em otimização, como a amostragem por destilação de pontuação (SDS), mostram potencial na geração zero-shot de modelos 3D, mas sofrem com baixa eficiência, principalmente devido ao alto número de avaliações de função (NFEs) necessárias para cada amostra. Neste artigo, introduzimos a reconstrução iterativa baseada em pontuação (SIR), um algoritmo eficiente e geral para geração 3D com um modelo de difusão baseado em pontuação de múltiplas visões. Dadas as imagens produzidas pelo modelo de difusão, o SIR reduz os NFEs ao otimizar repetidamente os parâmetros 3D, ao contrário da otimização única no SDS, imitando o processo de reconstrução 3D. Com outras melhorias, incluindo a otimização no espaço de pixels, apresentamos uma abordagem eficiente chamada MicroDreamer, que se aplica de forma geral a várias representações 3D e tarefas de geração 3D. Em particular, mantendo um desempenho comparável, o MicroDreamer é 5 a 20 vezes mais rápido que o SDS na geração de campos de radiação neural e leva cerca de 20 segundos para gerar malhas a partir da divisão Gaussiana 3D em uma única GPU A100, reduzindo pela metade o tempo da linha de base zero-shot mais rápida, o DreamGaussian. Nosso código está disponível em https://github.com/ML-GSAI/MicroDreamer.
A pesquisa contemporânea em 3D, particularmente em reconstrução e geração, depende fortemente de imagens 2D como entradas ou supervisão. No entanto, os projetos atuais para esses mapeamentos 2D-3D são intensivos em memória, representando um gargalo significativo para os métodos existentes e dificultando novas aplicações. Em resposta, propomos um par de componentes altamente escaláveis para campos neurais 3D: o Lightplane Render e o Splatter, que reduzem significativamente o uso de memória no mapeamento 2D-3D. Essas inovações permitem o processamento de um número muito maior de imagens e com resoluções mais altas, com custos reduzidos de memória e computação. Demonstramos sua utilidade em diversas aplicações, desde a otimização de cena única com perdas em nível de imagem até a realização de um pipeline versátil para escalar dramaticamente a reconstrução e geração 3D. Código: https://github.com/facebookresearch/lightplane.