Artigos de pesquisa em IA selecionados diariamente com traduções
Este relatório apresenta o xGen-MM (também conhecido como BLIP-3), um framework para desenvolver Modelos Multimodais Grandes (LMMs). O framework inclui conjuntos de dados meticulosamente selecionados, uma receita de treinamento, arquiteturas de modelo e uma série resultante de LMMs. O xGen-MM, abreviação de xGen-MultiModal, expande a iniciativa xGen da Salesforce em modelos de IA fundamentais. Nossos modelos passam por uma avaliação rigorosa em uma variedade de tarefas, incluindo benchmarks de imagem única e multiimagem. Nosso modelo base pré-treinado exibe fortes capacidades de aprendizado em contexto e o modelo ajustado para instruções demonstra desempenho competitivo entre os LMMs de código aberto com tamanhos de modelo semelhantes. Além disso, introduzimos um modelo ajustado para segurança com DPO, com o objetivo de mitigar comportamentos prejudiciais, como alucinações, e melhorar a segurança. Disponibilizamos nossos modelos de código aberto, conjuntos de dados em grande escala selecionados e nossa base de códigos de ajuste fino para facilitar avanços adicionais na pesquisa de LMMs. Os recursos associados estarão disponíveis em nossa página do projeto acima.
Trabalhos recentes em geração de imagens e vídeos têm adotado a arquitetura LLM autoregressiva devido à sua generalidade e potencialmente fácil integração em sistemas multimodais. O cerne da aplicação do treinamento autoregressivo na geração de linguagem para a geração visual é a discretização - representando dados contínuos como imagens e vídeos em tokens discretos. Métodos comuns de discretização de imagens e vídeos incluem modelagem de valores de pixels brutos, que são excessivamente longos, ou quantização de vetores, que requer treinamento prévio complicado. Neste trabalho, propomos modelar diretamente imagens e vídeos como arquivos comprimidos salvos em computadores via codecs canônicos (por exemplo, JPEG, AVC/H.264). Utilizando a arquitetura Llama padrão sem modificações específicas de visão, pré-treinamos o JPEG-LM do zero para gerar imagens (e AVC-LM para gerar vídeos como prova de conceito), ao produzir diretamente bytes de arquivo comprimido nos formatos JPEG e AVC. A avaliação da geração de imagens mostra que essa abordagem simples e direta é mais eficaz do que a modelagem baseada em pixels e as baselines sofisticadas de quantização de vetores (nas quais nosso método resulta em uma redução de 31% no FID). Nossa análise mostra que o JPEG-LM tem uma vantagem especial sobre modelos de quantização de vetores na geração de elementos visuais de cauda longa. No geral, demonstramos que o uso de representações de codecs canônicos pode ajudar a reduzir as barreiras entre a geração de linguagem e a geração visual, facilitando pesquisas futuras em LLMs multimodais de linguagem/imagem/vídeo.
Os pesquisadores estão investindo esforços substanciais no desenvolvimento de agentes poderosos de propósito geral, nos quais Modelos Fundamentais são utilizados como módulos dentro de sistemas agentes (por exemplo, Encadeamento de Pensamento, Autorreflexão, Formador de Ferramentas). No entanto, a história do aprendizado de máquina nos ensina que soluções projetadas manualmente são eventualmente substituídas por soluções aprendidas. Formulamos uma nova área de pesquisa, Design Automatizado de Sistemas Agentes (ADAS), que tem como objetivo criar automaticamente designs de sistemas agentes poderosos, incluindo a invenção de blocos de construção inovadores e/ou combiná-los de novas maneiras. Demonstramos ainda que há uma abordagem inexplorada, porém promissora, dentro do ADAS, onde agentes podem ser definidos em código e novos agentes podem ser descobertos automaticamente por um meta agente programando agentes cada vez melhores em código. Dado que as linguagens de programação são Turing Completas, essa abordagem teoricamente permite a aprendizagem de qualquer sistema agente possível: incluindo prompts inovadores, uso de ferramentas, fluxos de controle e combinações destes. Apresentamos um algoritmo simples, porém eficaz, chamado Busca de Meta Agente para demonstrar essa ideia, onde um meta agente programa iterativamente novos agentes interessantes com base em um arquivo em constante crescimento de descobertas anteriores. Através de experimentos extensivos em múltiplos domínios, incluindo programação, ciência e matemática, mostramos que nosso algoritmo pode inventar progressivamente agentes com designs inovadores que superam significativamente agentes projetados manualmente de ponta. Importante ressaltar que observamos consistentemente o resultado surpreendente de que agentes inventados pela Busca de Meta Agente mantêm desempenho superior mesmo quando transferidos entre domínios e modelos, demonstrando sua robustez e generalidade. Desde que seja desenvolvido de forma segura, nosso trabalho ilustra o potencial de uma nova e empolgante direção de pesquisa em direção ao design automático de sistemas agentes cada vez mais poderosos para beneficiar a humanidade.
A segmentação de vídeos cirúrgicos é uma tarefa crítica na cirurgia assistida por computador e é vital para aprimorar a qualidade cirúrgica e os resultados para os pacientes. Recentemente, o framework Segment Anything Model 2 (SAM2) demonstrou avanços superiores em segmentação de imagens e vídeos. No entanto, o SAM2 enfrenta dificuldades com eficiência devido às altas demandas computacionais para processar imagens de alta resolução e dinâmicas temporais complexas e de longo alcance em vídeos cirúrgicos. Para lidar com esses desafios, apresentamos o Surgical SAM 2 (SurgSAM-2), um modelo avançado que utiliza o SAM2 com um mecanismo de Poda Eficiente de Frames (EFP) para facilitar a segmentação em tempo real de vídeos cirúrgicos. O mecanismo EFP gerencia dinamicamente o banco de memória retendo seletivamente apenas os frames mais informativos, reduzindo o uso de memória e o custo computacional, mantendo alta precisão na segmentação. Nossos experimentos extensivos demonstram que o SurgSAM-2 melhora significativamente tanto a eficiência quanto a precisão da segmentação em comparação com o SAM2 convencional. Notavelmente, o SurgSAM-2 alcança 3 vezes mais quadros por segundo (FPS) em comparação com o SAM2, além de fornecer desempenho de ponta após ajustes finos com dados de menor resolução. Esses avanços estabelecem o SurgSAM-2 como um modelo líder para análise de vídeos cirúrgicos, tornando a segmentação em tempo real de vídeos cirúrgicos em ambientes com recursos limitados uma realidade viável.
Abordamos os desafios da inversão precisa de imagens e edição de imagens desembaraçadas no contexto de modelos de difusão de poucas etapas. Introduzimos uma técnica de inversão iterativa baseada em um codificador. A rede de inversão é condicionada à imagem de entrada e à imagem reconstruída da etapa anterior, permitindo a correção da próxima reconstrução em direção à imagem de entrada. Demonstramos que controles desembaraçados podem ser facilmente alcançados no modelo de difusão de poucas etapas condicionando a um prompt de texto detalhado (gerado automaticamente). Para manipular a imagem invertida, congelamos os mapas de ruído e modificamos um atributo no prompt de texto (manualmente ou por edição baseada em instrução conduzida por um LLM), resultando na geração de uma nova imagem semelhante à imagem de entrada com apenas um atributo alterado. Isso permite controlar ainda a intensidade da edição e aceitar prompts de texto instrutivos. Nossa abordagem facilita edições de imagens guiadas por texto realistas em tempo real, exigindo apenas 8 avaliações funcionais (NFEs) na inversão (custo único) e 4 NFEs por edição. Nosso método não é apenas rápido, mas também supera significativamente as técnicas de edição de difusão de várias etapas de ponta.
O treinamento de Modelos de Linguagem Grandes (LLMs) incorre em custos substanciais relacionados aos dados, motivando o desenvolvimento de métodos de treinamento eficientes em dados por meio da otimização da ordenação e seleção de dados. Estratégias de aprendizado inspiradas em humanos, como o aprendizado curricular, oferecem possibilidades para treinamento eficiente ao organizar os dados de acordo com práticas comuns de aprendizado humano. Apesar de evidências de que o ajuste fino com aprendizado curricular melhora o desempenho de LLMs em tarefas de compreensão de linguagem natural, sua eficácia é tipicamente avaliada usando um único modelo. Neste trabalho, estendemos pesquisas anteriores avaliando estratégias de aprendizado baseadas em currículo e não baseadas em currículo em vários LLMs, utilizando rótulos de dados para resposta a questões médicas definidos por humanos e automaticamente. Nossos resultados indicam um impacto moderado do uso de estratégias de aprendizado inspiradas em humanos para ajuste fino de LLMs, com ganhos máximos de precisão de 1,77% por modelo e 1,81% por conjunto de dados. Crucialmente, demonstramos que a eficácia dessas estratégias varia significativamente entre diferentes combinações de modelo e conjunto de dados, enfatizando que os benefícios de uma estratégia específica inspirada em humanos para ajuste fino de LLMs não são generalizáveis. Além disso, encontramos evidências de que o aprendizado curricular usando a dificuldade de questões definida por LLM supera a dificuldade definida por humanos, destacando o potencial do uso de medidas geradas pelo modelo para um design curricular ideal.
Algoritmos de aprendizado por reforço offline têm o potencial de possibilitar métodos de AR baseados em dados que não exigem exploração dispendiosa ou perigosa no mundo real e se beneficiam de grandes conjuntos de dados pré-coletados. Isso, por sua vez, pode facilitar aplicações no mundo real, bem como uma abordagem mais padronizada para a pesquisa em AR. Além disso, métodos de AR offline podem fornecer inicializações eficazes para ajustes finos online para superar desafios com a exploração. No entanto, avaliar o progresso em algoritmos de AR offline requer benchmarks eficazes e desafiadores que capturem propriedades de tarefas do mundo real, forneçam uma variedade de dificuldades de tarefas e cubram uma variedade de desafios tanto em termos dos parâmetros do domínio (por exemplo, duração do horizonte, esparsidade de recompensas) quanto dos parâmetros dos dados (por exemplo, dados de demonstração restritos ou dados exploratórios amplos). Embora tenha havido progresso considerável em AR offline nos últimos anos com benchmarks mais simples, os conjuntos de dados mais amplamente utilizados estão cada vez mais saturados em desempenho e podem falhar em refletir propriedades de tarefas realistas. Propomos um novo benchmark para AR offline que se concentra em simulações realistas de ambientes de manipulação e locomoção robótica, com base em modelos de sistemas robóticos do mundo real e abrangendo uma variedade de fontes de dados, incluindo dados programados, dados de estilo de jogo coletados por teleoperadores humanos e outras fontes de dados. Nosso benchmark proposto abrange domínios baseados em estado e baseados em imagem, e suporta tanto a avaliação de AR offline quanto de ajuste fino online, com algumas tarefas especificamente projetadas para exigir tanto pré-treinamento quanto ajuste fino. Esperamos que nosso benchmark proposto facilite mais progressos tanto em algoritmos de AR offline quanto de ajuste fino. O site com código, exemplos, tarefas e dados está disponível em https://sites.google.com/view/d5rl/