Artigos de pesquisa em IA selecionados diariamente com traduções
Impulsionado pelo pré-treinamento com grandes volumes de dados, o Segment Anything Model (SAM) tem se mostrado uma estrutura poderosa e acionável por prompts, revolucionando os modelos de segmentação. Apesar de sua generalidade, a personalização do SAM para conceitos visuais específicos sem a necessidade de prompts manuais ainda é pouco explorada, como, por exemplo, segmentar automaticamente seu cachorro de estimação em diferentes imagens. Neste artigo, propomos uma abordagem de Personalização sem treinamento para o SAM, denominada PerSAM. Dada apenas uma única imagem com uma máscara de referência, o PerSAM primeiro localiza o conceito alvo por meio de uma prioridade de localização e o segmenta em outras imagens ou vídeos através de três técnicas: atenção guiada pelo alvo, prompting semântico do alvo e refinamento em cascata pós-processamento. Dessa forma, adaptamos efetivamente o SAM para uso privado sem qualquer treinamento. Para mitigar ainda mais a ambiguidade das máscaras, apresentamos uma variante eficiente de ajuste fino em um único passo, o PerSAM-F. Congelando todo o SAM, introduzimos dois pesos aprendíveis para máscaras multi-escala, treinando apenas 2 parâmetros em 10 segundos para melhorar o desempenho. Para demonstrar nossa eficácia, construímos um novo conjunto de dados de segmentação, o PerSeg, para avaliação personalizada, e testamos nossos métodos em segmentação de objetos em vídeos com desempenho competitivo. Além disso, nossa abordagem também pode aprimorar o DreamBooth para personalizar o Stable Diffusion na geração de imagens a partir de texto, eliminando a interferência do fundo para um melhor aprendizado da aparência do alvo. O código está disponível em https://github.com/ZrrSkywalker/Personalize-SAM.
Apresentamos o Shap-E, um modelo generativo condicional para ativos 3D. Diferentemente de trabalhos recentes sobre modelos generativos 3D que produzem uma única representação de saída, o Shap-E gera diretamente os parâmetros de funções implícitas que podem ser renderizadas tanto como malhas texturizadas quanto como campos de radiação neural. Treinamos o Shap-E em duas etapas: primeiro, treinamos um codificador que mapeia deterministicamente ativos 3D para os parâmetros de uma função implícita; segundo, treinamos um modelo de difusão condicional nas saídas do codificador. Quando treinado em um grande conjunto de dados de pares 3D e texto, nossos modelos resultantes são capazes de gerar ativos 3D complexos e diversos em questão de segundos. Quando comparado ao Point-E, um modelo generativo explícito sobre nuvens de pontos, o Shap-E converge mais rapidamente e alcança qualidade de amostra comparável ou superior, apesar de modelar um espaço de saída de maior dimensionalidade e múltiplas representações. Disponibilizamos os pesos do modelo, código de inferência e amostras em https://github.com/openai/shap-e.
Personalizar as saídas de modelos de linguagem de grande escala, como o ChatGPT, para atender às necessidades específicas dos usuários continua sendo um desafio, apesar de sua impressionante qualidade de geração. Neste artigo, propomos um pipeline de geração tri-agente composto por um gerador, um instrutor e um editor para aprimorar a customização das saídas geradas. O gerador produz uma saída inicial, o instrutor específico do usuário gera instruções de edição, e o editor gera uma saída revisada alinhada com as preferências do usuário. O modelo de linguagem de grande escala de apenas inferência (ChatGPT) atua tanto como gerador quanto como editor, enquanto um modelo menor funciona como instrutor específico do usuário para guiar o processo de geração de acordo com as necessidades do usuário. O instrutor é treinado usando aprendizado por reforço guiado pelo editor, aproveitando o feedback do modelo editor em grande escala para otimizar a geração de instruções. Resultados experimentais em dois conjuntos de dados de sumarização abstrativa demonstram a eficácia da nossa abordagem na geração de saídas que atendem melhor às expectativas dos usuários.
Os recentes agentes assistentes de IA, como o ChatGPT, dependem predominantemente de ajuste fino supervisionado (SFT) com anotações humanas e aprendizado por reforço a partir de feedback humano (RLHF) para alinhar a saída de grandes modelos de linguagem (LLMs) com as intenções humanas, garantindo que sejam úteis, éticos e confiáveis. No entanto, essa dependência pode restringir significativamente o verdadeiro potencial dos agentes assistentes de IA devido ao alto custo de obtenção de supervisão humana e aos problemas relacionados à qualidade, confiabilidade, diversidade, autoconsistência e vieses indesejados. Para enfrentar esses desafios, propomos uma nova abordagem chamada SELF-ALIGN, que combina raciocínio baseado em princípios e o poder generativo dos LLMs para o autoalinhamento de agentes de IA com supervisão humana mínima. Nossa abordagem abrange quatro estágios: primeiro, usamos um LLM para gerar prompts sintéticos e um método guiado por tópicos para aumentar a diversidade dos prompts; segundo, usamos um pequeno conjunto de princípios escritos por humanos para os modelos de IA seguirem e guiamos o LLM por meio de aprendizado em contexto a partir de demonstrações (de aplicação de princípios) para produzir respostas úteis, éticas e confiáveis às consultas dos usuários; terceiro, ajustamos finamente o LLM original com as respostas autoalinhadas de alta qualidade, de modo que o modelo resultante possa gerar respostas desejáveis para cada consulta diretamente, sem a necessidade do conjunto de princípios e das demonstrações; e, finalmente, oferecemos uma etapa de refinamento para abordar os problemas de respostas excessivamente breves ou indiretas. Aplicando o SELF-ALIGN ao modelo de linguagem base LLaMA-65b, desenvolvemos um assistente de IA chamado Dromedary. Com menos de 300 linhas de anotações humanas (incluindo < 200 prompts iniciais, 16 princípios genéricos e 5 exemplares para aprendizado em contexto), o Dromedary supera significativamente o desempenho de vários sistemas de IA state-of-the-art, incluindo Text-Davinci-003 e Alpaca, em conjuntos de dados de referência com várias configurações.