HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

20 papers found

Video-LLaMA: Um Modelo de Linguagem Audiovisual Ajustado por Instruções para Compreensão de Vídeos
Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

Jun 5

ByHang Zhang, Xin Li, Lidong Bing

Apresentamos o Video-LLaMA, um framework multimodal que capacita Modelos de Linguagem de Grande Escala (LLMs) com a habilidade de compreender tanto conteúdo visual quanto auditivo em vídeos. O Video-LLaMA inicia o treinamento cruzado de modalidades a partir de codificadores visuais e auditivos pré-treinados e congelados, bem como de LLMs congelados. Diferente de LLMs visuais anteriores que se concentram na compreensão de imagens estáticas, como o MiniGPT-4~zhu2023minigpt e o LLaVA~liu2023visualit, o Video-LLaMA aborda dois desafios na compreensão de vídeos: (1) capturar as mudanças temporais nas cenas visuais, (2) integrar sinais audiovisuais. Para o primeiro desafio, propomos o Video Q-former para estender o codificador de imagens pré-treinado a um codificador de vídeos e introduzimos uma tarefa de geração de texto a partir de vídeo para aprender a correspondência entre vídeo e linguagem. Para o segundo desafio, utilizamos o ImageBind~girdhar2023imagebind como o codificador de áudio pré-treinado, que se destaca no alinhamento de diferentes modalidades a um espaço de incorporação comum. Em seguida, introduzimos um Audio Q-former para aprender tokens de consulta auditivos. Para alinhar a saída dos codificadores visual e auditivo com o espaço de incorporação do LLM, treinamos o Video-LLaMA em um grande conjunto de dados de legendagem visual e em um conjunto de dados de alta qualidade para ajuste fino de instruções visuais. Descobrimos que o Video-LLaMA demonstra a capacidade de perceber e compreender o conteúdo de vídeos, gerando respostas significativas que são fundamentadas nas informações visuais e auditivas presentes nos vídeos. Isso destaca o potencial do Video-LLaMA como um protótipo promissor para assistentes de IA audiovisuais. Nosso código, modelo pré-treinado e demonstração estão disponíveis em https://github.com/DAMO-NLP-SG/Video-LLaMA.

Um Relatório Técnico para Polyglot-Ko: Modelos de Linguagem de Grande Escala em Coreano de Código Aberto
A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models

Jun 4

ByHyunwoong Ko, Kichang Yang, Minho Ryu, Taekyoon Choi, Seungmu Yang, jiwung Hyun, Sungho Park

O Polyglot é um projeto pioneiro que visa aprimorar o desempenho de modelos de linguagem multilíngue em idiomas não ingleses. Apesar da disponibilidade de diversos modelos multilíngues, como mBERT (Devlin et al., 2019), XGLM (Lin et al., 2022) e BLOOM (Scao et al., 2022), pesquisadores e desenvolvedores frequentemente recorrem à construção de modelos monolíngues em seus respectivos idiomas devido à insatisfação com as capacidades atuais dos modelos multilíngues em línguas não inglesas. Para preencher essa lacuna, buscamos desenvolver modelos de linguagem multilíngue avançados que ofereçam um desempenho melhorado em idiomas não ingleses. Neste artigo, apresentamos os modelos Polyglot Korean, que representam um foco específico em vez de serem multilíngues por natureza. Em colaboração com a TUNiB, nossa equipe coletou 1,2 TB de dados coreanos meticulosamente curados para nossa jornada de pesquisa. Tomamos a decisão deliberada de priorizar o desenvolvimento de modelos coreanos antes de nos aventurarmos em modelos multilíngues. Essa escolha foi motivada por vários fatores: em primeiro lugar, os modelos coreanos facilitaram comparações de desempenho com modelos multilíngues existentes; e, finalmente, eles atenderam às necessidades específicas de empresas e pesquisadores coreanos. Este artigo apresenta nosso trabalho no desenvolvimento dos modelos Polyglot Korean, que propõem alguns passos para abordar a lacuna de desempenho em idiomas não ingleses em modelos de linguagem multilíngue.

Verificação Dedutiva do Raciocínio em Cadeia de Pensamentos
Deductive Verification of Chain-of-Thought Reasoning

Jun 6

ByZhan Ling, Yunhao Fang, Xuanlin Li, Zhiao Huang, Mingu Lee, Roland Memisevic, Hao Su

Os Modelos de Linguagem de Grande Escala (LLMs) se beneficiam significativamente do prompting de Cadeia de Pensamento (CoT) ao realizar diversas tarefas de raciocínio. Embora o CoT permita que os modelos produzam processos de raciocínio mais abrangentes, sua ênfase em etapas intermediárias de raciocínio pode, inadvertidamente, introduzir alucinações e erros acumulados, limitando assim a capacidade dos modelos de resolver tarefas complexas de raciocínio. Inspirados pela forma como os humanos realizam processos de raciocínio lógico dedutivo cuidadosos e meticulosos para resolver tarefas, buscamos capacitar os modelos de linguagem a realizar raciocínios dedutivos explícitos e rigorosos, além de garantir a confiabilidade de seu processo de raciocínio por meio de autoverificação. No entanto, verificar diretamente a validade de todo um processo de raciocínio dedutivo é desafiador, mesmo com modelos avançados como o ChatGPT. Diante disso, propomos decompor um processo de verificação de raciocínio em uma série de subprocessos passo a passo, cada um recebendo apenas o contexto e as premissas necessárias. Para facilitar esse procedimento, propomos o Programa Natural, um formato de raciocínio dedutivo baseado em linguagem natural. Nossa abordagem permite que os modelos gerem etapas de raciocínio precisas, onde as etapas subsequentes são mais rigorosamente fundamentadas nas etapas anteriores. Ela também capacita os modelos de linguagem a realizar autoverificação de raciocínio de maneira passo a passo. Ao integrar esse processo de verificação em cada estágio de raciocínio dedutivo, aumentamos significativamente o rigor e a confiabilidade das etapas de raciocínio geradas. Ao longo desse processo, também melhoramos a correção das respostas em tarefas complexas de raciocínio. O código será disponibilizado em https://github.com/lz1oceani/verify_cot.

Mega-TTS: Síntese de Fala a partir de Texto em Escala com Viés Indutivo Intrínseco em Cenário Zero-Shot
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Jun 6

ByZiyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao

A escalabilidade da síntese de texto para fala (TTS) para um conjunto de dados grande e diversificado tem se mostrado altamente eficaz na generalização de timbre e estilo de fala, especialmente em TTS zero-shot. No entanto, trabalhos anteriores geralmente codificam a fala em latentes usando codecs de áudio e empregam modelos de linguagem autoregressivos ou modelos de difusão para gerá-la, o que ignora a natureza intrínseca da fala e pode resultar em inferiores ou incontroláveis. Argumentamos que a fala pode ser decomposta em vários atributos (por exemplo, conteúdo, timbre, prosódia e fase), e cada um deles deve ser modelado por um módulo com vieses indutivos apropriados. A partir dessa perspectiva, projetamos cuidadosamente um sistema inovador e amplo de TTS zero-shot chamado Mega-TTS, que é treinado com dados diversos em grande escala e modela diferentes atributos de maneiras distintas: 1) Em vez de usar latentes codificados por codecs de áudio como características intermediárias, optamos por espectrogramas, pois eles separam bem a fase dos outros atributos. A fase pode ser construída adequadamente pelo vocoder baseado em GAN e não precisa ser modelada pelo modelo de linguagem. 2) Modelamos o timbre usando vetores globais, já que o timbre é um atributo global que muda lentamente ao longo do tempo. 3) Além disso, utilizamos um modelo acústico baseado em VQGAN para gerar o espectrograma e um modelo de linguagem de código latente para ajustar a distribuição da prosódia, uma vez que a prosódia muda rapidamente ao longo de uma frase, e os modelos de linguagem podem capturar dependências locais e de longo alcance. Escalamos o Mega-TTS para conjuntos de dados multidomínio com 20 mil horas de fala e avaliamos seu desempenho em falantes não vistos. Os resultados experimentais demonstram que o Mega-TTS supera os sistemas de TTS state-of-the-art em tarefas de TTS zero-shot, edição de fala e TTS cross-lingual, com naturalidade, robustez e similaridade de falante superiores, graças ao viés indutivo adequado de cada módulo. Amostras de áudio estão disponíveis em https://mega-tts.github.io/demo-page.

MotionDiffuser: Previsão de Movimento Multiagente Controlável usando Difusão
MotionDiffuser: Controllable Multi-Agent Motion Prediction using Diffusion

Jun 5

ByChiyu Max Jiang, Andre Cornman, Cheolho Park, Ben Sapp, Yin Zhou, Dragomir Anguelov

Apresentamos o MotionDiffuser, uma representação baseada em difusão para a distribuição conjunta de trajetórias futuras de múltiplos agentes. Essa representação possui várias vantagens principais: primeiro, nosso modelo aprende uma distribuição altamente multimodal que captura diversos resultados futuros. Segundo, o design simples do preditor requer apenas um objetivo de treinamento com perda L2 e não depende de âncoras de trajetória. Terceiro, nosso modelo é capaz de aprender a distribuição conjunta para o movimento de múltiplos agentes de maneira invariante a permutações. Além disso, utilizamos uma representação comprimida de trajetória via PCA, o que melhora o desempenho do modelo e permite o cálculo eficiente da probabilidade logarítmica exata da amostra. Posteriormente, propomos um framework geral de amostragem restrita que permite a amostragem controlada de trajetórias com base em funções de custo diferenciáveis. Essa estratégia possibilita uma série de aplicações, como a imposição de regras e prioridades físicas ou a criação de cenários de simulação personalizados. O MotionDiffuser pode ser combinado com arquiteturas de backbone existentes para alcançar resultados de previsão de movimento de ponta. Obtivemos resultados state-of-the-art para previsão de movimento multiagente no Waymo Open Motion Dataset.

HeadSculpt: Criando Avatares 3D de Cabeças com Texto
HeadSculpt: Crafting 3D Head Avatars with Text

Jun 5

ByXiao Han, Yukang Cao, Kai Han, Xiatian Zhu, Jiankang Deng, Yi-Zhe Song, Tao Xiang, Kwan-Yee K. Wong

Recentemente, os métodos generativos 3D guiados por texto têm feito avanços notáveis na produção de texturas e geometrias de alta qualidade, aproveitando a proliferação de grandes modelos de visão-linguagem e difusão de imagens. No entanto, os métodos existentes ainda enfrentam dificuldades para criar avatares 3D de cabeça de alta fidelidade em dois aspectos: (1) Eles dependem principalmente de um modelo de difusão de texto para imagem pré-treinado, enquanto carecem da consciência 3D e dos conhecimentos prévios sobre cabeças necessários. Isso os torna propensos a inconsistências e distorções geométricas nos avatares gerados. (2) Eles falham em edições refinadas. Isso se deve principalmente às limitações herdadas dos modelos de difusão de imagens 2D pré-treinados, que se tornam mais evidentes quando se trata de avatares 3D de cabeça. Neste trabalho, abordamos esses desafios introduzindo um pipeline versátil de grosseiro para refinado, denominado HeadSculpt, para criar (ou seja, gerar e editar) avatares 3D de cabeça a partir de prompts textuais. Especificamente, primeiro equipamos o modelo de difusão com consciência 3D, aproveitando o controle baseado em marcos e uma incorporação textual aprendida que representa a aparência da vista traseira das cabeças, permitindo gerações de avatares de cabeça consistentes em 3D. Além disso, propomos uma nova estratégia de destilação de pontuação de edição com consciência de identidade para otimizar uma malha texturizada com uma técnica de renderização diferenciável de alta resolução. Isso permite a preservação da identidade enquanto segue a instrução de edição. Demonstramos a superioridade da fidelidade e das capacidades de edição do HeadSculpt por meio de experimentos abrangentes e comparações com métodos existentes.

PolyVoice: Modelos de Linguagem para Tradução de Fala para Fala
PolyVoice: Language Models for Speech to Speech Translation

Jun 5

ByQianqian Dong, Zhiying Huang, Chen Xu, Yunlong Zhao, Kexin Wang, Xuxin Cheng, Tom Ko, Qiao Tian, Tang Li, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang

Propomos o PolyVoice, um framework baseado em modelo de linguagem para sistemas de tradução de fala para fala (S2ST). Nosso framework consiste em dois modelos de linguagem: um modelo de linguagem de tradução e um modelo de linguagem de síntese de fala. Utilizamos unidades de fala discretizadas, que são geradas de forma totalmente não supervisionada, permitindo que nosso framework seja aplicado a idiomas não escritos. Para a parte de síntese de fala, adotamos a abordagem existente do VALL-E X e construímos um modelo de linguagem de áudio baseado em unidades. Isso confere ao nosso framework a capacidade de preservar as características vocais e o estilo de fala do discurso original. Avaliamos nosso sistema em pares de Chinês → Inglês e Inglês → Espanhol. Os resultados experimentais mostram que nosso sistema é capaz de gerar fala com alta qualidade de tradução e qualidade de áudio. Amostras de fala estão disponíveis em https://speechtranslation.github.io/polyvoice.

Geração de Linguagem Natural Binária e Ternária
Binary and Ternary Natural Language Generation

Jun 2

ByZechun Liu, Barlas Oguz, Aasish Pappu, Yangyang Shi, Raghuraman Krishnamoorthi

Redes neurais ternárias e binárias permitem computação sem multiplicação e prometem ganhos de eficiência de várias ordens de magnitude em relação a redes de precisão completa, se implementadas em hardware especializado. No entanto, como tanto o espaço de parâmetros quanto o de saída são altamente discretizados, tais redes têm se mostrado muito difíceis de otimizar. As dificuldades são agravadas para a classe de modelos de geração de texto baseados em transformers, devido à sensibilidade da operação de atenção à quantização e aos efeitos de acumulação de ruído na decodificação autoregressiva no espaço de saída de alta cardinalidade. Abordamos o problema com uma combinação de quantização baseada em estatísticas para os pesos e quantização elástica das ativações, e demonstramos os primeiros modelos transformers ternários e binários nas tarefas de sumarização e tradução automática. Nosso modelo BART base ternário alcança um score R1 de 41 no benchmark CNN/DailyMail, ficando apenas 3,9 pontos atrás do modelo completo, enquanto é 16x mais eficiente. Nosso modelo binário, embora menos preciso, alcança um score altamente relevante de 35,6. Para tradução automática, alcançamos scores BLEU de 21,7 e 17,6 no benchmark WMT16 En-Ro, comparados com o score de 26,8 do modelo mBART de precisão completa. Também comparamos nossa abordagem no cenário de ativações de 8 bits, onde nossos modelos com pesos ternários e até binários podem igualar ou superar os melhores modelos de pesos de 8 bits existentes na literatura. Nosso código e modelos estão disponíveis em: https://github.com/facebookresearch/Ternary_Binary_Transformer

Neuralangelo: Reconstrução Neural de Superfícies de Alta Fidelidade
Neuralangelo: High-Fidelity Neural Surface Reconstruction

Jun 5

ByZhaoshuo Li, Thomas Müller, Alex Evans, Russell H. Taylor, Mathias Unberath, Ming-Yu Liu, Chen-Hsuan Lin

A reconstrução neural de superfícies tem se mostrado poderosa para recuperar superfícies 3D densas por meio de renderização neural baseada em imagens. No entanto, os métodos atuais enfrentam dificuldades para recuperar estruturas detalhadas de cenas do mundo real. Para resolver esse problema, apresentamos o Neuralangelo, que combina o poder de representação de grades de hash 3D de múltiplas resoluções com a renderização neural de superfícies. Dois elementos-chave possibilitam nossa abordagem: (1) gradientes numéricos para calcular derivadas de ordem superior como uma operação de suavização e (2) otimização de grosseiro para refinado nas grades de hash, controlando diferentes níveis de detalhes. Mesmo sem entradas auxiliares, como profundidade, o Neuralangelo pode recuperar efetivamente estruturas de superfície 3D densas a partir de imagens de múltiplas vistas com fidelidade que supera significativamente os métodos anteriores, permitindo a reconstrução detalhada de cenas em grande escala a partir de capturas de vídeo RGB.

A Eficácia Surpreendente dos Modelos de Difusão para Estimativa de Fluxo Óptico e Profundidade Monocular
The Surprising Effectiveness of Diffusion Models for Optical Flow and Monocular Depth Estimation

Jun 2

BySaurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet

Modelos probabilísticos de difusão para remoção de ruído revolucionaram a geração de imagens com sua impressionante fidelidade e diversidade. Mostramos que eles também se destacam na estimativa de fluxo óptico e profundidade monocular, surpreendentemente, sem arquiteturas e funções de perda específicas para essas tarefas, que são predominantes nesses contextos. Em comparação com as estimativas pontuais dos métodos convencionais baseados em regressão, os modelos de difusão também permitem inferência de Monte Carlo, por exemplo, capturando incerteza e ambiguidade no fluxo e na profundidade. Com pré-treinamento auto-supervisionado, o uso combinado de dados sintéticos e reais para treinamento supervisionado, e inovações técnicas (preenchimento e treinamento de difusão para remoção de ruído com desenrolamento de etapas) para lidar com dados de treinamento ruidosos e incompletos, além de uma forma simples de refinamento de grosseiro para fino, é possível treinar modelos de difusão de última geração para estimativa de profundidade e fluxo óptico. Experimentos extensivos focam no desempenho quantitativo em relação a benchmarks, ablações, e na capacidade do modelo de capturar incerteza e multimodalidade, além de imputar valores ausentes. Nosso modelo, DDVM (Denoising Diffusion Vision Model), alcança um erro relativo de profundidade de 0.074 no benchmark NYU indoor e uma taxa de outliers Fl-all de 3,26% no benchmark KITTI de fluxo óptico, cerca de 25% melhor que o melhor método publicado. Para uma visão geral, consulte https://diffusion-vision.github.io.

Uma Avaliação Estática da Conclusão de Código por Modelos de Linguagem de Grande Escala
A Static Evaluation of Code Completion by Large Language Models

Jun 5

ByHantian Ding, Varun Kumar, Yuchen Tian, Zijian Wang, Rob Kwiatkowski, Xiaopeng Li, Murali Krishna Ramanathan, Baishakhi Ray, Parminder Bhatia, Sudipta Sengupta, Dan Roth, Bing Xiang

Modelos de linguagem de grande escala treinados em código têm demonstrado grande potencial para aumentar a produtividade de desenvolvedores de software. Vários benchmarks baseados em execução foram propostos para avaliar a correção funcional de códigos gerados por modelos em problemas de programação simples. No entanto, é caro realizar a mesma avaliação em projetos complexos do mundo real, considerando o custo de execução. Por outro lado, ferramentas de análise estática, como linters, que podem detectar erros sem executar o programa, não foram bem exploradas para avaliar modelos de geração de código. Neste trabalho, propomos uma estrutura de avaliação estática para quantificar erros estáticos em completações de código Python, utilizando Árvores de Sintaxe Abstrata. Em comparação com a avaliação baseada em execução, nosso método não é apenas mais eficiente, mas também aplicável a códigos em cenários reais. Para os experimentos, coletamos contextos de código de repositórios de código aberto para gerar um milhão de corpos de função usando modelos públicos. Nossa análise estática revela que Nome Indefinido e Variável Não Utilizada são os erros mais comuns entre outros cometidos por modelos de linguagem. Através de estudos extensivos, também mostramos o impacto da temperatura de amostragem, do tamanho do modelo e do contexto nos erros estáticos em completações de código.

Modelos GPT Encontram Aplicações Robóticas: Sistema de Conversação com Gesticulação Co-verbal
GPT Models Meet Robotic Applications: Co-Speech Gesturing Chat System

May 10

ByNaoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

Este artigo técnico apresenta um sistema de robô de conversação que utiliza os avanços recentes em modelos de linguagem de grande escala (LLMs, do inglês Large-Scale Language Models), como GPT-3 e ChatGPT. O sistema é integrado a um sistema de geração de gestos co-verbais, que seleciona gestos apropriados com base no significado conceitual da fala. Nossa motivação é explorar maneiras de utilizar o progresso recente em LLMs para aplicações robóticas práticas, o que beneficia o desenvolvimento tanto de chatbots quanto de LLMs. Especificamente, ele possibilita o desenvolvimento de sistemas de chatbot altamente responsivos ao aproveitar os LLMs e adiciona efeitos visuais à interface do usuário dos LLMs como um valor adicional. O código-fonte do sistema está disponível no GitHub para nosso robô interno (https://github.com/microsoft/LabanotationSuite/tree/master/MSRAbotChatSimulation) e no GitHub para o Toyota HSR (https://github.com/microsoft/GPT-Enabled-HSR-CoSpeechGestures).

Comandos em Linguagem Natural via Síntese de Programas
Natural Language Commanding via Program Synthesis

Jun 6

ByApurva Gandhi, Thong Q. Nguyen, Huitian Jiao, Robert Steen, Ameya Bhatawdekar

Apresentamos o Semantic Interpreter, um sistema de IA amigável à linguagem natural para softwares de produtividade, como o Microsoft Office, que utiliza modelos de linguagem de grande escala (LLMs) para executar a intenção do usuário em diversos recursos do aplicativo. Embora os LLMs sejam excelentes em compreender a intenção do usuário expressa em linguagem natural, eles não são suficientes para atender a intenções específicas do aplicativo que exigem mais do que transformações de texto para texto. Portanto, introduzimos a Office Domain Specific Language (ODSL), uma linguagem concisa e de alto nível especializada para realizar ações e interagir com entidades nos aplicativos do Office. O Semantic Interpreter utiliza um método de construção de prompts de Análise-Recuperação com LLMs para síntese de programas, traduzindo expressões em linguagem natural do usuário para programas ODSL que podem ser transpilados para APIs do aplicativo e, em seguida, executados. Nossa discussão concentra-se principalmente em uma exploração de pesquisa para o Microsoft PowerPoint.

LEACE: Eliminação perfeita de conceitos lineares em forma fechada
LEACE: Perfect linear concept erasure in closed form

Jun 6

ByNora Belrose, David Schneider-Joseph, Shauli Ravfogel, Ryan Cotterell, Edward Raff, Stella Biderman

A eliminação de conceitos visa remover características específicas de uma representação. Ela pode ser usada para melhorar a justiça (por exemplo, impedindo que um classificador use gênero ou raça) e a interpretabilidade (por exemplo, removendo um conceito para observar mudanças no comportamento do modelo). Neste artigo, introduzimos a Eliminação de Conceitos por Mínimos Quadrados (LEACE, na sigla em inglês), um método de forma fechada que comprovadamente impede que todos os classificadores lineares detectem um conceito, ao mesmo tempo que causa o menor dano possível à representação. Aplicamos o LEACE a modelos de linguagem de grande escala com um novo procedimento chamado "limpeza de conceitos", que remove informações do conceito alvo de cada camada da rede. Demonstramos a utilidade do nosso método em duas tarefas: medir a dependência de modelos de linguagem em informações de classes gramaticais e reduzir o viés de gênero em embeddings do BERT. O código está disponível em https://github.com/EleutherAI/concept-erasure.

SAM3D: Detecção de Objetos 3D em Zero-Shot via Segment Anything Model
SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model

Jun 4

ByDingyuan Zhang, Dingkang Liang, Hongcheng Yang, Zhikang Zou, Xiaoqing Ye, Zhe Liu, Xiang Bai

Com o desenvolvimento de grandes modelos de linguagem, muitos sistemas linguísticos notáveis, como o ChatGPT, prosperaram e alcançaram sucesso impressionante em diversas tarefas, demonstrando o incrível poder dos modelos de base. No espírito de liberar a capacidade dos modelos de base em tarefas visuais, o Segment Anything Model (SAM), um modelo de base para segmentação de imagens, foi proposto recentemente e apresenta uma forte capacidade de generalização zero-shot em muitas tarefas 2D subsequentes. No entanto, ainda não foi explorado se o SAM pode ser adaptado para tarefas de visão 3D, especialmente a detecção de objetos 3D. Com essa inspiração, exploramos a adaptação da capacidade zero-shot do SAM para a detecção de objetos 3D neste artigo. Propomos um pipeline de processamento BEV (visão de cima para baixo) alimentado pelo SAM para detectar objetos e obtemos resultados promissores no grande conjunto de dados aberto Waymo. Como uma tentativa inicial, nosso método dá um passo em direção à detecção de objetos 3D com modelos de base visuais e apresenta a oportunidade de liberar seu poder em tarefas de visão 3D. O código foi disponibilizado em https://github.com/DYZhang09/SAM3D.

Modelos de Linguagem de Grande Escala para Código Falham na Conclusão de Códigos com Potenciais Bugs
Large Language Models of Code Fail at Completing Code with Potential Bugs

Jun 6

ByTuan Dinh, Jinman Zhao, Samson Tan, Renato Negrinho, Leonard Lausen, Sheng Zha, George Karypis

Modelos de linguagem de grande escala para código (Code-LLMs) trouxeram recentemente avanços significativos para a tarefa de completar código, uma funcionalidade fundamental de assistência à programação e inteligência de código. No entanto, a maioria dos trabalhos existentes ignora a possível presença de bugs no contexto do código utilizado para geração, que são inevitáveis no desenvolvimento de software. Portanto, introduzimos e estudamos o problema de completar código com bugs, inspirado pelo cenário realista de sugestão de código em tempo real, onde o contexto do código contém potenciais bugs — antipadrões que podem se tornar bugs no programa completado. Para estudar sistematicamente essa tarefa, introduzimos dois conjuntos de dados: um com bugs sintéticos derivados de alterações de operadores que modificam a semântica (buggy-HumanEval) e outro com bugs realistas derivados de submissões de usuários a problemas de programação (buggy-FixEval). Descobrimos que a presença de potenciais bugs degrada significativamente o desempenho de geração dos Code-LLMs de alto desempenho. Por exemplo, as taxas de aprovação do CodeGen-2B-mono nos casos de teste do buggy-HumanEval caem mais de 50% diante de um único bug potencial no contexto. Por fim, investigamos vários métodos pós-hoc para mitigar o efeito adverso de bugs potenciais e constatamos que ainda há uma grande lacuna no desempenho após a mitigação.

PLANNER: Geração de Parágrafos Diversificados via Modelo de Difusão Latente de Linguagem
PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model

Jun 5

ByYizhe Zhang, Jiatao Gu, Zhuofeng Wu, Shuangfei Zhai, Josh Susskind, Navdeep Jaitly

Modelos autoregressivos para texto às vezes geram saídas repetitivas e de baixa qualidade porque os erros se acumulam durante as etapas de geração. Esse problema é frequentemente atribuído ao viés de exposição - a diferença entre como um modelo é treinado e como ele é usado durante a inferência. Modelos de difusão de denoising oferecem uma abordagem alternativa na qual um modelo pode revisitar e revisar sua saída. No entanto, eles podem ser computacionalmente caros, e esforços anteriores com texto resultaram em modelos que produzem saídas menos fluentes em comparação com modelos autoregressivos, especialmente para textos e parágrafos mais longos. Neste artigo, propomos o PLANNER, um modelo que combina difusão semântica latente com geração autoregressiva, para gerar texto fluente enquanto exerce controle global sobre parágrafos. O modelo alcança isso combinando um módulo de "decodificação" autoregressivo com um módulo de "planejamento" que usa difusão latente para gerar embeddings semânticos de parágrafos de maneira grossa para fina. O método proposto é avaliado em várias tarefas de geração condicional, e os resultados em geração semântica, conclusão de texto e sumarização mostram sua eficácia na geração de texto longo de alta qualidade de maneira eficiente.

VisualGPTScore: Raciocínio Visio-Linguístico com Pontuações de Pré-Treinamento Generativo Multimodal
VisualGPTScore: Visio-Linguistic Reasoning with Multimodal Generative Pre-Training Scores

Jun 2

ByZhiqiu Lin, Xinyue Chen, Deepak Pathak, Pengchuan Zhang, Deva Ramanan

Modelos visão-linguagem (VLMs) pré-treinados de forma discriminativa com perdas de correspondência contraste entre imagem e texto, como P(correspondência|texto, imagem), têm sido criticados por carecer de compreensão composicional. Isso significa que eles podem gerar pontuações semelhantes mesmo que a legenda original seja reorganizada em uma afirmação semântica diferente. Para abordar essa questão, propomos utilizar o {bf P}onto de {bf P}re-{bf T}reinamento {bf G}enerativo {bf V}isual ({bf VisualGPTScore}) de P(texto|imagem), uma pontuação generativa multimodal que captura a probabilidade de uma legenda de texto condicionada a uma imagem usando um modelo de linguagem condicionado por imagem. Contrariamente à crença de que VLMs são meros modelos de saco de palavras, nosso VisualGPTScore pronto para uso demonstra desempenho de alto nível em benchmarks recentemente propostos de recuperação imagem-texto, como ARO e Crepe, que avaliam raciocínio composicional. Além disso, fatoramos o VisualGPTScore em um produto da marginal P(texto) e da Informação Mútua Pontual (PMI). Isso ajuda a (a) diagnosticar conjuntos de dados com forte viés linguístico e (b) corrigir viés em outros benchmarks como Winoground usando uma estrutura teórica da informação. O VisualGPTScore fornece insights valiosos e serve como uma linha de base robusta para futuras avaliações de composicionalidade visio-linguística.

Adaptação Probabilística de Modelos de Texto para Vídeo
Probabilistic Adaptation of Text-to-Video Models

Jun 2

ByMengjiao Yang, Yilun Du, Bo Dai, Dale Schuurmans, Joshua B. Tenenbaum, Pieter Abbeel

Modelos de texto-para-vídeo de grande escala treinados com dados da internet demonstraram capacidades excepcionais na geração de vídeos de alta fidelidade a partir de descrições textuais arbitrárias. No entanto, adaptar esses modelos para tarefas com dados específicos de domínio limitados, como animação ou vídeos de robótica, representa um desafio computacional significativo, uma vez que o ajuste fino de um modelo grande pré-treinado pode ser proibitivamente caro. Inspirados pela forma como um componente pequeno e modificável (por exemplo, prompts, prefix-tuning) pode adaptar um modelo de linguagem grande para realizar novas tarefas sem exigir acesso aos pesos do modelo, investigamos como adaptar um modelo grande pré-treinado de texto-para-vídeo a uma variedade de domínios e tarefas subsequentes sem ajuste fino. Para responder a essa questão, propomos o Video Adapter, que aproveita a função de pontuação de um grande modelo de difusão de vídeo pré-treinado como um prior probabilístico para guiar a geração de um pequeno modelo de vídeo específico para a tarefa. Nossos experimentos mostram que o Video Adapter é capaz de incorporar o amplo conhecimento e preservar a alta fidelidade de um grande modelo de vídeo pré-treinado em um pequeno modelo de vídeo específico para a tarefa, que é capaz de gerar vídeos de alta qualidade, porém especializados, em uma variedade de tarefas, como animação, modelagem egocêntrica e modelagem de dados de robótica simulados e do mundo real. Mais vídeos podem ser encontrados no site https://video-adapter.github.io/.

Detecção de Vulnerabilidades em Código Baseada em Transformers no Momento da Edição: Zero-shot, Few-shot ou Ajuste Fino?
Transformer-based Vulnerability Detection in Code at EditTime: Zero-shot, Few-shot, or Fine-tuning?

May 23

ByAaron Chan, Anant Kharkar, Roshanak Zilouchian Moghaddam, Yevhen Mohylevskyy, Alec Helyar, Eslam Kamal, Mohamed Elkamhawy, Neel Sundaresan

As vulnerabilidades de software geram custos significativos para as empresas. Apesar dos extensos esforços em pesquisa e desenvolvimento de métodos de detecção de vulnerabilidades de software, falhas não detectadas continuam a colocar proprietários e usuários de software em risco. Muitos dos métodos atuais de detecção de vulnerabilidades exigem que trechos de código possam ser compilados e construídos antes de tentar a detecção. Isso, infelizmente, introduz uma longa latência entre o momento em que uma vulnerabilidade é injetada e o momento em que é removida, o que pode aumentar substancialmente o custo de correção de uma vulnerabilidade. Reconhecemos que os avanços atuais em aprendizado de máquina podem ser usados para detectar padrões de código vulnerável em trechos de código sintaticamente incompletos enquanto o desenvolvedor está escrevendo o código, no momento da edição (EditTime). Neste artigo, apresentamos um sistema prático que aproveita o aprendizado profundo em um conjunto de dados em larga escala de padrões de código vulnerável para aprender manifestações complexas de mais de 250 tipos de vulnerabilidades e detectar padrões de código vulnerável no momento da edição. Discutimos abordagens de zero-shot, few-shot e fine-tuning em modelos de linguagem de grande escala (LLMs) pré-treinados de última geração. Mostramos que, em comparação com os modelos de detecção de vulnerabilidades de última geração, nossa abordagem melhora o estado da arte em 10%. Também avaliamos nossa abordagem para detectar vulnerabilidades em código gerado automaticamente por LLMs de código. A avaliação em um benchmark de cenários de código de alto risco mostra uma redução de até 90% nas vulnerabilidades.

Mega-TTS: Síntese de Fala a partir de Texto em Escala com Viés Indutivo Intrínseco em Cenário Zero-Shot
Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias

Jun 6

ByZiyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao