Artigos de pesquisa em IA selecionados diariamente com traduções
O CLIP é um dos modelos multimodais fundamentais mais importantes hoje. O que impulsiona as capacidades do CLIP? Os ricos sinais de supervisão fornecidos pela linguagem natural, portadora do conhecimento humano, moldam um espaço de representação cruzada poderoso. No entanto, com os avanços rápidos em modelos de linguagem grandes (LLMs) como o GPT-4 e o LLaMA, os limites da compreensão e geração de linguagem estão continuamente sendo ampliados. Isso levanta uma questão intrigante: as capacidades dos LLMs podem ser aproveitadas para melhorar ainda mais o aprendizado de representação multimodal? Os benefícios potenciais de incorporar LLMs ao CLIP são claros. A forte compreensão textual dos LLMs pode melhorar fundamentalmente a capacidade do CLIP de lidar com legendas de imagens, aprimorando drasticamente sua capacidade de processar textos longos e complexos, uma limitação bem conhecida do CLIP convencional. Além disso, os LLMs são treinados em um vasto corpus de texto, possuindo conhecimento de mundo aberto. Isso permite que eles ampliem as informações das legendas durante o treinamento, aumentando a eficiência do processo de aprendizado. Neste artigo, propomos o LLM2CLIP, uma abordagem inovadora que aproveita o poder dos LLMs para desbloquear o potencial do CLIP. Ao ajustar finamente o LLM no espaço de legendas com aprendizado contrastivo, extraímos suas capacidades textuais nos embeddings de saída, melhorando significativamente a discriminabilidade textual da camada de saída. Em seguida, projetamos um processo de treinamento eficiente onde o LLM ajustado atua como um professor poderoso para o codificador visual do CLIP. Graças à presença do LLM, agora podemos incorporar legendas mais longas e complexas sem sermos restritos pela janela de contexto e limitações de capacidade do codificador de texto do CLIP convencional. Nossos experimentos demonstram que essa abordagem traz melhorias substanciais em tarefas multimodais.
Os grandes modelos de linguagem (LLMs) têm demonstrado capacidades impressionantes, mas ainda enfrentam dificuldades em tarefas de raciocínio complexas que exigem múltiplas etapas. Enquanto métodos baseados em prompts como Chain-of-Thought (CoT) podem melhorar o raciocínio do LLM no momento da inferência, otimizar as capacidades de raciocínio durante o treinamento continua sendo um desafio. Apresentamos o LaTent Reasoning Optimization (LaTRO), um framework fundamentado que formula o raciocínio como amostragem de uma distribuição latente e o otimiza por meio de abordagens variacionais. O LaTRO permite que os LLMs melhorem simultaneamente seu processo de raciocínio e capacidade de avaliar a qualidade do raciocínio, sem necessidade de feedback externo ou modelos de recompensa. Validamos o LaTRO por meio de experimentos nos conjuntos de dados GSM8K e ARC-Challenge usando múltiplas arquiteturas de modelo. No GSM8K, o LaTRO melhora a precisão de zero-shot em média 12,5% em relação aos modelos base e 9,6% em relação ao ajuste fino supervisionado em Phi-3.5-mini, Mistral-7B e Llama-3.1-8B. Nossas descobertas sugerem que os LLMs pré-treinados possuem capacidades de raciocínio latentes que podem ser desbloqueadas e aprimoradas por meio de nossa abordagem de otimização proposta de forma autônoma. O código do LaTRO está disponível em https://github.com/SalesforceAIResearch/LaTRO.
A paralelismo de pipeline é amplamente utilizada para escalar o treinamento de grandes modelos de linguagem baseados em transformadores, diversos trabalhos têm sido realizados para melhorar sua taxa de processamento e pegada de memória. Neste artigo, abordamos um problema frequentemente negligenciado: as camadas de vocabulário podem causar desequilíbrio na computação e uso de memória entre os estágios do pipeline, piorando as bolhas do pipeline e o gargalo de memória. Para lidar com isso, particionamos uniformemente as camadas de vocabulário entre os dispositivos do pipeline e agrupamos a computação em passagens do pipeline. Para reduzir a sobrecarga de memória de ativação, propomos vários algoritmos para reduzir as barreiras de comunicação dentro das camadas de vocabulário. Além disso, utilizamos um método generalizável para integrar o Paralelismo de Vocabulário com os cronogramas de pipeline existentes. Ao combinar essas técnicas, nossos métodos equilibram efetivamente a computação e a memória de parâmetros, com apenas uma pequena sobrecarga de memória de ativação constante. Notavelmente, ao ser combinada com cronogramas de memória de ativação equilibrados como o V-Half, nossa abordagem alcança um equilíbrio perfeito tanto na memória quanto na computação. Avaliações extensivas demonstram que nosso método alcança equilíbrio de computação e memória, independentemente do tamanho do vocabulário, resultando em uma melhoria de 5% a 51% na taxa de processamento em comparação com abordagens ingênuas, ao mesmo tempo em que reduz significativamente o uso máximo de memória, especialmente para cenários de vocabulário grande. Nossa implementação está disponível em código aberto em https://github.com/sail-sg/VocabularyParallelism.
Apresentamos o StdGEN, um pipeline inovador para gerar personagens 3D de alta qualidade semanticamente decompostos a partir de imagens únicas, possibilitando amplas aplicações em realidade virtual, jogos e produção cinematográfica, entre outros. Ao contrário de métodos anteriores que enfrentam dificuldades com decomponibilidade limitada, qualidade insatisfatória e longos tempos de otimização, o StdGEN apresenta decomponibilidade, eficácia e eficiência; ou seja, gera personagens 3D detalhados de forma intrincada com componentes semânticos separados, como o corpo, roupas e cabelo, em três minutos. No cerne do StdGEN está nosso Modelo de Reconstrução Grande Consciente de Semântica (S-LRM) proposto, um modelo generalizável baseado em transformadores que reconstrói conjuntamente geometria, cor e semântica a partir de imagens de múltiplas vistas de forma direta. Um esquema diferenciável de extração de superfície semântica em múltiplas camadas é introduzido para obter malhas a partir de campos implícitos híbridos reconstruídos pelo nosso S-LRM. Adicionalmente, um modelo de difusão eficiente em múltiplas vistas e um módulo iterativo de refinamento de superfície em múltiplas camadas são integrados ao pipeline para facilitar a geração de personagens 3D decomponíveis de alta qualidade. Experimentos extensivos demonstram nosso desempenho de ponta na geração de personagens de anime 3D, superando significativamente as bases existentes em geometria, textura e decomponibilidade. O StdGEN oferece personagens 3D semanticamente decompostos prontos para uso e possibilita personalização flexível para uma ampla gama de aplicações. Página do projeto: https://stdgen.github.io
A afinação de grandes modelos de linguagem (LLMs) é essencial para melhorar seu desempenho em tarefas específicas, mas frequentemente é intensiva em recursos devido a dados redundantes ou pouco informativos. Para lidar com essa ineficiência, apresentamos o DELIFT (Data Efficient Language model Instruction Fine-Tuning), um algoritmo inovador que otimiza sistematicamente a seleção de dados nas três etapas-chave da afinação: (1) afinação de instruções, (2) afinação específica da tarefa (por exemplo, raciocínio, pergunta-resposta) e (3) afinação contínua (por exemplo, incorporação de novas versões de dados). Ao contrário de métodos existentes que se concentram na otimização de uma única etapa ou dependem de cálculos de gradiente intensivos computacionalmente, o DELIFT opera de forma eficiente em todas as etapas. Central à nossa abordagem está uma métrica de utilidade em pares que quantifica o quão benéfica uma amostra de dados é para melhorar as respostas do modelo a outras amostras, medindo efetivamente o valor informacional em relação às capacidades atuais do modelo. Ao alavancar diferentes funções submodulares aplicadas a essa métrica, o DELIFT seleciona subconjuntos diversos e ótimos que são úteis em todas as etapas de afinação. Experimentos em várias tarefas e escalas de modelo demonstram que o DELIFT pode reduzir o tamanho dos dados de afinação em até 70% sem comprometer o desempenho, oferecendo economias computacionais significativas e superando os métodos existentes tanto em eficiência quanto em eficácia.
Este artigo tem como objetivo projetar um sistema unificado de geração de Projeto Assistido por Computador (CAD) que possa facilmente gerar modelos CAD com base nas entradas do usuário na forma de descrição textual, imagens, nuvens de pontos ou até mesmo uma combinação destes. Para atingir esse objetivo, apresentamos o CAD-MLLM, o primeiro sistema capaz de gerar modelos CAD paramétricos condicionados à entrada multimodal. Especificamente, dentro do framework CAD-MLLM, aproveitamos as sequências de comandos de modelos CAD e então empregamos modelos de linguagem grandes avançados (LLMs) para alinhar o espaço de características em meio a esses diversos dados multimodais e representações vetorizadas de modelos CAD. Para facilitar o treinamento do modelo, projetamos um pipeline abrangente de construção de dados e anotação que equipa cada modelo CAD com dados multimodais correspondentes. Nosso conjunto de dados resultante, chamado Omni-CAD, é o primeiro conjunto de dados CAD multimodal que contém descrição textual, imagens de múltiplas vistas, pontos e sequência de comandos para cada modelo CAD. Ele contém aproximadamente 450 mil instâncias e suas sequências de construção CAD. Para avaliar minuciosamente a qualidade de nossos modelos CAD gerados, vamos além das métricas de avaliação atuais que se concentram na qualidade de reconstrução, introduzindo métricas adicionais que avaliam a qualidade topológica e a extensão de envoltório de superfície. Resultados experimentais extensivos demonstram que o CAD-MLLM supera significativamente os métodos generativos condicionais existentes e permanece altamente robusto a ruídos e pontos ausentes. A página do projeto e mais visualizações podem ser encontradas em: https://cad-mllm.github.io/
O surgimento de grandes modelos de linguagem (LLMs) como o GitHub Copilot tem aumentado significativamente a produtividade dos programadores, especialmente na geração de código. No entanto, esses modelos frequentemente enfrentam dificuldades em tarefas do mundo real sem ajustes finos. À medida que os LLMs se tornam maiores e mais eficientes, o ajuste fino para tarefas especializadas se torna cada vez mais caro. Métodos de ajuste fino eficientes em parâmetros (PEFT), que ajustam apenas um subconjunto dos parâmetros do modelo, oferecem uma solução promissora ao reduzir os custos computacionais do ajuste dos LLMs mantendo seu desempenho. Estudos existentes têm explorado o uso de PEFT e LLMs em várias tarefas relacionadas a código e descobriram que a eficácia das técnicas de PEFT depende da tarefa. A aplicação de técnicas de PEFT na geração de testes unitários ainda é pouco explorada. O estado-da-arte se limita ao uso de LLMs com ajuste fino completo para gerar testes unitários. Este artigo investiga tanto o ajuste fino completo quanto vários métodos de PEFT, incluindo LoRA, (IA)^3 e ajuste de prompt, em diferentes arquiteturas e tamanhos de modelos. Utilizamos conjuntos de dados de referência bem estabelecidos para avaliar sua eficácia na geração de testes unitários. Nossas descobertas mostram que os métodos de PEFT podem fornecer desempenho comparável ao ajuste fino completo para a geração de testes unitários, tornando o ajuste fino especializado mais acessível e econômico. Notavelmente, o ajuste de prompt é o mais eficaz em termos de custo e utilização de recursos, enquanto abordagens LoRA se aproximam da eficácia do ajuste fino completo em vários casos.
Os modelos de linguagem modernos podem processar entradas em diversas línguas e modalidades. Nossa hipótese é que os modelos adquirem essa capacidade através da aprendizagem de um espaço de representação compartilhado entre tipos de dados heterogêneos (por exemplo, diferentes línguas e modalidades), que coloca entradas semanticamente similares próximas umas das outras, mesmo que sejam de modalidades/línguas diferentes. Chamamos isso de hipótese do hub semântico, seguindo o modelo hub-and-spoke da neurociência (Patterson et al., 2007), que postula que o conhecimento semântico no cérebro humano é organizado através de um "hub" semântico transmodal que integra informações de diversas regiões "spokes" específicas de modalidade. Primeiramente, demonstramos que as representações do modelo para entradas semanticamente equivalentes em diferentes línguas são similares nas camadas intermediárias, e que este espaço pode ser interpretado usando a língua dominante de pré-treinamento do modelo através da lente logit. Essa tendência se estende a outros tipos de dados, incluindo expressões aritméticas, código e entradas visuais/auditivas. Intervenções no espaço de representação compartilhado em um tipo de dado também afetam de forma previsível as saídas do modelo em outros tipos de dados, sugerindo que este espaço de representações compartilhadas não é simplesmente um subproduto vestigial do treinamento em larga escala em dados amplos, mas algo que é ativamente utilizado pelo modelo durante o processamento de entradas.
Os modelos de visão-linguagem ajustados (VLMs) frequentemente capturam correlações espúrias entre características da imagem e atributos textuais, resultando em desempenho de zero-shot degradado no momento do teste. Abordagens existentes para lidar com correlações espúrias (i) operam principalmente no nível global da imagem em vez de intervir diretamente em características da imagem detalhadas e (ii) são predominantemente projetadas para configurações unimodais. Neste trabalho, apresentamos RaVL, que adota uma perspectiva detalhada sobre a robustez do VLM, descobrindo e mitigando correlações espúrias usando características locais da imagem em vez de operar no nível global da imagem. Dado um VLM ajustado, RaVL primeiro descobre correlações espúrias, aproveitando uma abordagem de agrupamento em nível de região para identificar características precisas da imagem que contribuem para erros de classificação de zero-shot. Em seguida, RaVL mitiga a correlação espúria identificada com uma nova função de perda consciente da região que permite ao VLM focar em regiões relevantes e ignorar relacionamentos espúrios durante o ajuste fino. Avaliamos RaVL em 654 VLMs com várias arquiteturas de modelo, domínios de dados e correlações espúrias aprendidas. Nossos resultados mostram que RaVL descobre com precisão (melhoria de 191% em relação à linha de base mais próxima) e mitiga (melhoria de 8,2% na precisão de classificação de imagem do pior grupo) correlações espúrias. Avaliações qualitativas em VLMs de domínio geral e médico confirmam nossas descobertas.
Dívida técnica (TD) é um termo usado para descrever o trabalho adicional e os custos que surgem quando os desenvolvedores optam por uma solução rápida e fácil para um problema, em vez de uma abordagem mais eficaz e bem projetada, porém demorada. Dívidas Técnicas Auto-Admitidas (SATDs) são um tipo específico de dívida técnica que os desenvolvedores documentam e reconhecem intencionalmente, geralmente por meio de comentários textuais. Embora esses comentários auto-admitidos sejam uma ferramenta útil para identificar dívidas técnicas, a maioria das abordagens existentes se concentra em capturar tokens cruciais associados a várias categorias de TD, negligenciando as informações ricas incorporadas no próprio código-fonte. Pesquisas recentes têm se concentrado em detectar SATDs analisando comentários incorporados no código-fonte, havendo pouco trabalho lidando com dívidas técnicas contidas no código-fonte. Para preencher essa lacuna, neste estudo, por meio da análise de comentários e seu código-fonte associado de 974 projetos Java hospedados no corpus Stack, curamos o primeiro conjunto de dados de TD identificado por meio de comentários de código, juntamente com seu código-fonte associado. Por meio de uma avaliação empírica, descobrimos que os comentários do conjunto de dados resultante ajudam a melhorar o desempenho de previsão dos modelos de detecção de SATD de ponta. Mais importante ainda, incluir o código-fonte classificado melhora significativamente a precisão na previsão de vários tipos de dívida técnica. Nesse sentido, nosso trabalho é duplo: (i) Acreditamos que nosso conjunto de dados catalisará trabalhos futuros no domínio, inspirando várias questões de pesquisa relacionadas ao reconhecimento de dívida técnica; (ii) Os classificadores propostos podem servir como referência para outros estudos sobre a detecção de TD por meio do conjunto de dados curado.