Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o MM1.5, uma nova família de modelos de linguagem multimodais grandes (MLLMs) projetados para aprimorar as capacidades em compreensão de imagens ricas em texto, referência visual e fundamentação, e raciocínio multi-imagem. Construindo sobre a arquitetura MM1, o MM1.5 adota uma abordagem centrada em dados para o treinamento do modelo, explorando sistematicamente o impacto de diversas misturas de dados ao longo de todo o ciclo de treinamento do modelo. Isso inclui dados de OCR de alta qualidade e legendas sintéticas para pré-treinamento contínuo, bem como uma mistura de dados otimizada para ajuste de instruções visuais para ajuste fino supervisionado. Nossos modelos variam de 1B a 30B de parâmetros, abrangendo variantes densas e de mistura de especialistas (MoE), e demonstram que a curadoria cuidadosa de dados e estratégias de treinamento podem resultar em um desempenho sólido mesmo em escalas pequenas (1B e 3B). Além disso, introduzimos duas variantes especializadas: MM1.5-Video, projetado para compreensão de vídeo, e MM1.5-UI, adaptado para compreensão de interface de usuário móvel. Através de extensos estudos empíricos e ablações, fornecemos insights detalhados sobre os processos de treinamento e decisões que informam nossos designs finais, oferecendo orientações valiosas para pesquisas futuras no desenvolvimento de MLLMs.
A capacidade de seguir instruções dos grandes modelos de linguagem permite que os humanos interajam com agentes de IA de forma natural. No entanto, ao serem solicitados a gerar respostas de um comprimento específico, os grandes modelos de linguagem frequentemente têm dificuldade em atender às necessidades dos usuários devido à sua dificuldade inerente em perceber com precisão as restrições numéricas. Para explorar a capacidade dos grandes modelos de linguagem em controlar o comprimento das respostas geradas, propomos a Tarefa de Geração de Comprimento-Alvo (TLG) e projetamos duas métricas, Correspondência Precisa (PM) e Correspondência Flexível (FM) para avaliar o desempenho do modelo em aderir aos comprimentos de resposta especificados. Além disso, introduzimos uma abordagem inovadora, independente do modelo, chamada Ruler, que utiliza Tokens de Comprimento Meta (MLTs) para aprimorar a capacidade de seguir instruções dos grandes modelos de linguagem sob instruções com restrição de comprimento. Especificamente, o Ruler capacita os LLMs com a capacidade de gerar respostas de um comprimento especificado com base nas restrições de comprimento nas instruções. Além disso, o Ruler pode gerar automaticamente um MLT apropriado quando as restrições de comprimento não são fornecidas explicitamente, demonstrando excelente versatilidade e generalização. Experimentos abrangentes mostram a eficácia do Ruler em diferentes LLMs na Tarefa de Geração de Comprimento-Alvo, por exemplo, em All Level 27,97 de ganho médio em PM, 29,57 de ganho médio em FM. Além disso, realizamos extensos experimentos de ablação para substanciar ainda mais a eficácia e generalização do Ruler. Nosso código e dados estão disponíveis em https://github.com/Geaming2002/Ruler.
Apresentamos hiperconexões, um método simples, porém eficaz, que pode servir como uma alternativa às conexões residuais. Esta abordagem aborda especificamente as desvantagens comuns observadas em variantes de conexão residual, como o efeito gangorra entre o desaparecimento do gradiente e o colapso da representação. Teoricamente, as hiperconexões permitem que a rede ajuste a força das conexões entre características em diferentes profundidades e rearranje dinamicamente as camadas. Realizamos experimentos focados no pré-treinamento de grandes modelos de linguagem, incluindo modelos densos e esparsos, nos quais as hiperconexões mostram melhorias significativas de desempenho em relação às conexões residuais. Experimentos adicionais realizados em tarefas de visão também demonstram melhorias semelhantes. Antecipamos que este método será amplamente aplicável e benéfico em uma ampla gama de problemas de IA.
A escassez de conjuntos de dados de diálogo específicos de domínio em vários domínios, desde tópicos acadêmicos até conversas cotidianas, limita o desenvolvimento de sistemas de diálogo para diversas aplicações. A pesquisa existente muitas vezes é limitada por conjuntos de dados de diálogo que são muito gerais ou por conjuntos de dados de diálogo de domínio de nicho cuja escala não corresponde à escala necessária para treinar sistemas de diálogo. Para abordar essa lacuna, apresentamos o DiaSynth - um framework de geração de diálogo sintético capaz de gerar diálogos de alta qualidade, ricos em contexto, em uma ampla gama de domínios. Nossa abordagem difere dos frameworks existentes ao gerar dinamicamente diálogos que incorporam personas simuladas, subtópicos e diversas características conversacionais, utilizando um Modelo de Linguagem Grande (LLM) com raciocínio Chain of Thought (CoT) para criar diálogos ricos em contexto e específicos de domínio que imitam de perto as interações humanas naturais. O DiaSynth produz diálogos personalizados que imitam conversas realistas. Realizamos nossos experimentos gerando dados sintéticos usando diferentes LLMs e exemplos de poucas iterações do DialogSum e SAMSum. Os modelos de linguagem pré-treinados ajustados aos dados sintéticos superam os modelos base em 16,47%, enquanto a comparação entre modelos ajustados aos dados dentro do domínio e dados sintéticos mostra que os dados sintéticos são capazes de capturar 90,48% da distribuição dos dados dentro do domínio. A qualidade dos dados gerados também aumenta com o tamanho dos LLMs. Esses resultados validam o potencial do DiaSynth como uma alternativa robusta aos métodos tradicionais de coleta de dados.
Mecanismos de atenção, particularmente atenção softmax, têm sido fundamentais para o sucesso de modelos baseados em transformadores como o GPT. No entanto, a complexidade de memória quadrática da atenção softmax em relação ao comprimento da sequência apresenta desafios significativos para o processamento de sequências mais longas. Apresentamos o Cottention, um novo mecanismo de atenção que substitui a operação softmax pela similaridade de cosseno. Ao aproveitar as propriedades da similaridade de cosseno e reorganizar a equação de atenção, o Cottention alcança uma complexidade de memória linear nativa em relação ao comprimento da sequência, tornando-o inerentemente mais eficiente em termos de memória do que a atenção softmax. Demonstramos que o Cottention pode ser reformulado como uma rede neural recorrente (RNN) com um estado oculto finito, permitindo o uso de memória constante durante a inferência. Avaliamos o Cottention nas tarefas bidirecionais BERT e causal GPT, demonstrando desempenho comparável à atenção softmax, enquanto reduzimos significativamente os requisitos de memória. Para garantir uma computação eficiente, desenvolvemos um kernel CUDA personalizado para o Cottention. Nossos resultados mostram que o Cottention é uma alternativa promissora à atenção softmax, possibilitando o processamento de sequências mais longas sem sacrificar o desempenho, devido à sua complexidade de memória linear nativa e capacidade de manter uma pegada de memória constante durante a inferência.
Estudos anteriores sobre manipulação robótica são baseados em um entendimento limitado das restrições de movimento 3D subjacentes e affordances. Para enfrentar esses desafios, propomos um paradigma abrangente, denominado UniAff, que integra a manipulação centrada em objetos 3D e a compreensão da tarefa em uma formulação unificada. Especificamente, construímos um conjunto de dados rotulado com atributos-chave relacionados à manipulação, compreendendo 900 objetos articulados de 19 categorias e 600 ferramentas de 12 categorias. Além disso, aproveitamos MLLMs para inferir representações centradas em objetos para tarefas de manipulação, incluindo reconhecimento de affordance e raciocínio sobre restrições de movimento 3D. Experimentos abrangentes em ambientes de simulação e no mundo real indicam que o UniAff melhora significativamente a generalização da manipulação robótica para ferramentas e objetos articulados. Esperamos que o UniAff sirva como uma linha de base geral para tarefas de manipulação robótica unificadas no futuro. Imagens, vídeos, conjunto de dados e código estão publicados no site do projeto em: https://sites.google.com/view/uni-aff/home
Um dos obstáculos para o treinamento de modelos robóticos generalistas hoje em dia é a heterogeneidade. Métodos anteriores de aprendizado de robôs frequentemente coletam dados para treinar com um único corpo específico para uma tarefa, o que é caro e propenso ao overfitting. Este trabalho estuda o problema de aprender representações de políticas por meio de pré-treinamento heterogêneo em dados de robôs de diferentes corpos e tarefas em escala. Propomos Transformadores Pré-treinados Heterogêneos (HPT), que pré-treinam um tronco grande e compartilhável de uma rede neural de política para aprender uma representação compartilhada independente de tarefa e corpo. Esta arquitetura geral alinha as entradas específicas de propriocepção e visão de diferentes corpos a uma sequência curta de tokens e então processa tais tokens para mapear o controle de robôs para diferentes tarefas. Aproveitando conjuntos de dados robóticos do mundo real multi-corpos em larga escala recentes, bem como simulações, robôs implantados e conjuntos de dados de vídeo humanos, investigamos o pré-treinamento de políticas em meio à heterogeneidade. Realizamos experimentos para investigar os comportamentos de escalonamento de objetivos de treinamento, até o alcance de 52 conjuntos de dados. Os HPTs superam várias linhas de base e aprimoram o desempenho da política ajustada em mais de 20% em tarefas não vistas em vários benchmarks de simuladores e ambientes do mundo real. Consulte o site do projeto (https://liruiw.github.io/hpt/) para código e vídeos.
As imagens produzidas por modelos de difusão estão cada vez mais populares em arte digital e marketing visual. No entanto, tais imagens geradas podem replicar conteúdo de existentes e apresentar o desafio da originalidade do conteúdo. Modelos existentes de Detecção de Cópia de Imagem (DCI), embora precisos na detecção de réplicas feitas manualmente, ignoram o desafio dos modelos de difusão. Isso nos motiva a apresentar o ICDiff, o primeiro DCI especializado para modelos de difusão. Para isso, construímos um conjunto de dados de Replicação de Difusão (D-Rep) e propomos um novo método de incorporação profunda correspondente. O D-Rep utiliza um modelo de difusão de ponta (Difusão Estável V1.5) para gerar 40.000 pares de imagem-réplica, que são manualmente anotados em 6 níveis de replicação variando de 0 (sem replicação) a 5 (replicação total). Nosso método, Incorporação de PDF, transforma o nível de replicação de cada par de imagem-réplica em uma função de densidade de probabilidade (PDF) como sinal de supervisão. A intuição é que a probabilidade dos níveis de replicação vizinhos deve ser contínua e suave. Resultados experimentais mostram que a Incorporação de PDF supera métodos orientados por protocolo e escolhas não-PDF no conjunto de teste D-Rep. Além disso, ao utilizar a Incorporação de PDF, descobrimos que as taxas de replicação de modelos de difusão conhecidos em relação a uma galeria de código aberto variam de 10% a 20%.
Este artigo apresenta o Coffee-Gym, um ambiente abrangente de RL para treinar modelos que fornecem feedback sobre a edição de código. O Coffee-Gym inclui dois componentes principais: (1) Coffee, um conjunto de dados contendo rastros de edição de código de humanos para perguntas de codificação e feedback escrito por máquina para editar código incorreto; (2) CoffeeEval, uma função de recompensa que reflete fielmente a utilidade do feedback ao avaliar o desempenho do código revisado em testes unitários. Com eles, o Coffee-Gym aborda a falta de conjuntos de dados de alta qualidade para treinar modelos de feedback com RL e fornece recompensas mais precisas do que o modelo de recompensa SOTA (ou seja, GPT-4). Ao aplicar o Coffee-Gym, obtemos modelos de feedback que superam as bases na melhoria da edição de código de LLMs de código aberto, tornando-os comparáveis aos LLMs de código fechado. Disponibilizamos publicamente o conjunto de dados e o ponto de verificação do modelo.
À medida que os modelos de linguagem grandes (LLMs) se tornam cada vez mais avançados, sua capacidade de exibir generalização composicional - a capacidade de combinar habilidades aprendidas de maneiras novas não encontradas durante o treinamento - tem recebido atenção significativa. Esse tipo de generalização, especialmente em cenários além dos dados de treinamento, também é de grande interesse no estudo da segurança e alinhamento da IA. Um estudo recente introduziu a avaliação SKILL-MIX, onde os modelos são encarregados de compor um pequeno parágrafo demonstrando o uso de um k-tuplo especificado de habilidades linguísticas. Enquanto os modelos pequenos tiveram dificuldade em compor mesmo com k=3, modelos maiores como o GPT-4 se saíram razoavelmente bem com k=5 e 6. Neste artigo, empregamos uma configuração semelhante ao SKILL-MIX para avaliar a capacidade dos modelos menores de aprender generalização composicional a partir de exemplos. Utilizando um conjunto diversificado de habilidades linguísticas - incluindo retórica, literatura, raciocínio, teoria da mente e senso comum - o GPT-4 foi utilizado para gerar amostras de texto que exibem subconjuntos aleatórios de k habilidades. O ajuste fino subsequente dos modelos de parâmetros 7B e 13B nesses textos de habilidades combinadas, para valores crescentes de k, revelou as seguintes descobertas: (1) O treinamento em combinações de k=2 e 3 habilidades resulta em melhorias perceptíveis na capacidade de compor textos com k=4 e 5 habilidades, apesar dos modelos nunca terem visto tais exemplos durante o treinamento. (2) Quando as categorias de habilidades são divididas em grupos de treinamento e retidos, os modelos melhoram significativamente na composição de textos com habilidades retidas durante os testes, apesar de terem visto apenas habilidades de treinamento durante o ajuste fino, ilustrando a eficácia da abordagem de treinamento mesmo com habilidades previamente não vistas. Este estudo também sugere que a incorporação de texto rico em habilidades (potencialmente sintético) no treinamento pode melhorar substancialmente as capacidades composicionais dos modelos.
A decomposição de questões surgiu como uma estratégia eficaz para orientar Grandes Modelos de Linguagem (LLMs) a responder perguntas complexas. No entanto, enquanto os métodos existentes se concentram principalmente em modelos de linguagem unimodais, a capacidade de decomposição de questões de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ainda não foi explorada. Com esse objetivo, este artigo explora a decomposição visual de questões em MLLMs. Especificamente, introduzimos um framework de avaliação sistemática que inclui um conjunto de dados e vários critérios de avaliação para avaliar a qualidade das subquestões decompostas, revelando que os MLLMs existentes têm dificuldade em produzir subquestões de alta qualidade. Para lidar com essa limitação, propomos um conjunto de dados específico para ajuste fino, o DecoVQA+, para aprimorar a capacidade de decomposição de questões do modelo. Com o objetivo de capacitar os modelos a realizar uma decomposição seletiva apropriada, propomos um pipeline eficiente de ajuste fino. O pipeline de ajuste fino consiste em nosso conjunto de dados proposto e um objetivo de treinamento para decomposição seletiva. Os MLLMs ajustados finamente demonstram melhorias significativas na qualidade das subquestões e na política de decomposição seletiva de questões. Além disso, os modelos também alcançam uma maior precisão com a decomposição seletiva em conjuntos de dados de referência VQA.
A técnica de marca d'água de áudio incorpora mensagens em áudio e extrai com precisão mensagens do áudio marcado. Métodos tradicionais desenvolvem algoritmos com base na experiência de especialistas para incorporar marcas d'água no domínio do tempo ou domínio da transformada de sinais. Com o desenvolvimento de redes neurais profundas, surgiu a marca d'água de áudio neural baseada em aprendizado profundo. Em comparação com algoritmos tradicionais, a marca d'água de áudio neural alcança melhor robustez ao considerar vários ataques durante o treinamento. No entanto, os métodos atuais de marca d'água neural sofrem com baixa capacidade e imperceptibilidade insatisfatória. Além disso, a questão da localização da marca d'água, que é extremamente importante e ainda mais pronunciada na marca d'água de áudio neural, não foi adequadamente estudada. Neste artigo, projetamos um modelo de marca d'água de dupla incorporação para localização eficiente. Também consideramos o impacto da camada de ataque na rede neural invertível no treinamento de robustez, aprimorando o modelo para melhorar tanto sua razoabilidade quanto sua estabilidade. Experimentos mostram que o modelo proposto, IDEAW, pode resistir a vários ataques com maior capacidade e capacidade de localização mais eficiente em comparação com métodos existentes.