Artigos de pesquisa em IA selecionados diariamente com traduções
Os autoencoders esparsos (SAEs) tornaram-se um ingrediente essencial na engenharia reversa de grandes modelos de linguagem (LLMs). Para os LLMs, foi demonstrado que eles decompõem representações intermediárias que frequentemente não são diretamente interpretáveis em somas esparsas de características interpretáveis, facilitando um melhor controle e análise subsequente. No entanto, análises e abordagens semelhantes têm faltado para modelos de texto para imagem. Investigamos a possibilidade de usar SAEs para aprender características interpretáveis para modelos de difusão de texto para imagem de poucas etapas, como o SDXL Turbo. Para isso, treinamos SAEs nas atualizações realizadas pelos blocos transformadores dentro do denoising U-net do SDXL Turbo. Descobrimos que suas características aprendidas são interpretáveis, influenciam causalmente o processo de geração e revelam especialização entre os blocos. Em particular, encontramos um bloco que lida principalmente com composição de imagem, um que é principalmente responsável por adicionar detalhes locais, e um para cor, iluminação e estilo. Portanto, nosso trabalho é um importante primeiro passo para melhor compreender os internos de modelos generativos de texto para imagem como o SDXL Turbo e demonstra o potencial das características aprendidas pelos SAEs para o domínio visual. O código está disponível em https://github.com/surkovv/sdxl-unbox
O que faz diferença no pós-treinamento de LLMs? Investigamos os padrões de treinamento de diferentes camadas em grandes modelos de linguagem (LLMs), através da lente do gradiente, ao treinar com diferentes respostas e modelos iniciais. Estamos especificamente interessados em como o pensamento rápido versus lento afeta os gradientes por camada, dada a recente popularidade de treinar LLMs em caminhos de raciocínio como corrente de pensamentos (CoT) e recompensas de processo. Em nosso estudo, o pensamento rápido sem CoT leva a gradientes maiores e maiores diferenças de gradientes entre as camadas do que o pensamento lento (CoT Detalhado), indicando a estabilidade de aprendizado trazida por este último. Além disso, os LLMs pré-treinados são menos afetados pela instabilidade do pensamento rápido do que os LLMs ajustados por instrução. Adicionalmente, estudamos se os padrões de gradiente podem refletir a correção das respostas ao treinar diferentes LLMs usando caminhos de pensamento lento versus rápido. Os resultados mostram que os gradientes do pensamento lento podem distinguir caminhos de raciocínio corretos e irrelevantes. Para efeito de comparação, realizamos análises de gradientes semelhantes em tarefas de aprendizado de conhecimento não baseadas em raciocínio, nas quais, no entanto, aumentar trivialmente o comprimento da resposta não leva a comportamentos semelhantes ao pensamento lento. Nosso estudo fortalece a compreensão fundamental do treinamento de LLMs e fornece novas perspectivas sobre sua eficiência e estabilidade, abrindo caminho para a construção de um agente Sistema-2 generalizável. Nosso código, dados e estatísticas de gradientes podem ser encontrados em: https://github.com/MingLiiii/Layer_Gradient.
Nos sistemas de diálogo orientados à tarefa, a detecção de intenções é crucial para interpretar as consultas dos usuários e fornecer respostas apropriadas. As pesquisas existentes abordam principalmente consultas simples com uma única intenção, carecendo de sistemas eficazes para lidar com consultas complexas com múltiplas intenções e extrair diferentes segmentos de intenção. Além disso, há uma ausência notável de conjuntos de dados multilíngues e multi-intenções. Este estudo aborda três tarefas críticas: extrair múltiplos segmentos de intenção das consultas, detectar múltiplas intenções e desenvolver um conjunto de dados de intenção multilíngue e multi-rótulo. Apresentamos um novo conjunto de dados de detecção de intenção multi-rótulo e multi-classe (conjunto de dados MLMCID) elaborado a partir de conjuntos de dados de referência existentes. Também propomos uma arquitetura baseada em rede de ponteiros (MLMCID) para extrair segmentos de intenção e detectar múltiplas intenções com rótulos grosseiros e refinados na forma de sêxtuplos. Uma análise abrangente demonstra a superioridade do nosso sistema baseado em rede de ponteiros em relação às abordagens de referência em termos de precisão e pontuação F1 em vários conjuntos de dados.
A afinação de instruções é uma abordagem supervisionada de ajuste fino que melhora significativamente a capacidade de grandes modelos de linguagem (LLMs) de seguir instruções humanas. Propomos o SelfCodeAlign, o primeiro pipeline totalmente transparente e permissivo para autoalinhamento de LLMs de código sem anotações humanas extensas ou destilação. O SelfCodeAlign utiliza o mesmo modelo base para inferência ao longo do processo de geração de dados. Ele extrai primeiro diversos conceitos de codificação de trechos de semente de alta qualidade para gerar novas tarefas. Em seguida, amostra várias respostas por tarefa, emparelha cada uma com casos de teste e as valida em um ambiente de sandbox. Por fim, exemplos aprovados são selecionados para a afinação de instruções. Em nossos experimentos principais, utilizamos o SelfCodeAlign com o CodeQwen1.5-7B para gerar um conjunto de dados de 74 mil pares de instrução-resposta. O ajuste fino neste conjunto de dados resulta em um modelo que alcança 67,1 pass@1 no HumanEval+, superando o CodeLlama-70B-Instruct apesar de ser dez vezes menor. Em todos os benchmarks, este modelo ajustado finamente supera consistentemente a versão original treinada com o OctoPack, o método anteriormente líder em afinação de instruções sem anotações humanas ou destilação. Além disso, demonstramos que o SelfCodeAlign é eficaz em LLMs de vários tamanhos, de 3B a 33B, e que os modelos base podem se beneficiar mais do alinhamento com sua própria distribuição de dados. Validamos ainda a eficácia de cada componente em nosso pipeline, mostrando que o SelfCodeAlign supera tanto a destilação direta do GPT-4o quanto os principais métodos de destilação baseados no GPT-3.5, como o OSS-Instruct e o Evol-Instruct. O SelfCodeAlign também resultou na criação do StarCoder2-Instruct, o primeiro LLM de código totalmente transparente, licenciado de forma permissiva e autoalinhado que alcança desempenho de codificação de ponta.
Os grandes modelos de linguagem (LLMs) revolucionaram inúmeras aplicações, no entanto, sua implementação continua sendo desafiada por restrições de memória em dispositivos locais. Enquanto as leis de escala aprimoraram as capacidades dos LLMs, o principal gargalo mudou de capacidade para disponibilidade, destacando a necessidade de gerenciamento eficiente de memória. Métodos tradicionais de compressão, como quantização, frequentemente exigem taxas de compressão predefinidas e processos de compressão separados para cada configuração, complicando a implementação em ambientes de memória variável. Neste artigo, apresentamos o BitStack, uma abordagem inovadora de compressão de pesos sem treinamento que possibilita trocas de nível de megabytes entre uso de memória e desempenho do modelo. Ao alavancar a decomposição de pesos, o BitStack pode ajustar dinamicamente o tamanho do modelo com transmissão mínima entre a memória em execução e os dispositivos de armazenamento. Nossa abordagem decompõe iterativamente as matrizes de pesos considerando a importância de cada parâmetro, resultando em um bloco residual de aproximadamente 1 bit por parâmetro em cada iteração de decomposição. Esses blocos são classificados e empilhados no armazenamento como unidades básicas de transmissão, com quantidades diferentes carregadas com base na disponibilidade de memória atual. Experimentos extensivos em uma ampla gama de tarefas demonstram que, apesar de oferecer controle de tamanho refinado, o BitStack consistentemente corresponde ou supera baselines de quantização robustos, especialmente em taxas de compressão extremas. Até onde sabemos, este é o primeiro método baseado em decomposição que efetivamente preenche a lacuna para técnicas de compressão práticas como a quantização. O código está disponível em https://github.com/xinghaow99/BitStack.
Grandes modelos de linguagem (LLMs) têm dificuldade em seguir instruções com restrições complexas em formato, comprimento, etc. Seguindo a prática convencional de ajuste de instruções, trabalhos anteriores realizam pós-treinamento em pares de instrução-resposta complexos gerados alimentando instruções complexas em LLMs avançados. No entanto, mesmo LLMs avançados não conseguem seguir bem instruções complexas, limitando assim a qualidade dos dados gerados. Neste trabalho, descobrimos que conjuntos de dados existentes contêm inerentemente restrições complexas implícitas e propomos uma nova técnica de geração de dados, a retrotradução de restrições. Especificamente, pegamos os pares de instrução-resposta de alta qualidade em conjuntos de dados existentes e apenas adotamos LLMs avançados para adicionar restrições complexas já atendidas pelas respostas às instruções, o que naturalmente reduz custos e ruídos nos dados. Nos experimentos, adotamos o Llama3-70B-Instruct para retrotraduzir restrições e criar um conjunto de dados de instrução-resposta complexo de alta qualidade, chamado CRAB. Demonstramos que o pós-treinamento em CRAB melhora a capacidade de seguir instruções complexas de vários LLMs de base, avaliados em extensas referências de seguimento de instruções. Além disso, descobrimos que a retrotradução de restrições também serve como um útil objetivo de treinamento auxiliar no pós-treinamento. Nosso código, dados e modelos serão disponibilizados para facilitar pesquisas futuras.
Os avanços recentes em Modelos de Linguagem Grandes (LLMs) melhoraram significativamente sua capacidade de processar contextos longos, no entanto, ainda existe uma lacuna notável na geração de saídas longas e alinhadas. Essa limitação decorre de uma lacuna no treinamento, onde a pré-treinamento carece de instruções eficazes para geração de texto longo, e os dados pós-treinamento consistem principalmente de pares curtos de consulta-resposta. Abordagens atuais, como retrotradução de instruções e imitação de comportamento, enfrentam desafios, incluindo qualidade dos dados, questões de direitos autorais e restrições no uso de modelos proprietários. Neste artigo, apresentamos um inovador framework de treinamento iterativo chamado Auto-Alongamento que aproveita apenas o conhecimento intrínseco e as habilidades dos LLMs sem a necessidade de dados auxiliares ou modelos proprietários. O framework consiste em dois papéis: o Gerador e o Ampliador. O Gerador produz a resposta inicial, que é então dividida e expandida pelo Ampliador. Esse processo resulta em uma nova resposta mais longa, que é usada para treinar tanto o Gerador quanto o Ampliador de forma iterativa. Através desse processo, os modelos são treinados progressivamente para lidar com respostas cada vez mais longas. Experimentos em benchmarks e avaliações humanas mostram que o Auto-Alongamento supera os métodos existentes na geração de texto longo, quando aplicado aos principais LLMs de código aberto, como Qwen2 e LLaMA3. Nosso código está publicamente disponível em https://github.com/QwenLM/Self-Lengthen.
O desempenho das redes neurais melhora quando mais parâmetros são utilizados. No entanto, os tamanhos dos modelos são limitados pela memória disponível no dispositivo durante o treinamento e inferência. Embora a aplicação de técnicas como quantização possa aliviar a restrição, elas sofrem de degradação de desempenho. Neste trabalho, apresentamos o NeuZip, um novo esquema de compressão de pesos baseado na entropia dos números de ponto flutuante em redes neurais. Com o NeuZip, somos capazes de alcançar treinamento e inferência eficientes em memória sem sacrificar o desempenho. Notavelmente, reduzimos significativamente a pegada de memória do treinamento de um modelo Llama-3 8B de 31GB para menos de 16GB, mantendo a dinâmica de treinamento completamente inalterada. Na inferência, nosso método pode reduzir o uso de memória em mais da metade, mantendo um desempenho quase sem perdas. Nosso código está disponível publicamente.
Neste artigo, demonstramos que representações de vídeo úteis podem ser aprendidas a partir de vídeos sintéticos e imagens naturais, sem a incorporação de vídeos naturais no treinamento. Propomos uma progressão de conjuntos de dados de vídeo sintetizados por processos generativos simples, que modelam um conjunto crescente de propriedades de vídeo naturais (por exemplo, movimento, aceleração e transformações de forma). O desempenho subsequente de modelos de vídeo pré-treinados nesses conjuntos de dados gerados aumenta gradualmente com a progressão do conjunto de dados. Um modelo VideoMAE pré-treinado em nossos vídeos sintéticos fecha 97,2% da lacuna de desempenho na classificação de ações UCF101 entre o treinamento do zero e o pré-treinamento auto-supervisionado a partir de vídeos naturais, e supera o modelo pré-treinado no HMDB51. A introdução de recortes de imagens estáticas na fase de pré-treinamento resulta em desempenho semelhante ao pré-treinamento UCF101 e supera o modelo pré-treinado UCF101 em 11 dos 14 conjuntos de dados fora da distribuição do UCF101-P. Analisando as propriedades de baixo nível dos conjuntos de dados, identificamos correlações entre diversidade de quadros, similaridade de quadros aos dados naturais e desempenho subsequente. Nossa abordagem fornece uma alternativa mais controlável e transparente aos processos de curadoria de dados de vídeo para pré-treinamento.
Inúmeros estudos têm avaliado a proficiência de sistemas de IA, especialmente grandes modelos de linguagem (LLMs), em facilitar tarefas cotidianas como escrever e-mails, responder a perguntas e gerar conteúdo criativo. No entanto, os pesquisadores enfrentam desafios e oportunidades únicas ao aproveitar os LLMs para seus próprios trabalhos, como brainstorming de ideias de pesquisa, design de experimentos e escrita ou revisão de artigos. Neste estudo, apresentamos o AAAR-1.0, um conjunto de dados de referência projetado para avaliar o desempenho dos LLMs em três tarefas fundamentais e intensivas em expertise de pesquisa: (i) Inferência de Equações, avaliando a correção de equações com base nas informações contextuais em submissões de artigos; (ii) Design de Experimentos, projetando experimentos para validar ideias e soluções de pesquisa; (iii) Fraquezas de Artigos, identificando fraquezas em submissões de artigos; e (iv) REVISÃOCRÍTICA, identificando se cada segmento em revisões humanas é deficiente ou não. O AAAR-1.0 difere de conjuntos de dados de referência anteriores de duas maneiras principais: primeiro, é explicitamente orientado para pesquisa, com tarefas que exigem profunda expertise de domínio; segundo, é orientado para pesquisadores, refletindo as atividades principais com as quais os pesquisadores se envolvem diariamente. Uma avaliação de LLMs de código aberto e proprietários revela seu potencial, bem como limitações, na realização de tarefas de pesquisa sofisticadas. Continuaremos iterando o AAAR-1.0 para novas versões.
O surgimento de grandes modelos de linguagem (LLMs) revolucionou as interações do usuário com sistemas baseados em conhecimento, permitindo que chatbots sintetizem vastas quantidades de informações e auxiliem em tarefas complexas e exploratórias. No entanto, os chatbots baseados em LLM frequentemente têm dificuldade em fornecer suporte personalizado, especialmente quando os usuários começam com consultas vagas ou carecem de informações contextuais suficientes. Este artigo apresenta o Assistente Colaborativo para Exploração Personalizada (CARE), um sistema projetado para aprimorar a personalização em tarefas exploratórias, combinando um framework LLM multiagente com uma interface de usuário estruturada. A interface do CARE é composta por um Painel de Chat, Painel de Soluções e Painel de Necessidades, possibilitando a refinamento iterativo de consultas e geração dinâmica de soluções. O framework multiagente colabora para identificar tanto as necessidades explícitas quanto implícitas do usuário, fornecendo soluções personalizadas e acionáveis. Em um estudo de usuário dentro do sujeito com 22 participantes, o CARE foi consistentemente preferido em relação a um chatbot LLM de referência, com os usuários elogiando sua capacidade de reduzir a carga cognitiva, inspirar criatividade e fornecer soluções mais personalizadas. Nossas descobertas destacam o potencial do CARE para transformar sistemas baseados em LLM de recuperadores passivos de informações em parceiros proativos na resolução de problemas e exploração personalizada.
A Pré-treinamento de Visão e Linguagem Médica (MedVLP) mostra promessa na aprendizagem de representações visuais generalizáveis e transferíveis a partir de imagens médicas e relatórios emparelhados e não emparelhados. O MedVLP pode fornecer características úteis para tarefas subsequentes e facilitar a adaptação de modelos específicos para novas configurações usando menos exemplos. No entanto, os métodos de MedVLP existentes frequentemente diferem em termos de conjuntos de dados, pré-processamento e implementações de ajuste fino. Isso representa grandes desafios na avaliação de quão bem um método de MedVLP generaliza para várias tarefas clinicamente relevantes devido à falta de um benchmark unificado, padronizado e abrangente. Para preencher essa lacuna, propomos o BenchX, um framework de benchmark unificado que permite a comparação direta e a análise sistemática entre métodos de MedVLP usando conjuntos de dados públicos de radiografias de tórax. Especificamente, o BenchX é composto por três componentes: 1) Conjuntos de dados abrangentes que cobrem nove conjuntos de dados e quatro tarefas médicas; 2) Conjuntos de benchmark para padronizar o pré-processamento de dados, divisões de treino-teste e seleção de parâmetros; 3) Protocolos de ajuste fino unificados que acomodam métodos heterogêneos de MedVLP para uma adaptação consistente de tarefas em classificação, segmentação e geração de relatórios, respectivamente. Utilizando o BenchX, estabelecemos bases para nove métodos de MedVLP de ponta e descobrimos que o desempenho de alguns métodos de MedVLP mais antigos pode ser aprimorado para superar os mais recentes, levando a uma reavaliação dos desenvolvimentos e conclusões de trabalhos anteriores em MedVLP. Nosso código está disponível em https://github.com/yangzhou12/BenchX.
O rastreamento denso de movimento 3D a partir de vídeos monoculares ainda é desafiador, especialmente quando se busca precisão ao nível de pixel ao longo de sequências longas. Apresentamos \Approach, um método inovador que rastreia eficientemente cada pixel no espaço 3D, possibilitando uma estimativa precisa de movimento em vídeos completos. Nossa abordagem aproveita um mecanismo de atenção global-local conjunto para rastreamento de baixa resolução, seguido por um upsampler baseado em transformer para obter previsões de alta resolução. Ao contrário de métodos existentes, que são limitados pela ineficiência computacional ou rastreamento esparsamente distribuído, \Approach oferece rastreamento 3D denso em escala, sendo mais de 8 vezes mais rápido que métodos anteriores, ao mesmo tempo que alcança precisão de ponta. Além disso, exploramos o impacto da representação de profundidade no desempenho de rastreamento e identificamos a representação logarítmica de profundidade como a escolha ideal. Experimentos extensivos demonstram a superioridade de \Approach em múltiplos benchmarks, alcançando novos resultados de ponta em tarefas de rastreamento denso 2D e 3D. Nosso método oferece uma solução robusta para aplicações que exigem rastreamento de movimento detalhado e de longo prazo no espaço 3D.
Em cenários do mundo real, é desejável que agentes incorporados tenham a capacidade de aproveitar a linguagem humana para obter conhecimento explícito ou implícito para tarefas de aprendizado. Apesar dos progressos recentes, a maioria das abordagens anteriores adota instruções simples de baixo nível como entradas de linguagem, o que pode não refletir a comunicação humana natural. Não está claro como incorporar o uso rico da linguagem para facilitar a aprendizagem de tarefas. Para abordar essa questão, este artigo estuda diferentes tipos de entradas de linguagem na facilitação de agentes incorporados de aprendizado por reforço (RL). Mais especificamente, examinamos como diferentes níveis de informatividade da linguagem (ou seja, feedback sobre comportamentos passados e orientação futura) e diversidade (ou seja, variação de expressões linguísticas) impactam a aprendizagem e inferência do agente. Nossos resultados empíricos baseados em quatro benchmarks de RL demonstram que agentes treinados com feedback linguístico diversificado e informativo podem alcançar generalização aprimorada e rápida adaptação a novas tarefas. Essas descobertas destacam o papel crucial do uso da linguagem no ensino de novas tarefas a agentes incorporados em um mundo aberto. Website do projeto: https://github.com/sled-group/Teachable_RL
Este artigo investiga um novo framework de compressão com perdas operando sob perda logarítmica, projetado para lidar com situações em que a distribuição de reconstrução diverge da distribuição de origem. Este framework é especialmente relevante para aplicações que exigem compressão e recuperação conjuntas, e em cenários envolvendo mudanças distribucionais devido ao processamento. Mostramos que a formulação proposta estende o framework clássico de acoplamento de entropia mínima integrando um gargalo, permitindo um grau controlado de estocasticidade no acoplamento. Exploramos a decomposição do Acoplamento de Entropia Mínima com Gargalo (MEC-B) em dois problemas de otimização distintos: Maximização de Informação Limitada por Entropia (EBIM) para o codificador, e Acoplamento de Entropia Mínima (MEC) para o decodificador. Através de uma análise extensiva, fornecemos um algoritmo guloso para EBIM com desempenho garantido, e caracterizamos a solução ótima próxima de mapeamentos funcionais, fornecendo insights teóricos significativos sobre a complexidade estrutural desse problema. Além disso, ilustramos a aplicação prática do MEC-B por meio de experimentos em Jogos de Codificação de Markov (MCGs) sob limites de taxa. Esses jogos simulam um cenário de comunicação dentro de um Processo de Decisão de Markov, onde um agente deve transmitir uma mensagem comprimida de um remetente para um receptor por meio de suas ações. Nossos experimentos destacam os trade-offs entre as recompensas do MDP e a precisão do receptor em várias taxas de compressão, demonstrando a eficácia do nosso método em comparação com a linha de base de compressão convencional.
A necessidade de grandes corpora de texto aumentou com o surgimento de modelos de linguagem pré-treinados e, em particular, a descoberta de leis de escala para esses modelos. A maioria dos corpora disponíveis possui dados suficientes apenas para idiomas com grandes comunidades dominantes. No entanto, não há um corpus disponível que (i) cubra uma ampla gama de idiomas minoritários; (ii) seja gerado por um pipeline de código aberto reprodutível; e (iii) seja rigorosamente limpo de ruídos, tornando-o confiável para uso. Apresentamos o GlotCC, um corpus de domínio geral limpo, a nível de documento, de 2TB derivado do CommonCrawl, abrangendo mais de 1000 idiomas. Disponibilizamos o GlotCC e o sistema usado para gerá-lo - incluindo o pipeline, modelo de identificação de idioma e filtros - para a comunidade de pesquisa. Corpus v. 1.0 https://huggingface.co/datasets/cis-lmu/GlotCC-v1, Pipeline v. 3.0 https://github.com/cisnlp/GlotCC.