Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o DeepSeek-Prover-V1.5, um modelo de linguagem de código aberto projetado para demonstração de teoremas no Lean 4, que aprimora o DeepSeek-Prover-V1 otimizando tanto os processos de treinamento quanto de inferência. Pré-treinado no DeepSeekMath-Base com especialização em linguagens matemáticas formais, o modelo passa por ajustes supervisionados usando um conjunto de dados aprimorado de demonstração de teoremas formais derivado do DeepSeek-Prover-V1. Um refinamento adicional é alcançado por meio de aprendizado por reforço a partir do feedback do assistente de demonstração de teoremas (RLPAF). Além da abordagem de geração de prova única do DeepSeek-Prover-V1, propomos o RMaxTS, uma variante da busca de árvore Monte Carlo que emprega uma estratégia de exploração orientada por recompensa intrínseca para gerar caminhos de prova diversos. O DeepSeek-Prover-V1.5 demonstra melhorias significativas em relação ao DeepSeek-Prover-V1, alcançando novos resultados de ponta no conjunto de testes do benchmark miniF2F de nível escolar (63,5%) e no benchmark ProofNet de nível universitário (25,3%).
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram avanços significativos, no entanto, o paradigma comum de aprendizado trata os LLMs como repositórios passivos de informações, negligenciando seu potencial para aprendizado ativo e alinhamento. Algumas abordagens treinam os LLMs usando seus próprios dados sintéticos gerados, explorando a possibilidade de alinhamento ativo. No entanto, ainda há uma grande lacuna entre esses métodos de alinhamento pontual e o alinhamento automático contínuo dos humanos. Neste artigo, apresentamos o I-SHEEP, um Paradigma de Autoaperfeiçoamento Iterativo. Esse paradigma humanoide permite que os LLMs se autoalinhem continuamente a partir do zero. Comparado ao método de alinhamento pontual Dromedary sun2023principledriven, que se refere à primeira iteração neste artigo, o I-SHEEP pode aprimorar significativamente as capacidades dos modelos Qwen e Llama. O I-SHEEP alcança uma melhoria relativa máxima de 78,2% no Alpaca Eval, 24,0% no MT Bench e um aumento absoluto de 8,88% na precisão do IFEval ao longo das iterações subsequentes no modelo Qwen-1.5 72B. Além disso, o I-SHEEP supera o modelo base em várias tarefas padrão de geração de benchmark, alcançando uma melhoria média de 24,77% em tarefas de geração de código, 12,04% em TrivialQA e 20,29% no SQuAD. Também fornecemos novos insights com base nos resultados experimentais. Nossos códigos, conjuntos de dados e modelos estão disponíveis em https://anonymous.4open.science/r/I-SHEEP.
Treinar uma rede neural é um empreendimento monolítico, semelhante a esculpir conhecimento em pedra: uma vez que o processo é concluído, editar o conhecimento em uma rede é quase impossível, uma vez que todas as informações estão distribuídas pelos pesos da rede. Aqui exploramos uma alternativa simples e convincente ao unir o poder representacional de redes neurais profundas com a flexibilidade de um banco de dados. Decompondo a tarefa de classificação de imagens em similaridade de imagens (a partir de um embedding pré-treinado) e busca (via rápida recuperação do vizinho mais próximo a partir de um banco de dados de conhecimento), construímos uma memória visual simples e flexível que possui as seguintes capacidades-chave: (1.) A capacidade de adicionar dados de forma flexível em diferentes escalas: desde amostras individuais até classes inteiras e dados em escala de bilhões; (2.) A capacidade de remover dados por meio de desaprendizado e poda de memória; (3.) Um mecanismo de decisão interpretável no qual podemos intervir para controlar seu comportamento. Juntas, essas capacidades demonstram abrangente os benefícios de uma memória visual explícita. Esperamos que isso possa contribuir para uma conversa sobre como o conhecimento deve ser representado em modelos de visão profunda - além de esculpi-lo em pesos de "pedra".
A destilação ou condensação de conjuntos de dados tem como objetivo condensar um conjunto de treinamento em larga escala em um conjunto sintético muito menor, de forma que o desempenho de treinamento dos conjuntos destilados e originais em redes neurais seja semelhante. Embora o número de amostras de treinamento possa ser substancialmente reduzido, os métodos de ponta atuais dependem fortemente de rótulos suaves enormes para alcançar um desempenho satisfatório. Como resultado, o armazenamento necessário pode ser comparável até mesmo aos conjuntos de dados originais, especialmente para conjuntos em larga escala. Para resolver esse problema, em vez de armazenar esses rótulos pesados, propomos um novo framework de iluminação de rótulos denominado HeLlO, com o objetivo de projetores eficazes de imagem-para-rótulo, com os quais os rótulos sintéticos podem ser gerados diretamente online a partir de imagens sintéticas. Especificamente, para construir tais projetores, aproveitamos o conhecimento prévio em modelos de fundação de código aberto, por exemplo, CLIP, e introduzimos uma estratégia de ajuste fino semelhante ao LoRA para mitigar a diferença entre as distribuições pré-treinadas e de destino, de modo que os modelos originais para geração de rótulos suaves possam ser destilados em um grupo de matrizes de baixa classificação. Além disso, um método eficaz de otimização de imagem é proposto para mitigar ainda mais o erro potencial entre os geradores de rótulos originais e destilados. Experimentos extensivos demonstram que, com apenas cerca de 0,003% do armazenamento original necessário para um conjunto completo de rótulos suaves, alcançamos um desempenho comparável aos métodos de destilação de conjuntos de dados de ponta atuais em conjuntos de dados em larga escala. Nosso código estará disponível.
A síntese de vídeos ricos em movimento e temporalmente consistentes continua sendo um desafio em inteligência artificial, especialmente ao lidar com durações prolongadas. Modelos existentes de texto para vídeo (T2V) comumente empregam atenção cruzada espacial para controle de texto, guiando de forma equivalente diferentes gerações de quadros sem orientação textual específica por quadro. Assim, a capacidade do modelo de compreender a lógica temporal transmitida nas instruções e gerar vídeos com movimento coerente é restrita. Para enfrentar essa limitação, apresentamos o FancyVideo, um gerador de vídeo inovador que aprimora o mecanismo de controle de texto existente com o bem projetado Módulo de Orientação Textual entre Quadros Cruzados (CTGM). Especificamente, o CTGM incorpora o Injetor de Informação Temporal (TII), o Refinador de Afinidade Temporal (TAR) e o Impulsionador de Características Temporais (TFB) no início, meio e fim da atenção cruzada, respectivamente, para alcançar orientação textual específica por quadro. Em primeiro lugar, o TII injeta informações específicas do quadro de características latentes nas condições de texto, obtendo assim condições textuais entre quadros. Em seguida, o TAR refina a matriz de correlação entre as condições textuais entre quadros e características latentes ao longo da dimensão temporal. Por fim, o TFB aumenta a consistência temporal das características latentes. Experimentos extensivos, incluindo avaliações quantitativas e qualitativas, demonstram a eficácia do FancyVideo. Nossa abordagem alcança resultados de geração T2V de ponta no benchmark EvalCrafter e facilita a síntese de vídeos dinâmicos e consistentes. Os resultados do vídeo podem ser acessados em https://fancyvideo.github.io/, e disponibilizaremos publicamente nosso código e pesos do modelo.
Embora muitas capacidades dos modelos de linguagem (LMs) melhorem com um orçamento de treinamento maior, a influência da escala nas alucinações ainda não é totalmente compreendida. As alucinações se manifestam de várias formas e não há uma definição universalmente aceita. Portanto, focamos em estudar apenas aquelas alucinações em que uma resposta correta aparece textualmente no conjunto de treinamento. Para controlar totalmente o conteúdo dos dados de treinamento, construímos um conjunto de dados baseado em um grafo de conhecimento (KG) e o utilizamos para treinar um conjunto de LMs cada vez maiores. Descobrimos que, para um conjunto de dados fixo, LMs maiores e treinados por mais tempo alucinam menos. No entanto, alucinar em menos de 5% dos dados de treinamento requer um modelo significativamente maior e, portanto, uma quantidade de computação significativamente maior do que a relatada por Hoffmann et al. (2022) como ótima. Dada essa onerosidade, estudamos como os detectores de alucinação dependem da escala. Embora vejamos que o tamanho do detector melhora o desempenho nas saídas dos LMs fixos, encontramos uma relação inversa entre a escala do LM e a detectabilidade de suas alucinações.
Embora treinar grandes modelos de linguagem (LLMs) do zero possa de fato resultar em modelos com capacidades e pontos fortes distintos, isso acarreta custos substanciais e pode levar à redundância de competências. A fusão de conhecimento tem como objetivo integrar LLMs existentes de arquiteturas e capacidades diversas em um LLM mais potente por meio de um treinamento contínuo leve, reduzindo assim a necessidade de desenvolvimento dispendioso de LLMs. Neste trabalho, propomos um novo framework para a fusão de conhecimento de LLMs de chat por meio de duas etapas principais, resultando no FuseChat. Primeiramente, realizamos a fusão de conhecimento em pares em LLMs de chat de origem com estruturas e escalas variadas para criar múltiplos LLMs de destino com estrutura e tamanho idênticos por meio de ajustes finos leves. Durante esse processo, é introduzida uma abordagem de alinhamento de tokens baseada em estatísticas como pedra angular para fundir LLMs com estruturas diferentes. Em segundo lugar, fundimos esses LLMs de destino no espaço de parâmetros, onde propomos um método inovador para determinar os coeficientes de fusão com base na magnitude das atualizações de parâmetros antes e depois dos ajustes finos. Implementamos e validamos o FuseChat usando seis proeminentes LLMs de chat com arquiteturas e escalas diversas, incluindo OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct e Qwen-1.5-Chat-72B. Resultados experimentais em dois benchmarks de seguimento de instruções, AlpacaEval 2.0 e MT-Bench, demonstram a superioridade do FuseChat-7B em relação a baselines de vários tamanhos. Nosso modelo é até comparável ao maior Mixtral-8x7B-Instruct e se aproxima do GPT-3.5-Turbo-1106 no MT-Bench. Nosso código, pesos do modelo e dados estão disponíveis em https://github.com/fanqiwan/FuseAI.
O framework Mixture of Experts (MoE) tornou-se uma arquitetura popular para grandes modelos de linguagem devido ao seu desempenho superior em relação aos modelos densos. No entanto, treinar MoEs do zero em um regime em larga escala é proibitivamente caro. Métodos existentes mitigam isso pré-treinando vários modelos especialistas densos de forma independente e utilizando-os para inicializar um MoE. Isso é feito usando a rede feed-forward (FFN) dos especialistas para inicializar os especialistas do MoE enquanto mesclam outros parâmetros. No entanto, esse método limita a reutilização dos parâmetros do modelo denso apenas para as camadas FFN, restringindo assim as vantagens ao "reciclar" esses modelos em MoEs. Propomos o BAM (Branch-Attend-Mix), um método simples, porém eficaz, que aborda essa deficiência. O BAM aproveita ao máximo os modelos densos especializados não apenas usando suas camadas FFN para inicializar as camadas do MoE, mas também alavancando totalmente os parâmetros de atenção dos especialistas, inicializando-os em uma variante suave das camadas Mixture of Attention (MoA). Exploramos dois métodos para reciclar os parâmetros de atenção: 1) inicializando especialistas de atenção separados a partir de modelos densos, incluindo todos os parâmetros de atenção para obter o melhor desempenho do modelo; e 2) compartilhando parâmetros de chave e valor entre todos os especialistas para facilitar uma melhor eficiência de inferência. Para melhorar ainda mais a eficiência, adotamos uma arquitetura de transformador de atenção paralela para MoEs, que permite que os especialistas de atenção e especialistas FFN sejam calculados simultaneamente. Nossos experimentos em modelos iniciais variando de 590 milhões a 2 bilhões de parâmetros demonstram que o BAM supera as linhas de base tanto em perplexidade quanto em desempenho de tarefas subsequentes, dentro das mesmas restrições computacionais e de dados.
As conversas entre humanos e modelos fornecem uma visão das situações, comportamentos e necessidades do usuário no mundo real, sendo assim um recurso valioso para o desenvolvimento e pesquisa de modelos. Enquanto empresas com fins lucrativos coletam dados do usuário por meio das APIs de seus modelos, utilizando-os internamente para aprimorar seus próprios modelos, a comunidade de código aberto e de pesquisa está atrasada. Apresentamos a coleção ShareLM, um conjunto unificado de conversas humanas com grandes modelos de linguagem, e seu plugin correspondente, uma extensão da Web para contribuir voluntariamente com conversas entre usuário e modelo. Enquanto poucas plataformas compartilham suas conversas, o plugin ShareLM adiciona essa funcionalidade, permitindo assim que os usuários compartilhem conversas de praticamente todas as plataformas. O plugin permite que o usuário avalie suas conversas, tanto no nível da conversa quanto no nível da resposta, e exclua conversas que preferem manter privadas antes que saiam do armazenamento local do usuário. Lançamos as conversas do plugin como parte da coleção ShareLM e solicitamos mais esforços da comunidade no campo de dados abertos entre humanos e modelos. O código, o plugin e os dados estão disponíveis.
Este artigo apresenta o PeriodWave-Turbo, um modelo de geração de formas de onda de alta fidelidade e alta eficiência por meio da otimização de correspondência de fluxo adversarial. Recentemente, modelos generativos de correspondência de fluxo condicional (CFM) têm sido adotados com sucesso para tarefas de geração de formas de onda, aproveitando um único objetivo de estimativa de campo vetorial para treinamento. Embora esses modelos possam gerar sinais de forma de onda de alta fidelidade, eles requerem significativamente mais etapas de EDO em comparação com modelos baseados em GAN, que precisam de apenas uma etapa de geração. Além disso, as amostras geradas frequentemente carecem de informações de alta frequência devido à estimativa ruidosa do campo vetorial, o que falha em garantir a reprodução de alta frequência. Para lidar com essa limitação, aprimoramos modelos generativos baseados em CFM pré-treinados incorporando uma modificação de gerador de etapa fixa. Utilizamos perdas de reconstrução e feedback adversarial para acelerar a geração de formas de onda de alta fidelidade. Através da otimização de correspondência de fluxo adversarial, é necessário apenas 1.000 etapas de ajuste fino para alcançar desempenho de ponta em várias métricas objetivas. Além disso, reduzimos significativamente a velocidade de inferência de 16 etapas para 2 ou 4 etapas. Adicionalmente, ao aumentar a espinha dorsal do PeriodWave de 29M para 70M parâmetros para melhor generalização, o PeriodWave-Turbo alcança um desempenho sem precedentes, com uma pontuação de qualidade de fala avaliada perceptualmente (PESQ) de 4.454 no conjunto de dados LibriTTS. Amostras de áudio, código-fonte e checkpoints estarão disponíveis em https://github.com/sh-lee-prml/PeriodWave.
A Síntese de Novas Visualizações (NVS) e a geração 3D alcançaram recentemente melhorias proeminentes. No entanto, esses trabalhos se concentram principalmente em categorias restritas ou ativos 3D sintéticos, o que desencoraja a generalização para cenas desafiadoras do mundo real e falha ao serem aplicados diretamente à síntese 2D. Além disso, esses métodos dependem fortemente das poses das câmeras, limitando suas aplicações no mundo real. Para superar esses problemas, propomos o MVInpainter, reformulando a edição 3D como uma tarefa de inpainting 2D multi-view. Especificamente, o MVInpainter inpaint parcialmente imagens multi-view com orientação de referência, em vez de gerar inextricavelmente uma visualização totalmente nova do zero, o que simplifica bastante a dificuldade do NVS no mundo real e aproveita pistas não mascaradas em vez de condições explícitas de pose. Para garantir consistência entre as visualizações, o MVInpainter é aprimorado por prioridades de vídeo a partir de componentes de movimento e orientação de aparência de referência concatenada. Além disso, o MVInpainter incorpora atenção por slots para agregar características de fluxo óptico de alto nível de regiões não mascaradas para controlar o movimento da câmera com treinamento e inferência livres de pose. Experimentos suficientes em nível de cena em conjuntos de dados centrados em objetos e voltados para a frente verificam a eficácia do MVInpainter, incluindo tarefas diversas, como remoção, síntese, inserção e substituição de objetos multi-view. A página do projeto é https://ewrfcas.github.io/MVInpainter/.
Avaliar as capacidades de grandes modelos de linguagem (LLMs) é frequentemente desafiador, em parte, porque é difícil encontrar tarefas às quais eles não foram expostos durante o treinamento. Damos um passo para enfrentar esse desafio ao nos voltarmos para uma nova tarefa: focando em programas simbólicos de gráficos, que são uma representação popular para conteúdo gráfico que gera dados visuais de forma procedural. Os LLMs têm mostrado promessas empolgantes em relação à síntese de programas, mas será que eles entendem programas simbólicos de gráficos? Ao contrário de programas convencionais, programas simbólicos de gráficos podem ser traduzidos para conteúdo gráfico. Aqui, caracterizamos o entendimento de um LLM de programas simbólicos em termos de sua capacidade de responder a perguntas relacionadas ao conteúdo gráfico. Essa tarefa é desafiadora, pois as perguntas são difíceis de responder apenas com base nos programas simbólicos - no entanto, seriam fáceis de responder a partir do conteúdo gráfico correspondente, como verificamos por meio de um experimento humano. Para entender programas simbólicos, os LLMs podem precisar possuir a capacidade de imaginar como o conteúdo gráfico correspondente pareceria sem acessar diretamente o conteúdo visual renderizado. Utilizamos essa tarefa para avaliar LLMs criando um amplo benchmark para o entendimento semântico de programas simbólicos de gráficos. Esse benchmark é construído por meio da correspondência programa-gráfico, exigindo assim esforços humanos mínimos. Avaliamos os LLMs atuais em nosso benchmark para elucidar uma avaliação preliminar de sua capacidade de raciocinar sobre cenas visuais a partir de programas. Descobrimos que essa tarefa distingue os LLMs existentes e os modelos considerados bons em raciocínio se saem melhor. Por fim, introduzimos o Ajuste de Instrução Simbólica (SIT) para melhorar essa capacidade. Especificamente, consultamos o GPT4-o com perguntas e imagens geradas por programas simbólicos. Esses dados são então usados para ajustar finamente um LLM. Também descobrimos que os dados do SIT podem melhorar a capacidade geral de seguir instruções dos LLMs.