Artigos de pesquisa em IA selecionados diariamente com traduções
A afinação fina supervisionada (SFT) desempenha um papel crucial na adaptação de grandes modelos de linguagem (LLMs) a domínios ou tarefas específicas. No entanto, como demonstrado por experimentos empíricos, os dados coletados inevitavelmente contêm ruído em aplicações práticas, o que representa desafios significativos para o desempenho do modelo em tarefas subsequentes. Portanto, há uma necessidade urgente de um framework de SFT robusto ao ruído para aprimorar as capacidades do modelo em tarefas subsequentes. Para enfrentar esse desafio, introduzimos um framework robusto de SFT (RobustFT) que realiza detecção e rotulagem de ruído nos dados da tarefa subsequente. Para identificação de ruído, nossa abordagem emprega um sistema colaborativo multi-especialista com modelos aprimorados por inferência para alcançar uma detecção de ruído superior. Na fase de remoção de ruído, utilizamos uma estratégia aprimorada por contexto, que incorpora o conhecimento mais relevante e confiante seguido por uma avaliação cuidadosa para gerar anotações confiáveis. Além disso, introduzimos um mecanismo eficaz de seleção de dados com base na entropia de resposta, garantindo que apenas amostras de alta qualidade sejam retidas para a afinação fina. Experimentos extensivos realizados em vários LLMs em cinco conjuntos de dados demonstram o desempenho excepcional do RobustFT em cenários ruidosos.
Na ausência de extensos dados humanos anotados para tarefas de raciocínio complexas, a autoaperfeiçoamento - onde modelos são treinados com base em suas próprias saídas - surgiu como um método primário para aprimorar o desempenho. No entanto, os fatores críticos subjacentes ao mecanismo desses métodos iterativos de autoaperfeiçoamento ainda são mal compreendidos, como em que condições a autoaperfeiçoamento é eficaz e quais são os gargalos nas iterações atuais. Neste trabalho, identificamos e propomos métodos para monitorar dois fatores cruciais nesse processo iterativo: (1) a capacidade do modelo de gerar respostas suficientemente diversas (exploração); e (2) a eficácia de recompensas externas em distinguir candidatos de alta qualidade dos de baixa qualidade (exploração). Usando o raciocínio matemático como estudo de caso, começamos com uma análise quantitativa para rastrear a dinâmica da exploração e exploração, descobrindo que as capacidades exploratórias de um modelo deterioram rapidamente ao longo das iterações, e a eficácia de explorar recompensas externas também diminui. Motivados por essas descobertas, introduzimos o B-STaR, um framework de Raciocínio Autodidata que ajusta autonomamente configurações ao longo das iterações para Balancear exploração e exploração, otimizando assim a eficácia de autoaperfeiçoamento com base no modelo de política atual e recompensas disponíveis. Nossos experimentos em raciocínio matemático, programação e raciocínio do senso comum demonstram que o B-STaR não apenas aprimora as capacidades exploratórias do modelo durante todo o treinamento, mas também alcança um equilíbrio mais eficaz entre exploração e exploração, resultando em um desempenho superior.
A capacidade de raciocínio é essencial para os Modelos Multimodais de Grande Escala (LMMs). Na ausência de dados anotados de corrente de pensamento multimodal, o treinamento autoevolutivo, no qual o modelo aprende a partir de suas próprias saídas, surgiu como uma abordagem eficaz e escalável para aprimorar as habilidades de raciocínio. Apesar de seu uso crescente, a compreensão abrangente do treinamento autoevolutivo, especialmente no contexto do raciocínio multimodal, ainda é limitada. Neste artigo, aprofundamos nas complexidades do treinamento autoevolutivo para o raciocínio multimodal, destacando três fatores-chave: Método de Treinamento, Modelo de Recompensa e Variação de Estímulo. Examinamos sistematicamente cada fator e exploramos como várias configurações afetam a eficácia do treinamento. Nossa análise resulta em um conjunto das melhores práticas para cada fator, com o objetivo de otimizar o raciocínio multimodal. Além disso, exploramos a Dinâmica de Autoevolução durante o treinamento e o impacto dos mecanismos automáticos de equilíbrio no aumento de desempenho. Após todas as investigações, apresentamos uma receita final para o treinamento autoevolutivo no raciocínio multimodal, encapsulando essas escolhas de design em um framework que chamamos de MSTaR (Treinamento Autoevolutivo Multimodal para Raciocínio), que é universalmente eficaz para modelos de diferentes tamanhos em vários benchmarks, por exemplo, superando significativamente o modelo pré-evoluído em 5 benchmarks de raciocínio multimodal sem o uso de anotações humanas adicionais, conforme demonstrado no MiniCPM-V-2.5 (8B), Phi-3.5-Vision (4B) e InternVL2 (2B). Acreditamos que este estudo preenche uma lacuna significativa na compreensão do treinamento autoevolutivo para o raciocínio multimodal e oferece um framework robusto para pesquisas futuras. Nossos modelos de política e recompensa, bem como os dados coletados, são disponibilizados para facilitar investigações adicionais no raciocínio multimodal.
Os modelos autorregressivos (AR) alcançaram um desempenho de ponta na geração de texto e imagem, mas sofrem com uma geração lenta devido ao processo token a token. Fazemos uma pergunta ambiciosa: um modelo AR pré-treinado pode ser adaptado para gerar saídas em apenas um ou dois passos? Se bem-sucedido, isso avançaria significativamente no desenvolvimento e implementação de modelos AR. Observamos que trabalhos existentes que tentam acelerar a geração AR gerando vários tokens de uma vez não conseguem capturar a distribuição de saída devido às dependências condicionais entre tokens, limitando sua eficácia para geração de poucos passos. Para abordar isso, propomos o Decodificador Destilado (DD), que utiliza correspondência de fluxo para criar um mapeamento determinístico da distribuição gaussiana para a distribuição de saída do modelo AR pré-treinado. Em seguida, treinamos uma rede para destilar esse mapeamento, possibilitando a geração de poucos passos. O DD não necessita dos dados de treinamento do modelo AR original, tornando-o mais prático. Avaliamos o DD em modelos AR de imagem de ponta e apresentamos resultados promissores no ImageNet-256. Para VAR, que requer geração de 10 passos, o DD possibilita a geração em um passo (aumento de velocidade de 6,3 vezes), com um aumento aceitável no FID de 4,19 para 9,96. Para LlamaGen, o DD reduz a geração de 256 passos para 1, alcançando um aumento de velocidade de 217,8 vezes com um aumento comparável no FID de 4,11 para 11,35. Em ambos os casos, os métodos de referência falham completamente com FID>100. O DD também se destaca na geração de texto para imagem, reduzindo a geração de 256 passos para 2 para LlamaGen com um aumento mínimo no FID de 25,70 para 28,95. Como o primeiro trabalho a demonstrar a possibilidade de geração em um passo para modelos AR de imagem, o DD desafia a noção predominante de que os modelos AR são inerentemente lentos e abre novas oportunidades para uma geração AR eficiente. O site do projeto está em https://imagination-research.github.io/distilled-decoding.
A série de modelos o1 é treinada com aprendizado por reforço em larga escala para raciocinar usando cadeias de pensamento. Essas capacidades avançadas de raciocínio abrem novas possibilidades para melhorar a segurança e robustez de nossos modelos. Em particular, nossos modelos podem raciocinar sobre nossas políticas de segurança em contexto ao responder a estímulos potencialmente inseguros, por meio de alinhamento deliberativo. Isso resulta em desempenho de ponta em determinados benchmarks de riscos, como gerar conselhos ilícitos, escolher respostas estereotipadas e sucumbir a jailbreaks conhecidos. Treinar modelos para incorporar uma cadeia de pensamento antes de responder tem o potencial de desbloquear benefícios substanciais, ao mesmo tempo em que aumenta os riscos potenciais decorrentes de uma inteligência mais elevada. Nossos resultados destacam a necessidade de desenvolver métodos de alinhamento robustos, testar extensivamente sua eficácia e manter protocolos meticulosos de gerenciamento de riscos. Este relatório delineia o trabalho de segurança realizado para os modelos OpenAI o1 e OpenAI o1-mini, incluindo avaliações de segurança, testes externos de equipe vermelha e avaliações do Framework de Prontidão.
Técnicas que permitem que grandes modelos de linguagem (LLMs) "pensem mais" gerando e atendendo a etapas intermediárias de raciocínio têm mostrado promessa na resolução de problemas complexos. No entanto, as abordagens padrão geram sequências de tokens discretos imediatamente antes de responder, o que pode acarretar custos significativos de latência e ser desafiador de otimizar. Neste trabalho, demonstramos que um LLM congelado pode ser aumentado com um coprocessador offline que opera no cache chave-valor do modelo. Esse coprocessador aumenta o cache com um conjunto de embeddings latentes projetados para melhorar a fidelidade da decodificação subsequente. Treinamos esse coprocessador usando a perda de modelagem de linguagem do decodificador em dados padrão de pré-treinamento, mantendo o próprio decodificador congelado. Essa abordagem permite que o modelo aprenda, de forma diferenciável de ponta a ponta, como destilar computação adicional em seu cache chave-valor. Como o decodificador permanece inalterado, o coprocessador pode operar offline e de forma assíncrona, e o modelo de linguagem pode funcionar normalmente se o coprocessador não estiver disponível ou se um determinado cache não precisar de computação extra. Mostramos experimentalmente que, quando um cache é aumentado, o decodificador alcança menor perplexidade em numerosos tokens subsequentes. Além disso, mesmo sem nenhum treinamento específico da tarefa, nossos experimentos demonstram que a ampliação do cache consistentemente reduz a perplexidade e melhora o desempenho em uma variedade de tarefas intensivas em raciocínio.
A Aprendizagem em Contexto (ICL) é uma técnica pela qual os modelos de linguagem fazem previsões com base nos exemplos fornecidos em seu contexto de entrada. Anteriormente, o tamanho da janela de contexto impunha um limite ao número de exemplos que podiam ser mostrados, tornando as técnicas de seleção de exemplos cruciais para identificar o conjunto de exemplos mais eficaz. No entanto, o recente surgimento dos Modelos de Linguagem de Longo Contexto (LCLMs) aumentou significativamente o número de exemplos que podem ser incluídos no contexto, levantando uma questão importante sobre se o desempenho do ICL em um regime de muitos exemplos ainda é sensível ao método de seleção de amostras. Para responder a isso, revisitamos essas abordagens no contexto dos LCLMs por meio de experimentos extensivos em 18 conjuntos de dados abrangendo 4 tarefas. Surpreendentemente, observamos que técnicas sofisticadas de seleção de exemplos não resultam em melhorias significativas em relação a um método simples de seleção de amostras aleatórias. Em vez disso, descobrimos que o surgimento dos LCLMs mudou fundamentalmente o desafio do ICL de selecionar os exemplos mais eficazes para coletar exemplos suficientes para preencher a janela de contexto. Especificamente, em certos conjuntos de dados, incluir todos os exemplos disponíveis não utiliza totalmente a janela de contexto; no entanto, ao aumentar os exemplos em contexto com uma abordagem simples de aumento de dados, melhoramos substancialmente o desempenho do ICL em 5%.
Aprender um robusto Autoencoder Variacional de Vídeo (VAE) é essencial para reduzir a redundância de vídeo e facilitar a geração eficiente de vídeo. Aplicar diretamente VAEs de imagem a quadros individuais de forma isolada pode resultar em inconsistências temporais e taxas de compressão subótimas devido à falta de compressão temporal. Os VAEs de Vídeo existentes começaram a abordar a compressão temporal; no entanto, frequentemente sofrem de desempenho de reconstrução inadequado. Neste artigo, apresentamos um autoencoder de vídeo inovador e poderoso capaz de codificação de vídeo de alta fidelidade. Primeiramente, observamos que entrelaçar compressão espacial e temporal simplesmente estendendo o VAE de imagem para um VAE 3D pode introduzir artefatos de desfoque de movimento e distorção de detalhes. Portanto, propomos uma compressão espacial consciente do tempo para melhor codificar e decodificar a informação espacial. Além disso, integramos um modelo de compressão de movimento leve para uma maior compressão temporal. Em segundo lugar, propomos aproveitar a informação textual inerente em conjuntos de dados de texto-para-vídeo e incorporar orientação de texto em nosso modelo. Isso melhora significativamente a qualidade de reconstrução, especialmente em termos de preservação de detalhes e estabilidade temporal. Em terceiro lugar, melhoramos ainda mais a versatilidade de nosso modelo por meio de treinamento conjunto em imagens e vídeos, o que não só melhora a qualidade de reconstrução, mas também permite que o modelo realize tanto a autoencodificação de imagem quanto de vídeo. Avaliações extensas contra bases recentes fortes demonstram o desempenho superior de nosso método. O site do projeto pode ser encontrado em https://yzxing87.github.io/vae/.
Os sistemas de IA generativa de hoje são ajustados para apresentar informações por padrão, em vez de envolver os usuários em serviço de aprendizado como faria um tutor humano. Para abordar a ampla gama de possíveis casos de uso educacional para esses sistemas, reformulamos o desafio de injetar comportamento pedagógico como um de instrução pedagógica a seguir, onde exemplos de treinamento e avaliação incluem instruções em nível de sistema descrevendo os atributos pedagógicos específicos presentes ou desejados nas próximas etapas do modelo. Essa abordagem evita comprometer nossos modelos com qualquer definição específica de pedagogia e, em vez disso, permite que professores ou desenvolvedores especifiquem o comportamento do modelo desejado. Também abre caminho para a melhoria dos modelos Gemini para aprendizado, permitindo a adição de nossos dados pedagógicos a misturas pós-treinamento, juntamente com seu conjunto rapidamente crescente de capacidades. Ambos representam mudanças importantes em relação ao nosso relatório técnico inicial. Mostramos como o treinamento com instrução pedagógica a seguir produz um modelo LearnLM (disponível no Google AI Studio) que é substancialmente preferido por avaliadores especializados em um conjunto diversificado de cenários de aprendizado, com fortes preferências médias de 31\% em relação ao GPT-4o, 11\% em relação ao Claude 3.5 e 13\% em relação ao modelo Gemini 1.5 Pro no qual o LearnLM foi baseado.
Recentemente, modelos semelhantes ao O1 surgiram como exemplos representativos, ilustrando a eficácia de longas cadeias de pensamento (CoT) em tarefas de raciocínio, como tarefas de matemática e programação. Neste artigo, apresentamos o DRT-o1, uma tentativa de trazer o sucesso do longo CoT para a tradução automática neural (MT). Especificamente, considerando os livros de literatura que podem envolver comparações e metáforas, traduzir esses textos para um idioma-alvo é muito difícil na prática devido às diferenças culturais. Em tais casos, a tradução literal frequentemente falha em transmitir o significado pretendido de forma eficaz. Mesmo para tradutores humanos profissionais, é necessário dedicar bastante atenção para preservar a semântica ao longo do processo de tradução. Para simular a capacidade de longo pensamento dos LLMs na MT, primeiro extraímos frases contendo comparações ou metáforas de livros de literatura existentes e, em seguida, desenvolvemos um framework multiagente para traduzir essas frases por meio de um pensamento prolongado. No framework multiagente, um tradutor é utilizado para traduzir iterativamente a frase de origem sob as sugestões fornecidas por um orientador. Para garantir a eficácia dos pensamentos prolongados, um avaliador também é empregado para julgar se a tradução na rodada atual é melhor do que a anterior ou não. Dessa forma, coletamos dezenas de milhares de dados de MT de longo pensamento, que são usados para treinar nosso DRT-o1. Os resultados experimentais na tradução de literatura demonstram a eficácia do DRT-o1. Usando Qwen2.5-7B e Qwen2.5-14B como espinhas dorsais, a melhoria trazida pelo DRT-o1 alcança 7.33~8.26 BLEU e 1.66~3.36 CometScore. Além disso, o DRT-o1-7B pode superar o QwQ-32B-Preview em 7.82 BLEU e 1.46 CometScore, mostrando sua eficácia. O projeto está disponível em https://github.com/krystalan/DRT-o1.
Grandes Modelos de Linguagem têm demonstrado capacidades notáveis na geração de código, no entanto, frequentemente enfrentam dificuldades em tarefas de programação complexas que exigem um raciocínio algorítmico profundo. Enquanto a supervisão do processo por meio de modelos de recompensa aprendidos mostra promessa em orientar os passos de raciocínio, ela requer dados de treinamento caros e sofre de avaliação não confiável. Propomos a Supervisão de Processo de Refinamento de Resultados, um novo paradigma que trata o refinamento de resultados em si como o processo a ser supervisionado. Nosso framework aproveita sinais de execução concretos para fundamentar a supervisão dos passos de raciocínio, enquanto utiliza exploração estruturada em árvore para manter várias trajetórias de solução simultaneamente. Experimentos demonstram que nossa abordagem permite até mesmo que modelos menores alcancem alta precisão de sucesso e métricas de desempenho em tarefas de programação competitivas, criando uma verificação mais confiável do que os modelos de recompensa tradicionais sem exigir treinamento PRMs. Nossa abordagem alcança melhorias significativas em 5 modelos e 3 conjuntos de dados: uma média de 26,9% de aumento na correção e 42,2% na eficiência. Os resultados sugerem que fornecer um espaço de raciocínio estruturado com sinais de verificação concretos é crucial para resolver tarefas de programação complexas. Disponibilizamos todo o nosso código e dados em código aberto em: https://github.com/zhuohaoyu/ORPS
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um potencial notável em domínios científicos, no entanto, uma questão fundamental permanece sem resposta: Podemos simular comunidades de pesquisa humanas com LLMs? Abordar essa questão pode aprofundar nossa compreensão dos processos por trás da geração de ideias e inspirar a descoberta automática de insights científicos inovadores. Neste trabalho, propomos ResearchTown, um framework multiagente para simulação de comunidades de pesquisa. Dentro desse framework, a comunidade de pesquisa humana é simplificada e modelada como um grafo agente-dados, onde pesquisadores e artigos são representados como nós do tipo agente e tipo de dados, respectivamente, e conectados com base em suas relações de colaboração. Também introduzimos TextGNN, um framework de inferência baseado em texto que modela várias atividades de pesquisa (por exemplo, leitura de artigos, escrita de artigos e escrita de revisões) como formas especiais de um processo unificado de passagem de mensagens no grafo agente-dados. Para avaliar a qualidade da simulação de pesquisa, apresentamos ResearchBench, um benchmark que utiliza uma tarefa de previsão de mascaramento de nós para avaliação escalável e objetiva com base em similaridade. Nossos experimentos revelam três descobertas-chave: (1) ResearchTown pode fornecer uma simulação realista de atividades de pesquisa colaborativa, incluindo a escrita de artigos e revisões; (2) ResearchTown pode manter uma simulação robusta com múltiplos pesquisadores e artigos diversos; (3) ResearchTown pode gerar ideias de pesquisa interdisciplinares que potencialmente inspiram novas direções de pesquisa.
Imagine um mundo onde a IA pode lidar com o seu trabalho enquanto você dorme - organizando seus materiais de pesquisa, redigindo um relatório ou criando uma apresentação que você precisa para o dia seguinte. No entanto, embora os agentes digitais atuais possam realizar tarefas simples, estão longe de ser capazes de lidar com o trabalho complexo do mundo real que os humanos realizam rotineiramente. Apresentamos o Agente PC, um sistema de IA que demonstra um passo crucial em direção a essa visão por meio da transferência de cognição humana. Nosso insight chave é que o caminho, desde a execução de "tarefas" simples até o manuseio de "trabalho" complexo, está em capturar e aprender de forma eficiente os processos cognitivos humanos durante o uso do computador. Para validar essa hipótese, introduzimos três inovações principais: (1) Rastreador PC, uma infraestrutura leve que coleta de forma eficiente trajetórias de interação humano-computador de alta qualidade com contexto cognitivo completo; (2) um pipeline de conclusão de cognição em duas etapas que transforma dados brutos de interação em trajetórias cognitivas ricas completando semântica de ação e processos de pensamento; e (3) um sistema multiagente que combina um agente de planejamento para tomada de decisão com um agente de fundamentação para fundamentação visual robusta. Nossos experimentos preliminares na criação de apresentações do PowerPoint revelam que capacidades de trabalho digital complexas podem ser alcançadas com uma pequena quantidade de dados cognitivos de alta qualidade - o Agente PC, treinado em apenas 133 trajetórias cognitivas, pode lidar com cenários de trabalho sofisticados envolvendo até 50 etapas em várias aplicações. Isso demonstra a eficiência de dados de nossa abordagem, destacando que a chave para treinar agentes digitais capazes está em coletar dados cognitivos humanos. Ao disponibilizar nosso framework completo de código aberto, incluindo a infraestrutura de coleta de dados e os métodos de conclusão de cognição, nosso objetivo é reduzir as barreiras para a comunidade de pesquisa desenvolver agentes digitais verdadeiramente capazes.
À medida que os grandes modelos de linguagem (LLMs) são cada vez mais implantados como agentes, sua integração em ambientes interativos e uso de ferramentas introduzem novos desafios de segurança além daqueles associados aos modelos em si. No entanto, a ausência de benchmarks abrangentes para avaliar a segurança do agente apresenta uma barreira significativa para uma avaliação eficaz e melhorias adicionais. Neste artigo, apresentamos o Agent-SafetyBench, um benchmark abrangente projetado para avaliar a segurança de agentes LLM. O Agent-SafetyBench abrange 349 ambientes de interação e 2.000 casos de teste, avaliando 8 categorias de riscos de segurança e cobrindo 10 modos de falha comuns frequentemente encontrados em interações inseguras. Nossa avaliação de 16 agentes LLM populares revela um resultado preocupante: nenhum dos agentes alcança uma pontuação de segurança acima de 60%. Isso destaca desafios significativos de segurança em agentes LLM e ressalta a necessidade considerável de melhorias. Através de análises quantitativas, identificamos modos críticos de falha e resumimos dois defeitos fundamentais de segurança nos agentes LLM atuais: falta de robustez e falta de consciência de risco. Além disso, nossas descobertas sugerem que a dependência apenas de prompts de defesa é insuficiente para lidar com essas questões de segurança, enfatizando a necessidade de estratégias mais avançadas e robustas. Disponibilizamos o Agent-SafetyBench em https://github.com/thu-coai/Agent-SafetyBench para facilitar pesquisas e inovações adicionais na avaliação e melhoria da segurança do agente.
A conversa multi-modal multi-partes (MMC) é um tópico de pesquisa menos estudado, porém importante, devido ao fato de se adequar bem a cenários do mundo real e, portanto, potencialmente ter aplicações mais amplamente utilizadas. Comparado às conversas multi-modais tradicionais, a MMC requer habilidades de compreensão centradas nos personagens mais fortes, uma vez que há muitos interlocutores aparecendo tanto no contexto visual quanto textual. Para facilitar o estudo desse problema, apresentamos neste artigo o Friends-MMC, um conjunto de dados MMC que contém 24.000+ enunciados únicos pareados com contexto de vídeo. Para explorar a compreensão centrada nos personagens do diálogo, também anotamos o falante de cada enunciado, os nomes e as bounding boxes dos rostos que aparecem no vídeo. Com base neste conjunto de dados Friends-MMC, estudamos ainda duas tarefas fundamentais de MMC: identificação do falante na conversa e previsão de resposta na conversa, ambas com natureza multi-partes com o vídeo ou imagem como contexto visual. Para a identificação do falante na conversa, demonstramos as ineficiências dos métodos existentes, como modelos pré-treinados, e propomos um método básico, porém eficaz, que utiliza um otimizador para aproveitar o contexto de duas modalidades e obter melhor desempenho. Para a previsão de resposta na conversa, ajustamos modelos de diálogo generativos no Friend-MMC e analisamos os benefícios da informação do falante. O código e o conjunto de dados estão disponíveis publicamente em https://github.com/yellow-binary-tree/Friends-MMC e, portanto, solicitamos mais atenção para a modelagem da informação do falante ao compreender conversas.
A recente introdução do Refinamento por Reforço (RFT) pela OpenAI destaca o potencial do modelo de fundamentação de raciocínio e oferece um novo paradigma para o refinamento além da simples imitação de padrões. Este relatório técnico apresenta o OpenRFT, nossa tentativa de refinar modelos de raciocínio generalistas para tarefas específicas de domínio sob as mesmas configurações do RFT. O OpenRFT aborda dois desafios-chave de falta de dados de etapas de raciocínio e a quantidade limitada de amostras de treinamento, aproveitando as amostras específicas do domínio de três maneiras: aumento de perguntas, síntese de dados de processo de raciocínio e ICL de poucas amostras. A avaliação é realizada no SciKnowEval, onde o OpenRFT alcança ganhos de desempenho notáveis com apenas 100 amostras específicas de domínio para cada tarefa. Mais resultados experimentais serão atualizados continuamente em versões posteriores. Os códigos-fonte, conjuntos de dados e modelos estão disponíveis em: https://github.com/ADaM-BJTU/OpenRFT
Como um passo crucial para melhorar o alinhamento dos LLMs com as intenções humanas, o Ajuste Fino de Instruções (AFI) tem uma alta demanda por qualidade de conjunto de dados. No entanto, os conjuntos de dados de AFI existentes frequentemente contêm conhecimento que é inconsistente com o conhecimento interno dos LLMs aprendido da fase de pré-treinamento, o que pode afetar significativamente a eficácia do AFI. Para lidar com esse problema, introduzimos o framework NILE (alinhamento de consistência interna), com o objetivo de otimizar conjuntos de dados de AFI para desbloquear ainda mais a capacidade dos LLMs. O NILE opera ao elicitar o conhecimento interno do LLM pré-treinado alvo correspondente aos dados de instrução. O conhecimento interno é utilizado para revisar a resposta nos conjuntos de dados de AFI. Além disso, propomos um novo método de Filtragem de Consistência Interna (FCI) para filtrar amostras de treinamento, garantindo sua alta consistência com o conhecimento interno do LLM. Nossos experimentos demonstram que os conjuntos de dados de AFI alinhados pelo NILE impulsionam significativamente o desempenho dos LLMs em diversos conjuntos de dados de avaliação de habilidades dos LLMs, alcançando até 66,6% de ganho no Arena-Hard e 68,5% no Alpaca-Eval V2. Análises adicionais confirmam que cada componente do framework NILE contribui para essas melhorias substanciais de desempenho, e fornecem evidências convincentes de que a consistência do conjunto de dados com o conhecimento interno pré-treinado é fundamental para maximizar o potencial dos LLMs.