Artigos de pesquisa em IA selecionados diariamente com traduções
Este artigo estuda o pós-treinamento de grandes modelos de linguagem (LLMs) utilizando feedback de preferência de um oráculo poderoso para ajudar um modelo a melhorar iterativamente sobre si mesmo. A abordagem típica para o pós-treinamento de LLMs envolve Aprendizado por Reforço com Feedback Humano (RLHF), que tradicionalmente separa a aprendizagem de recompensa e a subsequente otimização de política. No entanto, essa abordagem de maximização de recompensa é limitada pela natureza de recompensas "ponto a ponto" (como o modelo de Bradley-Terry), que falha em expressar relações de preferência complexas, intransitivas ou cíclicas. Embora avanços no RLHF mostrem que a aprendizagem de recompensa e a otimização de política podem ser combinadas em um único objetivo contrastivo para estabilidade, eles ainda permanecem vinculados ao framework de maximização de recompensa. Recentemente, uma nova onda de pesquisa contorna as presunções de maximização de recompensa em favor da otimização direta sobre preferências "par a par" ou gerais. Neste artigo, introduzimos a Otimização Direta de Nash (DNO), um algoritmo comprovável e escalável que combina a simplicidade e estabilidade do aprendizado contrastivo com a generalidade teórica da otimização de preferências gerais. Como o DNO é um algoritmo on-policy em lotes que utiliza um objetivo baseado em regressão, sua implementação é direta e eficiente. Além disso, o DNO apresenta melhoria monotônica ao longo das iterações, o que o ajuda a melhorar mesmo sobre um professor forte (como o GPT-4). Em nossos experimentos, um modelo Orca-2.5 de 7 bilhões de parâmetros alinhado pelo DNO alcança a taxa de vitória state-of-the-art de 33% contra o GPT-4-Turbo no AlpacaEval 2.0 (mesmo após o controle do comprimento da resposta), um ganho absoluto de 26% (7% para 33%) sobre o modelo inicial. Ele supera modelos com muito mais parâmetros, incluindo Mistral Large, Self-Rewarding LM (70 bilhões de parâmetros) e versões mais antigas do GPT-4.
Modelos de linguagem raramente são expostos a erros frutíferos durante o treinamento. Eles, então, lutam para enxergar além do próximo token, sofrendo com um efeito bola de neve de erros e tendo dificuldade para prever as consequências de suas ações várias etapas à frente. Neste artigo, mostramos como modelos de linguagem podem ser ensinados a buscar, representando o processo de busca em linguagem, como uma string achatada — um fluxo de busca (Stream of Search, SoS). Propomos uma linguagem unificada para busca que captura uma variedade de diferentes estratégias de busca simbólica. Demonstramos nossa abordagem usando o jogo simples, porém desafiador, de Countdown, onde o objetivo é combinar números de entrada com operações aritméticas para alcançar um número alvo. Pré-treinamos um modelo de linguagem baseado em transformer do zero em um conjunto de dados de fluxos de busca gerados por solucionadores heurísticos. Descobrimos que o pré-treinamento com SoS aumenta a precisão da busca em 25% em comparação com modelos treinados para prever apenas a trajetória de busca ideal. Ajustamos ainda mais esse modelo com dois métodos de melhoria de política: Alinhamento de Política Induzido por Vantagem (Advantage-Induced Policy Alignment, APA) e Raciocinador Autoensinado (Self-Taught Reasoner, STaR). Os modelos SoS ajustados resolvem 36% dos problemas anteriormente não resolvidos, incluindo problemas que não podem ser resolvidos por nenhum dos solucionadores heurísticos. Nossos resultados indicam que modelos de linguagem podem aprender a resolver problemas por meio de busca, autoaperfeiçoar-se para usar estrategicamente diferentes estratégias de busca e, potencialmente, descobrir novas.
Conjuntos de dados de pré-treinamento obtidos por web crawling são a base do impressionante desempenho em avaliações "zero-shot" de modelos multimodais, como o CLIP para classificação/recuperação e o Stable-Diffusion para geração de imagens. No entanto, não está claro o quão significativa é a noção de generalização "zero-shot" para esses modelos multimodais, uma vez que não se sabe até que ponto seus conjuntos de dados de pré-treinamento abrangem os conceitos de interesse avaliados em cenários "zero-shot". Neste trabalho, questionamos: Como o desempenho de modelos multimodais em conceitos de interesse é influenciado pela frequência desses conceitos em seus conjuntos de dados de pré-treinamento? Investigamos essa questão de forma abrangente em 34 modelos e cinco conjuntos de dados de pré-treinamento padrão (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), gerando mais de 300GB de artefatos de dados. Consistentemente, descobrimos que, longe de exibir generalização "zero-shot", os modelos multimodais exigem exponencialmente mais dados para alcançar melhorias lineares no desempenho "zero-shot" em tarefas de interesse, seguindo uma tendência de escalonamento log-linear ineficiente em termos de amostras. Essa tendência persiste mesmo ao controlar a similaridade em nível de amostra entre os conjuntos de dados de pré-treinamento e os de interesse, e ao testar em distribuições de dados puramente sintéticas. Além disso, ao avaliar modelos em dados de cauda longa amostrados com base em nossa análise, demonstramos que os modelos multimodais, de forma geral, têm desempenho ruim. Contribuímos com esse conjunto de testes de cauda longa como o benchmark "Let it Wag!" para fomentar pesquisas nessa direção. Em conjunto, nosso estudo revela uma necessidade exponencial de dados de treinamento, o que implica que a chave para capacidades de generalização "zero-shot" sob paradigmas de treinamento em larga escala ainda precisa ser descoberta.
Grandes modelos de linguagem (LLMs) têm impulsionado muitas tarefas de agentes inteligentes, como a navegação na web -- mas a maioria dos agentes existentes tem desempenho longe de ser satisfatório em páginas web do mundo real devido a três fatores: (1) a versatilidade de ações em páginas web, (2) textos HTML que excedem a capacidade de processamento do modelo, e (3) a complexidade da tomada de decisões devido à natureza de domínio aberto da web. Diante desse desafio, desenvolvemos o AutoWebGLM, um agente automatizado de navegação na web baseado no ChatGLM3-6B que supera o GPT-4. Inspirados pelos padrões de navegação humana, projetamos um algoritmo de simplificação de HTML para representar páginas web, preservando informações vitais de forma sucinta. Empregamos um método híbrido humano-IA para construir dados de navegação na web para treinamento curricular. Em seguida, iniciamos o modelo com aprendizado por reforço e amostragem por rejeição para facilitar ainda mais a compreensão de páginas web, operações de navegador e a decomposição eficiente de tarefas por si mesmo. Para testes, estabelecemos um benchmark bilíngue -- o AutoWebBench -- para tarefas de navegação na web do mundo real. Avaliamos o AutoWebGLM em diversos benchmarks de navegação na web, revelando suas melhorias, mas também os desafios subjacentes para lidar com ambientes reais. O código, modelo e dados relacionados serão liberados em https://github.com/THUDM/AutoWebGLM.
Os avanços recentes em conjuntos de dados para ajuste por instrução têm se concentrado predominantemente em tarefas específicas, como raciocínio matemático ou lógico. Observa-se uma lacuna significativa em dados projetados para alinhar modelos de linguagem a fim de manter a relevância do tópico em conversas — um aspecto crítico para a implantação de chatbots em produção. Apresentamos o conjunto de dados CantTalkAboutThis para ajudar modelos de linguagem a permanecerem focados no assunto em questão durante interações orientadas por tarefas. Ele consiste em diálogos sintéticos sobre uma ampla variedade de tópicos de conversa de diferentes domínios. Esses diálogos são intercalados com turnos de distração que intencionalmente desviam o chatbot do tópico pré-definido. O ajuste fino de modelos de linguagem nesse conjunto de dados os torna mais resilientes a desvios do papel atribuído e melhora sua capacidade de manter coerência temática em comparação com modelos de linguagem de propósito geral ajustados por instrução, como GPT-4-turbo e Mixtral-Instruct. Além disso, observações preliminares sugerem que o treinamento de modelos nesse conjunto de dados também melhora seu desempenho em tarefas de seguimento de instruções de granularidade fina.
O aprendizado por reforço (RL) aprimorou a geração guiada de imagens com modelos de difusão ao otimizar diretamente recompensas que capturam qualidade de imagem, estética e capacidade de seguir instruções. No entanto, as políticas gerativas resultantes herdam o mesmo processo iterativo de amostragem dos modelos de difusão, o que causa geração lenta. Para superar essa limitação, os modelos de consistência propuseram aprender uma nova classe de modelos gerativos que mapeiam diretamente ruído para dados, resultando em um modelo capaz de gerar uma imagem em tão poucas quanto uma iteração de amostragem. Neste trabalho, para otimizar modelos gerativos de texto para imagem em recompensas específicas de tarefas e permitir treinamento e inferência rápidos, propomos uma estrutura para ajuste fino de modelos de consistência via RL. Nossa estrutura, chamada Aprendizado por Reforço para Modelo de Consistência (RLCM), enquadra o processo iterativo de inferência de um modelo de consistência como um procedimento de RL. O RLCM melhora os modelos de difusão ajustados por RL em capacidades de geração de texto para imagem e troca computação durante o tempo de inferência por qualidade de amostra. Experimentalmente, mostramos que o RLCM pode adaptar modelos de consistência de texto para imagem a objetivos que são desafiadores de expressar com prompts, como compressibilidade de imagem, e aqueles derivados de feedback humano, como qualidade estética. Comparado aos modelos de difusão ajustados por RL, o RLCM treina significativamente mais rápido, melhora a qualidade da geração medida sob os objetivos de recompensa e acelera o procedimento de inferência ao gerar imagens de alta qualidade com tão poucas quanto duas etapas de inferência. Nosso código está disponível em https://rlcm.owenoertell.com.
As pessoas dependem de habilidades sociais, como resolução de conflitos, para se comunicar de forma eficaz e prosperar tanto na vida profissional quanto pessoal. No entanto, ambientes de prática para habilidades sociais geralmente estão fora do alcance da maioria das pessoas. Como podemos tornar o treinamento de habilidades sociais mais disponível, acessível e convidativo? Com base em pesquisas interdisciplinares da comunicação e da psicologia, este artigo de perspectiva identifica barreiras de habilidades sociais para ingressar em áreas especializadas. Em seguida, apresentamos uma solução que aproveita modelos de linguagem de grande escala para o treinamento de habilidades sociais por meio de uma estrutura genérica. Nosso framework AI Partner, AI Mentor, combina aprendizagem experiencial com prática realista e feedback personalizado. Este trabalho, em última análise, apela para a inovação interdisciplinar a fim de abordar as implicações mais amplas para o desenvolvimento da força de trabalho e a igualdade social.
Neste estudo, apresentamos o CT-LLM, um modelo de linguagem de grande escala (LLM) de 2 bilhões de parâmetros que ilustra uma mudança crucial no sentido de priorizar o idioma chinês no desenvolvimento de LLMs. Iniciado exclusivamente do zero, o CT-LLM diverge da metodologia convencional ao incorporar principalmente dados textuais em chinês, utilizando um extenso corpus de 1,2 trilhão de tokens, incluindo 800 bilhões de tokens em chinês, 300 bilhões em inglês e 100 bilhões em código. Essa composição estratégica facilita a proficiência excepcional do modelo na compreensão e processamento do chinês, uma capacidade ainda mais aprimorada por meio de técnicas de alinhamento. Demonstrando desempenho notável no CHC-Bench, o CT-LLM se destaca em tarefas de linguagem chinesa e exibe sua habilidade em inglês por meio de SFT (Supervised Fine-Tuning). Esta pesquisa desafia o paradigma predominante de treinar LLMs principalmente em corpora em inglês e, em seguida, adaptá-los a outros idiomas, ampliando os horizontes das metodologias de treinamento de LLMs. Ao disponibilizar publicamente todo o processo de treinamento de um LLM em chinês, incluindo um procedimento detalhado de processamento de dados com o Massive Appropriate Pretraining Chinese Corpus (MAP-CC), um benchmark multidisciplinar de casos difíceis em chinês bem selecionado (CHC-Bench) e o Chinese Tiny LLM (CT-LLM) de 2 bilhões de parâmetros, nosso objetivo é fomentar maior exploração e inovação tanto na academia quanto na indústria, abrindo caminho para modelos de linguagem mais inclusivos e versáteis.
Neste artigo, abordamos fontes comuns de erros para o Splatting Gaussiano 3D (3DGS), incluindo desfoque, poses de câmera imperfeitas e inconsistências de cor, com o objetivo de melhorar sua robustez para aplicações práticas, como reconstruções a partir de capturas feitas com telefones móveis. Nossa principal contribuição envolve modelar o desfoque de movimento como uma distribuição gaussiana sobre as poses da câmera, permitindo-nos abordar tanto o refinamento da pose da câmera quanto a correção do desfoque de movimento de maneira unificada. Além disso, propomos mecanismos para compensação de desfoque por falta de foco e para lidar com inconsistências de cor causadas por luz ambiente, sombras ou fatores relacionados à câmera, como configurações variáveis de balanço de branco. Nossas soluções propostas integram-se de forma harmoniosa à formulação do 3DGS, mantendo seus benefícios em termos de eficiência de treinamento e velocidade de renderização. Validamos experimentalmente nossas contribuições em conjuntos de dados de referência relevantes, incluindo Scannet++ e Deblur-NeRF, obtendo resultados de última geração e, portanto, melhorias consistentes em relação às linhas de base relevantes.
A segmentação semântica multimodal aprimora significativamente a percepção e a compreensão de cenas por agentes de IA, especialmente em condições adversas, como ambientes com pouca luz ou superexpostos. A utilização de modalidades adicionais (X-modalidade), como térmica e profundidade, juntamente com o RGB tradicional, fornece informações complementares, permitindo uma segmentação mais robusta e confiável. Neste trabalho, apresentamos o Sigma, uma rede Siamese Mamba para segmentação semântica multimodal, que utiliza o Modelo de Espaço de Estados Estruturado Seletivo, Mamba. Diferentemente dos métodos convencionais que dependem de CNNs, com seus campos receptivos locais limitados, ou de Vision Transformers (ViTs), que oferecem campos receptivos globais ao custo de complexidade quadrática, nosso modelo alcança cobertura de campos receptivos globais com complexidade linear. Ao empregar um codificador Siamese e inovar um mecanismo de fusão Mamba, selecionamos efetivamente informações essenciais de diferentes modalidades. Um decodificador é então desenvolvido para aprimorar a capacidade de modelagem canal a canal do modelo. Nosso método, Sigma, é rigorosamente avaliado em tarefas de segmentação RGB-Térmica e RGB-Profundidade, demonstrando sua superioridade e marcando a primeira aplicação bem-sucedida de Modelos de Espaço de Estados (SSMs) em tarefas de percepção multimodal. O código está disponível em https://github.com/zifuwan/Sigma.