Artigos de pesquisa em IA selecionados diariamente com traduções
Os Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades notavelmente poderosas. Um dos fatores cruciais para alcançar o sucesso é alinhar a saída do LLM com as preferências humanas. Esse processo de alinhamento muitas vezes requer apenas uma pequena quantidade de dados para aprimorar eficientemente o desempenho do LLM. Embora eficaz, a pesquisa nessa área abrange vários domínios e os métodos envolvidos são relativamente complexos de entender. As relações entre diferentes métodos têm sido pouco exploradas, limitando o desenvolvimento do alinhamento de preferências. Diante disso, desmembramos as estratégias populares de alinhamento existentes em diferentes componentes e fornecemos um framework unificado para estudar as estratégias de alinhamento atuais, estabelecendo assim conexões entre elas. Nesta pesquisa, decomponemos todas as estratégias de aprendizado de preferências em quatro componentes: modelo, dados, feedback e algoritmo. Essa visão unificada oferece uma compreensão aprofundada dos algoritmos de alinhamento existentes e também abre possibilidades para sinergizar os pontos fortes de diferentes estratégias. Além disso, apresentamos exemplos de trabalho detalhados de algoritmos existentes prevalentes para facilitar a compreensão abrangente dos leitores. Por fim, com base em nossa perspectiva unificada, exploramos os desafios e as direções futuras de pesquisa para alinhar os grandes modelos de linguagem com as preferências humanas.
O desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem visto avanços significativos. No entanto, a quantidade e qualidade de dados de instrução multimodais surgiram como gargalos significativos em seu progresso. Criar manualmente dados de instrução multimodais é demorado e ineficiente, apresentando desafios na produção de instruções de alta complexidade. Além disso, destilar dados de instrução de modelos comerciais de caixa-preta (por exemplo, GPT-4o, GPT-4V) frequentemente resulta em dados de instrução simplistas, o que limita o desempenho a esses modelos. O desafio de curadoria de dados de instrução diversos e complexos permanece substancial. Propomos o MMEvol, um novo framework de evolução de dados de instrução multimodais que combina evolução de percepção detalhada, evolução de raciocínio cognitivo e evolução de interação. Essa abordagem iterativa supera os gargalos de qualidade de dados para gerar um conjunto de dados de instrução de imagem-texto complexo e diversificado, capacitando assim os MLLMs com capacidades aprimoradas. Começando com um conjunto inicial de instruções, SEED-163K, utilizamos o MMEvol para ampliar sistematicamente a diversidade de tipos de instrução, integrar etapas de raciocínio para aprimorar as capacidades cognitivas e extrair informações detalhadas das imagens para melhorar a compreensão visual e a robustez. Para avaliar abrangentemente a eficácia de nossos dados, treinamos o LLaVA-NeXT usando os dados evoluídos e conduzimos experimentos em 13 tarefas de visão e linguagem. Comparado à linha de base treinada com os dados iniciais, nossa abordagem alcança uma melhoria média de precisão de 3,1 pontos e atinge desempenho de estado da arte (SOTA) em 9 dessas tarefas.
Apesar dos avanços recentes em Modelos de Linguagem de Grande Escala (LLMs), que melhoraram significativamente as capacidades generativas para várias tarefas de Processamento de Linguagem Natural (NLP), os LLMs ainda enfrentam limitações ao lidar diretamente com tarefas de recuperação. No entanto, muitas aplicações práticas exigem a integração perfeita de tanto a recuperação quanto a geração. Este artigo apresenta um novo e eficiente framework de Geração e Recuperação em uma passagem (OneGen), projetado para melhorar o desempenho dos LLMs em tarefas que exigem tanto geração quanto recuperação. O framework proposto conecta as abordagens de treinamento tradicionalmente separadas para geração e recuperação, incorporando tokens de recuperação gerados de forma autoregressiva. Isso permite que um único LLM lide com ambas as tarefas simultaneamente em uma passagem unificada. Realizamos experimentos em dois tipos distintos de tarefas compostas, RAG e Vinculação de Entidades, para validar a adaptabilidade, eficácia e eficiência do OneGen no treinamento e inferência. Além disso, nossos resultados mostram que integrar geração e recuperação dentro do mesmo contexto preserva as capacidades generativas dos LLMs, ao mesmo tempo que melhora o desempenho de recuperação. Até onde sabemos, o OneGen é o primeiro a permitir que os LLMs realizem recuperação vetorial durante a geração.
A Geração Aprimorada por Recuperação (RAG) aproveita ferramentas de recuperação para acessar bancos de dados externos, melhorando assim a qualidade de geração de grandes modelos de linguagem (LLMs) por meio de um contexto otimizado. No entanto, os métodos de recuperação existentes são inerentemente limitados, pois só conseguem realizar correspondência de relevância entre consultas explicitamente declaradas e conhecimento bem estruturado, sendo incapazes de lidar com tarefas que envolvem necessidades de informação ambíguas ou conhecimento não estruturado. Como resultado, os sistemas RAG existentes são principalmente eficazes para tarefas simples de pergunta e resposta. Neste trabalho, propomos o MemoRAG, um novo paradigma de geração aprimorada por recuperação, potencializado pela memória de longo prazo. O MemoRAG adota uma arquitetura de sistema duplo. Por um lado, utiliza um LLM leve, mas de longo alcance, para formar a memória global do banco de dados. Uma vez que uma tarefa é apresentada, gera respostas preliminares, orientando as ferramentas de recuperação a localizar informações úteis dentro do banco de dados. Por outro lado, aproveita um LLM caro, porém expressivo, que gera a resposta final com base nas informações recuperadas. Com base nesse framework geral, otimizamos ainda mais o desempenho do MemoRAG, aprimorando seu mecanismo de orientação e capacidade de memorização. Em nossos experimentos, o MemoRAG alcança um desempenho superior em uma variedade de tarefas de avaliação, incluindo tarefas complexas em que o RAG convencional falha e tarefas simples em que o RAG é comumente aplicado.
À medida que a pesquisa científica se prolifera, os pesquisadores enfrentam a tarefa assustadora de navegar e ler vastas quantidades de literatura. As soluções existentes, como o QA de documentos, falham em fornecer informações personalizadas e atualizadas de forma eficiente. Apresentamos o Paper Copilot, um sistema LLM autoevolutivo e eficiente projetado para auxiliar pesquisadores, com base em recuperação de pensamentos, perfil do usuário e otimização de alto desempenho. Especificamente, o Paper Copilot pode oferecer serviços de pesquisa personalizados, mantendo um banco de dados atualizado em tempo real. A avaliação quantitativa demonstra que o Paper Copilot economiza 69,92\% do tempo após a implantação eficiente. Este artigo detalha o design e a implementação do Paper Copilot, destacando suas contribuições para o suporte acadêmico personalizado e seu potencial para otimizar o processo de pesquisa.
Nos últimos anos, os modelos de visão e linguagem deram passos significativos, destacando-se em tarefas como reconhecimento óptico de caracteres e resolução de problemas geométricos. No entanto, várias questões críticas permanecem: 1) Modelos proprietários frequentemente carecem de transparência sobre suas arquiteturas, enquanto modelos de código aberto necessitam de ablações mais detalhadas de suas estratégias de treinamento. 2) Os dados de pré-treinamento em trabalhos de código aberto são pouco explorados, com conjuntos de dados adicionados empiricamente, tornando o processo complicado. 3) O ajuste fino frequentemente se concentra em adicionar conjuntos de dados, resultando em retornos decrescentes. Para abordar essas questões, propomos as seguintes contribuições: 1) Treinamos um modelo de linha de base robusto utilizando os avanços mais recentes em modelos de visão e linguagem, introduzindo melhorias eficazes e conduzindo ablação e validação abrangentes para cada técnica. 2) Inspirados em trabalhos recentes sobre grandes modelos de linguagem, filtramos os dados de pré-treinamento usando perplexidade, selecionando os dados com menor perplexidade para treinamento. Essa abordagem nos permitiu treinar em um conjunto de dados curado de 1M, alcançando um desempenho competitivo. 3) Durante o ajuste de instrução visual, utilizamos um "modelo de sopa" em diferentes conjuntos de dados, quando adicionar mais conjuntos de dados resultava em melhorias marginais. Essas inovações resultaram em um modelo de 9B parâmetros que tem um desempenho competitivo com os modelos de ponta. Nossas estratégias são eficientes e leves, tornando-as facilmente adotáveis pela comunidade.
Modelos de robôs, especialmente aqueles treinados com grandes quantidades de dados, têm demonstrado recentemente uma infinidade de capacidades de manipulação e navegação no mundo real. Vários esforços independentes mostraram que, com dados de treinamento suficientes em um ambiente, as políticas de robôs podem generalizar variações demonstradas nesse ambiente. No entanto, a necessidade de ajustar finamente os modelos de robô para cada novo ambiente contrasta fortemente com modelos em linguagem ou visão que podem ser implantados sem ajustes para problemas de mundo aberto. Neste trabalho, apresentamos Modelos de Utilidade de Robô (RUMs), um framework para treinar e implantar políticas de robô sem ajustes que podem generalizar diretamente para novos ambientes sem nenhum ajuste fino. Para criar os RUMs de forma eficiente, desenvolvemos novas ferramentas para coletar rapidamente dados para tarefas de manipulação móvel, integrar esses dados em uma política com aprendizado por imitação multimodal e implantar políticas em dispositivos no Hello Robot Stretch, um robô de mercadorias barato, com um verificador mLLM externo para tentativas adicionais. Treinamos cinco desses modelos de utilidade para abrir portas de armários, abrir gavetas, pegar guardanapos, pegar sacolas de papel e reposicionar objetos caídos. Nosso sistema, em média, alcança uma taxa de sucesso de 90% em ambientes não vistos, interagindo com objetos não vistos. Além disso, os modelos de utilidade também podem ter sucesso em diferentes configurações de robôs e câmeras sem a necessidade de mais dados, treinamento ou ajuste fino. Entre nossas principais lições estão a importância dos dados de treinamento sobre o algoritmo de treinamento e a classe de política, orientações sobre escalonamento de dados, necessidade de demonstrações diversas e de alta qualidade, e uma receita para introspecção de robôs e tentativas para melhorar o desempenho em ambientes individuais. Nosso código, dados, modelos, designs de hardware, bem como nossos vídeos de experimento e implantação são de código aberto e podem ser encontrados em nosso site do projeto: https://robotutilitymodels.com
Embora os Modelos de Linguagem de Grande Escala (LLMs) demonstrem notáveis capacidades generativas, eles não estão isentos de falhas, especialmente na forma de alucinações. Esse problema é ainda mais evidente quando os LLMs são aplicados a idiomas e domínios específicos. Por exemplo, os LLMs podem gerar informações sem sentido ao lidar com poesia antiga chinesa, provérbios ou ditados, devido à falta de conhecimento específico. Nesse sentido, este artigo apresenta um benchmark para corrigir o conhecimento chinês nos LLMs por meio da edição de conhecimento. Especificamente, introduzimos um novo conjunto de dados chinês, CKnowEdit, coletando sete tipos de conhecimento de várias fontes, incluindo textos clássicos, ditados e conteúdo do Baidu Tieba Ruozhiba, levando em consideração a polifonia, antítese e construções lógicas inerentes à língua chinesa. Através da análise deste conjunto de dados, revelamos os desafios enfrentados pelos atuais LLMs ao dominar o chinês. Além disso, nossa avaliação das técnicas de edição de conhecimento de ponta neste conjunto de dados revela um amplo espaço para avanços na retificação do conhecimento chinês. O código e o conjunto de dados estão disponíveis em https://github.com/zjunlp/EasyEdit.
Apresentamos um benchmark para avaliar diretamente o alinhamento entre observadores humanos e modelos de visão em uma tarefa de inferência de forma 3D. Utilizamos um design experimental das ciências cognitivas que requer inferências visuais sem treinamento sobre a forma do objeto: dado um conjunto de imagens, os participantes identificam quais contêm objetos iguais/diferentes, apesar da considerável variação de ponto de vista. Utilizamos uma ampla gama de imagens que incluem objetos comuns (por exemplo, cadeiras) e formas abstratas (ou seja, objetos gerados proceduralmente 'sem sentido'). Após a construção de mais de 2000 conjuntos de imagens únicas, administramos essas tarefas a participantes humanos, coletando 35 mil tentativas de dados comportamentais de mais de 500 participantes. Isso inclui comportamentos de escolha explícitos, bem como medidas intermediárias, como tempo de reação e dados de olhar. Em seguida, avaliamos o desempenho de modelos de visão comuns (por exemplo, DINOv2, MAE, CLIP). Descobrimos que os humanos superam todos os modelos por uma ampla margem. Usando uma abordagem de avaliação multi-escala, identificamos similaridades e diferenças subjacentes entre modelos e humanos: enquanto o desempenho humano-modelo está correlacionado, os humanos alocam mais tempo/processamento em tentativas desafiadoras. Todas as imagens, dados e código podem ser acessados através da nossa página do projeto.
Este estudo apresenta várias contribuições para a língua Karakalpak: um conjunto de dados de teste de desenvolvimento FLORES+ traduzido para o Karakalpak, corpora paralelos para Uzbeque-Karakalpak, Russo-Karakalpak e Inglês-Karakalpak de 100.000 pares cada e modelos neurais ajustados finamente de código aberto para tradução entre esses idiomas. Nossos experimentos comparam diferentes variantes de modelos e abordagens de treinamento, demonstrando melhorias em relação às bases existentes. Este trabalho, realizado como parte da tarefa compartilhada da Iniciativa de Dados de Linguagem Aberta (OLDI), tem como objetivo avançar as capacidades de tradução automática para o Karakalpak e contribuir para a expansão da diversidade linguística nas tecnologias de PNL.
A crescente demanda dos clientes por soluções inteligentes em robótica e realidade aumentada tem atraído considerável atenção para a detecção de objetos 3D a partir de nuvens de pontos. No entanto, conjuntos de dados internos existentes, tomados individualmente, são muito pequenos e insuficientemente diversos para treinar um modelo poderoso e geral de detecção de objetos 3D. Enquanto isso, abordagens mais gerais que utilizam modelos fundamentais ainda são inferiores em qualidade àquelas baseadas em treinamento supervisionado para uma tarefa específica. Neste trabalho, propomos um modelo simples, porém eficaz, de detecção de objetos 3D, que é treinado em uma mistura de conjuntos de dados internos e é capaz de funcionar em vários ambientes internos. Ao unificar diferentes espaços de rótulos, o modelo proposto permite aprender uma representação forte em vários conjuntos de dados por meio de um esquema de treinamento conjunto supervisionado. A arquitetura de rede proposta é construída sobre um codificador transformer básico, facilitando a execução, personalização e extensão do pipeline de previsão para uso prático. Experimentos extensivos demonstram que o modelo obtém ganhos significativos em relação aos métodos existentes de detecção de objetos 3D em 6 benchmarks internos: ScanNet (+1,1 mAP50), ARKitScenes (+19,4 mAP25), S3DIS (+9,1 mAP50), MultiScan (+9,3 mAP50), 3RScan (+3,2 mAP50) e ScanNet++ (+2,7 mAP50). O código está disponível em https://github.com/filapro/unidet3d.
Este artigo apresenta insights da avaliação de 16 modelos de linguagem grandes (LLMs) de ponta no benchmark WebApp1K, uma suíte de testes projetada para avaliar a capacidade dos LLMs de gerar código de aplicativos web. Os resultados revelam que, embora todos os modelos possuam conhecimento subjacente semelhante, seu desempenho é diferenciado pela frequência de erros que cometem. Ao analisar linhas de código (LOC) e distribuições de falhas, descobrimos que escrever código correto é mais complexo do que gerar código incorreto. Além disso, a engenharia de prompts mostra eficácia limitada na redução de erros além de casos específicos. Essas descobertas sugerem que avanços adicionais no desenvolvimento de LLMs para codificação devem enfatizar a confiabilidade do modelo e a minimização de erros.