HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

12 papers found

Rumo a uma Visão Unificada da Aprendizagem de Preferências para Modelos de Linguagem de Grande Escala: Uma Pesquisa
Towards a Unified View of Preference Learning for Large Language Models: A Survey

Sep 4

ByBofei Gao, Feifan Song, Yibo Miao, Zefan Cai, Zhe Yang, Liang Chen, Helan Hu, Runxin Xu, Qingxiu Dong, Ce Zheng, Wen Xiao, Ge Zhang, Daoguang Zan, Keming Lu, Bowen Yu, Dayiheng Liu, Zeyu Cui, Jian Yang, Lei Sha, Houfeng Wang, Zhifang Sui, Peiyi Wang, Tianyu Liu, Baobao Chang

Os Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades notavelmente poderosas. Um dos fatores cruciais para alcançar o sucesso é alinhar a saída do LLM com as preferências humanas. Esse processo de alinhamento muitas vezes requer apenas uma pequena quantidade de dados para aprimorar eficientemente o desempenho do LLM. Embora eficaz, a pesquisa nessa área abrange vários domínios e os métodos envolvidos são relativamente complexos de entender. As relações entre diferentes métodos têm sido pouco exploradas, limitando o desenvolvimento do alinhamento de preferências. Diante disso, desmembramos as estratégias populares de alinhamento existentes em diferentes componentes e fornecemos um framework unificado para estudar as estratégias de alinhamento atuais, estabelecendo assim conexões entre elas. Nesta pesquisa, decomponemos todas as estratégias de aprendizado de preferências em quatro componentes: modelo, dados, feedback e algoritmo. Essa visão unificada oferece uma compreensão aprofundada dos algoritmos de alinhamento existentes e também abre possibilidades para sinergizar os pontos fortes de diferentes estratégias. Além disso, apresentamos exemplos de trabalho detalhados de algoritmos existentes prevalentes para facilitar a compreensão abrangente dos leitores. Por fim, com base em nossa perspectiva unificada, exploramos os desafios e as direções futuras de pesquisa para alinhar os grandes modelos de linguagem com as preferências humanas.

MMEvol: Capacitando Modelos de Linguagem Multimodais de Grande Escala com Evol-Instruct
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

Sep 9

ByRun Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li

O desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem visto avanços significativos. No entanto, a quantidade e qualidade de dados de instrução multimodais surgiram como gargalos significativos em seu progresso. Criar manualmente dados de instrução multimodais é demorado e ineficiente, apresentando desafios na produção de instruções de alta complexidade. Além disso, destilar dados de instrução de modelos comerciais de caixa-preta (por exemplo, GPT-4o, GPT-4V) frequentemente resulta em dados de instrução simplistas, o que limita o desempenho a esses modelos. O desafio de curadoria de dados de instrução diversos e complexos permanece substancial. Propomos o MMEvol, um novo framework de evolução de dados de instrução multimodais que combina evolução de percepção detalhada, evolução de raciocínio cognitivo e evolução de interação. Essa abordagem iterativa supera os gargalos de qualidade de dados para gerar um conjunto de dados de instrução de imagem-texto complexo e diversificado, capacitando assim os MLLMs com capacidades aprimoradas. Começando com um conjunto inicial de instruções, SEED-163K, utilizamos o MMEvol para ampliar sistematicamente a diversidade de tipos de instrução, integrar etapas de raciocínio para aprimorar as capacidades cognitivas e extrair informações detalhadas das imagens para melhorar a compreensão visual e a robustez. Para avaliar abrangentemente a eficácia de nossos dados, treinamos o LLaVA-NeXT usando os dados evoluídos e conduzimos experimentos em 13 tarefas de visão e linguagem. Comparado à linha de base treinada com os dados iniciais, nossa abordagem alcança uma melhoria média de precisão de 3,1 pontos e atinge desempenho de estado da arte (SOTA) em 9 dessas tarefas.

OneGen: Geração Unificada Eficiente em Uma Única Passagem para Modelos de Linguagem de Longo Alcance (LLMs)
OneGen: Efficient One-Pass Unified Generation and Retrieval for LLMs

Sep 8

ByJintian Zhang, Cheng Peng, Mengshu Sun, Xiang Chen, Lei Liang, Zhiqiang Zhang, Jun Zhou, Huajun Chen, Ningyu Zhang

Apesar dos avanços recentes em Modelos de Linguagem de Grande Escala (LLMs), que melhoraram significativamente as capacidades generativas para várias tarefas de Processamento de Linguagem Natural (NLP), os LLMs ainda enfrentam limitações ao lidar diretamente com tarefas de recuperação. No entanto, muitas aplicações práticas exigem a integração perfeita de tanto a recuperação quanto a geração. Este artigo apresenta um novo e eficiente framework de Geração e Recuperação em uma passagem (OneGen), projetado para melhorar o desempenho dos LLMs em tarefas que exigem tanto geração quanto recuperação. O framework proposto conecta as abordagens de treinamento tradicionalmente separadas para geração e recuperação, incorporando tokens de recuperação gerados de forma autoregressiva. Isso permite que um único LLM lide com ambas as tarefas simultaneamente em uma passagem unificada. Realizamos experimentos em dois tipos distintos de tarefas compostas, RAG e Vinculação de Entidades, para validar a adaptabilidade, eficácia e eficiência do OneGen no treinamento e inferência. Além disso, nossos resultados mostram que integrar geração e recuperação dentro do mesmo contexto preserva as capacidades generativas dos LLMs, ao mesmo tempo que melhora o desempenho de recuperação. Até onde sabemos, o OneGen é o primeiro a permitir que os LLMs realizem recuperação vetorial durante a geração.

MemoRAG: Rumo ao RAG da Próxima Geração Através da Descoberta de Conhecimento Inspirada na Memória
MemoRAG: Moving towards Next-Gen RAG Via Memory-Inspired Knowledge Discovery

Sep 9

ByHongjin Qian, Peitian Zhang, Zheng Liu, Kelong Mao, Zhicheng Dou

A Geração Aprimorada por Recuperação (RAG) aproveita ferramentas de recuperação para acessar bancos de dados externos, melhorando assim a qualidade de geração de grandes modelos de linguagem (LLMs) por meio de um contexto otimizado. No entanto, os métodos de recuperação existentes são inerentemente limitados, pois só conseguem realizar correspondência de relevância entre consultas explicitamente declaradas e conhecimento bem estruturado, sendo incapazes de lidar com tarefas que envolvem necessidades de informação ambíguas ou conhecimento não estruturado. Como resultado, os sistemas RAG existentes são principalmente eficazes para tarefas simples de pergunta e resposta. Neste trabalho, propomos o MemoRAG, um novo paradigma de geração aprimorada por recuperação, potencializado pela memória de longo prazo. O MemoRAG adota uma arquitetura de sistema duplo. Por um lado, utiliza um LLM leve, mas de longo alcance, para formar a memória global do banco de dados. Uma vez que uma tarefa é apresentada, gera respostas preliminares, orientando as ferramentas de recuperação a localizar informações úteis dentro do banco de dados. Por outro lado, aproveita um LLM caro, porém expressivo, que gera a resposta final com base nas informações recuperadas. Com base nesse framework geral, otimizamos ainda mais o desempenho do MemoRAG, aprimorando seu mecanismo de orientação e capacidade de memorização. Em nossos experimentos, o MemoRAG alcança um desempenho superior em uma variedade de tarefas de avaliação, incluindo tarefas complexas em que o RAG convencional falha e tarefas simples em que o RAG é comumente aplicado.

Artigo Copiloto: Um Sistema LLM Autoevolutivo e Eficiente para Assistência Acadêmica Personalizada
Paper Copilot: A Self-Evolving and Efficient LLM System for Personalized Academic Assistance

Sep 6

ByGuanyu Lin, Tao Feng, Pengrui Han, Ge Liu, Jiaxuan You

À medida que a pesquisa científica se prolifera, os pesquisadores enfrentam a tarefa assustadora de navegar e ler vastas quantidades de literatura. As soluções existentes, como o QA de documentos, falham em fornecer informações personalizadas e atualizadas de forma eficiente. Apresentamos o Paper Copilot, um sistema LLM autoevolutivo e eficiente projetado para auxiliar pesquisadores, com base em recuperação de pensamentos, perfil do usuário e otimização de alto desempenho. Especificamente, o Paper Copilot pode oferecer serviços de pesquisa personalizados, mantendo um banco de dados atualizado em tempo real. A avaliação quantitativa demonstra que o Paper Copilot economiza 69,92\% do tempo após a implantação eficiente. Este artigo detalha o design e a implementação do Paper Copilot, destacando suas contribuições para o suporte acadêmico personalizado e seu potencial para otimizar o processo de pesquisa.

PONTOS: Melhorando seu Modelo de Linguagem de Visão com Estratégias Acessíveis
POINTS: Improving Your Vision-language Model with Affordable Strategies

Sep 7

ByYuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, Jie Zhou

Nos últimos anos, os modelos de visão e linguagem deram passos significativos, destacando-se em tarefas como reconhecimento óptico de caracteres e resolução de problemas geométricos. No entanto, várias questões críticas permanecem: 1) Modelos proprietários frequentemente carecem de transparência sobre suas arquiteturas, enquanto modelos de código aberto necessitam de ablações mais detalhadas de suas estratégias de treinamento. 2) Os dados de pré-treinamento em trabalhos de código aberto são pouco explorados, com conjuntos de dados adicionados empiricamente, tornando o processo complicado. 3) O ajuste fino frequentemente se concentra em adicionar conjuntos de dados, resultando em retornos decrescentes. Para abordar essas questões, propomos as seguintes contribuições: 1) Treinamos um modelo de linha de base robusto utilizando os avanços mais recentes em modelos de visão e linguagem, introduzindo melhorias eficazes e conduzindo ablação e validação abrangentes para cada técnica. 2) Inspirados em trabalhos recentes sobre grandes modelos de linguagem, filtramos os dados de pré-treinamento usando perplexidade, selecionando os dados com menor perplexidade para treinamento. Essa abordagem nos permitiu treinar em um conjunto de dados curado de 1M, alcançando um desempenho competitivo. 3) Durante o ajuste de instrução visual, utilizamos um "modelo de sopa" em diferentes conjuntos de dados, quando adicionar mais conjuntos de dados resultava em melhorias marginais. Essas inovações resultaram em um modelo de 9B parâmetros que tem um desempenho competitivo com os modelos de ponta. Nossas estratégias são eficientes e leves, tornando-as facilmente adotáveis pela comunidade.

Modelos de Utilidade de Robô: Políticas Gerais para Implantação sem Treinamento em Novos Ambientes
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Sep 9

ByHaritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah

Modelos de robôs, especialmente aqueles treinados com grandes quantidades de dados, têm demonstrado recentemente uma infinidade de capacidades de manipulação e navegação no mundo real. Vários esforços independentes mostraram que, com dados de treinamento suficientes em um ambiente, as políticas de robôs podem generalizar variações demonstradas nesse ambiente. No entanto, a necessidade de ajustar finamente os modelos de robô para cada novo ambiente contrasta fortemente com modelos em linguagem ou visão que podem ser implantados sem ajustes para problemas de mundo aberto. Neste trabalho, apresentamos Modelos de Utilidade de Robô (RUMs), um framework para treinar e implantar políticas de robô sem ajustes que podem generalizar diretamente para novos ambientes sem nenhum ajuste fino. Para criar os RUMs de forma eficiente, desenvolvemos novas ferramentas para coletar rapidamente dados para tarefas de manipulação móvel, integrar esses dados em uma política com aprendizado por imitação multimodal e implantar políticas em dispositivos no Hello Robot Stretch, um robô de mercadorias barato, com um verificador mLLM externo para tentativas adicionais. Treinamos cinco desses modelos de utilidade para abrir portas de armários, abrir gavetas, pegar guardanapos, pegar sacolas de papel e reposicionar objetos caídos. Nosso sistema, em média, alcança uma taxa de sucesso de 90% em ambientes não vistos, interagindo com objetos não vistos. Além disso, os modelos de utilidade também podem ter sucesso em diferentes configurações de robôs e câmeras sem a necessidade de mais dados, treinamento ou ajuste fino. Entre nossas principais lições estão a importância dos dados de treinamento sobre o algoritmo de treinamento e a classe de política, orientações sobre escalonamento de dados, necessidade de demonstrações diversas e de alta qualidade, e uma receita para introspecção de robôs e tentativas para melhorar o desempenho em ambientes individuais. Nosso código, dados, modelos, designs de hardware, bem como nossos vídeos de experimento e implantação são de código aberto e podem ser encontrados em nosso site do projeto: https://robotutilitymodels.com

Avaliação do Ajuste de Conhecimento Chinês em Modelos de Linguagem de Grande Escala
Benchmarking Chinese Knowledge Rectification in Large Language Models

Sep 9

ByTianhe Lu, Jizhan Fang, Yunzhi Yao, Xin Xu, Ningyu Zhang, Huajun Chen

Embora os Modelos de Linguagem de Grande Escala (LLMs) demonstrem notáveis capacidades generativas, eles não estão isentos de falhas, especialmente na forma de alucinações. Esse problema é ainda mais evidente quando os LLMs são aplicados a idiomas e domínios específicos. Por exemplo, os LLMs podem gerar informações sem sentido ao lidar com poesia antiga chinesa, provérbios ou ditados, devido à falta de conhecimento específico. Nesse sentido, este artigo apresenta um benchmark para corrigir o conhecimento chinês nos LLMs por meio da edição de conhecimento. Especificamente, introduzimos um novo conjunto de dados chinês, CKnowEdit, coletando sete tipos de conhecimento de várias fontes, incluindo textos clássicos, ditados e conteúdo do Baidu Tieba Ruozhiba, levando em consideração a polifonia, antítese e construções lógicas inerentes à língua chinesa. Através da análise deste conjunto de dados, revelamos os desafios enfrentados pelos atuais LLMs ao dominar o chinês. Além disso, nossa avaliação das técnicas de edição de conhecimento de ponta neste conjunto de dados revela um amplo espaço para avanços na retificação do conhecimento chinês. O código e o conjunto de dados estão disponíveis em https://github.com/zjunlp/EasyEdit.

Avaliando a Consistência de Objetos Multivisão em Humanos e Modelos de Imagem
Evaluating Multiview Object Consistency in Humans and Image Models

Sep 9

ByTyler Bonnen, Stephanie Fu, Yutong Bai, Thomas O'Connell, Yoni Friedman, Nancy Kanwisher, Joshua B. Tenenbaum, Alexei A. Efros

Apresentamos um benchmark para avaliar diretamente o alinhamento entre observadores humanos e modelos de visão em uma tarefa de inferência de forma 3D. Utilizamos um design experimental das ciências cognitivas que requer inferências visuais sem treinamento sobre a forma do objeto: dado um conjunto de imagens, os participantes identificam quais contêm objetos iguais/diferentes, apesar da considerável variação de ponto de vista. Utilizamos uma ampla gama de imagens que incluem objetos comuns (por exemplo, cadeiras) e formas abstratas (ou seja, objetos gerados proceduralmente 'sem sentido'). Após a construção de mais de 2000 conjuntos de imagens únicas, administramos essas tarefas a participantes humanos, coletando 35 mil tentativas de dados comportamentais de mais de 500 participantes. Isso inclui comportamentos de escolha explícitos, bem como medidas intermediárias, como tempo de reação e dados de olhar. Em seguida, avaliamos o desempenho de modelos de visão comuns (por exemplo, DINOv2, MAE, CLIP). Descobrimos que os humanos superam todos os modelos por uma ampla margem. Usando uma abordagem de avaliação multi-escala, identificamos similaridades e diferenças subjacentes entre modelos e humanos: enquanto o desempenho humano-modelo está correlacionado, os humanos alocam mais tempo/processamento em tentativas desafiadoras. Todas as imagens, dados e código podem ser acessados através da nossa página do projeto.

Iniciativa de Dados de Linguagem Aberta: Avançando a Tradução Automática de Baixo Recurso para o Karakalpak
Open Language Data Initiative: Advancing Low-Resource Machine Translation for Karakalpak

Sep 6

ByMukhammadsaid Mamasaidov, Abror Shopulatov

Este estudo apresenta várias contribuições para a língua Karakalpak: um conjunto de dados de teste de desenvolvimento FLORES+ traduzido para o Karakalpak, corpora paralelos para Uzbeque-Karakalpak, Russo-Karakalpak e Inglês-Karakalpak de 100.000 pares cada e modelos neurais ajustados finamente de código aberto para tradução entre esses idiomas. Nossos experimentos comparam diferentes variantes de modelos e abordagens de treinamento, demonstrando melhorias em relação às bases existentes. Este trabalho, realizado como parte da tarefa compartilhada da Iniciativa de Dados de Linguagem Aberta (OLDI), tem como objetivo avançar as capacidades de tradução automática para o Karakalpak e contribuir para a expansão da diversidade linguística nas tecnologias de PNL.

UniDet3D: Detecção de Objetos 3D em Ambientes Internos com Múltiplos Conjuntos de Dados
UniDet3D: Multi-dataset Indoor 3D Object Detection

Sep 6

ByMaksim Kolodiazhnyi, Anna Vorontsova, Matvey Skripkin, Danila Rukhovich, Anton Konushin

A crescente demanda dos clientes por soluções inteligentes em robótica e realidade aumentada tem atraído considerável atenção para a detecção de objetos 3D a partir de nuvens de pontos. No entanto, conjuntos de dados internos existentes, tomados individualmente, são muito pequenos e insuficientemente diversos para treinar um modelo poderoso e geral de detecção de objetos 3D. Enquanto isso, abordagens mais gerais que utilizam modelos fundamentais ainda são inferiores em qualidade àquelas baseadas em treinamento supervisionado para uma tarefa específica. Neste trabalho, propomos um modelo simples, porém eficaz, de detecção de objetos 3D, que é treinado em uma mistura de conjuntos de dados internos e é capaz de funcionar em vários ambientes internos. Ao unificar diferentes espaços de rótulos, o modelo proposto permite aprender uma representação forte em vários conjuntos de dados por meio de um esquema de treinamento conjunto supervisionado. A arquitetura de rede proposta é construída sobre um codificador transformer básico, facilitando a execução, personalização e extensão do pipeline de previsão para uso prático. Experimentos extensivos demonstram que o modelo obtém ganhos significativos em relação aos métodos existentes de detecção de objetos 3D em 6 benchmarks internos: ScanNet (+1,1 mAP50), ARKitScenes (+19,4 mAP25), S3DIS (+9,1 mAP50), MultiScan (+9,3 mAP50), 3RScan (+3,2 mAP50) e ScanNet++ (+2,7 mAP50). O código está disponível em https://github.com/filapro/unidet3d.

Ideias da Avaliação Comparativa de Modelos de Linguagem de Ponta na Geração de Código de Aplicativos Web
Insights from Benchmarking Frontier Language Models on Web App Code Generation

Sep 8

ByYi Cui

Este artigo apresenta insights da avaliação de 16 modelos de linguagem grandes (LLMs) de ponta no benchmark WebApp1K, uma suíte de testes projetada para avaliar a capacidade dos LLMs de gerar código de aplicativos web. Os resultados revelam que, embora todos os modelos possuam conhecimento subjacente semelhante, seu desempenho é diferenciado pela frequência de erros que cometem. Ao analisar linhas de código (LOC) e distribuições de falhas, descobrimos que escrever código correto é mais complexo do que gerar código incorreto. Além disso, a engenharia de prompts mostra eficácia limitada na redução de erros além de casos específicos. Essas descobertas sugerem que avanços adicionais no desenvolvimento de LLMs para codificação devem enfatizar a confiabilidade do modelo e a minimização de erros.

Modelos de Utilidade de Robô: Políticas Gerais para Implantação sem Treinamento em Novos Ambientes
Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

Sep 9

ByHaritheja Etukuru, Norihito Naka, Zijin Hu, Seungjae Lee, Julian Mehu, Aaron Edsinger, Chris Paxton, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah