Artigos de pesquisa em IA selecionados diariamente com traduções
O Desaprendizado de Máquina (MU) é fundamental para aprimorar a privacidade e segurança em modelos de aprendizado profundo, especialmente em grandes modelos de linguagem multimodais (MLLMs), removendo informações específicas privadas ou perigosas. Enquanto o MU avançou significativamente em modalidades textuais e visuais, o desaprendizado multimodal (MMU) ainda é amplamente inexplorado, parcialmente devido à ausência de um benchmark de código aberto adequado. Para abordar essa questão, apresentamos o CLEAR, um novo benchmark projetado para avaliar métodos de MMU. O CLEAR contém 200 indivíduos fictícios e 3.700 imagens vinculadas a pares de perguntas e respostas correspondentes, possibilitando uma avaliação abrangente entre modalidades. Avaliamos 10 métodos de MU, adaptando-os para MMU, e destacamos novos desafios específicos para o esquecimento multimodal. Também demonstramos que a simples regularização ell_1 nos pesos LoRA mitiga significativamente o esquecimento catastrófico, preservando o desempenho do modelo nos dados retidos. O conjunto de dados está disponível em https://huggingface.co/datasets/therem/CLEAR
Tarefas de ciência de dados envolvendo dados tabulares apresentam desafios complexos que exigem abordagens sofisticadas de resolução de problemas. Propomos o AutoKaggle, um framework poderoso e centrado no usuário que auxilia cientistas de dados na conclusão diária de pipelines de dados por meio de um sistema colaborativo de múltiplos agentes. O AutoKaggle implementa um processo de desenvolvimento iterativo que combina execução de código, depuração e testes unitários abrangentes para garantir a correção do código e a consistência lógica. O framework oferece fluxos de trabalho altamente personalizáveis, permitindo que os usuários intervenham em cada fase, integrando assim inteligência automatizada com expertise humana. Nosso kit de ferramentas universal de ciência de dados, composto por funções validadas para limpeza de dados, engenharia de características e modelagem, constitui a base desta solução, aprimorando a produtividade ao simplificar tarefas comuns. Selecionamos 8 competições do Kaggle para simular fluxos de processamento de dados em cenários de aplicação do mundo real. Os resultados da avaliação demonstram que o AutoKaggle alcança uma taxa de submissão de validação de 0,85 e uma pontuação abrangente de 0,82 em pipelines típicos de ciência de dados, provando totalmente sua eficácia e praticidade no tratamento de tarefas complexas de ciência de dados.
O raciocínio de relação social tem como objetivo identificar categorias de relação, como amigos, cônjuges e colegas, a partir de imagens. Enquanto os métodos atuais adotam o paradigma de treinar uma rede dedicada de ponta a ponta usando dados de imagem rotulados, eles são limitados em termos de generalização e interpretabilidade. Para lidar com essas questões, apresentamos primeiro um framework simples, porém bem elaborado, chamado {\name}, que combina a capacidade de percepção dos Modelos de Fundação de Visão (VFMs) e a capacidade de raciocínio dos Modelos de Linguagem Grandes (LLMs) dentro de um framework modular, fornecendo uma base sólida para o reconhecimento de relações sociais. Especificamente, instruímos os VFMs a traduzir o conteúdo da imagem em uma história social textual e, em seguida, utilizamos os LLMs para o raciocínio baseado em texto. {\name} introduz princípios de design sistemáticos para adaptar os VFMs e LLMs separadamente e preencher suas lacunas. Sem treinamento adicional do modelo, ele alcança resultados competitivos de zero-shot em duas bases de dados, oferecendo respostas interpretáveis, uma vez que os LLMs podem gerar explicações baseadas em linguagem para as decisões. O processo de design manual de prompts para LLMs na fase de raciocínio é tedioso e um método automatizado de otimização de prompts é desejado. Como essencialmente convertemos uma tarefa de classificação visual em uma tarefa generativa de LLMs, a otimização automática de prompts enfrenta um problema único de otimização de prompts longos. Para lidar com essa questão, propomos ainda a Otimização de Prompt de Segmento Gananciosa (GSPO), que realiza uma busca gananciosa utilizando informações de gradiente no nível de segmento. Resultados experimentais mostram que o GSPO melhora significativamente o desempenho, e nosso método também generaliza para diferentes estilos de imagem. O código está disponível em https://github.com/Mengzibin/SocialGPT.
O raciocínio matemático é uma capacidade crucial para Modelos de Linguagem de Grande Escala (LLMs), no entanto, gerar traços de raciocínio detalhados e precisos continua sendo um desafio significativo. Este artigo apresenta uma abordagem inovadora para produzir traços de raciocínio de alta qualidade para o ajuste fino de LLMs usando Fluxos de aprendizado online. Nosso método emprega um Fluxo de produção de saída incremental, onde LLMs componentes constroem soluções colaborativamente por meio de comunicação iterativa. Treinamos o Fluxo usando aprendizado online de Otimização de Preferência Direta (DPO) com simulações, gerando pares DPO para cada exemplo de treinamento e atualizando os modelos em tempo real. Comparamos diretamente a qualidade dos traços de raciocínio gerados por nosso método com aqueles produzidos por inferência direta do modelo, demonstrando a eficácia de nossa abordagem em melhorar o desempenho de LLMs em tarefas de raciocínio matemático.
Grandes modelos de linguagem (LLMs) têm demonstrado uma notável capacidade na geração de código, com mais de 90 pass@1 na resolução de problemas de codificação em Python no HumanEval e MBPP. Essa alta precisão levanta a questão: os LLMs podem substituir programadores humanos? Os benchmarks existentes de geração de código manualmente elaborados, simples ou de uma única linha, não podem responder a essa pergunta devido à sua discrepância com o desenvolvimento de software do mundo real. Para responder a essa pergunta, propomos o REPOCOD, um benchmark de geração de código com 980 problemas coletados de 11 projetos do mundo real populares, sendo que mais de 58% deles requerem informações de contexto em nível de arquivo ou repositório. Além disso, o REPOCOD possui o maior comprimento médio de solução canônica (331,6 tokens) e a maior complexidade ciclomática média (9,00) em comparação com benchmarks existentes. Em nossas avaliações com dez LLMs, nenhum dos modelos conseguiu atingir mais de 30 pass@1 no REPOCOD, revelando a necessidade de construir LLMs mais robustos que possam auxiliar os desenvolvedores no desenvolvimento de software do mundo real.
O rápido desenvolvimento de grandes modelos de linguagem e multimodais tem despertado um interesse significativo em utilizar modelos proprietários, como o GPT-4o, para desenvolver agentes autônomos capazes de lidar com cenários do mundo real, como navegação na web. Embora esforços recentes de código aberto tenham tentado capacitar agentes com a habilidade de explorar ambientes e melhorar continuamente ao longo do tempo, eles estão construindo agentes apenas de texto em ambientes sintéticos onde os sinais de recompensa são claramente definidos. Tais agentes têm dificuldade em generalizar para configurações realistas que exigem habilidades de percepção multimodal e carecem de sinais de verdade absoluta. Neste artigo, apresentamos um framework de código aberto projetado para facilitar o desenvolvimento de um agente web multimodal que possa conduzir autonomamente a exploração do mundo real e se aprimorar. Primeiramente, treinamos o modelo base com aprendizado por imitação para adquirir as habilidades básicas. Em seguida, permitimos que o agente explore a web aberta e colete feedback sobre suas trajetórias. Posteriormente, ele aprimora ainda mais sua política aprendendo com trajetórias bem-sucedidas avaliadas por outro modelo de propósito geral. Este ciclo de exploração-feedback-otimização pode continuar por várias iterações. Resultados experimentais mostram que nosso agente web melhora com sucesso a si mesmo após cada iteração, demonstrando um desempenho sólido em diversos conjuntos de testes.
A aprendizagem por reforço (RL) tem grande potencial para permitir a aquisição autônoma de habilidades complexas de manipulação robótica, mas realizar esse potencial em ambientes do mundo real tem sido desafiador. Apresentamos um sistema de RL baseado em visão com interação humana que demonstra um desempenho impressionante em uma variedade de tarefas de manipulação habilidosa, incluindo manipulação dinâmica, montagem de precisão e coordenação de dois braços. Nossa abordagem integra demonstrações e correções humanas, algoritmos eficientes de RL e outras escolhas de design em nível de sistema para aprender políticas que alcançam taxas de sucesso quase perfeitas e tempos de ciclo rápidos em apenas 1 a 2,5 horas de treinamento. Mostramos que nosso método supera significativamente as bases de aprendizagem por imitação e abordagens anteriores de RL, com uma melhoria média de 2x na taxa de sucesso e execução 1,8x mais rápida. Através de experimentos extensivos e análises, fornecemos insights sobre a eficácia de nossa abordagem, demonstrando como ela aprende políticas robustas e adaptativas para estratégias de controle reativo e preditivo. Nossos resultados sugerem que o RL pode de fato aprender uma ampla gama de políticas complexas de manipulação baseadas em visão diretamente no mundo real dentro de tempos de treinamento práticos. Esperamos que este trabalho inspire uma nova geração de técnicas de manipulação robótica aprendidas, beneficiando tanto aplicações industriais quanto avanços na pesquisa. Vídeos e código estão disponíveis em nosso site do projeto https://hil-serl.github.io/.
A estratégia de indução de cadeia de pensamento (CoT) tornou-se amplamente utilizada para trabalhar com grandes modelos de linguagem e multimodais. Embora a CoT tenha demonstrado melhorar o desempenho em muitas tarefas, determinar as configurações em que ela é eficaz continua sendo um esforço contínuo. Em particular, ainda é uma questão em aberto em que configurações a CoT reduz sistematicamente o desempenho do modelo. Neste artigo, buscamos identificar as características de tarefas em que a CoT reduz o desempenho, inspirando-nos na psicologia cognitiva, analisando casos em que (i) o pensamento verbal ou a deliberação prejudicam o desempenho em humanos e (ii) as restrições que regem o desempenho humano se generalizam para modelos de linguagem. Três desses casos são aprendizagem estatística implícita, reconhecimento visual e classificação com padrões contendo exceções. Em experimentos extensivos em todas essas configurações, descobrimos que uma coleção diversificada de modelos de última geração apresentam quedas significativas no desempenho (por exemplo, até 36,3% de precisão absoluta para o OpenAI o1-preview em comparação com o GPT-4o) ao usar raciocínio no momento da inferência em comparação com contrapartes de zero-shot. Também identificamos três tarefas que satisfazem a condição (i) mas não (ii) e descobrimos que, enquanto o pensamento verbal reduz o desempenho humano nessas tarefas, a CoT mantém ou aumenta o desempenho do modelo. No geral, nossos resultados mostram que, embora não haja um paralelo exato entre os processos cognitivos dos modelos e os dos humanos, considerar casos em que o pensamento tem consequências negativas para o desempenho humano pode nos ajudar a identificar configurações em que ele impacta negativamente os modelos. Ao conectar a literatura sobre deliberação humana com avaliações da CoT, oferecemos uma nova ferramenta que pode ser usada para entender o impacto das escolhas de prompts e do raciocínio no momento da inferência.
Investigamos as representações internas dos modelos de visão e linguagem (VLMs) e como eles codificam representações de tarefas. Consideramos tarefas especificadas por meio de exemplos ou instruções, utilizando entradas de texto ou imagem. Surpreendentemente, descobrimos que tarefas conceitualmente semelhantes são mapeadas para representações vetoriais de tarefas semelhantes, independentemente de como são especificadas. Nossas descobertas sugerem que, para produzir respostas, os tokens nos VLMs passam por três fases distintas: entrada, tarefa e resposta, um processo que é consistente entre diferentes modalidades e especificações. Os vetores de tarefa que identificamos nos VLMs são suficientemente gerais para serem derivados em uma modalidade (por exemplo, texto) e transferidos para outra (por exemplo, imagem). Além disso, descobrimos que a combinação de vetores de tarefa baseados em exemplos e instruções produz representações de tarefas melhores. Em conjunto, essas percepções lançam luz sobre os mecanismos subjacentes dos VLMs, especialmente sua capacidade de representar tarefas de maneira compartilhada entre diferentes modalidades e especificações de tarefas. Página do projeto: https://task-vectors-are-cross-modal.github.io.
Com a ampla implantação de modelos de linguagem grandes de contexto longo (LLMs), houve uma crescente demanda por suporte eficiente de inferência de alto rendimento. No entanto, à medida que o cache chave-valor (KV) se expande com o comprimento da sequência, o aumento da pegada de memória e a necessidade de acessá-lo para cada geração de token resultam em baixo rendimento ao servir LLMs de contexto longo. Embora vários métodos dinâmicos de atenção esparsa tenham sido propostos para acelerar a inferência mantendo a qualidade da geração, eles falham em reduzir suficientemente o consumo de memória da GPU ou introduzem latência significativa de decodificação ao transferir o cache KV para a CPU. Apresentamos o ShadowKV, um sistema de inferência de alto rendimento para LLMs de contexto longo que armazena o cache de chaves de baixa ordem e transfere o cache de valores para reduzir a pegada de memória para tamanhos de lote maiores e sequências mais longas. Para minimizar a latência de decodificação, o ShadowKV emprega uma estratégia precisa de seleção KV que reconstrói pares KV esparsos mínimos sob demanda. Ao avaliar o ShadowKV em uma ampla gama de benchmarks, incluindo RULER, LongBench e Needle In A Haystack, e modelos como Llama-3.1-8B, Llama-3-8B-1M, GLM-4-9B-1M, Yi-9B-200K, Phi-3-Mini-128K e Qwen2-7B-128K, demonstramos que ele pode suportar até 6 vezes maiores tamanhos de lote e aumentar o rendimento em até 3,04 vezes em uma GPU A100 sem sacrificar a precisão, superando até mesmo o desempenho alcançável com tamanho de lote infinito sob a suposição de memória de GPU infinita. O código está disponível em https://github.com/bytedance/ShadowKV.
O pré-treinamento de representações visuais tem aprimorado a eficiência do aprendizado de robôs. Devido à falta de conjuntos de dados robóticos em grande escala no domínio específico, trabalhos anteriores utilizam vídeos de humanos em ambientes naturais para pré-treinar a representação visual robótica. Apesar dos resultados promissores, as representações de vídeos humanos estão inevitavelmente sujeitas a mudanças de distribuição e carecem das informações dinâmicas cruciais para a conclusão de tarefas. Primeiramente, avaliamos várias representações pré-treinadas em termos de sua correlação com as tarefas robóticas subsequentes (ou seja, centralidade na manipulação). Interessantemente, descobrimos que a "centralidade na manipulação" é um forte indicador das taxas de sucesso quando aplicadas a tarefas subsequentes. Com base nesses achados, propomos a Representação Centrada na Manipulação (RCM), um framework de aprendizado de representação fundamental que captura tanto características visuais quanto informações dinâmicas, como ações e propriocepções de tarefas de manipulação, para melhorar a centralidade na manipulação. Especificamente, pré-treinamos um codificador visual no conjunto de dados robóticos DROID e utilizamos dados relevantes de movimento, como estados proprioceptivos do robô e ações. Introduzimos uma nova perda contrastiva que alinha observações visuais com a dinâmica estado-ação proprioceptiva do robô, combinada com uma perda de ator semelhante à clonagem de comportamento (BC) para prever ações durante o pré-treinamento, juntamente com uma perda contrastiva temporal. Resultados empíricos em 4 domínios de simulação com 20 tarefas confirmam que a RCM supera o método de referência mais forte em 14,8%. Além disso, a RCM melhora o desempenho da aprendizagem eficiente de dados com um braço UR5e em 3 tarefas do mundo real em 76,9%. Website do projeto: https://robots-pretrain-robots.github.io/.
A construção de sistemas de recuperação densa eficazes continua sendo difícil quando a supervisão de relevância não está disponível. Trabalhos recentes têm buscado superar esse desafio ao utilizar um Modelo de Linguagem Grande (LLM) para gerar documentos hipotéticos que podem ser usados para encontrar o documento real mais próximo. No entanto, essa abordagem depende exclusivamente do LLM possuir conhecimento específico do domínio relevante à consulta, o que pode não ser prático. Além disso, a geração de documentos hipotéticos pode ser ineficiente, pois requer que o LLM gere um grande número de tokens para cada consulta. Para enfrentar esses desafios, apresentamos os Incorporamentos de Documentos Reais a partir do Feedback de Relevância (ReDE-RF). Inspirado no feedback de relevância, o ReDE-RF propõe reformular a geração de documentos hipotéticos como uma tarefa de estimação de relevância, utilizando um LLM para selecionar quais documentos devem ser usados para a busca do vizinho mais próximo. Através dessa reformulação, o LLM não precisa mais de conhecimento específico do domínio, mas apenas precisa avaliar o que é relevante. Além disso, a estimação de relevância requer apenas que o LLM produza um único token, melhorando assim a latência da busca. Nossos experimentos mostram que o ReDE-RF consistentemente supera os métodos de recuperação densa de zero-shot de última geração em uma ampla gama de conjuntos de dados de recuperação de baixos recursos, ao mesmo tempo em que apresenta melhorias significativas na latência por consulta.
Algoritmos de otimização de preferência em pares offline tornaram-se uma abordagem popular para ajuste fino em dados de preferência, superando o ajuste fino supervisionado tradicional em várias tarefas. No entanto, implementações tradicionais frequentemente envolvem cálculos redundantes, especialmente para tarefas com prompts compartilhados longos. Introduzimos o compartilhamento de prefixo para ajuste de preferência, uma técnica inovadora que processa respostas escolhidas e rejeitadas como uma sequência com um prefixo compartilhado. Para evitar contaminação entre respostas, utilizamos uma máscara de atenção personalizada com blocos esparsos. Nosso método alcança uma melhoria de 1,1 a 1,5 vezes na taxa de treinamento em conjuntos de dados DPO populares, sem qualquer efeito na convergência. Quando combinado com empacotamento de sequência, observamos acelerações consistentes de 1,3 a 1,6 vezes, beneficiando até mesmo conjuntos de dados com comprimentos de sequência menores. Embora nos concentremos na Otimização de Preferência Direta (DPO), nossa abordagem é aplicável a outros métodos de ajuste de preferência em pares. Ao aprimorar a eficiência computacional, nosso trabalho contribui para tornar o ajuste fino baseado em preferência mais acessível para uma ampla gama de aplicações e tamanhos de modelo. Disponibilizamos nosso código aberto em https://github.com/frankxwang/dpo-prefix-sharing.
Investigamos se exemplos em contexto, amplamente utilizados em modelos de linguagem apenas decodificadores (LLMs), podem melhorar o desempenho do modelo de incorporação em tarefas de recuperação. Ao contrário dos LLMs, a simples adição de exemplos em contexto (pares de consulta-documento) à consulta alvo no momento da inferência não funciona imediatamente. Introduzimos uma abordagem simples para permitir que recuperadores usem exemplos em contexto. Nossa abordagem, RARe, ajusta finamente um modelo pré-treinado com exemplos em contexto cuja consulta é semanticamente similar à consulta alvo. Isso pode ser aplicado para adaptar várias arquiteturas base (ou seja, modelos de linguagem apenas decodificadores, modelos recuperadores) e consistentemente alcança ganhos de desempenho de até +2,72% nDCG em vários conjuntos de dados de recuperação de domínio aberto (BeIR, RAR-b). Em particular, descobrimos que RARe apresenta uma generalização mais forte fora do domínio em comparação com modelos que usam consultas sem exemplos em contexto, semelhante ao que é observado para o aprendizado em contexto em LLMs. Além disso, fornecemos uma análise sobre as escolhas de design da ampliação de exemplos em contexto e lançamos as bases para trabalhos futuros neste espaço.
Os grandes modelos de linguagem (LLMs) são suscetíveis a memorizar dados de treinamento, levantando preocupações devido à possível extração de informações sensíveis. Os métodos atuais para medir as taxas de memorização de LLMs, principalmente extração descobrível (Carlini et al., 2022), baseiam-se em amostragem gananciosa de sequência única, potencialmente subestimando a verdadeira extensão da memorização. Este artigo introduz uma relaxação probabilística da extração descobrível que quantifica a probabilidade de extrair uma sequência-alvo dentro de um conjunto de amostras geradas, considerando vários esquemas de amostragem e múltiplas tentativas. Esta abordagem aborda as limitações de relatar taxas de memorização por meio da extração descobrível, levando em conta a natureza probabilística dos LLMs e padrões de interação do usuário. Nossos experimentos demonstram que essa medida probabilística pode revelar casos de taxas de memorização mais altas em comparação com as taxas encontradas por meio da extração descobrível. Investigamos ainda o impacto de diferentes esquemas de amostragem na extração, fornecendo uma avaliação mais abrangente e realista da memorização de LLM e seus riscos associados. Nossas contribuições incluem uma nova definição probabilística de memorização, evidências empíricas de sua eficácia e uma avaliação minuciosa em diferentes modelos, tamanhos, esquemas de amostragem e repetições de dados de treinamento.