Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Agente K v1.0, um agente autônomo de ciência de dados de ponta a ponta projetado para automatizar, otimizar e generalizar em diversas tarefas de ciência de dados. Totalmente automatizado, o Agente K v1.0 gerencia todo o ciclo de vida da ciência de dados aprendendo com a experiência. Ele utiliza um framework de raciocínio estruturado altamente flexível para permitir o processamento dinâmico da memória em uma estrutura aninhada, aprendendo de forma eficaz com a experiência acumulada armazenada para lidar com tarefas de raciocínio complexas. O agente otimiza a memória de longo e curto prazo armazenando e recuperando seletivamente informações-chave, orientando decisões futuras com base em recompensas ambientais. Essa abordagem iterativa permite refinar decisões sem ajustes finos ou retropropagação, alcançando melhoria contínua por meio de aprendizado experiencial. Avaliamos as capacidades de nosso agente usando competições do Kaggle como estudo de caso. Seguindo um protocolo totalmente automatizado, o Agente K v1.0 aborda sistematicamente tarefas complexas e multimodais de ciência de dados, empregando otimização Bayesiana para ajuste de hiperparâmetros e engenharia de características. Nosso novo framework de avaliação avalia rigorosamente as capacidades de ponta a ponta do Agente K v1.0 para gerar e enviar inscrições a partir de um URL de competição do Kaggle. Os resultados demonstram que o Agente K v1.0 alcança uma taxa de sucesso de 92,5\% em tarefas, abrangendo domínios tabulares, visão computacional, PNL e multimodais. Ao ser comparado com 5.856 competidores humanos do Kaggle, calculando pontuações Elo-MMR para cada um, o Agente K v1.0 se classifica no top 38\%, demonstrando um nível de habilidade geral comparável aos usuários de nível Expert. Notavelmente, sua pontuação Elo-MMR fica entre o primeiro e o terceiro quartil das pontuações alcançadas pelos Grandmasters humanos. Além disso, nossos resultados indicam que o Agente K v1.0 atingiu um nível de desempenho equivalente ao de um Kaggle Grandmaster, com um recorde de 6 medalhas de ouro, 3 de prata e 7 de bronze, conforme definido pelo sistema de progressão do Kaggle.
A rápida progressão dos grandes modelos de linguagem multimodais (MLLMs) tem demonstrado desempenho superior em vários benchmarks multimodais. No entanto, a questão da contaminação de dados durante o treinamento cria desafios na avaliação e comparação de desempenho. Embora existam inúmeros métodos para detectar contaminação de conjuntos de dados em grandes modelos de linguagem (LLMs), eles são menos eficazes para MLLMs devido às suas várias modalidades e múltiplas fases de treinamento. Neste estudo, apresentamos um framework de detecção de contaminação de dados multimodais, MM-Detect, projetado para MLLMs. Nossos resultados experimentais indicam que o MM-Detect é sensível a diferentes graus de contaminação e pode destacar melhorias significativas de desempenho devido ao vazamento do conjunto de treinamento de benchmarks multimodais. Além disso, exploramos a possibilidade de contaminação originada da fase de pré-treinamento de LLMs usada por MLLMs e da fase de ajuste fino de MLLMs, oferecendo novas perspectivas sobre as etapas em que a contaminação pode ser introduzida.
Os Transformers têm encontrado amplas aplicações em diversos domínios devido às suas poderosas capacidades de ajuste. Este sucesso pode ser parcialmente atribuído à sua não linearidade inerente. Assim, além da função ReLU empregada na arquitetura original do transformer, os pesquisadores têm explorado módulos alternativos como GeLU e SwishGLU para aprimorar a não linearidade e, assim, aumentar a capacidade representacional. Neste artigo, propomos uma nova categoria de ativações de composição polinomial (PolyCom), projetadas para otimizar a dinâmica dos transformers. Teoricamente, fornecemos uma análise matemática abrangente do PolyCom, destacando sua expressividade aprimorada e eficácia em relação a outras funções de ativação. Notavelmente, demonstramos que redes que incorporam o PolyCom alcançam a taxa de aproximação ótima, indicando que as redes PolyCom requerem parâmetros mínimos para aproximar funções suaves gerais em espaços de Sobolev. Realizamos experimentos empíricos nas configurações de pré-treinamento de grandes modelos de linguagem (LLMs), incluindo arquiteturas densas e esparsas. Ao substituir funções de ativação convencionais por PolyCom, permitimos que os LLMs capturem interações de ordem superior nos dados, melhorando assim as métricas de desempenho em termos de precisão e taxas de convergência. Resultados experimentais extensivos demonstram a eficácia do nosso método, mostrando melhorias substanciais em relação a outras funções de ativação. O código está disponível em https://github.com/BryceZhuo/PolyCom.
A autoalinhamento, em que os modelos aprendem a melhorar-se sem anotação humana, é uma área de pesquisa em rápido crescimento. No entanto, as técnicas existentes frequentemente falham em melhorar tarefas de raciocínio complexas devido à dificuldade de atribuir recompensas corretas. Uma abordagem ortogonal conhecida por melhorar a correção é a autoconsistência, um método aplicado no momento da inferência com base em múltiplas amostragens para encontrar a resposta mais consistente. Neste trabalho, estendemos o conceito de autoconsistência para auxiliar no treinamento de modelos. Assim, introduzimos a otimização de preferência de autoconsistência (ScPO), que treina de forma iterativa respostas consistentes para serem preferidas em relação às inconsistentes em novos problemas não supervisionados. Mostramos que o ScPO resulta em grandes melhorias em relação ao treinamento convencional de modelos com recompensas em tarefas de raciocínio como GSM8K e MATH, reduzindo a diferença em relação ao treinamento supervisionado com respostas ou preferências corretas, e que a combinação do ScPO com aprendizado supervisionado padrão melhora ainda mais os resultados. No ZebraLogic, o ScPO ajusta finamente o Llama-3 8B para ser superior ao Llama-3 70B, Gemma-2 27B e Claude-3 Haiku.
Estratégias de direcionamento em tempo de execução, como o Medprompt, são valiosas para orientar grandes modelos de linguagem (LLMs) para alcançar alto desempenho em tarefas desafiadoras. O Medprompt demonstra que um LLM geral pode ser direcionado para fornecer desempenho de ponta em domínios especializados, como a medicina, utilizando um prompt para elicitar uma estratégia em tempo de execução envolvendo raciocínio em cadeia e ensembles. O modelo o1-preview da OpenAI representa um novo paradigma, onde um modelo é projetado para realizar raciocínio em tempo de execução antes de gerar respostas finais. Buscamos compreender o comportamento do o1-preview em um conjunto diversificado de benchmarks de desafios médicos. Seguindo o estudo do Medprompt com o GPT-4, avaliamos sistematicamente o modelo o1-preview em diversos benchmarks médicos. Notavelmente, mesmo sem técnicas de prompt, o o1-preview supera em grande parte a série GPT-4 com o Medprompt. Estudamos sistematicamente a eficácia de estratégias clássicas de engenharia de prompts, representadas pelo Medprompt, dentro do novo paradigma de modelos de raciocínio. Descobrimos que a utilização de prompts de poucas amostras prejudica o desempenho do o1, sugerindo que a aprendizagem em contexto pode não ser mais uma abordagem eficaz para modelos nativos de raciocínio. Embora o ensemble permaneça viável, é intensivo em recursos e requer otimização cuidadosa de custo-desempenho. Nossa análise de custo e precisão em relação às estratégias em tempo de execução revela uma fronteira de Pareto, com o GPT-4o representando uma opção mais acessível e o o1-preview alcançando desempenho de ponta a um custo mais elevado. Embora o o1-preview ofereça alto desempenho, o GPT-4o com estratégias de direcionamento como o Medprompt mantém valor em contextos específicos. Além disso, observamos que o modelo o1-preview atingiu quase a saturação em muitos benchmarks médicos existentes, destacando a necessidade de novos benchmarks desafiadores. Concluímos com reflexões sobre direções gerais para computação em tempo de inferência com LLMs.