Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Modelos de Linguagem de Grande Escala Orquestrando Raciocínio Estruturado Alcançam o Nível de Mestre no Kaggle.
Large Language Models Orchestrating Structured Reasoning Achieve Kaggle Grandmaster Level

Nov 5

ByAntoine Grosnit, Alexandre Maraval, James Doran, Giuseppe Paolo, Albert Thomas, Refinath Shahul Hameed Nabeezath Beevi, Jonas Gonzalez, Khyati Khandelwal, Ignacio Iacobacci, Abdelhakim Benechehab, Hamza Cherkaoui, Youssef Attia El-Hili, Kun Shao, Jianye Hao, Jun Yao, Balazs Kegl, Haitham Bou-Ammar, Jun Wang

Apresentamos o Agente K v1.0, um agente autônomo de ciência de dados de ponta a ponta projetado para automatizar, otimizar e generalizar em diversas tarefas de ciência de dados. Totalmente automatizado, o Agente K v1.0 gerencia todo o ciclo de vida da ciência de dados aprendendo com a experiência. Ele utiliza um framework de raciocínio estruturado altamente flexível para permitir o processamento dinâmico da memória em uma estrutura aninhada, aprendendo de forma eficaz com a experiência acumulada armazenada para lidar com tarefas de raciocínio complexas. O agente otimiza a memória de longo e curto prazo armazenando e recuperando seletivamente informações-chave, orientando decisões futuras com base em recompensas ambientais. Essa abordagem iterativa permite refinar decisões sem ajustes finos ou retropropagação, alcançando melhoria contínua por meio de aprendizado experiencial. Avaliamos as capacidades de nosso agente usando competições do Kaggle como estudo de caso. Seguindo um protocolo totalmente automatizado, o Agente K v1.0 aborda sistematicamente tarefas complexas e multimodais de ciência de dados, empregando otimização Bayesiana para ajuste de hiperparâmetros e engenharia de características. Nosso novo framework de avaliação avalia rigorosamente as capacidades de ponta a ponta do Agente K v1.0 para gerar e enviar inscrições a partir de um URL de competição do Kaggle. Os resultados demonstram que o Agente K v1.0 alcança uma taxa de sucesso de 92,5\% em tarefas, abrangendo domínios tabulares, visão computacional, PNL e multimodais. Ao ser comparado com 5.856 competidores humanos do Kaggle, calculando pontuações Elo-MMR para cada um, o Agente K v1.0 se classifica no top 38\%, demonstrando um nível de habilidade geral comparável aos usuários de nível Expert. Notavelmente, sua pontuação Elo-MMR fica entre o primeiro e o terceiro quartil das pontuações alcançadas pelos Grandmasters humanos. Além disso, nossos resultados indicam que o Agente K v1.0 atingiu um nível de desempenho equivalente ao de um Kaggle Grandmaster, com um recorde de 6 medalhas de ouro, 3 de prata e 7 de bronze, conforme definido pelo sistema de progressão do Kaggle.

Texto e imagens vazados! Uma análise sistemática da contaminação de dados do LLM multimodal.
Both Text and Images Leaked! A Systematic Analysis of Multimodal LLM Data Contamination

Nov 6

ByDingjie Song, Sicheng Lai, Shunian Chen, Lichao Sun, Benyou Wang

A rápida progressão dos grandes modelos de linguagem multimodais (MLLMs) tem demonstrado desempenho superior em vários benchmarks multimodais. No entanto, a questão da contaminação de dados durante o treinamento cria desafios na avaliação e comparação de desempenho. Embora existam inúmeros métodos para detectar contaminação de conjuntos de dados em grandes modelos de linguagem (LLMs), eles são menos eficazes para MLLMs devido às suas várias modalidades e múltiplas fases de treinamento. Neste estudo, apresentamos um framework de detecção de contaminação de dados multimodais, MM-Detect, projetado para MLLMs. Nossos resultados experimentais indicam que o MM-Detect é sensível a diferentes graus de contaminação e pode destacar melhorias significativas de desempenho devido ao vazamento do conjunto de treinamento de benchmarks multimodais. Além disso, exploramos a possibilidade de contaminação originada da fase de pré-treinamento de LLMs usada por MLLMs e da fase de ajuste fino de MLLMs, oferecendo novas perspectivas sobre as etapas em que a contaminação pode ser introduzida.

Ativações de Composição Polinomial: Liberando a Dinâmica de Modelos de Linguagem Grandes
Polynomial Composition Activations: Unleashing the Dynamics of Large Language Models

Nov 6

ByZhijian Zhuo, Ya Wang, Yutao Zeng, Xiaoqing Li, Xun Zhou, Jinwen Ma

Os Transformers têm encontrado amplas aplicações em diversos domínios devido às suas poderosas capacidades de ajuste. Este sucesso pode ser parcialmente atribuído à sua não linearidade inerente. Assim, além da função ReLU empregada na arquitetura original do transformer, os pesquisadores têm explorado módulos alternativos como GeLU e SwishGLU para aprimorar a não linearidade e, assim, aumentar a capacidade representacional. Neste artigo, propomos uma nova categoria de ativações de composição polinomial (PolyCom), projetadas para otimizar a dinâmica dos transformers. Teoricamente, fornecemos uma análise matemática abrangente do PolyCom, destacando sua expressividade aprimorada e eficácia em relação a outras funções de ativação. Notavelmente, demonstramos que redes que incorporam o PolyCom alcançam a taxa de aproximação ótima, indicando que as redes PolyCom requerem parâmetros mínimos para aproximar funções suaves gerais em espaços de Sobolev. Realizamos experimentos empíricos nas configurações de pré-treinamento de grandes modelos de linguagem (LLMs), incluindo arquiteturas densas e esparsas. Ao substituir funções de ativação convencionais por PolyCom, permitimos que os LLMs capturem interações de ordem superior nos dados, melhorando assim as métricas de desempenho em termos de precisão e taxas de convergência. Resultados experimentais extensivos demonstram a eficácia do nosso método, mostrando melhorias substanciais em relação a outras funções de ativação. O código está disponível em https://github.com/BryceZhuo/PolyCom.

TIP-I2V: A Million-Scale Real Text and Image Prompt Dataset for Image-to-Video Generation

Nov 5

ByWenhao Wang, Yi Yang

Video generation models are revolutionizing content creation, with image-to-video models drawing increasing attention due to their enhanced controllability, visual consistency, and practical applications. However, despite their popularity, these models rely on user-provided text and image prompts, and there is currently no dedicated dataset for studying these prompts. In this paper, we introduce TIP-I2V, the first large-scale dataset of over 1.70 million unique user-provided Text and Image Prompts specifically for Image-to-Video generation. Additionally, we provide the corresponding generated videos from five state-of-the-art image-to-video models. We begin by outlining the time-consuming and costly process of curating this large-scale dataset. Next, we compare TIP-I2V to two popular prompt datasets, VidProM (text-to-video) and DiffusionDB (text-to-image), highlighting differences in both basic and semantic information. This dataset enables advancements in image-to-video research. For instance, to develop better models, researchers can use the prompts in TIP-I2V to analyze user preferences and evaluate the multi-dimensional performance of their trained models; and to enhance model safety, they may focus on addressing the misinformation issue caused by image-to-video models. The new research inspired by TIP-I2V and the differences with existing datasets emphasize the importance of a specialized image-to-video prompt dataset. The project is publicly available at https://tip-i2v.github.io.

Otimização de Preferência de Autoconsistência
Self-Consistency Preference Optimization

Nov 6

ByArchiki Prasad, Weizhe Yuan, Richard Yuanzhe Pang, Jing Xu, Maryam Fazel-Zarandi, Mohit Bansal, Sainbayar Sukhbaatar, Jason Weston, Jane Yu

A autoalinhamento, em que os modelos aprendem a melhorar-se sem anotação humana, é uma área de pesquisa em rápido crescimento. No entanto, as técnicas existentes frequentemente falham em melhorar tarefas de raciocínio complexas devido à dificuldade de atribuir recompensas corretas. Uma abordagem ortogonal conhecida por melhorar a correção é a autoconsistência, um método aplicado no momento da inferência com base em múltiplas amostragens para encontrar a resposta mais consistente. Neste trabalho, estendemos o conceito de autoconsistência para auxiliar no treinamento de modelos. Assim, introduzimos a otimização de preferência de autoconsistência (ScPO), que treina de forma iterativa respostas consistentes para serem preferidas em relação às inconsistentes em novos problemas não supervisionados. Mostramos que o ScPO resulta em grandes melhorias em relação ao treinamento convencional de modelos com recompensas em tarefas de raciocínio como GSM8K e MATH, reduzindo a diferença em relação ao treinamento supervisionado com respostas ou preferências corretas, e que a combinação do ScPO com aprendizado supervisionado padrão melhora ainda mais os resultados. No ZebraLogic, o ScPO ajusta finamente o Llama-3 8B para ser superior ao Llama-3 70B, Gemma-2 27B e Claude-3 Haiku.

De Medprompt para o1: Exploração de Estratégias em Tempo de Execução para Problemas Desafiadores em Medicina e Além disso
From Medprompt to o1: Exploration of Run-Time Strategies for Medical Challenge Problems and Beyond

Nov 6

ByHarsha Nori, Naoto Usuyama, Nicholas King, Scott Mayer McKinney, Xavier Fernandes, Sheng Zhang, Eric Horvitz

Estratégias de direcionamento em tempo de execução, como o Medprompt, são valiosas para orientar grandes modelos de linguagem (LLMs) para alcançar alto desempenho em tarefas desafiadoras. O Medprompt demonstra que um LLM geral pode ser direcionado para fornecer desempenho de ponta em domínios especializados, como a medicina, utilizando um prompt para elicitar uma estratégia em tempo de execução envolvendo raciocínio em cadeia e ensembles. O modelo o1-preview da OpenAI representa um novo paradigma, onde um modelo é projetado para realizar raciocínio em tempo de execução antes de gerar respostas finais. Buscamos compreender o comportamento do o1-preview em um conjunto diversificado de benchmarks de desafios médicos. Seguindo o estudo do Medprompt com o GPT-4, avaliamos sistematicamente o modelo o1-preview em diversos benchmarks médicos. Notavelmente, mesmo sem técnicas de prompt, o o1-preview supera em grande parte a série GPT-4 com o Medprompt. Estudamos sistematicamente a eficácia de estratégias clássicas de engenharia de prompts, representadas pelo Medprompt, dentro do novo paradigma de modelos de raciocínio. Descobrimos que a utilização de prompts de poucas amostras prejudica o desempenho do o1, sugerindo que a aprendizagem em contexto pode não ser mais uma abordagem eficaz para modelos nativos de raciocínio. Embora o ensemble permaneça viável, é intensivo em recursos e requer otimização cuidadosa de custo-desempenho. Nossa análise de custo e precisão em relação às estratégias em tempo de execução revela uma fronteira de Pareto, com o GPT-4o representando uma opção mais acessível e o o1-preview alcançando desempenho de ponta a um custo mais elevado. Embora o o1-preview ofereça alto desempenho, o GPT-4o com estratégias de direcionamento como o Medprompt mantém valor em contextos específicos. Além disso, observamos que o modelo o1-preview atingiu quase a saturação em muitos benchmarks médicos existentes, destacando a necessidade de novos benchmarks desafiadores. Concluímos com reflexões sobre direções gerais para computação em tempo de inferência com LLMs.