Artigos de pesquisa em IA selecionados diariamente com traduções
Recentemente, avanços na modelagem de vídeo permitiram trajetórias de câmera controláveis em vídeos gerados. No entanto, esses métodos não podem ser aplicados diretamente a vídeos fornecidos pelo usuário que não foram gerados por um modelo de vídeo. Neste artigo, apresentamos o ReCapture, um método para gerar novos vídeos com trajetórias de câmera inéditas a partir de um único vídeo fornecido pelo usuário. Nosso método nos permite regenerar o vídeo de referência, com todo o seu movimento de cena existente, a partir de ângulos radicalmente diferentes e com movimento de câmera cinematográfico. Notavelmente, usando nosso método também podemos plausivelmente alucinar partes da cena que não eram observáveis no vídeo de referência. Nosso método funciona (1) gerando um vídeo âncora ruidoso com uma nova trajetória de câmera usando modelos de difusão multiview ou renderização de nuvem de pontos baseada em profundidade e, em seguida, (2) regenerando o vídeo âncora em um vídeo reangulado limpo e temporalmente consistente usando nossa técnica proposta de ajuste fino de vídeo mascarado.
Apresentamos o Agente K v1.0, um agente autônomo de ciência de dados de ponta a ponta projetado para automatizar, otimizar e generalizar em diversas tarefas de ciência de dados. Totalmente automatizado, o Agente K v1.0 gerencia todo o ciclo de vida da ciência de dados aprendendo com a experiência. Ele utiliza um framework de raciocínio estruturado altamente flexível para permitir o processamento dinâmico da memória em uma estrutura aninhada, aprendendo de forma eficaz com a experiência acumulada armazenada para lidar com tarefas de raciocínio complexas. O agente otimiza a memória de longo e curto prazo armazenando e recuperando seletivamente informações-chave, orientando decisões futuras com base em recompensas ambientais. Essa abordagem iterativa permite refinar decisões sem ajustes finos ou retropropagação, alcançando melhoria contínua por meio de aprendizado experiencial. Avaliamos as capacidades de nosso agente usando competições do Kaggle como estudo de caso. Seguindo um protocolo totalmente automatizado, o Agente K v1.0 aborda sistematicamente tarefas complexas e multimodais de ciência de dados, empregando otimização Bayesiana para ajuste de hiperparâmetros e engenharia de características. Nosso novo framework de avaliação avalia rigorosamente as capacidades de ponta a ponta do Agente K v1.0 para gerar e enviar inscrições a partir de um URL de competição do Kaggle. Os resultados demonstram que o Agente K v1.0 alcança uma taxa de sucesso de 92,5\% em tarefas, abrangendo domínios tabulares, visão computacional, PNL e multimodais. Ao ser comparado com 5.856 competidores humanos do Kaggle, calculando pontuações Elo-MMR para cada um, o Agente K v1.0 se classifica no top 38\%, demonstrando um nível de habilidade geral comparável aos usuários de nível Expert. Notavelmente, sua pontuação Elo-MMR fica entre o primeiro e o terceiro quartil das pontuações alcançadas pelos Grandmasters humanos. Além disso, nossos resultados indicam que o Agente K v1.0 atingiu um nível de desempenho equivalente ao de um Kaggle Grandmaster, com um recorde de 6 medalhas de ouro, 3 de prata e 7 de bronze, conforme definido pelo sistema de progressão do Kaggle.
A rápida progressão dos grandes modelos de linguagem multimodais (MLLMs) tem demonstrado desempenho superior em vários benchmarks multimodais. No entanto, a questão da contaminação de dados durante o treinamento cria desafios na avaliação e comparação de desempenho. Embora existam inúmeros métodos para detectar contaminação de conjuntos de dados em grandes modelos de linguagem (LLMs), eles são menos eficazes para MLLMs devido às suas várias modalidades e múltiplas fases de treinamento. Neste estudo, apresentamos um framework de detecção de contaminação de dados multimodais, MM-Detect, projetado para MLLMs. Nossos resultados experimentais indicam que o MM-Detect é sensível a diferentes graus de contaminação e pode destacar melhorias significativas de desempenho devido ao vazamento do conjunto de treinamento de benchmarks multimodais. Além disso, exploramos a possibilidade de contaminação originada da fase de pré-treinamento de LLMs usada por MLLMs e da fase de ajuste fino de MLLMs, oferecendo novas perspectivas sobre as etapas em que a contaminação pode ser introduzida.
Os Transformers têm encontrado amplas aplicações em diversos domínios devido às suas poderosas capacidades de ajuste. Este sucesso pode ser parcialmente atribuído à sua não linearidade inerente. Assim, além da função ReLU empregada na arquitetura original do transformer, os pesquisadores têm explorado módulos alternativos como GeLU e SwishGLU para aprimorar a não linearidade e, assim, aumentar a capacidade representacional. Neste artigo, propomos uma nova categoria de ativações de composição polinomial (PolyCom), projetadas para otimizar a dinâmica dos transformers. Teoricamente, fornecemos uma análise matemática abrangente do PolyCom, destacando sua expressividade aprimorada e eficácia em relação a outras funções de ativação. Notavelmente, demonstramos que redes que incorporam o PolyCom alcançam a taxa de aproximação ótima, indicando que as redes PolyCom requerem parâmetros mínimos para aproximar funções suaves gerais em espaços de Sobolev. Realizamos experimentos empíricos nas configurações de pré-treinamento de grandes modelos de linguagem (LLMs), incluindo arquiteturas densas e esparsas. Ao substituir funções de ativação convencionais por PolyCom, permitimos que os LLMs capturem interações de ordem superior nos dados, melhorando assim as métricas de desempenho em termos de precisão e taxas de convergência. Resultados experimentais extensivos demonstram a eficácia do nosso método, mostrando melhorias substanciais em relação a outras funções de ativação. O código está disponível em https://github.com/BryceZhuo/PolyCom.
Os modelos de geração de vídeo estão revolucionando a criação de conteúdo, com os modelos de imagem-para-vídeo a atrair atenção crescente devido à sua maior controlabilidade, consistência visual e aplicações práticas. No entanto, apesar da sua popularidade, estes modelos dependem de instruções de texto e imagem fornecidas pelo utilizador, e atualmente não existe nenhum conjunto de dados dedicado ao estudo dessas instruções. Neste artigo, apresentamos o TIP-I2V, o primeiro conjunto de dados em larga escala com mais de 1,70 milhões de instruções de Texto e Imagem únicas fornecidas por utilizadores, especificamente para geração de Imagem-para-Vídeo. Adicionalmente, fornecemos os vídeos gerados correspondentes de cinco modelos estado da arte de imagem-para-vídeo. Começamos por descrever o processo moroso e dispendioso de curadoria deste conjunto de dados em larga escala. De seguida, comparamos o TIP-I2V com dois conjuntos de dados de instruções populares, VidProM (texto-para-vídeo) e DiffusionDB (texto-para-imagem), destacando diferenças tanto a nível de informação básica como semântica. Este conjunto de dados possibilita avanços na investigação de imagem-para-vídeo. Por exemplo, para desenvolver modelos melhores, os investigadores podem usar as instruções no TIP-I2V para analisar as preferências dos utilizadores e avaliar o desempenho multidimensional dos seus modelos treinados; e para melhorar a segurança dos modelos, podem focar-se em resolver o problema de desinformação causado pelos modelos de imagem-para-vídeo. A nova investigação inspirada pelo TIP-I2V e as diferenças com conjuntos de dados existentes enfatizam a importância de um conjunto de dados de instruções especializado em imagem-para-vídeo. O projeto está publicamente disponível em https://tip-i2v.github.io.
A autoalinhamento, em que os modelos aprendem a melhorar-se sem anotação humana, é uma área de pesquisa em rápido crescimento. No entanto, as técnicas existentes frequentemente falham em melhorar tarefas de raciocínio complexas devido à dificuldade de atribuir recompensas corretas. Uma abordagem ortogonal conhecida por melhorar a correção é a autoconsistência, um método aplicado no momento da inferência com base em múltiplas amostragens para encontrar a resposta mais consistente. Neste trabalho, estendemos o conceito de autoconsistência para auxiliar no treinamento de modelos. Assim, introduzimos a otimização de preferência de autoconsistência (ScPO), que treina de forma iterativa respostas consistentes para serem preferidas em relação às inconsistentes em novos problemas não supervisionados. Mostramos que o ScPO resulta em grandes melhorias em relação ao treinamento convencional de modelos com recompensas em tarefas de raciocínio como GSM8K e MATH, reduzindo a diferença em relação ao treinamento supervisionado com respostas ou preferências corretas, e que a combinação do ScPO com aprendizado supervisionado padrão melhora ainda mais os resultados. No ZebraLogic, o ScPO ajusta finamente o Llama-3 8B para ser superior ao Llama-3 70B, Gemma-2 27B e Claude-3 Haiku.
Estratégias de direcionamento em tempo de execução, como o Medprompt, são valiosas para orientar grandes modelos de linguagem (LLMs) para alcançar alto desempenho em tarefas desafiadoras. O Medprompt demonstra que um LLM geral pode ser direcionado para fornecer desempenho de ponta em domínios especializados, como a medicina, utilizando um prompt para elicitar uma estratégia em tempo de execução envolvendo raciocínio em cadeia e ensembles. O modelo o1-preview da OpenAI representa um novo paradigma, onde um modelo é projetado para realizar raciocínio em tempo de execução antes de gerar respostas finais. Buscamos compreender o comportamento do o1-preview em um conjunto diversificado de benchmarks de desafios médicos. Seguindo o estudo do Medprompt com o GPT-4, avaliamos sistematicamente o modelo o1-preview em diversos benchmarks médicos. Notavelmente, mesmo sem técnicas de prompt, o o1-preview supera em grande parte a série GPT-4 com o Medprompt. Estudamos sistematicamente a eficácia de estratégias clássicas de engenharia de prompts, representadas pelo Medprompt, dentro do novo paradigma de modelos de raciocínio. Descobrimos que a utilização de prompts de poucas amostras prejudica o desempenho do o1, sugerindo que a aprendizagem em contexto pode não ser mais uma abordagem eficaz para modelos nativos de raciocínio. Embora o ensemble permaneça viável, é intensivo em recursos e requer otimização cuidadosa de custo-desempenho. Nossa análise de custo e precisão em relação às estratégias em tempo de execução revela uma fronteira de Pareto, com o GPT-4o representando uma opção mais acessível e o o1-preview alcançando desempenho de ponta a um custo mais elevado. Embora o o1-preview ofereça alto desempenho, o GPT-4o com estratégias de direcionamento como o Medprompt mantém valor em contextos específicos. Além disso, observamos que o modelo o1-preview atingiu quase a saturação em muitos benchmarks médicos existentes, destacando a necessidade de novos benchmarks desafiadores. Concluímos com reflexões sobre direções gerais para computação em tempo de inferência com LLMs.