Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de fundação multimodais, como o GPT-4o, têm recentemente alcançado progressos notáveis, mas não está claro onde exatamente esses modelos se posicionam em termos de compreensão visual. Neste artigo, avaliamos o desempenho de modelos de fundação multimodais populares (GPT-4o, o4-mini, Gemini 1.5 Pro e Gemini 2.0 Flash, Claude 3.5 Sonnet, Qwen2-VL, Llama 3.2) em tarefas padrão de visão computacional (segmentação semântica, detecção de objetos, classificação de imagens, previsão de profundidade e normais de superfície) utilizando conjuntos de dados estabelecidos (por exemplo, COCO, ImageNet e suas variantes, etc.). Os principais desafios para realizar essa avaliação são: 1) a maioria dos modelos é treinada para gerar texto e não consegue expressar nativamente domínios versáteis, como segmentos ou geometria 3D, e 2) muitos dos principais modelos são proprietários e acessíveis apenas em nível de API, ou seja, não há acesso aos pesos para adaptá-los. Abordamos esses desafios traduzindo tarefas padrão de visão em tarefas equivalentes que podem ser solicitadas por texto e compatíveis com API, por meio de encadeamento de prompts, para criar uma estrutura de avaliação padronizada. Observamos que 1) os modelos não estão próximos dos modelos especialistas de última geração em nenhuma tarefa. No entanto, 2) eles são generalistas respeitáveis; isso é notável, pois presumivelmente são treinados principalmente em tarefas baseadas em imagem-texto. 3) Eles desempenham tarefas semânticas significativamente melhor do que as geométricas. 4) Embora as técnicas de encadeamento de prompts afetem o desempenho, modelos melhores exibem menos sensibilidade a variações de prompts. 5) O GPT-4o tem o melhor desempenho entre os modelos não especializados em raciocínio, garantindo a primeira posição em 4 de 6 tarefas. 6) Modelos de raciocínio, como o o3, mostram melhorias em tarefas geométricas. 7) Uma análise preliminar de modelos com geração nativa de imagens, como o mais recente GPT-4o, mostra que eles exibem peculiaridades como alucinações e desalinhamentos espaciais.
O alto custo computacional dos modelos de difusão durante a inferência dificulta seu uso como emuladores físicos rápidos. No contexto de geração de imagens e vídeos, essa desvantagem computacional foi abordada gerando no espaço latente de um autoencoder em vez do espaço de pixels. Neste trabalho, investigamos se uma estratégia semelhante pode ser aplicada de forma eficaz à emulação de sistemas dinâmicos e a que custo. Descobrimos que a precisão da emulação no espaço latente é surpreendentemente robusta a uma ampla gama de taxas de compressão (até 1000x). Também mostramos que os emuladores baseados em difusão são consistentemente mais precisos do que suas contrapartes não generativas e compensam a incerteza em suas previsões com maior diversidade. Por fim, abordamos escolhas práticas de design, desde arquiteturas até otimizadores, que consideramos críticas para o treinamento de emuladores no espaço latente.
O rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs) intensificou a necessidade de frameworks de avaliação que vão além de benchmarks centrados no inglês e atendam às exigências de regiões linguisticamente diversas, como a Índia. Apresentamos o EKA-EVAL, um framework de avaliação unificado e pronto para produção que integra mais de 35 benchmarks, incluindo 10 conjuntos de dados específicos para línguas indianas, abrangendo categorias como raciocínio, matemática, uso de ferramentas, compreensão de contexto longo e leitura. Em comparação com as ferramentas de avaliação existentes para línguas indianas, o EKA-EVAL oferece uma cobertura mais ampla de benchmarks, com suporte integrado para inferência distribuída, quantização e uso de múltiplas GPUs. Nossa comparação sistemática posiciona o EKA-EVAL como o primeiro conjunto de avaliação end-to-end e extensível, projetado tanto para LLMs globais quanto para LLMs indianos, reduzindo significativamente a barreira para benchmarking multilíngue. O framework é de código aberto e está publicamente disponível em https://github.com/lingo-iitgn/eka-eval e faz parte da iniciativa EKA em andamento (https://eka.soket.ai), que visa escalar para mais de 100 benchmarks e estabelecer um ecossistema robusto e multilíngue de avaliação para LLMs.
A avaliação de textos criativos gerados por modelos de linguagem de grande escala (LLMs) continua sendo um desafio, pois narrativas de natureza aberta carecem de verdades absolutas. Na ausência de métodos automatizados de avaliação eficazes, modelos de linguagem prontos para uso (off-the-shelf, OTS) são empregados como juízes zero-shot, mas sua confiabilidade nesse contexto ainda não é clara. Em busca de uma avaliação robusta para escrita criativa, apresentamos o LitBench, o primeiro benchmark padronizado e conjunto de dados pareados para verificação de escrita criativa, composto por um conjunto de teste reservado de 2.480 comparações de histórias desviadas e rotuladas por humanos, extraídas do Reddit, e um corpus de treinamento de 43.827 pares com rótulos de preferência humana. Utilizando o LitBench, nós (i) avaliamos juízes LLM zero-shot, (ii) treinamos modelos de recompensa Bradley-Terry e generativos, e (iii) conduzimos um estudo humano online para validar as classificações dos modelos de recompensa em histórias recém-geradas por LLMs. Nosso benchmark identifica o Claude-3.7-Sonnet como o juiz pronto para uso mais forte, alcançando 73% de concordância com as preferências humanas; entre os modelos de recompensa treinados, tanto o Bradley-Terry quanto os modelos generativos atingem uma precisão de 78%, superando todos os juízes prontos para uso. Um estudo humano online confirma ainda que nossos modelos de recompensa treinados estão consistentemente alinhados com as preferências humanas em histórias novas geradas por LLMs. Disponibilizamos o LitBench e os modelos de recompensa em https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, oferecendo um recurso validado para avaliação e otimização automatizada e confiável de sistemas de escrita criativa.