Artigos de pesquisa em IA selecionados diariamente com traduções
A Aprendizagem por Reforço (AR) formula matematicamente a tomada de decisão com o Processo de Decisão de Markov (PDM). Com os PDMs, os pesquisadores alcançaram avanços notáveis em diversos domínios, incluindo jogos, robótica e modelos de linguagem. Este artigo busca uma nova possibilidade, a Aprendizagem por Reforço em Linguagem Natural (ARLN), estendendo o PDM tradicional para o espaço de representação baseado em linguagem natural. Especificamente, a ARLN redefine de forma inovadora os princípios da AR, incluindo objetivos da tarefa, política, função de valor, equação de Bellman e iteração de política, em seus equivalentes linguísticos. Com os recentes avanços em grandes modelos de linguagem (GLLs), a ARLN pode ser implementada na prática para alcançar melhorias de política e valor semelhantes à AR, seja por meio de estímulo puro ou treinamento baseado em gradiente. Experimentos em jogos de Labirinto, Breakthrough e Jogo da Velha demonstram a eficácia, eficiência e interpretabilidade do framework ARLN em diversos casos de uso. Nosso código será disponibilizado em https://github.com/waterhorse1/Natural-language-RL.
Os modelos de linguagem multimodais de grande escala (MLLMs) de código aberto existentes geralmente seguem um processo de treinamento envolvendo pré-treinamento e ajuste fino supervisionado. No entanto, esses modelos sofrem com mudanças de distribuição, o que limita seu raciocínio multimodal, especialmente no desempenho da Cadeia de Pensamento (CoT). Para lidar com isso, introduzimos um processo de otimização de preferência (PO) para aprimorar as capacidades de raciocínio multimodal dos MLLMs. Especificamente, (1) no lado dos dados, projetamos um pipeline de construção de dados de preferência automatizado para criar MMPR, um conjunto de dados de preferência de raciocínio multimodal de alta qualidade e em grande escala, e (2) no lado do modelo, exploramos a integração do PO com MLLMs, desenvolvendo um método simples, porém eficaz, denominado Otimização de Preferência Mista (MPO), que melhora o desempenho multimodal da CoT. Nossa abordagem demonstra um desempenho aprimorado em vários benchmarks, especialmente em tarefas de raciocínio multimodal. Notavelmente, nosso modelo, InternVL2-8B-MPO, alcança uma precisão de 67,0 no MathVista, superando o InternVL2-8B em 8,7 pontos e alcançando um desempenho comparável ao InternVL2-76B, que é 10 vezes maior. Esperamos que este estudo possa inspirar avanços adicionais nos MLLMs. O código, os dados e o modelo serão disponibilizados publicamente.
Atualmente, o OpenAI o1 tem despertado um aumento de interesse no estudo de grandes modelos de raciocínio (LRM). Aproveitando esse impulso, o Marco-o1 não apenas se concentra em disciplinas com respostas padrão, como matemática, física e codificação - que são adequadas para aprendizado por reforço (RL) - mas também coloca maior ênfase em resoluções abertas. Nosso objetivo é abordar a pergunta: "O modelo o1 pode generalizar efetivamente para domínios mais amplos onde padrões claros estão ausentes e recompensas são desafiadoras de quantificar?" O Marco-o1 é impulsionado pelo ajuste fino da Cadeia de Pensamento (CoT), Busca em Árvore de Monte Carlo (MCTS), mecanismos de reflexão e estratégias de raciocínio inovadoras - otimizadas para tarefas complexas de resolução de problemas do mundo real.
Apresentamos um método inovador para pré-treinamento de codificadores de visão em larga escala. Baseando-nos nos avanços recentes no pré-treinamento autoregressivo de modelos de visão, estendemos esse framework para um ambiente multimodal, ou seja, imagens e texto. Neste artigo, apresentamos AIMV2, uma família de codificadores de visão generalistas caracterizados por um processo simples de pré-treinamento, escalabilidade e desempenho notável em uma variedade de tarefas subsequentes. Isso é alcançado ao combinar o codificador de visão com um decodificador multimodal que gera autoregressivamente patches de imagem brutos e tokens de texto. Nossos codificadores se destacam não apenas em avaliações multimodais, mas também em benchmarks de visão, como localização, ancoragem e classificação. Notavelmente, nosso codificador AIMV2-3B alcança uma precisão de 89,5% no ImageNet-1k com um tronco congelado. Além disso, o AIMV2 consistentemente supera modelos contrastivos de ponta (por exemplo, CLIP, SigLIP) na compreensão multimodal de imagens em diversos cenários.
Propomos o Hymba, uma família de pequenos modelos de linguagem apresentando uma arquitetura paralela híbrida que integra mecanismos de atenção do transformer com modelos de espaço de estado (SSMs) para maior eficiência. As cabeças de atenção fornecem um recall de alta resolução, enquanto as cabeças SSM permitem uma sumarização eficiente do contexto. Além disso, introduzimos meta tokens aprendíveis que são antepostos às sugestões, armazenando informações críticas e aliviando o fardo "forçado a atender" associado aos mecanismos de atenção. Este modelo é ainda otimizado ao incorporar o compartilhamento de chave-valor (KV) entre camadas e atenção de janela deslizante parcial, resultando em um tamanho de cache compacto. Durante o desenvolvimento, realizamos um estudo controlado comparando várias arquiteturas sob configurações idênticas e observamos vantagens significativas de nossa arquitetura proposta. Notavelmente, o Hymba alcança resultados de ponta para pequenos LMs: Nosso modelo Hymba-1.5B-Base supera todos os modelos públicos sub-2B em desempenho e até mesmo supera o Llama-3.2-3B com 1,32% de precisão média mais alta, uma redução de tamanho de cache de 11,67 vezes e uma taxa de transferência 3,49 vezes maior.
O progresso científico depende da capacidade dos pesquisadores de sintetizar o crescente corpo de literatura. Será que modelos de linguagem grandes (LMs) podem auxiliar os cientistas nessa tarefa? Apresentamos o OpenScholar, um LM especializado com recuperação aumentada que responde a consultas científicas identificando trechos relevantes em 45 milhões de artigos de acesso aberto e sintetizando respostas respaldadas por citações. Para avaliar o OpenScholar, desenvolvemos o ScholarQABench, o primeiro benchmark multi-domínio em larga escala para busca de literatura, composto por 2.967 consultas escritas por especialistas e 208 respostas em formato longo abrangendo ciência da computação, física, neurociência e biomedicina. No ScholarQABench, o OpenScholar-8B supera o GPT-4o em 5% e o PaperQA2 em 7% em termos de correção, apesar de ser um modelo menor e aberto. Enquanto o GPT-4o alucina citações de 78 a 90% do tempo, o OpenScholar alcança precisão de citação em nível semelhante a especialistas humanos. O datastore, recuperador e loop de inferência de auto-feedback do OpenScholar também melhora os LMs prontos para uso: por exemplo, o OpenScholar-GPT4o melhora a correção do GPT-4o em 12%. Em avaliações humanas, os especialistas preferiram as respostas do OpenScholar-8B e do OpenScholar-GPT4o em relação às escritas por especialistas 51% e 70% do tempo, respectivamente, em comparação com 32% do GPT-4o. Disponibilizamos todo o nosso código, modelos, datastore, dados e um demo público em código aberto.
Os Modelos de Linguagem de Grande Escala (LLMs) demonstram capacidades aprimoradas e confiabilidade ao raciocinar mais, evoluindo de prompts de Cadeia de Pensamento para soluções de nível de produto como o OpenAI o1. Apesar de vários esforços para melhorar o raciocínio dos LLMs, dados de raciocínio de longa cadeia de alta qualidade e pipelines de treinamento otimizados ainda permanecem inadequadamente explorados em tarefas de visão e linguagem. Neste artigo, apresentamos o Insight-V, um esforço inicial para 1) produzir de forma escalável dados de raciocínio longos e robustos para tarefas complexas multimodais, e 2) um pipeline de treinamento eficaz para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala multimodais (MLLMs). Especificamente, para criar dados de raciocínio longos e estruturados sem trabalho humano, projetamos um pipeline de dois passos com uma estratégia progressiva para gerar caminhos de raciocínio suficientemente longos e diversos, e um método de avaliação de multi-granularidade para garantir a qualidade dos dados. Observamos que supervisionar diretamente MLLMs com dados de raciocínio longos e complexos não resultará em uma capacidade de raciocínio ideal. Para enfrentar esse problema, projetamos um sistema multiagente composto por um agente de raciocínio dedicado a realizar raciocínio de longa cadeia e um agente de resumo treinado para avaliar e resumir os resultados do raciocínio. Além disso, incorporamos um algoritmo DPO iterativo para aprimorar a estabilidade e qualidade de geração do agente de raciocínio. Com base no modelo popular LLaVA-NeXT e em nosso MLLM base mais forte, demonstramos ganhos significativos de desempenho em benchmarks multimodais desafiadores que exigem raciocínio visual. Beneficiando-se do nosso sistema multiagente, o Insight-V também pode manter ou melhorar facilmente o desempenho em tarefas multimodais focadas na percepção.
É amplamente reconhecido que o desempenho dos modelos Transformer está exponencialmente relacionado ao número de parâmetros e à complexidade computacional. Enquanto abordagens como Mixture of Experts (MoE) desvinculam a contagem de parâmetros da complexidade computacional, ainda enfrentam desafios na inferência devido aos altos custos de acesso à memória. Este trabalho introduz o UltraMem, incorporando uma camada de memória ultra-esparça em larga escala para lidar com essas limitações. Nossa abordagem reduz significativamente a latência de inferência mantendo o desempenho do modelo. Também investigamos as leis de escalonamento dessa nova arquitetura, demonstrando que ela não apenas apresenta propriedades de escalonamento favoráveis, mas supera os modelos tradicionais. Em nossos experimentos, treinamos redes com até 20 milhões de slots de memória. Os resultados mostram que nosso método alcança velocidade de inferência e desempenho do modelo de ponta dentro de um determinado orçamento computacional.
Os modelos de difusão revolucionaram o campo de síntese e edição de conteúdo. Modelos recentes substituíram a arquitetura UNet tradicional pelo Transformador de Difusão (DiT) e empregaram o ajuste de fluxo para melhorar o treinamento e a amostragem. No entanto, eles apresentam uma diversidade de geração limitada. Neste trabalho, aproveitamos essa limitação para realizar edições de imagem consistentes por meio da injeção seletiva de características de atenção. O principal desafio é que, ao contrário dos modelos baseados em UNet, o DiT não possui uma estrutura de síntese de grossa a fina, tornando incerto em quais camadas realizar a injeção. Portanto, propomos um método automático para identificar "camadas vitais" dentro do DiT, cruciais para a formação da imagem, e demonstramos como essas camadas facilitam uma variedade de edições estáveis controladas, desde modificações não rígidas até adição de objetos, usando o mesmo mecanismo. Em seguida, para permitir a edição de imagens reais, introduzimos um método de inversão de imagem aprimorado para modelos de fluxo. Por fim, avaliamos nossa abordagem por meio de comparações qualitativas e quantitativas, juntamente com um estudo de usuários, e demonstramos sua eficácia em várias aplicações. A página do projeto está disponível em https://omriavrahami.com/stable-flow
Neste artigo, apresentamos o DINO-X, que é um modelo unificado de visão centrado em objetos desenvolvido pela IDEA Research com o melhor desempenho de detecção de objetos em ambiente aberto até o momento. O DINO-X emprega a mesma arquitetura codificador-decodificador baseada em Transformer do Grounding DINO 1.5 para buscar uma representação em nível de objeto para compreensão de objetos em ambiente aberto. Para facilitar a detecção de objetos de cauda longa, o DINO-X estende suas opções de entrada para suportar prompt de texto, prompt visual e prompt personalizado. Com essas opções flexíveis de prompt, desenvolvemos um prompt de objeto universal para suportar detecção em ambiente aberto sem prompt, tornando possível detectar qualquer coisa em uma imagem sem exigir que os usuários forneçam qualquer prompt. Para aprimorar a capacidade central do modelo de fundamentação, construímos um conjunto de dados em grande escala com mais de 100 milhões de amostras de fundamentação de alta qualidade, denominado Grounding-100M, para avançar o desempenho de detecção de vocabulário aberto do modelo. O pré-treinamento em um conjunto de dados de fundamentação em grande escala leva a uma representação em nível de objeto fundamental, o que permite ao DINO-X integrar várias cabeças de percepção para suportar simultaneamente várias tarefas de percepção e compreensão de objetos, incluindo detecção, segmentação, estimativa de pose, legendagem de objetos, QA baseado em objetos, etc. Os resultados experimentais demonstram o desempenho superior do DINO-X. Especificamente, o modelo DINO-X Pro alcança 56,0 AP, 59,8 AP e 52,4 AP nos benchmarks de detecção de objetos zero-shot COCO, LVIS-minival e LVIS-val, respectivamente. Notavelmente, ele atinge 63,3 AP e 56,5 AP nas classes raras dos benchmarks LVIS-minival e LVIS-val, melhorando em 5,8 AP o desempenho anterior do estado da arte. Tal resultado destaca sua capacidade significativamente aprimorada para reconhecer objetos de cauda longa.
Alucinações em grandes modelos de linguagem são um problema generalizado, no entanto, os mecanismos por trás de quando os modelos irão alucinar são mal compreendidos, limitando nossa capacidade de resolver esse problema. Usando autoencoders esparsos como uma ferramenta de interpretabilidade, descobrimos que uma parte fundamental desses mecanismos é o reconhecimento de entidades, onde o modelo detecta se uma entidade é uma da qual ele pode recordar fatos. Autoencoders esparsos revelam direções significativas no espaço de representação, que detectam se o modelo reconhece uma entidade, por exemplo, detectando que ele não conhece um atleta ou um filme. Isso sugere que os modelos podem ter autoconhecimento: representações internas sobre suas próprias capacidades. Essas direções são causalmente relevantes: capazes de direcionar o modelo para recusar responder perguntas sobre entidades conhecidas, ou para alucinar atributos de entidades desconhecidas quando de outra forma recusaria. Demonstramos que, apesar dos autoencoders esparsos terem sido treinados no modelo base, essas direções têm um efeito causal no comportamento de recusa do modelo de chat, sugerindo que o ajuste fino do chat repurpôs esse mecanismo existente. Além disso, fornecemos uma exploração inicial do papel mecanicista dessas direções no modelo, descobrindo que elas perturbam a atenção das camadas subsequentes que normalmente movem atributos de entidades para o token final.
O rápido avanço dos modelos de difusão melhorou significativamente a síntese de vídeos, especialmente na geração de vídeos controláveis, essencial para aplicações como direção autônoma. No entanto, os métodos existentes são limitados em escalabilidade e na integração de condições de controle, não conseguindo atender às necessidades de vídeos de alta resolução e longa duração para aplicações de direção autônoma. Neste artigo, apresentamos o MagicDriveDiT, uma abordagem inovadora baseada na arquitetura DiT, que enfrenta esses desafios. Nosso método melhora a escalabilidade por meio da correspondência de fluxo e emprega uma estratégia de treinamento progressivo para lidar com cenários complexos. Ao incorporar codificação condicional espaço-temporal, o MagicDriveDiT alcança controle preciso sobre latentes espaço-temporais. Experimentos abrangentes mostram seu desempenho superior na geração de vídeos realistas de cenas de rua com maior resolução e mais quadros. O MagicDriveDiT melhora significativamente a qualidade de geração de vídeos e os controles espaço-temporais, ampliando suas aplicações potenciais em várias tarefas de direção autônoma.
Os métodos existentes de imagem para 3D baseados em feed-forward dependem principalmente de modelos de difusão multi-visão 2D que não conseguem garantir consistência em 3D. Esses métodos colapsam facilmente ao alterar a direção da visualização de referência e lidam principalmente com imagens de referência centradas em objetos. Neste artigo, propomos um novo modelo de difusão 3D de estágio único, DiffusionGS, para geração de objetos e cenas a partir de uma única visualização. O DiffusionGS gera diretamente nuvens de pontos Gaussianas em 3D em cada passo de tempo para impor consistência de visualização e permitir que o modelo gere robustamente visualizações de referência de qualquer direção, além de entradas centradas em objetos. Além disso, para melhorar a capacidade e capacidade de generalização do DiffusionGS, escalamos os dados de treinamento em 3D desenvolvendo uma estratégia de treinamento misto de cena-objeto. Experimentos mostram que nosso método apresenta melhor qualidade de geração (2,20 dB mais alto em PSNR e 23,25 menor em FID) e velocidade mais de 5 vezes mais rápida (~6s em uma GPU A100) do que os métodos de última geração. O estudo do usuário e as aplicações de texto para 3D também revelam os valores práticos do nosso método. Nossa página do projeto em https://caiyuanhao1998.github.io/project/DiffusionGS/ mostra o vídeo e os resultados interativos de geração.
Modelos de linguagem de grande escala (LLMs) têm desempenho inferior em idiomas de baixo recurso devido à quantidade limitada de dados de treinamento. Apresentamos um método para coletar eficientemente dados de texto para idiomas de baixo recurso a partir de todo o corpus Common Crawl. Nossa abordagem, UnifiedCrawl, filtra e extrai o Common Crawl usando recursos computacionais mínimos, resultando em conjuntos de dados monolíngues muito maiores do que as fontes disponíveis anteriormente. Demonstramos que aproveitar esses dados para ajustar finamente os LLMs multilíngues por meio de métodos de adaptadores eficientes (QLoRA) melhora significativamente o desempenho no idioma de baixo recurso, ao mesmo tempo que minimiza o uso de VRAM. Nossos experimentos mostram grandes melhorias na perplexidade da modelagem de linguagem e um aumento nas pontuações de solicitação de poucas amostras. Nosso trabalho e código-fonte disponibilizado oferecem uma abordagem acessível para melhorar os LLMs para idiomas de baixo recurso usando hardware comum. Nosso código-fonte está disponível em https://github.com/bethelmelesse/unifiedcrawl.
Os avanços recentes no campo dos grandes modelos de linguagem, particularmente por meio da abordagem Chain of Thought (CoT), têm demonstrado melhorias significativas na resolução de problemas complexos. No entanto, os modelos existentes tendem a sacrificar o raciocínio detalhado em prol da brevidade devido às preferências do usuário, ou exigem dados extensos e caros de treinamento para aprender habilidades de raciocínio complicadas, limitando seu potencial na resolução de tarefas complexas. Para preencher essa lacuna, seguindo o conceito de escalonamento no tempo de teste, propomos um método simples incentivando os modelos a adotar um estilo de raciocínio mais paciente sem a necessidade de introduzir novos conhecimentos ou habilidades. Para empregar uma abordagem de otimização de preferência, geramos processos de raciocínio detalhados como exemplos positivos e respostas simples como exemplos negativos, treinando assim o modelo a favorecer a minúcia em suas respostas. Nossos resultados demonstram um aumento de desempenho de até 6,7% no GSM8k com treinamento apenas em um conjunto de dados leve.