Artigos de pesquisa em IA selecionados diariamente com traduções
A extração de conteúdo de documentos é crucial em visão computacional, especialmente para atender às necessidades de dados de alta qualidade de grandes modelos de linguagem (LLMs) e tecnologias de geração com recuperação (RAG). No entanto, os métodos atuais de análise de documentos sofrem de limitações significativas em termos de diversidade e avaliação abrangente. Para enfrentar esses desafios, apresentamos o OmniDocBench, um novo benchmark de várias fontes projetado para avançar a extração automatizada de conteúdo de documentos. O OmniDocBench inclui um conjunto de dados de avaliação de alta qualidade meticulosamente elaborado e anotado, composto por nove tipos diversos de documentos, como artigos acadêmicos, livros didáticos, slides, entre outros. Nosso benchmark fornece um framework de avaliação flexível e abrangente com 19 rótulos de categoria de layout e 14 rótulos de atributo, possibilitando avaliações em vários níveis em conjuntos de dados completos, módulos individuais ou tipos de dados específicos. Utilizando o OmniDocBench, realizamos uma análise comparativa exaustiva de pipelines modulares existentes e métodos multimodais de ponta a ponta, destacando suas limitações no tratamento da diversidade de documentos e garantindo uma avaliação justa. O OmniDocBench estabelece um padrão de avaliação robusto, diversificado e justo para o campo de extração de conteúdo de documentos, oferecendo insights cruciais para avanços futuros e promovendo o desenvolvimento de tecnologias de análise de documentos. Os códigos e o conjunto de dados estão disponíveis em https://github.com/opendatalab/OmniDocBench.
Os modelos de linguagem de grande escala (LLMs) estão restritos a raciocinar no "espaço da linguagem", onde normalmente expressam o processo de raciocínio com uma cadeia de pensamento (CoT) para resolver um problema de raciocínio complexo. No entanto, argumentamos que o espaço da linguagem nem sempre pode ser o mais adequado para o raciocínio. Por exemplo, a maioria dos tokens de palavras são principalmente para a coerência textual e não essenciais para o raciocínio, enquanto alguns tokens críticos exigem um planejamento complexo e representam enormes desafios para os LLMs. Para explorar o potencial do raciocínio dos LLMs em um espaço latente irrestrito em vez de usar linguagem natural, introduzimos um novo paradigma chamado Coconut (Cadeia de Pensamento Contínuo). Utilizamos o último estado oculto do LLM como representação do estado de raciocínio (denominado "pensamento contínuo"). Em vez de decodificá-lo em um token de palavra, o alimentamos de volta ao LLM como o embedding de entrada subsequente diretamente no espaço contínuo. Experimentos mostram que o Coconut pode aumentar efetivamente o desempenho do LLM em várias tarefas de raciocínio. Esse novo paradigma de raciocínio latente resulta em padrões de raciocínio avançados emergentes: o pensamento contínuo pode codificar múltiplas etapas de raciocínio seguintes alternativas, permitindo que o modelo execute uma busca em largura (BFS) para resolver o problema, em vez de se comprometer prematuramente com um único caminho determinístico como o CoT. O Coconut supera o CoT em certas tarefas de raciocínio lógico que exigem um retrocesso substancial durante o planejamento, com menos tokens de pensamento durante a inferência. Essas descobertas demonstram a promessa do raciocínio latente e oferecem insights valiosos para pesquisas futuras.
À medida que os modelos de linguagem frequentemente cometem erros ao resolver problemas matemáticos, a identificação automatizada de erros no processo de raciocínio torna-se cada vez mais significativa para sua supervisão escalável. Neste artigo, apresentamos o ProcessBench para medir a capacidade de identificar etapas errôneas no raciocínio matemático. Ele consiste em 3.400 casos de teste, focados principalmente em problemas matemáticos de nível de competição e olimpíada. Cada caso de teste contém uma solução passo a passo com a localização do erro anotada por especialistas humanos. Os modelos devem identificar o primeiro passo que contém um erro, ou concluir que todos os passos estão corretos. Realizamos uma extensa avaliação no ProcessBench, envolvendo dois tipos de modelos: modelos de recompensa de processo (PRMs) e modelos críticos, nos quais, para estes últimos, solicitamos que modelos de linguagem geral critiquem cada etapa da solução. Retiramos duas observações principais: (1) Os PRMs existentes geralmente falham em generalizar para problemas matemáticos mais desafiadores além de GSM8K e MATH. Eles têm desempenho inferior tanto aos modelos críticos (ou seja, modelos de linguagem geral solicitados) quanto ao nosso próprio PRM treinado, que é ajustado de forma direta no conjunto de dados PRM800K. (2) O melhor modelo de código aberto, QwQ-32B-Preview, demonstrou a capacidade de crítica competitiva com o modelo proprietário GPT-4o, apesar de ainda estar atrás do o1-mini especializado em raciocínio. Esperamos que o ProcessBench possa promover pesquisas futuras na avaliação do processo de raciocínio, abrindo caminho para a supervisão escalável de modelos de linguagem.
A incorporação de memória em agentes é essencial para inúmeras tarefas no domínio do Aprendizado por Reforço (RL). Em particular, a memória é fundamental para tarefas que exigem a utilização de informações passadas, adaptação a ambientes novos e melhoria na eficiência de amostragem. No entanto, o termo "memória" engloba uma ampla gama de conceitos, o que, juntamente com a falta de uma metodologia unificada para validar a memória de um agente, leva a julgamentos errôneos sobre as capacidades de memória dos agentes e impede a comparação objetiva com outros agentes aprimorados com memória. Este artigo tem como objetivo simplificar o conceito de memória em RL, fornecendo definições precisas e práticas de tipos de memória de agentes, como memória de longo prazo versus memória de curto prazo e memória declarativa versus memória procedural, inspiradas na ciência cognitiva. Utilizando essas definições, categorizamos diferentes classes de memória de agentes, propomos uma metodologia experimental robusta para avaliar as capacidades de memória de agentes de RL e padronizamos as avaliações. Além disso, demonstramos empiricamente a importância de seguir a metodologia proposta ao avaliar diferentes tipos de memória de agentes, conduzindo experimentos com diferentes agentes de RL e mostrando as consequências de sua violação.
O rápido desenvolvimento de grandes Modelos de Visão-Linguagem (VLMs) levou a resultados impressionantes em benchmarks acadêmicos, principalmente em idiomas amplamente falados. No entanto, permanecem lacunas significativas na capacidade dos atuais VLMs lidarem com idiomas de recursos limitados e contextos culturais variados, em grande parte devido à falta de dados de alta qualidade, diversificados e seguros. Consequentemente, esses modelos frequentemente têm dificuldade em compreender idiomas de recursos limitados e nuances culturais de forma livre de toxicidade. Para lidar com essas limitações, apresentamos Maya, um modelo Multimodal Multilíngue de código aberto. Nossas contribuições são triplas: 1) um conjunto de dados de pré-treinamento de imagem-texto multilíngue em oito idiomas, baseado no conjunto de dados de pré-treinamento LLaVA; 2) uma análise minuciosa de toxicidade dentro do conjunto de dados LLaVA, seguida pela criação de uma versão livre de toxicidade em oito idiomas; e 3) um modelo de imagem-texto multilíngue que suporta esses idiomas, aprimorando a compreensão cultural e linguística em tarefas de visão-linguagem. Código disponível em https://github.com/nahidalam/maya.
A geolocalização visual global prevê onde uma imagem foi capturada na Terra. Como as imagens variam em quão precisamente podem ser localizadas, essa tarefa envolve inherentemente um grau significativo de ambiguidade. No entanto, abordagens existentes são determinísticas e ignoram esse aspecto. Neste artigo, temos como objetivo reduzir a lacuna entre a geolocalização tradicional e os métodos generativos modernos. Propomos a primeira abordagem generativa de geolocalização baseada em difusão e correspondência de fluxo Riemanniano, onde o processo de remoção de ruído opera diretamente na superfície da Terra. Nosso modelo alcança desempenho de ponta em três benchmarks de geolocalização visual: OpenStreetView-5M, YFCC-100M e iNat21. Além disso, introduzimos a tarefa de geolocalização visual probabilística, onde o modelo prevê uma distribuição de probabilidade sobre todas as localizações possíveis em vez de um único ponto. Apresentamos novas métricas e bases para esta tarefa, demonstrando as vantagens de nossa abordagem baseada em difusão. Códigos e modelos estarão disponíveis.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) destacam-se em tarefas de visão e linguagem ao serem pré-treinados exclusivamente em anotações de conceitos de granularidade grosseira (por exemplo, legendas de imagens). Nossa hipótese é que a integração de anotações de conceitos de granularidade fina (por exemplo, rótulos de objetos e regiões de objetos) irá melhorar ainda mais o desempenho, uma vez que ambas as granularidades de dados se complementam em termos de amplitude e profundidade na representação de conceitos. Apresentamos um novo conjunto de dados com anotações de Conceitos Multimodais de Múltiplas Granularidades (MMGiC) para MLLMs. Ao construir o MMGiC, exploramos o impacto de diferentes receitas de dados na compreensão e geração multimodais. Nossas análises revelam que as anotações de conceitos de múltiplas granularidades se integram e se complementam, sob nosso modelo estruturado e um framework MLLM geral. Exploramos claramente e demonstramos o potencial do MMGiC para ajudar MLLMs a localizar e aprender conceitos de forma mais eficaz, alinhando visão e linguagem em múltiplas granularidades. Validamos ainda nossa hipótese investigando a comparação justa e a colaboração eficaz entre o MMGiC e dados de imagem e legenda em 12 referências de compreensão e geração multimodais, por exemplo, sua combinação apropriada alcança melhorias absolutas de 3,95% e 2,34% sobre os dados de imagem e legenda sozinhos em POPE e SEED-Bench. O código, dados e modelos estarão disponíveis em https://github.com/LooperXX/MMGiC.
Nos últimos anos, houve um aumento significativo de interesse em unificar a compreensão e geração de imagens em Grandes Modelos de Linguagem (LLMs). Esse crescente interesse nos motivou a explorar a extensão dessa unificação para vídeos. O desafio central reside no desenvolvimento de um tokenizador de vídeo versátil que capture tanto as características espaciais quanto a dinâmica temporal dos vídeos para obter representações para LLMs, e essas representações podem ser posteriormente decodificadas em clipes de vídeo realistas para possibilitar a geração de vídeos. Neste trabalho, apresentamos o Divot, um Tokenizador de Vídeo Alimentado por Difusão, que aproveita o processo de difusão para aprendizado de representação de vídeo auto-supervisionado. Sustentamos que se um modelo de difusão de vídeo puder efetivamente remover ruídos de clipes de vídeo ao considerar as características de um tokenizador de vídeo como condição, então o tokenizador capturou com sucesso informações espaciais e temporais robustas. Além disso, o modelo de difusão de vídeo funciona inerentemente como um decodificador, decodificando vídeos a partir de suas representações. Construindo sobre o tokenizador Divot, apresentamos o Divot-Vicuna através de autoregressão de vídeo para texto e geração de texto para vídeo, modelando as distribuições de características Divot contínuas com um Modelo de Mistura Gaussiano. Resultados experimentais demonstram que nosso tokenizador de vídeo baseado em difusão, quando integrado a um LLM pré-treinado, alcança desempenho competitivo em diversos benchmarks de compreensão e geração de vídeo. O Divot-Vicuna ajustado para instrução também se destaca em contar histórias em vídeo, gerando narrativas entrelaçadas e vídeos correspondentes.
Os modelos de geração 3D recentes geralmente dependem de 'rótulos de ouro' 3D em escala limitada ou prioridades de difusão 2D para a criação de conteúdo 3D. No entanto, seu desempenho é limitado por prioridades 3D restritas devido à falta de paradigmas de aprendizado escaláveis. Neste trabalho, apresentamos o See3D, um modelo de difusão multi-visual condicional treinado em vídeos da Internet em grande escala para a criação 3D de mundo aberto. O modelo tem como objetivo obter conhecimento 3D apenas visualizando o conteúdo visual dos vastos e rapidamente crescentes dados de vídeo - Você Vê, Você Obtém. Para alcançar isso, primeiro escalamos os dados de treinamento usando um pipeline de curadoria de dados proposto que filtra automaticamente inconsistências multi-visual e observações insuficientes de vídeos de origem. Isso resulta em um conjunto de dados de grande escala, diversificado e de alta qualidade de imagens multi-visual, denominado WebVi3D, contendo 320 milhões de frames de 16 milhões de videoclipes. No entanto, aprender prioridades 3D genéricas de vídeos sem anotações explícitas de geometria 3D ou poses de câmera é complexo, e a anotação de poses para vídeos em escala web é proibitivamente cara. Para eliminar a necessidade de condições de pose, introduzimos um inovador condicionamento visual - um sinal visual puramente indutivo 2D gerado pela adição de ruído dependente do tempo aos dados de vídeo mascarados. Por fim, introduzimos um novo framework de geração 3D visual-condicional integrando o See3D em um pipeline baseado em warping para geração 3D de alta fidelidade. Nossas comparações numéricas e visuais em benchmarks de reconstrução única e esparsa mostram que o See3D, treinado em dados de vídeo econômicos e escaláveis, alcança notáveis capacidades de geração de mundo aberto e de zero-shot, superando significativamente modelos treinados em conjuntos de dados 3D caros e restritos. Consulte nossa página do projeto em: https://vision.baai.ac.cn/see3d
Os Transformadores Lineares têm ganhado atenção como alternativas eficientes aos Transformadores padrão, porém seu desempenho em tarefas de recuperação e contexto longo tem sido limitado. Para lidar com essas limitações, trabalhos recentes têm explorado dois mecanismos distintos: o gating para controle adaptativo de memória e a regra de atualização delta para modificações precisas de memória. Observamos que esses mecanismos são complementares: o gating permite um apagamento rápido de memória enquanto a regra delta facilita atualizações direcionadas. Com base nessa percepção, introduzimos a regra delta gateada e desenvolvemos um algoritmo de treinamento paralelo otimizado para hardware moderno. Nossa arquitetura proposta, Gated DeltaNet, consistentemente supera modelos existentes como Mamba2 e DeltaNet em múltiplos benchmarks, incluindo modelagem de linguagem, raciocínio de senso comum, recuperação em contexto, extrapolação de comprimento e compreensão de contexto longo. Ainda melhoramos o desempenho ao desenvolver arquiteturas híbridas que combinam camadas Gated DeltaNet com atenção de janela deslizante ou camadas Mamba2, alcançando tanto eficiência de treinamento aprimorada quanto desempenho superior nas tarefas.
Neste trabalho, propomos a primeira abordagem de transferência de movimento em transformadores de difusão por meio de Mistura de Orientação de Pontuação (MOP), um framework fundamentado teoricamente para transferência de movimento em modelos de difusão. Nossa principal contribuição teórica reside na reformulação da pontuação condicional para decompor a pontuação de movimento e a pontuação de conteúdo em modelos de difusão. Ao formular a transferência de movimento como uma mistura de energias potenciais, a MOP preserva naturalmente a composição da cena e permite transformações de cena criativas, mantendo a integridade dos padrões de movimento transferidos. Esta amostragem inovadora opera diretamente em modelos de difusão de vídeo pré-treinados sem treinamento adicional ou ajuste fino. Através de experimentos extensivos, a MOP demonstra o manuseio bem-sucedido de diversos cenários, incluindo transferência de movimento de objeto único, múltiplos objetos e entre objetos, bem como transferência de movimento de câmera complexa. Além disso, introduzimos o MotionBench, o primeiro conjunto de dados de transferência de movimento consistindo de 200 vídeos de origem e 1000 movimentos transferidos, abrangendo transferências de objeto único/múltiplo e movimentos de câmera complexos.
Apresentamos um modelo de aparência inovador que realiza simultaneamente a recuperação explícita de malha de superfície 3D de alta qualidade e a síntese fotorealística de novas visualizações a partir de amostras de visualização esparsas. Nossa ideia chave é modelar a geometria da cena subjacente como um Atlas de Gráficos que renderizamos com surfels Gaussianos 2D (MAtCha Gaussians). O MAtCha destila detalhes de alta frequência da superfície da cena de um estimador de profundidade monocular pronto para uso e os aprimora por meio da renderização de surfels Gaussianos. Os surfels Gaussianos são anexados aos gráficos dinamicamente, satisfazendo o fotorealismo da renderização volumétrica neural e a geometria nítida de um modelo de malha, ou seja, dois objetivos aparentemente contraditórios em um único modelo. No cerne do MAtCha está um modelo de deformação neural inovador e uma perda de estrutura que preserva os detalhes finos da superfície destilados das profundidades monoculares aprendidas, ao mesmo tempo em que aborda suas ambiguidades fundamentais de escala. Os resultados da extensa validação experimental demonstram a qualidade de ponta da reconstrução de superfície e o fotorealismo do MAtCha em pé de igualdade com os principais concorrentes, mas com uma redução dramática no número de visualizações de entrada e no tempo computacional. Acreditamos que o MAtCha servirá como uma ferramenta fundamental para qualquer aplicação visual em visão, gráficos e robótica que exija geometria explícita além de fotorealismo. Nossa página do projeto é a seguinte: https://anttwo.github.io/matcha/
Com o aumento contínuo dos volumes de dados de observação da Terra presentes nos arquivos de grandes programas como o Copernicus, há uma crescente necessidade de representações vetoriais eficientes dos dados brutos subjacentes. A abordagem de extrair representações de características de redes neurais profundas pré-treinadas é uma abordagem poderosa que pode fornecer abstrações semânticas dos dados de entrada. No entanto, a forma como isso é feito para arquivos de imagens contendo dados geoespaciais ainda não foi definida. Neste trabalho, é proposta uma extensão a um projeto comunitário existente, Major TOM, focado na provisão e padronização de conjuntos de dados prontos para IA, abertos e gratuitos para observação da Terra. Além disso, quatro conjuntos de dados de incorporação global e densa são disponibilizados abertamente e gratuitamente juntamente com a publicação deste manuscrito, resultando no conjunto de dados global aberto mais abrangente de incorporações visuais geoespaciais em termos da superfície terrestre coberta.
Na aprendizagem de políticas visuomotoras robóticas, os modelos baseados em difusão alcançaram um sucesso significativo na melhoria da precisão da geração de trajetória de ação em comparação com os modelos autoregressivos tradicionais. No entanto, eles sofrem de ineficiência devido a múltiplas etapas de desnoise e flexibilidade limitada de restrições complexas. Neste artigo, apresentamos a Política AutoRegressiva Grossa-a-Fina (CARP), um novo paradigma para a aprendizagem de políticas visuomotoras que redefine o processo de geração de ação autoregressiva como uma abordagem de próxima escala grossa-a-fina. CARP desacopla a geração de ação em duas etapas: primeiro, um autoencoder de ação aprende representações multi-escala de toda a sequência de ação; em seguida, um transformador no estilo GPT refina a previsão da sequência através de um processo autoregressivo grosseiro-a-fino. Esta abordagem direta e intuitiva produz ações altamente precisas e suaves, igualando ou até ultrapassando o desempenho de políticas baseadas em difusão enquanto mantém eficiência em nível com políticas autoregressivas. Realizamos extensas avaliações em diversos cenários, incluindo cenários de tarefa única e multi-tarefa em benchmarks de simulação baseados em estado e imagem, bem como tarefas do mundo real. CARP alcança taxas de sucesso competitivas, com até 10% de melhoria, e oferece uma inferência 10 vezes mais rápida em comparação com as políticas de ponta, estabelecendo um paradigma de alto desempenho, eficiente e flexível para geração de ação em tarefas robóticas.
Propomos uma marca d'água de texto multibit imperceptível incorporada por meio de parafraseamento com Modelos de Linguagem com Poucas Letras (LLMs). Ajustamos finamente um par de parafraseadores LLM projetados para se comportarem de maneira diferente, de modo que a diferença de parafraseamento refletida na semântica do texto possa ser identificada por um decodificador treinado. Para incorporar nossa marca d'água multibit, usamos dois parafraseadores alternadamente para codificar o código binário predefinido no nível da sentença. Em seguida, utilizamos um classificador de texto como decodificador para decodificar cada bit da marca d'água. Através de experimentos extensivos, demonstramos que nossas marcas d'água podem atingir mais de 99,99\% de AUC de detecção com parafraseadores de texto pequenos (1,1B), mantendo a informação semântica da sentença original. Mais importante ainda, nosso processo é robusto sob substituição de palavras e perturbações de parafraseamento de sentenças e generaliza bem para dados fora da distribuição. Também demonstramos a furtividade de nossa marca d'água com avaliação baseada em LLM. Disponibilizamos o código-fonte em: https://github.com/xiaojunxu/multi-bit-text-watermark.
A fusão de modelos tem mostrado grande promessa na combinação de modelos especialistas, mas o benefício da fusão é incerto ao combinar modelos "generalistas" treinados em várias tarefas. Exploramos a fusão no contexto de modelos grandes (aprox. 100 bilhões de parâmetros), reciclando checkpoints que apresentam compensações entre diferentes tarefas. Tais checkpoints são frequentemente criados no processo de desenvolvimento de um modelo de fronteira, e muitos subótimos são geralmente descartados. Dado um conjunto de checkpoints de modelo obtidos de diferentes execuções de treinamento (por exemplo, diferentes estágios, objetivos, hiperparâmetros e misturas de dados), que naturalmente mostram compensações em diferentes capacidades linguísticas (por exemplo, seguir instruções versus geração de código), investigamos se a fusão pode reciclar tais modelos subótimos em um modelo Pareto-ótimo. Nosso algoritmo de otimização ajusta o peso de cada checkpoint em uma combinação linear, resultando em modelos Pareto-ótimos que superam tanto os modelos individuais quanto as bases de fusão. Análises adicionais mostram que boas fusões tendem a incluir quase todos os checkpoints com pesos não nulos, indicando que até mesmo checkpoints iniciais aparentemente ruins podem contribuir para boas fusões finais.
Apresentamos o Turbo3D, um sistema de texto para 3D ultra-rápido capaz de gerar ativos de splatting gaussiano de alta qualidade em menos de um segundo. O Turbo3D emprega um gerador de difusão de 4 etapas e 4 visualizações rápidas e um reconstrutor gaussiano feed-forward eficiente, ambos operando no espaço latente. O gerador de 4 etapas e 4 visualizações é um modelo estudante destilado por meio de uma abordagem de Duplo-Professor inovadora, que incentiva o estudante a aprender consistência de visualização de um professor de múltiplas visualizações e realismo fotográfico de um professor de única visualização. Ao deslocar as entradas do reconstrutor gaussiano do espaço de pixel para o espaço latente, eliminamos o tempo extra de decodificação de imagem e reduzimos pela metade o comprimento da sequência do transformador para máxima eficiência. Nosso método demonstra resultados superiores na geração de 3D em comparação com baselines anteriores, operando em uma fração de seu tempo de execução.