Artigos de pesquisa em IA selecionados diariamente com traduções
A informação estrutural é crucial para compreender a semântica de imagens ricas em texto, como documentos, tabelas e gráficos. Os Modelos de Linguagem Multimodal de Grande Escala (MLLMs) existentes para Compreensão Visual de Documentos são equipados com capacidade de reconhecimento de texto, mas carecem de habilidades gerais de compreensão estrutural para imagens de documentos ricos em texto. Neste trabalho, enfatizamos a importância da informação estrutural na Compreensão Visual de Documentos e propomos o Aprendizado Unificado de Estrutura para impulsionar o desempenho dos MLLMs. Nosso Aprendizado Unificado de Estrutura compreende tarefas de análise consciente da estrutura e tarefas de localização de texto multigranulares em 5 domínios: documento, página web, tabela, gráfico e imagem natural. Para codificar melhor a informação estrutural, projetamos um módulo simples e eficiente de visão para texto, o H-Reducer, que não apenas mantém a informação de layout, mas também reduz o comprimento das características visuais ao mesclar patches adjacentes horizontalmente por meio de convolução, permitindo que o LLM compreenda imagens de alta resolução de forma mais eficiente. Além disso, ao construir sequências de texto conscientes da estrutura e pares multigranulares de textos e caixas delimitadoras para imagens ricas em texto disponíveis publicamente, construímos um conjunto de treinamento abrangente, o DocStruct4M, para apoiar o aprendizado de estrutura. Por fim, construímos um pequeno, mas de alta qualidade, conjunto de dados de ajuste de raciocínio, o DocReason25K, para desencadear a capacidade de explicação detalhada no domínio de documentos. Nosso modelo, o DocOwl 1.5, alcança desempenho de ponta em 10 benchmarks de compreensão visual de documentos, melhorando o desempenho SOTA dos MLLMs com um LLM de 7B em mais de 10 pontos em 5/10 benchmarks. Nossos códigos, modelos e conjuntos de dados estão disponíveis publicamente em https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5.
Este artigo foca na compressão de prompts agnóstica a tarefas para melhor generalização e eficiência. Considerando a redundância na linguagem natural, abordagens existentes comprimem prompts removendo tokens ou unidades lexicais de acordo com sua entropia de informação obtida de um modelo de linguagem causal, como o LLaMa-7B. O desafio é que a entropia de informação pode ser uma métrica de compressão subótima: (i) ela utiliza apenas contexto unidirecional e pode falhar em capturar todas as informações essenciais necessárias para a compressão de prompts; (ii) ela não está alinhada com o objetivo de compressão de prompts. Para abordar esses problemas, propomos um procedimento de destilação de dados para derivar conhecimento de um LLM (Large Language Model) para comprimir prompts sem perder informações cruciais e, ao mesmo tempo, introduzimos um conjunto de dados de compressão de texto extrativa. Formulamos a compressão de prompts como um problema de classificação de tokens para garantir a fidelidade do prompt comprimido ao original e usamos um codificador Transformer como arquitetura base para capturar todas as informações essenciais para a compressão de prompts a partir do contexto bidirecional completo. Nossa abordagem resulta em menor latência ao aprender explicitamente o objetivo de compressão com modelos menores, como o XLM-RoBERTa-large e o mBERT. Avaliamos nosso método em conjuntos de dados dentro e fora do domínio, incluindo MeetingBank, LongBench, ZeroScrolls, GSM8K e BBH. Apesar de seu tamanho reduzido, nosso modelo mostra ganhos significativos de desempenho em relação a baselines fortes e demonstra capacidade robusta de generalização em diferentes LLMs. Além disso, nosso modelo é 3x-6x mais rápido que os métodos existentes de compressão de prompts, enquanto acelera a latência de ponta a ponta em 1.6x-2.9x com taxas de compressão de 2x-5x.
Transformar textos não estruturados em formas estruturadas e significativas, organizadas por rótulos de categorias úteis, é uma etapa fundamental na mineração de texto para análises e aplicações subsequentes. No entanto, a maioria dos métodos existentes para produzir taxonomias de rótulos e construir classificadores baseados em texto ainda depende fortemente de expertise de domínio e curadoria manual, tornando o processo caro e demorado. Isso é particularmente desafiador quando o espaço de rótulos é subespecificado e anotações de dados em grande escala não estão disponíveis. Neste artigo, abordamos esses desafios com Modelos de Linguagem de Grande Escala (LLMs), cuja interface baseada em prompts facilita a indução e o uso de rótulos pseudo em grande escala. Propomos o TnT-LLM, um framework de duas fases que emprega LLMs para automatizar o processo de geração e atribuição de rótulos de ponta a ponta com esforço humano mínimo para qualquer caso de uso. Na primeira fase, introduzimos uma abordagem de raciocínio em múltiplos estágios e zero-shot que permite que LLMs produzam e refinem uma taxonomia de rótulos iterativamente. Na segunda fase, LLMs são usados como rotuladores de dados que geram amostras de treinamento para que classificadores supervisionados leves possam ser construídos, implantados e servidos de forma confiável em escala. Aplicamos o TnT-LLM à análise de intenção do usuário e domínio conversacional para o Bing Copilot (anteriormente Bing Chat), um mecanismo de busca baseado em chat de domínio aberto. Experimentos extensivos usando métricas de avaliação humana e automática demonstram que o TnT-LLM gera taxonomias de rótulos mais precisas e relevantes em comparação com baselines state-of-the-art, e alcança um equilíbrio favorável entre precisão e eficiência para classificação em escala. Também compartilhamos nossas experiências práticas e insights sobre os desafios e oportunidades de usar LLMs para mineração de texto em grande escala em aplicações do mundo real.
Modelos de Linguagem de Grande Escala (LLMs) de código aberto têm alcançado grande sucesso em diversas tarefas de PLN, no entanto, eles ainda são muito inferiores aos modelos baseados em API quando atuam como agentes. Como integrar a capacidade de agente em LLMs gerais torna-se um problema crucial e urgente. Este artigo apresenta inicialmente três observações-chave: (1) o corpus de treinamento de agentes atual está entrelaçado com a formatação de instruções e o raciocínio de agente, o que se desvia significativamente da distribuição dos dados de pré-treinamento; (2) LLMs exibem velocidades de aprendizado diferentes nas capacidades exigidas por tarefas de agente; e (3) as abordagens atuais têm efeitos colaterais ao melhorar as habilidades de agente, introduzindo alucinações. Com base nessas descobertas, propomos o Agent-FLAN para ajustar eficazmente modelos de linguagem para agentes. Através da decomposição e redesign cuidadosos do corpus de treinamento, o Agent-FLAN permite que o Llama2-7B supere os melhores trabalhos anteriores em 3,5% em diversos conjuntos de dados de avaliação de agentes. Com amostras negativas construídas de forma abrangente, o Agent-FLAN alivia significativamente os problemas de alucinação com base em nosso benchmark de avaliação estabelecido. Além disso, ele melhora consistentemente a capacidade de agente dos LLMs ao escalar os tamanhos dos modelos, enquanto aprimora levemente a capacidade geral dos LLMs. O código estará disponível em https://github.com/InternLM/Agent-FLAN.
Apresentamos o AnimateDiff-Lightning para geração de vídeos ultrarrápida. Nosso modelo utiliza difusão adversária progressiva com destilação para alcançar um novo estado da arte na geração de vídeos com poucos passos. Discutimos nossas modificações para adaptá-lo à modalidade de vídeo. Além disso, propomos destilar simultaneamente o fluxo de probabilidade de múltiplos modelos de difusão base, resultando em um único módulo de movimento destilado com maior compatibilidade de estilos. Temos o prazer de disponibilizar nosso modelo AnimateDiff-Lightning destilado para uso da comunidade.
Enquanto sistemas robóticos em grande escala normalmente dependem de instruções textuais para tarefas, este trabalho explora uma abordagem diferente: os robôs podem inferir a tarefa diretamente ao observar humanos? Essa mudança exige que o robô seja capaz de decodificar a intenção humana e traduzi-la em ações executáveis dentro de suas restrições físicas e ambiente. Apresentamos o Vid2Robot, uma nova estrutura de aprendizado baseada em vídeo de ponta a ponta para robôs. Dada uma demonstração em vídeo de uma tarefa de manipulação e observações visuais atuais, o Vid2Robot produz diretamente ações robóticas. Isso é alcançado por meio de um modelo de representação unificado treinado em um grande conjunto de dados de vídeos humanos e trajetórias robóticas. O modelo aproveita mecanismos de atenção cruzada para fundir características do vídeo de prompt ao estado atual do robô e gerar ações apropriadas que imitam a tarefa observada. Para melhorar ainda mais o desempenho da política, propomos perdas contrastivas auxiliares que aumentam o alinhamento entre as representações de vídeo humano e robótico. Avaliamos o Vid2Robot em robôs do mundo real, demonstrando uma melhoria de 20% no desempenho em comparação com outras políticas condicionadas por vídeo ao usar vídeos de demonstração humana. Além disso, nosso modelo exibe capacidades emergentes, como transferir com sucesso movimentos observados de um objeto para outro e composição de longo horizonte, mostrando assim seu potencial para aplicações do mundo real. Site do projeto: vid2robot.github.io
Modelos de visão e linguagem (VLMs) estão alcançando desempenhos cada vez mais fortes em tarefas multimodais. No entanto, as capacidades de raciocínio permanecem limitadas, especialmente para VLMs menores, enquanto as dos modelos de linguagem de grande escala (LLMs) têm visto inúmeras melhorias. Propomos uma técnica para transferir capacidades de LLMs para VLMs. No recentemente introduzido ChartQA, nosso método obtém desempenho de ponta quando aplicado ao VLM PaLI3-5B por chen2023pali3, ao mesmo tempo em que permite um desempenho muito melhor em PlotQA e FigureQA. Primeiro, melhoramos a representação de gráficos continuando o estágio de pré-treinamento usando uma versão aprimorada da tarefa de tradução de gráfico para tabela por liu2023deplot. Em seguida, propomos a construção de um conjunto de dados 20 vezes maior que o conjunto de treinamento original. Para melhorar as capacidades gerais de raciocínio e operações numéricas, sintetizamos traços de raciocínio usando a representação tabular de gráficos. Por fim, nosso modelo é ajustado usando a função de perda multitarefa introduzida por hsieh2023distilling. Nossa variante ChartPaLI-5B supera até mesmo modelos 10 vezes maiores, como o PaLIX-55B, sem usar um sistema OCR upstream, mantendo o tempo de inferência constante em comparação com a linha de base PaLI3-5B. Quando as racionalizações são ainda mais refinadas com um prompt simples de programa-de-pensamento chen2023program, nosso modelo supera o recentemente introduzido Gemini Ultra e GPT-4V.
A criação de campos 4D de Gaussian Splatting a partir de imagens ou vídeos é uma tarefa desafiadora devido à sua natureza sub-restrita. Embora a otimização possa se basear em referências fotométricas dos vídeos de entrada ou ser regulada por modelos generativos, a supervisão direta dos movimentos Gaussianos ainda é pouco explorada. Neste artigo, introduzimos um novo conceito, o fluxo Gaussiano, que conecta a dinâmica dos Gaussianos 3D e as velocidades dos pixels entre quadros consecutivos. O fluxo Gaussiano pode ser obtido de forma eficiente ao projetar a dinâmica Gaussiana no espaço da imagem. Esse processo diferenciável permite a supervisão dinâmica direta a partir do fluxo óptico. Nosso método traz benefícios significativos para a geração de conteúdo dinâmico 4D e a síntese de novas vistas 4D com Gaussian Splatting, especialmente para conteúdos com movimentos complexos que são difíceis de serem tratados por métodos existentes. O problema comum de deriva de cor que ocorre na geração 4D também é resolvido com a melhoria da dinâmica Gaussiana. A qualidade visual superior em experimentos extensivos demonstra a eficácia do nosso método. Avaliações quantitativas e qualitativas mostram que nosso método alcança resultados de ponta tanto na geração 4D quanto na síntese de novas vistas 4D. Página do projeto: https://zerg-overmind.github.io/GaussianFlow.github.io/
A geração de ativos 3D de alta qualidade a partir de uma imagem fornecida é altamente desejável em diversas aplicações, como RA/RV. Avanços recentes na geração 3D a partir de uma única imagem exploram modelos de propagação direta que aprendem a inferir o modelo 3D de um objeto sem otimização. Embora resultados promissores tenham sido alcançados na geração de objetos únicos, esses métodos frequentemente enfrentam dificuldades para modelar ativos 3D complexos que contêm naturalmente múltiplos objetos. Neste trabalho, apresentamos o ComboVerse, um framework de geração 3D que produz ativos 3D de alta qualidade com composições complexas ao aprender a combinar múltiplos modelos. 1) Primeiro, realizamos uma análise detalhada dessa "lacuna de múltiplos objetos" tanto do ponto de vista do modelo quanto dos dados. 2) Em seguida, com modelos 3D reconstruídos de diferentes objetos, buscamos ajustar seus tamanhos, ângulos de rotação e localizações para criar um ativo 3D que corresponda à imagem fornecida. 3) Para automatizar esse processo, aplicamos a amostragem de destilação de pontuação espacialmente consciente (SSDS) a partir de modelos de difusão pré-treinados para orientar o posicionamento dos objetos. Nosso framework proposto enfatiza o alinhamento espacial dos objetos, em comparação com a amostragem de destilação de pontuação padrão, alcançando assim resultados mais precisos. Experimentos extensivos validam que o ComboVerse alcança melhorias claras em relação aos métodos existentes na geração de ativos 3D composicionais.
A notável eficácia dos modelos de difusão de texto para imagem tem motivado uma extensa exploração de seu potencial aplicação em domínios de vídeo. Métodos zero-shot buscam estender modelos de difusão de imagem para vídeos sem a necessidade de treinamento do modelo. Métodos recentes concentram-se principalmente na incorporação de correspondência inter-quadros em mecanismos de atenção. No entanto, a restrição suave imposta na determinação de onde atentar para características válidas pode, por vezes, ser insuficiente, resultando em inconsistência temporal. Neste artigo, introduzimos o FRESCO, que combina correspondência intra-quadro com correspondência inter-quadro para estabelecer uma restrição espaço-temporal mais robusta. Esse aprimoramento garante uma transformação mais consistente de conteúdo semanticamente similar entre os quadros. Além de meramente guiar a atenção, nossa abordagem envolve uma atualização explícita das características para alcançar alta consistência espaço-temporal com o vídeo de entrada, melhorando significativamente a coerência visual dos vídeos traduzidos resultantes. Experimentos extensivos demonstram a eficácia do nosso framework proposto na produção de vídeos de alta qualidade e coerentes, marcando uma melhoria notável em relação aos métodos zero-shot existentes.
Neste estudo, aprofundamo-nos na geração de imagens de alta resolução a partir de modelos de difusão pré-treinados, abordando desafios persistentes, como padrões repetitivos e distorções estruturais, que surgem quando os modelos são aplicados além de suas resoluções de treinamento. Para resolver esse problema, introduzimos uma abordagem inovadora e livre de treinamento, chamada FouriScale, a partir da perspectiva da análise do domínio da frequência. Substituímos as camadas convolucionais originais nos modelos de difusão pré-treinados, incorporando uma técnica de dilatação juntamente com uma operação de passa-baixa, visando alcançar consistência estrutural e consistência de escala entre diferentes resoluções, respectivamente. Aprimorado ainda mais por uma estratégia de preenchimento e corte, nosso método pode lidar de forma flexível com a geração de imagens a partir de texto em várias proporções. Ao utilizar o FouriScale como guia, nosso método equilibra com sucesso a integridade estrutural e a fidelidade das imagens geradas, alcançando uma capacidade impressionante de geração de alta resolução e alta qualidade em tamanhos arbitrários. Com sua simplicidade e compatibilidade, nosso método pode fornecer insights valiosos para futuras explorações na síntese de imagens de ultra-alta resolução. O código será disponibilizado em https://github.com/LeonHLJ/FouriScale.
Texturizar humanos 3D com mapas UV semânticos continua sendo um desafio devido à dificuldade de adquirir UVs razoavelmente desdobrados. Apesar dos recentes avanços em texto-para-3D na supervisão de renderizações multi-visão usando grandes modelos de texto-para-imagem (T2I), persistem problemas com a velocidade de geração, consistência textual e qualidade da textura, resultando em escassez de dados entre os conjuntos de dados existentes. Apresentamos o TexDreamer, o primeiro modelo de geração de texturas 3D de alta fidelidade para humanos em modo zero-shot multimodal. Utilizando uma estratégia eficiente de ajuste fino de adaptação de textura, adaptamos um grande modelo T2I a uma estrutura UV semântica enquanto preservamos sua capacidade de generalização original. Aproveitando um novo módulo de tradutor de características, o modelo treinado é capaz de gerar texturas 3D de alta fidelidade para humanos a partir de texto ou imagem em segundos. Além disso, introduzimos o ArTicuLated humAn textureS (ATLAS), o maior conjunto de dados de texturas 3D de alta resolução (1024 X 1024) para humanos, que contém 50 mil texturas de alta fidelidade com descrições textuais.
Nos últimos anos, o splatting com Gaussianas 3D emergiu como uma técnica poderosa para reconstrução e geração 3D, conhecida por suas capacidades rápidas e de alta qualidade de renderização. Para abordar essas limitações, este artigo introduz um novo framework baseado em difusão, o GVGEN, projetado para gerar eficientemente representações de Gaussianas 3D a partir de entradas de texto. Propomos duas técnicas inovadoras: (1) Representação Volumétrica Estruturada. Primeiro, organizamos pontos desordenados de Gaussianas 3D em uma forma estruturada chamada GaussianVolume. Essa transformação permite a captura de detalhes texturais intrincados dentro de um volume composto por um número fixo de Gaussianas. Para otimizar melhor a representação desses detalhes, propomos um método único de poda e densificação chamado Estratégia de Pool de Candidatos, que melhora a fidelidade dos detalhes por meio de otimização seletiva. (2) Pipeline de Geração do Grosso ao Fino. Para simplificar a geração do GaussianVolume e capacitar o modelo a gerar instâncias com geometria 3D detalhada, propomos um pipeline do grosso ao fino. Ele inicialmente constrói uma estrutura geométrica básica, seguida pela predição de atributos completos das Gaussianas. Nosso framework, GVGEN, demonstra desempenho superior em avaliações qualitativas e quantitativas em comparação com métodos existentes de geração 3D. Simultaneamente, mantém uma velocidade de geração rápida (∼7 segundos), equilibrando efetivamente qualidade e eficiência.