Artigos de pesquisa em IA selecionados diariamente com traduções
Muitas empresas de IA estão treinando seus grandes modelos de linguagem (LLMs) em dados sem a permissão dos detentores dos direitos autorais. A permissibilidade desse procedimento varia de acordo com a jurisdição: em países como a UE e o Japão, isso é permitido sob certas restrições, enquanto nos Estados Unidos, o cenário legal é mais ambíguo. Independentemente do status legal, preocupações de produtores criativos resultaram em vários processos judiciais de direitos autorais de alto perfil, e a ameaça de litígio é frequentemente citada como motivo para a tendência recente de minimizar as informações compartilhadas sobre conjuntos de dados de treinamento por atores corporativos e de interesse público. Essa tendência de limitar as informações dos dados causa prejuízos ao dificultar a transparência, a responsabilidade e a inovação no ecossistema mais amplo, ao negar aos pesquisadores, auditores e indivíduos impactados o acesso às informações necessárias para entender os modelos de IA. Embora isso possa ser atenuado ao treinar modelos de linguagem em dados de acesso aberto e de domínio público, no momento da escrita, não existem tais modelos (treinados em uma escala significativa) devido aos substanciais desafios técnicos e sociológicos na montagem do corpus necessário. Esses desafios incluem metadados incompletos e não confiáveis, o custo e a complexidade da digitalização de registros físicos, e o conjunto diversificado de habilidades legais e técnicas necessárias para garantir relevância e responsabilidade em um cenário em rápida mudança. Avançar em direção a um futuro onde sistemas de IA possam ser treinados em dados com licenças abertas que sejam responsavelmente curados e governados requer colaboração entre domínios legais, técnicos e de políticas, juntamente com investimentos em padrões de metadados, digitalização e promoção de uma cultura de abertura.
A recuperação de documentos multimodais é projetada para identificar e recuperar vários tipos de conteúdo multimodal, como figuras, tabelas, gráficos e informações de layout de documentos extensos. Apesar de sua importância, há uma notável falta de um benchmark robusto para avaliar efetivamente o desempenho de sistemas na recuperação de documentos multimodais. Para abordar essa lacuna, este trabalho apresenta um novo benchmark, chamado MMDocIR, que abrange duas tarefas distintas: recuperação em nível de página e em nível de layout. O primeiro foca na localização das páginas mais relevantes dentro de um documento longo, enquanto o segundo visa a detecção de layouts específicos, oferecendo uma granularidade mais refinada do que a análise de página inteira. Um layout pode se referir a uma variedade de elementos, como parágrafos textuais, equações, figuras, tabelas ou gráficos. O benchmark MMDocIR é composto por um conjunto de dados rico com rótulos anotados por especialistas para 1.685 perguntas e rótulos bootstrap para 173.843 perguntas, tornando-se um recurso fundamental para avançar na recuperação de documentos multimodais tanto para treinamento quanto para avaliação. Através de experimentos rigorosos, revelamos que (i) os recuperadores visuais superam significativamente seus equivalentes de texto, (ii) o conjunto de treinamento do MMDocIR pode beneficiar efetivamente o processo de treinamento da recuperação de documentos multimodais e (iii) os recuperadores de texto que se baseiam em VLM-texto têm um desempenho muito melhor do que aqueles que usam OCR-texto. Essas descobertas destacam as vantagens potenciais da integração de elementos visuais para a recuperação de documentos multimodais.
A geração de cenas 3D tem recebido crescente atenção nos últimos anos e feito progressos significativos. Gerar cidades 4D é mais desafiador do que cenas 3D devido à presença de objetos estruturalmente complexos e visualmente diversos, como edifícios e veículos, e à sensibilidade humana aumentada a distorções em ambientes urbanos. Para lidar com essas questões, propomos o CityDreamer4D, um modelo generativo compositivo especificamente projetado para gerar cidades 4D ilimitadas. Nossas principais percepções são: 1) a geração de cidades 4D deve separar objetos dinâmicos (por exemplo, veículos) de cenas estáticas (por exemplo, edifícios e estradas), e 2) todos os objetos na cena 4D devem ser compostos por diferentes tipos de campos neurais para edifícios, veículos e elementos de fundo. Especificamente, propomos o Gerador de Cenários de Tráfego e o Gerador de Layout Ilimitado para produzir cenários de tráfego dinâmicos e layouts de cidade estáticos usando uma representação BEV altamente compacta. Objetos em cidades 4D são gerados combinando campos neurais orientados para elementos de fundo e orientados para instâncias para elementos de fundo, edifícios e veículos. Para se adequarem às características distintas de elementos de fundo e instâncias, os campos neurais empregam grades de hash generativas personalizadas e incrustações posicionais periódicas como parametrizações de cena. Além disso, oferecemos uma ampla gama de conjuntos de dados para geração de cidades, incluindo OSM, Google Earth e CityTopia. O conjunto de dados OSM fornece uma variedade de layouts de cidades do mundo real, enquanto os conjuntos de dados do Google Earth e CityTopia oferecem imagens de cidades em larga escala e de alta qualidade completas com anotações de instâncias 3D. Aproveitando seu design compositivo, o CityDreamer4D suporta uma variedade de aplicações downstream, como edição de instâncias, estilização de cidades e simulação urbana, ao mesmo tempo que oferece um desempenho de ponta na geração de cidades 4D realistas.
A geração de vídeos alcançou um progresso notável com a introdução de modelos de difusão, que melhoraram significativamente a qualidade dos vídeos gerados. No entanto, pesquisas recentes têm se concentrado principalmente em aumentar o treinamento do modelo, oferecendo insights limitados sobre o impacto direto das representações no processo de geração de vídeos. Neste artigo, investigamos inicialmente as características das features em camadas intermediárias, encontrando variações substanciais nos mapas de atenção entre diferentes camadas. Essas variações resultam em representações semânticas instáveis e contribuem para diferenças cumulativas entre as features, o que acaba por reduzir a similaridade entre frames adjacentes e afetar negativamente a coerência temporal. Para lidar com isso, propomos o RepVideo, um framework de representação aprimorado para modelos de difusão de texto para vídeo. Ao acumular features de camadas vizinhas para formar representações enriquecidas, essa abordagem captura informações semânticas mais estáveis. Essas representações aprimoradas são então utilizadas como entradas para o mecanismo de atenção, melhorando assim a expressividade semântica e garantindo consistência de features entre frames adjacentes. Experimentos extensivos demonstram que nosso RepVideo não apenas melhora significativamente a capacidade de gerar aparências espaciais precisas, como capturar relações espaciais complexas entre múltiplos objetos, mas também melhora a consistência temporal na geração de vídeos.
A difusão de vídeo first-in-first-out (FIFO), construída com base em um modelo pré-treinado de texto-para-vídeo, surgiu recentemente como uma abordagem eficaz para geração de vídeos longos sem ajustes. Essa técnica mantém uma fila de quadros de vídeo com ruído progressivamente crescente, produzindo continuamente quadros limpos na cabeça da fila enquanto ruído gaussiano é enfileirado na cauda. No entanto, a FIFO-Diffusion frequentemente enfrenta dificuldades para manter consistência temporal de longo alcance nos vídeos gerados devido à falta de modelagem de correspondência entre os quadros. Neste artigo, propomos a Ouroboros-Diffusion, um novo framework de denoising de vídeo projetado para aprimorar a consistência estrutural e de conteúdo (assunto), possibilitando a geração de vídeos consistentes de comprimento arbitrário. Especificamente, introduzimos uma nova técnica de amostragem latente na cauda da fila para melhorar a consistência estrutural, garantindo transições perceptualmente suaves entre os quadros. Para aprimorar a consistência de assunto, desenvolvemos um mecanismo de Atenção Cruzada Entre Quadros Consciente do Assunto (SACFA), que alinha os assuntos entre os quadros dentro de segmentos curtos para alcançar melhor coerência visual. Além disso, introduzimos orientação autorrecorrente. Essa técnica aproveita informações de todos os quadros limpos anteriores na frente da fila para orientar o denoising dos quadros mais ruidosos no final, promovendo uma interação rica e contextual de informações globais. Experimentos extensos de geração de vídeos longos no benchmark VBench demonstram a superioridade de nossa Ouroboros-Diffusion, especialmente em termos de consistência de assunto, suavidade de movimento e consistência temporal.
Apresentamos o primeiro estudo sobre como a capacidade de raciocínio dos Modelos de Linguagem Multimodais (MLLMs) deve ser explorada para avaliar a estética de obras de arte. Para facilitar essa investigação, construímos o MM-StyleBench, um novo conjunto de dados de alta qualidade para avaliar a estilização artística. Em seguida, desenvolvemos um método fundamentado para modelagem de preferência humana e realizamos uma análise sistemática de correlação entre as respostas dos MLLMs e a preferência humana. Nossos experimentos revelam um problema inerente de alucinação dos MLLMs na avaliação artística, associado à subjetividade das respostas. O ArtCoT é proposto, demonstrando que a decomposição de tarefas específicas de arte e o uso de linguagem concreta impulsionam a capacidade de raciocínio dos MLLMs para estética. Nossas descobertas oferecem insights valiosos sobre os MLLMs para arte e podem beneficiar uma ampla gama de aplicações posteriores, como transferência de estilo e geração de imagens artísticas. Código disponível em https://github.com/songrise/MLLM4Art.
Nos últimos anos, avanços notáveis na geração de conteúdo por inteligência artificial (IA) foram alcançados nos campos da síntese de imagens e geração de texto, gerando conteúdo comparável ao produzido por humanos. No entanto, a qualidade da música gerada por IA ainda não atingiu esse padrão, principalmente devido ao desafio de controlar efetivamente as emoções musicais e garantir saídas de alta qualidade. Este artigo apresenta um framework generalizado de geração de música simbólica, XMusic, que suporta prompts flexíveis (ou seja, imagens, vídeos, textos, tags e cantarolar) para gerar música simbólica emocionalmente controlável e de alta qualidade. XMusic é composto por dois componentes principais, XProjector e XComposer. XProjector analisa os prompts de várias modalidades em elementos de música simbólica (ou seja, emoções, gêneros, ritmos e notas) dentro do espaço de projeção para gerar música correspondente. XComposer contém um Gerador e um Seletor. O Gerador gera música emocionalmente controlável e melodiosa com base em nossa representação inovadora de música simbólica, enquanto o Seletor identifica música simbólica de alta qualidade construindo um esquema de aprendizado multitarefa envolvendo avaliação de qualidade, reconhecimento de emoção e reconhecimento de gênero. Além disso, construímos XMIDI, um conjunto de dados de música simbólica em grande escala que contém 108.023 arquivos MIDI anotados com rótulos precisos de emoção e gênero. Avaliações objetivas e subjetivas mostram que XMusic supera significativamente os métodos atuais de ponta com uma qualidade musical impressionante. Nosso XMusic foi premiado como um dos nove destaques da WAIC 2023. A página inicial do projeto XMusic é https://xmusic-project.github.io.
As pirâmides de imagem são amplamente adotadas nos métodos de alto desempenho para obter características em múltiplas escalas para uma percepção visual e compreensão precisas. No entanto, as pirâmides de imagem atuais utilizam o mesmo modelo de grande escala para processar múltiplas resoluções de imagens, resultando em um custo computacional significativo. Para enfrentar esse desafio, propomos uma nova arquitetura de rede, chamada Redes de Pirâmide de Imagem com Parâmetros Invertidos (PIIP). Especificamente, o PIIP utiliza modelos pré-treinados (ViTs ou CNNs) como ramos para processar imagens em várias escalas, onde imagens de resoluções mais altas são processadas por ramos de rede menores para equilibrar o custo computacional e o desempenho. Para integrar informações de diferentes escalas espaciais, propomos ainda um novo mecanismo de interação de características entre ramos. Para validar o PIIP, aplicamo-lo a vários modelos de percepção e a um modelo de linguagem multimodal representativo chamado LLaVA, e realizamos experimentos extensivos em várias tarefas, como detecção de objetos, segmentação, classificação de imagens e compreensão multimodal. O PIIP alcança desempenho superior em comparação com abordagens de única ramificação e multi-resolução existentes, com menor custo computacional. Quando aplicado ao InternViT-6B, um modelo de visão em grande escala, o PIIP pode melhorar seu desempenho em 1%-2% em detecção e segmentação com apenas 40%-60% da computação original, alcançando finalmente 60,0 box AP no MS COCO e 59,7 mIoU no ADE20K. Para compreensão multimodal, nosso PIIP-LLaVA alcança 73,0% de precisão no TextVQA e 74,5% no MMBench com apenas 2,8M de dados de treinamento. Nosso código está disponível em https://github.com/OpenGVLab/PIIP.
Frequentemente interagimos com partes não confiáveis. A priorização da privacidade pode limitar a eficácia dessas interações, uma vez que alcançar certos objetivos requer o compartilhamento de dados privados. Tradicionalmente, lidar com esse desafio envolveu buscar intermediários confiáveis ou construir protocolos criptográficos que restrinjam a quantidade de dados revelados, como computações multipartes ou provas de conhecimento zero. Embora tenham sido feitos avanços significativos na escalabilidade de abordagens criptográficas, elas permanecem limitadas em termos do tamanho e complexidade das aplicações para as quais podem ser usadas. Neste artigo, argumentamos que modelos de aprendizado de máquina capazes podem desempenhar o papel de terceira parte confiável, possibilitando assim computações seguras para aplicações que anteriormente eram inviáveis. Em particular, descrevemos Ambientes de Modelo Capaz Confiável (TCMEs) como uma abordagem alternativa para escalar computação segura, onde modelo(s) de aprendizado de máquina capaz interagem sob restrições de entrada/saída, com controle explícito de fluxo de informações e estado de explicitamente sem memória. Esta abordagem visa alcançar um equilíbrio entre privacidade e eficiência computacional, possibilitando inferência privada onde soluções criptográficas clássicas são atualmente inviáveis. Descrevemos vários casos de uso habilitados pelo TCME e demonstramos que até mesmo alguns problemas criptográficos clássicos simples já podem ser resolvidos com o TCME. Por fim, delineamos as limitações atuais e discutimos o caminho a seguir para implementá-las.
A correspondência de imagens tanto para visões cruzadas quanto para multimodalidades desempenha um papel crítico na percepção multimodal. Na prática, a diferença de modalidade causada por diferentes sistemas/estilos de imagem impõe grandes desafios à tarefa de correspondência. Trabalhos existentes tentam extrair características invariantes para modalidades específicas e treinar em conjuntos de dados limitados, mostrando baixa generalização. Neste artigo, apresentamos MINIMA, um framework unificado de correspondência de imagens para múltiplos casos cruzados de modalidades. Sem buscar módulos sofisticados, nosso MINIMA tem como objetivo melhorar o desempenho universal do ponto de vista da ampliação dos dados. Para esse fim, propomos um mecanismo de dados simples, porém eficaz, que pode gerar livremente um grande conjunto de dados contendo múltiplas modalidades, cenários variados e rótulos de correspondência precisos. Especificamente, ampliamos as modalidades a partir de dados de correspondência apenas RGB baratos, por meio de modelos generativos. Nesse cenário, os rótulos de correspondência e a rica diversidade do conjunto de dados RGB são bem herdados pelos dados multimodais gerados. Beneficiando-se disso, construímos MD-syn, um novo conjunto de dados abrangente que preenche a lacuna de dados para correspondência de imagens multimodais gerais. Com MD-syn, podemos treinar diretamente qualquer pipeline de correspondência avançada em pares de modalidades selecionados aleatoriamente para obter capacidade cruzada de modalidades. Experimentos extensivos em tarefas de correspondência dentro do domínio e de zero-shot, incluindo 19 casos cruzados de modalidades, demonstram que nosso MINIMA pode superar significativamente as bases e até mesmo ultrapassar métodos específicos de modalidade. O conjunto de dados e o código estão disponíveis em https://github.com/LSXI7/MINIMA.
Interagir com o mundo é uma experiência multi-sensorial: alcançar uma interação eficaz de propósito geral requer o uso de todas as modalidades disponíveis - incluindo visão, toque e áudio - para preencher lacunas a partir de observações parciais. Por exemplo, quando a visão está obstruída ao alcançar algo em uma bolsa, um robô deve confiar em seus sentidos de toque e som. No entanto, as políticas de robô generalistas de ponta geralmente são treinadas em grandes conjuntos de dados para prever ações do robô exclusivamente a partir de observações visuais e proprioceptivas. Neste trabalho, propomos FuSe, uma abordagem inovadora que permite ajustar finamente políticas generalistas visuomotoras em modalidades de sensores heterogêneas para as quais grandes conjuntos de dados não estão prontamente disponíveis, aproveitando a linguagem natural como uma base comum de cruzamento modal. Combinamos uma perda contrastiva multimodal com uma perda de geração de linguagem fundamentada em sensores para codificar semântica de alto nível. No contexto da manipulação de robôs, mostramos que FuSe permite realizar tarefas desafiadoras que exigem raciocínio conjunto sobre modalidades como visão, toque e som em um cenário de zero-shot, como solicitação multimodal, solicitação cruzada composicional e descrições dos objetos com os quais interage. Demonstramos que a mesma abordagem é aplicável a políticas generalistas amplamente diferentes, incluindo políticas generalistas baseadas em difusão e modelos de visão-linguagem-ação (VLA) de grande porte. Experimentos extensivos no mundo real mostram que FuSe é capaz de aumentar as taxas de sucesso em mais de 20% em comparação com todas as bases consideradas.