Artigos de pesquisa em IA selecionados diariamente com traduções
A capacidade de longo contexto é fundamental para modelos de base multimodal. Apresentamos o LongVILA, uma solução completa para modelos visão-linguagem de longo contexto, incluindo sistema, treinamento de modelo e desenvolvimento de conjunto de dados. No lado do sistema, introduzimos o primeiro sistema de Paralelismo de Sequência Multi-Modal (MM-SP) que permite treinamento e inferência de longo contexto, possibilitando treinamento com comprimento de contexto de 2M em 256 GPUs. O MM-SP também é eficiente, sendo de 2,1x a 5,7x mais rápido do que o Paralelismo de Sequência Estilo Anel e de 1,1x a 1,4x mais rápido do que o Megatron-LM em configurações apenas de texto. Além disso, ele se integra perfeitamente com os Transformers da Hugging Face. Para o treinamento do modelo, propomos um pipeline de cinco estágios compreendendo alinhamento, pré-treinamento, extensão de contexto e ajuste fino supervisionado conjunto de longo-curto. Em relação aos conjuntos de dados, construímos meticulosamente conjuntos de dados de pré-treinamento visual-linguagem em grande escala e conjuntos de dados de instruções de vídeo longo para apoiar nosso processo de treinamento em múltiplos estágios. A solução completa estende o número de quadros viáveis do VILA por um fator de 128 (de 8 para 1024 quadros) e melhora a pontuação de legenda de vídeo longo de 2,00 para 3,26 (1,6x), alcançando 99,5% de precisão em vídeos de 1400 quadros (comprimento de contexto de 274k) agulha no palheiro. O LongVILA-8B também demonstra uma melhoria consistente no desempenho em vídeos longos dentro do benchmark VideoMME à medida que os quadros de vídeo aumentam.
Os modelos de reconstrução 3D de mundo aberto têm recebido recentemente uma atenção significativa. No entanto, sem viés indutivo 3D suficiente, os métodos existentes geralmente envolvem custos de treinamento elevados e têm dificuldade em extrair malhas 3D de alta qualidade. Neste trabalho, apresentamos o MeshFormer, um modelo de reconstrução de visualização esparsa que alavanca explicitamente a estrutura nativa 3D, orientação de entrada e supervisão de treinamento. Especificamente, em vez de usar uma representação de triplano, armazenamos características em voxels esparsos 3D e combinamos transformadores com convoluções 3D para alavancar uma estrutura 3D explícita e viés projetivo. Além da entrada RGB de visualização esparsa, exigimos que a rede receba entrada e gere mapas normais correspondentes. Os mapas normais de entrada podem ser previstos por modelos de difusão 2D, auxiliando significativamente no guia e refinamento do aprendizado da geometria. Além disso, ao combinar a supervisão da Função de Distância Assinada (SDF) com renderização de superfície, aprendemos diretamente a gerar malhas de alta qualidade sem a necessidade de processos de treinamento complexos em múltiplos estágios. Ao incorporar esses viés 3D explícitos, o MeshFormer pode ser treinado de forma eficiente e fornecer malhas texturizadas de alta qualidade com detalhes geométricos refinados. Ele também pode ser integrado com modelos de difusão 2D para habilitar tarefas rápidas de imagem única para 3D e texto para 3D. Página do projeto: https://meshformer3d.github.io
A segmentação robusta e precisa de cenas tornou-se uma funcionalidade central em várias tarefas de reconhecimento visual e navegação. Isso inspirou o recente desenvolvimento do Modelo Segment Anything (SAM), um modelo fundamental para segmentação de máscara geral. No entanto, o SAM é amplamente adaptado para imagens RGB de modalidade única, limitando sua aplicabilidade a dados multimodais capturados com conjuntos de sensores amplamente adotados, como LiDAR mais RGB, profundidade mais RGB, térmico mais RGB, etc. Desenvolvemos o MM-SAM, uma extensão e expansão do SAM que suporta processamento cruzado e multimodal para segmentação robusta e aprimorada com diferentes conjuntos de sensores. O MM-SAM apresenta dois designs-chave, a saber, transferência cruzada não supervisionada e fusão multimodal fracamente supervisionada, permitindo adaptação eficiente em rótulos e parâmetros para várias modalidades de sensores. Ele aborda três desafios principais: 1) adaptação a diversos sensores não RGB para processamento de modalidade única, 2) processamento sinérgico de dados multimodais por meio de fusão de sensores e 3) treinamento sem máscara para diferentes tarefas subsequentes. Experimentos extensivos mostram que o MM-SAM consistentemente supera o SAM por amplas margens, demonstrando sua eficácia e robustez em vários sensores e modalidades de dados.
A geração de texto para vídeo (T2V) tem recebido significativa atenção devido às suas amplas aplicações na geração, edição, aprimoramento e tradução de vídeos, etc. No entanto, a síntese de vídeo de alta qualidade (HQ) é extremamente desafiadora devido aos movimentos diversos e complexos existentes no mundo real. A maioria dos trabalhos existentes luta para abordar esse problema ao coletar vídeos HQ em grande escala, que são inacessíveis à comunidade. Neste trabalho, demonstramos que dados limitados e de baixa qualidade (LQ) disponíveis publicamente são suficientes para treinar um gerador de vídeo HQ sem recaptura ou ajuste fino. Fatorizamos todo o processo de geração T2V em dois passos: gerar uma imagem condicionada a uma legenda altamente descritiva e sintetizar o vídeo condicionado à imagem gerada e a uma legenda concisa dos detalhes de movimento. Especificamente, apresentamos o Factorized-Dreamer, um framework espaço-temporal fatorizado com vários designs críticos para a geração T2V, incluindo um adaptador para combinar incorporações de texto e imagem, um módulo de atenção cruzada consciente de pixels para capturar informações de imagem em nível de pixel, um codificador de texto T5 para melhor compreensão da descrição de movimento e um PredictNet para supervisionar fluxos ópticos. Apresentamos ainda um cronograma de ruído, que desempenha um papel fundamental na garantia da qualidade e estabilidade da geração de vídeo. Nosso modelo reduz os requisitos em legendas detalhadas e vídeos HQ, e pode ser treinado diretamente em conjuntos de dados LQ limitados com legendas ruidosas e breves, como o WebVid-10M, aliviando em grande parte o custo de coletar pares de vídeo-texto em grande escala. Experimentos extensivos em uma variedade de tarefas de geração T2V e de imagem para vídeo demonstram a eficácia do nosso Factorized-Dreamer proposto. Nossos códigos-fonte estão disponíveis em https://github.com/yangxy/Factorized-Dreamer/.
O design de chips depende fortemente da geração de circuitos booleanos, como Gráficos AND-Inverter (AIGs), a partir de descrições funcionais como tabelas verdade. Embora os avanços recentes em aprendizado profundo tenham como objetivo acelerar o design de circuitos, esses esforços têm se concentrado principalmente em tarefas diferentes da síntese, e os métodos heurísticos tradicionais atingiram um platô. Neste artigo, apresentamos o ShortCircuit, uma arquitetura inovadora baseada em transformadores que aproveita as propriedades estruturais dos AIGs e realiza uma exploração eficiente do espaço. Ao contrário das abordagens anteriores que tentavam a geração de circuitos lógicos de ponta a ponta usando redes profundas, o ShortCircuit emprega um processo de duas fases que combina aprendizado supervisionado com aprendizado por reforço para aprimorar a generalização para tabelas verdade não vistas anteriormente. Também propomos uma variante do AlphaZero para lidar com o espaço de estados duplamente exponencialmente grande e a escassez das recompensas, possibilitando a descoberta de projetos quase ótimos. Para avaliar o desempenho generativo de nosso modelo treinado, extraímos 500 tabelas verdade de um conjunto de referência de 20 circuitos do mundo real. O ShortCircuit gera com sucesso AIGs para 84,6% das tabelas verdade de teste de 8 entradas, e supera a ferramenta de síntese lógica de ponta, ABC, em 14,61% em termos de tamanho de circuitos.
A estimativa de fluxo óptico em tempo real de alta precisão é crucial para várias aplicações do mundo real. Embora os métodos de fluxo óptico baseados em aprendizado recentes tenham alcançado alta precisão, muitas vezes vêm com custos computacionais significativos. Neste artigo, propomos um método de fluxo óptico altamente eficiente que equilibra alta precisão com demandas computacionais reduzidas. Construindo sobre o NeuFlow v1, introduzimos novos componentes, incluindo uma espinha dorsal muito mais leve e um módulo de refinamento rápido. Ambos esses módulos ajudam a manter as demandas computacionais leves, proporcionando resultados próximos ao estado da arte em termos de precisão. Comparado a outros métodos de ponta, nosso modelo alcança uma aceleração de 10x-70x, mantendo um desempenho comparável em dados sintéticos e do mundo real. É capaz de rodar a mais de 20 FPS em imagens de resolução 512x384 em um Jetson Orin Nano. O código completo de treinamento e avaliação está disponível em https://github.com/neufieldrobotics/NeuFlow_v2.
A geração aberta de mundos 3D tem atraído considerável atenção recentemente. Embora muitos métodos de imagem única para 3D tenham produzido resultados visualmente atraentes, frequentemente carecem de controlabilidade suficiente e tendem a gerar regiões alucinadas que podem não estar alinhadas com as expectativas dos usuários. Neste artigo, exploramos um cenário importante no qual a entrada consiste em uma ou algumas imagens 2D despojadas de um único objeto, com pouca ou nenhuma sobreposição. Propomos um método inovador, SpaRP, para reconstruir uma malha 3D texturizada e estimar as poses relativas da câmera para essas imagens de visão esparsa. O SpaRP destila conhecimento de modelos de difusão 2D e os ajusta para deduzir implicitamente as relações espaciais 3D entre as visões esparsas. O modelo de difusão é treinado para prever conjuntamente representações substitutas para poses de câmera e imagens de múltiplas visões do objeto sob poses conhecidas, integrando todas as informações das visões esparsas de entrada. Essas previsões são então aproveitadas para realizar a reconstrução 3D e a estimativa de pose, e o modelo 3D reconstruído pode ser usado para refinar ainda mais as poses de câmera das visões de entrada. Através de experimentos extensivos em três conjuntos de dados, demonstramos que nosso método não apenas supera significativamente os métodos de referência em termos de qualidade de reconstrução 3D e precisão de previsão de pose, mas também exibe forte eficiência. Ele requer apenas cerca de 20 segundos para produzir uma malha texturizada e poses de câmera para as visões de entrada. Página do projeto: https://chaoxu.xyz/sparp.
A atribuição precisa de autoria é crucial para manter a integridade do conteúdo digital, melhorar investigações forenses e mitigar os riscos de desinformação e plágio. Abordar a necessidade imperativa de uma adequada atribuição de autoria é essencial para manter a credibilidade e responsabilidade da autoria autêntica. Os avanços rápidos dos Modelos de Linguagem de Grande Escala (LLMs) têm borrado as fronteiras entre autoria humana e de máquina, apresentando desafios significativos para os métodos tradicionais. Apresentamos uma revisão abrangente da literatura que examina as pesquisas mais recentes sobre atribuição de autoria na era dos LLMs. Esta pesquisa explora sistematicamente o panorama deste campo, categorizando quatro problemas representativos: (1) Atribuição de Texto Escrito por Humanos; (2) Detecção de Texto Gerado por LLMs; (3) Atribuição de Texto Gerado por LLMs; e (4) Atribuição de Texto Coescrito por Humanos e LLMs. Também discutimos os desafios relacionados à garantia da generalização e explicabilidade dos métodos de atribuição de autoria. A generalização requer a capacidade de generalizar em vários domínios, enquanto a explicabilidade enfatiza fornecer insights transparentes e compreensíveis sobre as decisões tomadas por esses modelos. Ao avaliar os pontos fortes e limitações dos métodos e referências existentes, identificamos problemas abertos-chave e direções para futuras pesquisas neste campo. Esta revisão de literatura serve como um guia para pesquisadores e profissionais interessados em compreender o estado da arte neste campo em rápida evolução. Recursos adicionais e uma lista selecionada de artigos estão disponíveis e regularmente atualizados em https://llm-authorship.github.io.
A correta inserção de objetos virtuais em imagens de cenas do mundo real requer um profundo entendimento da iluminação da cena, geometria e materiais, bem como do processo de formação da imagem. Embora modelos de difusão em larga escala recentes tenham mostrado fortes capacidades generativas e de inpainting, observamos que os modelos atuais não compreendem suficientemente a cena mostrada em uma única imagem para gerar efeitos de iluminação consistentes (sombras, reflexos brilhantes, etc.) enquanto preservam a identidade e detalhes do objeto composto. Propomos o uso de um modelo de difusão grande personalizado como orientação para um processo de renderização inversa baseado em física. Nosso método recupera os parâmetros de iluminação da cena e de tone mapping, permitindo a composição fotorrealista de objetos virtuais arbitrários em quadros únicos ou vídeos de cenas internas ou externas. Nosso pipeline baseado em física ainda possibilita o refinamento automático de materiais e tone mapping.
Neste trabalho, propomos uma abordagem T2I controlável baseada em trajetória e sem treinamento, denominada TraDiffusion. Este método inovador permite aos usuários guiar facilmente a geração de imagens por meio de trajetórias do mouse. Para obter controle preciso, projetamos uma função de energia de consciência de distância para guiar efetivamente variáveis latentes, garantindo que o foco da geração esteja dentro das áreas definidas pela trajetória. A função de energia engloba uma função de controle para aproximar a geração da trajetória especificada e uma função de movimento para diminuir a atividade em áreas distantes da trajetória. Através de experimentos extensivos e avaliações qualitativas no conjunto de dados COCO, os resultados revelam que o TraDiffusion facilita um controle de imagem mais simples e natural. Além disso, ele demonstra a capacidade de manipular regiões salientes, atributos e relacionamentos dentro das imagens geradas, juntamente com entradas visuais com base em trajetórias arbitrárias ou aprimoradas.
Agentes de Modelo de Linguagem (LM) para cibersegurança, capazes de identificar autonomamente vulnerabilidades e executar exploits, têm o potencial de causar impactos no mundo real. Decisores políticos, fornecedores de modelos e outros pesquisadores nas comunidades de IA e cibersegurança estão interessados em quantificar as capacidades desses agentes para ajudar a mitigar o ciberrisco e investigar oportunidades para testes de penetração. Com esse objetivo, apresentamos o Cybench, um framework para especificar tarefas de cibersegurança e avaliar agentes nessas tarefas. Incluímos 40 tarefas de Capture the Flag (CTF) de nível profissional de 4 competições CTF distintas, escolhidas por serem recentes, significativas e abrangerem uma ampla gama de dificuldades. Cada tarefa inclui sua própria descrição, arquivos iniciais e é inicializada em um ambiente onde um agente pode executar comandos bash e observar saídas. Como muitas tarefas estão além das capacidades dos agentes LM existentes, introduzimos subtarefas, que dividem uma tarefa em etapas intermediárias para uma avaliação mais graduada; adicionamos subtarefas para 17 das 40 tarefas. Para avaliar as capacidades do agente, construímos um agente de cibersegurança e avaliamos 7 modelos: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat e Llama 3.1 405B Instruct. Sem orientação, descobrimos que os agentes são capazes de resolver apenas as tarefas completas mais fáceis, que levaram equipes humanas até 11 minutos para resolver, com Claude 3.5 Sonnet e GPT-4o apresentando as maiores taxas de sucesso. Por fim, as subtarefas fornecem mais sinal para medir o desempenho em comparação com execuções não orientadas, com os modelos alcançando uma taxa de sucesso 3,2\% maior em tarefas completas com orientação de subtarefas do que sem orientação de subtarefas. Todo o código e dados estão disponíveis publicamente em https://cybench.github.io