Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

LongVILA: Dimensionando Modelos de Linguagem Visual de Longo Contexto para Vídeos Longos
LongVILA: Scaling Long-Context Visual Language Models for Long Videos

Aug 19

ByFuzhao Xue, Yukang Chen, Dacheng Li, Qinghao Hu, Ligeng Zhu, Xiuyu Li, Yunhao Fang, Haotian Tang, Shang Yang, Zhijian Liu, Ethan He, Hongxu Yin, Pavlo Molchanov, Jan Kautz, Linxi Fan, Yuke Zhu, Yao Lu, Song Han

A capacidade de longo contexto é fundamental para modelos de base multimodal. Apresentamos o LongVILA, uma solução completa para modelos visão-linguagem de longo contexto, incluindo sistema, treinamento de modelo e desenvolvimento de conjunto de dados. No lado do sistema, introduzimos o primeiro sistema de Paralelismo de Sequência Multi-Modal (MM-SP) que permite treinamento e inferência de longo contexto, possibilitando treinamento com comprimento de contexto de 2M em 256 GPUs. O MM-SP também é eficiente, sendo de 2,1x a 5,7x mais rápido do que o Paralelismo de Sequência Estilo Anel e de 1,1x a 1,4x mais rápido do que o Megatron-LM em configurações apenas de texto. Além disso, ele se integra perfeitamente com os Transformers da Hugging Face. Para o treinamento do modelo, propomos um pipeline de cinco estágios compreendendo alinhamento, pré-treinamento, extensão de contexto e ajuste fino supervisionado conjunto de longo-curto. Em relação aos conjuntos de dados, construímos meticulosamente conjuntos de dados de pré-treinamento visual-linguagem em grande escala e conjuntos de dados de instruções de vídeo longo para apoiar nosso processo de treinamento em múltiplos estágios. A solução completa estende o número de quadros viáveis do VILA por um fator de 128 (de 8 para 1024 quadros) e melhora a pontuação de legenda de vídeo longo de 2,00 para 3,26 (1,6x), alcançando 99,5% de precisão em vídeos de 1400 quadros (comprimento de contexto de 274k) agulha no palheiro. O LongVILA-8B também demonstra uma melhoria consistente no desempenho em vídeos longos dentro do benchmark VideoMME à medida que os quadros de vídeo aumentam.

MeshFormer: Geração de Malha de Alta Qualidade com Reconstrução Guiada por 3D Modelo
MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

Aug 19

ByMinghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su

Os modelos de reconstrução 3D de mundo aberto têm recebido recentemente uma atenção significativa. No entanto, sem viés indutivo 3D suficiente, os métodos existentes geralmente envolvem custos de treinamento elevados e têm dificuldade em extrair malhas 3D de alta qualidade. Neste trabalho, apresentamos o MeshFormer, um modelo de reconstrução de visualização esparsa que alavanca explicitamente a estrutura nativa 3D, orientação de entrada e supervisão de treinamento. Especificamente, em vez de usar uma representação de triplano, armazenamos características em voxels esparsos 3D e combinamos transformadores com convoluções 3D para alavancar uma estrutura 3D explícita e viés projetivo. Além da entrada RGB de visualização esparsa, exigimos que a rede receba entrada e gere mapas normais correspondentes. Os mapas normais de entrada podem ser previstos por modelos de difusão 2D, auxiliando significativamente no guia e refinamento do aprendizado da geometria. Além disso, ao combinar a supervisão da Função de Distância Assinada (SDF) com renderização de superfície, aprendemos diretamente a gerar malhas de alta qualidade sem a necessidade de processos de treinamento complexos em múltiplos estágios. Ao incorporar esses viés 3D explícitos, o MeshFormer pode ser treinado de forma eficiente e fornecer malhas texturizadas de alta qualidade com detalhes geométricos refinados. Ele também pode ser integrado com modelos de difusão 2D para habilitar tarefas rápidas de imagem única para 3D e texto para 3D. Página do projeto: https://meshformer3d.github.io

Segmentar Qualquer Coisa com Múltiplas Modalidades
Segment Anything with Multiple Modalities

Aug 17

ByAoran Xiao, Weihao Xuan, Heli Qi, Yun Xing, Naoto Yokoya, Shijian Lu

A segmentação robusta e precisa de cenas tornou-se uma funcionalidade central em várias tarefas de reconhecimento visual e navegação. Isso inspirou o recente desenvolvimento do Modelo Segment Anything (SAM), um modelo fundamental para segmentação de máscara geral. No entanto, o SAM é amplamente adaptado para imagens RGB de modalidade única, limitando sua aplicabilidade a dados multimodais capturados com conjuntos de sensores amplamente adotados, como LiDAR mais RGB, profundidade mais RGB, térmico mais RGB, etc. Desenvolvemos o MM-SAM, uma extensão e expansão do SAM que suporta processamento cruzado e multimodal para segmentação robusta e aprimorada com diferentes conjuntos de sensores. O MM-SAM apresenta dois designs-chave, a saber, transferência cruzada não supervisionada e fusão multimodal fracamente supervisionada, permitindo adaptação eficiente em rótulos e parâmetros para várias modalidades de sensores. Ele aborda três desafios principais: 1) adaptação a diversos sensores não RGB para processamento de modalidade única, 2) processamento sinérgico de dados multimodais por meio de fusão de sensores e 3) treinamento sem máscara para diferentes tarefas subsequentes. Experimentos extensivos mostram que o MM-SAM consistentemente supera o SAM por amplas margens, demonstrando sua eficácia e robustez em vários sensores e modalidades de dados.

Curto-Circuito: Projeto de Circuitos Impulsionado por AlphaZero
ShortCircuit: AlphaZero-Driven Circuit Design

Aug 19

ByDimitrios Tsaras, Antoine Grosnit, Lei Chen, Zhiyao Xie, Haitham Bou-Ammar, Mingxuan Yuan

O design de chips depende fortemente da geração de circuitos booleanos, como Gráficos AND-Inverter (AIGs), a partir de descrições funcionais como tabelas verdade. Embora os avanços recentes em aprendizado profundo tenham como objetivo acelerar o design de circuitos, esses esforços têm se concentrado principalmente em tarefas diferentes da síntese, e os métodos heurísticos tradicionais atingiram um platô. Neste artigo, apresentamos o ShortCircuit, uma arquitetura inovadora baseada em transformadores que aproveita as propriedades estruturais dos AIGs e realiza uma exploração eficiente do espaço. Ao contrário das abordagens anteriores que tentavam a geração de circuitos lógicos de ponta a ponta usando redes profundas, o ShortCircuit emprega um processo de duas fases que combina aprendizado supervisionado com aprendizado por reforço para aprimorar a generalização para tabelas verdade não vistas anteriormente. Também propomos uma variante do AlphaZero para lidar com o espaço de estados duplamente exponencialmente grande e a escassez das recompensas, possibilitando a descoberta de projetos quase ótimos. Para avaliar o desempenho generativo de nosso modelo treinado, extraímos 500 tabelas verdade de um conjunto de referência de 20 circuitos do mundo real. O ShortCircuit gera com sucesso AIGs para 84,6% das tabelas verdade de teste de 8 entradas, e supera a ferramenta de síntese lógica de ponta, ABC, em 14,61% em termos de tamanho de circuitos.

Factorized-Dreamer: Treinando um Gerador de Vídeo de Alta Qualidade com Dados Limitados e de Baixa Qualidade
Factorized-Dreamer: Training A High-Quality Video Generator with Limited and Low-Quality Data

Aug 19

ByTao Yang, Yangming Shi, Yunwen Huang, Feng Chen, Yin Zheng, Lei Zhang

A geração de texto para vídeo (T2V) tem recebido significativa atenção devido às suas amplas aplicações na geração, edição, aprimoramento e tradução de vídeos, etc. No entanto, a síntese de vídeo de alta qualidade (HQ) é extremamente desafiadora devido aos movimentos diversos e complexos existentes no mundo real. A maioria dos trabalhos existentes luta para abordar esse problema ao coletar vídeos HQ em grande escala, que são inacessíveis à comunidade. Neste trabalho, demonstramos que dados limitados e de baixa qualidade (LQ) disponíveis publicamente são suficientes para treinar um gerador de vídeo HQ sem recaptura ou ajuste fino. Fatorizamos todo o processo de geração T2V em dois passos: gerar uma imagem condicionada a uma legenda altamente descritiva e sintetizar o vídeo condicionado à imagem gerada e a uma legenda concisa dos detalhes de movimento. Especificamente, apresentamos o Factorized-Dreamer, um framework espaço-temporal fatorizado com vários designs críticos para a geração T2V, incluindo um adaptador para combinar incorporações de texto e imagem, um módulo de atenção cruzada consciente de pixels para capturar informações de imagem em nível de pixel, um codificador de texto T5 para melhor compreensão da descrição de movimento e um PredictNet para supervisionar fluxos ópticos. Apresentamos ainda um cronograma de ruído, que desempenha um papel fundamental na garantia da qualidade e estabilidade da geração de vídeo. Nosso modelo reduz os requisitos em legendas detalhadas e vídeos HQ, e pode ser treinado diretamente em conjuntos de dados LQ limitados com legendas ruidosas e breves, como o WebVid-10M, aliviando em grande parte o custo de coletar pares de vídeo-texto em grande escala. Experimentos extensivos em uma variedade de tarefas de geração T2V e de imagem para vídeo demonstram a eficácia do nosso Factorized-Dreamer proposto. Nossos códigos-fonte estão disponíveis em https://github.com/yangxy/Factorized-Dreamer/.

NeuFlow v2: Estimação de Fluxo Óptico de Alta Eficiência em Dispositivos de Borda
NeuFlow v2: High-Efficiency Optical Flow Estimation on Edge Devices

Aug 19

ByZhiyong Zhang, Aniket Gupta, Huaizu Jiang, Hanumant Singh

A estimativa de fluxo óptico em tempo real de alta precisão é crucial para várias aplicações do mundo real. Embora os métodos de fluxo óptico baseados em aprendizado recentes tenham alcançado alta precisão, muitas vezes vêm com custos computacionais significativos. Neste artigo, propomos um método de fluxo óptico altamente eficiente que equilibra alta precisão com demandas computacionais reduzidas. Construindo sobre o NeuFlow v1, introduzimos novos componentes, incluindo uma espinha dorsal muito mais leve e um módulo de refinamento rápido. Ambos esses módulos ajudam a manter as demandas computacionais leves, proporcionando resultados próximos ao estado da arte em termos de precisão. Comparado a outros métodos de ponta, nosso modelo alcança uma aceleração de 10x-70x, mantendo um desempenho comparável em dados sintéticos e do mundo real. É capaz de rodar a mais de 20 FPS em imagens de resolução 512x384 em um Jetson Orin Nano. O código completo de treinamento e avaliação está disponível em https://github.com/neufieldrobotics/NeuFlow_v2.

SpaRP: Reconstrução Rápida de Objetos 3D e Estimação de Pose a partir de Vistas Esparsas
SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views

Aug 19

ByChao Xu, Ang Li, Linghao Chen, Yulin Liu, Ruoxi Shi, Hao Su, Minghua Liu

A geração aberta de mundos 3D tem atraído considerável atenção recentemente. Embora muitos métodos de imagem única para 3D tenham produzido resultados visualmente atraentes, frequentemente carecem de controlabilidade suficiente e tendem a gerar regiões alucinadas que podem não estar alinhadas com as expectativas dos usuários. Neste artigo, exploramos um cenário importante no qual a entrada consiste em uma ou algumas imagens 2D despojadas de um único objeto, com pouca ou nenhuma sobreposição. Propomos um método inovador, SpaRP, para reconstruir uma malha 3D texturizada e estimar as poses relativas da câmera para essas imagens de visão esparsa. O SpaRP destila conhecimento de modelos de difusão 2D e os ajusta para deduzir implicitamente as relações espaciais 3D entre as visões esparsas. O modelo de difusão é treinado para prever conjuntamente representações substitutas para poses de câmera e imagens de múltiplas visões do objeto sob poses conhecidas, integrando todas as informações das visões esparsas de entrada. Essas previsões são então aproveitadas para realizar a reconstrução 3D e a estimativa de pose, e o modelo 3D reconstruído pode ser usado para refinar ainda mais as poses de câmera das visões de entrada. Através de experimentos extensivos em três conjuntos de dados, demonstramos que nosso método não apenas supera significativamente os métodos de referência em termos de qualidade de reconstrução 3D e precisão de previsão de pose, mas também exibe forte eficiência. Ele requer apenas cerca de 20 segundos para produzir uma malha texturizada e poses de câmera para as visões de entrada. Página do projeto: https://chaoxu.xyz/sparp.

Atribuição de autoria na era dos LLMs: Problemas, Metodologias e Desafios
Authorship Attribution in the Era of LLMs: Problems, Methodologies, and Challenges

Aug 16

ByBaixiang Huang, Canyu Chen, Kai Shu

A atribuição precisa de autoria é crucial para manter a integridade do conteúdo digital, melhorar investigações forenses e mitigar os riscos de desinformação e plágio. Abordar a necessidade imperativa de uma adequada atribuição de autoria é essencial para manter a credibilidade e responsabilidade da autoria autêntica. Os avanços rápidos dos Modelos de Linguagem de Grande Escala (LLMs) têm borrado as fronteiras entre autoria humana e de máquina, apresentando desafios significativos para os métodos tradicionais. Apresentamos uma revisão abrangente da literatura que examina as pesquisas mais recentes sobre atribuição de autoria na era dos LLMs. Esta pesquisa explora sistematicamente o panorama deste campo, categorizando quatro problemas representativos: (1) Atribuição de Texto Escrito por Humanos; (2) Detecção de Texto Gerado por LLMs; (3) Atribuição de Texto Gerado por LLMs; e (4) Atribuição de Texto Coescrito por Humanos e LLMs. Também discutimos os desafios relacionados à garantia da generalização e explicabilidade dos métodos de atribuição de autoria. A generalização requer a capacidade de generalizar em vários domínios, enquanto a explicabilidade enfatiza fornecer insights transparentes e compreensíveis sobre as decisões tomadas por esses modelos. Ao avaliar os pontos fortes e limitações dos métodos e referências existentes, identificamos problemas abertos-chave e direções para futuras pesquisas neste campo. Esta revisão de literatura serve como um guia para pesquisadores e profissionais interessados em compreender o estado da arte neste campo em rápida evolução. Recursos adicionais e uma lista selecionada de artigos estão disponíveis e regularmente atualizados em https://llm-authorship.github.io.

Inserção de Objetos Fotorrealistas com Renderização Inversa Guiada por Difusão
Photorealistic Object Insertion with Diffusion-Guided Inverse Rendering

Aug 19

ByRuofan Liang, Zan Gojcic, Merlin Nimier-David, David Acuna, Nandita Vijaykumar, Sanja Fidler, Zian Wang

A correta inserção de objetos virtuais em imagens de cenas do mundo real requer um profundo entendimento da iluminação da cena, geometria e materiais, bem como do processo de formação da imagem. Embora modelos de difusão em larga escala recentes tenham mostrado fortes capacidades generativas e de inpainting, observamos que os modelos atuais não compreendem suficientemente a cena mostrada em uma única imagem para gerar efeitos de iluminação consistentes (sombras, reflexos brilhantes, etc.) enquanto preservam a identidade e detalhes do objeto composto. Propomos o uso de um modelo de difusão grande personalizado como orientação para um processo de renderização inversa baseado em física. Nosso método recupera os parâmetros de iluminação da cena e de tone mapping, permitindo a composição fotorrealista de objetos virtuais arbitrários em quadros únicos ou vídeos de cenas internas ou externas. Nosso pipeline baseado em física ainda possibilita o refinamento automático de materiais e tone mapping.

TraDiffusion: Geração de Imagens Baseada em Trajetória sem Treinamento
TraDiffusion: Trajectory-Based Training-Free Image Generation

Aug 19

ByMingrui Wu, Oucheng Huang, Jiayi Ji, Jiale Li, Xinyue Cai, Huafeng Kuang, Jianzhuang Liu, Xiaoshuai Sun, Rongrong Ji

Neste trabalho, propomos uma abordagem T2I controlável baseada em trajetória e sem treinamento, denominada TraDiffusion. Este método inovador permite aos usuários guiar facilmente a geração de imagens por meio de trajetórias do mouse. Para obter controle preciso, projetamos uma função de energia de consciência de distância para guiar efetivamente variáveis latentes, garantindo que o foco da geração esteja dentro das áreas definidas pela trajetória. A função de energia engloba uma função de controle para aproximar a geração da trajetória especificada e uma função de movimento para diminuir a atividade em áreas distantes da trajetória. Através de experimentos extensivos e avaliações qualitativas no conjunto de dados COCO, os resultados revelam que o TraDiffusion facilita um controle de imagem mais simples e natural. Além disso, ele demonstra a capacidade de manipular regiões salientes, atributos e relacionamentos dentro das imagens geradas, juntamente com entradas visuais com base em trajetórias arbitrárias ou aprimoradas.

Cybench: Um Framework para Avaliar as Capacidades de Cibersegurança e o Risco de Modelos de Linguagem
Cybench: A Framework for Evaluating Cybersecurity Capabilities and Risk of Language Models

Aug 15

ByAndy K. Zhang, Neil Perry, Riya Dulepet, Eliot Jones, Justin W. Lin, Joey Ji, Celeste Menders, Gashon Hussein, Samantha Liu, Donovan Jasper, Pura Peetathawatchai, Ari Glenn, Vikram Sivashankar, Daniel Zamoshchin, Leo Glikbarg, Derek Askaryar, Mike Yang, Teddy Zhang, Rishi Alluri, Nathan Tran, Rinnara Sangpisit, Polycarpos Yiorkadjis, Kenny Osele, Gautham Raghupathi, Dan Boneh, Daniel E. Ho, Percy Liang

Agentes de Modelo de Linguagem (LM) para cibersegurança, capazes de identificar autonomamente vulnerabilidades e executar exploits, têm o potencial de causar impactos no mundo real. Decisores políticos, fornecedores de modelos e outros pesquisadores nas comunidades de IA e cibersegurança estão interessados em quantificar as capacidades desses agentes para ajudar a mitigar o ciberrisco e investigar oportunidades para testes de penetração. Com esse objetivo, apresentamos o Cybench, um framework para especificar tarefas de cibersegurança e avaliar agentes nessas tarefas. Incluímos 40 tarefas de Capture the Flag (CTF) de nível profissional de 4 competições CTF distintas, escolhidas por serem recentes, significativas e abrangerem uma ampla gama de dificuldades. Cada tarefa inclui sua própria descrição, arquivos iniciais e é inicializada em um ambiente onde um agente pode executar comandos bash e observar saídas. Como muitas tarefas estão além das capacidades dos agentes LM existentes, introduzimos subtarefas, que dividem uma tarefa em etapas intermediárias para uma avaliação mais graduada; adicionamos subtarefas para 17 das 40 tarefas. Para avaliar as capacidades do agente, construímos um agente de cibersegurança e avaliamos 7 modelos: GPT-4o, Claude 3 Opus, Claude 3.5 Sonnet, Mixtral 8x22b Instruct, Gemini 1.5 Pro, Llama 3 70B Chat e Llama 3.1 405B Instruct. Sem orientação, descobrimos que os agentes são capazes de resolver apenas as tarefas completas mais fáceis, que levaram equipes humanas até 11 minutos para resolver, com Claude 3.5 Sonnet e GPT-4o apresentando as maiores taxas de sucesso. Por fim, as subtarefas fornecem mais sinal para medir o desempenho em comparação com execuções não orientadas, com os modelos alcançando uma taxa de sucesso 3,2\% maior em tarefas completas com orientação de subtarefas do que sem orientação de subtarefas. Todo o código e dados estão disponíveis publicamente em https://cybench.github.io

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

LongVILA: Dimensionando Modelos de Linguagem Visual de Longo Contexto para Vídeos Longos
LongVILA: Scaling Long-Context Visual Language Models for Long Videos

Aug 19

MeshFormer: Geração de Malha de Alta Qualidade com Reconstrução Guiada por 3D Modelo
MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model

Aug 19

ByMinghua Liu, Chong Zeng, Xinyue Wei, Ruoxi Shi, Linghao Chen, Chao Xu, Mengqi Zhang, Zhaoning Wang, Xiaoshuai Zhang, Isabella Liu, Hongzhi Wu, Hao Su