Artigos de pesquisa em IA selecionados diariamente com traduções
A criação de mundos 3D imersivos e jogáveis a partir de textos ou imagens continua sendo um desafio fundamental na visão computacional e na computação gráfica. As abordagens existentes para geração de mundos geralmente se enquadram em duas categorias: métodos baseados em vídeo que oferecem diversidade rica, mas carecem de consistência 3D e eficiência de renderização, e métodos baseados em 3D que fornecem consistência geométrica, mas lutam com dados de treinamento limitados e representações ineficientes em termos de memória. Para abordar essas limitações, apresentamos o HunyuanWorld 1.0, uma estrutura inovadora que combina o melhor de ambos os mundos para gerar cenas 3D imersivas, exploráveis e interativas a partir de condições de texto e imagem. Nossa abordagem apresenta três vantagens principais: 1) experiências imersivas de 360° por meio de proxies mundiais panorâmicos; 2) capacidades de exportação de malhas para compatibilidade perfeita com pipelines de computação gráfica existentes; 3) representações de objetos desacopladas para interatividade aumentada. O núcleo de nossa estrutura é uma representação de malha 3D semanticamente estratificada que utiliza imagens panorâmicas como proxies mundiais de 360° para decomposição e reconstrução de mundos com consciência semântica, permitindo a geração de diversos mundos 3D. Experimentos extensivos demonstram que nosso método alcança desempenho de ponta na geração de mundos 3D coerentes, exploráveis e interativos, ao mesmo tempo em que possibilita aplicações versáteis em realidade virtual, simulação física, desenvolvimento de jogos e criação de conteúdo interativo.
Numerosos esforços têm sido feitos para estender o paradigma de "previsão do próximo token" para conteúdos visuais, visando criar uma abordagem unificada tanto para a geração quanto para a compreensão de imagens. No entanto, tentativas de gerar imagens por meio de modelagem autoregressiva com tokens discretos têm sido prejudicadas por problemas como baixa fidelidade visual, distorções nas saídas e falha em aderir a instruções complexas ao renderizar detalhes intrincados. Essas deficiências são provavelmente atribuídas a erros cumulativos durante a inferência autoregressiva ou à perda de informação ocorrida durante o processo de discretização. Provavelmente devido a esse desafio, pesquisas recentes têm se voltado cada vez mais para o treinamento conjunto de geração de imagens com objetivos de difusão e geração de linguagem com objetivos autoregressivos, afastando-se de abordagens de modelagem unificada. Neste trabalho, demonstramos que o aprendizado por reforço pode efetivamente mitigar artefatos e ampliar significativamente a qualidade de geração de um método de modelagem autoregressiva discreta, permitindo assim a integração perfeita da geração de imagens e linguagem. Nosso framework consiste em um tokenizador semântico de imagens, um modelo autoregressivo unificado para linguagem e imagens, e um decodificador de difusão offline para geração de imagens, denominado X-Omni. O X-Omni alcança desempenho de ponta em tarefas de geração de imagens utilizando um modelo de linguagem de 7B, produzindo imagens com alta qualidade estética enquanto exibe fortes capacidades em seguir instruções e renderizar textos longos.
Embora os grandes modelos de linguagem (LLMs) tenham alcançado progressos impressionantes, sua aplicação em domínios científicos, como a química, ainda é limitada por uma compreensão superficial do domínio e capacidades de raciocínio restritas. Neste trabalho, focamos no campo específico da química e desenvolvemos um modelo de linguagem especializado em raciocínio químico, o ChemDFM-R. Primeiro, construímos um conjunto de dados abrangente de pontos de conhecimento atomizados para aprimorar a compreensão do modelo sobre os princípios fundamentais e a estrutura lógica da química. Em seguida, propomos uma estratégia de destilação de fontes mistas que integra conhecimento curado por especialistas com habilidades de raciocínio de domínio geral, seguida por um reforço de aprendizado específico do domínio para aprimorar o raciocínio químico. Experimentos em diversos benchmarks químicos demonstram que o ChemDFM-R alcança desempenho de ponta, fornecendo saídas interpretáveis e baseadas em racionalizações. Estudos de caso adicionais ilustram como cadeias de raciocínio explícitas melhoram significativamente a confiabilidade, transparência e utilidade prática do modelo em cenários reais de colaboração humano-IA.
O crescimento exponencial na demanda por recursos de computação em GPU, impulsionado pelo rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs), criou uma necessidade urgente por estratégias automatizadas de otimização CUDA. Embora os avanços recentes em LLMs mostrem potencial para geração de código, os modelos atuais de estado da arte (SOTA, por exemplo, R1, o1) alcançam taxas de sucesso baixas na melhoria da velocidade CUDA. Neste artigo, introduzimos o CUDA-L1, uma estrutura de aprendizado por reforço automatizada para otimização CUDA. O CUDA-L1 alcança melhorias de desempenho na tarefa de otimização CUDA: treinado em NVIDIA A100, ele proporciona um aumento médio de velocidade de 17,7x em todos os 250 kernels CUDA do KernelBench, com picos de aceleração chegando a 449x. Além disso, o modelo também demonstra excelente portabilidade entre arquiteturas de GPU, alcançando aumentos médios de velocidade de 17,8x em H100, 19,0x em RTX 3090, 16,5x em L40, 14,7x em H800 e 13,9x em H20, apesar de ter sido otimizado especificamente para A100. Além desses resultados de benchmark, o CUDA-L1 demonstra várias propriedades notáveis: 1) Descobre uma variedade de técnicas de otimização CUDA e aprende a combiná-las estrategicamente para alcançar desempenho ideal; 2) Revela princípios fundamentais de otimização CUDA; 3) Identifica gargalos de desempenho não óbvios e rejeita otimizações aparentemente benéficas que prejudicam o desempenho. As capacidades do CUDA-L1 demonstram que o aprendizado por reforço pode transformar um LLM inicialmente de baixo desempenho em um otimizador CUDA eficaz apenas com sinais de recompensa baseados em aceleração, sem expertise humana ou conhecimento de domínio. Mais importante, o modelo de RL treinado estende as habilidades de raciocínio adquiridas para novos kernels. Esse paradigma abre possibilidades para a otimização automatizada de operações CUDA e promete promover substancialmente a eficiência de GPUs e aliviar a crescente pressão sobre os recursos de computação em GPU.
Interfaces cérebro-computador (BCIs) permitem a comunicação direta entre o cérebro e dispositivos externos. Modelos de base recentes de EEG visam aprender representações generalizadas em diversos paradigmas de BCI. No entanto, essas abordagens negligenciam distinções neurofisiológicas fundamentais específicas de cada paradigma, limitando sua capacidade de generalização. É importante destacar que, em implantações práticas de BCI, o paradigma específico, como a imagética motora (MI) para reabilitação de AVC ou robótica assistiva, geralmente é determinado antes da aquisição de dados. Este artigo propõe o MIRepNet, o primeiro modelo de base de EEG adaptado especificamente para o paradigma de MI. O MIRepNet compreende um pipeline de pré-processamento de EEG de alta qualidade, incorporando um modelo de canal informado neurofisiologicamente, adaptável a headsets de EEG com configurações de eletrodos arbitrárias. Além disso, introduzimos uma estratégia de pré-treinamento híbrida que combina reconstrução auto-supervisionada de tokens mascarados e classificação supervisionada de MI, facilitando a rápida adaptação e decodificação precisa em novas tarefas de MI com menos de 30 tentativas por classe. Avaliações extensas em cinco conjuntos de dados públicos de MI demonstraram que o MIRepNet consistentemente alcançou desempenho de ponta, superando significativamente tanto modelos especializados quanto generalizados de EEG. Nosso código estará disponível no GitHub: https://github.com/staraink/MIRepNet.
À medida que a era dos grandes modelos de linguagem (LLMs) em nome dos usuários se desdobra, os métodos de Otimização de Preferências (PO) tornaram-se uma abordagem central para alinhar LLMs com as preferências humanas e melhorar o desempenho. Propomos a Otimização de Preferências de Máxima a Posteriori (MaPPO), uma estrutura para aprender a partir de preferências que incorpora explicitamente o conhecimento prévio de recompensa no objetivo de otimização. Enquanto métodos existentes, como a Otimização Direta de Preferências (DPO) e suas variantes, tratam o aprendizado de preferências como um problema de Estimativa de Máxima Verossimilhança (MLE), o MaPPO estende esse paradigma ao integrar estimativas prévias de recompensa em um objetivo de Máxima a Posteriori (MaP) fundamentado. Isso não apenas generaliza a DPO e suas variantes, mas também aprimora o alinhamento ao mitigar a classificação binária simplificada de respostas. Mais importante, o MaPPO não introduz hiperparâmetros adicionais e suporta a otimização de preferências tanto em cenários offline quanto online. Além disso, o MaPPO pode ser usado como um plugin com melhoria consistente em variantes da DPO, incluindo SimPO, IPO e CPO, amplamente utilizados. Avaliações empíricas extensas de diferentes tamanhos de modelos e séries de modelos em três benchmarks padrão, incluindo MT-Bench, AlpacaEval 2.0 e Arena-Hard, demonstram melhorias consistentes no desempenho de alinhamento sem sacrificar a eficiência computacional.
A observação da vida selvagem desempenha um papel importante na conservação da biodiversidade, exigindo metodologias robustas para monitorar populações de animais e interações entre espécies. Avanços recentes em visão computacional contribuíram significativamente para a automação de tarefas fundamentais de observação da vida selvagem, como a detecção de animais e a identificação de espécies. No entanto, a identificação precisa de espécies a partir de evidências indiretas, como pegadas e fezes, permanece relativamente pouco explorada, apesar de sua importância para o monitoramento da vida selvagem. Para preencher essa lacuna, apresentamos o AnimalClue, o primeiro conjunto de dados em grande escala para identificação de espécies a partir de imagens de evidências indiretas. Nosso conjunto de dados consiste em 159.605 caixas delimitadoras que abrangem cinco categorias de pistas indiretas: pegadas, fezes, ovos, ossos e penas. Ele cobre 968 espécies, 200 famílias e 65 ordens. Cada imagem é anotada com rótulos em nível de espécie, caixas delimitadoras ou máscaras de segmentação, e informações detalhadas de características, incluindo padrões de atividade e preferências de habitat. Diferente de conjuntos de dados existentes que se concentram principalmente em características visuais diretas (por exemplo, aparência dos animais), o AnimalClue apresenta desafios únicos para tarefas de classificação, detecção e segmentação de instâncias devido à necessidade de reconhecer características visuais mais detalhadas e sutis. Em nossos experimentos, avaliamos extensivamente modelos de visão representativos e identificamos desafios-chave na identificação de animais a partir de seus rastros. Nosso conjunto de dados e código estão disponíveis em https://dahlian00.github.io/AnimalCluePage/.
Este trabalho aborda a segmentação de objetos em vídeo com poucos exemplos guiada por movimento (FSVOS), que visa segmentar objetos dinâmicos em vídeos com base em alguns exemplos anotados com os mesmos padrões de movimento. Os conjuntos de dados e métodos existentes de FSVOS geralmente se concentram em categorias de objetos, que são atributos estáticos que ignoram a rica dinâmica temporal presente nos vídeos, limitando sua aplicação em cenários que exigem compreensão de movimento. Para preencher essa lacuna, introduzimos o MOVE, um conjunto de dados em grande escala especificamente projetado para FSVOS guiada por movimento. Com base no MOVE, avaliamos de forma abrangente 6 métodos state-of-the-art de 3 tarefas relacionadas diferentes em 2 configurações experimentais. Nossos resultados revelam que os métodos atuais têm dificuldade em lidar com FSVOS guiada por movimento, o que nos levou a analisar os desafios associados e propor um método de referência, a Rede de Aparência de Movimento Desacoplada (DMA). Experimentos demonstram que nossa abordagem alcança desempenho superior na compreensão de movimento com poucos exemplos, estabelecendo uma base sólida para pesquisas futuras nessa direção.
As populações de vida selvagem na África enfrentam ameaças severas, com o número de vertebrados diminuindo mais de 65% nas últimas cinco décadas. Em resposta, a classificação de imagens usando aprendizado profundo surgiu como uma ferramenta promissora para o monitoramento e conservação da biodiversidade. Este artigo apresenta um estudo comparativo de modelos de aprendizado profundo para a classificação automática de imagens de vida selvagem africana, com foco na transferência de aprendizagem com extratores de características congelados. Utilizando um conjunto de dados público de quatro espécies: búfalo, elefante, rinoceronte e zebra; avaliamos o desempenho de DenseNet-201, ResNet-152, EfficientNet-B4 e Vision Transformer ViT-H/14. O DenseNet-201 obteve o melhor desempenho entre as redes convolucionais (67% de precisão), enquanto o ViT-H/14 alcançou a maior precisão geral (99%), mas com um custo computacional significativamente maior, levantando preocupações sobre a implantação. Nossos experimentos destacam as compensações entre precisão, requisitos de recursos e capacidade de implantação. A CNN de melhor desempenho (DenseNet-201) foi integrada a um Hugging Face Gradio Space para uso em tempo real em campo, demonstrando a viabilidade de implantar modelos leves em contextos de conservação. Este trabalho contribui para a pesquisa em IA com base na África, oferecendo insights práticos sobre seleção de modelos, preparação de conjuntos de dados e implantação responsável de ferramentas de aprendizado profundo para a conservação da vida selvagem.
Recentemente, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançaram avanços consideráveis em tarefas de visão e linguagem, mas ainda produzem conteúdo potencialmente prejudicial ou não confiável. Apesar de um trabalho substancial investigando a confiabilidade dos modelos de linguagem, a capacidade dos MLLMs de agir com honestidade, especialmente quando confrontados com perguntas visualmente impossíveis de responder, permanece amplamente inexplorada. Este trabalho apresenta a primeira avaliação sistemática dos comportamentos de honestidade em vários MLLMs. Fundamentamos a honestidade nos comportamentos de resposta dos modelos a perguntas visuais impossíveis de responder, definimos quatro tipos representativos de tais perguntas e construímos o MoHoBench, um benchmark de honestidade em grande escala para MLLMs, composto por mais de 12 mil amostras de perguntas visuais, cuja qualidade é garantida por filtragem em múltiplas etapas e verificação humana. Utilizando o MoHoBench, avaliamos a honestidade de 28 MLLMs populares e conduzimos uma análise abrangente. Nossas descobertas mostram que: (1) a maioria dos modelos falha em recusar-se adequadamente a responder quando necessário, e (2) a honestidade dos MLLMs não é apenas uma questão de modelagem de linguagem, mas é profundamente influenciada por informações visuais, exigindo o desenvolvimento de métodos dedicados para alinhamento de honestidade multimodal. Portanto, implementamos métodos iniciais de alinhamento usando aprendizado supervisionado e de preferência para melhorar o comportamento de honestidade, fornecendo uma base para trabalhos futuros em MLLMs confiáveis. Nossos dados e código podem ser encontrados em https://github.com/DSTTSD/MoHoBench.