Artigos de pesquisa em IA selecionados diariamente com traduções
Neste relatório, apresentamos o UltraShape 1.0, uma estrutura de difusão 3D escalável para geração de geometria 3D de alta fidelidade. A abordagem proposta adota um pipeline de geração em dois estágios: primeiro, uma estrutura global grosseira é sintetizada e, em seguida, refinada para produzir uma geometria detalhada e de alta qualidade. Para suportar uma geração 3D confiável, desenvolvemos um pipeline abrangente de processamento de dados que inclui um novo método de processamento *watertight* e uma filtragem de dados de alta qualidade. Este pipeline melhora a qualidade geométrica de conjuntos de dados 3D publicamente disponíveis, removendo amostras de baixa qualidade, preenchendo buracos e espessando estruturas finas, preservando ao mesmo tempo detalhes geométricos de granularidade fina. Para permitir um refinamento de geometria de granularidade fina, desacoplamos a localização espacial da síntese de detalhes geométricos no processo de difusão. Conseguimos isso realizando um refinamento baseado em voxel em localizações espaciais fixas, onde consultas de voxel derivadas da geometria grosseira fornecem âncoras posicionais explícitas codificadas via RoPE, permitindo que o modelo de difusão se concentre na síntese de detalhes geométricos locais dentro de um espaço de solução reduzido e estruturado. Nosso modelo foi treinado exclusivamente em conjuntos de dados 3D publicamente disponíveis, alcançando uma forte qualidade geométrica apesar de recursos de treinamento limitados. Avaliações extensivas demonstram que o UltraShape 1.0 tem um desempenho competitivo com os métodos de código aberto existentes, tanto na qualidade de processamento de dados quanto na geração de geometria. Todo o código e os modelos treinados serão disponibilizados para apoiar pesquisas futuras.
Avaliamos sistematicamente os métodos de Fine-Tuning Eficiente em Parâmetros (PEFT) sob o paradigma de Aprendizagem por Reforço com Recompensas Verificáveis (RLVR). O RLVR incentiva os modelos de linguagem a aprimorar suas capacidades de raciocínio por meio de feedback verificável; no entanto, embora métodos como LoRA sejam comumente utilizados, a arquitetura PEFT ideal para o RLVR permanece não identificada. Neste trabalho, realizamos a primeira avaliação abrangente de mais de 12 metodologias PEFT nas famílias DeepSeek-R1-Distill em benchmarks de raciocínio matemático. Nossos resultados empíricos contestam a adoção padrão do LoRA padrão com três descobertas principais. Primeiro, demonstramos que variantes estruturais, como DoRA, AdaLoRA e MiSS, superam consistentemente o LoRA. Segundo, descobrimos um fenômeno de colapso espectral em estratégias de inicialização baseadas em SVD (por exemplo, PiSSA, MiLoRA), atribuindo sua falha a um desalinhamento fundamental entre atualizações de componentes principais e otimização por RL. Além disso, nossas ablações revelam que a redução extrema de parâmetros (por exemplo, VeRA, Rank-1) prejudica severamente a capacidade de raciocínio. Realizamos ainda estudos de ablação e experimentos de escalonamento para validar nossas descobertas. Este trabalho fornece um guia definitivo para defender uma maior exploração de métodos de RL eficientes em parâmetros.
Os modelos recentemente unificados de geração e edição alcançaram sucesso notável com seu desempenho impressionante. Esses modelos dependem principalmente de prompts de texto para edição e geração baseadas em instrução, mas a linguagem frequentemente falha em capturar os locais de edição pretendidos pelos usuários e os detalhes visuais refinados. Para isso, propomos duas tarefas: edição e geração baseadas em rabiscos, que permitem uma criação mais flexível em interfaces gráficas de usuário (GUI) combinando texto, imagens e esboços à mão livre do usuário. Apresentamos o DreamOmni3, abordando dois desafios: criação de dados e design de estrutura. Nossa pipeline de síntese de dados inclui duas partes: edição e geração baseadas em rabiscos. Para edição baseada em rabisco, definimos quatro tarefas: edição baseada em rabisco e instrução, edição baseada em rabisco e instrução multimodal, fusão de imagens e edição de rabiscos. Com base no conjunto de dados DreamOmni2, extraímos regiões editáveis e sobrepomos caixas desenhadas à mão, círculos, rabiscos ou imagens recortadas para construir dados de treinamento. Para geração baseada em rabisco, definimos três tarefas: geração baseada em rabisco e instrução, geração baseada em rabisco e instrução multimodal e geração de rabiscos, seguindo pipelines de criação de dados semelhantes. Para a estrutura, em vez de usar máscaras binárias, que lutam com edições complexas envolvendo múltiplos rabiscos, imagens e instruções, propomos um esquema de entrada conjunto que alimenta a imagem original e a imagem fonte rabiscada no modelo, usando cores diferentes para distinguir regiões e simplificar o processamento. Aplicando as mesmas codificações de índice e posição a ambas as imagens, o modelo pode localizar com precisão as regiões rabiscadas, mantendo uma edição precisa. Finalmente, estabelecemos benchmarks abrangentes para essas tarefas para promover mais pesquisas. Os resultados experimentais demonstram que o DreamOmni3 alcança um desempenho excepcional, e os modelos e o código serão disponibilizados publicamente.
Formulamos a modelagem de linguagem de contexto longo como um problema de aprendizagem contínua, em vez de um projeto de arquitetura. Sob esta formulação, utilizamos apenas uma arquitetura padrão — um Transformer com atenção de janela deslizante. No entanto, nosso modelo continua aprendendo durante o teste por meio da previsão do próximo token no contexto fornecido, comprimindo o contexto que lê em seus pesos. Além disso, melhoramos a inicialização do modelo para aprendizagem durante o teste por meio de meta-aprendizagem durante o treinamento. No geral, nosso método, uma forma de Treinamento Durante o Teste (TTT), é Integral (E2E) tanto no momento do teste (via previsão do próximo token) quanto no treinamento (via meta-aprendizagem), em contraste com formas anteriores. Realizamos experimentos extensos com foco nas propriedades de escalabilidade. Em particular, para modelos de 3B treinados com 164B de tokens, nosso método (TTT-E2E) escala com o comprimento do contexto da mesma forma que o Transformer com atenção completa, enquanto outros, como Mamba 2 e Gated DeltaNet, não o fazem. No entanto, semelhante às RNNs, o TTT-E2E tem latência de inferência constante, independentemente do comprimento do contexto, tornando-o 2,7 vezes mais rápido que a atenção completa para um contexto de 128K. Nosso código está publicamente disponível.
A tarefa de localização de problemas visa identificar os locais em um repositório de software que requerem modificação, dada uma descrição do problema em linguagem natural. Esta tarefa é fundamental, mas desafiadora na engenharia de software automatizada, devido ao hiato semântico entre a descrição do problema e a implementação do código-fonte. Este hiato manifesta-se como dois descompassos: (1) descompassos sintoma-causa, onde as descrições não revelam explicitamente as causas-raiz subjacentes; (2) descompassos um-para-muitos, onde um único problema corresponde a múltiplas entidades de código interdependentes. Para abordar estes dois descompassos, propomos o GraphLocator, uma abordagem que mitiga os descompassos sintoma-causa através da descoberta de estrutura causal e resolve os descompassos um-para-muitos via desagregação dinâmica de problemas. O artefacto chave é o grafo causal de problemas (CIG), no qual os vértices representam subproblemas descobertos juntamente com as suas entidades de código associadas, e as arestas codificam as dependências causais entre eles. O fluxo de trabalho do GraphLocator consiste em duas fases: localização de vértices-sintoma e descoberta dinâmica do CIG; primeiro identifica locais de sintoma no grafo do repositório, depois expande dinamicamente o CIG raciocinando iterativamente sobre vértices vizinhos. Experiências em três conjuntos de dados do mundo real demonstram a eficácia do GraphLocator: (1) Comparado com linhas de base, o GraphLocator alcança uma localização mais precisa com melhorias médias de +19,49% em *recall* a nível de função e +11,89% em precisão. (2) O GraphLocator supera as linhas de base tanto em cenários de descompasso sintoma-causa como um-para-muitos, alcançando melhorias de *recall* de +16,44% e +19,18%, e melhorias de precisão de +7,78% e +13,23%, respetivamente. (3) O CIG gerado pelo GraphLocator produz a maior melhoria relativa, resultando num aumento de 28,74% no desempenho da tarefa de resolução subsequente.
As arquiteturas Mixture-of-Experts (MoE) têm avançado a escalabilidade de Grandes Modelos de Linguagem (LLMs) ao ativar apenas um subconjunto esparso de parâmetros por entrada, permitindo desempenho de ponta com custo computacional reduzido. À medida que esses modelos são cada vez mais implantados em domínios críticos, compreender e fortalecer seus mecanismos de alinhamento é essencial para evitar resultados prejudiciais. No entanto, a pesquisa existente sobre segurança de LLMs tem-se concentrado quase exclusivamente em arquiteturas densas, deixando as propriedades de segurança únicas dos MoEs largamente inexploradas. O design modular e de ativação esparsa dos MoEs sugere que os mecanismos de segurança podem operar de forma diferente dos modelos densos, levantando questões sobre sua robustez. Neste artigo, apresentamos o GateBreaker, o primeiro *framework* de ataque livre de treinamento, leve e agnóstico à arquitetura que compromete o alinhamento de segurança de MoE LLMs modernos no tempo de inferência. O GateBreaker opera em três estágios: (i) *profiling* a nível de *gate*, que identifica *experts* de segurança desproporcionalmente direcionados para entradas prejudiciais, (ii) localização a nível de *expert*, que localiza a estrutura de segurança dentro dos *experts* de segurança, e (iii) remoção direcionada de segurança, que desativa a estrutura de segurança identificada para comprometer o alinhamento de segurança. Nosso estudo mostra que a segurança dos MoEs concentra-se dentro de um pequeno subconjunto de neurónios coordenados pelo roteamento esparso. A desativação seletiva desses neurónios, aproximadamente 3% dos neurónios nas camadas de *expert* visadas, aumenta significativamente a taxa média de sucesso de ataque (ASR) de 7,4% para 64,9% contra os oito mais recentes MoE LLMs alinhados, com degradação limitada da utilidade. Esses neurónios de segurança transferem-se entre modelos da mesma família, elevando a ASR de 17,9% para 67,7% com um ataque de transferência *one-shot*. Além disso, o GateBreaker generaliza-se para cinco Modelos de Linguagem Visual (VLMs) baseados em MoE, alcançando 60,9% de ASR em entradas de imagem inseguras.