Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala (LLMs) evoluíram para sistemas agentes capazes de uso autônomo de ferramentas e raciocínio em múltiplas etapas para a resolução de problemas complexos. No entanto, abordagens pós-treinamento baseadas em modelos de fundo de propósito geral consistentemente apresentam desempenho inferior em tarefas agentes, especialmente em implementações de código aberto. Identificamos a causa raiz: a ausência de modelos de fundo agentes robustos força os modelos durante o pós-treinamento a aprender simultaneamente diversos comportamentos agentes enquanto os alinham a demonstrações de especialistas, criando assim tensões fundamentais de otimização. Para isso, somos os primeiros a propor a incorporação do Pré-treinamento Contínuo Agente (Agentic CPT) no pipeline de treinamento de agentes de pesquisa profunda para construir modelos de fundo agentes poderosos. Com base nessa abordagem, desenvolvemos um modelo de agente de pesquisa profunda chamado AgentFounder. Avaliamos nosso AgentFounder-30B em 10 benchmarks e alcançamos desempenho de ponta, mantendo uma forte capacidade de uso de ferramentas, notavelmente 39,9% no BrowseComp-en, 43,3% no BrowseComp-zh e 31,5% Pass@1 no HLE.
Este artigo aborda a pesquisa profunda de natureza aberta (OEDR, na sigla em inglês), um desafio complexo no qual agentes de IA devem sintetizar vastas informações em escala da web em relatórios perspicazes. As abordagens atuais são prejudicadas por limitações duplas: pipelines de pesquisa estáticos que desacoplam o planejamento da aquisição de evidências e paradigmas de geração única que facilmente sofrem com problemas de falha em contextos longos, como "perda no meio" e alucinações. Para enfrentar esses desafios, introduzimos o WebWeaver, uma nova estrutura de agente duplo que emula o processo de pesquisa humana. O planejador opera em um ciclo dinâmico, intercalando iterativamente a aquisição de evidências com a otimização de esboços para produzir um esboço abrangente e fundamentado em fontes, vinculado a um banco de memória de evidências. O escritor, então, executa um processo hierárquico de recuperação e redação, compondo o relatório seção por seção. Ao realizar a recuperação direcionada apenas das evidências necessárias do banco de memória para cada parte, ele efetivamente mitiga problemas de contexto longo. Nossa estrutura estabelece um novo estado da arte em benchmarks importantes de OEDR, incluindo DeepResearch Bench, DeepConsult e DeepResearchGym. Esses resultados validam nossa metodologia iterativa e centrada no ser humano, demonstrando que o planejamento adaptativo e a síntese focada são cruciais para a produção de relatórios de alta qualidade, confiáveis e bem estruturados.
Transcender as limitações cognitivas humanas representa uma fronteira crítica no treinamento de LLMs. Sistemas agentes proprietários como o DeepResearch demonstraram capacidades sobre-humanas em benchmarks extremamente complexos de busca de informações, como o BrowseComp, uma conquista anteriormente inatingível. Postulamos que o sucesso desses sistemas depende de um padrão de raciocínio sofisticado ausente em modelos de código aberto: a capacidade de reduzir sistematicamente a incerteza extrema ao navegar por vastas paisagens de informação. Com base nessa percepção, introduzimos o WebSailor, uma metodologia completa de pós-treinamento projetada para instilar essa capacidade crucial. Nossa abordagem envolve a geração de tarefas novas e de alta incerteza por meio de amostragem estruturada e ofuscação de informações, inicialização a frio com RFT (Reinforcement Fine-Tuning) e um algoritmo eficiente de treinamento RL (Reinforcement Learning) para agentes, denominado Duplicating Sampling Policy Optimization (DUPO). Com esse pipeline integrado, o WebSailor supera significativamente todos os agentes de código aberto em tarefas complexas de busca de informações, equiparando-se ao desempenho de agentes proprietários e reduzindo a lacuna de capacidade.
Agentes web baseados em Large Language Models (LLMs) demonstram um desempenho robusto em tarefas que exigem conhecimento intensivo, mas são limitados pelas restrições de janelas de contexto em paradigmas como o ReAct. Consultas complexas envolvendo múltiplas entidades, relações interconectadas e alto grau de incerteza demandam ciclos extensivos de busca que rapidamente esgotam o orçamento de contexto antes de alcançar soluções completas. Para superar esse desafio, introduzimos o ReSum, um paradigma inovador que permite exploração indefinida por meio de sumarização periódica do contexto. O ReSum converte históricos de interação crescentes em estados de raciocínio compactos, mantendo a consciência de descobertas anteriores enquanto contorna as limitações de contexto. Para a adaptação do paradigma, propomos o ReSum-GRPO, que integra o GRPO com treinamento de trajetórias segmentadas e difusão de vantagens para familiarizar os agentes com o raciocínio condicionado a sumários. Experimentos extensivos com agentes web de diversas escalas em três benchmarks demonstram que o ReSum proporciona uma melhoria absoluta média de 4,5\% em relação ao ReAct, com ganhos adicionais de até 8,2\% após o treinamento com ReSum-GRPO. Notavelmente, com apenas 1K amostras de treinamento, nosso WebResummer-30B (uma versão do WebSailor-30B treinada com ReSum-GRPO) alcança 33,3\% de Pass@1 no BrowseComp-zh e 18,3\% no BrowseComp-en, superando os agentes web de código aberto existentes.
A inteligência agentica avançada é um pré-requisito para a implantação de Modelos de Linguagem de Grande Escala em aplicações práticas do mundo real. APIs diversas do mundo real exigem uma inteligência de chamada de funções precisa e robusta, o que requer que os agentes desenvolvam essas capacidades por meio da interação em ambientes variados. A amplitude da competência em chamada de funções está intimamente ligada à diversidade de ambientes nos quais os agentes são treinados. Neste trabalho, escalamos ambientes como um passo em direção ao avanço da inteligência agentica geral. Isso dá origem a dois desafios centrais: (i) como escalar ambientes de maneira fundamentada, e (ii) como treinar efetivamente as capacidades agenticas a partir de experiências derivadas das interações com esses ambientes. Para abordar esses desafios, projetamos uma estrutura escalável que constrói automaticamente ambientes heterogêneos totalmente simulados, ampliando sistematicamente o espaço de cenários de chamada de funções. Além disso, adaptamos uma estratégia de ajuste fino de agentes em duas fases: primeiro, dotando os agentes de capacidades agenticas fundamentais e, em seguida, especializando-os para contextos específicos de domínio. Experimentos extensivos em benchmarks agenticos, tau-bench, tau2-Bench e ACEBench, demonstram que nosso modelo treinado, AgentScaler, melhora significativamente a capacidade de chamada de funções dos modelos.
Avanços recentes em sistemas de pesquisa profunda demonstraram o potencial de agentes de IA para descobrir e sintetizar conhecimento de forma autônoma a partir de fontes externas. Neste artigo, apresentamos o WebResearcher, uma nova estrutura para a construção de tais agentes por meio de dois componentes principais: (1) WebResearcher, um paradigma iterativo de pesquisa profunda que reformula a pesquisa profunda como um Processo de Decisão Markoviano, onde os agentes consolidam periodicamente descobertas em relatórios em evolução, mantendo espaços de trabalho focados, superando a sufocação de contexto e a contaminação por ruído que afetam as abordagens mono-contextuais existentes; e (2) WebFrontier, um motor de síntese de dados escalável que gera dados de treinamento de alta qualidade por meio de escalonamento de complexidade aumentado por ferramentas, permitindo a criação sistemática de tarefas de pesquisa que preenchem a lacuna entre a recuperação passiva de conhecimento e a construção ativa de conhecimento. Notavelmente, descobrimos que os dados de treinamento de nosso paradigma melhoram significativamente as capacidades de uso de ferramentas, mesmo para métodos mono-contextuais tradicionais. Além disso, nosso paradigma escala naturalmente por meio de pensamento paralelo, permitindo exploração concorrente de múltiplos agentes para conclusões mais abrangentes. Experimentos extensos em 6 benchmarks desafiadores demonstram que o WebResearcher alcança desempenho de ponta, superando até mesmo sistemas proprietários de fronteira.
A criação de ativos 3D de alta qualidade, um pilar fundamental do desenvolvimento moderno de jogos, há muito tempo é caracterizada por fluxos de trabalho intensivos em mão de obra e altamente especializados. Este artigo apresenta o Hunyuan3D Studio, uma plataforma de criação de conteúdo end-to-end alimentada por IA, projetada para revolucionar o pipeline de produção de jogos ao automatizar e simplificar a geração de ativos 3D prontos para uso. No cerne do Hunyuan3D Studio, está a integração de um conjunto de módulos neurais avançados (como Geração 3D em Nível de Parte, Geração de Polígonos, UV Semântico, etc.) em um sistema coeso e amigável ao usuário. Esse framework unificado permite a rápida transformação de uma única imagem conceitual ou descrição textual em um modelo 3D totalmente realizado e de qualidade de produção, completo com geometria otimizada e texturas PBR de alta fidelidade. Demonstramos que os ativos gerados pelo Hunyuan3D Studio não apenas são visualmente impressionantes, mas também atendem aos rigorosos requisitos técnicos dos motores de jogos contemporâneos, reduzindo significativamente o tempo de iteração e diminuindo a barreira de entrada para a criação de conteúdo 3D. Ao fornecer uma ponte perfeita entre a intenção criativa e o ativo técnico, o Hunyuan3D Studio representa um salto significativo para os fluxos de trabalho assistidos por IA no desenvolvimento de jogos e mídias interativas.
Revisitamos a otimização de gradiente de política para Modelos de Linguagem de Grande Escala (LLMs) a partir de uma perspectiva de fluxo único. Métodos predominantes baseados em grupos, como o GRPO, reduzem a variância com baselines calculados em tempo real, mas sofrem com falhas críticas: grupos degenerados frequentes apagam os sinais de aprendizado, e barreiras de sincronização prejudicam a escalabilidade. Introduzimos a Otimização de Política de Fluxo Único (SPO), que elimina esses problemas por design. O SPO substitui os baselines por grupo por um rastreador de valor persistente e adaptativo ao KL, além de normalizar as vantagens globalmente em todo o lote, fornecendo um sinal de aprendizado estável e de baixa variância para cada amostra. Por ser livre de grupos, o SPO permite maior taxa de transferência e escala de forma eficaz em cenários de longo horizonte ou com integração de ferramentas, onde os tempos de geração variam. Além disso, o rastreador de valor persistente habilita naturalmente um currículo adaptativo por meio de amostragem priorizada. Experimentos com o Qwen3-8B mostram que o SPO converge de forma mais suave e atinge maior precisão do que o GRPO, ao mesmo tempo que elimina o desperdício de computação em grupos degenerados. Estudos de ablação confirmam que os ganhos do SPO decorrem de sua abordagem fundamentada na estimativa de baseline e na normalização de vantagens, oferecendo um caminho mais robusto e eficiente para o raciocínio de LLMs. Em cinco benchmarks difíceis de matemática com o Qwen3-8B, o SPO melhora a média maj@32 em +3,4 pontos percentuais (pp) em relação ao GRPO, impulsionado por ganhos absolutos substanciais em conjuntos de dados desafiadores, incluindo +7,3 pp no BRUMO 25, +4,4 pp no AIME 25, +3,3 pp no HMMT 25, e alcança ganhos relativos consistentes em pass@k em todos os valores de k avaliados. O sucesso do SPO desafia a tendência predominante de adicionar complexidade incidental a algoritmos de RL, destacando um caminho onde princípios fundamentais, e não soluções arquiteturais, impulsionam a próxima onda de progresso no raciocínio de LLMs.
Apresentamos o modelo de visão e linguagem Spatial Region 3D (SR-3D), que conecta imagens 2D de visão única e dados 3D multivista por meio de um espaço compartilhado de tokens visuais. O SR-3D suporta prompts de região flexíveis, permitindo que os usuários anotem regiões com caixas delimitadoras, máscaras de segmentação em qualquer quadro ou diretamente em 3D, sem a necessidade de rotulagem exaustiva em múltiplos quadros. Isso é alcançado ao enriquecer características visuais 2D com embeddings posicionais 3D, o que permite que o modelo 3D utilize fortes prioridades 2D para um raciocínio espacial mais preciso entre quadros, mesmo quando os objetos de interesse não ocorrem na mesma vista. Experimentos extensivos em benchmarks gerais de visão e linguagem 2D e especializados em espacialidade 3D demonstram que o SR-3D alcança desempenho de ponta, destacando sua eficácia na unificação dos espaços de representação 2D e 3D para a compreensão de cenas. Além disso, observamos aplicabilidade em vídeos do mundo real sem entradas sensoriais 3D ou anotações 3D de verdade fundamental, onde o SR-3D infere com precisão relações espaciais e medições métricas.
Modelos de Linguagem de Grande Escala (LLMs) avançaram recentemente o campo da Prova Automática de Teoremas (ATP), alcançando ganhos substanciais de desempenho por meio de estratégias amplamente adotadas de escalonamento em tempo de teste, notadamente o raciocínio reflexivo em Cadeia de Pensamento (CoT) e o aumento de passagens de amostragem. No entanto, ambas introduzem uma sobrecarga computacional significativa para inferência. Além disso, as análises de custo existentes geralmente regulam apenas o número de passagens de amostragem, enquanto negligenciam as disparidades substanciais nos custos de amostragem introduzidas por diferentes estratégias de escalonamento. Neste artigo, comparamos sistematicamente a eficiência de diferentes estratégias de escalonamento em tempo de teste para modelos de ATP e demonstramos a ineficiência das abordagens de código aberto atuais de última geração (SOTA). Em seguida, investigamos abordagens para reduzir significativamente o uso de tokens e as passagens de amostragem, mantendo o desempenho original. Especificamente, propomos dois métodos complementares que podem ser integrados em um pipeline unificado de EconRL para benefícios amplificados: (1) um mecanismo de alternância dinâmica de Cadeia de Pensamento (CoT) projetado para mitigar o consumo desnecessário de tokens, e (2) Aprendizado por Reforço (RL) paralelo e escalonado com prefixos treináveis para aumentar as taxas de aprovação sob passagens de amostragem restritas. Experimentos no miniF2F e no ProofNet demonstram que nosso EconProver alcança desempenho comparável aos métodos de linha de base com apenas 12% do custo computacional. Este trabalho fornece insights acionáveis para a implantação de modelos leves de ATP sem sacrificar o desempenho.
Os seres humanos são notavelmente eficientes no uso de dados ao se adaptarem a novas condições não vistas anteriormente, como dirigir um carro novo. Em contraste, os sistemas modernos de controle robótico, como políticas de redes neurais treinadas com Aprendizado por Reforço (RL), são altamente especializados para ambientes únicos. Devido a esse superajuste, sabe-se que eles falham mesmo sob pequenas diferenças, como a lacuna Simulação-Realidade (Sim2Real), e exigem identificação do sistema e retreinamento até mesmo para mudanças mínimas no sistema. Neste trabalho, apresentamos o RAPTOR, um método para treinar uma política de base altamente adaptável para o controle de quadrirotor. Nosso método permite treinar uma única política de rede neural de ponta a ponta para controlar uma ampla variedade de quadrirotores. Testamos 10 quadrirotores reais diferentes, variando de 32 g a 2,4 kg, que também diferem em tipo de motor (escovado vs. sem escova), tipo de estrutura (flexível vs. rígida), tipo de hélice (2/3/4 pás) e controlador de voo (PX4/Betaflight/Crazyflie/M5StampFly). Descobrimos que uma pequena política de três camadas com apenas 2084 parâmetros é suficiente para a adaptação zero-shot a uma ampla variedade de plataformas. A adaptação por meio de Aprendizado em Contexto é possibilitada pelo uso de uma recorrência na camada oculta. A política é treinada por meio de um novo algoritmo de Meta-Aprendizado por Imitação, onde amostramos 1000 quadrirotores e treinamos uma política de professor para cada um deles usando Aprendizado por Reforço. Posteriormente, os 1000 professores são destilados em uma única política de estudante adaptável. Descobrimos que, em milissegundos, a política de base resultante se adapta zero-shot a quadrirotores não vistos anteriormente. Testamos extensivamente as capacidades da política de base sob diversas condições (rastreamento de trajetória, interno/externo, distúrbio de vento, empurrões, diferentes hélices).
O raciocínio multimodal continua sendo um desafio fundamental na inteligência artificial. Apesar dos avanços significativos no raciocínio baseado em texto, até mesmo modelos de última geração, como o GPT-3, lutam para manter um desempenho robusto em cenários multimodais. Para abordar essa lacuna, introduzimos um framework de raciocínio assistido por legendas que efetivamente conecta as modalidades visual e textual. Nossa abordagem conquistou o primeiro lugar no Workshop de IA para Matemática do ICML 2025 e no Desafio 2: SeePhys, destacando sua eficácia e robustez. Além disso, validamos sua generalização no benchmark MathVerse para raciocínio geométrico, demonstrando a versatilidade do nosso método. Nosso código está disponível publicamente em https://github.com/OpenDCAI/SciReasoner.
Apresentamos o Stable Part Diffusion 4D (SP4D), uma estrutura para gerar vídeos pareados de RGB e partes cinemáticas a partir de entradas monoculares. Diferente dos métodos convencionais de segmentação de partes que dependem de pistas semânticas baseadas em aparência, o SP4D aprende a produzir partes cinemáticas - componentes estruturais alinhados com a articulação do objeto e consistentes entre diferentes visões e ao longo do tempo. O SP4D adota um modelo de difusão de ramificação dupla que sintetiza conjuntamente quadros RGB e mapas de segmentação de partes correspondentes. Para simplificar a arquitetura e permitir flexivelmente diferentes contagens de partes, introduzimos um esquema de codificação de cores espacial que mapeia máscaras de partes para imagens contínuas semelhantes a RGB. Essa codificação permite que o ramo de segmentação compartilhe o VAE latente do ramo RGB, ao mesmo tempo em que possibilita a recuperação da segmentação de partes por meio de pós-processamento direto. Um módulo de Fusão de Difusão Bidirecional (BiDiFuse) melhora a consistência entre ramos, apoiado por uma função de perda de consistência de partes contrastiva para promover o alinhamento espacial e temporal das previsões de partes. Demonstramos que os mapas de partes 2D gerados podem ser elevados para 3D para derivar estruturas esqueléticas e pesos de skinning harmônicos com poucos ajustes manuais. Para treinar e avaliar o SP4D, construímos o KinematicParts20K, um conjunto de dados curado com mais de 20K objetos rigados selecionados e processados a partir do Objaverse XL (Deitke et al., 2023), cada um pareado com sequências de vídeo RGB e de partes multivisão. Experimentos mostram que o SP4D generaliza fortemente para diversos cenários, incluindo vídeos do mundo real, objetos gerados de forma inovadora e poses articuladas raras, produzindo saídas conscientes da cinemática adequadas para tarefas subsequentes de animação e movimento.
Recentemente, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm ganhado atenção significativa em diversos domínios. No entanto, sua ampla adoção também levantou sérias preocupações de segurança. Neste artigo, revelamos um novo risco de segurança dos MLLMs: a preferência de saída dos MLLMs pode ser arbitrariamente manipulada por imagens cuidadosamente otimizadas. Tais ataques frequentemente geram respostas contextualmente relevantes, mas tendenciosas, que não são explicitamente prejudiciais ou antiéticas, tornando-as difíceis de detectar. Especificamente, introduzimos um novo método, o "Preference Hijacking" (Phi), para manipular as preferências de resposta dos MLLMs utilizando uma imagem com a preferência sequestrada. Nosso método opera durante a inferência e não requer modificações no modelo. Além disso, introduzimos uma perturbação universal de sequestro — um componente transferível que pode ser incorporado em diferentes imagens para sequestrar as respostas dos MLLMs em direção a quaisquer preferências especificadas pelo atacante. Resultados experimentais em diversas tarefas demonstram a eficácia de nossa abordagem. O código do Phi está disponível em https://github.com/Yifan-Lan/Phi.
Apresentamos uma nova metodologia de treinamento denominada zELO, que otimiza o desempenho de recuperação por meio da análise de que tarefas de classificação são estaticamente equivalentes a um modelo de Thurstone. Com base no método zELO, utilizamos dados não supervisionados para treinar uma série de modelos de reclassificação de última geração com pesos abertos: zerank-1 e zerank-1-small. Esses modelos alcançam as pontuações mais altas de recuperação em múltiplos domínios, incluindo finanças, jurídico, código e STEM, superando reclassificadores proprietários de código fechado tanto em NDCG@10 quanto em Recall. Esses modelos também demonstram grande versatilidade, mantendo seu desempenho zero-shot em conjuntos de dados fora do domínio e de clientes privados. Os dados de treinamento incluíram 112.000 consultas e 100 documentos por consulta, e foram treinados de ponta a ponta a partir de consultas e documentos não anotados em menos de 10.000 horas-H100.
Apresentamos uma substituição simples, completamente correta e com poucas suposições para a controversa "extensão de domínio" no Passo 9 de um recente algoritmo de rede QFT com janelas complexas-Gaussianas~chen2024quantum. O Passo~9 publicado sofre de uma incompatibilidade entre periodicidade e suporte. Propomos uma construção de diferença de deslocamento em pares que cancela de forma coerente todos os deslocamentos desconhecidos, produz um estado exato de coset CRT uniforme sobre Z_{P} e, em seguida, utiliza a QFT para impor a relação linear modular pretendida. A unidade é reversível, utiliza portas poli(log M_2) e preserva a assintótica do algoritmo. Página do Projeto: https://github.com/yifanzhang-pro/quantum-lattice.
Avanços recentes na compressão de Modelos de Linguagem de Grande Escala (LLMs), como quantização e poda, alcançaram sucesso notável. No entanto, à medida que essas técnicas gradualmente se aproximam de seus respectivos limites, confiar em um único método para compressão adicional tornou-se cada vez mais desafiador. Neste trabalho, exploramos uma solução alternativa combinando quantização e esparsidade. Essa abordagem conjunta, embora promissora, introduz novas dificuldades devido aos requisitos intrinsecamente conflitantes nas distribuições de pesos: a quantização favorece intervalos compactos, enquanto a poda se beneficia de alta variância. Para atacar esse problema, propomos o Optimal Brain Restoration (OBR), um framework geral e livre de treinamento que alinha poda e quantização por meio de compensação de erros entre ambas. O OBR minimiza a degradação de desempenho em tarefas subsequentes ao se basear em um objetivo de Hessiana de segunda ordem, que é então reformulado em um problema tratável por meio de aproximação substituta e, finalmente, atinge uma solução de forma fechada via compensação de erros em grupo. Experimentos mostram que o OBR permite uma quantização agressiva W4A4KV4 com 50% de esparsidade em LLMs existentes, e oferece até 4,72x de aceleração e 6,4x de redução de memória em comparação com a linha de base FP16-densa.
Os robôs de continuum estão avançando os procedimentos de broncoscopia ao acessar vias aéreas pulmonares complexas e permitir intervenções direcionadas. No entanto, seu desenvolvimento é limitado pela falta de ambientes realistas de treinamento e teste: dados reais são difíceis de coletar devido a restrições éticas e preocupações com a segurança do paciente, e o desenvolvimento de algoritmos de autonomia requer imagens realistas e feedback físico. Apresentamos o ROOM (Realistic Optical Observation in Medicine), uma estrutura de simulação abrangente projetada para gerar dados de treinamento de broncoscopia fotorealistas. Ao aproveitar tomografias computadorizadas de pacientes, nosso pipeline renderiza dados de sensores multimodais, incluindo imagens RGB com ruído realista e especularidades de luz, mapas de profundidade métrica, normais de superfície, fluxo óptico e nuvens de pontos em escalas clinicamente relevantes. Validamos os dados gerados pelo ROOM em duas tarefas canônicas para robótica médica -- estimativa de pose multiview e estimativa de profundidade monocular, demonstrando diversos desafios que os métodos state-of-the-art devem superar para serem transferidos para esses ambientes médicos. Além disso, mostramos que os dados produzidos pelo ROOM podem ser usados para ajustar modelos existentes de estimativa de profundidade para superar esses desafios, também permitindo outras aplicações subsequentes, como navegação. Esperamos que o ROOM permita a geração de dados em grande escala em diversas anatomias de pacientes e cenários procedimentais que são desafiadores de capturar em ambientes clínicos. Código e dados: https://github.com/iamsalvatore/room.
A digitalização de imagens patológicas em Whole Slide Images (WSIs) de gigapixels abriu novos caminhos para a Patologia Computacional (CPath). Como o tecido positivo representa apenas uma pequena fração das WSIs de gigapixels, os métodos existentes de Aprendizado de Múltiplas Instâncias (MIL) geralmente se concentram em identificar instâncias salientes por meio de mecanismos de atenção. No entanto, isso leva a um viés em direção a instâncias fáceis de classificar, enquanto as desafiadoras são negligenciadas. Estudos recentes mostraram que exemplos difíceis são cruciais para modelar com precisão os limites discriminativos. Aplicando essa ideia no nível da instância, elaboramos uma nova estrutura MIL com mineração de instâncias difíceis mascaradas (MHIM-MIL), que utiliza uma estrutura Siamesa com uma restrição de consistência para explorar as instâncias difíceis. Usando uma probabilidade de instância consciente da classe, o MHIM-MIL emprega um professor de momentum para mascarar instâncias salientes e minerar implicitamente instâncias difíceis para treinar o modelo estudante. Para obter instâncias difíceis diversas e não redundantes, adotamos o mascaramento aleatório em larga escala, enquanto utilizamos uma rede de reciclagem global para mitigar o risco de perder características-chave. Além disso, o estudante atualiza o professor usando uma média móvel exponencial, que identifica novas instâncias difíceis para iterações subsequentes de treinamento e estabiliza a otimização. Resultados experimentais em tarefas de diagnóstico de câncer, subtipagem, análise de sobrevivência e 12 benchmarks demonstram que o MHIM-MIL supera os métodos mais recentes em desempenho e eficiência. O código está disponível em: https://github.com/DearCaat/MHIM-MIL.
A geração de dados sintéticos com privacidade diferencial (DP) é uma técnica promissora para utilizar conjuntos de dados privados que, de outra forma, não poderiam ser expostos para treinamento de modelos ou outras análises. Embora grande parte da literatura de pesquisa tenha se concentrado na geração de dados não estruturados privados, como texto e imagens, em ambientes empresariais, dados estruturados (por exemplo, tabulares) são mais comuns, frequentemente incluindo campos ou componentes de linguagem natural. As técnicas existentes de avaliação de dados sintéticos (por exemplo, FID) têm dificuldade em capturar as propriedades estruturais e as correlações desses conjuntos de dados. Neste trabalho, propomos o Struct-Bench, uma estrutura e benchmark para avaliar conjuntos de dados sintéticos derivados de conjuntos de dados estruturados que contêm dados de linguagem natural. O framework Struct-Bench exige que os usuários forneçam uma representação da estrutura de seu conjunto de dados como uma Gramática Livre de Contexto (CFG). Nosso benchmark compreende 5 conjuntos de dados do mundo real e 2 gerados sinteticamente, cada um anotado com CFGs. Mostramos que esses conjuntos de dados apresentam um grande desafio, mesmo para os métodos mais avançados de geração de dados sintéticos com DP. O Struct-Bench também inclui implementações de referência de diferentes métricas e um leaderboard, fornecendo aos pesquisadores uma plataforma de avaliação padronizada para comparar e investigar métodos de geração de dados sintéticos que preservam a privacidade. Além disso, apresentamos um estudo de caso mostrando como usar o Struct-Bench para melhorar a qualidade dos dados sintéticos do Private Evolution (PE) em dados estruturados. O benchmark e o leaderboard estão disponíveis publicamente em https://struct-bench.github.io.
A diferenciação automática por meio de algoritmos de processamento digital de sinais para modelagem virtual analógica tem ganhado popularidade recentemente. Esses algoritmos são tipicamente mais eficientes computacionalmente do que redes neurais de caixa preta que dependem de multiplicações densas de matrizes. Devido à sua natureza diferenciável, eles podem ser integrados com redes neurais e treinados conjuntamente usando algoritmos de descida de gradiente, resultando em sistemas mais eficientes. Além disso, algoritmos de processamento de sinais possuem significativamente menos parâmetros do que redes neurais, permitindo a aplicação do método de Newton-Raphson. Esse método oferece convergência mais rápida e robusta do que a descida de gradiente, ao custo de armazenamento quadrático. Este artigo apresenta um método para emular amplificadores de nivelamento analógico usando um compressor digital feed-forward com parâmetros otimizados via o método de Newton-Raphson. Demonstramos que um compressor digital pode aproximar com sucesso o comportamento da nossa unidade alvo, o Teletronix LA-2A. Diferentes estratégias para calcular a matriz Hessiana são comparadas. Aproveitamos algoritmos paralelos para filtros recursivos para alcançar treinamento eficiente em GPUs modernas. O modelo resultante é transformado em um plugin VST e disponibilizado como código aberto em https://github.com/aim-qmul/4a2a.