Artigos de pesquisa em IA selecionados diariamente com traduções
Neste trabalho, apresentamos o Qwen3, a versão mais recente da família de modelos Qwen. O Qwen3 compreende uma série de grandes modelos de linguagem (LLMs) projetados para avançar o desempenho, a eficiência e as capacidades multilingues. A série Qwen3 inclui modelos de arquiteturas densas e de Mistura de Especialistas (MoE), com escalas de parâmetros variando de 0,6 a 235 bilhões. Uma inovação chave no Qwen3 é a integração do modo de pensamento (para raciocínio complexo e de múltiplas etapas) e do modo não pensante (para respostas rápidas e orientadas por contexto) em um framework unificado. Isso elimina a necessidade de alternar entre diferentes modelos—como modelos otimizados para chat (por exemplo, GPT-4o) e modelos dedicados a raciocínio (por exemplo, QwQ-32B)—e permite a alternância dinâmica de modos com base em consultas do usuário ou templates de chat. Além disso, o Qwen3 introduz um mecanismo de orçamento de pensamento, permitindo que os usuários aloquem recursos computacionais de forma adaptativa durante a inferência, equilibrando assim latência e desempenho com base na complexidade da tarefa. Adicionalmente, ao aproveitar o conhecimento dos modelos principais, reduzimos significativamente os recursos computacionais necessários para construir modelos em menor escala, garantindo ao mesmo tempo um desempenho altamente competitivo. Avaliações empíricas demonstram que o Qwen3 alcança resultados de ponta em diversos benchmarks, incluindo tarefas de geração de código, raciocínio matemático, tarefas de agentes, etc., competindo com modelos MoE maiores e modelos proprietários. Comparado ao seu predecessor Qwen2.5, o Qwen3 expande o suporte multilingue de 29 para 119 idiomas e dialetos, melhorando a acessibilidade global por meio de capacidades aprimoradas de compreensão e geração cross-lingual. Para facilitar a reprodutibilidade e o desenvolvimento de pesquisa e desenvolvimento impulsionado pela comunidade, todos os modelos Qwen3 estão publicamente acessíveis sob a licença Apache 2.0.
Para aprimorar a segurança dos VLMs (Modelos de Linguagem Visual), este artigo introduz um novo modelo de guarda baseado em raciocínio, denominado GuardReasoner-VL. A ideia central é incentivar o modelo de guarda a deliberar e raciocinar antes de tomar decisões de moderação por meio de RL (Reinforcement Learning) online. Primeiro, construímos o GuardReasoner-VLTrain, um corpus de raciocínio com 123 mil amostras e 631 mil etapas de raciocínio, abrangendo entradas de texto, imagem e texto-imagem. Em seguida, com base nisso, iniciamos a capacidade de raciocínio do nosso modelo via SFT (Supervised Fine-Tuning). Além disso, aprimoramos ainda mais o raciocínio relacionado à moderação por meio de RL online. Especificamente, para aumentar a diversidade e a dificuldade das amostras, realizamos amostragem por rejeição seguida de aumento de dados por meio da concatenação de dados consciente da segurança proposta. Além disso, utilizamos um parâmetro de corte dinâmico para incentivar a exploração nas fases iniciais e a exploração nas fases posteriores. Para equilibrar desempenho e eficiência de tokens, projetamos uma recompensa de segurança consciente do comprimento que integra precisão, formato e custo de tokens. Experimentos extensivos demonstram a superioridade do nosso modelo. Notavelmente, ele supera o segundo colocado por uma média de 19,27% no F1 score. Disponibilizamos dados, código e modelos (3B/7B) do GuardReasoner-VL em https://github.com/yueliu1999/GuardReasoner-VL/.
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) e suas extensões multimodais (MLLMs) têm aprimorado substancialmente o raciocínio de máquina em diversas tarefas. No entanto, esses modelos dependem predominantemente de texto puro como meio para expressar e estruturar o raciocínio, mesmo quando informações visuais estão presentes. Neste trabalho, argumentamos que a linguagem pode nem sempre ser a modalidade mais natural ou eficaz para o raciocínio, especialmente em tarefas que envolvem informações espaciais e geométricas. Motivados por isso, propomos um novo paradigma, o Planejamento Visual, que permite o planejamento por meio de representações puramente visuais, independentes de texto. Nesse paradigma, o planejamento é executado por meio de sequências de imagens que codificam inferências passo a passo no domínio visual, semelhante à forma como os humanos esboçam ou visualizam ações futuras. Introduzimos uma nova estrutura de aprendizado por reforço, o Planejamento Visual via Aprendizado por Reforço (VPRL), impulsionado pelo GRPO para pós-treinamento de grandes modelos de visão, resultando em melhorias substanciais no planejamento em uma seleção de tarefas representativas de navegação visual: FrozenLake, Maze e MiniBehavior. Nosso paradigma de planejamento visual supera todas as outras variantes de planejamento que realizam raciocínio apenas no espaço textual. Nossos resultados estabelecem o Planejamento Visual como uma alternativa viável e promissora ao raciocínio baseado em linguagem, abrindo novas possibilidades para tarefas que se beneficiam de inferências intuitivas baseadas em imagens.
A rápida expansão das janelas de contexto em grandes modelos visão-linguagem deu origem aos modelos de visão-linguagem de contexto longo (LCVLMs), que são capazes de processar centenas de imagens com tokens de texto intercalados em uma única passagem direta. Neste trabalho, apresentamos o MMLongBench, o primeiro benchmark que abrange um conjunto diversificado de tarefas de visão-linguagem de contexto longo, para avaliar LCVLMs de forma eficaz e abrangente. O MMLongBench é composto por 13.331 exemplos que abrangem cinco categorias diferentes de tarefas subsequentes, como Visual RAG e Many-Shot ICL. Ele também oferece ampla cobertura de tipos de imagem, incluindo diversas imagens naturais e sintéticas. Para avaliar a robustez dos modelos em relação a diferentes comprimentos de entrada, todos os exemplos são fornecidos em cinco comprimentos de entrada padronizados (8K-128K tokens) por meio de um esquema de tokenização multimodal que combina patches visuais e tokens de texto. Por meio de uma avaliação detalhada de 46 LCVLMs de código fechado e aberto, fornecemos uma análise abrangente da capacidade atual dos modelos em tarefas de visão-linguagem de contexto longo. Nossos resultados mostram que: i) o desempenho em uma única tarefa é um indicador fraco da capacidade geral de contexto longo; ii) tanto modelos de código fechado quanto de código aberto enfrentam desafios em tarefas de visão-linguagem de contexto longo, indicando espaço significativo para melhorias futuras; iii) modelos com maior capacidade de raciocínio tendem a exibir melhor desempenho em contexto longo. Ao oferecer ampla cobertura de tarefas, diversos tipos de imagem e controle rigoroso de comprimento, o MMLongBench fornece a base necessária para diagnosticar e avançar a próxima geração de LCVLMs.
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram o poder do raciocínio por meio de cadeias de pensamento autogeradas. Múltiplos agentes de raciocínio podem colaborar para elevar a qualidade do raciocínio conjunto acima dos resultados individuais. No entanto, esses agentes normalmente interagem de forma alternada, trocando latência aumentada por qualidade aprimorada. Neste artigo, propomos o Group Think—um único LLM que atua como múltiplos agentes de raciocínio concorrentes, ou pensadores. Com visibilidade compartilhada do progresso parcial de geração de cada um, o Group Think introduz um novo paradigma de raciocínio concorrente no qual múltiplas trajetórias de raciocínio se adaptam dinamicamente umas às outras no nível de token. Por exemplo, um fio de raciocínio pode mudar sua geração no meio de uma frase ao detectar que outro fio está melhor posicionado para continuar. Essa colaboração refinada em nível de token permite que o Group Think reduza o raciocínio redundante e melhore a qualidade, ao mesmo tempo em que alcança uma latência significativamente menor. Além disso, sua natureza concorrente permite a utilização eficiente de recursos computacionais ociosos, tornando-o especialmente adequado para inferência em dispositivos de borda, onde lotes muito pequenos frequentemente subutilizam GPUs locais. Apresentamos uma modificação simples e generalizável que permite que qualquer LLM existente execute o Group Think em uma GPU local. Também apresentamos uma estratégia de avaliação para comparar a latência de raciocínio e demonstramos empiricamente melhorias de latência usando LLMs de código aberto que não foram explicitamente treinados para o Group Think. Esperamos que este trabalho abra caminho para que futuros LLMs exibam comportamentos colaborativos mais sofisticados e eficientes para gerações de maior qualidade.
Modelos visão-linguagem (VLMs) têm alcançado sucesso notável em diversas tarefas ao aproveitar informações textuais ricas com dados rotulados mínimos. No entanto, a implantação desses modelos grandes continua desafiadora, especialmente em ambientes com recursos limitados. A destilação de conhecimento (KD) oferece uma solução bem estabelecida para esse problema; porém, abordagens recentes de KD a partir de VLMs frequentemente envolvem treinamento em múltiplas etapas ou ajustes adicionais, aumentando a sobrecarga computacional e a complexidade de otimização. Neste artigo, propomos o \texttt{D}ual-\texttt{H}ead \texttt{O}ptimization (\texttt{DHO}) — uma estrutura de KD simples, porém eficaz, que transfere conhecimento de VLMs para modelos compactos e específicos de tarefas em configurações semi-supervisionadas. Especificamente, introduzimos cabeças de predição duplas que aprendem independentemente a partir de dados rotulados e previsões do professor, e propomos combinar linearmente suas saídas durante a inferência. Observamos que o DHO mitiga conflitos de gradiente entre sinais supervisionados e de destilação, permitindo um aprendizado de características mais eficaz do que as linhas de base de KD de cabeça única. Como resultado, experimentos extensivos mostram que o DHO supera consistentemente as linhas de base em múltiplos domínios e conjuntos de dados de granularidade fina. Notavelmente, no ImageNet, ele alcança desempenho de ponta, melhorando a acurácia em 3% e 0,1% com 1% e 10% de dados rotulados, respectivamente, enquanto utiliza menos parâmetros.
A previsão de múltiplos tokens surgiu como um objetivo promissor para melhorar o pré-treinamento de modelos de linguagem, mas seus benefícios não se generalizaram de forma consistente para outros cenários, como o ajuste fino. Neste artigo, propomos o MuToR, uma abordagem simples e eficaz para a previsão de múltiplos tokens que intercala tokens de registro aprendíveis na sequência de entrada, cada um responsável por prever alvos futuros. Em comparação com métodos existentes, o MuToR oferece várias vantagens-chave: introduz apenas um número insignificante de parâmetros adicionais, não requer alterações arquitetônicas—garantindo compatibilidade com modelos de linguagem pré-treinados prontos para uso—e permanece alinhado com o objetivo de pré-treinamento de próximo token, tornando-o especialmente adequado para ajuste fino supervisionado. Além disso, ele suporta naturalmente horizontes de previsão escaláveis. Demonstramos a eficácia e versatilidade do MuToR em uma variedade de casos de uso, incluindo ajuste fino supervisionado, ajuste fino com eficiência de parâmetros (PEFT) e pré-treinamento, em tarefas generativas desafiadoras tanto no domínio da linguagem quanto da visão. Nosso código estará disponível em: https://github.com/nasosger/MuToR.
A fusão de modelos permite combinar as capacidades de modelos existentes em um novo - de forma pós-hoc, sem treinamento adicional. Isso tem se tornado cada vez mais popular graças ao seu baixo custo e à disponibilidade de bibliotecas que suportam a fusão em GPUs de consumo. Trabalhos recentes mostram que combinar a fusão com algoritmos evolutivos pode impulsionar o desempenho, mas nenhum framework atualmente suporta experimentação flexível com tais estratégias em modelos de linguagem. Apresentamos o Mergenetic, uma biblioteca de código aberto para fusão evolutiva de modelos. O Mergenetic permite a fácil composição de métodos de fusão e algoritmos evolutivos, incorporando estimadores leves de aptidão para reduzir os custos de avaliação. Descrevemos seu design e demonstramos que o Mergenetic produz resultados competitivos em diversas tarefas e idiomas utilizando hardware modesto.
Modelos de linguagem de grande escala (LLMs) têm demonstrado um desempenho robusto em uma ampla gama de tarefas de programação, mas seu potencial para otimização de código ainda é pouco explorado. Este trabalho investiga se LLMs podem otimizar o desempenho de código assembly, onde o controle refinado sobre a execução permite melhorias que são difíceis de expressar em linguagens de alto nível. Apresentamos uma estrutura de aprendizado por reforço que treina LLMs usando Otimização de Política Proximal (PPO), orientada por uma função de recompensa que considera tanto a correção funcional, validada por casos de teste, quanto o desempenho de execução em relação ao compilador padrão da indústria gcc -O3. Para apoiar este estudo, introduzimos um benchmark de 8.072 programas do mundo real. Nosso modelo, Qwen2.5-Coder-7B-PPO, alcança uma taxa de aprovação de 96,0% nos testes e uma aceleração média de 1,47x em relação à linha de base gcc -O3, superando todos os outros 20 modelos avaliados, incluindo Claude-3.7-sonnet. Esses resultados indicam que o aprendizado por reforço pode desbloquear o potencial dos LLMs para atuarem como otimizadores eficazes do desempenho de código assembly.
A Prova Automática de Teoremas (ATP) em linguagens formais continua sendo um desafio formidável na IA, exigindo dedução lógica rigorosa e a navegação por vastos espaços de busca. Embora os grandes modelos de linguagem (LLMs) tenham demonstrado desempenho promissor, os provadores passo a passo existentes frequentemente sofrem com orientação de busca tendenciosa, levando a ineficiências e estratégias de prova subótimas. Este artigo apresenta o MPS-Prover, um novo sistema de ATP passo a passo projetado para superar essas limitações. O MPS-Prover incorpora duas inovações principais: uma estratégia altamente eficaz de curadoria de dados pós-treinamento que elimina aproximadamente 40% dos dados de treinamento redundantes sem sacrificar o desempenho, e um mecanismo de busca em árvore de múltiplas perspectivas. Essa busca integra um modelo crítico aprendido com regras heurísticas estrategicamente projetadas para diversificar a seleção de táticas, evitar ficar preso em estados improdutivos e aumentar a robustez da busca. Avaliações extensivas demonstram que o MPS-Prover alcança desempenho de ponta em vários benchmarks desafiadores, incluindo miniF2F e ProofNet, superando modelos anteriores com 7 bilhões de parâmetros. Além disso, nossas análises revelam que o MPS-Prover gera provas significativamente mais curtas e diversas em comparação com métodos passo a passo e de prova completa existentes, destacando sua eficiência e eficácia. Nosso trabalho avança as capacidades do raciocínio formal baseado em LLM e oferece uma estrutura robusta e uma análise abrangente para o desenvolvimento de provadores de teoremas mais poderosos.
Apesar dos rápidos avanços nas capacidades dos modelos generativos, os modelos pré-treinados de texto para imagem ainda enfrentam dificuldades em capturar a semântica transmitida por prompts complexos que combinam múltiplos objetos e atributos em nível de instância. Consequentemente, estamos observando um crescente interesse na integração de restrições estruturais adicionais, tipicamente na forma de caixas delimitadoras grosseiras, para melhor guiar o processo de geração nesses casos desafiadores. Neste trabalho, levamos a ideia de orientação estrutural um passo adiante ao observar que os modelos contemporâneos de geração de imagem podem fornecer diretamente uma inicialização estrutural de granularidade fina plausível. Propomos uma técnica que acopla essa orientação estrutural baseada em imagem com instruções em nível de instância baseadas em LLMs, resultando em imagens de saída que aderem a todas as partes do prompt de texto, incluindo contagens de objetos, atributos em nível de instância e relações espaciais entre instâncias.
Estudos recentes sobre as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) demonstraram melhorias promissoras no desempenho dos modelos ao aproveitar um processo de pensamento prolongado e recursos computacionais adicionais durante a inferência, principalmente em tarefas envolvendo raciocínio matemático (Muennighoff et al., 2025). No entanto, ainda não é certo se cadeias de raciocínio mais longas melhoram inerentemente a precisão factual, especialmente além de contextos matemáticos. Neste trabalho, examinamos minuciosamente o raciocínio de LLMs em cenários complexos de questionamento e resposta (QA) em domínios abertos. Inicialmente, destilamos traços de raciocínio de modelos avançados de raciocínio em grande escala (QwQ-32B e DeepSeek-R1-671B), em seguida, ajustamos finamente uma variedade de modelos, desde variantes menores ajustadas por instrução até arquiteturas maiores baseadas em Qwen2.5. Para enriquecer os traços de raciocínio, introduzimos informações factuais de grafos de conhecimento na forma de caminhos em nossos traços de raciocínio. Nossa configuração experimental inclui quatro abordagens de linha de base e seis modelos diferentes ajustados por instrução avaliados em um benchmark de seis conjuntos de dados, abrangendo mais de 22,6 mil perguntas. No total, realizamos 168 execuções experimentais e analisamos aproximadamente 1,7 milhão de traços de raciocínio. Nossos achados indicam que, em uma única execução, modelos de raciocínio menores alcançam melhorias perceptíveis na precisão factual em comparação com suas contrapartes originais ajustadas por instrução. Além disso, nossa análise demonstra que a adição de recursos computacionais e orçamentos de tokens no momento do teste melhora consistentemente a precisão factual em 2-8%, confirmando ainda mais a eficácia do escalonamento no momento do teste para aprimorar o desempenho e, consequentemente, melhorar a precisão do raciocínio em tarefas de QA em domínios abertos. Disponibilizamos todos os artefatos experimentais para pesquisas futuras.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais aplicados a questões de ciência dos materiais, incluindo compreensão de literatura, previsão de propriedades, descoberta de materiais e design de ligas. Ao mesmo tempo, uma ampla gama de abordagens computacionais baseadas em física foi desenvolvida, nas quais as propriedades dos materiais podem ser calculadas. Aqui, propomos uma aplicação de benchmark para avaliar a proficiência dos LLMs em responder a questões de ciência dos materiais por meio da geração e execução segura de códigos baseados em pacotes computacionais de ciência dos materiais fundamentados em física. O MatTools é construído sobre dois componentes complementares: um benchmark de perguntas e respostas (QA) para ferramentas de simulação de materiais e um benchmark de uso de ferramentas do mundo real. Projetamos uma metodologia automatizada para coletar de forma eficiente exemplos de uso de ferramentas de ciência dos materiais do mundo real. O benchmark QA, derivado da base de código e documentação do pymatgen (Python Materials Genomics), compreende 69.225 pares de perguntas e respostas que avaliam a capacidade de um LLM de entender ferramentas de ciência dos materiais. O benchmark do mundo real contém 49 tarefas (138 subtarefas) que exigem a geração de código Python funcional para cálculos de propriedades de materiais. Nossa avaliação de diversos LLMs resulta em três insights principais: (1) Generalistas superam especialistas; (2) IA conhece IA; e (3) Simples é melhor. O MatTools fornece um framework padronizado para avaliar e melhorar as capacidades dos LLMs para aplicações de ferramentas de ciência dos materiais, facilitando o desenvolvimento de sistemas de IA mais eficazes para ciência dos materiais e pesquisa científica em geral.
À medida que os Modelos de Linguagem de Grande Escala (LLMs) se integram às nossas interações sociais e econômicas, é necessário aprofundar nossa compreensão de como os humanos respondem a oponentes LLMs em contextos estratégicos. Apresentamos os resultados do primeiro experimento laboratorial controlado e monetariamente incentivado que examina as diferenças no comportamento humano em um concurso de beleza-p com múltiplos jogadores contra outros humanos e LLMs. Utilizamos um design intra-sujeito para comparar o comportamento no nível individual. Demonstramos que, nesse ambiente, os sujeitos humanos escolhem números significativamente menores ao jogar contra LLMs do que contra humanos, o que é principalmente impulsionado pelo aumento na prevalência de escolhas de equilíbrio de Nash 'zero'. Essa mudança é principalmente conduzida por sujeitos com alta capacidade de raciocínio estratégico. Os sujeitos que escolhem o equilíbrio de Nash zero justificam sua estratégia apelando para a percepção da capacidade de raciocínio dos LLMs e, inesperadamente, para uma propensão à cooperação. Nossas descobertas fornecem insights fundamentais sobre a interação humano-LLM em jogos de escolha simultânea com múltiplos jogadores, revelam heterogeneidades tanto no comportamento dos sujeitos quanto nas crenças sobre o jogo dos LLMs ao enfrentá-los, e sugerem implicações importantes para o design de mecanismos em sistemas mistos humano-LLM.
As mãos são essenciais para a interação humana, e compreender o contato entre as mãos e o mundo pode promover um entendimento abrangente de sua função. Recentemente, tem havido um número crescente de conjuntos de dados de interação manual que cobrem a interação com objetos, outras mãos, cenas e o corpo. Apesar da importância da tarefa e do aumento de dados de alta qualidade, como aprender efetivamente a estimativa densa de contato manual permanece amplamente inexplorado. Existem dois grandes desafios para aprender a estimativa densa de contato manual. Primeiro, há um problema de desequilíbrio de classes nos conjuntos de dados de contato manual, onde a maioria das amostras não está em contato. Segundo, os conjuntos de dados de contato manual contêm um problema de desequilíbrio espacial, com a maior parte do contato manual exibido nas pontas dos dedos, resultando em desafios para a generalização de contatos em outras regiões da mão. Para enfrentar esses problemas, apresentamos um framework que aprende a estimativa densa de contato manual (HACO) a partir de dados desbalanceados. Para resolver o problema de desequilíbrio de classes, introduzimos a amostragem balanceada de contato, que constrói e amostra a partir de múltiplos grupos de amostragem que representam de forma justa diversas estatísticas de contato para amostras de contato e não contato. Além disso, para abordar o problema de desequilíbrio espacial, propomos a perda balanceada em nível de vértice (VCB), que incorpora a distribuição de contato espacialmente variável, reequilibrando separadamente a contribuição da perda de cada vértice com base em sua frequência de contato ao longo do conjunto de dados. Como resultado, aprendemos efetivamente a prever a estimativa densa de contato manual com dados de contato manual em grande escala, sem sofrer com os problemas de desequilíbrio de classe e espacial. Os códigos serão liberados.
A edição de imagens usando instruções em linguagem natural tornou-se uma maneira natural e expressiva de modificar conteúdo visual; no entanto, avaliar o desempenho de tais modelos continua sendo um desafio. As abordagens de avaliação existentes frequentemente dependem de métricas de similaridade entre imagem e texto, como o CLIP, que carecem de precisão. Neste trabalho, introduzimos um novo benchmark projetado para avaliar modelos de edição de imagens guiados por texto de maneira mais fundamentada, ao longo de duas dimensões críticas: (i) correção funcional, avaliada por meio de questões de múltipla escolha geradas automaticamente que verificam se a alteração pretendida foi aplicada com sucesso; e (ii) preservação do conteúdo da imagem, que garante que regiões não direcionadas da imagem permaneçam visualmente consistentes usando uma técnica de mascaramento consciente de objetos e pontuação de preservação. O benchmark inclui mais de 1000 exemplos de edição de alta qualidade em 20 categorias de conteúdo diversas, cada um anotado com instruções detalhadas de edição, questões de avaliação e máscaras espaciais de objetos. Realizamos um estudo em larga escala comparando o GPT-Image-1, o mais recente carro-chefe no espaço de edição de imagens guiadas por texto, com vários modelos de edição state-of-the-art, e validamos nossas métricas automáticas em relação a avaliações humanas. Os resultados mostram que o GPT-Image-1 lidera em precisão de seguimento de instruções, mas frequentemente modifica excessivamente regiões irrelevantes da imagem, destacando uma troca fundamental no comportamento atual do modelo. O GIE-Bench fornece uma estrutura escalável e reproduzível para avançar em avaliações mais precisas de edição de imagens guiadas por texto.
O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) aumentou as preocupações sobre o uso indevido de textos gerados por IA, tornando a marcação d'água uma solução promissora. Os esquemas de marcação d'água predominantes para LLMs se dividem em duas categorias: baseados em logits e baseados em amostragem. No entanto, os esquemas atuais envolvem trade-offs entre robustez, qualidade do texto e segurança. Para mitigar isso, integramos esquemas baseados em logits e em amostragem, aproveitando seus respectivos pontos fortes para alcançar sinergia. Neste artigo, propomos um framework versátil de marcação d'água simbiótica com três estratégias: serial, paralela e híbrida. O framework híbrido incorpora marcas d'água de forma adaptativa usando entropia de tokens e entropia semântica, otimizando o equilíbrio entre detectabilidade, robustez, qualidade do texto e segurança. Além disso, validamos nossa abordagem por meio de experimentos abrangentes em diversos conjuntos de dados e modelos. Os resultados experimentais indicam que nosso método supera as baselines existentes e alcança desempenho de última geração (SOTA). Acreditamos que este framework oferece novas perspectivas sobre diversos paradigmas de marcação d'água. Nosso código está disponível em https://github.com/redwyd/SymMark{https://github.com/redwyd/SymMark}.
A segmentação precisa de regiões de interesse em imagens biomédicas possui um valor substancial na análise de imagens. Embora vários modelos de base para segmentação biomédica tenham atualmente alcançado desempenho excelente em determinados conjuntos de dados, eles geralmente demonstram desempenho subótimo em dados de domínios não vistos. Atribuímos essa deficiência à falta de conhecimento visão-linguagem antes da segmentação. Modelos de Linguagem Multimodal de Grande Escala (MLLMs) trazem capacidades excepcionais de compreensão e raciocínio para tarefas multimodais, o que nos inspira a aproveitar os MLLMs para injetar Conhecimento Visão-Linguagem (VLK), permitindo assim que modelos de visão demonstrem capacidades superiores de generalização em conjuntos de dados de domínios cruzados. Neste artigo, propomos usar MLLMs para guiar o SAM na aprendizagem de dados de microscopia de domínios cruzados, unificando o Segment Anything in Microscopy, denominado uLLSAM. Especificamente, propomos o módulo de Alinhamento Semântico Visão-Linguagem (VLSA), que injeta VLK no Segment Anything Model (SAM). Descobrimos que, após o SAM receber prompts globais de VLK, seu desempenho melhora significativamente, mas há deficiências na percepção de contornos de fronteira. Portanto, propomos ainda a Regularização de Fronteira Semântica (SBR) para orientar o SAM. Nosso método alcança melhorias de desempenho de 7,71% em Dice e 12,10% em SA em 9 conjuntos de dados de microscopia de domínio interno, atingindo desempenho de ponta. Nosso método também demonstra melhorias de 6,79% em Dice e 10,08% em SA em 10 conjuntos de dados de domínio externo, exibindo fortes capacidades de generalização. O código está disponível em https://github.com/ieellee/uLLSAM.
Apresentamos o CheXGenBench, uma estrutura de avaliação rigorosa e multifacetada para a geração sintética de radiografias torácicas que avalia simultaneamente fidelidade, riscos de privacidade e utilidade clínica em modelos generativos de texto para imagem de última geração. Apesar dos rápidos avanços na IA generativa para imagens do mundo real, as avaliações no domínio médico têm sido prejudicadas por inconsistências metodológicas, comparações arquitetônicas desatualizadas e critérios de avaliação desconectados que raramente abordam o valor clínico prático das amostras sintéticas. O CheXGenBench supera essas limitações por meio de particionamento de dados padronizado e um protocolo de avaliação unificado que compreende mais de 20 métricas quantitativas, analisando sistematicamente a qualidade da geração, potenciais vulnerabilidades de privacidade e aplicabilidade clínica em 11 arquiteturas líderes de texto para imagem. Nossos resultados revelam ineficiências críticas nos protocolos de avaliação existentes, particularmente na avaliação da fidelidade gerativa, levando a comparações inconsistentes e pouco informativas. Nossa estrutura estabelece um benchmark padronizado para a comunidade de IA médica, permitindo comparações objetivas e reproduzíveis, além de facilitar a integração contínua de modelos generativos existentes e futuros. Adicionalmente, disponibilizamos um conjunto de dados sintético de alta qualidade, o SynthCheX-75K, composto por 75 mil radiografias geradas pelo modelo de melhor desempenho (Sana 0.6B) em nosso benchmark, para apoiar pesquisas adicionais nesse domínio crítico. Por meio do CheXGenBench, estabelecemos um novo estado da arte e disponibilizamos nossa estrutura, modelos e o conjunto de dados SynthCheX-75K em https://raman1121.github.io/CheXGenBench/.
A Transferência de Estilo com Otimização em Tempo de Inferência (ST-ITO) é uma abordagem recente para transferir os efeitos aplicados de um áudio de referência para uma faixa de áudio bruta. Ela otimiza os parâmetros dos efeitos para minimizar a distância entre as incorporações de estilo do áudio processado e o de referência. No entanto, esse método trata todas as configurações possíveis de forma igual e depende exclusivamente do espaço de incorporação, o que pode levar a resultados irreais ou tendenciosos. Nós abordamos essa limitação ao introduzir um prior Gaussiano derivado de um conjunto de dados de predefinições vocais, o DiffVox, sobre o espaço de parâmetros. A otimização resultante é equivalente a uma estimativa de máxima a posteriori. Avaliações sobre a transferência de efeitos vocais no conjunto de dados MedleyDB mostram melhorias significativas em várias métricas em comparação com métodos de base, incluindo um estimador cego de efeitos de áudio, abordagens de vizinho mais próximo e ST-ITO não calibrado. A calibração proposta reduz o erro quadrático médio dos parâmetros em até 33% e corresponde melhor ao estilo de referência. Avaliações subjetivas com 16 participantes confirmam a superioridade do nosso método, especialmente em regimes de dados limitados. Este trabalho demonstra como a incorporação de conhecimento prévio em tempo de inferência aprimora a transferência de efeitos de áudio, abrindo caminho para sistemas de processamento de áudio mais eficazes e realistas.