Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos uma melhoria simples, mas teoricamente fundamentada, para o Ajuste Fino Supervisionado (SFT) em Modelos de Linguagem de Grande Escala (LLM), abordando sua generalização limitada em comparação com o aprendizado por reforço (RL). Através de análise matemática, revelamos que os gradientes padrão do SFT codificam implicitamente uma estrutura de recompensa problemática que pode restringir severamente as capacidades de generalização do modelo. Para corrigir isso, propomos o Ajuste Fino Dinâmico (DFT), estabilizando as atualizações de gradiente para cada token ao redimensionar dinamicamente a função objetivo com a probabilidade desse token. Notavelmente, essa alteração de uma única linha de código supera significativamente o SFT padrão em vários benchmarks desafiadores e modelos base, demonstrando uma generalização substancialmente melhorada. Além disso, nossa abordagem mostra resultados competitivos em configurações de RL offline, oferecendo uma alternativa eficaz e mais simples. Este trabalho une insights teóricos e soluções práticas, avançando substancialmente o desempenho do SFT. O código estará disponível em https://github.com/yongliang-wu/DFT.
Modelos de Linguagem de Grande Escala (LLMs) auto-evolutivos oferecem um caminho escalável em direção à superinteligência, gerando, refinando e aprendendo de forma autônoma com suas próprias experiências. No entanto, os métodos existentes para treinar tais modelos ainda dependem fortemente de tarefas e rótulos vastamente curados por humanos, tipicamente por meio de ajuste fino ou aprendizado por reforço, o que representa um gargalo fundamental para o avanço de sistemas de IA em direção a capacidades além da inteligência humana. Para superar essa limitação, introduzimos o R-Zero, um framework totalmente autônomo que gera seus próprios dados de treinamento do zero. A partir de um único LLM base, o R-Zero inicializa dois modelos independentes com papéis distintos, um Desafiador e um Solucionador. Esses modelos são otimizados separadamente e co-evoluem por meio da interação: o Desafiador é recompensado por propor tarefas próximas ao limite da capacidade do Solucionador, e o Solucionador é recompensado por resolver tarefas cada vez mais desafiadoras propostas pelo Desafiador. Esse processo resulta em um currículo direcionado e auto-melhorado, sem a necessidade de tarefas e rótulos pré-existentes. Empiricamente, o R-Zero melhora substancialmente a capacidade de raciocínio em diferentes LLMs de base, por exemplo, aumentando o Qwen3-4B-Base em +6,49 em benchmarks de raciocínio matemático e +7,54 em benchmarks de raciocínio de domínio geral.
Apresentamos o Genie Envisioner (GE), uma plataforma unificada de base para manipulação robótica que integra aprendizado de políticas, avaliação e simulação em um único framework de geração de vídeo. No seu núcleo, o GE-Base é um modelo de difusão de vídeo em larga escala condicionado por instruções, que captura a dinâmica espacial, temporal e semântica das interações robóticas do mundo real em um espaço latente estruturado. Construído sobre essa base, o GE-Act mapeia representações latentes para trajetórias de ação executáveis por meio de um decodificador leve baseado em correspondência de fluxo, permitindo inferência de políticas precisa e generalizável em diversas configurações com supervisão mínima. Para apoiar avaliação e treinamento escaláveis, o GE-Sim funciona como um simulador neural condicionado por ações, produzindo rollouts de alta fidelidade para o desenvolvimento de políticas em loop fechado. A plataforma é ainda equipada com o EWMBench, um conjunto de benchmarks padronizados que medem fidelidade visual, consistência física e alinhamento instrução-ação. Juntos, esses componentes estabelecem o Genie Envisioner como uma base escalável e prática para inteligência incorporada de propósito geral orientada por instruções. Todo o código, modelos e benchmarks serão liberados publicamente.
Embora os Modelos de Linguagem Visual (VLMs) demonstrem fortes habilidades perceptuais e raciocínio visual impressionante, eles enfrentam dificuldades com atenção aos detalhes e planejamento preciso de ações em ambientes complexos e dinâmicos, resultando em desempenho abaixo do ideal. Tarefas do mundo real geralmente exigem interações complexas, raciocínio espacial avançado, planejamento de longo prazo e refinamento contínuo de estratégias, normalmente necessitando da compreensão das regras físicas do cenário em questão. No entanto, avaliar essas capacidades em cenários do mundo real é frequentemente proibitivamente caro. Para preencher essa lacuna, apresentamos o DeepPHY, uma estrutura de benchmark inovadora projetada para avaliar sistematicamente a compreensão e o raciocínio dos VLMs sobre princípios físicos fundamentais por meio de uma série de ambientes simulados desafiadores. O DeepPHY integra múltiplos ambientes de raciocínio físico com níveis variados de dificuldade e incorpora métricas de avaliação detalhadas. Nossa avaliação revela que mesmo os VLMs mais avançados lutam para traduzir conhecimento físico descritivo em controle preditivo preciso.
Apesar dos rápidos avanços na geração de conteúdo 3D, a avaliação da qualidade dos ativos 3D gerados continua sendo um desafio. Os métodos existentes dependem principalmente de métricas baseadas em imagens e operam exclusivamente no nível do objeto, limitando sua capacidade de capturar coerência espacial, autenticidade de materiais e detalhes locais de alta fidelidade. 1) Para enfrentar esses desafios, introduzimos o Hi3DEval, um framework de avaliação hierárquico projetado para conteúdo gerativo 3D. Ele combina avaliações tanto no nível do objeto quanto no nível das partes, permitindo avaliações holísticas em múltiplas dimensões, bem como análises de qualidade refinadas. Além disso, estendemos a avaliação de texturas além da aparência estética, avaliando explicitamente o realismo dos materiais, com foco em atributos como albedo, saturação e metalicidade. 2) Para apoiar este framework, construímos o Hi3DBench, um conjunto de dados em larga escala que compreende diversos ativos 3D e anotações de alta qualidade, acompanhado por um pipeline confiável de anotação multiagente. Propomos ainda um sistema de pontuação automatizado 3D-aware baseado em representações híbridas 3D. Especificamente, utilizamos representações baseadas em vídeo para avaliações no nível do objeto e de materiais, a fim de aprimorar a modelagem da consistência espaço-temporal, e empregamos recursos 3D pré-treinados para percepção no nível das partes. Experimentos extensivos demonstram que nossa abordagem supera as métricas baseadas em imagens existentes na modelagem de características 3D e alcança uma alinhamento superior com as preferências humanas, oferecendo uma alternativa escalável às avaliações manuais. A página do projeto está disponível em https://zyh482.github.io/Hi3DEval/.
O bem-estar abrange dimensões mentais, físicas e sociais essenciais para o crescimento pessoal e para a tomada de decisões informadas na vida. À medida que os indivíduos consultam cada vez mais Modelos de Linguagem de Grande Escala (LLMs) para compreender o bem-estar, surge um desafio crucial: os LLMs podem gerar explicações que sejam não apenas precisas, mas também adaptadas a públicos diversos? Explicações de alta qualidade exigem tanto correção factual quanto a capacidade de atender às expectativas de usuários com diferentes níveis de expertise. Neste trabalho, construímos um conjunto de dados em larga escala composto por 43.880 explicações de 2.194 conceitos de bem-estar, geradas por dez LLMs diversos. Introduzimos um framework de avaliação guiado por princípios, utilizando LLMs como juízes, com dois avaliadores para medir a qualidade das explicações. Além disso, demonstramos que o ajuste fino de um LLM de código aberto usando Ajuste Fino Supervisionado (SFT) e Otimização Direta de Preferências (DPO) pode melhorar significativamente a qualidade das explicações geradas. Nossos resultados revelam: (1) Os juízes LLMs propostos estão bem alinhados com avaliações humanas; (2) a qualidade das explicações varia significativamente entre modelos, públicos e categorias; e (3) modelos ajustados com DPO e SFT superam seus equivalentes maiores, demonstrando a eficácia do aprendizado baseado em preferências para tarefas especializadas de geração de explicações.
Sistemas de Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) que utilizam Modelos de Linguagem Multimodais de Grande Escala (MLLMs, do inglês Multimodal Large Language Models) mostram grande potencial para a compreensão complexa de documentos, mas seu desenvolvimento é seriamente prejudicado pela avaliação inadequada. Os benchmarks atuais frequentemente se concentram em partes específicas do sistema RAG de documentos e utilizam dados sintéticos com rótulos de verdade fundamental e evidências incompletos, falhando assim em refletir os gargalos e desafios do mundo real. Para superar essas limitações, introduzimos o Double-Bench: um novo sistema de avaliação em larga escala, multilíngue e multimodal, capaz de produzir uma avaliação detalhada de cada componente dentro dos sistemas RAG de documentos. Ele compreende 3.276 documentos (72.880 páginas) e 5.168 consultas de salto único e múltiplo em 6 idiomas e 4 tipos de documentos, com suporte dinâmico simplificado para possíveis problemas de contaminação de dados. As consultas são fundamentadas em páginas de evidências exaustivamente verificadas e validadas por especialistas humanos para garantir máxima qualidade e completude. Nossos experimentos abrangentes com 9 modelos de incorporação de última geração, 4 MLLMs e 4 frameworks RAG de documentos de ponta a ponta demonstram que a lacuna entre modelos de incorporação de texto e visuais está diminuindo, destacando a necessidade de construir modelos de recuperação de documentos mais robustos. Nossas descobertas também revelam o dilema de excesso de confiança nos frameworks RAG de documentos atuais, que tendem a fornecer respostas mesmo sem suporte de evidências. Esperamos que nosso Double-Bench, totalmente de código aberto, forneça uma base rigorosa para pesquisas futuras em sistemas RAG de documentos avançados. Planejamos recuperar corpus atualizados e lançar novos benchmarks anualmente.
Recentemente, os Modelos de Raciocínio de Grande Escala (LRMs) têm gradualmente se tornado um ponto quente de pesquisa devido ao seu desempenho excepcional no tratamento de tarefas complexas. Entre eles, o DeepSeek R1 tem atraído atenção significativa por seu desempenho notável e natureza de código aberto, impulsionando avanços na pesquisa de LRMs no estilo R1. Diferentemente dos tradicionais Modelos de Linguagem de Grande Escala (LLMs), esses modelos aprimoram a dedução lógica e as capacidades de tomada de decisão durante o raciocínio ao incorporar mecanismos como cadeias longas de pensamento e autorreflexão por meio de aprendizado por reforço. No entanto, com a ampla aplicação desses modelos, o problema de "overthinking" (pensamento excessivo) tem surgido gradualmente. Especificamente, ao gerar respostas, esses modelos frequentemente constroem cadeias de raciocínio excessivamente longas com etapas redundantes ou repetitivas, o que leva à redução da eficiência do raciocínio e pode afetar a precisão da resposta final. Para isso, vários métodos de raciocínio eficiente foram propostos, visando reduzir o comprimento dos caminhos de raciocínio sem comprometer o desempenho do modelo e a capacidade de raciocínio. Ao revisar sistematicamente os avanços atuais da pesquisa no campo dos métodos de raciocínio eficiente, categorizamos os trabalhos existentes em duas direções principais com base na perspectiva de otimização de modelo único versus colaboração de modelos: (1) Raciocínio Eficiente com Modelo Único, que se concentra em melhorar a eficiência de raciocínio de modelos individuais; e (2) Raciocínio Eficiente com Colaboração de Modelos, que explora a otimização dos caminhos de raciocínio por meio da colaboração entre múltiplos modelos. Além disso, mantemos um repositório público no GitHub que acompanha os últimos progressos em métodos de raciocínio eficiente.
Este artigo apresenta um sistema multifuncional de síntese de fala que integra clonagem de voz e controle emocional de síntese de fala em um framework unificado. O objetivo deste trabalho é abordar desafios de longa data na geração de fala altamente expressiva, controlável e natural que preserve fielmente a identidade do falante em diversos contextos linguísticos e emocionais. Nossa abordagem introduz um mecanismo eficaz de desembaraço entre falante e emoção com aprendizado contrastivo em lote, permitindo a manipulação independente da identidade do falante e do estilo emocional, além de um método de integração de embeddings emocionais rotacionais para controle suave das emoções. Para apoiar o treinamento e avaliação abrangentes, construímos o CSEMOTIONS, um conjunto de dados de fala emocional de alta qualidade contendo 10 horas de fala em mandarim de seis falantes profissionais em sete categorias emocionais. Experimentos extensivos demonstram que nosso sistema, Marco-Voice, alcança melhorias substanciais tanto em métricas objetivas quanto subjetivas. Avaliações e análises abrangentes foram conduzidas, e os resultados mostram que o MarcoVoice oferece desempenho competitivo em termos de clareza de fala e riqueza emocional, representando um avanço significativo no campo da síntese neural de fala expressiva.
Agentes autônomos que operam computadores por meio de Interfaces Gráficas de Usuário (GUIs) frequentemente enfrentam desafios de eficiência e confiabilidade em tarefas complexas e de longo prazo. Embora o aprimoramento desses agentes com planejadores possa melhorar a decomposição de tarefas, eles permanecem limitados pelas restrições inerentes à execução de todas as ações por meio de manipulação de GUI, resultando em fragilidade e ineficiência. Neste trabalho, introduzimos um paradigma mais robusto e flexível: permitir que os agentes utilizem a codificação como uma ação aprimorada. Apresentamos o CoAct-1, um sistema multiagente inovador que combina de forma sinérgica o controle baseado em GUI com a execução programática direta. O CoAct-1 possui um Orquestrador que delega dinamicamente subtarefas a um Operador de GUI convencional ou a um agente Programador especializado, capaz de escrever e executar scripts em Python ou Bash. Essa abordagem híbrida permite que o agente evite sequências de ações ineficientes em GUI para tarefas como gerenciamento de arquivos e processamento de dados, ao mesmo tempo em que ainda aproveita a interação visual quando necessário. Avaliamos nosso sistema no desafiador benchmark OSWorld, onde o CoAct-1 alcança uma nova taxa de sucesso de estado da arte de 60,76%, superando significativamente métodos anteriores. Além disso, nossa abordagem melhora drasticamente a eficiência, reduzindo o número médio de etapas necessárias para concluir uma tarefa para apenas 10,15, em comparação com 15 dos principais agentes de GUI. Nossos resultados demonstram que a integração da codificação como uma ação central oferece um caminho mais poderoso, eficiente e escalável para a automação generalizada de computadores.
Os Modelos Multimodais de Grande Escala (LMMs) têm testemunhado um crescimento notável, demonstrando capacidades impressionantes no tratamento de tarefas multimodais complexas com desempenho excepcional. Pesquisas recentes destacaram a tendência dos grandes modelos de linguagem de aceitar passivamente entradas defeituosas, frequentemente resultando em raciocínios infrutíferos sobre prompts inválidos. No entanto, a mesma questão crítica de se os LMMs podem detectar e examinar ativamente entradas errôneas ainda permanece inexplorada. Para abordar essa lacuna, introduzimos o Framework de Avaliação da Habilidade de Escrutínio de Entrada (ISEval), que abrange sete categorias de premissas defeituosas e três métricas de avaliação. Nossa extensa avaliação de dez LMMs avançados identificou descobertas importantes. A maioria dos modelos luta para detectar ativamente premissas textuais defeituosas sem orientação, o que reflete uma forte dependência de prompts explícitos para a identificação de erros de premissa. O tipo de erro afeta o desempenho: os modelos se destacam na identificação de falácias lógicas, mas têm dificuldades com erros linguísticos superficiais e certas falhas condicionais. A confiança na modalidade varia - Gemini 2.5 Pro e Claude Sonnet 4 equilibram informações visuais e textuais, enquanto aya-vision-8b depende excessivamente do texto em conflitos. Esses insights destacam a necessidade urgente de aprimorar a verificação proativa da validade das entradas pelos LMMs e oferecem novas perspectivas para mitigar o problema. O código está disponível em https://github.com/MLGroupJLU/LMM_ISEval.
A segmentação de objetos em vídeo (VOS, do inglês *Video Object Segmentation*) tem como objetivo segmentar objetos específicos ao longo de um vídeo. Embora os métodos mais avançados tenham alcançado desempenhos impressionantes (por exemplo, mais de 90% no índice J&F) em benchmarks existentes, como DAVIS e YouTube-VOS, esses conjuntos de dados contêm principalmente objetos salientes, dominantes e isolados, limitando sua generalização para cenários do mundo real. Para avançar a VOS em direção a ambientes mais realistas, o conjunto de dados coMplex video Object SEgmentation (MOSEv1) foi introduzido para facilitar a pesquisa em VOS em cenas complexas. Com base nos pontos fortes e limitações do MOSEv1, apresentamos o MOSEv2, um conjunto de dados significativamente mais desafiador, projetado para avançar ainda mais os métodos de VOS em condições do mundo real. O MOSEv2 consiste em 5.024 vídeos e mais de 701.976 máscaras de alta qualidade para 10.074 objetos em 200 categorias. Em comparação com seu predecessor, o MOSEv2 introduz uma complexidade de cena consideravelmente maior, incluindo desaparecimento e reaparecimento mais frequentes de objetos, oclusões severas e aglomeração, objetos menores, além de uma variedade de novos desafios, como condições climáticas adversas (por exemplo, chuva, neve, neblina), cenas com pouca luz (por exemplo, noturnas, subaquáticas), sequências com múltiplos cortes, objetos camuflados, alvos não físicos (por exemplo, sombras, reflexos), cenários que exigem conhecimento externo, entre outros. Avaliamos 20 métodos representativos de VOS em 5 configurações diferentes e observamos quedas consistentes de desempenho. Por exemplo, o SAM2 cai de 76,4% no MOSEv1 para apenas 50,9% no MOSEv2. Também avaliamos 9 métodos de rastreamento de objetos em vídeo e encontramos declínios semelhantes, demonstrando que o MOSEv2 apresenta desafios em diversas tarefas. Esses resultados destacam que, apesar da alta precisão em conjuntos de dados existentes, os métodos atuais de VOS ainda enfrentam dificuldades diante das complexidades do mundo real. O MOSEv2 está disponível publicamente em https://MOSE.video.
Modelos de linguagem de grande escala (LLMs) têm demonstrado habilidades impressionantes de raciocínio em uma ampla gama de tarefas complexas. No entanto, aprimorar essas capacidades por meio de pós-treinamento continua a ser um processo que demanda muitos recursos, especialmente em termos de dados e custo computacional. Embora esforços recentes tenham buscado melhorar a eficiência amostral por meio da curadoria seletiva de dados, os métodos existentes frequentemente dependem de estratégias heurísticas ou específicas para tarefas, o que dificulta a escalabilidade. Neste trabalho, apresentamos o InfiAlign, um framework de pós-treinamento escalável e eficiente em termos de amostras que integra o ajuste fino supervisionado (SFT) com a Otimização de Preferência Direta (DPO) para alinhar LLMs visando um raciocínio aprimorado. No núcleo do InfiAlign está um pipeline robusto de seleção de dados que automaticamente seleciona dados de alinhamento de alta qualidade a partir de conjuntos de dados de raciocínio de código aberto, utilizando métricas de qualidade multidimensionais. Esse pipeline permite ganhos significativos de desempenho enquanto reduz drasticamente os requisitos de dados e permanece extensível a novas fontes de dados. Quando aplicado ao modelo Qwen2.5-Math-7B-Base, nosso modelo SFT alcança desempenho equivalente ao DeepSeek-R1-Distill-Qwen-7B, utilizando apenas aproximadamente 12% dos dados de treinamento, e demonstra forte generalização em diversas tarefas de raciocínio. Melhorias adicionais são obtidas por meio da aplicação do DPO, com ganhos particularmente notáveis em tarefas de raciocínio matemático. O modelo alcança uma melhoria média de 3,89% nos benchmarks AIME 24/25. Nossos resultados destacam a eficácia de combinar a seleção de dados fundamentada com o pós-treinamento em todas as etapas, oferecendo uma solução prática para alinhar modelos de raciocínio de grande escala de maneira escalável e eficiente em termos de dados. Os checkpoints do modelo estão disponíveis em https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.
Um suporte ao cliente eficaz requer não apenas a resolução precisa de problemas, mas também uma comunicação estruturada e empática alinhada com padrões profissionais. No entanto, os conjuntos de dados de diálogo existentes frequentemente carecem de orientação estratégica, e os dados de serviços do mundo real são difíceis de acessar e anotar. Para abordar isso, introduzimos a tarefa de Conversa de Suporte ao Cliente (CSC), destinada a treinar agentes de atendimento ao cliente para responder usando estratégias de suporte bem definidas. Propomos um framework estruturado de CSC baseado nas diretrizes COPC, definindo cinco estágios conversacionais e doze estratégias para orientar interações de alta qualidade. Com base nisso, construímos o CSConv, um conjunto de dados de avaliação de 1.855 conversas reais entre cliente e agente reescritas usando LLMs para refletir o uso deliberado de estratégias, e anotadas de acordo. Além disso, desenvolvemos uma abordagem de role-playing que simula conversas ricas em estratégias usando papéis alimentados por LLMs alinhados com o framework CSC, resultando no conjunto de dados de treinamento RoleCS. Experimentos mostram que o ajuste fino de LLMs robustos no RoleCS melhora significativamente sua capacidade de gerar respostas de alta qualidade e alinhadas com estratégias no CSConv. Avaliações humanas confirmam ainda mais ganhos na resolução de problemas. Todo o código e dados serão disponibilizados publicamente em https://github.com/aliyun/qwen-dianjin.
Modelos de Linguagem de Grande Escala para Raciocínio (R-LLMs) avançaram significativamente em tarefas complexas de raciocínio, mas frequentemente enfrentam dificuldades com a factualidade, gerando substancialmente mais alucinações do que suas contrapartes não voltadas para raciocínio em benchmarks de factualidade de longo formato. No entanto, estender o Aprendizado por Reforço Online (RL), um componente-chave nos recentes avanços dos R-LLMs, para o cenário de factualidade de longo formato apresenta vários desafios únicos devido à falta de métodos confiáveis de verificação. Trabalhos anteriores utilizaram frameworks automáticos de avaliação de factualidade, como o FActScore, para curar dados de preferência no cenário de RL offline, mas descobrimos que o uso direto desses métodos como recompensa no RL online leva a manipulação de recompensas de várias maneiras, como a produção de respostas menos detalhadas ou relevantes. Propomos uma nova função de recompensa que considera simultaneamente a precisão factual, o nível de detalhe da resposta e a relevância da resposta, e aplica RL online para aprender raciocínio factual de alta qualidade. Avaliado em seis benchmarks de factualidade de longo formato, nosso modelo de raciocínio factual alcança uma redução média de 23,1 pontos percentuais na taxa de alucinação, um aumento de 23% no nível de detalhe das respostas e nenhuma degradação na utilidade geral das respostas.
A geração realista de fios de cabelo é crucial para aplicações como gráficos computacionais e realidade virtual. Embora os modelos de difusão possam gerar penteados a partir de texto ou imagens, essas entradas carecem de precisão e facilidade de uso. Em vez disso, propomos o primeiro modelo de geração de fios baseado em esboços, que oferece um controle mais refinado enquanto mantém a facilidade de uso. Nosso framework aborda desafios-chave, como a modelagem de interações complexas entre fios e padrões diversos de esboços, por meio de duas inovações principais: uma estratégia de upsampling de fios aprendível que codifica fios 3D em espaços latentes multi-escala, e um mecanismo de condicionamento adaptativo multi-escala usando um transformer com cabeças de difusão para garantir consistência entre os níveis de granularidade. Experimentos em vários conjuntos de dados de referência mostram que nosso método supera as abordagens existentes em realismo e precisão. Resultados qualitativos confirmam ainda mais sua eficácia. O código será disponibilizado em [GitHub](https://github.com/fighting-Zhang/StrandDesigner).
A compressão de imagens baseada em difusão tem demonstrado desempenho perceptual impressionante. No entanto, ela sofre de duas desvantagens críticas: (1) latência excessiva de decodificação devido à amostragem em múltiplos passos, e (2) baixa fidelidade resultante da dependência excessiva de priors generativos. Para resolver esses problemas, propomos o SODEC, um novo modelo de compressão de imagens baseado em difusão de passo único. Argumentamos que, na compressão de imagens, um latente suficientemente informativo torna o refinamento em múltiplos passos desnecessário. Com base nessa percepção, utilizamos um modelo pré-treinado baseado em VAE para produzir latentes ricos em informação e substituímos o processo iterativo de remoção de ruído por uma decodificação de passo único. Paralelamente, para melhorar a fidelidade, introduzimos o módulo de orientação de fidelidade, incentivando uma saída fiel à imagem original. Além disso, projetamos a estratégia de treinamento com taxa de anelamento para permitir um treinamento eficaz sob taxas de bits extremamente baixas. Experimentos extensivos mostram que o SODEC supera significativamente os métodos existentes, alcançando um desempenho superior em taxa-distorção-percepção. Além disso, em comparação com modelos de compressão baseados em difusão anteriores, o SODEC melhora a velocidade de decodificação em mais de 20 vezes. O código está disponível em: https://github.com/zhengchen1999/SODEC.
O desempenho dos Modelos de Linguagem de Grande Escala (LLMs) é significativamente sensível à posição contextual da informação na entrada. Para investigar o mecanismo por trás desse viés posicional, nossos extensos experimentos revelam um fenômeno consistente que denominamos de bacia de atenção: quando apresentados a uma sequência de itens estruturados (por exemplo, documentos recuperados ou exemplos de few-shot), os modelos atribuem sistematicamente maior atenção aos itens no início e no final da sequência, enquanto negligenciam aqueles no meio. Crucialmente, nossa análise revela ainda que a alocação de maior atenção a informações críticas é fundamental para melhorar o desempenho do modelo. Com base nessas percepções, introduzimos o Reordenamento Orientado por Atenção (AttnRank), uma estrutura de duas etapas que (i) estima as preferências intrínsecas de atenção posicional de um modelo usando um pequeno conjunto de calibração, e (ii) reordena documentos recuperados ou exemplos de few-shot para alinhar o conteúdo mais saliente a essas posições de alta atenção. O AttnRank é um método independente de modelo, sem necessidade de treinamento e plug-and-play, com sobrecarga computacional mínima. Experimentos em tarefas de QA multi-hop e aprendizado few-shot em contexto demonstram que o AttnRank alcança melhorias substanciais em 10 modelos de linguagem de grande escala com diferentes arquiteturas e escalas, sem modificar parâmetros do modelo ou procedimentos de treinamento.
A Segmentação de Expressões de Referência (RES, do inglês Reference Expression Segmentation) tem como objetivo segmentar regiões de imagens especificadas por expressões de referência e ganhou popularidade com o surgimento de modelos grandes multimodais (MLLMs, do inglês Multimodal Large Models). Embora os MLLMs se destaquem na compreensão semântica, seu paradigma de geração de tokens enfrenta dificuldades com previsões densas em nível de pixel. Os métodos existentes de RES ou acoplam MLLMs ao Segment Anything Model (SAM), um modelo pesado com 632 milhões de parâmetros, ou adotam pipelines leves sem SAM que sacrificam a precisão. Para abordar o equilíbrio entre desempenho e custo, propomos especificamente o MLLMSeg, uma nova estrutura que explora totalmente as características visuais detalhadas inerentes codificadas no codificador visual do MLLM, sem introduzir um codificador visual adicional. Além disso, propomos um módulo de fusão de características detalhadas e semanticamente consistentes (DSFF, do inglês Detail-Enhanced and Semantic-Consistent Feature Fusion) que integra plenamente a característica visual relacionada a detalhes com a característica semântica gerada pelo modelo de linguagem grande (LLM, do inglês Large Language Model) do MLLM. Por fim, estabelecemos um decodificador de máscara leve com apenas 34 milhões de parâmetros que aproveita de forma ideal as características espaciais detalhadas do codificador visual e as características semânticas do LLM para alcançar previsões de máscara precisas. Experimentos extensivos demonstram que nosso método geralmente supera tanto os concorrentes baseados em SAM quanto os sem SAM, alcançando um melhor equilíbrio entre desempenho e custo. O código está disponível em https://github.com/jcwang0602/MLLMSeg.
Os modelos visão-linguagem (VLMs) existentes, sejam generalistas ou especialistas, permanecem limitados pela escala de seus parâmetros, carecem de capacidades robustas de autocorreção e têm desempenho inferior em tarefas que envolvem contextos visuais longos e raciocínio complexo, resultando em desempenho subótimo em tarefas baseadas em documentos. Para resolver isso, propomos o MACT, uma estrutura de Colaboração Multi-Agente com Escalonamento em Tempo de Teste, projetada para compreensão visual de documentos e resposta a perguntas visuais (VQA). Ele é composto por quatro agentes distintos em pequena escala, ou seja, planejamento, execução, julgamento e resposta, com papéis claramente definidos e colaboração eficaz. Notavelmente, o agente de julgamento verifica exclusivamente a correção e redireciona para agentes anteriores para revisões, superando estratégias convencionais de correção. Para expandir ainda mais os limites de capacidade da estrutura, propomos a modelagem de recompensa mista que equilibra habilidades específicas do agente e colaboração global, bem como o escalonamento híbrido em tempo de teste por agente, que personaliza diferentes estratégias de escalonamento para cada agente com base em suas funções. Avaliado em benchmarks que abrangem configurações baseadas em documentos e não baseadas em documentos, nosso MACT mostra desempenho superior com uma escala de parâmetros menor sem sacrificar a capacidade de tarefas gerais e matemáticas. Especialmente, ele se destaca em benchmarks envolvendo contextos visuais longos e raciocínio complicado. As três variantes do MACT consistentemente ocupam as três primeiras posições em pontuações médias, liderando em 13 dos 15 benchmarks. O código estará disponível em: https://github.com/YU-deep/MACT.git.
A redação de Informações Pessoalmente Identificáveis (PII) a partir de texto não estruturado é crucial para garantir a privacidade dos dados em domínios regulamentados. Embora abordagens anteriores tenham se baseado em sistemas baseados em regras e modelos de Reconhecimento de Entidades Nomeadas (NER) específicos de domínio, esses métodos falham em generalizar entre formatos e contextos. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) oferecem uma alternativa promissora, mas o impacto das escolhas arquitetônicas e de treinamento no desempenho da redação ainda é pouco explorado. LLMs têm demonstrado forte desempenho em tarefas que exigem compreensão contextual da linguagem, incluindo a redação de PII em texto livre. Trabalhos anteriores sugerem que, com a adaptação adequada, LLMs podem se tornar aprendizes eficazes de privacidade contextual. No entanto, as consequências das escolhas arquitetônicas e de treinamento para a Redação de PII permanecem pouco exploradas. Neste trabalho, apresentamos uma análise abrangente de LLMs como sistemas de Redação de PII que preservam a privacidade. Avaliamos uma variedade de arquiteturas de LLMs e estratégias de treinamento quanto à sua eficácia na Redação de PII. Nossa análise mede o desempenho da redação, a preservação semântica e o vazamento de PII, e compara esses resultados com latência e custo computacional. Os resultados fornecem orientações práticas para configurar redatores baseados em LLMs que sejam precisos, eficientes e conscientes da privacidade. Para apoiar a reprodutibilidade e a implantação no mundo real, lançamos o PRvL, um conjunto de modelos ajustados e ferramentas de avaliação de código aberto para Redação de PII de propósito geral. O PRvL é construído inteiramente em LLMs de código aberto e suporta múltiplas configurações de inferência para flexibilidade e conformidade. Ele foi projetado para ser facilmente personalizado para diferentes domínios e totalmente operável em ambientes seguros e autogerenciados. Isso permite que os proprietários de dados realizem redações sem depender de serviços de terceiros ou expor conteúdo sensível além de sua própria infraestrutura.
Este artigo apresenta um benchmark abrangente para avaliar como os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) respondem a shibboletes linguísticos: marcadores linguísticos sutis que podem revelar inadvertidamente atributos demográficos, como gênero, classe social ou origem regional. Por meio de simulações de entrevistas cuidadosamente construídas, utilizando 100 pares de perguntas e respostas validados, demonstramos como os LLMs penalizam sistematicamente certos padrões linguísticos, particularmente o uso de linguagem de hesitação, apesar da qualidade equivalente do conteúdo. Nosso benchmark gera variações linguísticas controladas que isolam fenômenos específicos enquanto mantêm a equivalência semântica, o que permite a medição precisa de viés demográfico em sistemas de avaliação automatizados. Validamos nossa abordagem em múltiplas dimensões linguísticas, mostrando que respostas hesitantes recebem, em média, avaliações 25,6% mais baixas, e demonstramos a eficácia do benchmark na identificação de vieses específicos dos modelos. Este trabalho estabelece uma estrutura fundamental para detectar e medir a discriminação linguística em sistemas de IA, com amplas aplicações para a justiça em contextos de tomada de decisão automatizada.
O surgimento de modelos de raciocínio e sua integração em chatbots de IA práticos levou a avanços na resolução de problemas avançados de matemática, buscas profundas e respostas a perguntas extrativas que exigem um processo de pensamento complexo e em várias etapas. No entanto, ainda falta uma compreensão completa do porquê esses modelos alucinam mais do que modelos de linguagem de propósito geral. Neste estudo investigativo, exploramos sistematicamente as falhas de raciocínio dos modelos de linguagem contemporâneos em tarefas de resposta a perguntas de múltiplos saltos. Introduzimos uma nova e detalhada estrutura de categorização de erros que examina as falhas em três dimensões críticas: a diversidade e singularidade dos documentos-fonte envolvidos ("saltos"), a completude na captura de informações relevantes ("cobertura") e a ineficiência cognitiva ("pensar demais"). Por meio de uma rigorosa anotação humana, apoiada por métricas automatizadas complementares, nossa exploração revela padrões intrincados de erros frequentemente ocultos por avaliações centradas na precisão. Essa abordagem investigativa fornece insights mais profundos sobre as limitações cognitivas dos modelos atuais e oferece orientações práticas para melhorar a fidelidade, transparência e robustez do raciocínio em futuros esforços de modelagem de linguagem.
A vinculação de entidades multimodais desempenha um papel crucial em uma ampla gama de aplicações. Avanços recentes em métodos baseados em modelos de linguagem de grande escala tornaram-se o paradigma dominante para essa tarefa, aproveitando efetivamente tanto as modalidades textuais quanto visuais para melhorar o desempenho. Apesar do sucesso, esses métodos ainda enfrentam dois desafios, incluindo a incorporação desnecessária de dados de imagem em certos cenários e a dependência apenas de uma extração única de características visuais, o que pode comprometer sua eficácia e precisão. Para abordar esses desafios, propomos uma nova estrutura baseada em LLM para a tarefa de vinculação de entidades multimodais, chamada Reflexões Colaborativas Intra e Intermodais. Essa estrutura prioriza o aproveitamento de informações textuais para resolver a tarefa. Quando o texto por si só é insuficiente para vincular a entidade correta por meio de avaliações intra e intermodais, ela emprega uma estratégia iterativa de múltiplas rodadas que integra pistas visuais-chave de vários aspectos da imagem para apoiar o raciocínio e aumentar a precisão da correspondência. Experimentos extensos em três conjuntos de dados públicos amplamente utilizados demonstram que nossa estrutura supera consistentemente os métodos state-of-the-art atuais na tarefa, alcançando melhorias de 3,2%, 5,1% e 1,6%, respectivamente. Nosso código está disponível em https://github.com/ziyan-xiaoyu/I2CR/.
Alinhamento e uniformidade são princípios fundamentais no domínio da aprendizagem contrastiva. Em sistemas de recomendação, trabalhos anteriores estabeleceram que a otimização da função de perda Bayesian Personalized Ranking (BPR) contribui para os objetivos de alinhamento e uniformidade. Especificamente, o alinhamento visa aproximar as representações de usuários e itens que interagem, enquanto a uniformidade exige uma distribuição uniforme das incorporações (embeddings) de usuários e itens em uma hiperesfera unitária. Este estudo revisita as propriedades de alinhamento e uniformidade no contexto de sistemas de recomendação multimodal, revelando uma tendência entre os modelos existentes de priorizar a uniformidade em detrimento do alinhamento. Nossa hipótese desafia a suposição convencional de tratamento equitativo de itens por meio de uma função de perda de uniformidade, propondo uma abordagem mais refinada na qual itens com atributos multimodais semelhantes convergem para representações próximas dentro da variedade hiperesférica. Especificamente, aproveitamos a similaridade inerente entre os dados multimodais dos itens para calibrar sua distribuição de uniformidade, induzindo assim uma força repulsiva mais pronunciada entre entidades dissimilares no espaço de incorporação. Uma análise teórica esclarece a relação entre essa função de perda de uniformidade calibrada e a função de uniformidade convencional. Além disso, para aprimorar a fusão de características multimodais, introduzimos um método Spherical Bézier projetado para integrar um número arbitrário de modalidades, garantindo que as características fundidas resultantes estejam restritas à mesma variedade hiperesférica. Avaliações empíricas realizadas em cinco conjuntos de dados do mundo real comprovam a superioridade de nossa abordagem em relação às linhas de base concorrentes. Também demonstramos que os métodos propostos podem alcançar um aumento de até 5,4% no desempenho NDCG@20 por meio da integração de características extraídas por MLLM. O código-fonte está disponível em: https://github.com/enoche/CM3.
Os sistemas de Tradução Simultânea de Fala (SimulST) processam o áudio em tempo real enquanto emitem simultaneamente o texto ou fala traduzida. Tais sistemas enfrentam o desafio significativo de equilibrar a qualidade da tradução e a latência. Introduzimos uma estratégia para otimizar essa compensação: aguardar por mais entrada apenas se houver ganho de informação ao fazê-lo. Com base nessa estratégia, apresentamos a Adaptação de Informação de Entropia Regularizada (REINA), uma nova função de perda para treinar uma política adaptativa utilizando um modelo de tradução não simultânea existente. Derivamos a REINA a partir de princípios da teoria da informação e demonstramos que ela ajuda a avançar a fronteira de Pareto relatada na compensação entre latência e qualidade em relação a trabalhos anteriores. Utilizando a REINA, treinamos um modelo SimulST para francês, espanhol e alemão, tanto de quanto para o inglês. Treinando apenas com dados de código aberto ou gerados sinteticamente, alcançamos resultados de streaming de última geração (SOTA) para modelos de tamanho comparável. Também introduzimos uma métrica para eficiência de streaming, mostrando quantitativamente que a REINA melhora a compensação entre latência e qualidade em até 21% em comparação com abordagens anteriores, normalizada em relação às pontuações BLEU de linha de base não simultânea.
A análise robusta de componentes principais (RPCA) decompõe uma matriz de observação em componentes de fundo de baixa classificação e objetos esparsos. Essa capacidade permitiu sua aplicação em tarefas que vão desde a restauração de imagens até a segmentação. No entanto, os modelos tradicionais de RPCA sofrem com encargos computacionais causados por operações matriciais, dependência de hiperparâmetros finamente ajustados e prioridades rígidas que limitam a adaptabilidade em cenários dinâmicos. Para resolver essas limitações, propomos o RPCANet++, uma estrutura de segmentação de objetos esparsos que combina a interpretabilidade da RPCA com arquiteturas profundas eficientes. Nossa abordagem desdobra um modelo de RPCA relaxado em uma rede estruturada composta por um Módulo de Aproximação de Fundo (BAM), um Módulo de Extração de Objetos (OEM) e um Módulo de Restauração de Imagem (IRM). Para mitigar a perda de transmissão entre estágios no BAM, introduzimos um Módulo de Memória Aumentada (MAM) para aprimorar a preservação de características de fundo, enquanto um Módulo de Prioridade de Contraste Profundo (DCPM) aproveita pistas de saliência para acelerar a extração de objetos. Experimentos extensivos em diversos conjuntos de dados demonstram que o RPCANet++ alcança desempenho de ponta em vários cenários de imagem. Melhoramos ainda mais a interpretabilidade por meio de medidas visuais e numéricas de baixa classificação e esparsidade. Ao combinar as forças teóricas da RPCA com a eficiência de redes profundas, nossa abordagem estabelece uma nova referência para a segmentação confiável e interpretável de objetos esparsos. Os códigos estão disponíveis em nossa página do projeto: https://fengyiwu98.github.io/rpcanetx.
Modelos de linguagem multimodal (MLMs) mostram potencial para suporte à decisão clínica e raciocínio diagnóstico, abrindo perspectivas para a interpretação automatizada de imagens médicas de ponta a ponta. No entanto, os clínicos são altamente seletivos na adoção de ferramentas de IA; um modelo que comete erros em tarefas perceptivas aparentemente simples, como determinar a orientação de uma imagem ou identificar se uma tomografia computadorizada é contrastada, dificilmente será adotado para tarefas clínicas. Apresentamos o Medblink, um benchmark projetado para avaliar esses modelos em relação a tais habilidades perceptivas. O Medblink abrange oito tarefas clinicamente relevantes em múltiplas modalidades de imagem e regiões anatômicas, totalizando 1.429 questões de múltipla escolha sobre 1.605 imagens. Avaliamos 19 MLMs de ponta, incluindo modelos de propósito geral (GPT4o, Claude 3.5 Sonnet) e específicos para o domínio (Med Flamingo, LLaVA Med, RadFM). Enquanto anotadores humanos alcançam 96,4% de precisão, o modelo com melhor desempenho atinge apenas 65%. Esses resultados mostram que os MLMs atuais frequentemente falham em verificações perceptivas rotineiras, sugerindo a necessidade de fortalecer sua fundamentação visual para apoiar a adoção clínica. Os dados estão disponíveis na página do nosso projeto.