Artigos de pesquisa em IA selecionados diariamente com traduções
O surgimento do aprendizado por reforço agentivo (Agentic RL) marca uma mudança de paradigma em relação ao aprendizado por reforço convencional aplicado a modelos de linguagem de grande escala (LLM RL), redefinindo os LLMs de geradores passivos de sequências para agentes autônomos e tomadores de decisão inseridos em mundos complexos e dinâmicos. Este estudo formaliza essa mudança conceitual ao contrastar os Processos de Decisão Markovianos (MDPs) degenerados de passo único do LLM-RL com os Processos de Decisão Markovianos Parcialmente Observáveis (POMDPs) temporalmente estendidos que definem o Agentic RL. Com base nessa fundamentação, propomos uma taxonomia abrangente em duas vertentes: uma organizada em torno de capacidades agentivas centrais, incluindo planejamento, uso de ferramentas, memória, raciocínio, autodesenvolvimento e percepção, e outra em torno de suas aplicações em diversos domínios de tarefas. Central à nossa tese está a ideia de que o aprendizado por reforço serve como o mecanismo crítico para transformar essas capacidades de módulos estáticos e heurísticos em comportamentos agentivos adaptativos e robustos. Para apoiar e acelerar pesquisas futuras, consolidamos o panorama de ambientes de código aberto, benchmarks e frameworks em um compêndio prático. Ao sintetizar mais de quinhentos trabalhos recentes, este estudo traça os contornos desse campo em rápida evolução e destaca as oportunidades e desafios que moldarão o desenvolvimento de agentes de IA escaláveis e de propósito geral.
O desenvolvimento de agentes autônomos para interfaces gráficas de usuário (GUIs) apresenta desafios significativos na inteligência artificial. Embora avanços recentes em modelos de agentes nativos tenham mostrado promessas ao unificar percepção, raciocínio, ação e memória por meio de aprendizado de ponta a ponta, problemas em aberto permanecem em escalabilidade de dados, aprendizado por reforço multi-turn (RL), as limitações da operação exclusiva em GUI e a estabilidade do ambiente. Neste relatório técnico, apresentamos o UI-TARS-2, um modelo de agente centrado em GUI que aborda esses desafios por meio de uma metodologia de treinamento sistemática: um ciclo de dados para geração escalável de dados, um framework de RL multi-turn estabilizado, um ambiente híbrido de GUI que integra sistemas de arquivos e terminais, e uma plataforma unificada de sandbox para implantações em larga escala. A avaliação empírica demonstra que o UI-TARS-2 alcança melhorias significativas em relação ao seu antecessor, o UI-TARS-1.5. Em benchmarks de GUI, ele atinge 88,2 no Online-Mind2Web, 47,5 no OSWorld, 50,6 no WindowsAgentArena e 73,3 no AndroidWorld, superando baselines robustos como os agentes Claude e OpenAI. Em ambientes de jogos, ele atinge uma pontuação normalizada média de 59,8 em um conjunto de 15 jogos — aproximadamente 60% do desempenho humano — e mantém-se competitivo com modelos proprietários de ponta (por exemplo, OpenAI o3) no LMGame-Bench. Além disso, o modelo pode generalizar para tarefas de busca de informação de longo prazo e benchmarks de engenharia de software, destacando sua robustez em diversas tarefas de agentes. Análises detalhadas da dinâmica de treinamento fornecem insights adicionais sobre como alcançar estabilidade e eficiência em RL de agentes em larga escala. Esses resultados ressaltam o potencial do UI-TARS-2 para avançar o estado da arte em agentes de GUI e exibir forte generalização para cenários interativos do mundo real.
Modelos de Linguagem de Grande Escala (LLMs) podem melhorar significativamente suas capacidades de raciocínio ao interagir com ferramentas externas, um paradigma conhecido como Raciocínio Integrado com Ferramentas (Tool-Integrated Reasoning - TIR). No entanto, estender o TIR para cenários de múltiplas interações usando Aprendizado por Reforço (Reinforcement Learning - RL) é frequentemente dificultado por instabilidade no treinamento e colapso de desempenho. Identificamos que tal instabilidade é causada principalmente por um desvio distribucional proveniente do feedback das ferramentas externas, levando à geração de tokens de baixa probabilidade. Esse problema se agrava ao longo de interações sucessivas, causando explosões catastróficas na norma do gradiente que prejudicam o processo de treinamento. Para enfrentar esse desafio, introduzimos o SimpleTIR, um algoritmo plug-and-play que estabiliza o treinamento de TIR em múltiplas interações. Sua estratégia central é identificar e filtrar trajetórias que contenham interações vazias, ou seja, interações que não produzem nem um bloco de código nem uma resposta final. Ao remover essas trajetórias problemáticas da atualização da política, o SimpleTIR bloqueia efetivamente os gradientes de alta magnitude que são prejudiciais, estabilizando assim a dinâmica de aprendizado. Experimentos extensivos mostram que o SimpleTIR alcança desempenho de ponta em benchmarks desafiadores de raciocínio matemático, elevando notavelmente a pontuação AIME24 de uma linha de base baseada apenas em texto de 22,1 para 50,5 quando iniciado a partir do modelo base Qwen2.5-7B. Além disso, ao evitar as limitações do ajuste fino supervisionado, o SimpleTIR incentiva o modelo a descobrir padrões de raciocínio diversos e sofisticados, como autocorreção e validação cruzada.
Na modelagem visão-linguagem, modelos críticos são tipicamente treinados para avaliar saídas -- atribuindo pontuações escalares ou preferências pareadas -- em vez de gerar respostas. Essa separação dos modelos de política, que produzem as respostas, é tão arraigada que os críticos raramente são considerados para uso direto em políticas. Neste trabalho, desafiamos essa convenção. Propomos reorganizar conjuntos de dados críticos rotulados por preferência em sinais de treinamento verificáveis e realizar aprendizado por reforço diretamente em um modelo generativo base, produzindo o LLaVA-Critic-R1, um crítico multimodal treinado para otimizar julgamentos de preferência enquanto mantém plena capacidade de geração. Surpreendentemente, o LLaVA-Critic-R1 emerge não apenas como um crítico de alto desempenho, mas também como um modelo de política competitivo -- igualando ou superando VLMs especializados em raciocínio treinados com dados de domínio específico em 26 benchmarks de raciocínio e compreensão visual, com um ganho médio de +5,7% em relação ao seu modelo base (Qwen-2.5-VL-7B). Estendendo essa abordagem para VLMs de raciocínio já fortes, obtemos o LLaVA-Critic-R1+, que avança ainda mais o desempenho da política sem sacrificar a qualidade do crítico, alcançando um desempenho SoTA de 71,9 no MMMU na escala de 7B. Por fim, mostramos que a capacidade crítica aprimorada beneficia a inferência: aplicar autocrítica no momento do teste resulta em uma melhoria média de +13,8% em cinco tarefas representativas de raciocínio sem treinamento adicional. Nossos resultados revelam que o treinamento de RL em dados críticos pode produzir um modelo unificado que se destaca tanto em avaliação quanto em geração, oferecendo um caminho simples para sistemas multimodais escaláveis e autoaperfeiçoáveis.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) demonstrou sucesso em aprimorar as capacidades de raciocínio de LLMs, mas permanece limitado a interações de turno único sem integração de ferramentas. Embora abordagens recentes de Aprendizado por Reforço Agente com Uso de Ferramentas (ARLT) tenham surgido para lidar com interações de múltiplos turnos com ferramentas, os trabalhos existentes desenvolvem bases de código específicas para tarefas que sofrem com fragmentação, gargalos de execução síncrona e extensibilidade limitada entre domínios. Essas ineficiências dificultam a adoção mais ampla pela comunidade e a inovação algorítmica. Apresentamos o VerlTool, uma estrutura unificada e modular que aborda essas limitações por meio de princípios de design sistemáticos. O VerlTool oferece quatro contribuições principais: (1) alinhamento upstream com o VeRL, garantindo compatibilidade e manutenção simplificada, (2) gerenciamento unificado de ferramentas por meio de APIs padronizadas que suportam diversas modalidades, incluindo execução de código, busca, bancos de dados SQL e processamento visual, (3) execução assíncrona de rollout, alcançando um aumento de velocidade de quase 2 vezes ao eliminar gargalos de sincronização, e (4) avaliação abrangente demonstrando desempenho competitivo em 6 domínios de ARLT. Nossa estrutura formaliza o ARLT como trajetórias de múltiplos turnos com tokens de observação multimodais (texto/imagem/vídeo), estendendo-se além dos paradigmas de RLVR de turno único. Treinamos e avaliamos modelos em tarefas de raciocínio matemático, QA de conhecimento, geração de SQL, raciocínio visual, busca na web e engenharia de software, alcançando resultados comparáveis a sistemas especializados enquanto fornecemos uma infraestrutura de treinamento unificada. A arquitetura modular de plugins permite integração rápida de ferramentas, exigindo apenas definições leves em Python, reduzindo significativamente a sobrecarga de desenvolvimento e fornecendo uma base escalável para pesquisa em RL aumentado por ferramentas. Nosso código é de código aberto em https://github.com/TIGER-AI-Lab/verl-tool.
Modelos de linguagem de grande escala frequentemente exigem otimizações custosas, como aprendizado por reforço, para dominar tarefas complexas de raciocínio. Este trabalho demonstra que a capacidade de raciocínio, uma vez aprendida, pode ser extraída e transferida entre modelos como um vetor de tarefa compacto. Utilizamos dois modelos Qwen2.5 publicamente disponíveis e inicializados de forma idêntica, um ajustado com fine-tuning supervisionado (SFT) e outro com otimização de política relativa em grupo (GRPO) no mesmo conjunto de dados. A partir deles, extraímos um vetor de raciocínio: v_{raciocínio} = theta_{GRPO} - theta_{SFT}. Nossa hipótese é que esse vetor captura a capacidade de raciocínio instilada pelo aprendizado por reforço, ao mesmo tempo que remove o conhecimento compartilhado do processo de SFT. Quando adicionado a modelos compatíveis ajustados por instrução por meio de aritmética simples, esse vetor melhora consistentemente o desempenho em diversos benchmarks de raciocínio: GSM8K (+4,9%), HumanEval (+4,3%), SciQ (+1,7%) e BigBenchHard (+12,3% para o modelo de 1,5B). As melhorias de desempenho persistem sob condições adversas. Por outro lado, subtrair o vetor causa uma degradação significativa no desempenho (-11,8% no GSM8K), demonstrando a forte contribuição do vetor para as habilidades de raciocínio do modelo. Este trabalho mostra como capacidades de raciocínio, tipicamente desenvolvidas por meio de treinamentos caros, podem ser extraídas de modelos de código aberto existentes e reutilizadas por meio de aritmética tensorial simples, oferecendo uma maneira prática de aprimorar modelos ao reciclar investimentos computacionais anteriores.
Modelos de linguagem multimodal de vídeo (Video-MLLMs) alcançaram progressos notáveis na compreensão de vídeos. No entanto, eles permanecem vulneráveis à geração de conteúdo alucinatório, inconsistente ou não relacionado às entradas de vídeo. Benchmarks anteriores de alucinação em vídeo focam principalmente em vídeos curtos, atribuindo as alucinações a fatores como fortes prioridades de linguagem, quadros ausentes ou vieses visão-linguagem introduzidos pelo codificador visual. Embora essas causas de fato expliquem a maioria das alucinações em vídeos curtos, elas ainda simplificam demais a origem das alucinações. Às vezes, os modelos geram saídas incorretas, mas com semântica correta em nível de quadro. Referimo-nos a esse tipo de alucinação como Alucinação de Agregação Semântica (SAH), que surge durante o processo de agregação de semântica em nível de quadro em grupos semânticos em nível de evento. Dado que a SAH se torna particularmente crítica em vídeos longos devido ao aumento da complexidade semântica em múltiplos eventos, é essencial separar e investigar minuciosamente as causas desse tipo de alucinação. Para abordar essas questões, introduzimos o ELV-Halluc, o primeiro benchmark dedicado à alucinação em vídeos longos, permitindo uma investigação sistemática da SAH. Nossos experimentos confirmam a existência da SAH e mostram que ela aumenta com a complexidade semântica. Além disso, descobrimos que os modelos são mais propensos à SAH em semânticas que mudam rapidamente. Adicionalmente, discutimos abordagens potenciais para mitigar a SAH. Demonstramos que a estratégia de codificação posicional contribui para aliviar a SAH e adotamos ainda a estratégia DPO para aprimorar a capacidade do modelo de distinguir semânticas dentro e entre eventos. Para apoiar isso, criamos um conjunto de dados de 8K pares de dados adversariais e alcançamos melhorias tanto no ELV-Halluc quanto no Video-MME, incluindo uma redução substancial de 27,7% na taxa de SAH.
Dados rotulados de alta qualidade são essenciais para treinar modelos precisos de conversão de documentos, especialmente em domínios com formatos complexos, como tabelas, fórmulas e textos com múltiplas colunas. No entanto, a anotação manual é cara e demorada, enquanto a rotulação automática usando modelos existentes frequentemente carece de precisão ao lidar com cenários desafiadores. Consequentemente, treinar modelos estudantis por meio da destilação de saídas de modelos professores pode limitar significativamente seu desempenho em aplicações do mundo real. Neste artigo, propomos uma estrutura totalmente automatizada e livre de destilação, composta por duas etapas, para construir conjuntos de dados e modelos de extração de documentos de alta qualidade, capazes de lidar com diversos formatos e layouts de documentos. Na primeira etapa, introduzimos um método para gerar dados sintéticos em larga escala e diversificados, o que permite que um modelo extraia elementos-chave em um formato unificado com um forte desempenho inicial. Na segunda etapa, apresentamos uma abordagem de autoaperfeiçoamento que adapta ainda mais o modelo, inicialmente treinado com dados sintéticos, a documentos do mundo real. Especificamente, primeiro usamos o modelo ajustado para anotar documentos reais, depois aplicamos um conjunto de estratégias de filtragem para verificar a qualidade das anotações e, finalmente, retreinamos o modelo no conjunto de dados verificado. Ao repetir esse processo iterativamente, aprimoramos progressivamente tanto as capacidades de conversão do modelo quanto a qualidade dos dados gerados. Treinamos um modelo público POINTS-1.5 para obter o POINTS-Reader, que supera muitos modelos públicos e proprietários existentes de tamanho comparável ou maior. Nosso modelo está disponível em https://github.com/Tencent/POINTS-Reader.
A arquitetura Transformer, sustentada pelo mecanismo de autoatenção, tornou-se o padrão de fato para tarefas de modelagem de sequências. No entanto, sua primitiva computacional central escala quadraticamente com o comprimento da sequência (O(N^2)), criando um gargalo significativo para o processamento de contextos longos. Neste artigo, propomos a rede Gated Associative Memory (GAM), uma arquitetura nova e totalmente paralela para modelagem de sequências que exibe complexidade linear (O(N)) em relação ao comprimento da sequência. O bloco GAM substitui a camada de autoatenção por dois caminhos paralelos: uma convolução causal para capturar eficientemente o contexto local dependente de posição e um mecanismo de recuperação de memória associativa paralela para modelar padrões globais baseados em conteúdo. Esses caminhos são dinamicamente fundidos usando um mecanismo de portão, permitindo que o modelo combine de forma flexível informações locais e globais para cada token. Implementamos o GAM do zero e realizamos uma análise comparativa rigorosa contra um modelo Transformer padrão e uma linha de base moderna de tempo linear (Mamba) no benchmark WikiText-2, bem como contra o Transformer no conjunto de dados TinyStories. Nossos experimentos demonstram que o GAM é consistentemente mais rápido, superando ambas as linhas de base em velocidade de treinamento, e alcança uma perplexidade de validação final superior ou competitiva em todos os conjuntos de dados, estabelecendo-o como uma alternativa promissora e eficiente para a modelagem de sequências.
À medida que os modelos de linguagem de grande escala (LLMs) avançam em capacidades conversacionais e de raciocínio, sua aplicação prática na área da saúde tornou-se um foco crítico de pesquisa. No entanto, há uma lacuna significativa entre o desempenho de LLMs médicos em benchmarks estáticos, como o USMLE, e sua utilidade na tomada de decisões clínicas do mundo real. Essa discrepância ocorre porque os exames tradicionais não capturam a natureza dinâmica e interativa das consultas médicas. Para enfrentar esse desafio, introduzimos uma nova estrutura de verificação dinâmica que vai além de verificadores de respostas estáticos, estabelecendo um sistema de aprendizado por reforço interativo em larga escala e alta fidelidade. Nossa estrutura compreende dois componentes principais: um Simulador de Pacientes que cria ambientes clínicos realistas usando registros médicos desidentificados, e um Gerador de Rúbricas Clínicas que produz dinamicamente métricas de avaliação multidimensionais. Com base nessa fundação, desenvolvemos o Baichuan-M2, um modelo de raciocínio aumentado médico com 32 bilhões de parâmetros, treinado por meio de uma estratégia de aprendizado por reforço em múltiplos estágios com um algoritmo aprimorado de Otimização de Política Relativa de Grupo (GRPO). Avaliado no HealthBench, o Baichuan-M2 supera todos os outros modelos de código aberto e a maioria dos equivalentes avançados de código fechado, alcançando uma pontuação acima de 32 no desafiador benchmark HealthBench Hard — anteriormente superado apenas pelo GPT-5. Nosso trabalho demonstra que um sistema robusto de verificação dinâmica é essencial para alinhar as capacidades dos LLMs com aplicações clínicas práticas, estabelecendo uma nova fronteira de Pareto na relação entre desempenho e parâmetros para a implantação de IA médica.
Nos últimos anos, o desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs) avançou significativamente, estendendo suas capacidades para tarefas multimodais por meio de Modelos de Linguagem de Grande Escala Multimodais (MLLMs). No entanto, a compreensão de vídeos continua sendo uma área desafiadora devido à natureza dinâmica e rica em informações dos vídeos. Os modelos existentes lutam com o equilíbrio entre resolução espacial e cobertura temporal ao processar conteúdo de vídeo. Apresentamos o Keye-VL-1.5, que aborda desafios fundamentais na compreensão de vídeos por meio de três inovações principais. Primeiro, introduzimos uma nova estratégia de codificação de vídeo Slow-Fast que aloca dinamicamente recursos computacionais com base na similaridade entre quadros, processando quadros-chave com mudanças visuais significativas em alta resolução (caminho Slow) enquanto trata quadros relativamente estáticos com maior cobertura temporal em baixa resolução (caminho Fast). Segundo, implementamos uma metodologia de pré-treinamento progressivo em quatro estágios que estende sistematicamente o comprimento de contexto do modelo de 8K para 128K tokens, permitindo o processamento de vídeos mais longos e conteúdo visual mais complexo. Terceiro, desenvolvemos um pipeline abrangente de pós-treinamento focado no aprimoramento do raciocínio e no alinhamento com preferências humanas, incorporando um processo de construção de dados de cadeia de pensamento em 5 etapas, aprendizado por reforço iterativo baseado em GSPO com dicas progressivas de prompt para casos difíceis e treinamento de alinhamento. Por meio de avaliação extensa em benchmarks públicos e rigorosa avaliação humana interna, o Keye-VL-1.5 demonstra melhorias significativas em relação aos modelos existentes, destacando-se particularmente em tarefas de compreensão de vídeos enquanto mantém desempenho competitivo em benchmarks multimodais gerais.
Este artigo apresenta uma simplificação na arquitetura e no design de perda do OpenVision para melhorar sua eficiência de treinamento. Seguindo os trabalhos anteriores de pré-treinamento visão-linguagem CapPa e AIMv2, bem como designs multimodais modernos como o LLaVA, nossas alterações são diretas: removemos o codificador de texto (e, portanto, a perda contrastiva), mantendo apenas a perda de legendagem como um sinal de treinamento puramente generativo. Nomeamos esta nova versão como OpenVision 2. Os resultados iniciais são promissores: apesar dessa simplificação, o OpenVision 2 compete de forma equivalente ao desempenho do modelo original em um amplo conjunto de benchmarks multimodais, enquanto reduz substancialmente tanto o tempo de treinamento quanto o consumo de memória. Por exemplo, com o ViT-L/14, ele reduz o tempo de treinamento em cerca de 1,5x (de 83h para 57h) e o uso de memória em cerca de 1,8x (de 24,5GB para 13,8GB, permitindo que o tamanho máximo do lote aumente de 2k para 8k). Essa eficiência superior de treinamento também nos permite escalar muito além do maior codificador visual usado no OpenVision, atingindo mais de 1 bilhão de parâmetros. Acreditamos firmemente que esse paradigma leve e exclusivamente generativo é atraente para o desenvolvimento futuro de codificadores visuais em modelos de fundação multimodais.
O pós-treinamento de Modelos de Linguagem de Grande Escala (LMs) frequentemente prioriza precisão e utilidade em detrimento da diversidade. Isso cria uma tensão: embora o pós-treinamento melhore a qualidade das respostas, ele também afia as distribuições de saída e reduz a gama de ideias, limitando a utilidade dos LMs em tarefas criativas e exploratórias, como brainstorming, narrativa ou resolução de problemas. Abordamos esse desafio com o Aprendizado por Reforço Consciente da Diversidade (DARLING), um framework que otimiza conjuntamente a qualidade da resposta e a diversidade semântica. No cerne do DARLING, introduzimos uma função de partição aprendida para medir a diversidade além de variações lexicais superficiais. Esse sinal de diversidade é então combinado com uma recompensa de qualidade durante o aprendizado por reforço online, incentivando os modelos a gerar saídas que sejam tanto de alta qualidade quanto distintas. Experimentos em múltiplas famílias e tamanhos de modelos mostram que o DARLING generaliza para dois regimes: tarefas não verificáveis (seguimento de instruções e escrita criativa) e tarefas verificáveis (matemática competitiva). Em cinco benchmarks no primeiro cenário, o DARLING consistentemente supera baselines de RL focados apenas em qualidade, produzindo saídas que são simultaneamente de maior qualidade e novidade. No segundo cenário, o DARLING alcança maior pass@1 (qualidade da solução) e pass@k (variedade de soluções). Mais impressionantemente, otimizar explicitamente para diversidade catalisa a exploração no RL online, o que se manifesta como respostas de maior qualidade.
Avanços recentes em Aprendizado por Reforço com Recompensas Verificáveis (RLVR) têm capacitado grandes modelos de linguagem (LLMs) a enfrentar tarefas desafiadoras de raciocínio, como matemática e programação. O RLVR aproveita recompensas de resultados verificáveis para orientar a otimização de políticas, permitindo que os LLMs melhorem progressivamente a qualidade da saída de maneira fundamentada e confiável. Apesar de seu potencial, o paradigma RLVR apresenta desafios significativos, pois os métodos existentes frequentemente sofrem com sinais de recompensa esparsos e atualizações instáveis de gradiente de política, especialmente em abordagens baseadas em RL. Para enfrentar esses desafios, propomos o PACS, uma nova estrutura RLVR que alcança o acoplamento implícito entre Ator e Crítico por meio de uma estrutura de Aprendizado Supervisionado. Ao tratar a recompensa do resultado como um rótulo previsível, reformulamos o problema RLVR em uma tarefa de aprendizado supervisionado sobre uma função de pontuação parametrizada pelo modelo de política e otimizada usando perda de entropia cruzada. Uma análise detalhada do gradiente mostra que essa formulação supervisionada recupera intrinsecamente a atualização clássica do gradiente de política enquanto acopla implicitamente os papéis de ator e crítico, resultando em um treinamento mais estável e eficiente. Em benchmarks de tarefas desafiadoras de raciocínio matemático, o PACS supera as fortes baselines RLVR, como PPO e GRPO, alcançando desempenho superior de raciocínio. Por exemplo, o PACS atinge 59,78% em pass@256 no AIME 2025, representando melhorias de 13,32 e 14,36 pontos sobre PPO e GRPO. Essa estrutura simples, porém poderosa, oferece uma abordagem promissora para o pós-treinamento de LLMs com recompensas verificáveis. Nosso código e dados estão disponíveis como código aberto em https://github.com/ritzz-ai/PACS.
A composição de vídeo combina filmagens ao vivo para criar produções de vídeo, servindo como uma técnica crucial na criação de vídeos e produção cinematográfica. Os pipelines tradicionais exigem esforços intensivos de mão de obra e colaboração de especialistas, resultando em ciclos de produção longos e altos custos de mão de obra. Para resolver esse problema, automatizamos esse processo com modelos generativos, chamados de composição de vídeo generativa. Essa nova tarefa busca injetar de forma adaptativa informações de identidade e movimento de um vídeo em primeiro plano no vídeo alvo de maneira interativa, permitindo que os usuários personalizem o tamanho, a trajetória de movimento e outros atributos dos elementos dinâmicos adicionados no vídeo final. Especificamente, projetamos um novo pipeline de Transformador de Difusão (DiT) com base em suas propriedades intrínsecas. Para manter a consistência do vídeo alvo antes e depois da edição, revisamos um ramo leve de preservação de fundo baseado em DiT com injeção de tokens mascarados. Para herdar elementos dinâmicos de outras fontes, propomos um bloco de fusão DiT usando autoatenção completa, juntamente com uma ampliação simples, mas eficaz, de primeiro plano para treinamento. Além disso, para fundir vídeos de fundo e primeiro plano com layouts diferentes com base no controle do usuário, desenvolvemos uma nova incorporação de posição, chamada Incorporação de Posição Rotacional Estendida (ERoPE). Por fim, compilamos um conjunto de dados contendo 61 mil conjuntos de vídeos para nossa nova tarefa, chamada VideoComp. Esses dados incluem elementos dinâmicos completos e vídeos alvo de alta qualidade. Experimentos demonstram que nosso método realiza efetivamente a composição de vídeo generativa, superando as soluções existentes possíveis em fidelidade e consistência.
O recente desenvolvimento dos Modelos de Linguagem de Grande Escala (LLMs) tem sido acompanhado por uma efervescência de novas ideias e métodos para otimizar melhor a perda de modelos de aprendizado profundo. As alegações desses métodos são diversas: desde convergência mais rápida até a eliminação da dependência de certos hiperparâmetros. No entanto, os diversos protocolos experimentais utilizados para validar essas alegações tornam as comparações diretas entre os métodos desafiadoras. Este estudo apresenta uma avaliação abrangente de técnicas recentes de otimização em cenários padronizados de pré-treinamento de LLMs, variando sistematicamente o tamanho do modelo, o tamanho do lote e a duração do treinamento. Por meio de um ajuste cuidadoso de cada método, fornecemos orientações para profissionais sobre qual otimizador é mais adequado para cada cenário. Para pesquisadores, nosso trabalho destaca direções promissoras para futuras pesquisas em otimização. Por fim, ao disponibilizar nosso código e tornar todos os experimentos totalmente reproduzíveis, esperamos que nossos esforços possam contribuir para o desenvolvimento e a avaliação rigorosa de métodos futuros.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu como uma estrutura promissora para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala. No entanto, abordagens existentes, como o GRPO, frequentemente sofrem com gradientes nulos. Esse problema ocorre principalmente devido a limites fixos de corte para razões de probabilidade em nível de token e à padronização de recompensas idênticas, o que pode levar a atualizações de gradiente ineficazes e subutilização de respostas geradas. Neste trabalho, propomos a Otimização de Política com Corte Dinâmico (DCPO), que introduz uma estratégia de corte dinâmico que ajusta adaptativamente os limites de corte com base em probabilidades prévias específicas de cada token para melhorar a exploração em nível de token, e uma técnica de padronização suave de vantagem que padroniza as recompensas ao longo de etapas cumulativas de treinamento para melhorar a utilização efetiva em nível de resposta das respostas geradas. O DCPO alcançou desempenho de ponta em quatro benchmarks baseados em quatro modelos diferentes. Em particular, o DCPO obteve um Avg@1 de 46,7 sob decodificação gananciosa e um Avg@32 de 38,8 sob amostragem 32 vezes no benchmark AIME24, superando tanto o DAPO (36,7/31,6) quanto o GRPO (36,7/32,1) no modelo Qwen2.5-Math-7B. No benchmark AIME25 baseado no Qwen2.5-14B, o DCPO alcançou um desempenho de (23,3/19,0), superando o GRPO (13,3/10,5) e o DAPO (20,0/15,3). Além disso, o DCPO obteve uma melhoria média de 28% na vantagem não nula em relação ao GRPO em quatro modelos, dobrou a eficiência de treinamento em comparação ao DAPO e reduziu significativamente a taxa de corte de tokens em uma ordem de magnitude em relação ao GRPO e ao DAPO, ao mesmo tempo em que alcançou desempenho superior. Esses resultados destacam a eficácia do DCPO em aproveitar os dados gerados de forma mais eficiente para o aprendizado por reforço em modelos de linguagem de grande escala.
Agentes de interface gráfica (GUI) alimentados por LLMs mostram potencial para interagir com diversos ambientes digitais. Entre esses, os videogames oferecem um valioso campo de testes devido às suas interfaces variadas, com jogos de aventura apresentando desafios adicionais por meio de interações complexas e orientadas por narrativas. No entanto, os benchmarks de jogos existentes carecem de diversidade e raramente avaliam os agentes na conclusão de histórias completas. Para abordar essa lacuna, apresentamos o FlashAdventure, um benchmark composto por 34 jogos de aventura baseados em Flash, projetado para testar a conclusão de arcos narrativos completos e enfrentar a lacuna observação-comportamento: o desafio de lembrar e agir com base em informações anteriores do jogo. Também propomos o CUA-as-a-Judge, um avaliador automatizado de jogabilidade, e o COAST, uma estrutura agentiva que aproveita a memória de pistas de longo prazo para planejar e resolver tarefas sequenciais de forma mais eficaz. Experimentos mostram que os agentes de GUI atuais têm dificuldades com arcos narrativos completos, enquanto o COAST melhora a conclusão de marcos ao superar a lacuna observação-comportamento. No entanto, uma discrepância marcante entre humanos e os agentes de melhor desempenho justifica esforços contínuos de pesquisa para reduzir essa diferença.
Modelos guardiões são utilizados para supervisionar e moderar as saídas de chatbots voltados para usuários, aplicando salvaguardas e detectando comportamentos inadequados. Modelos guardiões padrão, como o LlamaGuard, detectam categorias de danos predefinidas e estáticas. Propomos modelos guardiões dinâmicos que avaliam textos com base em políticas definidas pelo usuário, tornando-os úteis para diferentes domínios de aplicação que não são abordados por modelos guardiões padrão. Nossos modelos guardiões dinâmicos podem ser usados para detecção rápida de violações de políticas ou com raciocínio em cadeia de pensamento que articula e justifica as saídas do modelo. Nossos modelos guardiões dinâmicos igualam os modelos estáticos em precisão de detecção para categorias de danos estáticos, enquanto identificam violações de políticas de forma livre com uma precisão comparável a modelos de raciocínio de ponta, em uma fração do tempo.
Os embeddings vetoriais têm sido encarregados de um conjunto cada vez maior de tarefas de recuperação ao longo dos anos, com um aumento recente em seu uso para raciocínio, seguimento de instruções, codificação e mais. Esses novos benchmarks pressionam os embeddings a funcionar para qualquer consulta e qualquer noção de relevância que possa ser dada. Embora trabalhos anteriores tenham apontado limitações teóricas dos embeddings vetoriais, há uma suposição comum de que essas dificuldades se devem exclusivamente a consultas irreais, e que aquelas que não são podem ser superadas com melhores dados de treinamento e modelos maiores. Neste trabalho, demonstramos que podemos encontrar essas limitações teóricas em cenários realistas com consultas extremamente simples. Conectamos resultados conhecidos na teoria da aprendizagem, mostrando que o número de subconjuntos top-k de documentos que podem ser retornados como resultado de alguma consulta é limitado pela dimensão do embedding. Mostramos empiricamente que isso se mantém verdadeiro mesmo se restringirmos a k=2, e otimizamos diretamente no conjunto de teste com embeddings parametrizados livres. Em seguida, criamos um conjunto de dados realista chamado LIMIT que testa modelos com base nesses resultados teóricos, e observamos que até mesmo modelos state-of-the-art falham nesse conjunto de dados, apesar da natureza simples da tarefa. Nosso trabalho mostra os limites dos modelos de embedding sob o paradigma atual de vetor único e pede por pesquisas futuras para desenvolver métodos que possam resolver essa limitação fundamental.
Os Modelos de Linguagem de Grande Escala (LLMs) se destacam na geração de dados sintéticos, mas garantir sua qualidade e diversidade continua sendo um desafio. Propomos o Genetic Prompt, uma nova estrutura que combina algoritmos genéticos com LLMs para aprimorar a geração de dados sintéticos. Nossa abordagem trata atributos semânticos de texto como sequências genéticas e utiliza o LLM para simular operações de cruzamento e mutação. Esse processo genético melhora a qualidade e a diversidade dos dados ao criar novas combinações de atributos, resultando em distribuições sintéticas mais próximas dos dados do mundo real. Para otimizar a seleção de pais, também integramos um esquema de aprendizado ativo que expande o espaço de busca da prole. Nossos experimentos em várias tarefas de PLN revelam várias descobertas importantes: o Genetic Prompt não apenas supera significativamente os métodos de referência mais avançados, mas também mostra um desempenho robusto em diversos tamanhos e escalas de modelos geradores. Além disso, demonstramos que a fusão de nossos dados sintéticos com o conjunto de treinamento original aumenta significativamente o desempenho do modelo downstream, especialmente em cenários com desequilíbrio de classes. Nossas descobertas validam que o Genetic Prompt é um método eficaz para produzir dados sintéticos de alta qualidade para uma ampla gama de aplicações de PLN.
Ferramentas de pesquisa profunda estão entre os sistemas agentivos mais impactantes e mais comumente encontrados atualmente. Observamos, no entanto, que cada agente de pesquisa profunda introduzido até agora é codificado de forma rígida para executar uma estratégia de pesquisa específica usando uma escolha fixa de ferramentas. Apresentamos o Universal Deep Research (UDR), um sistema agentivo generalista que envolve qualquer modelo de linguagem e permite ao usuário criar, editar e refinar suas próprias estratégias de pesquisa profunda totalmente personalizadas, sem a necessidade de treinamento adicional ou ajuste fino. Para demonstrar a generalidade do nosso sistema, equipamos o UDR com exemplos de estratégias de pesquisa mínima, expansiva e intensiva, e fornecemos uma interface de usuário para facilitar a experimentação com o sistema.
O AdamW tem sido o otimizador dominante no pré-treinamento de modelos de linguagem, apesar de inúmeras alegações de que otimizadores alternativos oferecem acelerações de 1,4 a 2x. Propomos que duas deficiências metodológicas têm obscurecido comparações justas e dificultado a adoção prática: (i) ajuste desigual de hiperparâmetros e (ii) configurações de avaliação limitadas ou enganosas. Para abordar essas duas questões, realizamos um estudo sistemático de dez otimizadores de aprendizado profundo em quatro escalas de modelos (0,1B-1,2B parâmetros) e proporções de dados para modelos (1-8x o ótimo de Chinchilla). Descobrimos que comparações justas e informativas exigem ajuste rigoroso de hiperparâmetros e avaliações em uma variedade de escalas de modelos e proporções de dados para modelos, realizadas ao final do treinamento. Primeiro, hiperparâmetros ótimos para um otimizador podem ser subótimos para outro, tornando a transferência cega de hiperparâmetros injusta. Segundo, a aceleração real de muitos otimizadores propostos em relação a baselines bem ajustadas é menor do que a alegada e diminui com o tamanho do modelo para apenas 1,1x em modelos com 1,2B parâmetros. Terceiro, comparar checkpoints intermediários antes de atingir os orçamentos de treinamento alvo pode ser enganoso, pois as classificações entre dois otimizadores podem inverter durante o treinamento devido ao decaimento da taxa de aprendizado. Através de nossa investigação minuciosa, descobrimos que todos os otimizadores mais rápidos, como Muon e Soap, usam matrizes como precondicionadores — multiplicando gradientes com matrizes em vez de escalares elemento a elemento. No entanto, a aceleração dos otimizadores baseados em matrizes é inversamente proporcional à escala do modelo, diminuindo de 1,4x sobre o AdamW para modelos com 0,1B parâmetros para meros 1,1x para modelos com 1,2B parâmetros.
A recuperação de imagens médicas é essencial para a tomada de decisões clínicas e pesquisas translacionais, dependendo de representações visuais discriminativas. No entanto, os métodos atuais permanecem fragmentados, baseando-se em arquiteturas e estratégias de treinamento separadas para dados médicos em 2D, 3D e baseados em vídeo. Esse design específico por modalidade dificulta a escalabilidade e inibe o desenvolvimento de representações unificadas. Para permitir o aprendizado unificado, organizamos um conjunto de dados de grande escala com múltiplas modalidades, composto por 867.653 amostras de imagens médicas, incluindo radiografias 2D e ultrassons, vídeos endoscópicos RGB e tomografias computadorizadas 3D. Utilizando esse conjunto de dados, treinamos o M3Ret, um codificador visual unificado sem qualquer personalização específica por modalidade. Ele aprende com sucesso representações transferíveis usando paradigmas de aprendizado auto-supervisionado (SSL) tanto generativos (MAE) quanto contrastivos (SimDINO). Nossa abordagem estabelece um novo estado da arte na recuperação zero-shot de imagem para imagem em todas as modalidades individuais, superando fortes baselines como o DINOv3 e o BMC-CLIP supervisionado por texto. Mais notavelmente, surge um forte alinhamento entre modalidades sem dados pareados, e o modelo generaliza para tarefas de ressonância magnética (MRI) não vistas, apesar de nunca ter observado MRI durante o pré-treinamento, demonstrando a generalizabilidade da auto-supervisão puramente visual para modalidades não vistas. Análises abrangentes validam ainda mais a escalabilidade de nossa estrutura em relação aos tamanhos do modelo e dos dados. Esses achados entregam um sinal promissor para a comunidade de imagens médicas, posicionando o M3Ret como um passo em direção a modelos de base para SSL visual na compreensão de imagens médicas multimodais.
Modelos de Linguagem de Grande Escala (LLMs) alcançam desempenho de medalha de ouro em diversos benchmarks, mas ainda não está claro se tal sucesso reflete um raciocínio genuíno ou apenas correspondência de padrões. Sob a perspectiva da ciência cognitiva, um teste informativo é verificar se os modelos podem dominar uma linguagem desconhecida por meio de aprendizado dedutivo metalinguístico explícito, um paradigma no qual aprendizes humanos conseguem internalizar sistemas gramaticais de forma confiável através do raciocínio metalinguístico. Abordamos essa questão com o Camlang, uma nova linguagem construída que exibe combinações de características naturalistas, porém não atestadas. O Camlang consiste em dois recursos explícitos: um livro de gramática e um dicionário bilíngue, que espelham o aprendizado de segunda língua por adultos por meio de regras gramaticais explícitas e consulta lexical, permitindo-nos distinguir erros em morfossintaxe, semântica lexical e raciocínio em nível de sentença. Experimentos com humanos mostram que esses recursos são suficientes para que os participantes adquiram o Camlang e resolvam tarefas relacionadas com sucesso. Para operacionalizar a avaliação, adaptamos o CommonsenseQA para o Camlang, criando o Camlang-CSQA-v0, a primeira tarefa de um conjunto mais amplo onde a resolução de questões requer a aplicação de regras gramaticais e mapeamentos lexicais. Resultados experimentais mostram que o GPT-5 alcança 98% de precisão EM (Exact Match) em inglês, mas apenas 47% em Camlang, muito abaixo do desempenho humano de 87%, enquanto outros LLMs de ponta para raciocínio têm desempenho ainda pior. A verificação humana revela ainda que a maioria dos sucessos dos modelos decorre de alinhamento lexical superficial, enquanto o GPT-5 mostra um incipiente nível de consciência metalinguística, mas não o domínio gramatical sistemático observado em humanos. O Camlang estabelece um paradigma de avaliação cognitivamente fundamentado que expõe lacunas fundamentais entre os modelos atuais e a competência metalinguística humana.
Converter consultas em linguagem natural para consultas SQL é um desafio crucial tanto na indústria quanto na academia, visando aumentar o acesso a bancos de dados e aplicações em larga escala. Este trabalho examina como o aprendizado em contexto e a cadeia de pensamento podem ser utilizados para desenvolver uma solução robusta para sistemas de texto para SQL. Propomos o SQL-of-Thought: uma estrutura multiagente que decompõe a tarefa Text2SQL em vinculação de esquema, identificação de subproblemas, geração de plano de consulta, geração de SQL e um loop de correção guiada. Diferente de sistemas anteriores que dependem apenas de correção estática baseada em execução, introduzimos modificação dinâmica de erros guiada por taxonomia, informada pelo aprendizado em contexto. O SQL-of-Thought alcança resultados de ponta no conjunto de dados Spider e suas variantes, combinando taxonomia de erros guiada com planejamento de consulta baseado em raciocínio.
Apresentamos o ViSTA-SLAM como um sistema de SLAM visual monocular em tempo real que opera sem a necessidade de intrínsecos da câmera, tornando-o amplamente aplicável em diversas configurações de câmera. No núcleo do sistema, é empregado um modelo leve de associação simétrica de duas vistas (STA) como frontend, que estima simultaneamente as poses relativas da câmera e regressa mapas de pontos locais a partir de apenas duas imagens RGB. Esse design reduz significativamente a complexidade do modelo, com o tamanho do nosso frontend sendo apenas 35% dos métodos state-of-the-art comparáveis, ao mesmo tempo em que melhora a qualidade das restrições de duas vistas utilizadas no pipeline. No backend, construímos um grafo de poses Sim(3) especialmente projetado que incorpora fechamentos de loop para lidar com o desvio acumulado. Experimentos extensivos demonstram que nossa abordagem alcança desempenho superior tanto no rastreamento da câmera quanto na qualidade de reconstrução 3D densa em comparação com os métodos atuais. Repositório Github: https://github.com/zhangganlin/vista-slam
Com o rápido avanço dos Modelos de Visão-Linguagem (VLMs), os agentes móveis baseados em GUI emergiram como uma direção-chave de desenvolvimento para sistemas móveis inteligentes. No entanto, os modelos de agentes existentes continuam enfrentando desafios significativos na execução de tarefas do mundo real, especialmente em termos de precisão e eficiência. Para abordar essas limitações, propomos o MobiAgent, um sistema abrangente de agentes móveis composto por três componentes principais: os modelos de agentes da série MobiMind, o framework de aceleração AgentRR e o conjunto de benchmarks MobiFlow. Além disso, reconhecendo que as capacidades dos agentes móveis atuais ainda são limitadas pela disponibilidade de dados de alta qualidade, desenvolvemos um pipeline ágil de coleta de dados assistido por IA que reduz significativamente o custo da anotação manual. Em comparação com LLMs de propósito geral e modelos especializados de agentes GUI, o MobiAgent alcança desempenho de ponta em cenários móveis do mundo real.
Modelos autoregressivos visuais (VAR) surgiram recentemente como uma classe promissora de modelos generativos, alcançando desempenho comparável aos modelos de difusão em tarefas de geração de texto para imagem. Embora a geração condicional tenha sido amplamente explorada, a capacidade de realizar edição de imagens guiada por prompts sem treinamento adicional é igualmente crucial, pois suporta inúmeras aplicações práticas do mundo real. Este artigo investiga as capacidades de edição de texto para imagem dos modelos VAR, introduzindo o Visual AutoRegressive Inverse Noise (VARIN), a primeira técnica de edição baseada em inversão de ruído projetada explicitamente para modelos VAR. O VARIN utiliza uma nova função pseudo-inversa para amostragem argmax, denominada Location-aware Argmax Inversion (LAI), para gerar ruídos inversos de Gumbel. Esses ruídos inversos permitem a reconstrução precisa da imagem original e facilitam edições direcionadas e controláveis alinhadas com prompts textuais. Experimentos extensivos demonstram que o VARIN modifica efetivamente as imagens originais de acordo com os prompts especificados, preservando significativamente o fundo original e os detalhes estruturais, validando assim sua eficácia como uma abordagem prática de edição.
Este trabalho identifica distribuições de parâmetros anisotrópicas como uma barreira fundamental para o treinamento de modelos de linguagem de grande escala (LLMs) com quantização de baixa precisão: alguns valores singulares dominantes criam intervalos numéricos amplos que entram em conflito com o viés inerente da quantização em blocos. Esse viés preserva desproporcionalmente valores de alta magnitude enquanto descarta os menores, causando instabilidade no treinamento e baixo desempenho do modelo. Este trabalho introduz Metis, um framework de treinamento que combina (i) decomposição espectral com incorporação aleatória para desentrelaçar eficientemente componentes dominantes da cauda longa, comprimindo distribuições amplas em intervalos estreitos adequados para quantização; (ii) taxas de aprendizado adaptativas no domínio espectral para amplificar direções sub-representadas e capturar melhor características diversas críticas para o desempenho; e (iii) um regularizador de duplo intervalo que restringe conjuntamente a precisão numérica e a distribuição do intervalo de parâmetros, garantindo um treinamento estável e imparcial com baixa precisão. Com Metis, o treinamento em FP8 supera as linhas de base em FP32, e o treinamento em FP4 alcança precisão comparável à FP32, abrindo caminho para o treinamento robusto e escalável de LLMs sob quantização avançada de baixa precisão. A implementação do código para Metis está disponível em: https://github.com/typename-yyf/Metis-quantization.
Apresentamos o Flavors of Moonshine, um conjunto de modelos compactos de reconhecimento automático de fala (ASR) especializados para uma variedade de idiomas sub-representados. A sabedoria predominante sugere que modelos ASR multilíngues superam suas contrapartes monolíngues ao explorar similaridades fonéticas entre idiomas. Desafiamos essa suposição, demonstrando que, para modelos suficientemente pequenos (27 milhões de parâmetros), o treinamento de sistemas monolíngues com uma mistura cuidadosamente balanceada de dados de alta qualidade rotulados por humanos, pseudo-rotulados e sintéticos resulta em um desempenho substancialmente superior. Em média, nossos modelos alcançam taxas de erro 48% menores que o modelo Whisper Tiny de tamanho comparável, superam o modelo Whisper Small, que é 9 vezes maior, e, na maioria dos casos, igualam ou superam o modelo Whisper Medium, que é 28 vezes maior. Esses resultados avançam o estado da arte para modelos desse tamanho, permitindo ASR preciso em dispositivos para idiomas que anteriormente tinham suporte limitado. Lançamos os modelos Moonshine para árabe, chinês, japonês, coreano, ucraniano e vietnamita sob uma licença de código aberto permissiva.
Modelos de Linguagem de Grande Escala (LLMs) podem refletir inadvertidamente os vieses sociais presentes em seus dados de treinamento, levando a saídas prejudiciais ou preconceituosas. No contexto indiano, nossas avaliações empíricas em uma série de modelos revelam que os vieses relacionados a casta e religião são particularmente salientes. No entanto, a maioria das estratégias de mitigação existentes são centradas no Ocidente e falham em abordar essas nuances locais. Propomos AMBEDKAR, um framework inspirado na visão igualitária do Dr. B. R. Ambedkar, arquiteto da Constituição Indiana, para orientar as saídas dos LLMs em direção à justiça, neutralidade e inclusão, alinhadas com os Artigos 14 a 17. Nossa abordagem introduz uma Camada de Decodificação Consciente da Constituição, guiada pela Constituição de IA da Índia e aplicada apenas no momento da inferência, sem atualizações de parâmetros no modelo base. Incorporamos um algoritmo de decodificação especulativa que reduz proativamente o viés de casta e comunal durante a geração. Essa camada de mitigação opera diretamente dentro do processo de decodificação, evitando alterações nos internos do modelo e reduzindo os custos computacionais e de infraestrutura associados ao retreinamento. Reinterpretamos a decodificação especulativa não apenas como uma ferramenta de eficiência, mas como um mecanismo para justiça. Neste framework, um Modelo de Linguagem Pequeno (SLM) atua como um gerador potencialmente tendencioso, enquanto um Modelo de Linguagem de Grande Escala (LLM) guiado constitucionalmente serve como verificador. Em vez de acelerar a geração, o LLM impõe trajetórias robustas contra vieses nas saídas do SLM. Essa inversão de papéis dá origem a um paradigma de justiça por especulação. Nossa abordagem resulta em uma redução absoluta de viés de até 26,41% em comparação com a linha de base. Nosso código-fonte, conjuntos de dados e resultados estão disponíveis em https://anonymous.4open.science/r/AMBEDKAR-983B/.
A sensibilidade ao prompt, referindo-se ao fenômeno em que a paráfrase (ou seja, repetir algo escrito ou falado usando palavras diferentes) leva a mudanças significativas no desempenho de modelos de linguagem de grande escala (LLMs), tem sido amplamente aceita como uma limitação central dos LLMs. Neste trabalho, revisitamos essa questão e perguntamos: A alta sensibilidade ao prompt amplamente relatada é realmente uma fraqueza inerente dos LLMs, ou é em grande parte um artefato dos processos de avaliação? Para responder a essa pergunta, avaliamos sistematicamente 7 LLMs (por exemplo, as famílias GPT e Gemini) em 6 benchmarks, incluindo tarefas de múltipla escolha e de resposta aberta, utilizando 12 modelos de prompt diversos. Descobrimos que grande parte da sensibilidade ao prompt decorre de métodos de avaliação heurísticos, incluindo pontuação de log-verossimilhança e correspondência rígida de respostas, que frequentemente ignoram respostas semanticamente corretas expressas por meio de formulações alternativas, como sinônimos ou paráfrases. Quando adotamos avaliações do tipo LLM-como-Juiz, observamos uma redução substancial na variância de desempenho e uma correlação consistentemente maior nas classificações dos modelos entre diferentes prompts. Nossos achados sugerem que os LLMs modernos são mais robustos a modelos de prompt do que se acreditava anteriormente, e que a sensibilidade ao prompt pode ser mais um artefato da avaliação do que uma falha nos modelos.
A segmentação precisa de órgãos e tumores em exames de TC e ressonância magnética é essencial para diagnóstico, planejamento de tratamento e monitoramento de doenças. Embora o aprendizado profundo tenha avançado a segmentação automatizada, a maioria dos modelos permanece específica para tarefas, carecendo de generalização entre modalidades e instituições. Modelos de base de visão (FMs) pré-treinados em bilhões de imagens naturais oferecem representações poderosas e transferíveis. No entanto, adaptá-los à imagem médica enfrenta dois desafios principais: (1) o backbone ViT da maioria dos modelos de base ainda tem desempenho inferior a CNNs especializadas na segmentação de imagens médicas, e (2) a grande diferença de domínio entre imagens naturais e médicas limita a transferibilidade. Apresentamos o MedDINOv3, uma estrutura simples e eficaz para adaptar o DINOv3 à segmentação médica. Primeiro, revisitamos ViTs simples e projetamos uma arquitetura eficaz com agregação de tokens em múltiplas escalas. Em seguida, realizamos pré-treinamento adaptativo ao domínio no CT-3M, uma coleção curada de 3,87 milhões de cortes axiais de TC, usando uma receita multiestágio do DINOv3 para aprender características densas robustas. O MedDINOv3 iguala ou supera o desempenho de ponta em quatro benchmarks de segmentação, demonstrando o potencial dos modelos de base de visão como backbones unificados para segmentação de imagens médicas. O código está disponível em https://github.com/ricklisz/MedDINOv3.
Os métodos tradicionais de alinhamento para Grandes Modelos de Visão e Linguagem (LVLMs) dependem principalmente de dados de preferência curados por humanos. Dados de preferência gerados por humanos são custosos; dados de preferência gerados por máquinas são limitados em qualidade; e dados de preferência auto-supervisionados frequentemente introduzem alucinações. Para superar essas limitações, propomos uma nova estrutura de aprendizado chamada Panel-of-Peers, inspirada na aprendizagem colaborativa entre humanos. Essa abordagem aproveita um painel de LVLMs, onde cada modelo avalia e aprende com as saídas coletivas por meio de um processo iterativo de autoaperfeiçoamento. Ao simular um sistema de revisão por pares, nossos modelos geram, avaliam e refinam saídas em resposta a um conjunto curado de prompts, imitando um ambiente de aprendizado em sala de aula. Demonstramos que essa metodologia melhora o desempenho do modelo sem exigir conjuntos de dados extensivamente rotulados por humanos. Nossos experimentos mostram melhorias significativas em múltiplos benchmarks, evidenciando o potencial das avaliações por pares como uma alternativa escalável ao alinhamento auto-supervisionado. Notavelmente, mostramos que o Panel-of-Peers aumenta a pontuação média em quinze benchmarks de 48% para 57%.
O aprendizado de nuvens de pontos, especialmente de forma auto-supervisionada sem rótulos manuais, tem ganhado crescente atenção tanto nas comunidades de visão quanto de aprendizado devido ao seu potencial de utilidade em uma ampla gama de aplicações. A maioria das abordagens generativas existentes para aprendizado auto-supervisionado de nuvens de pontos concentra-se em recuperar pontos mascarados a partir dos visíveis em uma única visão. Reconhecendo que um paradigma de pré-treinamento com duas visões introduz inerentemente maior diversidade e variância, ele pode, portanto, permitir um pré-treinamento mais desafiador e informativo. Inspirados por isso, exploramos o potencial do aprendizado com duas visões neste domínio. Neste artigo, propomos o Point-PQAE, um paradigma generativo de reconstrução cruzada que primeiro gera duas nuvens de pontos/visões desacopladas e depois reconstrói uma a partir da outra. Para alcançar esse objetivo, desenvolvemos um mecanismo de corte para geração de visões de nuvens de pontos pela primeira vez e ainda propomos uma nova codificação posicional para representar a posição relativa 3D entre as duas visões desacopladas. A reconstrução cruzada aumenta significativamente a dificuldade do pré-treinamento em comparação com a auto-reconstrução, o que permite que nosso método supere os métodos anteriores de auto-reconstrução unimodal no aprendizado auto-supervisionado 3D. Especificamente, ele supera a linha de base de auto-reconstrução (Point-MAE) em 6,5%, 7,0% e 6,7% em três variantes do ScanObjectNN com o protocolo de avaliação Mlp-Linear. O código está disponível em https://github.com/aHapBean/Point-PQAE.
A justiça em sistemas de recomendação (RSs) é comumente categorizada em justiça de grupo e justiça individual. No entanto, não há um entendimento científico estabelecido sobre a relação entre esses dois tipos de justiça, uma vez que trabalhos anteriores sobre ambos os tipos utilizaram medidas de avaliação ou objetivos de avaliação diferentes para cada tipo de justiça, não permitindo uma comparação adequada entre os dois. Como resultado, atualmente não se sabe como o aumento de um tipo de justiça pode afetar o outro. Para preencher essa lacuna, estudamos a relação entre justiça de grupo e justiça individual por meio de uma comparação abrangente de medidas de avaliação que podem ser usadas para ambos os tipos de justiça. Nossos experimentos com 8 execuções em 3 conjuntos de dados mostram que recomendações altamente justas para grupos podem ser muito injustas para indivíduos. Nossa descoberta é nova e útil para profissionais de RS que buscam melhorar a justiça de seus sistemas. Nosso código está disponível em: https://github.com/theresiavr/stairway-to-fairness.
Apesar de seu grande potencial, a tecnologia de experimentação virtual é impedida de aplicação no mundo real por dois grandes desafios: a incapacidade dos métodos atuais de suportar composições de roupas com múltiplas referências (incluindo peças de vestuário e acessórios) e sua significativa ineficiência causada pela recomputação redundante de características de referência em cada etapa de remoção de ruído. Para enfrentar esses desafios, propomos o FastFit, um framework de experimentação virtual de múltiplas referências de alta velocidade baseado em uma nova arquitetura de difusão com cache. Ao empregar um mecanismo de Semi-Atenção e substituir as incorporações tradicionais de timestep por incorporações de classe para itens de referência, nosso modelo desacopla completamente a codificação de características de referência do processo de remoção de ruído com sobrecarga de parâmetros insignificante. Isso permite que as características de referência sejam calculadas apenas uma vez e reutilizadas sem perdas em todas as etapas, quebrando fundamentalmente o gargalo de eficiência e alcançando uma aceleração média de 3,5x em relação a métodos comparáveis. Além disso, para facilitar a pesquisa em experimentação virtual complexa com múltiplas referências, introduzimos o DressCode-MR, um novo conjunto de dados em larga escala. Ele compreende 28.179 conjuntos de imagens de alta qualidade e pareadas, cobrindo cinco categorias principais (partes de cima, partes de baixo, vestidos, sapatos e bolsas), construídos por meio de um pipeline de modelos especializados e refinamento com feedback humano. Experimentos extensivos nos conjuntos de dados VITON-HD, DressCode e nosso DressCode-MR mostram que o FastFit supera os métodos state-of-the-art em métricas-chave de fidelidade, ao mesmo tempo em que oferece sua vantagem significativa em eficiência de inferência.
A detecção de objetos em nível refinado em domínios visuais desafiadores, como a avaliação de danos em veículos, apresenta um desafio formidável até mesmo para especialistas humanos resolverem de forma confiável. Embora o DiffusionDet tenha avançado o estado da arte por meio de difusão condicional de remoção de ruído, seu desempenho permanece limitado pelo condicionamento de características locais em cenários dependentes de contexto. Nós abordamos essa limitação fundamental introduzindo o Context-Aware Fusion (CAF), que aproveita mecanismos de atenção cruzada para integrar diretamente o contexto global da cena com as características das propostas locais. O contexto global é gerado usando um codificador dedicado separado que captura informações ambientais abrangentes, permitindo que cada proposta de objeto atente para o entendimento em nível de cena. Nosso framework aprimora significativamente o paradigma de detecção generativa ao permitir que cada proposta de objeto atente para informações ambientais abrangentes. Resultados experimentais demonstram uma melhoria em relação aos modelos de última geração no benchmark CarDD, estabelecendo novos marcos de desempenho para detecção de objetos consciente do contexto em domínios de nível refinado.