Artigos de pesquisa em IA selecionados diariamente com traduções
Com o rápido avanço da compreensão de vídeo, os benchmarks existentes estão a tornar-se cada vez mais saturados, expondo uma discrepância crítica entre as pontuações inflacionadas nos rankings e as capacidades reais dos modelos no mundo real. Para enfrentar este fosso crescente, apresentamos o Video-MME-v2, um benchmark abrangente concebido para avaliar rigorosamente a robustez e a fidelidade da compreensão de vídeo. Para avaliar sistematicamente as capacidades dos modelos, concebemos uma hierarquia progressiva de três níveis que aumenta incrementalmente a complexidade da compreensão de vídeo, indo desde a agregação de informação visual multi-ponto, passando pela modelação da dinâmica temporal, e culminando no raciocínio multimodal complexo. Além disso, em contraste com a precisão por questão convencional, propomos uma estratégia de avaliação não linear baseada em grupos que exige tanto a consistência entre consultas relacionadas como a coerência no raciocínio multi-etapas. Esta estratégia penaliza a correção fragmentada ou baseada em palpites e atribui crédito apenas a respostas suportadas por um raciocínio válido. Para garantir a qualidade dos dados, o Video-MME-v2 é construído através de um pipeline de anotação humana rigorosamente controlado, envolvendo 12 anotadores e 50 revisores independentes. Suportado por 3.300 horas-humana e até 5 rondas de garantia de qualidade, o Video-MME-v2 visa servir como um dos benchmarks de vídeo mais autoritativos. Experiências extensivas revelam um fosso substancial entre o atual melhor modelo, o Gemini-3-Pro, e os especialistas humanos, e descobrem um claro estrangulamento hierárquico onde os erros na agregação de informação visual e na modelação temporal se propagam, limitando o raciocínio de alto nível. Verificamos ainda que o raciocínio baseado no pensamento é altamente dependente de pistas textuais, melhorando o desempenho com legendas, mas por vezes degradando-o em contextos puramente visuais. Ao expor estas limitações, o Video-MME-v2 estabelece um novo e exigente campo de testes para o desenvolvimento da próxima geração de MLLMs de vídeo.
Os modelos de linguagem de grande porte estão sendo cada vez mais implantados como agentes autônomos que executam fluxos de trabalho multi-etapa em ambientes de software do mundo real. No entanto, os benchmarks existentes para agentes apresentam três limitações críticas: (1) avaliação opaca de trajetórias que verifica apenas os resultados finais, (2) subespecificação da avaliação de segurança e robustez, e (3) cobertura modal e paradigmas de interação limitados. Apresentamos o Claw-Eval, um conjunto de avaliação end-to-end que aborda todas as três lacunas. Ele compreende 300 tarefas verificadas por humanos, abrangendo 9 categorias em três grupos (orquestração geral de serviços, percepção e geração multimodal, e diálogo profissional multi-turno). Cada ação do agente é registrada através de três canais independentes de evidência (traços de execução, logs de auditoria e capturas de estado do ambiente), permitindo uma avaliação consciente da trajetória com base em 2.159 critérios de avaliação refinados. O protocolo de pontuação avalia Conclusão, Segurança e Robustez, reportando Pontuação Média, Pass@k e Pass^k em três tentativas para distinguir capacidade genuína de resultados fortuitos. Experimentos com 14 modelos de fronteira revelam que: (1) a avaliação opaca de trajetórias é sistematicamente não confiável, deixando de capturar 44% das violações de segurança e 13% das falhas de robustez que nosso pipeline híbrido identifica; (2) a injeção controlada de erros degrada primariamente a consistência em vez do pico de capacidade, com o Pass^k caindo até 24% enquanto o Pass@k permanece estável; (3) o desempenho multimodal varia drasticamente, com a maioria dos modelos apresentando desempenho inferior em vídeo comparado a documento ou imagem, e nenhum modelo único se destacando em todas as modalidades. Para além da avaliação comparativa, o Claw-Eval destaca direções acionáveis para o desenvolvimento de agentes, lançando luz sobre o que é necessário para construir agentes que não são apenas capazes, mas também confiáveis para implantação.
Os sistemas de recuperação de informação (RI) foram tradicionalmente concebidos e treinados para utilizadores humanos, com os métodos de aprendizagem para ordenação (learning-to-rank) a dependerem fortemente de registos de interação humana em larga escala, como cliques e tempo de permanência. No entanto, com o rápido surgimento de agentes de pesquisa baseados em grandes modelos de linguagem (LLM), a recuperação é cada vez mais consumida por agentes em vez de seres humanos, e está integrada como um componente central dentro de ciclos de raciocínio e ação multi-turn. Neste contexto, os modelos de recuperação treinados sob pressupostos centrados no humano exibem um desajuste fundamental com a forma como os agentes emitem consultas e consomem resultados. Neste trabalho, argumentamos que os modelos de recuperação para pesquisa agentiva devem ser treinados diretamente a partir de dados de interação de agentes. Introduzimos a aprendizagem para recuperar a partir de trajetórias de agentes como um novo paradigma de treino, onde a supervisão é derivada de interações multi-etapa dos agentes. Através de uma análise sistemática das trajetórias dos agentes de pesquisa, identificamos sinais comportamentais-chave que revelam a utilidade dos documentos, incluindo ações de navegação, rejeições não navegadas e traços de raciocínio pós-navegação. Guiados por estas perceções, propomos o LRAT, um quadro simples mas eficaz que extrai supervisão de recuperação de alta qualidade a partir de trajetórias de agentes e incorpora intensidade de relevância através de otimização ponderada. Experiências extensivas em benchmarks de pesquisa profunda, tanto dentro como fora do domínio, demonstram que os recuperadores treinados com LRAT melhoram consistentemente a recuperação de evidências, o sucesso de tarefas de ponta a ponta e a eficiência de execução em diversas arquiteturas e escalas de agentes. Os nossos resultados destacam as trajetórias de agentes como uma fonte de supervisão prática e escalável, apontando para uma direção promissora para a recuperação na era da pesquisa agentiva.
A seleção de candidatos de código gerado por LLM usando testes gerados por LLM é desafiadora porque os próprios testes podem estar incorretos. Os métodos existentes ou tratam todos os testes igualmente ou dependem de heurísticas ad-hoc para filtrar testes não confiáveis. No entanto, determinar a correção dos testes requer saber quais códigos estão corretos, criando uma dependência circular. Nossa principal percepção é que não precisamos determinar a correção do teste: os votos dos testes devem classificar, não apenas contar. O que importa não é quantos códigos passam em um teste, mas se o teste consegue distinguir o código correto do incorreto. Quebramos a dependência circular através da avaliação leave-one-out: retira-se um teste, classifica-se os códigos pelos seus scores agregados em todos os testes restantes e mede-se se o padrão de aprovação/reprovação do teste retirado concorda com esta classificação. Formalizamos este acordo como a AUC leave-one-out (LOO-AUC) e provamos que a LOO-AUC esperada é proporcional à capacidade de cada teste de separar código correto de incorreto. Com base nisto, propomos o ACES (AUC ConsistEncy Scoring) com duas variantes complementares: o ACES-C fornece pesos de forma fechada que comprovadamente aproximam o oráculo em expectativa sob uma suposição branda sobre a qualidade média do teste; o ACES-O descarta esta suposição e otimiza iterativamente um objetivo LOO-AUC diferenciável. Ambos operam apenas na matriz binária de aprovação com sobrecarga insignificante e alcançam o estado da arte em Pass@k em múltiplos benchmarks de geração de código.
A descoberta autônoma de bugs continua a ser um desafio significativo no desenvolvimento de software moderno. Em comparação com a geração de código, a complexidade dos ambientes de execução dinâmicos torna a descoberta de bugs consideravelmente mais difícil para os grandes modelos de linguagem (LLMs). Neste artigo, adotamos o desenvolvimento de jogos como um domínio representativo e introduzimos o *Game Benchmark for Quality Assurance* (GBQA), um benchmark que contém 30 jogos e 124 bugs verificados por humanos em três níveis de dificuldade, para avaliar se os LLMs podem detetar bugs de software de forma autónoma. O benchmark é construído usando um sistema multiagente que desenvolve jogos e injeta bugs de maneira escalável, com especialistas humanos no ciclo para garantir a correção. Além disso, fornecemos um agente interativo de base equipado com um ciclo ReAct multi-iteração e um mecanismo de memória, permitindo uma exploração de longo horizonte de ambientes de jogo para deteção de bugs em diferentes LLMs. Experiências extensas com LLMs de vanguarda demonstram que a descoberta autónoma de bugs continua a ser altamente desafiadora: o modelo com melhor desempenho, o Claude-4.6-Opus em modo de pensamento, identifica apenas 48,39% dos bugs verificados. Acreditamos que o GBQA fornece um campo de teste e um critério de avaliação adequados, e que novos progressos nele ajudarão a reduzir a lacuna na engenharia de software autónoma.
Apresentamos o ThinkTwice, uma estrutura simples de duas fases que otimiza conjuntamente LLMs para resolver problemas de raciocínio e refinar as respostas, baseada na Otimização de Política Relativa de Grupo (GRPO). Em cada par de etapas de treinamento, o ThinkTwice primeiro otimiza o modelo na resolução de problemas de raciocínio e, em seguida, otimiza-o no refinamento de suas próprias soluções para os mesmos problemas, utilizando a mesma recompensa binária de correção em ambas as fases, sem sinais de correção ou anotações de crítica. Em cinco benchmarks de raciocínio matemático e duas famílias de modelos, incluindo Qwen3-4B e Olmo3-7B, o ThinkTwice melhora substancialmente o desempenho tanto no raciocínio quanto no refinamento em comparação com linhas de base competitivas de otimização de política online. Especificamente, no Qwen3-4B, o ThinkTwice supera o GRPO no AIME em 5 pontos percentuais antes do refinamento e em 11,5 pontos após uma etapa de autorrefinamento, medido por pass@4. A análise da dinâmica de treinamento do ThinkTwice revela um currículo implícito de retificar-e-fortificar: o refinamento predominantemente corrige erros no início do treinamento e muda naturalmente para a preservação de soluções já corretas à medida que o modelo melhora, produzindo um sinal de recompensa mais retificado. Nosso trabalho estabelece o treinamento conjunto de raciocínio e autorrefinamento como uma metodologia fundamentada e eficaz para RLVR.
Apresentamos Vanast, uma estrutura unificada que gera vídeos de animação humana com transferência de roupa diretamente a partir de uma única imagem humana, imagens da peça de vestuário e um vídeo de orientação de pose. Os pipelines convencionais de dois estágios tratam a prova virtual baseada em imagem e a animação orientada por pose como processos separados, o que frequentemente resulta em desvio de identidade, distorção da roupa e inconsistência frente-verso. Nosso modelo aborda essas questões realizando todo o processo em uma única etapa unificada para alcançar uma síntese coerente. Para viabilizar essa configuração, construímos uma supervisão tripla em larga escala. Nosso pipeline de geração de dados inclui a geração de imagens humanas com preservação de identidade em trajes alternativos que diferem das imagens de catálogo de roupas, a captura de trios completos de peças superiores e inferiores para superar a limitação de pares vídeo-posa de peça única, e a montagem de trios diversos do mundo real sem exigir imagens de catálogo de roupas. Introduzimos ainda uma arquitetura de Módulo Duplo para transformadores de difusão de vídeo para estabilizar o treinamento, preservar a qualidade generativa pré-treinada e melhorar a precisão da roupa, a aderência à pose e a preservação da identidade, enquanto suporta interpolação de roupa zero-shot. Juntas, essas contribuições permitem que o Vanast produza animação de alta fidelidade e consistente em identidade em uma ampla gama de tipos de vestuário.
Em cenários reais de Raciocínio Integrado a Ferramentas (TIR), nos quais os LLMs intercalam raciocínio com chamadas a ferramentas externas, uma das principais fontes de ineficiência é o facto de essas chamadas criarem pausas entre os pedidos ao LLM e causarem a libertação da KV-Cache, forçando a sua recomputação. Adicionalmente, as respostas longas e não filtradas devolvidas pelas ferramentas externas inflacionam a KV-Cache, fazendo com que cada passo de descodificação gaste mais tempo a carregar a cache crescente e, assim, se torne progressivamente mais lento à medida que o contexto aumenta. No entanto, as métricas de eficiência existentes, como contagens de tokens e contagens de chamadas a ferramentas, não conseguem capturar a latência real da inferência do modelo. Para resolver isto, introduzimos o PTE (Equivalentes de Tokens de Pré-preenchimento), uma métrica de eficiência de TIR consciente do *hardware* que unifica os custos de raciocínio interno e de uso de ferramentas externas, contabilizando explicitamente a KV-Cache não reutilizável e os cenários de respostas longas de ferramentas. A validação num ambiente industrial de alta concorrência indica que o PTE se alinha significativamente melhor com a latência de tempo real do que as contagens padrão de tokens, mantendo classificações de eficiência consistentes em diversos perfis de *hardware*. Realizamos experiências extensas em cinco benchmarks de TIR, quantificamos os seus custos em PTE e identificamos quatro padrões de ineficiência que surgem no TIR. Também descobrimos que trajetórias com custos de PTE mais elevados tendem a ter uma correção de raciocínio mais baixa, indicando que simplesmente usar mais ferramentas não melhora a qualidade da resposta.
Apresentamos o MegaTrain, um sistema centrado na memória que treina eficientemente modelos de linguagem grandes com 100 bilhões ou mais de parâmetros, em precisão total, em uma única GPU. Diferente dos sistemas tradicionais centrados na GPU, o MegaTrain armazena parâmetros e estados do otimizador na memória hospedeira (memória da CPU) e trata as GPUs como unidades de computação transitórias. Para cada camada, transmitimos os parâmetros para dentro e calculamos os gradientes para fora, minimizando o estado persistente no dispositivo. Para combater o gargalo de largura de banda entre CPU e GPU, adotamos duas otimizações principais. 1) Introduzimos um motor de execução pipeline com double-buffering que sobrepõe a pré-busca de parâmetros, a computação e o descarregamento de gradientes através de múltiplos fluxos CUDA, permitindo execução contínua na GPU. 2) Substituímos grafos de autograd persistentes por modelos de camada stateless, vinculando pesos dinamicamente à medida que são transmitidos, eliminando metadados persistentes do grafo enquanto oferece flexibilidade no agendamento. Em uma única GPU H200 com 1,5 TB de memória hospedeira, o MegaTrain treina com confiabilidade modelos de até 120 bilhões de parâmetros. Ele também alcança um throughput de treinamento 1,84 vezes maior que o DeepSpeed ZeRO-3 com descarregamento para CPU ao treinar modelos de 14B. O MegaTrain também permite o treinamento de modelos de 7B com contexto de 512 mil tokens em um único GH200.
É fundamental que os modelos visão-linguagem (VLMs) compreendam de forma abrangente os sinais visuais, temporais e textuais. No entanto, apesar do rápido progresso na modelagem multimodal, o desempenho na compreensão de vídeo ainda fica aquém do raciocínio baseado em texto. Neste trabalho, descobrimos que o progresso é ainda pior do que se supunha anteriormente: os benchmarks de compreensão de vídeos longos comumente relatados contêm 40 a 60% das perguntas que podem ser respondidas usando apenas sinais textuais. Além disso, descobrimos que essas questões também são predominantes em conjuntos de dados de pós-treinamento amplamente utilizados, potencialmente prejudicando a capacidade do pós-treinamento de melhorar o desempenho de compreensão de vídeo dos VLMs. Guiados por essa observação, introduzimos o VidGround como uma solução simples, mas eficaz: utilizando apenas as perguntas visualmente fundamentadas reais, sem quaisquer vieses linguísticos para o pós-treinamento. Quando usado em conjunto com algoritmos de pós-treinamento baseados em RL, esta técnica simples melhora o desempenho em até 6,2 pontos em relação ao uso do conjunto de dados completo, utilizando apenas 69,1% dos dados originais de pós-treinamento. Além disso, mostramos que a curadoria de dados com um algoritmo de pós-treinamento simples supera várias técnicas de pós-treinamento mais complexas, destacando que a qualidade dos dados é um grande gargalo para melhorar a compreensão de vídeo em VLMs. Esses resultados ressaltam a importância de realizar a curadoria de dados de pós-treinamento e benchmarks de avaliação que realmente exijam fundamentação visual para avançar o desenvolvimento de VLMs mais capazes. Página do projeto: http://vidground.etuagi.com.
As competências de agentes, que são artefactos de conhecimento reutilizáveis e específicos de domínio, tornaram-se um mecanismo popular para estender agentes baseados em LLM (Modelos de Linguagem Grande), no entanto, a avaliação formal do desempenho do uso de competências permanece escassa. Os esforços existentes de avaliação de competências concentram-se em condições excessivamente idealizadas, onde os LLMs recebem diretamente competências específicas para cada tarefa, elaboradas manualmente e de forma muito restrita, enquanto em muitos cenários realistas, o agente LLM pode ter de pesquisar e selecionar competências relevantes por si próprio, e mesmo as competências mais próximas podem não estar bem adaptadas à tarefa. Neste artigo, realizamos o primeiro estudo abrangente sobre a utilidade das competências em cenários realistas progressivamente mais desafiadores, onde os agentes devem recuperar competências de uma grande coleção de 34 mil competências do mundo real e podem não ter acesso a quaisquer competências curadas manualmente. As nossas descobertas revelam que os benefícios das competências são frágeis: os ganhos de desempenho degradam-se consistentemente à medida que os cenários se tornam mais realistas, com taxas de sucesso a aproximarem-se das linhas de base sem competências nos cenários mais desafiadores. Para reduzir esta lacuna, estudamos estratégias de refinamento de competências, incluindo abordagens específicas por consulta e agnósticas à consulta, e mostramos que o refinamento específico por consulta recupera substancialmente o desempenho perdido quando as competências iniciais têm relevância e qualidade razoáveis. Demonstramos ainda a generalidade da recuperação e do refinamento no Terminal-Bench 2.0, onde estes melhoram a taxa de sucesso do Claude Opus 4.6 de 57,7% para 65,5%. Os nossos resultados, consistentes em vários modelos, destacam tanto a promessa como as atuais limitações das competências para agentes baseados em LLM. O nosso código está disponível em https://github.com/UCSB-NLP-Chang/Skill-Usage.
O rápido crescimento da literatura científica tem tornado cada vez mais difícil para os pesquisadores descobrir, avaliar e sintetizar trabalhos relevantes de forma eficiente. Avanços recentes em modelos de linguagem de grande escala (LLMs) multiagente demonstraram um forte potencial para a compreensão da intenção do usuário e estão sendo treinados para utilizar várias ferramentas. Neste artigo, apresentamos o Paper Circle, um sistema multiagente de descoberta e análise de pesquisas projetado para reduzir o esforço necessário para encontrar, avaliar, organizar e compreender a literatura acadêmica. O sistema compreende dois pipelines complementares: (1) um Pipeline de Descoberta que integra recuperação offline e online de múltiplas fontes, pontuação multicritério, classificação com consciência da diversidade e saídas estruturadas; e (2) um Pipeline de Análise que transforma artigos individuais em grafos de conhecimento estruturados com nós tipados, como conceitos, métodos, experimentos e figuras, permitindo questionamento com consciência do grafo e verificação de cobertura. Ambos os pipelines são implementados dentro de um framework de orquestração multiagente baseado em LLM codificador e produzem saídas sincronizadas e totalmente reproduzíveis, incluindo JSON, CSV, BibTeX, Markdown e HTML em cada etapa do agente. Este artigo descreve a arquitetura do sistema, os papéis dos agentes, os métodos de recuperação e pontuação, o esquema do grafo de conhecimento e as interfaces de avaliação que, juntos, formam o fluxo de trabalho de pesquisa do Paper Circle. Avaliamos o Paper Circle tanto na recuperação de artigos quanto na geração de revisões de artigos, relatando taxa de acerto, MRR e Recall@K. Os resultados mostram melhorias consistentes com modelos de agente mais fortes. Disponibilizamos publicamente o website em https://papercircle.vercel.app/ e o código em https://github.com/MAXNORM8650/papercircle.
A evolução é um motor extraordinário para a diversidade enzimática, mas a química que ela explorou permanece sendo uma fatia estreita do que o DNA pode codificar. Modelos generativos profundos podem projetar novas proteínas que se ligam a ligantes, mas nenhum criou enzimas sem pré-especificar resíduos catalíticos. Apresentamos o DISCO (DIffusion for Sequence-structure CO-design), um modelo multimodal que co-projeta a sequência proteica e a estrutura 3D em torno de biomoléculas arbitrárias, bem como métodos de dimensionamento no tempo de inferência que otimizam objetivos em ambas as modalidades. Condicionado apenas a intermediários reativos, o DISCO projeta diversas enzimas de hemo com geometrias de sítio ativo novas. Essas enzimas catalisam reações de transferência de carbeno novas para a natureza, incluindo ciclopropanação de alcenos, espirociclopropanação, inserções B-H e C(sp³)-H, com altas atividades que superam as de enzimas projetadas. A mutagênese aleatória de um projeto selecionado confirmou ainda que a atividade enzimática pode ser melhorada por meio de evolução dirigida. Ao fornecer uma rota escalável para enzimas evolutivas, o DISCO amplia o potencial escopo de transformações geneticamente codificáveis. O código está disponível em https://github.com/DISCO-design/DISCO.
Os modelos de linguagem de grande porte baseados em difusão (dLLMs) estão surgindo como uma alternativa atraente aos modelos autoregressivos dominantes, substituindo a geração estritamente sequencial de tokens por dinâmicas de geração paralela e desruído iterativo. No entanto, seu ecossistema de código aberto permanece fragmentado entre famílias de modelos e, em particular, entre os fluxos de pós-treinamento, onde objetivos de aprendizagem por reforço, implementações de rollouts e scripts de avaliação são frequentemente lançados como bases de código específicas de artigos. Esta fragmentação desacelera a iteração de pesquisa, aumenta o fardo de engenharia para reprodução e dificulta a comparação justa entre algoritmos. Apresentamos o DARE (Executor de Alinhamento e Reforço para dLLMs), um framework aberto para pós-treinar e avaliar dLLMs. Construído sobre verl~sheng2024hybridflow e OpenCompass~2023opencompass, o DARE unifica o ajuste fino supervisionado, o ajuste fino eficiente em parâmetros, a otimização de preferências e a aprendizagem por reforço específica para dLLMs sob uma pilha de execução compartilhada para modelos de linguagem de difusão mascarada e em blocos. Através de famílias de modelos representativas, incluindo LLaDA, Dream, SDAR e LLaDA2.x, o DARE oferece ampla cobertura algorítmica, avaliação de benchmark reproduzível e aceleração prática. Resultados empíricos extensivos posicionam o DARE como um substrato de pesquisa reutilizável para desenvolver, comparar e implantar métodos de pós-treinamento para dLLMs atuais e emergentes.
Os agentes de modelos de linguagem de grande escala (LLM) estão cada vez mais sendo implantados para automatizar tarefas de produtividade (por exemplo, e-mail, agendamento, gestão de documentos), mas avaliá-los em serviços ao vivo é arriscado devido a possíveis alterações irreversíveis. Os benchmarks existentes baseiam-se em ambientes simplificados e não conseguem capturar fluxos de trabalho realistas, com estado e multi-serviço. Apresentamos o ClawsBench, um benchmark para avaliar e melhorar agentes de LLM em ambientes realistas de produtividade. Ele inclui cinco serviços simulados de alta fidelidade (Gmail, Slack, Google Agenda, Google Docs, Google Drive) com gestão completa de estado e snapshot/restauro determinísticos, juntamente com 44 tarefas estruturadas que abrangem cenários de serviço único, multi-serviço e críticos para a segurança. Decompomos o *scaffolding* do agente em duas alavancas independentes (*domain skills* que injetam conhecimento de API através de divulgação progressiva, e um *meta prompt* que coordena o comportamento entre serviços) e variamos ambas para medir os seus efeitos separados e combinados. Experiências com 6 modelos, 4 *harnesses* de agente e 33 condições mostram que, com *scaffolding* total, os agentes atingem taxas de sucesso de tarefa de 39-64%, mas exibem taxas de ação insegura de 7-33%. No OpenClaw, os cinco melhores modelos situam-se numa faixa de 10 pontos percentuais no sucesso da tarefa (53-63%), com taxas de ação insegura de 7% a 23% e sem uma ordenação consistente entre as duas métricas. Identificamos oito padrões recorrentes de comportamento inseguro, incluindo escalonamento multi-etapa do *sandbox* e modificação silenciosa de contratos.
O paradigma estático de "treinar e depois implantar" limita fundamentalmente a capacidade dos Modelos de Linguagem de Grande Escala (LLMs) de adaptar dinamicamente os seus pesos em resposta a fluxos contínuos de novas informações inerentes a tarefas do mundo real. O Treino em Tempo de Teste (TTT) oferece uma alternativa convincente, atualizando um subconjunto de parâmetros do modelo (pesos rápidos) durante a inferência. No entanto, o seu potencial no atual ecossistema de LLMs é limitado por barreiras críticas, incluindo incompatibilidade arquitetónica, ineficiência computacional e objetivos desalinhados para os pesos rápidos na modelagem de linguagem. Neste trabalho, introduzimos o Treino em Tempo de Teste *In-Place* (In-Place TTT), uma estrutura que confere de forma integrada aos LLMs a capacidade de Treino em Tempo de Teste. O In-Place TTT trata a matriz de projeção final dos ubíquos blocos MLP como os seus pesos rápidos adaptáveis, permitindo uma melhoria "plug-and-play" para LLMs sem o custoso retreino a partir do zero. Além disso, substituímos o objetivo genérico de reconstrução do TTT por um objetivo específico, teoricamente fundamentado e explicitamente alinhado com a tarefa de Previsão do Próximo Token que rege a modelagem de linguagem autoregressiva. Este objetivo fundamentado, combinado com um mecanismo eficiente de atualização por blocos (*chunks*), resulta num algoritmo altamente escalável compatível com o paralelismo de contexto. Experiências extensivas validam a eficácia da nossa estrutura: como uma melhoria *in-place*, permite que um modelo com 4B de parâmetros atinja um desempenho superior em tarefas com contextos de até 128k tokens, e, quando pré-treinado a partir do zero, supera consistentemente abordagens concorrentes relacionadas com TTT. Os resultados do estudo de ablação fornecem ainda insights mais profundos sobre as nossas opções de design. Coletivamente, os nossos resultados estabelecem o In-Place TTT como um passo promissor em direção a um paradigma de aprendizagem contínua em LLMs.
A poda de redes, que remove parâmetros ou arquiteturas menos importantes, é frequentemente esperada para melhorar a eficiência enquanto preserva o desempenho. No entanto, essa expectativa não se mantém consistentemente em diferentes tarefas de linguagem: modelos podados podem ter bom desempenho em tarefas não generativas, mas frequentemente falham em configurações generativas. Para entender essa discrepância, analisamos a poda de redes a partir de uma perspectiva de hierarquia de representações, decompondo o cálculo interno dos modelos de linguagem em três espaços sequenciais: *embedding* (representações ocultas), *logit* (saídas pré-*softmax*) e probabilidade (distribuições pós-*softmax*). Descobrimos que as representações nos espaços de *embedding* e *logit* são amplamente robustas a perturbações induzidas pela poda. No entanto, a transformação não linear dos *logits* para as probabilidades amplifica esses desvios, que se acumulam ao longo das etapas de tempo e levam a uma degradação substancial durante a geração. Em contraste, a estabilidade do subespaço categórico de probabilidade de *tokens*, juntamente com a robustez do espaço de *embedding*, sustenta a eficácia da poda para tarefas não generativas, como recuperação e seleção de múltipla escolha. Nossa análise desdobra os efeitos da poda entre tarefas e fornece orientação prática para sua aplicação. O código está disponível em https://github.com/CASE-Lab-UMD/Pruning-on-Representations.
Apresentamos o MedGemma 1.5 4B, o modelo mais recente da coleção MedGemma. O MedGemma 1.5 expande as capacidades do MedGemma 1 ao integrar funcionalidades adicionais: imagiologia médica de alta dimensão (volumes de TC/RM e imagens de lâmina completa de histopatologia), localização anatómica através de caixas delimitadoras, análise de radiografias torácicas em múltiplos pontos temporais e uma melhor compreensão de documentos médicos (relatórios de laboratório, registos de saúde eletrónicos). Detalhamos as inovações necessárias para permitir estas modalidades numa única arquitetura, incluindo novos dados de treino, segmentação de volumes 3D de contexto longo e amostragem de patologia de lâmina completa. Em comparação com o MedGemma 1 4B, o MedGemma 1.5 4B demonstra ganhos significativos nestas novas áreas, melhorando a precisão da classificação de condições em RM 3D em 11% e em TC 3D em 3% (melhorias absolutas). Na imagem de patologia de lâmina completa, o MedGemma 1.5 4B alcança um ganho de 47% no F1-macro. Adicionalmente, melhora a localização anatómica com um aumento de 35% na Interseção sobre União em radiografias torácicas e atinge uma precisão macro de 4% na análise longitudinal (multitemporal) de radiografias torácicas. Para além do seu desempenho multimodal melhorado face ao MedGemma 1, o MedGemma 1.5 apresenta avanços no conhecimento clínico e raciocínio baseados em texto, melhorando 5% na precisão do MedQA e 22% na precisão do EHRQA. Alcança ainda uma média de 18% de F1-macro em 4 conjuntos de dados diferentes de extração de informação de relatórios de laboratório (EHR Datasets 2, 3, 4 e Mendeley Clinical Laboratory Test Reports). No seu conjunto, o MedGemma 1.5 serve como um recurso aberto e robusto para a comunidade, concebido como uma base melhorada sobre a qual os desenvolvedores podem criar a próxima geração de sistemas de IA médica. Recursos e tutoriais para construir com o MedGemma 1.5 podem ser encontrados em https://goo.gle/MedGemma.
Os modelos de ação mundial (WAMs) surgiram como uma direção promissora para a aprendizagem de políticas robóticas, pois podem aproveitar poderosos *backbones* de vídeo para modelar estados futuros. No entanto, as abordagens existentes frequentemente dependem de módulos de ação separados ou usam representações de ação que não estão ancoradas em pixels, dificultando a exploração total do conhecimento pré-treinado de modelos de vídeo e limitando a transferência entre pontos de vista e ambientes. Neste trabalho, apresentamos as Imagens de Ação, um modelo de ação mundial unificado que formula a aprendizagem de políticas como uma geração de vídeo multivista. Em vez de codificar o controle como *tokens* de baixa dimensão, traduzimos ações robóticas de 7-DoF em imagens de ação interpretáveis: vídeos de ação multivista que estão ancorados em pixels 2D e rastreiam explicitamente o movimento do braço robótico. Esta representação de ação ancorada em pixels permite que o *backbone* de vídeo atue como uma política *zero-shot*, sem um cabeçalho de política ou módulo de ação separado. Além do controle, o mesmo modelo unificado suporta geração conjunta vídeo-ação, geração de vídeo condicionada por ação e rotulagem de ação sob uma representação compartilhada. Nas avaliações do RLBench e do mundo real, nosso modelo alcança as mais altas taxas de sucesso *zero-shot* e melhora a qualidade da geração conjunta vídeo-ação em relação aos modelos mundiais anteriores no espaço de vídeo, sugerindo que as imagens de ação interpretáveis são uma rota promissora para a aprendizagem de políticas.
Os MLLMs têm sido aplicados com sucesso em tarefas de incorporação multimodal, mas suas capacidades de raciocínio generativo permanecem subutilizadas. A incorporação direta do raciocínio em cadeia no aprendizado de embeddings apresenta dois desafios fundamentais. Primeiro, o desalinhamento estrutural entre o raciocínio a nível de instância e a supervisão contrastiva pareada pode levar a comportamentos de atalho, nos quais o modelo apenas apreende o formato superficial do raciocínio. Segundo, o raciocínio não é universalmente benéfico para tarefas de incorporação. Forçar o raciocínio para todas as entradas pode introduzir computação e latência desnecessárias, podendo até mesmo ofuscar sinais semânticos salientes em casos simples. Para resolver essas questões, propomos o MMEmb-R1, uma estrutura adaptativa de incorporação multimodal baseada em raciocínio. Formula-se o raciocínio como uma variável latente e introduz-se uma seleção de raciocínio consciente dos pares que emprega intervenção contrafactual para identificar caminhos de raciocínio benéficos para o alinhamento consulta-alvo. Adicionalmente, adotamos aprendizado por reforço para invocar seletivamente o raciocínio apenas quando necessário. Experimentos no benchmark MMEB-V2 demonstram que nosso modelo alcança uma pontuação de 71,2 com apenas 4B de parâmetros, estabelecendo um novo estado da arte enquanto reduz significativamente a sobrecarga de raciocínio e a latência de inferência.
Agentes de LLM multimodal que operam em ambientes de jogo complexos devem reutilizar continuamente experiências passadas para resolver novas tarefas com eficiência. Neste trabalho, propomos o Echo, uma estrutura de memória orientada para transferência que permite aos agentes derivar conhecimento acionável de interações prévias, em vez de tratar a memória como um repositório passivo de registros estáticos. Para tornar a transferência explícita, o Echo decompõe o conhecimento reutilizável em cinco dimensões: estrutura, atributo, processo, função e interação. Esta formulação permite ao agente identificar padrões recorrentes compartilhados entre diferentes tarefas e inferir qual experiência prévia permanece aplicável em novas situações. Com base nesta formulação, o Echo aproveita a Aprendizagem por Analogia em Contexto (ICAL) para recuperar experiências relevantes e adaptá-las a tarefas não vistas por meio de exemplos contextuais. Experimentos no Minecraft demonstram que, sob uma configuração de aprendizado do zero, o Echo alcança uma aceleração de 1,3x a 1,7x em tarefas de desbloqueio de objetos. Além disso, o Echo exibe um fenômeno de desbloqueio em cadeia em rajada, desbloqueando rapidamente múltiplos itens similares dentro de um curto intervalo de tempo após adquirir experiência transferível. Estes resultados sugerem que a transferência de experiência é uma direção promissora para melhorar a eficiência e adaptabilidade de agentes de LLM multimodal em ambientes interativos complexos.
A revisão por pares em aprendizado de máquina está sob crescente pressão devido ao aumento do volume de submissões e ao tempo limitado dos revisores. A maioria dos sistemas de revisão baseados em LLM lê apenas o manuscrito e gera comentários a partir da própria narrativa do artigo. Isso torna suas saídas sensíveis à qualidade da apresentação e as torna fracas quando as evidências necessárias para a revisão estão em trabalhos relacionados ou no código liberado. Apresentamos o FactReview, um sistema de revisão baseado em evidências que combina extração de afirmações, posicionamento na literatura e verificação de afirmações baseada em execução. Dada uma submissão, o FactReview identifica as principais afirmações e resultados relatados, recupera trabalhos próximos para esclarecer o posicionamento técnico do artigo e, quando o código está disponível, executa o repositório liberado sob orçamentos limitados para testar afirmações empíricas centrais. Ele então produz uma revisão concisa e um relatório de evidências que atribui a cada afirmação principal um de cinco rótulos: Suportado, Suportado pelo artigo, Parcialmente suportado, Em conflito ou Inconclusivo. Em um estudo de caso sobre o CompGCN, o FactReview reproduz resultados que se aproximam dos relatados para previsão de links e classificação de nós, mas também mostra que a afirmação mais ampla de desempenho do artigo entre tarefas não é totalmente sustentada: na classificação de grafos MUTAG, o resultado reproduzido é de 88,4%, enquanto a linha de base mais forte relatada no artigo permanece em 92,6%. Portanto, a afirmação é apenas parcialmente suportada. De forma mais ampla, este caso sugere que a IA é mais útil na revisão por pares não como um tomador de decisão final, mas como uma ferramenta para coletar evidências e ajudar os revisores a produzir avaliações mais fundamentadas em evidências. O código é público em https://github.com/DEFENSE-SEU/Review-Assistant.
Agentes de codificação consomem repetidamente observações longas de ferramentas, embora apenas uma pequena fração de cada observação seja relevante para a próxima etapa. Estudamos a poda condicionada por tarefa de saídas de ferramentas: dada uma consulta focada e uma saída de ferramenta, retornar o menor bloco de evidência textual que o agente deve inspecionar a seguir. Introduzimos um benchmark de 11.477 exemplos construídos a partir de interações do repositório SWE-bench e saídas sintéticas de ferramentas de múltiplos ecossistemas, com um conjunto de teste de 618 exemplos curado manualmente. Ajustamos finamente o Qwen 3.5 2B com LoRA e comparamos com modelos maiores de zero-shot e baselines heurísticas de poda. Nosso modelo atinge 0.86 de revocação e 0.80 de F1 enquanto remove 92% dos tokens de entrada, superando o Qwen 3.5 35B A3B de zero-shot por 11 pontos de revocação e todas as baselines heurísticas por uma ampla margem.
Os Grandes Modelos de Linguagem (LLMs) alcançam um forte desempenho na correção de programas, mas frequentemente sofrem com edição excessiva (*over-editing*), onde modificações excessivas sobrescrevem código correto e dificultam a localização de bugs. Nós quantificamos sistematicamente seu impacto e introduzimos a tarefa de reparo preciso, que maximiza a reutilização de código correto enquanto corrige apenas as partes com defeito. Com base nessa percepção, propomos o PRepair, uma estrutura que mitiga a edição excessiva e melhora a precisão do reparo. O PRepair tem dois componentes: *Self-Breaking*, que gera programas com bugs diversos por meio de injeção controlada de bugs e amostragem *min-max*, e *Self-Repairing*, que treina modelos com Otimização de Política Relativa de Grupo Consciente da Edição (EA-GRPO) usando uma recompensa consciente da edição para incentivar edições mínimas, porém corretas. Experimentos mostram que o PRepair melhora a precisão do reparo em até 31,4% sob a métrica *fix_1@1*, que considera conjuntamente a correção e a extensão do reparo, e aumenta significativamente a taxa de transferência na decodificação quando combinado com edição especulativa, demonstrando seu potencial para correção de código precisa e prática.
A Síntese de Programas Gráficos é fundamental para interpretar e editar dados visuais, facilitando efetivamente a engenharia reversa de elementos visuais estáticos em código TikZ editável. Embora o TikZ seja o padrão de facto para esquemas científicos devido à sua flexibilidade programática, sua exigência de precisão espacial rigorosa representa um desafio significativo para os Modelos de Linguagem Multimodais de Grande Escala. O progresso está atualmente estagnado por duas lacunas principais: (1) Lacuna de Qualidade de Dados: os corpora existentes de imagem-TikZ frequentemente carecem de executabilidade estrita e alinhamento visual confiável; (2) Lacuna de Avaliação: falta de benchmarks para fidelidade estrutural e visual. Para resolver isso, apresentamos uma estrutura de circuito fechado com: SciTikZ-230K, um conjunto de dados em larga escala e alta qualidade da nossa Execution-Centric Data Engine, abrangendo 11 disciplinas científicas diversas; SciTikZ-Bench, um benchmark multifacetado que vai desde construções geométricas básicas até esquemas hierárquicos intrincados para avaliar tanto a fidelidade visual quanto a lógica estrutural. Para ampliar ainda mais o escopo da metodologia de otimização de código visual, introduzimos um novo paradigma de otimização por Reforço de Dupla Autoconsistência, que utiliza Verificação de Ida e Volta para penalizar código degenerado e aumentar a autoconsistência geral. Impulsionado por estes, nosso modelo treinado SciTikZer-8B atinge desempenho state-of-the-art, superando consistentemente gigantes proprietários como o Gemini-2.5-Pro e modelos massivos como o Qwen3-VL-235B-A22B-Instruct.
Os Grandes Modelos de Linguagem (LLMs) têm demonstrado potencial na simulação do comportamento humano, no entanto, os agentes existentes frequentemente exibem rigidez comportamental, uma falha frequentemente mascarada pelo viés autorreferencial das atuais avaliações do tipo "LLM-como-juiz". Ao avaliar com base em dados empíricos de referência (ground truth), revelamos um fenômeno contra-intuitivo: aumentar a intensidade do raciocínio orientado por instruções (prompts) não aumenta a fidelidade, mas sim exacerba a polarização de valores, colapsando a diversidade populacional. Para resolver isso, propomos a arquitetura Contexto-Valor-Ação (CVA), fundamentada no modelo Estímulo-Organismo-Resposta (S-O-R) e na Teoria dos Valores Humanos Básicos de Schwartz. Diferente de métodos que dependem de autoverificação, o CVA desacopla a geração de ações do raciocínio cognitivo por meio de um novo Verificador de Valores treinado em dados humanos autênticos para modelar explicitamente a ativação dinâmica de valores. Experimentos no CVABench, que compreende mais de 1,1 milhão de traços de interação do mundo real, demonstram que o CVA supera significativamente os modelos de base (baselines). Nossa abordagem mitiga efetivamente a polarização, ao mesmo tempo que oferece fidelidade comportamental e interpretabilidade superiores.
Os modelos de linguagem de grande escala (LLMs) do tipo Mixture-of-Experts (MoE) estão entre as arquiteturas com melhor desempenho. Os maiores modelos, frequentemente com centenas de bilhões de parâmetros, apresentam desafios significativos de memória para implantação. As abordagens tradicionais para reduzir os requisitos de memória incluem o *pruning* (poda) e a quantização de pesos. Motivados pelo método REAP (*Router-weighted Expert Activation Pruning*), que realiza a poda de *experts*, propomos um novo método, o REAM (*Router-weighted Expert Activation Merging*). Em vez de remover *experts*, o REAM os agrupa e funde seus pesos, preservando melhor o desempenho original. Avaliamos o REAP em comparação com o REAP e outras linhas de base em vários LLMs MoE, utilizando diversos benchmarks de tarefas de questionamento de múltipla escolha (MC) e de geração (GEN). Nossos resultados revelam uma relação de compromisso (*trade-off*) entre o desempenho em MC e GEN que depende da mistura de dados de calibração. Ao controlar a mistura de dados gerais, matemáticos e de codificação, examinamos a fronteira de Pareto desse compromisso e mostramos que o REAM frequentemente supera as linhas de base e, em muitos casos, é comparável aos modelos originais não comprimidos.
À medida que os modelos de linguagem evoluem da geração de respostas únicas para raciocínios de múltiplos passos que recuperam e consomem evidências durante a inferência, avaliar o papel de itens individuais recuperados torna-se mais importante. A avaliação de RAG existente normalmente foca na qualidade da resposta final, na fidelidade de citações ou na atribuição a nível de resposta, mas nenhuma destas aborda diretamente a visão de utilidade por item de evidência baseada em intervenção que estudamos aqui. Apresentamos o CUE-R, um framework leve baseado em intervenção para medir a utilidade operacional por item de evidência em RAG de etapa única usando traços superficiais observáveis de uso de recuperação. O CUE-R perturba itens individuais de evidência através dos operadores REMOVER, SUBSTITUIR e DUPLICAR, medindo depois mudanças ao longo de três eixos de utilidade (correção, fidelidade de fundamentação baseada em proxy e erro de confiança) mais um sinal de divergência de traço. Também delineamos uma taxonomia operacional de papéis de evidência para interpretar resultados de intervenção. Experiências no HotpotQA e 2WikiMultihopQA com Qwen-3 8B e GPT-5.2 revelam um padrão consistente: REMOVER e SUBSTITUIR prejudicam substancialmente a correção e a fundamentação enquanto produzem grandes desvios de traço, enquanto DUPLICAR é frequentemente redundante para a resposta, mas não totalmente neutro em termos comportamentais. Um controlo de recuperação zero confirma que estes efeitos surgem da degradação de uma recuperação significativa. Uma ablação de dois suportes mostra ainda que itens de evidência multi-hop podem interagir de forma não aditiva: remover ambos os suportes prejudica muito mais o desempenho do que qualquer remoção única. Os nossos resultados sugerem que a avaliação apenas da resposta omite efeitos importantes das evidências e que a análise de utilidade baseada em intervenção é um complemento prático para a avaliação de RAG.
A modelagem de dinâmicas espaço-temporais de longo alcance em ressonância magnética funcional (fMRI) permanece um desafio central devido à alta dimensionalidade dos sinais quadridimensionais. Modelos prévios baseados em vóxels, embora demonstrem excelente desempenho e capacidade de interpretação, são limitados por demandas de memória proibitivas e, portanto, só conseguem capturar janelas temporais limitadas. Para resolver isso, propomos o TABLeT (Two-dimensionally Autoencoded Brain Latent Transformer), uma abordagem inovadora que tokeniza volumes de fMRI usando um autoencoder de imagens naturais 2D pré-treinado. Cada volume 3D de fMRI é comprimido em um conjunto compacto de tokens contínuos, permitindo a modelagem de sequências longas com um simples codificador Transformer com VRAM limitado. Em benchmarks de larga escala, incluindo o UK-Biobank (UKB), o Human Connectome Project (HCP) e os conjuntos de dados ADHD-200, o TABLeT supera os modelos existentes em múltiplas tarefas, demonstrando ganhos substanciais em eficiência computacional e de memória em relação ao método state-of-the-art baseado em vóxels com a mesma entrada. Além disso, desenvolvemos uma abordagem de modelagem de tokens mascarados auto supervisionada para pré-treinar o TABLeT, o que melhora o desempenho do modelo para várias tarefas subsequentes. Nossos achados sugerem uma abordagem promissora para a modelagem espaço-temporal escalável e interpretável da atividade cerebral. Nosso código está disponível em https://github.com/beotborry/TABLeT.
Os modelos de linguagem de difusão (DLMs) permitem geração de texto paralela e não autorregressiva, porém os modelos existentes de mistura de especialistas (MoE) para DLMs herdam o roteamento por escolha de token (TC) de sistemas autorregressivos, levando a desequilíbrio de carga e alocação computacional rígida. Demonstramos que o roteamento por escolha de especialista (EC) é mais adequado para DLMs: ele fornece balanceamento de carga determinístico por projeto, resultando em maior taxa de transferência e convergência mais rápida que o TC. Com base na propriedade de que a capacidade do EC é controlável externamente, introduzimos capacidade de especialista dependente do passo temporal, que varia a alocação de especialistas de acordo com a etapa de remoção de ruído. Descobrimos que alocar mais capacidade para etapas com baixa taxa de mascaramento consistentemente alcança o melhor desempenho sob FLOPs equivalentes, e fornecemos uma explicação mecanicista: tokens em contextos de baixa taxa de mascaramento exibem uma eficiência de aprendizado uma ordem de grandeza maior, portanto concentrar computação nessas etapas produz o maior retorno marginal. Finalmente, mostramos que DLMs TC pré-treinados existentes podem ser adaptados para EC substituindo apenas o roteador, alcançando convergência mais rápida e precisão melhorada em diversas tarefas downstream. Juntos, esses resultados estabelecem o roteamento EC como um paradigma superior para modelos MoE de DLM e demonstram que a computação em DLMs pode ser tratada como uma política adaptativa em vez de uma constante arquitetural fixa. O código está disponível em https://github.com/zhangshuibai/EC-DLM.