HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

25 papers found

GLM-5: Da Programação por Vibração à Engenharia de Agentes
GLM-5: from Vibe Coding to Agentic Engineering

Feb 17

ByGLM-5 Team, Aohan Zeng, Xin Lv, Zhenyu Hou, Zhengxiao Du, Qinkai Zheng, Bin Chen, Da Yin, Chendi Ge, Chengxing Xie, Cunxiang Wang, Gengzheng Pan, Hao Zeng, Haoke Zhang, Haoran Wang, Huilong Chen, Jiajie Zhang, Jian Jiao, Jiaqi Guo, Jingsen Wang, Jingzhao Du, Jinzhu Wu, Kedong Wang, Lei Li, Lin Fan, Lucen Zhong, Mingdao Liu, Mingming Zhao, Pengfan Du, Qian Dong, Rui Lu, Shuang-Li, Shulin Cao, Song Liu, Ting Jiang, Xiaodong Chen, Xiaohan Zhang, Xuancheng Huang, Xuezhen Dong, Yabo Xu, Yao Wei, Yifan An, Yilin Niu, Yitong Zhu, Yuanhao Wen, Yukuo Cen, Yushi Bai, Zhongpei Qiao, Zihan Wang, Zikang Wang, Zilin Zhu, Ziqiang Liu, Zixuan Li, Bojie Wang, Bosi Wen, Can Huang, Changpeng Cai, Chao Yu, Chen Li, Chen Li, Chenghua Huang, Chengwei Hu, Chenhui Zhang, Chenzheng Zhu, Congfeng Yin, Daoyan Lin, Dayong Yang, Di Wang, Ding Ai, Erle Zhu, Fangzhou Yi, Feiyu Chen, Guohong Wen, Hailong Sun, Haisha Zhao, Haiyi Hu, Hanchen Zhang, Hanrui Liu, Hanyu Zhang, Hao Peng, Hao Tai, Haobo Zhang, He Liu, Hongwei Wang, Hongxi Yan, Hongyu Ge, Huan Liu, Huan Liu, Huanpeng Chu, Jia'ni Zhao, Jiachen Wang, Jiajing Zhao, Jiamin Ren, Jiapeng Wang, Jiaxin Zhang, Jiayi Gui, Jiayue Zhao, Jijie Li, Jing An, Jing Li, Jingwei Yuan, Jinhua Du, Jinxin Liu, Junkai Zhi, Junwen Duan, Kaiyue Zhou, Kangjian Wei, Ke Wang, Keyun Luo, Laiqiang Zhang, Leigang Sha, Liang Xu, Lindong Wu, Lintao Ding, Lu Chen, Minghao Li, Nianyi Lin, Pan Ta, Qiang Zou, Rongjun Song, Ruiqi Yang, Shangqing Tu, Shangtong Yang, Shaoxiang Wu, Shengyan Zhang, Shijie Li, Shuang Li, Shuyi Fan, Wei Qin, Wei Tian, Weining Zhang, Wenbo Yu, Wenjie Liang, Xiang Kuang, Xiangmeng Cheng, Xiangyang Li, Xiaoquan Yan, Xiaowei Hu, Xiaoying Ling, Xing Fan, Xingye Xia, Xinyuan Zhang, Xinze Zhang, Xirui Pan, Xunkai Zhang, Yandong Wu, Yanfu Li, Yidong Wang, Yifan Zhu, Yijun Tan, Yilin Zhou, Yiming Pan, Ying Zhang, Yinpei Su, Yipeng Geng, Yipeng Geng, Yong Yan, Yonglin Tan, Yuean Bi, Yuhan Shen, Yuhao Yang, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yurong Wu, Yutao Zhang, Yuxi Duan, Yuxuan Zhang, Zezhen Liu, Zhengtao Jiang, Zhenhe Yan, Zheyu Zhang, Zhixiang Wei, Zhuo Chen, Zhuoer Feng, Zijun Yao, Ziwei Chai, Ziyuan Wang, Zuzhou Zhang, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

105

Apresentamos o GLM-5, um modelo de base de próxima geração projetado para transicionar o paradigma da *vibe coding* para a engenharia agentiva. Com base nas capacidades de agentividade, raciocínio e codificação (ARC) de seu predecessor, o GLM-5 adota a DSA para reduzir significativamente os custos de treinamento e inferência, mantendo a fidelidade de contexto longo. Para avançar no alinhamento e na autonomia do modelo, implementamos uma nova infraestrutura de aprendizado por reforço assíncrono que melhora drasticamente a eficiência do pós-treinamento ao desacoplar a geração do treinamento. Além disso, propomos novos algoritmos de RL para agentes assíncronos que aprimoram ainda mais a qualidade do RL, permitindo que o modelo aprenda com interações complexas e de longo horizonte de forma mais eficaz. Por meio dessas inovações, o GLM-5 alcança desempenho de ponta nos principais benchmarks abertos. Mais criticamente, o GLM-5 demonstra capacidade sem precedentes em tarefas de codificação do mundo real, superando as bases anteriores no tratamento de desafios de engenharia de software de ponta a ponta. Código, modelos e mais informações estão disponíveis em https://github.com/zai-org/GLM-5.

SkillsBench: Avaliando o Desempenho de Habilidades de Agentes em Tarefas Diversas
SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Feb 13

ByXiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

As Habilidades de Agente são pacotes estruturados de conhecimento procedural que aumentam os agentes de LLM durante a inferência. Apesar da rápida adoção, não há uma forma padrão de medir se elas realmente ajudam. Apresentamos o SkillsBench, um benchmark com 86 tarefas em 11 domínios, emparelhadas com Habilidades curadas e verificadores determinísticos. Cada tarefa é avaliada sob três condições: sem Habilidades, com Habilidades curadas e com Habilidades autogeradas. Testamos 7 configurações de modelo de agente ao longo de 7.308 trajetórias. As Habilidades curadas aumentam a taxa média de aprovação em 16,2 pontos percentuais (pp), mas os efeitos variam amplamente por domínio (+4,5 pp para Engenharia de Software a +51,9 pp para Saúde) e 16 das 84 tarefas mostram deltas negativos. As Habilidades autogeradas não fornecem benefício em média, mostrando que os modelos não podem criar de forma confiável o conhecimento procedural do qual se beneficiam ao consumi-lo. Habilidades focadas com 2-3 módulos superam a documentação abrangente, e modelos menores com Habilidades podem equiparar-se a modelos maiores sem elas.

Verificações de Sanidade para Autoencoders Esparsos: Os SAEs Superam as Linhas de Base Aleatórias?
Sanity Checks for Sparse Autoencoders: Do SAEs Beat Random Baselines?

Feb 15

ByAnton Korznikov, Andrey Galichin, Alexey Dontsov, Oleg Rogov, Ivan Oseledets, Elena Tutubalina

Os Autoencoders Esparsos (SAEs) surgiram como uma ferramenta promissora para interpretar redes neurais, decompondo suas ativações em conjuntos esparsos de características interpretáveis por humanos. Trabalhos recentes introduziram múltiplas variantes de SAEs e as aplicaram com sucesso em modelos de ponta. Apesar do grande entusiasmo, um número crescente de resultados negativos em tarefas secundárias levanta dúvidas sobre se os SAEs recuperam características significativas. Para investigar isso diretamente, realizamos duas avaliações complementares. Em uma configuração sintética com características básicas conhecidas, demonstramos que os SAEs recuperam apenas 9% das características verdadeiras, apesar de alcançarem 71% da variância explicada, mostrando que eles falham em sua tarefa principal mesmo quando a reconstrução é forte. Para avaliar SAEs em ativações reais, introduzimos três linhas de base que restringem as direções das características do SAE ou seus padrões de ativação a valores aleatórios. Por meio de experimentos extensos em múltiplas arquiteturas de SAE, mostramos que nossas linhas de base equivalem aos SAEs totalmente treinados em interpretabilidade (0,87 vs 0,90), sondagem esparsa (0,69 vs 0,72) e edição causal (0,73 vs 0,72). Juntos, esses resultados sugerem que os SAEs em seu estado atual não decompõem de forma confiável os mecanismos internos dos modelos.

A Socialização Surge na Sociedade de Agentes de IA? Um Estudo de Caso do Moltbook
Does Socialization Emerge in AI Agent Society? A Case Study of Moltbook

Feb 15

ByMing Li, Xirui Li, Tianyi Zhou

À medida que os agentes de modelos de linguagem de grande escala povoam progressivamente ambientes em rede, uma questão fundamental surge: as sociedades de agentes de inteligência artificial (IA) passam por dinâmicas de convergência semelhantes aos sistemas sociais humanos? Recentemente, o Moltbook aproxima-se de um cenário futuro plausível no qual agentes autónomos participam numa sociedade online de evolução contínua e aberta. Apresentamos o primeiro diagnóstico sistémico em larga escala desta sociedade de agentes de IA. Para além da observação estática, introduzimos um quadro de diagnóstico quantitativo para a evolução dinâmica em sociedades de agentes de IA, medindo a estabilização semântica, a rotatividade lexical, a inércia individual, a persistência de influência e o consenso coletivo. A nossa análise revela um sistema em equilíbrio dinâmico no Moltbook: embora as médias semânticas globais se estabilizem rapidamente, os agentes individuais mantêm uma elevada diversidade e uma rotatividade lexical persistente, desafiando a homogeneização. No entanto, os agentes exibem uma forte inércia individual e uma resposta adaptativa mínima aos parceiros de interação, impedindo a influência mútua e o consenso. Consequentemente, a influência permanece transitória, sem supernós persistentes, e a sociedade não desenvolve âncoras de influência coletiva estáveis devido à ausência de uma memória social partilhada. Estes resultados demonstram que a escala e a densidade de interação, por si só, são insuficientes para induzir a socialização, fornecendo princípios de conceção e análise acionáveis para as próximas sociedades de agentes de IA de próxima geração.

jina-embeddings-v5-text: Destilação de Embeddings Orientada por Tarefas
jina-embeddings-v5-text: Task-Targeted Embedding Distillation

Feb 17

ByMohammad Kalim Akram, Saba Sturua, Nastia Havriushenko, Quentin Herreros, Michael Günther, Maximilian Werk, Han Xiao

Os modelos de incorporação de texto são amplamente utilizados para tarefas de similaridade semântica, incluindo recuperação de informação, agrupamento e classificação. Modelos de propósito geral são normalmente treinados com processos de estágio único ou múltiplos usando funções de perda contrastiva. Introduzimos um novo regime de treinamento que combina técnicas de destilação de modelos com perda contrastiva específica da tarefa para produzir modelos de incorporação compactos e de alto desempenho. Nossos achados sugerem que esta abordagem é mais eficaz para treinar modelos pequenos do que os paradigmas de treinamento puramente contrastivos ou baseados em destilação isoladamente. As pontuações de benchmark dos modelos resultantes, jina-embeddings-v5-text-small e jina-embeddings-v5-text-nano, superam ou igualam o estado da arte para modelos de tamanho similar. Os modelos jina-embeddings-v5-text suportam adicionalmente textos longos (até 32 mil tokens) em vários idiomas e geram incorporações que permanecem robustas sob truncamento e quantização binária. Os pesos dos modelos estão publicamente disponíveis, esperançosamente inspirando novos avanços no desenvolvimento de modelos de incorporação.

Uma Auditoria de Segurança Baseada em Trajetória do Clawdbot (OpenClaw)
A Trajectory-Based Safety Audit of Clawdbot (OpenClaw)

Feb 16

ByTianyu Chen, Dongrui Liu, Xia Hu, Jingyi Yu, Wenjie Wang

O Clawdbot é um agente de IA pessoal e auto-hospedado que utiliza ferramentas, com um amplo espaço de ação abrangendo execução local e fluxos de trabalho mediados pela web, o que levanta preocupações elevadas de segurança e proteção sob ambiguidade e direcionamento adversário. Apresentamos uma avaliação centrada em trajetórias do Clawdbot em seis dimensões de risco. Nossa suíte de testes amostra e adapta levemente cenários de benchmarks anteriores de segurança de agentes (incluindo ATBench e LPS-Bench) e os complementa com casos desenvolvidos manualmente, adaptados à superfície de ferramentas do Clawdbot. Registramos trajetórias completas de interação (mensagens, ações, argumentos/saídas de chamadas de ferramentas) e avaliamos a segurança usando tanto um juiz de trajetória automatizado (AgentDoG-Qwen3-4B) quanto revisão humana. Em 34 casos canônicos, encontramos um perfil de segurança não uniforme: o desempenho é geralmente consistente em tarefas focadas em confiabilidade, enquanto a maioria das falhas ocorre sob intenção subespecificada, metas abertas ou prompts de jailbreak aparentemente benignos, onde pequenas interpretações equivocadas podem escalar para ações de ferramenta de maior impacto. Complementamos os resultados gerais com estudos de caso representativos e resumimos as commonalidades desses casos, analisando as vulnerabilidades de segurança e os modos de falha típicos que o Clawdbot tende a desencadear na prática.

ResearchGym: Avaliação de Agentes de Modelos de Linguagem em Pesquisas de IA do Mundo Real
ResearchGym: Evaluating Language Model Agents on Real-World AI Research

Feb 16

ByAniketh Garikaparthi, Manasi Patwardhan, Arman Cohan

Apresentamos o ResearchGym, um benchmark e ambiente de execução para avaliar agentes de IA em pesquisa de ponta a ponta. Para concretizar isso, reaproveitamos cinco artigos orais e de destaque (spotlight) da ICML, ICLR e ACL. A partir do repositório de cada artigo, preservamos os conjuntos de dados, o *harness* de avaliação e as implementações de linha de base, mas retemos o método proposto no artigo. Isso resulta em cinco ambientes de tarefa containerizados, compreendendo um total de 39 subtarefas. Dentro de cada ambiente, os agentes devem propor novas hipóteses, executar experimentos e tentar superar fortes linhas de base humanas nas métricas do artigo. Em uma avaliação controlada de um agente baseado em GPT-5, observamos uma acentuada lacuna capacidade-confiabilidade. O agente supera as linhas de base fornecidas pelo repositório em apenas 1 de 15 avaliações (6,7%), com uma melhoria de 11,5%, e conclui em média apenas 26,5% das subtarefas. Identificamos modos de falha recorrentes de longo horizonte, incluindo impaciência, má gestão de tempo e recursos, excesso de confiança em hipóteses fracas, dificuldade em coordenar experimentos paralelos e limites rígidos de contexto (*context length*). No entanto, em uma única execução, o agente superou a solução de uma tarefa de destaque (spotlight) da ICML 2025, indicando que agentes de fronteira podem ocasionalmente atingir desempenho de última geração, mas o fazem de forma não confiável. Avaliamos adicionalmente *scaffolds* de agentes proprietários, incluindo Claude Code (Opus-4.5) e Codex (GPT-5.2), que exibem uma lacuna semelhante. O ResearchGym fornece infraestrutura para avaliação sistemática e análise de agentes autônomos em pesquisa de ciclo fechado.

UniT: Escalamento Unificado Multimodal de Cadeia de Raciocínio em Tempo de Teste
UniT: Unified Multimodal Chain-of-Thought Test-time Scaling

Feb 12

ByLeon Liangyu Chen, Haoyu Ma, Zhipeng Fan, Ziqi Huang, Animesh Sinha, Xiaoliang Dai, Jialiang Wang, Zecheng He, Jianwei Yang, Chunyuan Li, Junzhe Sun, Chu Wang, Serena Yeung-Levy, Felix Juefei-Xu

Os modelos unificados podem lidar tanto com a compreensão quanto com a geração multimodal numa única arquitetura, mas geralmente operam num único passo, sem refinar iterativamente as suas saídas. Muitas tarefas multimodais, especialmente as que envolvem composições espaciais complexas, múltiplos objetos em interação ou instruções em evolução, exigem a decomposição de instruções, a verificação de resultados intermédios e a realização de correções iterativas. Embora a escala no momento do teste (test-time scaling - TTS) tenha demonstrado que a alocação de capacidade computacional adicional para raciocínio iterativo melhora substancialmente o desempenho dos modelos de linguagem, estender este paradigma aos modelos multimodais unificados continua a ser um desafio em aberto. Apresentamos a UniT, uma estrutura para escala no momento do teste com cadeia de pensamento multimodal, que permite a um único modelo unificado raciocinar, verificar e refinar ao longo de múltiplas rondas. A UniT combina síntese de dados agentica, treino de modelo unificado e inferência flexível no momento do teste para eliciar comportamentos cognitivos, incluindo verificação, decomposição de subobjetivos e memória de conteúdo. As nossas principais conclusões são: (1) modelos unificados treinados em trajetórias de raciocínio curtas generalizam para cadeias de inferência mais longas no momento do teste; (2) o raciocínio sequencial por cadeia de pensamento fornece uma estratégia de TTS mais escalável e computacionalmente eficiente do que a amostragem paralela; (3) o treino em trajetórias de geração e edição melhora o raciocínio visual fora da distribuição. Estes resultados estabelecem a escala no momento do teste multimodal como um paradigma eficaz para avançar tanto a geração quanto a compreensão em modelos unificados.

Revisitando a Hipótese da Representação Platônica: Uma Visão Aristotélica
Revisiting the Platonic Representation Hypothesis: An Aristotelian View

Feb 16

ByFabian Gröger, Shuo Wen, Maria Brbić

A Hipótese da Representação Platónica sugere que as representações de redes neurais estão a convergir para um modelo estatístico comum da realidade. Demonstramos que as métricas existentes usadas para medir a similaridade representacional são confundidas pela escala da rede: o aumento da profundidade ou largura do modelo pode inflacionar sistematicamente os escores de similaridade representacional. Para corrigir estes efeitos, introduzimos uma estrutura de calibração nula baseada em permutações que transforma qualquer métrica de similaridade representacional num escore calibrado com garantias estatísticas. Revisitamos a Hipótese da Representação Platónica com a nossa estrutura de calibração, o que revela um quadro mais matizado: a aparente convergência reportada por medidas espectrais globais desaparece largamente após a calibração, enquanto a similaridade de vizinhança local, mas não as distâncias locais, mantém um acordo significativo entre diferentes modalidades. Com base nestas descobertas, propomos a Hipótese da Representação Aristotélica: as representações em redes neurais estão a convergir para relações de vizinhança locais partilhadas.

Incorporação de Posição Rotacional com Consciência Geométrica para um Modelo de Mundo de Vídeo Consistente
Geometry-Aware Rotary Position Embedding for Consistent Video World Model

Feb 8

ByChendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu

Modelos preditivos de mundo que simulam observações futuras sob controle explícito de câmera são fundamentais para a IA interativa. Apesar dos rápidos avanços, os sistemas atuais carecem de persistência espacial: eles falham em manter estruturas de cena estáveis ao longo de trajetórias longas, frequentemente alucinando detalhes quando as câmeras revisitam locais previamente observados. Nós identificamos que esta deriva geométrica decorre da dependência de *embeddings* posicionais no espaço de tela, que entram em conflito com a geometria projetiva necessária para a consistência 3D. Apresentamos o ViewRope, uma codificação consciente da geometria que injeta direções de raios da câmera diretamente nas camadas de auto-atenção dos transformadores de vídeo. Ao parametrizar a atenção com a geometria relativa dos raios em vez da localidade dos pixels, o ViewRope fornece um viés indutivo nativo ao modelo para recuperar conteúdo 3D consistente através de intervalos temporais. Propomos ainda a *Geometry-Aware Frame-Sparse Attention* (Atenção Esparsa entre Quadros Consciente da Geometria), que explora essas pistas geométricas para atender seletivamente a quadros históricos relevantes, melhorando a eficiência sem sacrificar a consistência da memória. Também apresentamos o ViewBench, um conjunto de ferramentas de diagnóstico que mede a fidelidade no fechamento de loop e a deriva geométrica. Nossos resultados demonstram que o ViewRope melhora substancialmente a consistência de longo prazo enquanto reduz os custos computacionais.

Sobre a Eficácia Surpreendente das Atualizações de Mascaramento em Otimizadores Adaptativos
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers

Feb 17

ByTaejong Joo, Wenhan Xia, Cheolmin Kim, Ming Zhang, Eugene Ie

O treinamento de grandes modelos de linguagem (LLMs) depende quase exclusivamente de otimizadores adaptativos densos com precondicionadores cada vez mais sofisticados. Nós contestamos este paradigma ao demonstrar que a aplicação aleatória de máscaras às atualizações de parâmetros pode ser altamente eficaz, com uma variante mascarada do RMSProp superando consistentemente otimizadores recentes de última geração. Nossa análise revela que o mascaramento aleatório induz uma regularização geométrica dependente da curvatura que suaviza a trajetória de otimização. Motivados por esta descoberta, introduzimos o Mascaramento de Gradiente Alinhado ao Momentum (Magma), que modula as atualizações mascaradas usando o alinhamento momentum-gradiente. Extensos experimentos de pré-treinamento de LLMs mostram que o Magma é um substituto simples e direto para otimizadores adaptativos, proporcionando ganhos consistentes com sobrecarga computacional insignificante. Notavelmente, para o tamanho de modelo de 1B, o Magma reduz a perplexidade em mais de 19% e 9% em comparação com Adam e Muon, respectivamente.

HLE-Verificado: Uma Verificação Sistemática e Revisão Estruturada do Exame Final da Humanidade
HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam

Feb 15

ByWeiqi Zhai, Zhihai Wang, Jinghang Wang, Boyu Yang, Xiaogang Li, Xiang Xu, Bohan Wang, Peng Wang, Xingzhe Wu, Anfeng Li, Qiyuan Feng, Yuhao Zhou, Shoulin Han, Wenjie Luo, Yiyuan Li, Yaxuan Wang, Ruixian Luo, Guojie Lin, Peiyao Xiao, Chengliang Xu, Ben Wang, Zeyu Wang, Zichao Chen, Jianan Ye, Yijie Hu, Jialong Chen, Zongwen Shen, Yuliang Xu, An Yang, Bowen Yu, Dayiheng Liu, Junyang Lin, Hu Wei, Que Shen, Bing Zhao

O Exame Final da Humanidade (HLE) tornou-se um benchmark amplamente utilizado para avaliar modelos de linguagem de última geração em questões complexas e multidomínio. No entanto, análises conduzidas pela comunidade levantaram preocupações de que o HLE contém um número não trivial de itens ruidosos, o que pode enviesar os resultados da avaliação e distorcer comparações entre modelos. Para enfrentar este desafio, introduzimos o HLE-Verified, uma versão verificada e revisada do HLE com um protocolo de verificação transparente e uma taxonomia de erros de granularidade fina. A nossa construção segue um fluxo de trabalho de validação e reparação em duas fases, resultando num benchmark certificado. Na Fase I, cada item passa por uma validação binária do problema e da resposta final através de revisão por especialistas de domínio e verificações cruzadas baseadas em modelos, resultando em 641 itens verificados. Na Fase II, itens com defeito mas reparáveis são revisados sob restrições rigorosas que preservam a intenção avaliativa original, através de reparações duplas independentes por especialistas, auditoria assistida por modelos e adjudicação final, resultando em 1.170 itens revistos e certificados. Os restantes 689 itens são disponibilizados como um conjunto incerto documentado, com fontes de incerteza explícitas e etiquetas de especialidade para refinamento futuro. Avaliámos sete modelos de linguagem state-of-the-art no HLE e no HLE-Verified, observando um ganho médio absoluto de precisão de 7 a 10 pontos percentuais no HLE-Verified. A melhoria é particularmente pronunciada nos itens em que o enunciado do problema original e/ou a resposta de referência são erróneos, com ganhos de 30 a 40 pontos percentuais. As nossas análises revelam ainda uma forte associação entre a confiança do modelo e a presença de erros no enunciado do problema ou na resposta de referência, apoiando a eficácia das nossas revisões. Globalmente, o HLE-Verified melhora as avaliações do estilo HLE, reduzindo o ruído de anotação e permitindo uma medição mais fiel das capacidades dos modelos. Os dados estão disponíveis em: https://github.com/SKYLENAGE-AI/HLE-Verified

TAROT: Ajuste Fino por Reforço Curricular Orientado a Testes e Adaptativo à Capacidade para Geração de Código com Grandes Modelos de Linguagem
TAROT: Test-driven and Capability-adaptive Curriculum Reinforcement Fine-tuning for Code Generation with Large Language Models

Feb 17

ByChansung Park, Juyong Jiang, Fan Wang, Sayak Paul, Jiasi Shen, Jing Tang, Jianguo Li

Os Grandes Modelos de Linguagem (LLMs) estão a alterar o paradigma da programação, conhecido como "vibe coding", mas a síntese de código algoritmicamente sofisticado e robusto continua a ser um desafio crítico. Incentivar as capacidades de raciocínio profundo dos LLMs é essencial para superar este obstáculo. O Ajuste Fino por Reforço (RFT) emergiu como uma estratégia promissora para atender a esta necessidade. No entanto, a maioria das abordagens existentes ignora a dificuldade heterogénea e a granularidade inerentes aos casos de teste, levando a uma distribuição desequilibrada dos sinais de recompensa e, consequentemente, a atualizações de gradiente enviesadas durante o treino. Para resolver isto, propomos o Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). O TAROT constrói sistematicamente, para cada problema, uma suíte de testes de quatro níveis (básico, intermédio, complexo, extremo), fornecendo uma paisagem de dificuldade controlada para o desenho curricular e avaliação. Crucialmente, o TAROT desacopla a progressão curricular das pontuações brutas de recompensa, permitindo uma avaliação condicionada pela capacidade e uma seleção fundamentada a partir de um portfólio de políticas curriculares, em vez de uma composição incidental da dificuldade dos casos de teste. Este desenho promove uma otimização estável e uma aquisição de competência mais eficiente. Resultados experimentais extensivos revelam que o currículo ótimo para RFT na geração de código está intimamente ligado à capacidade inerente do modelo: modelos menos capazes alcançam ganhos maiores com uma progressão fácil-para-difícil, enquanto modelos mais competentes se destacam sob um currículo difícil-primeiro. O TAROT fornece um método reproduzível que adapta o desenho curricular à capacidade de um modelo, melhorando assim consistentemente a correção funcional e a robustez do código gerado. Todo o código e dados são disponibilizados para promover a reprodutibilidade e avançar a investigação comunitária em https://github.com/deep-diver/TAROT.

COMPOT: Ortogonalização de Procrustes Matricial Otimizada por Calibração para Compressão de Transformers
COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression

Feb 16

ByDenis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Ammar Ali, Baher Mohammad, Stamatios Lefkimmiatis

A compressão pós-treinamento de modelos Transformer baseia-se comumente na decomposição de valores singulares truncada (SVD). No entanto, impor um único subespaço partilhado pode degradar a precisão mesmo em compressões moderadas. A aprendizagem de dicionários esparsos fornece uma representação mais flexível de união de subespaços, mas as abordagens existentes sofrem frequentemente de atualizações iterativas de dicionários e coeficientes. Propomos o COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), uma estrutura de compressão sem treinamento que utiliza um pequeno conjunto de dados de calibração para estimar uma fatorização esparsa dos pesos. O COMPOT emprega dicionários ortogonais que permitem atualizações de Procrustes de forma fechada para o dicionário e uma codificação esparsa analítica em passo único para os coeficientes, eliminando a otimização iterativa. Para lidar com a sensibilidade heterogénea das camadas sob um orçamento global de compressão, o COMPOT introduz ainda uma estratégia de alocação dinâmica única que redistribui adaptativamente as taxas de compressão por camada. Experiências extensas em diversas arquiteturas e tarefas mostram que o COMPOT oferece consistentemente um compromisso qualidade-compressão superior em comparação com fortes baselines de baixo posto e esparsas, mantendo-se totalmente compatível com a quantização pós-treinamento para compressão extrema. O código está disponível {aqui}(https://github.com/mts-ai/COMPOT).

Causal-JEPA: Aprendizagem de Modelos do Mundo através de Intervenções Latentes a Nível de Objeto
Causal-JEPA: Learning World Models through Object-Level Latent Interventions

Feb 11

ByHeejeong Nam, Quentin Le Lidec, Lucas Maes, Yann LeCun, Randall Balestriero

Os modelos de mundo exigem uma compreensão relacional robusta para suportar previsão, raciocínio e controle. Embora as representações centradas em objetos forneçam uma abstração útil, elas não são suficientes para capturar dinâmicas dependentes de interações. Portanto, propomos o C-JEPA, um modelo de mundo centrado em objetos simples e flexível que estende a previsão de incorporação conjunta mascarada de *patches* de imagem para representações centradas em objetos. Ao aplicar um mascaramento a nível de objetos que exige que o estado de um objeto seja inferido a partir de outros objetos, o C-JEPA induz intervenções latentes com efeitos contrafactuais e previne soluções por atalho, tornando o raciocínio sobre interações essencial. Empiricamente, o C-JEPA resulta em ganhos consistentes em tarefas de resposta a perguntas visuais, com uma melhoria absoluta de cerca de 20% no raciocínio contrafactual em comparação com a mesma arquitetura sem mascaramento a nível de objetos. Em tarefas de controle de agentes, o C-JEPA permite um planeamento substancialmente mais eficiente, utilizando apenas 1% do total de características latentes de entrada necessárias para modelos de mundo baseados em *patches*, ao mesmo tempo que alcança um desempenho comparável. Por fim, fornecemos uma análise formal que demonstra que o mascaramento a nível de objetos induz um *bias* indutivo causal através de intervenções latentes. O nosso código está disponível em https://github.com/galilai-group/cjepa.

Compreensão vs. Geração: Navegando o Dilema de Otimização em Modelos Multimodais
Understanding vs. Generation: Navigating Optimization Dilemma in Multimodal Models

Feb 17

BySen Ye, Mengde Xu, Shuyang Gu, Di He, Liwei Wang, Han Hu

A pesquisa atual em modelos multimodais enfrenta um desafio fundamental: aprimorar as capacidades generativas frequentemente ocorre às custas da capacidade de compreensão, e vice-versa. Analisamos esse conflito e identificamos que a causa principal pode ser o potencial conflito entre geração e compreensão, o que cria uma dinâmica competitiva dentro do modelo. Para resolver isso, propomos o framework Raciocinar-Refletir-Refinar (R3). Este algoritmo inovador reformula a tarefa de geração em etapa única em um processo multi-etapas de "gerar-compreender-gerar novamente". Ao alavancar explicitamente a capacidade de compreensão do modelo durante a geração, mitigamos com sucesso o dilema de otimização, alcançando resultados de geração mais robustos e uma capacidade de compreensão aprimorada relacionada ao processo generativo. Isso oferece insights valiosos para o projeto de modelos multimodais unificados de próxima geração. O código está disponível em https://github.com/sen-ye/R3.

Panini: Aprendizado Contínuo no Espaço de Tokens por meio de Memória Estruturada
Panini: Continual Learning in Token Space via Structured Memory

Feb 16

ByShreyas Rajesh, Pavan Holur, Mehmet Yigit Turali, Chenda Duan, Vwani Roychowdhury

Os modelos de linguagem são cada vez mais utilizados para raciocinar sobre conteúdos nos quais não foram treinados, como novos documentos, conhecimentos em evolução e dados específicos do utilizador. Uma abordagem comum é a geração aumentada por recuperação (RAG), que armazena documentos textuais externamente (em fragmentos) e recupera apenas um subconjunto relevante no momento da inferência para um LLM raciocinar. No entanto, isto resulta num uso ineficiente da computação em tempo de teste (o LLM raciocina repetidamente sobre os mesmos documentos); além disso, a recuperação de fragmentos pode introduzir contexto irrelevante que aumenta a geração não suportada. Propomos uma estrutura de aprendizagem contínua não paramétrica, semelhante à humana, onde o modelo base permanece fixo e a aprendizagem ocorre através da integração de cada nova experiência num estado de memória semântica externa que se acumula e consolida continuamente. Apresentamos o Panini, que concretiza isto representando documentos como Espaços de Trabalho Semânticos Generativos (GSW) – uma rede consciente de entidades e eventos de pares pergunta-resposta (QA), suficiente para um LLM reconstruir as situações experienciadas e extrair conhecimento latente através de cadeias de inferência fundamentadas no raciocínio sobre a rede. Dada uma consulta, o Panini percorre apenas o GSW continuamente atualizado (não os documentos ou fragmentos textuais) e recupera as cadeias de inferência mais prováveis. Em seis benchmarks de QA, o Panini alcança o maior desempenho médio, 5%-7% superior a outras linhas de base competitivas, enquanto utiliza 2 a 30 vezes menos tokens de contexto-resposta, suporta pipelines totalmente de código aberto e reduz respostas não suportadas em consultas não respondíveis curadas. Os resultados mostram que uma estruturação eficiente e precisa das experiências no momento de escrita – como alcançado pela estrutura GSW – produz ganhos de eficiência e confiabilidade no momento de leitura. O código está disponível em https://github.com/roychowdhuryresearch/gsw-memory.

Persuasão Visual: O Que Influencia as Decisões dos Modelos de Visão e Linguagem?
Visual Persuasion: What Influences Decisions of Vision-Language Models?

Feb 17

ByManuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh

A web está repleta de imagens, originalmente criadas para consumo humano e agora cada vez mais interpretadas por agentes que utilizam modelos visão-linguagem (VLMs). Estes agentes tomam decisões visuais em escala, decidindo o que clicar, recomendar ou comprar. No entanto, sabemos pouco sobre a estrutura das suas preferências visuais. Introduzimos um quadro metodológico para estudar este fenómeno, colocando os VLMs em tarefas de escolha baseadas em imagens controladas e perturbando sistematicamente os seus inputs. A nossa ideia central é tratar a função de decisão do agente como uma utilidade visual latente que pode ser inferida através da preferência revelada: escolhas entre imagens editadas sistematicamente. Partindo de imagens comuns, como fotos de produtos, propomos métodos para otimização de *prompts* visuais, adaptando métodos de otimização de texto para propor e aplicar iterativamente modificações visualmente plausíveis usando um modelo de geração de imagens (por exemplo, na composição, iluminação ou fundo). Avaliamos depois quais as edições que aumentam a probabilidade de seleção. Através de experiências em larga escala com VLMs de última geração, demonstramos que edições otimizadas alteram significativamente as probabilidades de escolha em comparações diretas. Desenvolvemos um *pipeline* automático de interpretabilidade para explicar estas preferências, identificando temas visuais consistentes que impulsionam a seleção. Argumentamos que esta abordagem oferece uma forma prática e eficiente de detetar vulnerabilidades visuais e preocupações de segurança que, de outra forma, poderiam ser descobertas implicitamente em ambiente real, apoiando uma auditoria e governança mais proativas de agentes de IA baseados em imagem.

A Escala Prescritiva Revela a Evolução das Capacidades dos Modelos de Linguagem
Prescriptive Scaling Reveals the Evolution of Language Model Capabilities

Feb 17

ByHanlin Zhang, Jikai Jin, Vasilis Syrgkanis, Sham Kakade

Para a implantação de modelos de base, os profissionais necessitam cada vez mais de leis de dimensionamento prescritivas: dado um orçamento computacional para pré-treinamento, qual precisão *downstream* é atingível com as práticas contemporâneas de pós-treinamento, e quão estável é esse mapeamento à medida que a área evolui? Utilizando avaliações observacionais em larga escala com 5k dados observacionais e 2k dados recém-amostrados sobre o desempenho do modelo, estimamos fronteiras de capacidade, quantis condicionais elevados de pontuações de *benchmark* como uma função dos FLOPs de log de pré-treinamento, por meio de regressão quantílica suavizada com uma parametrização sigmoide monotônica e saturante. Validamos a confiabilidade temporal ajustando o modelo em gerações anteriores de modelos e avaliando em lançamentos posteriores. Em várias tarefas, as fronteiras estimadas são majoritariamente estáveis, com exceção do raciocínio matemático, que exibe uma fronteira em avanço consistente ao longo do tempo. Em seguida, estendemos nossa abordagem para analisar a saturação dependente da tarefa e investigar desvios relacionados à contaminação em tarefas de raciocínio matemático. Finalmente, introduzimos um algoritmo eficiente que recupera fronteiras de dados quase completas usando aproximadamente 20% do orçamento de avaliação. Em conjunto, nosso trabalho lança o Proteus 2k, o mais recente conjunto de dados de avaliação de desempenho de modelos, e introduz uma metodologia prática para traduzir orçamentos computacionais em expectativas de desempenho confiáveis e para monitorar quando as fronteiras de capacidade mudam ao longo do tempo.

STAPO: Estabilizando o Aprendizado por Reforço para LLMs por meio da Supressão de Tokens Espúrios Raros
STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens

Feb 17

ByShiqi Liu, Zeyu He, Guojian Zhan, Letian Tao, Zhilong Zheng, Jiang Wu, Yinuo Wang, Yang Guan, Kehua Sheng, Bo Zhang, Keqiang Li, Jingliang Duan, Shengbo Eben Li

O Aprendizado por Reforço (RL) melhorou significativamente o raciocínio de modelos de linguagem grandes, mas os métodos existentes de ajuste fino por RL dependem fortemente de técnicas heurísticas, como regularização de entropia e reamostragem, para manter a estabilidade. Na prática, eles frequentemente experimentam colapso de desempenho em estágios avançados, levando à degradação da qualidade do raciocínio e a treinamento instável. Nós derivamos que a magnitude dos gradientes da política por token no RL está negativamente correlacionada com a probabilidade do token e a entropia local da política. Com base nesse resultado, provamos que a instabilidade do treinamento é impulsionada por uma pequena fração de tokens, aproximadamente 0,01\%, que denominamos *tokens espúrios*. Quando tais tokens aparecem em respostas corretas, eles contribuem pouco para o resultado do raciocínio, mas herdam a recompensa completa em nível de sequência, levando a atualizações de gradiente anormalmente amplificadas. Motivados por essa observação, propomos o *Spurious-Token-Aware Policy Optimization* (STAPO) para refinamento de modelos em larga escala, que mascara seletivamente tais atualizações e renormaliza a perda sobre os tokens válidos. Em seis benchmarks de raciocínio matemático usando os modelos base Qwen 1.7B, 8B e 14B, o STAPO demonstra consistentemente estabilidade de entropia superior e alcança uma melhoria média de desempenho de 7,13\% sobre GRPO, 20-Entropy e JustRL.

Aprendizado de Continuação Nativa para Políticas de Fluxo de Agrupamento de Ações
Learning Native Continuation for Action Chunking Flow Policies

Feb 13

ByYufeng Liu, Hang Yu, Juntu Zhao, Bocheng Li, Di Zhang, Mingzhu Li, Wenxuan Wu, Yingdong Hu, Junyuan Xie, Junliang Guo, Dequan Wang, Yang Gao

A fragmentação de ações permite que os modelos Visão-Linguagem-Ação (VLA) operem em tempo real, mas a execução ingênua por fragmentos frequentemente exibe descontinuidades nas fronteiras entre os fragmentos. A Fragmentação em Tempo Real (RTC) atenua este problema, mas é externa à política, levando a comutações multimodais espúrias e trajetórias que não são intrinsecamente suaves. Propomos o *Legato*, um método de continuação durante o treinamento para políticas VLA baseadas em fluxo e fragmentadas por ação. Especificamente, o *Legato* inicializa a remoção de ruído a partir de uma mistura, moldada por um cronograma, de ações conhecidas e ruído, expondo o modelo a informações parciais de ação. Além disso, o *Legato* remodela a dinâmica de fluxo aprendida para garantir que o processo de remoção de ruído permaneça consistente entre o treinamento e a inferência sob orientação por passo. O *Legato* utiliza ainda um cronograma de condição aleatorizado durante o treinamento para suportar atrasos de inferência variáveis e alcançar uma suavidade controlável. Empiricamente, o *Legato* produz trajetórias mais suaves e reduz as comutações multimodais espúrias durante a execução, resultando em menos hesitação e menor tempo de conclusão da tarefa. Extensos experimentos no mundo real mostram que o *Legato* supera consistentemente o RTC em cinco tarefas de manipulação, alcançando melhorias de aproximadamente 10% tanto na suavidade da trajetória quanto no tempo de conclusão da tarefa.

O Buraco de Visão: Comunicação no Espaço Latente em Sistemas Multiagentes Heterogêneos
The Vision Wormhole: Latent-Space Communication in Heterogeneous Multi-Agent Systems

Feb 17

ByXiaoze Liu, Ruowang Zhang, Weichen Yu, Siheng Xiong, Liu He, Feijie Wu, Hoin Jung, Matt Fredrikson, Xiaoqian Wang, Jing Gao

Os Sistemas Multiagente (MAS) potenciados por Modelos de Linguagem de Grande Escala permitiram um raciocínio colaborativo avançado, mas continuam limitados pela ineficiência da comunicação discreta de texto, que impõe uma sobrecarga computacional significativa e perda de informação por quantização. Embora a transferência de estados latentes ofereça uma alternativa de alta largura de banda, as abordagens existentes ou assumem arquiteturas homogéneas de transmissor-receptor ou dependem de tradutores aprendidos específicos por par, limitando a escalabilidade e a modularidade entre diversas famílias de modelos com variedades disjuntas. Neste trabalho, propomos o Vision Wormhole, um novo quadro conceptual que reaproveita a interface visual dos Modelos de Linguagem e Visão (VLMs) para permitir uma comunicação livre de texto e independente do modelo. Ao introduzir um Codec Visual Universal, mapeamos traços de raciocínio heterogéneos para um espaço latente contínuo partilhado e injetamo-los diretamente no percurso visual do recetor, tratando efetivamente o codificador visual como uma porta universal para telepatia interagente. O nosso quadro adota uma topologia hub-and-spoke para reduzir a complexidade do alinhamento aos pares de O(N²) para O(N) e aproveita um objetivo de destilação professor-aluno sem rótulos para alinhar o canal visual de alta velocidade com os padrões de raciocínio robustos do percurso de texto. Experiências extensas em diversas famílias de modelos heterogéneos (por exemplo, Qwen-VL, Gemma) demonstram que o Vision Wormhole reduz o tempo de execução de ponta a ponta em comparações controladas, mantendo uma fidelidade de raciocínio comparável aos MAS baseados em texto padrão. O código está disponível em https://github.com/xz-liu/heterogeneous-latent-mas.

ClinAlign: Ampliando o Alinhamento em Saúde a partir da Preferência Clínica
ClinAlign: Scaling Healthcare Alignment from Clinician Preference

Feb 10

ByShiwei Lyu, Xidong Wang, Lei Liu, Hao Zhu, Chaohe Zhang, Jian Wang, Jinjie Gu, Benyou Wang, Yue Shen

Embora os grandes modelos de linguagem (LLMs) demonstrem conhecimento médico em nível de especialista, alinhar suas respostas de livre geração com as preferências refinadas dos clínicos continua sendo um desafio. Os métodos existentes frequentemente dependem de objetivos genéricos ou de avaliadores automáticos não confiáveis, com fraca fundamentação em diretrizes profissionais. Propomos uma estrutura de trabalho em dois estágios para abordar essa lacuna. Primeiro, apresentamos o HealthRubrics, um conjunto de dados com 7.034 exemplos de preferência verificados por médicos, nos quais clínicos refinam rubricas elaboradas por LLMs para atender a rigorosos padrões médicos. Segundo, destilamos essas rubricas em HealthPrinciples: 119 princípios amplamente reutilizáveis, fundamentados clinicamente e organizados por dimensões clínicas, permitindo uma supervisão escalável além da anotação manual. Utilizamos os HealthPrinciples para (1) alinhamento offline, sintetizando rubricas para consultas não rotuladas, e (2) como uma ferramenta em tempo de inferência para autorrevisão guiada. Um modelo de 30B de parâmetros que ativa apenas 3B de parâmetros durante a inferência, treinado com nossa estrutura, alcança 33,4% no HealthBench-Hard, superando modelos muito maiores, incluindo Deepseek-R1 e o3, estabelecendo uma linha de base eficiente em recursos para o alinhamento clínico.

Detecção de Estouro em Representações de Tokens Comprimidos para Geração Aumentada por Recuperação
Detecting Overflow in Compressed Token Representations for Retrieval-Augmented Generation

Feb 12

ByJulia Belikova, Danila Rozhevskii, Dennis Svirin, Konstantin Polev, Alexander Panchenko

O processamento eficiente de contexto longo continua a ser um desafio crucial para os modelos de linguagem de grande escala (LLMs) contemporâneos, especialmente em ambientes com recursos limitados. As arquiteturas de compressão suave prometem estender o comprimento efetivo do contexto substituindo longas sequências de *tokens* por conjuntos menores de *tokens* comprimidos aprendidos. No entanto, os limites da compressibilidade — e quando a compressão começa a eliminar conteúdo relevante para a tarefa — permanecem pouco explorados. Neste artigo, definimos *token overflow* (transbordamento de *tokens*) como um regime no qual as representações comprimidas não contêm mais informações suficientes para responder a uma consulta específica e propomos uma metodologia para caracterizá-lo e detetá-lo. No cenário de compressão suave xRAG, descobrimos que as estatísticas de saturação independentes da consulta separam de forma confiável as representações de *tokens* comprimidas das não comprimidas, fornecendo uma ferramenta prática para identificar *tokens* comprimidos, mas mostrando capacidade limitada de deteção de *overflow*. Classificadores de sondagem leves aplicados às representações xRAG da consulta e do contexto detetam o *overflow* com uma AUC-ROC média de 0,72 nos conjuntos de dados HotpotQA, SQuADv2 e TriviaQA, demonstrando que a incorporação de informações da consulta melhora o desempenho da deteção. Estes resultados representam um avanço em relação a diagnósticos independentes da consulta para detetores conscientes da consulta, permitindo um pré-*gateamento* de baixo custo antes do LLM para mitigar erros induzidos pela compressão.

Quanto Raciocínio os Modelos Aumentados por Recuperação Adicionam Além dos LLMs? Um Framework de Avaliação para Inferência Multi-Hop sobre Conhecimento Híbrido
How Much Reasoning Do Retrieval-Augmented Models Add beyond LLMs? A Benchmarking Framework for Multi-Hop Inference over Hybrid Knowledge

Feb 10

ByJunhong Lin, Bing Zhang, Song Wang, Ziyan Liu, Dan Gutfreund, Julian Shun, Yada Zhu

Os grandes modelos de linguagem (LLMs) continuam a enfrentar dificuldades com questões que exigem conhecimento intensivo, informações atualizadas e raciocínio multi-hop. Aumentar os LLMs com conhecimento externo híbrido, como texto não estruturado e grafos de conhecimento estruturados, oferece uma alternativa promissora ao dispendioso pré-treinamento contínuo. Dessa forma, uma avaliação confiável das suas capacidades de recuperação e raciocínio torna-se crítica. No entanto, muitos benchmarks existentes sobrepõem-se cada vez mais com os dados de pré-treinamento dos LLMs, o que significa que as respostas ou o conhecimento de suporte podem já estar codificados nos parâmetros do modelo, dificultando a distinção entre recuperação e raciocínio genuínos e a recordação paramétrica. Apresentamos o HybridRAG-Bench, uma estrutura para construir benchmarks que avaliam o raciocínio multi-hop e intensivo em recuperação sobre conhecimento híbrido. O HybridRAG-Bench acopla automaticamente representações de texto não estruturado e de grafos de conhecimento estruturados derivados de literatura científica recente no arXiv, e gera pares pergunta-resposta com conhecimento intensivo baseados em caminhos de raciocínio explícitos. A estrutura suporta uma seleção flexível de domínio e período temporal, permitindo uma avaliação personalizável e consciente da contaminação à medida que os modelos e o conhecimento evoluem. Experiências em três domínios (inteligência artificial, governança e políticas, e bioinformática) demonstram que o HybridRAG-Bench recompensa a recuperação e o raciocínio genuínos em vez da recordação paramétrica, oferecendo um ambiente de teste fundamentado para avaliar sistemas de raciocínio aumentados por conhecimento híbrido. Disponibilizamos o nosso código e dados em github.com/junhongmit/HybridRAG-Bench.