HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

19 papers found

Redes de Habilidades Programáticas em Evolução
Evolving Programmatic Skill Networks

Jan 7

ByHaochen Shi, Xingdi Yuan, Bang Liu

Estudamos a aquisição contínua de habilidades em ambientes corporificados abertos, onde um agente deve construir, refinar e reutilizar uma biblioteca em expansão de habilidades executáveis. Introduzimos a Rede de Habilidades Programáticas (PSN), uma estrutura na qual as habilidades são programas simbólicos executáveis que formam uma rede composicional que evolui através da experiência. A PSN define três mecanismos centrais instanciados via modelos de linguagem de grande escala: (1) REFLECT para localização estruturada de falhas em composições de habilidades, (2) otimização progressiva com bloqueio de atualização baseado em maturidade que estabiliza habilidades confiáveis enquanto mantém plasticidade para as incertas, e (3) refatoração estrutural canônica com validação de reversão que mantém a compactação da rede. Demonstramos ainda que a dinâmica de aprendizagem da PSN exibe paralelos estruturais com o treinamento de redes neurais. Experimentos no MineDojo e Crafter demonstram reutilização robusta de habilidades, adaptação rápida e forte generalização em distribuições de tarefas abertas.\footnote{Planeamos disponibilizar o código em acesso aberto.}

Ajuste Fino Adaptativo de Entropia: Resolvendo Conflitos de Confiança para Mitigar o Esquecimento
Entropy-Adaptive Fine-Tuning: Resolving Confident Conflicts to Mitigate Forgetting

Jan 5

ByMuxi Diao, Lele Yang, Wuxuan Gong, Yutong Zhang, Zhonghao Yan, Yufei Han, Kongming Liang, Weiran Xu, Zhanyu Ma

A Afinação Supervisionada (SFT) é o paradigma padrão para adaptação de domínio, mas frequentemente incorre no custo do esquecimento catastrófico. Em nítido contraste, o Aprendizado por Reforço (RL) *on-policy* preserva eficazmente as capacidades gerais. Investigamos esta discrepância e identificamos uma lacuna distribucional fundamental: enquanto o RL se alinha com a crença interna do modelo, o SFT força o modelo a ajustar-se a uma supervisão externa. Este desalinhamento manifesta-se frequentemente como *tokens* de "Conflitos Confiantes", caracterizados por baixa probabilidade mas baixa entropia. Nestes casos, o modelo está altamente confiante na sua própria previsão, mas é forçado a aprender uma verdade fundamental divergente, desencadeando atualizações de gradiente destrutivas. Para resolver isto, propomos a Afinação com Adaptação de Entropia (EAFT). Ao contrário de métodos que dependem apenas da probabilidade de previsão, o EAFT utiliza a entropia a nível de *token* como um mecanismo de portão para distinguir entre incerteza epistémica e conflito de conhecimento. Isto permite que o modelo aprenda a partir de amostras incertas, enquanto suprime os gradientes em dados conflituosos. Experiências extensas nas séries Qwen e GLM (variando de 4B a 32B de parâmetros) em domínios matemáticos, médicos e de agentes confirmam a nossa hipótese. O EAFT iguala consistentemente o desempenho a jusante do SFT padrão, enquanto mitiga significativamente a degradação das capacidades gerais.

Atlas: Orquestração de Modelos e Ferramentas Heterogêneas para Raciocínio Complexo em Múltiplos Domínios
Atlas: Orchestrating Heterogeneous Models and Tools for Multi-Domain Complex Reasoning

Jan 7

ByJinyang Wu, Guocheng Zhai, Ruihan Jin, Jiahao Yuan, Yuhao Shen, Shuai Zhang, Zhengqi Wen, Jianhua Tao

A integração de grandes modelos de linguagem (LLMs) com ferramentas externas expandiu significativamente as capacidades de agentes de IA. No entanto, à medida que a diversidade de LLMs e ferramentas aumenta, a seleção da combinação ideal modelo-ferramenta torna-se um desafio de otimização de alta dimensionalidade. As abordagens existentes frequentemente dependem de um único modelo ou de uma lógica fixa de chamada de ferramentas, falhando em explorar as variações de desempenho entre pares heterogêneos modelo-ferramenta. Neste artigo, apresentamos o ATLAS (Alinhamento Adaptativo Ferramenta-LLM e Invocação Sinérgica), uma estrutura de duplo percurso para uso dinâmico de ferramentas em raciocínio complexo cross-domain. O ATLAS opera através de uma abordagem de duplo percurso: (1) roteamento baseado em clusters sem treinamento que explora prévias empíricas para alinhamento domain-specific, e (2) roteamento multi-etapa baseado em RL que explora trajetórias autônomas para generalização out-of-distribution. Experimentos extensos em 15 benchmarks demonstram que nosso método supera modelos de código fechado como o GPT-4o, ultrapassando métodos de roteamento existentes tanto em tarefas in-distribution (+10,1%) quanto out-of-distribution (+13,1%). Além disso, nossa estrutura mostra ganhos significativos em raciocínio visual ao orquestrar ferramentas multimodais especializadas.

Benchmark^2: Avaliação Sistemática de Benchmarks para LLMs
Benchmark^2: Systematic Evaluation of LLM Benchmarks

Jan 7

ByQi Qian, Chengsong Huang, Jingwen Xu, Changze Lv, Muling Wu, Wenhao Liu, Xiaohua Wang, Zhenghua Wang, Zisu Huang, Muzhao Tian, Jianhan Xu, Kun Hu, He-Da Wang, Yao Hu, Xuanjing Huang, Xiaoqing Zheng

A rápida proliferação de benchmarks para avaliação de grandes modelos de linguagem (LLMs) criou uma necessidade urgente de métodos sistemáticos para avaliar a própria qualidade dos benchmarks. Propomos o Benchmark², uma estrutura abrangente composta por três métricas complementares: (1) Consistência de Classificação entre Benchmarks, que mede se um benchmark produz classificações de modelos alinhadas com benchmarks pares; (2) Pontuação de Discriminabilidade, que quantifica a capacidade de um benchmark de diferenciar entre modelos; e (3) Desvio de Alinhamento de Capacidade, identificando instâncias problemáticas onde modelos mais fortes falham, mas modelos mais fracos obtêm sucesso dentro da mesma família de modelos. Realizamos experimentos extensos em 15 benchmarks abrangendo domínios de matemática, raciocínio e conhecimento, avaliando 11 LLMs de quatro famílias de modelos. Nossa análise revela variações significativas de qualidade entre os benchmarks existentes e demonstra que a construção seletiva de benchmarks com base em nossas métricas pode alcançar desempenho de avaliação comparável com conjuntos de teste substancialmente reduzidos.

Coreografando um Mundo de Objetos Dinâmicos
Choreographing a World of Dynamic Objects

Jan 7

ByYanzhe Lyu, Chen Geng, Karthik Dharmarajan, Yunzhi Zhang, Hadi Alzayer, Shangzhe Wu, Jiajun Wu

Objetos dinâmicos em nosso mundo físico 4D (3D + tempo) estão em constante evolução, deformação e interação com outros objetos, resultando em dinâmicas de cena 4D diversificadas. Neste artigo, apresentamos CHORD, um pipeline generativo universal para coreografar objetos e cenas dinâmicas e sintetizar este tipo de fenômeno. Os pipelines gráficos tradicionais baseados em regras para criar essas dinâmicas fundamentam-se em heurísticas específicas por categoria, mas são laboriosos e não escaláveis. Métodos recentes baseados em aprendizado geralmente exigem conjuntos de dados em larga escala, que podem não abranger todas as categorias de objetos de interesse. Nossa abordagem, em vez disso, herda a universalidade dos modelos generativos de vídeo ao propor um pipeline baseado em destilação para extrair as ricas informações de movimento Lagrangiano ocultas nas representações Eulerianas de vídeos 2D. Nosso método é universal, versátil e agnóstico em relação a categorias. Demonstramos sua eficácia através de experimentos para gerar uma ampla gama de dinâmicas 4D de corpos múltiplos, mostramos sua vantagem em comparação com métodos existentes e demonstramos sua aplicabilidade na geração de políticas de manipulação robótica. Página do projeto: https://yanzhelyu.github.io/chord

Aprimorando a Competência Linguística de Modelos de Linguagem por Meio de Pré-treinamento com Tarefas de Aprendizado de Línguas
Enhancing Linguistic Competence of Language Models through Pre-training with Language Learning Tasks

Jan 6

ByAtsuki Yamaguchi, Maggie Mi, Nikolaos Aletras

Os modelos de linguagem (MLs) são pré-treinados em conjuntos de dados de texto bruto para gerar sequências textuais token a token. Embora esta abordagem facilite a aprendizagem de conhecimento mundial e raciocínio, não otimiza explicitamente a competência linguística. Para colmatar esta lacuna, propomos o L2T, uma estrutura de pré-treinamento que integra Tarefas de Aprendizagem de Linguagem juntamente com a previsão padrão do próximo token. Inspirado pela aquisição da linguagem humana, o L2T transforma texto bruto em pares estruturados de entrada-saída para fornecer estimulação linguística explícita. O pré-treinamento de MLs com uma mistura de texto bruto e dados L2T não só melhora o desempenho geral em benchmarks de competência linguística, como acelera a sua aquisição, mantendo simultaneamente um desempenho competitivo em tarefas de raciocínio geral.

Rúbricas Agênticas como Verificadores Contextuais para Agentes de Engenharia de Software
Agentic Rubrics as Contextual Verifiers for SWE Agents

Jan 7

ByMohit Raghavendra, Anisha Gunjal, Bing Liu, Yunzhong He

A verificação é fundamental para a melhoria de agentes: ela fornece o sinal de recompensa para o Aprendizado por Reforço e possibilita ganhos durante a inferência através do Escalonamento no Momento do Teste (TTS). Apesar de sua importância, a verificação em configurações de agentes de Engenharia de Software (SWE) frequentemente depende da execução de código, o que pode ser difícil de escalar devido à sobrecarga de configuração do ambiente. Alternativas escaláveis, como classificadores de patches e métodos heurísticos, existem, mas são menos fundamentadas no contexto da base de código e mais difíceis de interpretar. Para isso, exploramos as Rubricas Agênticas: um agente especialista interage com o repositório para criar uma lista de verificação de rubrica contextualizada, e os patches candidatos são então pontuados com base nela, sem exigir a execução de testes. No SWE-Bench Verified sob avaliação TTS paralela, as Rubricas Agênticas alcançam uma pontuação de 54,2% no Qwen3-Coder-30B-A3B e 40,6% no Qwen3-32B, representando um ganho de pelo menos +3,5 pontos percentuais em relação à linha de base mais forte em nosso conjunto de comparação. Analisamos ainda o comportamento da rubrica, mostrando que as pontuações são consistentes com os testes de ground-truth, ao mesmo tempo que sinalizam problemas que os testes não capturam. Nossas ablações mostram que a coleta de contexto agêntica é essencial para produzir critérios específicos da base de código e inequívocos. Juntos, esses resultados sugerem que as Rubricas Agênticas fornecem um sinal de verificação eficiente, escalável e granular para agentes de SWE.

E-GRPO: Passos de Alta Entropia Conduzem o Aprendizado por Reforço Eficaz para Modelos de Fluxo
E-GRPO: High Entropy Steps Drive Effective Reinforcement Learning for Flow Models

Jan 1

ByShengjun Zhang, Zhang Zhang, Chensheng Dai, Yueqi Duan

Recentemente, os avanços em aprendizagem por reforço têm aprimorado os modelos de correspondência de fluxo (flow matching) no alinhamento de preferências humanas. Embora a amostragem estocástica permita a exploração de direções de remoção de ruído, os métodos existentes que otimizam múltiplas etapas de desruído sofrem com sinais de recompensa esparsos e ambíguos. Observamos que as etapas de alta entropia possibilitam uma exploração mais eficiente e eficaz, enquanto as etapas de baixa entropia resultam em trajetórias indistinguíveis. Para tanto, propomos o E-GRPO, uma Otimização de Política Relativa de Grupo com Consciência Entrópica, para aumentar a entropia das etapas de amostragem de EDEs. Uma vez que a integração de equações diferenciais estocásticas sofre com sinais de recompensa ambíguos devido à estocasticidade de múltiplas etapas, nós consolidamos especificamente etapas consecutivas de baixa entropia para formular uma única etapa de alta entropia para amostragem de EDE, aplicando amostragem de EDOs nas demais etapas. Com base nisso, introduzimos a vantagem normalizada de grupo multi-etapa, que calcula vantagens relativas ao grupo dentro de amostras que compartilham a mesma etapa consolidada de desruído por EDE. Resultados experimentais em diferentes configurações de recompensa demonstraram a eficácia de nossos métodos.

Klear: Geração Conjunta Áudio-Vídeo Unificada em Múltiplas Tarefas
Klear: Unified Multi-Task Audio-Video Joint Generation

Jan 7

ByJun Wang, Chunyu Qiang, Yuxin Guo, Yiran Wang, Xijuan Zeng, Chen Zhang, Pengfei Wan

A geração conjunta de áudio e vídeo progrediu rapidamente, mas desafios substanciais ainda persistem. Abordagens não comerciais ainda sofrem com assincronia áudio-visual, baixo alinhamento labial-fala e degradação unimodal, problemas que podem ser originados pela modelagem fraca de correspondência áudio-visual, generalização limitada e escassez de dados de alta qualidade com legendas densas. Para resolver essas questões, apresentamos o Klear e nos aprofundamos em três eixos: arquitetura do modelo, estratégia de treinamento e curadoria de dados. Arquitetonicamente, adotamos um design de torre única com blocos DiT unificados e um mecanismo de Atenção Completa Omni, alcançando um alinhamento áudio-visual rigoroso e alta escalabilidade. Quanto ao treinamento, adotamos um regime progressivo de múltiplas tarefas—com mascaramento aleatório de modalidades para otimização conjunta entre tarefas—e um currículo multietapas, produzindo representações robustas, fortalecendo o conhecimento alinhado áudio-visual e prevenindo colapso unimodal. Para conjuntos de dados, apresentamos o primeiro grande conjunto de dados áudio-vídeo com legendas densas e introduzimos um pipeline inédito e automatizado de construção de dados que anota e filtra milhões de trios áudio-vídeo-legenda diversos, de alta qualidade e estritamente alinhados. Com base nisso, o Klear escala para grandes conjuntos de dados, proporcionando geração de alta fidelidade, semanticamente e temporalmente alinhada, e que segue instruções em configurações conjuntas e unimodais, enquanto generaliza robustamente para cenários fora da distribuição original. Em diversas tarefas, ele supera substancialmente os métodos anteriores por uma grande margem e alcança desempenho comparável ao Veo 3, oferecendo um caminho unificado e escalável para a síntese de áudio e vídeo de próxima geração.

MDAgent2: Modelo de Linguagem de Grande Porte para Geração de Código e Perguntas e Respostas de Conhecimento em Dinâmica Molecular
MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

Jan 5

ByZhuofan Shi, Hubao A, Yufei Shao, Mengyan Dai, Yadong Yu, Pan Xiang, Dongliang Huang, Hongxu An, Chunxiao Xin, Haiyang Shen, Zhenyu Wang, Yunshan Na, Gang Huang, Xiang Jing

As simulações de dinâmica molecular (DM) são essenciais para a compreensão de comportamentos em escala atômica na ciência dos materiais, porém a escrita de scripts para LAMMPS permanece uma tarefa altamente especializada e demorada. Embora os LLMs mostrem potencial na geração de código e em respostas a perguntas específicas de domínio, o seu desempenho em cenários de DM é limitado pela escassez de dados do domínio, pelo alto custo de implantação dos LLMs de última geração e pela baixa capacidade de execução do código gerado. Com base no nosso MDAgent anterior, apresentamos o MDAgent2, a primeira estrutura de trabalho de ponta a ponta capaz de realizar tanto tarefas de Perguntas e Respostas (Q&A) de conhecimento quanto de geração de código no domínio da DM. Construímos um pipeline de construção de dados específico do domínio que produz três conjuntos de dados de alta qualidade abrangendo conhecimento de DM, perguntas e respostas e geração de código. Com base nestes conjuntos de dados, adotamos uma estratégia de pós-treinamento em três fases – pré-treinamento contínuo (CPT), ajuste fino supervisionado (SFT) e aprendizagem por reforço (RL) – para treinar dois modelos adaptados ao domínio, o MD-Instruct e o MD-Code. Além disso, introduzimos o MD-GRPO, um método de RL de ciclo fechado que utiliza os resultados da simulação como sinais de recompensa e recicla trajetórias de baixa recompensa para um refinamento contínuo. Desenvolvemos ainda o MDAgent2-RUNTIME, um sistema multiagente implantável que integra geração, execução, avaliação e autocorreção de código. Juntamente com o MD-EvalBench proposto neste trabalho, o primeiro benchmark para geração de código LAMMPS e perguntas e respostas, os nossos modelos e sistema alcançam um desempenho que supera várias linhas de base robustas. Este trabalho demonstra sistematicamente a adaptabilidade e a capacidade de generalização dos grandes modelos de linguagem em tarefas de simulação industrial, estabelecendo uma fundação metodológica para a geração automática de código em IA para a Ciência (AI for Science) e simulações em escala industrial. URL: https://github.com/FredericVAN/PKU_MDAgent2

PenseRL-Editar: Pensamento em Aprendizagem por Reforço para Edição de Imagens Centrada no Raciocínio
ThinkRL-Edit: Thinking in Reinforcement Learning for Reasoning-Centric Image Editing

Jan 6

ByHengjia Li, Liming Jiang, Qing Yan, Yizhi Song, Hao Kang, Zichuan Liu, Xin Lu, Boxi Wu, Deng Cai

A edição de imagens orientada por instruções com modelos generativos multimodais unificados avançou rapidamente, mas o seu raciocínio visual subjacente permanece limitado, levando a um desempenho abaixo do ideal em edições centradas no raciocínio. A aprendizagem por reforço (RL) tem sido investigada para melhorar a qualidade da edição de imagens, mas enfrenta três desafios principais: (1) exploração limitada do raciocínio confinada à estocasticidade da remoção de ruído, (2) fusão enviesada de recompensas e (3) recompensas de instrução baseadas em VLM instáveis. Neste trabalho, propomos o ThinkRL-Edit, um framework de RL centrado no raciocínio que desacopla o raciocínio visual da síntese de imagens e expande a exploração do raciocínio para além da remoção de ruído. Para tal, introduzimos uma amostragem de raciocínio baseada em Cadeia de Pensamento (CoT) com etapas de planeamento e reflexão antes da geração na amostragem *online*, obrigando o modelo a explorar múltiplas hipóteses semânticas e validar a sua plausibilidade antes de se comprometer com um resultado visual. Para evitar as falhas da agregação ponderada, propomos uma estratégia de agrupamento de preferências em cadeia não enviesada em múltiplas dimensões de recompensa. Além disso, substituímos as pontuações de VLM baseadas em intervalo por uma lista de verificação binária, produzindo recompensas mais precisas, de menor variância e interpretáveis para o raciocínio complexo. Experiências mostram que o nosso método supera significativamente trabalhos anteriores em edição de imagens centrada no raciocínio, produzindo edições fiéis à instrução, visualmente coerentes e semanticamente fundamentadas.

EpiQAL: Avaliação de Modelos de Linguagem de Grande Porte em Resposta a Perguntas Epidemiológicas para Melhor Alinhamento e Raciocínio
EpiQAL: Benchmarking Large Language Models in Epidemiological Question Answering for Enhanced Alignment and Reasoning

Jan 6

ByMingyang Wei, Dehai Min, Zewen Liu, Yuzhang Xie, Guanchen Wu, Carl Yang, Max S. Y. Lau, Qi He, Lu Cheng, Wei Jin

Um raciocínio epidemiológico confiável requer a síntese de evidências de estudos para inferir a carga de doença, a dinâmica de transmissão e os efeitos de intervenções ao nível populacional. Os atuais benchmarks de resposta a perguntas médicas enfatizam principalmente o conhecimento clínico ou o raciocínio ao nível do paciente, mas poucos avaliam sistematicamente a inferência epidemiológica fundamentada em evidências. Apresentamos o EpiQAL, o primeiro benchmark de diagnóstico para resposta a perguntas epidemiológicas abrangendo diversas doenças, composto por três subconjuntos construídos a partir de literatura de acesso aberto. Os subconjuntos avaliam, respetivamente, a recordação factual fundamentada em texto, a inferência multi-etapas que liga evidências documentais com princípios epidemiológicos, e a reconstrução de conclusões com a secção de Discussão omitida. A construção combina orientação de taxonomia desenhada por especialistas, verificação multi-modelo e controlo de dificuldade baseado em recuperação de informação. Experiências com dez modelos abertos revelam que os LLMs atuais apresentam desempenho limitado no raciocínio epidemiológico, sendo a inferência multi-etapas o maior desafio. As classificações dos modelos variam entre os subconjuntos, e a escala por si só não prevê o sucesso. O prompting de Cadeia de Pensamento beneficia a inferência multi-etapas, mas produz resultados mistos noutras áreas. O EpiQAL fornece sinais de diagnóstico granulares para fundamentação em evidências, raciocínio inferencial e reconstrução de conclusões.

RedBench: Um Conjunto de Dados Universal para a Testagem Abrangente de Modelos de Linguagem de Grande Porte
RedBench: A Universal Dataset for Comprehensive Red Teaming of Large Language Models

Jan 7

ByQuy-Anh Dang, Chris Ngo, Truong-Son Hy

À medida que os modelos de linguagem de grande escala (LLMs) se tornam componentes essenciais em aplicações críticas para a segurança, garantir sua robustez contra *prompts* adversários é de suma importância. No entanto, os conjuntos de dados de *red teaming* existentes sofrem com categorizações de risco inconsistentes, cobertura de domínio limitada e avaliações desatualizadas, dificultando avaliações sistemáticas de vulnerabilidades. Para enfrentar esses desafios, apresentamos o RedBench, um conjunto de dados universal que agrega 37 *benchmarks* de conferências e repositórios líderes, compreendendo 29.362 amostras entre *prompts* de ataque e de recusa. O RedBench emprega uma taxonomia padronizada com 22 categorias de risco e 19 domínios, permitindo avaliações consistentes e abrangentes das vulnerabilidades dos LLMs. Fornecemos uma análise detalhada dos conjuntos de dados existentes, estabelecemos linhas de base para LLMs modernos e disponibilizamos em código aberto o conjunto de dados e o código de avaliação. Nossas contribuições facilitam comparações robustas, fomentam pesquisas futuras e promovem o desenvolvimento de LLMs seguros e confiáveis para implantação no mundo real. Código: https://github.com/knoveleng/redeval

Por que os LLMs Ainda Não São Cientistas: Lições de Quatro Tentativas de Pesquisa Autônoma
Why LLMs Aren't Scientists Yet: Lessons from Four Autonomous Research Attempts

Jan 6

ByDhruv Trehan, Paras Chopra

Relatamos um estudo de caso de quatro tentativas de geração autônoma de artigos de pesquisa em ML (aprendizado de máquina) de ponta a ponta, utilizando um *pipeline* de seis agentes de LLM mapeados para as etapas do fluxo de trabalho científico. Dessas quatro tentativas, três falharam durante a implementação ou avaliação. Uma completou o *pipeline* e foi aceita para o Agents4Science 2025, um evento experimental inaugural que exigia sistemas de IA como primeiros autores, passando por revisão tanto humana quanto por múltiplas IAs. A partir dessas tentativas, documentamos seis modos de falha recorrentes: viés em direção aos padrões dos dados de treinamento, desvio de implementação sob pressão de execução, degradação de memória e contexto em tarefas de longo horizonte, superentusiasmo que declara sucesso apesar de falhas óbvias, inteligência de domínio insuficiente e senso científico fraco no desenho experimental. Concluímos discutindo quatro princípios de projeto para sistemas de IA-cientista mais robustos, as implicações para a descoberta científica autônoma, e disponibilizamos todos os *prompts*, artefatos e saídas em https://github.com/Lossfunk/ai-scientist-artefacts-v1.

RGS-SLAM: SLAM Robusto com Gaussian Splatting e Inicialização Densa em Uma Etapa
RGS-SLAM: Robust Gaussian Splatting SLAM with One-Shot Dense Initialization

Dec 28

ByWei-Tse Cheng, Yen-Jen Chiou, Yuan-Fu Yang

Apresentamos o RGS-SLAM, uma estrutura robusta de SLAM baseada em *splatting* Gaussiano que substitui a etapa de densificação baseada em resíduos do GS-SLAM por uma inicialização de correspondência-para-Gaussiana sem necessidade de treinamento. Em vez de adicionar progressivamente Gaussianas conforme os resíduos revelam geometria ausente, o RGS-SLAM executa uma triangulação única de correspondências densas multi-visão derivadas de descritores DINOv3, refinadas por meio de um classificador de *inliers* com consciência de confiança, gerando uma semente Gaussiana bem distribuída e consciente da estrutura antes da otimização. Esta inicialização estabiliza o mapeamento inicial e acelera a convergência em aproximadamente 20%, resultando em maior fidelidade de renderização em cenas ricas em textura e desordenadas, mantendo-se totalmente compatível com os *pipelines* existentes de GS-SLAM. Avaliado nos conjuntos de dados TUM RGB-D e Replica, o RGS-SLAM alcança precisão de localização e reconstrução competitiva ou superior em comparação com os sistemas de SLAM baseados em Gaussianas e pontos estado da arte, mantendo um desempenho de mapeamento em tempo real de até 925 FPS.

Pearmut: Avaliação Humana de Tradução Simplificada
Pearmut: Human Evaluation of Translation Made Trivial

Jan 6

ByVilém Zouhar, Tom Kocmi

A avaliação humana é o padrão-ouro para PLN multilingue, mas é frequentemente ignorada na prática e substituída por métricas automáticas, porque é notoriamente complexa e lenta de configurar com as ferramentas existentes, implicando uma sobrecarga substancial de engenharia e operação. Apresentamos o Pearmut, uma plataforma leve mas rica em funcionalidades que torna a avaliação humana de ponta a ponta tão fácil de executar quanto a avaliação automática. O Pearmut remove as barreiras comuns de entrada e fornece suporte para avaliar tarefas multilingues, com um foco particular na tradução automática. A plataforma implementa protocolos de avaliação padrão, incluindo DA, ESA ou MQM, mas também é extensível para permitir a prototipagem de novos protocolos. Inclui contexto ao nível do documento, avaliação absoluta e contrastiva, verificações de atenção, pré-anotações ESAAI e estratégias de atribuição baseadas em aprendizagem estática e ativa. O Pearmut permite que a avaliação humana fiável se torne um componente prático e rotineiro do desenvolvimento e diagnóstico de modelos, em vez de um esforço ocasional.

MAGMA: Uma Arquitetura de Memória Agêntica Baseada em Multigrafos para Agentes de IA
MAGMA: A Multi-Graph based Agentic Memory Architecture for AI Agents

Jan 6

ByDongming Jiang, Yi Li, Guanpeng Li, Bingzhe Li

A Geração Aumentada por Memória (MAG) estende os Modelos de Linguagem de Grande Porte com memória externa para suportar o raciocínio de contexto longo, mas as abordagens existentes dependem amplamente da similaridade semântica sobre armazenamentos de memória monolíticos, entrelaçando informações temporais, causais e de entidades. Este projeto limita a interpretabilidade e o alinhamento entre a intenção da consulta e a evidência recuperada, levando a uma precisão de raciocínio subótima. Neste artigo, propomos o MAGMA, uma arquitetura de memória agentiva multigrafo que representa cada item de memória através de grafos ortogonais semânticos, temporais, causais e de entidades. O MAGMA formula a recuperação como uma travessia guiada por políticas sobre essas visões relacionais, permitindo a seleção adaptável à consulta e a construção de contexto estruturado. Ao desacoplar a representação da memória da lógica de recuperação, o MAGMA fornece caminhos de raciocínio transparentes e controlo de granularidade fina sobre a recuperação. Experiências no LoCoMo e no LongMemEval demonstram que o MAGMA supera consistentemente os sistemas de memória agentiva state-of-the-art em tarefas de raciocínio de longo horizonte.

ResTok: Aprendizado de Resíduos Hierárquicos em Tokenizadores Visuais 1D para Geração Autoregressiva de Imagens
ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation

Jan 7

ByXu Zhang, Cheng Da, Huan Yang, Kun Gai, Ming Lu, Zhan Ma

Os tokenizadores visuais 1D existentes para geração autoregressiva (AR) seguem amplamente os princípios de design da modelagem de linguagem, pois são construídos diretamente sobre transformers cujos priores se originam na linguagem, produzindo tokens latentes de hierarquia única e tratando dados visuais como fluxos sequenciais planos de tokens. No entanto, esta formulação semelhante à linguagem ignora propriedades fundamentais da visão, particularmente os designs de redes hierárquicas e residuais que há muito são essenciais para convergência e eficiência em modelos visuais. Para trazer a "visão" de volta à visão, propomos o Residual Tokenizer (ResTok), um tokenizador visual 1D que constrói resíduos hierárquicos tanto para tokens de imagem quanto para tokens latentes. As representações hierárquicas obtidas através de fusão progressiva permitem a fusão de características entre níveis em cada camada, aumentando substancialmente a capacidade representacional. Entretanto, os resíduos semânticos entre hierarquias previnem sobreposição de informações, produzindo distribuições latentes mais concentradas que são mais fáceis para modelagem AR. Consequentemente, emergem vinculações entre níveis sem nenhuma restrição explícita. Para acelerar o processo de geração, introduzimos ainda um gerador AR hierárquico que reduz substancialmente os passos de amostragem ao prever um nível inteiro de tokens latentes de uma vez, em vez de gerá-los estritamente token por token. Experimentos extensivos demonstram que restaurar priores residuais hierárquicos na tokenização visual melhora significativamente a geração AR de imagens, alcançando um gFID de 2.34 no ImageNet-256 com apenas 9 passos de amostragem. O código está disponível em https://github.com/Kwai-Kolors/ResTok.

Gen3R: Geração de Cenas 3D Encontra a Reconstrução Feed-Forward
Gen3R: 3D Scene Generation Meets Feed-Forward Reconstruction

Jan 7

ByJiaxin Huang, Yuanbo Yang, Bangbang Yang, Lin Ma, Yuewen Ma, Yiyi Liao

Apresentamos o Gen3R, um método que une os fortes *priors* dos modelos fundacionais de reconstrução e dos modelos de difusão de vídeo para a geração 3D em nível de cena. Reaproveitamos o modelo de reconstrução VGGT para produzir latentes geométricos, treinando um adaptador em seus *tokens*, que são regularizados para se alinharem com os latentes de aparência de modelos de difusão de vídeo pré-treinados. Ao gerar conjuntamente esses latentes desacoplados, porém alinhados, o Gen3R produz tanto vídeos RGB quanto a geometria 3D correspondente, incluindo poses de câmera, mapas de profundidade e nuvens de pontos globais. Experimentos demonstram que nossa abordagem alcança resultados de última geração na geração de cenas 3D condicionadas a uma única imagem e a múltiplas imagens. Além disso, nosso método pode aumentar a robustez da reconstrução ao aproveitar os *priors* generativos, demonstrando o benefício mútuo do acoplamento estreito entre modelos de reconstrução e modelos generativos.

MDAgent2: Modelo de Linguagem de Grande Porte para Geração de Código e Perguntas e Respostas de Conhecimento em Dinâmica Molecular
MDAgent2: Large Language Model for Code Generation and Knowledge Q&A in Molecular Dynamics

Jan 5

ByZhuofan Shi, Hubao A, Yufei Shao, Mengyan Dai, Yadong Yu, Pan Xiang, Dongliang Huang, Hongxu An, Chunxiao Xin, Haiyang Shen, Zhenyu Wang, Yunshan Na, Gang Huang, Xiang Jing