HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

18 papers found

Relatório Técnico LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

ByMeituan LongCat Team, Anchun Gui, Bei Li, Bingyang Tao, Bole Zhou, Borun Chen, Chao Zhang, Chao Zhang, Chen Gao, Chen Zhang, Chengcheng Han, Chenhui Yang, Chuyu Zhang, Cong Chen, Cunguang Wang, Daoru Pan, Defei Bu, Dengchang Zhao, Di Xiu, Dishan Liu, Dongyu Ru, Dunwei Tu, Fan Wu, Fengcheng Yuan, Fengcun Li, Gang Xu, Guanyu Wu, Guoyuan Lin, Haibin Wang, Hansi Yang, Hao Yang, Haonan Yan, Haoxiang Ma, Haoxing Wen, Hongyan Hao, Hongyin Tang, Hongyu Zang, Hongzhi Ni, Hui Su, Jiacheng Zhang, Jiahong Zhou, Jiahuan Li, Jiaming Wang, Jian Yang, Jianfei Zhang, Jianhao Xu, Jianing Wang, Jiapeng Zhu, Jiaqi Sun, Jiarong Shi, Jiarui Zhao, Jingang Wang, Jinluan Yang, Jinrui Ding, Jinwei Xiao, Jiyuan He, Juncan Xu, Kefeng Zhang, Keheng Wang, Li Wei, Lianhui Ma, Lin Qiu, Lingbing Kong, Lingchuan Liu, Linsen Guo, Mengshen Zhu, Mengxia Shen, Mingyang Zhu, Peiguang Li, Peng Pei, Pengcheng Jia, Pengtao Zhang, Peng Zhao, Qi Gu, Qiong Huang, Qiyuan Duan, Quanchi Weng, Rongxiang Weng, Rongzhi Zhang, Rumei Li, Shanglin Lei, Shengnan An, Shijun Dai, Shuaikang Liu, Shuang Zhou, Shuo Wang, Songyuan Zhao, Tao Liang, Tianhao Hu, Tianze Chen, Wei Liu, Wei Shi, Wei Wang, Weifeng Tang, Wenjie Shi, Wenlong Zhu, Wentao Chen, Wentao Shi, Xi Su, Xiangcheng Liu, Xiandi Ma, Xiangyu Xi, Xiangyuan Liu, Xiangzhou Huang, Xiao Liu, Xiaodong Cai, Xiaolong Chen, Xiaowei Shi, Xiaoyu Li, Xin Chen, Xingchen Liu, Xuan Huang, Xuezhi Cao, Xunliang Cai, Yan Chen, Yang Bai, Yang Liu, Yang Yang, Yang Zheng, Yaoming Wang, Yaoming Zhu, Yaqi Huo, Yanyu Chen, Yaorui Shi, Yerui Sun, Yi Zhang, Yihao Chen, Yi-Kai Zhang, Yifan Lu, Yifan Zhao, Yitao Zhai, Yongjing Yin, Yongwei Zhou, Youshao Xiao, Yuchuan Dai, Yuchen Xie, Yuchen Yu, Yufei Zhang, Yuhuai Wei, Yulei Qian, Yunfan Liang, Yunke Zhao, Yuwei Jiang, Yuxin Bian, Yuxin Chen, Yuxin Liu, Yue Xu, Yueqing Sun, Zeyang Yu, Zhao Yang, Zhengsheng Huang, Zhengyu Chen, Zhijian Liu, Zhikang Xia, Zhimin Lin, Zhiyuan Yao, Zhuofan Chen, Zhuowen Han, Zijian Zhang, Ziran Li, Ziwen Wang, Ziyuan Zhuang

175

Apresentamos o LongCat-Flash-Thinking-2601, um modelo de raciocínio de código aberto do tipo Mistura de Especialistas (MoE) com 560 bilhões de parâmetros, que possui capacidade de raciocínio agentico superior. O LongCat-Flash-Thinking-2601 atinge desempenho de ponta entre os modelos de código aberto em uma ampla gama de benchmarks agenticos, incluindo busca agentica, uso de ferramentas agenticas e raciocínio com integração de ferramentas. Além do desempenho em benchmarks, o modelo demonstra forte generalização para interações complexas com ferramentas e comportamento robusto em ambientes do mundo real com ruído. Sua capacidade avançada decorre de uma estrutura de treinamento unificada que combina treinamento de especialistas em paralelo por domínio com fusão subsequente, juntamente com um co-projeto de ponta a ponta que abrange desde a construção de dados, ambientes, algoritmos e infraestrutura, desde o pré-treinamento até o pós-treinamento. Em particular, a forte capacidade de generalização do modelo no uso complexo de ferramentas é impulsionada por nossa exploração aprofundada do dimensionamento de ambientes e da construção de tarefas baseada em princípios. Para otimizar gerações de cauda longa e assimétricas e interações agenticas multi-turno, e para permitir treinamento estável em mais de 10.000 ambientes abrangendo mais de 20 domínios, estendemos sistematicamente nossa estrutura de aprendizado por reforço assíncrono, DORA, para um treinamento em larga escala e multi-ambiente estável e eficiente. Além disso, reconhecendo que as tarefas do mundo real são inerentemente ruidosas, conduzimos uma análise sistemática e uma decomposição dos padrões de ruído do mundo real, e projetamos procedimentos de treinamento direcionados para incorporar explicitamente tais imperfeições no processo de treinamento, resultando em maior robustez para aplicações do mundo real. Para melhorar ainda mais o desempenho em tarefas complexas de raciocínio, introduzimos um modo de Pensamento Pesado (Heavy Thinking) que permite um dimensionamento eficaz no momento do teste através da expansão conjunta da profundidade e largura do raciocínio por meio de pensamento paralelo intensivo.

SWE-Pruner: Poda de Contexto Auto-Adaptativa para Agentes de Programação
SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Jan 23

ByYuhang Wang, Yuling Shi, Mo Yang, Rongrui Zhang, Shilin He, Heng Lian, Yuting Chen, Siyu Ye, Kai Cai, Xiaodong Gu

Os agentes de LLM demonstraram capacidades notáveis no desenvolvimento de software, mas o seu desempenho é prejudicado por contextos de interação longos, que acarretam altos custos de API e latência. Embora tenham surgido várias abordagens de compressão de contexto, como o LongLLMLingua, para enfrentar este desafio, elas geralmente dependem de métricas fixas, como PPL, ignorando a natureza específica da tarefa na compreensão de código. Consequentemente, frequentemente perturbam a estrutura sintática e lógica e falham em reter detalhes de implementação críticos. Neste artigo, propomos o SWE-Pruner, uma estrutura de poda de contexto auto-adaptativa concebida para agentes de programação. Inspirando-nos na forma como os programadores humanos "folheiam seletivamente" o código-fonte durante o desenvolvimento e depuração, o SWE-Pruner realiza uma poda adaptativa consciente da tarefa para contextos longos. Dada a tarefa atual, o agente formula um objetivo explícito (por exemplo, "concentrar-se no tratamento de erros") como uma pista para orientar os alvos da poda. Um "skimmer" neural leve (0,6 mil milhões de parâmetros) é treinado para selecionar dinamicamente as linhas relevantes do contexto circundante, dado o objetivo. Avaliações em quatro benchmarks e múltiplos modelos validam a eficácia do SWE-Pruner em vários cenários, alcançando uma redução de 23-54% de *tokens* em tarefas de agente como o SWE-Bench Verified e até 14,84x de compressão em tarefas de turno único como o LongCodeQA, com um impacto mínimo no desempenho.

TwinBrainVLA: Liberando o Potencial de VLMs Generalistas para Tarefas Corporificadas via Mistura Assimétrica de Transformers
TwinBrainVLA: Unleashing the Potential of Generalist VLMs for Embodied Tasks via Asymmetric Mixture-of-Transformers

Jan 20

ByBin Yu, Shijie Lian, Xiaopeng Lin, Yuliang Wei, Zhaolong Shen, Changti Wu, Yuzhuo Miao, Xinming Wang, Bailing Wang, Cong Huang, Kai Chen

Os modelos padrão Visão-Linguagem-Ação (VLA) normalmente ajustam finamente uma estrutura monolítica de Modelo de Visão-Linguagem (VLM) explicitamente para controle robótico. No entanto, essa abordagem cria uma tensão crítica entre manter a compreensão semântica geral de alto nível e aprender habilidades sensorimotoras refinadas de baixo nível, frequentemente levando ao "esquecimento catastrófico" das capacidades de mundo aberto do modelo. Para resolver esse conflito, introduzimos o TwinBrainVLA, uma arquitetura inovadora que coordena um VLM generalista, que retém a compreensão semântica universal, e um VLM especialista dedicado à propriocepção incorporada para controle robótico conjunto. O TwinBrainVLA sinergiza um "Cérebro Esquerdo" congelado, que mantém o raciocínio visual geral robusto, com um "Cérebro Direito" treinável, especializado em percepção incorporada, por meio de um novo mecanismo de Mistura Assimétrica de Transformers (AsyMoT). Esse projeto permite que o Cérebro Direito consulte dinamicamente conhecimento semântico do Cérebro Esquerdo congelado e o funda com estados proprioceptivos, fornecendo condicionamento rico para um Especialista em Ação com Correspondência de Fluxo (Flow-Matching) gerar controles contínuos precisos. Extensos experimentos nos benchmarks SimplerEnv e RoboCasa demonstram que o TwinBrainVLA alcança desempenho de manipulação superior em comparação com as linhas de base state-of-the-art, enquanto preserva explicitamente as capacidades abrangentes de compreensão visual do VLM pré-treinado, oferecendo uma direção promissora para a construção de robôs de propósito geral que alcançam simultaneamente compreensão semântica de alto nível e destreza física de baixo nível.

VisGym: Ambientes Diversos, Personalizáveis e Escaláveis para Agentes Multimodais
VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents

Jan 23

ByZirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez

Os Modelos Visuais de Linguagem (VLMs) modernos continuam mal caracterizados em interações visuais multi-etapa, particularmente na forma como integram percepção, memória e ação em horizontes longos. Apresentamos o VisGym, um ginásio de 17 ambientes para avaliar e treinar VLMs. O conjunto abrange quebra-cabeças simbólicos, compreensão de imagens reais, navegação e manipulação, e oferece controlos flexíveis sobre dificuldade, representação de entrada, horizonte de planeamento e *feedback*. Também fornecemos solucionadores multi-etapa que geram demonstrações estruturadas, permitindo o afinamento supervisionado. As nossas avaliações mostram que todos os modelos de vanguarda têm dificuldades em ambientes interativos, atingindo baixas taxas de sucesso tanto nas configurações fáceis (46,6%) como nas difíceis (26,0%). As nossas experiências revelam limitações notáveis: os modelos lutam para alavancar eficazmente contextos longos, desempenhando pior com um histórico ilimitado do que com janelas truncadas. Além disso, descobrimos que várias tarefas simbólicas baseadas em texto tornam-se substancialmente mais difíceis quando renderizadas visualmente. No entanto, observações explícitas de objetivos, *feedback* textual e demonstrações exploratórias em ambientes de dinâmica desconhecida ou parcialmente observáveis para afinamento supervisionado produzem ganhos consistentes, destacando modos de falha concretos e vias para melhorar a tomada de decisão visual multi-etapa. O código, dados e modelos podem ser encontrados em: https://visgym.github.io/.

Memory-V2V: Aprimorando Modelos de Difusão Vídeo-para-Vídeo com Memória
Memory-V2V: Augmenting Video-to-Video Diffusion Models with Memory

Jan 22

ByDohun Lee, Chun-Hao Paul Huang, Xuelin Chen, Jong Chul Ye, Duygu Ceylan, Hyeonho Jeong

Modelos recentes de difusão vídeo-a-vídeo de base alcançaram resultados impressionantes na edição de vídeos fornecidos pelos usuários, modificando aparência, movimento ou deslocamento da câmara. No entanto, a edição de vídeo no mundo real é frequentemente um processo iterativo, no qual os utilizadores refinam os resultados ao longo de múltiplas rondas de interação. Neste cenário de múltiplos turnos, os editores de vídeo atuais lutam para manter a consistência cruzada entre edições sequenciais. Neste trabalho, abordamos, pela primeira vez, o problema da consistência cruzada na edição de vídeo multi-turno e introduzimos o Memory-V2V, uma estrutura simples, mas eficaz, que aumenta os modelos vídeo-a-vídeo existentes com memória explícita. Dada uma cache externa de vídeos editados anteriormente, o Memory-V2V emprega estratégias de recuperação precisa e tokenização dinâmica para condicionar a etapa de edição atual com base em resultados anteriores. Para mitigar ainda mais a redundância e a sobrecarga computacional, propomos um compressor de tokens treinável dentro da arquitetura DiT que comprime tokens de condicionamento redundantes, preservando pistas visuais essenciais, alcançando uma aceleração geral de 30%. Validamos o Memory-V2V em tarefas desafiadoras, incluindo síntese de nova perspetiva de vídeo e edição de vídeos longos com condicionamento textual. Experiências extensivas mostram que o Memory-V2V produz vídeos significativamente mais consistentes cruzadamente com sobrecarga computacional mínima, mantendo ou mesmo melhorando o desempenho específico da tarefa em relação aos métodos state-of-the-art. Página do projeto: https://dohunlee1.github.io/MemoryV2V

Jet-RL: Permitindo Aprendizagem por Reforço FP8 On-Policy com um Fluxo de Precisão Unificado para Treinamento e Rollout
Jet-RL: Enabling On-Policy FP8 Reinforcement Learning with Unified Training and Rollout Precision Flow

Jan 20

ByHaocheng Xi, Charlie Ruan, Peiyuan Liao, Yujun Lin, Han Cai, Yilong Zhao, Shuo Yang, Kurt Keutzer, Song Han, Ligeng Zhu

O aprendizado por reforço (RL) é essencial para aprimorar as capacidades de raciocínio complexo de modelos de linguagem de grande escala (LLMs). No entanto, os *pipelines* de treinamento de RL existentes são computacionalmente ineficientes e intensivos em recursos, sendo que a fase de *rollout* responde por mais de 70% do tempo total de treinamento. O treinamento de RL quantizado, particularmente usando precisão FP8, oferece uma abordagem promissora para mitigar esse gargalo. Uma estratégia comumente adotada aplica a precisão FP8 durante o *rollout*, mantendo a precisão BF16 para o treinamento. Neste trabalho, apresentamos o primeiro estudo abrangente sobre o treinamento de RL com FP8 e demonstramos que a estratégia amplamente utilizada de "treinamento em BF16 + *rollout* em FP8" sofre de severa instabilidade de treinamento e colapso catastrófico de precisão em *rollouts* de longo horizonte e tarefas desafiadoras. Nossa análise mostra que essas falhas decorrem da natureza *off-policy* da abordagem, que introduz uma incompatibilidade numérica substancial entre o treinamento e a inferência. Motivados por essas observações, propomos o Jet-RL, um *framework* de treinamento de RL em FP8 que permite uma otimização de RL robusta e estável. A ideia central é adotar um fluxo de precisão FP8 unificado para treinamento e *rollout*, minimizando assim as discrepâncias numéricas e eliminando a necessidade de calibração inter-etapas ineficiente. Experimentos extensivos validam a eficácia do Jet-RL: nosso método alcança uma aceleração de até 33% na fase de *rollout*, até 41% na fase de treinamento e um ganho de velocidade de 16% de ponta a ponta em relação ao treinamento BF16, mantendo uma convergência estável em todas as configurações e incorrendo em uma degradação de precisão insignificante.

Escalonamento de Verificação em Tempo de Inferência: Agentes de Pesquisa Profunda Autoevolutivos via Verificação Guiada por Rúbrica em Tempo de Teste
Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification

Jan 22

ByYuxuan Wan, Tianqing Fang, Zaitang Li, Yintong Huo, Wenxuan Wang, Haitao Mi, Dong Yu, Michael R. Lyu

Os recentes avanços nos Agentes de Pesquisa Profunda (DRAs) estão transformando a descoberta automatizada de conhecimento e a resolução de problemas. Enquanto a maioria dos esforços existentes se concentra em melhorar as capacidades da política via pós-treinamento, propomos um paradigma alternativo: a auto-evolução da capacidade do agente através da verificação iterativa das saídas do modelo de política, guiada por rubricas meticulosamente elaboradas. Esta abordagem dá origem à escalagem de verificação no tempo de inferência, na qual um agente se auto-melhora avaliando as respostas que gera para produzir feedback e refinamentos iterativos. Derivamos as rubricas com base numa Taxonomia de Falhas de DRA construída automaticamente, que classifica sistematicamente as falhas dos agentes em cinco categorias principais e treze subcategorias. Apresentamos o DeepVerifier, um verificador de recompensa de resultados baseado em rubricas que aproveita a assimetria da verificação e supera as linhas de base de agente-como-juiz simples e de juiz de LLM em 12% a 48% no score F1 de meta-avaliação. Para permitir uma auto-evolução prática, o DeepVerifier integra-se como um módulo "plug-and-play" durante a inferência em tempo de teste. O verificador produz um feedback detalhado baseado em rubricas, que é realimentado ao agente para um *bootstrapping* iterativo, refinando as respostas sem treinamento adicional. Esta escalagem em tempo de teste proporciona ganhos de precisão de 8% a 11% em subconjuntos desafiadores do GAIA e do XBench-DeepResearch quando alimentada por LLMs proprietários capazes. Finalmente, para apoiar o avanço de código aberto, disponibilizamos o DeepVerifier-4K, um conjunto de dados curado de fine-tuning supervisionado com 4.646 etapas de agente de alta qualidade focadas na verificação de DRA. Estes exemplos enfatizam a reflexão e a autocrítica, permitindo que modelos abertos desenvolvam capacidades robustas de verificação.

Terminais Infinitos: Escalonando Ambientes de RL para Agentes de Terminal
Endless Terminals: Scaling RL Environments for Terminal Agents

Jan 23

ByKanishk Gandhi, Shivam Garg, Noah D. Goodman, Dimitris Papailiopoulos

Os ambientes são o principal obstégulo para agentes de autoaprimoramento. Os benchmarks de terminal atuais foram construídos para avaliação, não para treinamento; o aprendizado por reforço requer um pipeline escalável, não apenas um conjunto de dados. Apresentamos o Endless Terminals, um pipeline totalmente autônomo que gera proceduralmente tarefas de uso de terminal sem anotação humana. O pipeline possui quatro estágios: geração de descrições de tarefas diversas, construção e validação de ambientes conteinerizados, produção de testes de conclusão e filtragem por solucionabilidade. Deste pipeline, obtivemos 3255 tarefas abrangendo operações de arquivos, gerenciamento de logs, processamento de dados, scriptagem e operações de banco de dados. Treinamos agentes usando PPO padrão com recompensas binárias a nível de episódio e um loop de interação mínimo: sem recuperação de informação, coordenação multiagente ou ferramentas especializadas. Apesar dessa simplicidade, os modelos treinados no Endless Terminals mostram ganhos substanciais: em nosso conjunto de desenvolvimento retido, o Llama-3.2-3B melhorou de 4,0% para 18,2%, o Qwen2.5-7B de 10,7% para 53,3% e o Qwen3-8B-openthinker-sft de 42,6% para 59,0%. Essas melhorias transferem-se para benchmarks curados por humanos: os modelos treinados no Endless Terminals mostram ganhos substanciais em benchmarks humanos retidos: no TerminalBench 2.0, o Llama-3.2-3B melhorou de 0,0% para 2,2%, o Qwen2.5-7B de 2,2% para 3,4% e o Qwen3-8B-openthinker-sft de 1,1% para 6,7%, superando em cada caso abordagens alternativas, incluindo modelos com estruturas agentuais mais complexas. Estes resultados demonstram que o RL simples tem sucesso quando os ambientes são escalados.

SALAD: Alcançando Atenção de Alta Esparsidade via Sintonia Eficiente de Atenção Linear para Transformadores de Difusão em Vídeo
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Jan 23

ByTongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang

Os Transformers de Difusão têm demonstrado recentemente um desempenho notável na geração de vídeo. No entanto, as longas sequências de entrada resultam em alta latência computacional devido à complexidade quadrática da atenção completa. Vários mecanismos de atenção esparsa foram propostos. A atenção esparsa sem necessidade de treinamento é limitada por uma esparsidade restrita, oferecendo assim uma aceleração modesta, enquanto os métodos baseados em treinamento podem alcançar uma esparsidade muito maior, mas exigem dados e computação substanciais para o treinamento. Neste trabalho, propomos o SALAD, introduzindo um ramo de atenção linear leve em paralelo com a atenção esparsa. Ao incorporar um mecanismo de ativação dependente da entrada para equilibrar finamente os dois ramos, nosso método atinge 90% de esparsidade e uma aceleração de inferência de 1,72x, mantendo uma qualidade de geração comparável à linha de base de atenção completa. Além disso, nosso processo de ajuste fino é altamente eficiente, exigindo apenas 2.000 amostras de vídeo e 1.600 etapas de treinamento com um tamanho de lote de 8.

Dançando em Correntes: Persuasão Estratégica na Réplica Acadêmica via Teoria da Mente
Dancing in Chains: Strategic Persuasion in Academic Rebuttal via Theory of Mind

Jan 22

ByZhitao He, Zongwei Lyu, Yi R Fung

Embora a inteligência artificial (IA) tenha se integrado profundamente em várias etapas do fluxo de trabalho de pesquisa e alcançado avanços notáveis, a réplica acadêmica permanece um desafio significativo e pouco explorado. Isto ocorre porque a réplica é um processo complexo de comunicação estratégica sob severa assimetria de informação, e não um simples debate técnico. Consequentemente, as abordagens atuais enfrentam dificuldades, pois imitam largamente a linguística superficial, perdendo o elemento essencial da tomada de perspectiva necessária para uma persuasão eficaz. Neste artigo, apresentamos o RebuttalAgent, o primeiro framework a fundamentar a réplica acadêmica na Teoria da Mente (ToM), operacionalizada por meio de um pipeline ToM-Estratégia-Resposta (TSR) que modela o estado mental do revisor, formula a estratégia de persuasão e gera uma resposta fundamentada na estratégia. Para treinar nosso agente, construímos o RebuttalBench, um conjunto de dados em larga escala sintetizado por meio de uma nova abordagem de crítica e refinamento. Nosso processo de treinamento consiste em duas etapas, começando com uma fase de ajuste fino supervisionado para equipar o agente com capacidades de análise baseada em ToM e planejamento estratégico, seguida por uma fase de aprendizagem por reforço que aproveita o mecanismo de autorrecompensa para a autoaprimoração escalável. Para uma avaliação automatizada confiável e eficiente, desenvolvemos ainda o Rebuttal-RM, um avaliador especializado treinado em mais de 100 mil amostras de dados de réplica de múltiplas fontes, que alcança uma consistência de pontuação com as preferências humanas superando o poderoso modelo de juiz GPT-4.1. Experimentos extensivos mostram que o RebuttalAgent supera significativamente o modelo base em uma média de 18,3% nas métricas automatizadas, ao mesmo tempo que supera modelos proprietários avançados tanto em avaliações automatizadas quanto humanas. Aviso: o conteúdo da réplica gerada é apenas para referência, para inspirar autores e auxiliar na redação. Não se destina a substituir a própria análise crítica e resposta do autor.

GameTalk: Treinando LLMs para Conversação Estratégica
GameTalk: Training LLMs for Strategic Conversation

Jan 22

ByVictor Conchello Vendrell, Max Ruiz Luyten, Mihaela van der Schaar

A tomada de decisões estratégicas em ambientes multiagente é um desafio fundamental para os grandes modelos de linguagem (LLMs), particularmente quando a coordenação e a negociação devem desenrolar-se ao longo de conversas prolongadas. Embora trabalhos recentes tenham explorado o uso de LLMs em tarefas de decisão isoladas, pouca atenção foi dada à otimização de objetivos de longo prazo através do diálogo. Apresentamos o GameTalk, uma estrutura para treinar LLMs a tomar decisões estratégicas por meio de interações multi-turno. Diferente de trabalhos anteriores que se concentram em objetivos de turno único ou na previsão de ações estáticas, nós treinamos LLMs para otimizar um objetivo global ao longo de conversas completas. Alcançamos isso adaptando métodos de ajuste fino como GRPO, DPO e STaR para incorporar sinais de recompensa que dependem de toda a interação. Avaliamos esta abordagem em um conjunto de jogos de complexidade crescente, concebidos para testar diferentes aspetos do raciocínio, coordenação e modelação do oponente. Os nossos resultados mostram que o GameTalk supera significativamente os modelos não treinados, especialmente sob a modelação de recompensas (reward shaping), com o DPO a produzir consistentemente os ganhos mais robustos. Estas descobertas posicionam o ajuste fino conversacional como um caminho promissor para os LLMs raciocinarem, negociarem e agirem em ambientes interativos.

MeepleLM: Um Jogador Virtual que Simula Experiências Subjetivas Diversas
MeepleLM: A Virtual Playtester Simulating Diverse Subjective Experiences

Jan 12

ByZizhen Li, Chuanhao Li, Yibin Wang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Fanrui Zhang, Mingzhu Sun, Yifei Huang, Kaipeng Zhang

Os avanços recentes expandiram o papel dos Grandes Modelos de Linguagem em jogos de tabuleiro, passando de agentes jogadores para co-criadores criativos. No entanto, uma lacuna crítica permanece: os sistemas atuais carecem da capacidade de oferecer críticas construtivas fundamentadas na experiência do usuário emergente. Preencher essa lacuna é fundamental para harmonizar a colaboração Humano-IA, pois capacita os designers a refinar suas criações através de perspectivas externas, ao mesmo tempo que direciona os modelos para longe de resultados tendenciosos ou imprevisíveis. Automatizar a crítica para jogos de tabuleiro apresenta dois desafios: inferir a dinâmica latente que conecta as regras à jogabilidade sem um motor explícito e modelar a heterogeneidade subjetiva de diversos grupos de jogadores. Para abordar isso, reunimos um conjunto de dados com 1.727 manuais de regras estruturalmente corrigidos e 150.000 análises selecionadas através de pontuação de qualidade e amostragem consciente de facetas. Aumentamos esses dados com raciocínio Mecânica-Dinâmica-Estética (MDA) para ligar explicitamente a lacuna causal entre as regras escritas e a experiência do jogador. Além disso, destilamos personas de jogadores e introduzimos o MeepleLM, um modelo especializado que internaliza padrões de raciocínio específicos de cada persona para simular com precisão o feedback subjetivo de diversos arquétipos de jogadores. Experimentos demonstram que o MeepleLM supera significativamente os últimos modelos comerciais (por exemplo, GPT-5.1, Gemini3-Pro) em alinhamento com a comunidade e qualidade da crítica, alcançando uma taxa de preferência de 70% em estudos de usuários que avaliam a utilidade. O MeepleLM serve como um testador de jogabilidade virtual confiável para sistemas interativos gerais, marcando um passo crucial para uma colaboração Humano-IA alinhada com o público e consciente da experiência.

ChartVerse: Escalonando o Raciocínio em Gráficos via Síntese Programática Confiável a Partir do Zero
ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch

Jan 20

ByZheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu

O raciocínio sobre gráficos é uma capacidade crítica para os Modelos de Linguagem de Visão (VLMs). No entanto, o desenvolvimento de modelos de código aberto é severamente prejudicado pela falta de dados de treinamento de alta qualidade. Os conjuntos de dados existentes sofrem com um duplo desafio: os gráficos sintéticos são frequentemente simplistas e repetitivos, enquanto os pares de Pergunta-Resposta (QA) associados são propensos a alucinações e carecem da profundidade de raciocínio necessária para tarefas complexas. Para preencher essa lacuna, propomos o ChartVerse, uma estrutura escalável projetada para sintetizar gráficos complexos e dados de raciocínio confiáveis a partir do zero. (1) Para resolver o gargalo dos padrões simples, primeiro introduzimos a Entropia Posterior de Rollout (RPE), uma nova métrica que quantifica a complexidade do gráfico. Guiados pela RPE, desenvolvemos um codificador de gráficos com sensibilidade à complexidade para sintetizar de forma autónoma gráficos diversos e de alta complexidade por meio de programas executáveis. (2) Para garantir o rigor do raciocínio, desenvolvemos uma síntese inversa de QA ancorada na verdade. Diferindo da geração padrão, adotamos um paradigma de resposta-primeiro: extraímos respostas determinísticas diretamente do código-fonte, geramos perguntas condicionadas a essas âncoras e aplicamos uma verificação de consistência estrita. Para elevar ainda mais a dificuldade e a profundidade do raciocínio, filtramos as amostras com base na taxa de falha do modelo e destilamos um raciocínio de Cadeia de Pensamento (CoT) de alta qualidade. Curamos os conjuntos ChartVerse-SFT-600K e ChartVerse-RL-40K usando o Qwen3-VL-30B-A3B-Thinking como professor. Os resultados experimentais demonstram que o ChartVerse-8B alcança um desempenho state-of-the-art, superando notavelmente seu professor e rivalizando com o mais forte Qwen3-VL-32B-Thinking.

DSGym: Uma Estrutura Holística para Avaliação e Treinamento de Agentes de Ciência de Dados
DSGym: A Holistic Framework for Evaluating and Training Data Science Agents

Jan 22

ByFan Nie, Junlin Wang, Harper Hua, Federico Bianchi, Yongchan Kwon, Zhenting Qi, Owen Queen, Shang Zhu, James Zou

Os agentes de ciência de dados prometem acelerar a descoberta e a geração de insights transformando dados em análises e descobertas executáveis. No entanto, os benchmarks existentes de ciência de dados são insuficientes devido a interfaces de avaliação fragmentadas que dificultam a comparação entre benchmarks, cobertura limitada de tarefas e falta de rigorosa fundamentação nos dados. Em particular, demonstramos que uma porção substancial das tarefas nos benchmarks atuais pode ser resolvida sem utilizar os dados reais. Para superar essas limitações, introduzimos o DSGym, uma estrutura padronizada para avaliar e treinar agentes de ciência de dados em ambientes de execução autônomos. Diferente de benchmarks estáticos, o DSGym fornece uma arquitetura modular que facilita a adição de tarefas, estruturas de agentes e ferramentas, posicionando-o como um banco de testes vivo e extensível. Curadamos o DSGym-Tasks, um conjunto holístico de tarefas que padroniza e refina benchmarks existentes por meio de filtragem de qualidade e solucionabilidade por atalhos. Expandimos ainda mais a cobertura com (1) DSBio: tarefas de bioinformática derivadas de especialistas, fundamentadas na literatura, e (2) DSPredict: tarefas de previsão desafiadoras abrangendo domínios como visão computacional, previsão molecular e perturbação de célula única. Além da avaliação, o DSGym permite o treinamento de agentes por meio de um pipeline de síntese de dados verificada por execução. Como estudo de caso, construímos um conjunto de treinamento com 2.000 exemplos e treinamos um modelo de 4B no DSGym que supera o GPT-4o em benchmarks de análise padronizados. No geral, o DSGym permite uma medição rigorosa de ponta a ponta sobre se os agentes podem planejar, implementar e validar análises de dados em contextos científicos realistas.

Conhecimento Não é Suficiente: Injetando Habilidades de Aprendizagem por Reforço para Adaptação Contínua
Knowledge is Not Enough: Injecting RL Skills for Continual Adaptation

Jan 16

ByPingzhi Tang, Yiding Wang, Muhan Zhang

Os Modelos de Linguagem de Grande Porte (LLMs) enfrentam o desafio do "limite de conhecimento" (knowledge cutoff), onde sua memória paramétrica congelada impede a internalização direta de novas informações. Embora o Ajuste Fino Supervisionado (SFT) seja comumente usado para atualizar o conhecimento do modelo, ele frequentemente atualiza o conteúdo factual sem melhorar de forma confiável a capacidade do modelo de utilizar as informações recém-incorporadas para responder perguntas ou tomar decisões. O Aprendizado por Reforço (RL) é essencial para adquirir habilidades de raciocínio; no entanto, seu alto custo computacional o torna impraticável para uma adaptação online eficiente. Observamos empiricamente que as atualizações de parâmetros induzidas pelo SFT e pelo RL são quase ortogonais. Com base nessa observação, propomos a Transferência Paramétrica de Habilidades (PaST), uma estrutura que suporta a transferência modular de habilidades para uma adaptação de conhecimento eficiente e eficaz. Ao extrair um Vetor de Habilidade independente de domínio de um domínio de origem, podemos injetar linearmente habilidades de manipulação de conhecimento em um modelo de destino após ele ter passado por um SFT leve em novos dados. Experimentos em benchmarks de QA de incorporação de conhecimento (SQuAD, LooGLE) e de uso de ferramentas por agentes (ToolBench) demonstram a eficácia do nosso método. No SQuAD, o PaST supera a linha de base state-of-the-art de autoedição por SFT em até 9,9 pontos. O PaST ainda escala para QA de contexto longo no LooGLE com um ganho absoluto de precisão de 8,0 pontos, e melhora as taxas de sucesso zero-shot no ToolBench em +10,3 pontos em média, com ganhos consistentes entre categorias de ferramentas, indicando uma forte escalabilidade e transferibilidade cross-domain do Vetor de Habilidade.

Mecellem Modelleri: Hukuk Alanında Sıfırdan Eğitilmiş ve Sürekli Ön Eğitilmiş Türkçe Modeller
Mecellem Models: Turkish Models Trained from Scratch and Continually Pre-trained for the Legal Domain

Jan 22

ByÖzgür Uğur, Mahmut Göksu, Mahmut Çimen, Musa Yılmaz, Esra Şavirdi, Alp Talha Demir, Rumeysa Güllüce, İclal Çetin, Ömer Can Sağbaş

Este artigo apresenta os modelos Mecellem, uma estrutura para desenvolver modelos de linguagem especializados para o domínio jurídico turco através de estratégias de adaptação de domínio. Fazemos duas contribuições: (1) **Modelo Codificador Pré-treinado a Partir do Zero**: Codificadores bidirecionais baseados no ModernBERT pré-treinados em um corpus predominantemente turco de 112,7 mil milhões de tokens. Implementamos uma estratégia de seleção de *checkpoints* que avalia o desempenho de recuperação (*retrieval*) em tarefas downstream ao longo do treino, revelando que os *checkpoints* ótimos alcançam os melhores resultados de recuperação antes que a perda do pré-treino atinja o seu mínimo. Os nossos modelos codificadores alcançam classificações entre os três primeiros no *leaderboard* de recuperação em turco, com modelos menores (155M parâmetros) a obter desempenho comparável a modelos de referência maiores (307M-567M parâmetros). A nossa abordagem atinge 92,36% de eficiência de produção em comparação com modelos state-of-the-art (embeddinggemma-300m: 100,00%, BAAI/bge-m3: 99,54%, newmindai/bge-m3-stsb: 94,38%), classificando-se em quarto lugar geral, apesar de requerer menos recursos computacionais. Os modelos SOTA dependem de *pipelines* de treino multiestágio e computacionalmente intensivos, tornando a nossa abordagem de pré-treino em estágio único seguido de pós-treino eficaz uma alternativa economicamente vantajosa; (2) **Modelo Decodificador com Pré-treino Contínuo (CPT)**: Modelos Qwen3-1.7B e Qwen3-4B adaptados ao domínio jurídico turco através de aprendizagem curricular controlada. Um CPT de quatro fases com rácios de amostra ótimos permite uma transição gradual do conhecimento linguístico geral para a terminologia jurídica especializada e o raciocínio de contexto longo. Esta abordagem alcança uma redução de 36,2% na perplexidade em texto jurídico turco, demonstrando ganhos na adaptação de domínio.

VISTA-PATH: Um modelo de base interativo para segmentação de imagens patológicas e análise quantitativa em patologia computacional
VISTA-PATH: An interactive foundation model for pathology image segmentation and quantitative analysis in computational pathology

Jan 23

ByPeixian Liang, Songhao Li, Shunsuke Koga, Yutong Li, Zahra Alipour, Yucheng Tang, Daguang Xu, Zhi Huang

A segmentação semântica precisa de imagens histopatológicas é crucial para a análise quantitativa de tecidos e modelagem clínica subsequente. Modelos de segmentação fundamentais recentes melhoraram a generalização por meio de pré-treinamento em larga escala, mas permanecem mal alinhados com a patologia porque tratam a segmentação como uma tarefa de previsão visual estática. Apresentamos aqui o VISTA-PATH, um modelo fundamental de segmentação patológica interativo e consciente de classes, projetado para resolver estruturas heterogêneas, incorporar feedback de especialistas e produzir segmentações a nível de pixel que são diretamente significativas para a interpretação clínica. O VISTA-PATH condiciona conjuntamente a segmentação no contexto visual, descrições semânticas de tecidos e prompts espaciais opcionais fornecidos por especialistas, permitindo segmentação multiclasse precisa em imagens patológicas heterogêneas. Para suportar este paradigma, curamos o VISTA-PATH Data, um corpus de segmentação patológica em larga escala compreendendo mais de 1,6 milhão de triplas imagem-máscara-texto abrangendo 9 órgãos e 93 classes de tecidos. Em extensos benchmarks externos e de hold-out, o VISTA-PATH supera consistentemente os modelos fundamentais de segmentação existentes. Importantemente, o VISTA-PATH suporta refinamento dinâmico com humano no loop propagando feedback de anotação esparsa com caixas delimitadoras a nível de patch para segmentação de lâmina inteira. Finalmente, mostramos que a segmentação de alta fidelidade e consciente de classes produzida pelo VISTA-PATH é um modelo preferido para patologia computacional. Ele melhora a análise do microambiente tissular através do proposto Tumor Interaction Score (TIS), que exibe associações fortes e significativas com a sobrevida do paciente. Juntos, estes resultados estabelecem o VISTA-PATH como um modelo fundamental que eleva a segmentação de imagens patológicas de uma previsão estática para uma representação interativa e clinicamente fundamentada para patologia digital. Código fonte e demonstração podem ser encontrados em https://github.com/zhihuanglab/VISTA-PATH.

Diretrizes para Prompts de Modelos de Linguagem de Grande Porte na Geração de Código: Uma Caracterização Empírica
Guidelines to Prompt Large Language Models for Code Generation: An Empirical Characterization

Jan 19

ByAlessandro Midolo, Alessandro Giagnorio, Fiorella Zampetti, Rosalia Tufano, Gabriele Bavota, Massimiliano Di Penta

Os Grandes Modelos de Linguagem (LLMs) são atualmente amplamente utilizados para vários tipos de tarefas de engenharia de software, principalmente para geração de código. Pesquisas anteriores demonstraram como uma engenharia de *prompts* adequada pode ajudar desenvolvedores a melhorar seus *prompts* de geração de código. No entanto, até o momento, não existem diretrizes específicas que orientem os desenvolvedores na escrita de *prompts* adequados para geração de código. Neste trabalho, derivamos e avaliamos diretrizes específicas de desenvolvimento para otimização de *prompts*. Primeiro, utilizamos uma abordagem iterativa e orientada a testes para refinar automaticamente *prompts* de geração de código, e analisamos o resultado desse processo para identificar itens de melhoria de *prompt* que levam à aprovação de testes. Utilizamos esses elementos para eliciar 10 diretrizes para melhoria de *prompts*, relacionadas a uma melhor especificação de entradas/saídas (E/S), pré e pós-condições, fornecimento de exemplos, vários tipos de detalhes ou esclarecimento de ambiguidades. Realizamos uma avaliação com 50 profissionais, que relataram seu uso dos padrões de melhoria de *prompt* elicitados, bem como sua percepção de utilidade, que nem sempre corresponde ao uso real antes do conhecimento de nossas diretrizes. Nossos resultados levam a implicações não apenas para profissionais e educadores, mas também para aqueles que visam criar melhores ferramentas de desenvolvimento de software auxiliadas por LLM.

Relatório Técnico LongCat-Flash-Thinking-2601
LongCat-Flash-Thinking-2601 Technical Report

Jan 23

175