HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

15 papers found

Fora da Vista, mas Não da Mente: Memória Híbrida para Modelos Dinâmicos de Mundo em Vídeo
Out of Sight but Not Out of Mind: Hybrid Memory for Dynamic Video World Models

Mar 26

ByKaijin Chen, Dingkang Liang, Xin Zhou, Yikang Ding, Xiaoqiang Liu, Pengfei Wan, Xiang Bai

133

Os modelos de vídeo de mundo têm demonstrado imenso potencial na simulação do mundo físico, porém os mecanismos de memória existentes tratam principalmente os ambientes como telas estáticas. Quando sujeitos dinâmicos se ocultam da vista e posteriormente reaparecem, os métodos atuais frequentemente apresentam dificuldades, resultando em sujeitos congelados, distorcidos ou que desaparecem. Para resolver isso, introduzimos a Memória Híbrida, um novo paradigma que exige que os modelos atuem simultaneamente como arquivistas precisos para fundos estáticos e rastreadores vigilantes para sujeitos dinâmicos, garantindo a continuidade do movimento durante os intervalos fora de vista. Para facilitar a pesquisa nessa direção, construímos o HM-World, o primeiro grande conjunto de dados de vídeo dedicado à memória híbrida. Ele apresenta 59 mil clipes de alta fidelidade com trajetórias de câmera e de sujeitos dissociadas, abrangendo 17 cenas diversas, 49 sujeitos distintos e eventos de saída-entrada meticulosamente projetados para avaliar rigorosamente a coerência híbrida. Além disso, propomos o HyDRA, uma arquitetura de memória especializada que comprime a memória em tokens e utiliza um mecanismo de recuperação orientado por relevância espaço-temporal. Ao atender seletivamente a pistas de movimento relevantes, o HyDRA preserva efetivamente a identidade e o movimento de sujeitos ocultos. Experimentos extensivos no HM-World demonstram que nosso método supera significativamente as abordagens state-of-the-art tanto na consistência de sujeitos dinâmicos quanto na qualidade geral de geração.

ShotStream: Geração de Vídeo em Multi-Tomadas por Streaming para Narrativa Interativa
ShotStream: Streaming Multi-Shot Video Generation for Interactive Storytelling

Mar 26

ByYawen Luo, Xiaoyu Shi, Junhao Zhuang, Yutian Chen, Quande Liu, Xintao Wang, Pengfei Wan, Tianfan Xue

110

A geração de vídeo multi-shot é crucial para narrativas longas, mas as arquiteturas bidirecionais atuais sofrem com interatividade limitada e alta latência. Propomos o ShotStream, uma nova arquitetura causal multi-shot que permite narrativa interativa e geração eficiente de frames em tempo real. Ao reformular a tarefa como geração do próximo shot condicionada ao contexto histórico, o ShotStream permite que os usuários instruam dinamicamente narrativas em andamento por meio de prompts em streaming. Conseguimos isso primeiro ajustando finamente um modelo texto-para-vídeo em um gerador bidirecional de próximo shot, que é então destilado em um aluno causal via Destilação por Correspondência de Distribuição. Para superar os desafios de consistência inter-shot e acumulação de erros inerentes à geração autoregressiva, introduzimos duas inovações principais. Primeiro, um mecanismo de memória de dupla cache preserva a coerência visual: uma cache de contexto global retém frames condicionais para consistência inter-shot, enquanto uma cache de contexto local armazena frames gerados dentro do shot atual para consistência intra-shot. E um indicador de descontinuidade RoPE é empregado para distinguir explicitamente as duas caches e eliminar ambiguidade. Segundo, para mitigar a acumulação de erros, propomos uma estratégia de destilação em dois estágios. Esta começa com auto-forçamento intra-shot condicionado aos shots históricos verdadeiros e progride gradualmente para auto-forçamento inter-shot usando históricos auto-gerados, efetivamente preenchendo a lacuna entre treino e teste. Experimentos extensivos demonstram que o ShotStream gera vídeos multi-shot coerentes com latência inferior a um segundo, atingindo 16 FPS em uma única GPU. Ele iguala ou excede a qualidade de modelos bidirecionais mais lentos, abrindo caminho para a narrativa interativa em tempo real. O código de treino e inferência, bem como os modelos, estão disponíveis em nosso

PackForcing: O Treinamento com Vídeos Curtos é Suficiente para Amostragem de Vídeos Longos e Inferência de Contexto Extenso
PackForcing: Short Video Training Suffices for Long Video Sampling and Long Context Inference

Mar 26

ByXiaofeng Mao, Shaohao Rui, Kaining Ying, Bo Zheng, Chuanhao Li, Mingmin Chi, Kaipeng Zhang

Os modelos de difusão de vídeo autoregressivos têm demonstrado progresso notável, mas continuam limitados pelo crescimento intratável do cache KV linear, pela repetição temporal e por erros cumulativos durante a geração de vídeos longos. Para enfrentar esses desafios, apresentamos o PackForcing, uma estrutura unificada que gerencia eficientemente o histórico de geração através de uma nova estratégia de cache KV com três partições. Especificamente, categorizamos o contexto histórico em três tipos distintos: (1) Tokens âncora, que preservam os quadros iniciais de referência em resolução total para manter a semântica global; (2) Tokens intermediários, que alcançam uma compressão espaço-temporal massiva (redução de 32x em tokens) através de uma rede de duplo ramo que funde convoluções 3D progressivas com recodificação VAE de baixa resolução; e (3) Tokens recentes, mantidos em resolução total para garantir coerência temporal local. Para limitar estritamente a pegada de memória sem sacrificar a qualidade, introduzimos um mecanismo de seleção dinâmica de contexto top-k para os tokens intermediários, aliado a um Ajuste Contínuo de RoPE Temporal que realinha perfeitamente as lacunas posicionais causadas pela descarte de tokens com sobrecarga insignificante. Potencializado por esta compressão hierárquica de contexto fundamentada, o PackForcing pode gerar vídeos coerentes de 2 minutos em 832x480 a 16 FPS em uma única GPU H200. Alcança um cache KV limitado de apenas 4 GB e permite uma notável extrapolação temporal de 24x (de 5s para 120s), operando eficazmente de forma zero-shot ou treinado com clipes de apenas 5 segundos. Resultados extensivos no VBench demonstram consistência temporal (26.07) e grau dinâmico (56.25) state-of-the-art, provando que a supervisão com vídeos curtos é suficiente para síntese de vídeos longos de alta qualidade. https://github.com/ShandaAI/PackForcing

Trace2Skill: Destilar Lições Locais da Trajetória em Habilidades de Agente Transferíveis
Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Mar 26

ByJingwei Ni, Yihao Liu, Xinpeng Liu, Yutao Sun, Mengyu Zhou, Pengyu Cheng, Dexin Wang, Xiaoxi Jiang, Guanjun Jiang

Dotar agentes de Modelos de Linguagem de Grande Porte (LLM) com habilidades específicas de domínio é crucial para lidar com tarefas complexas. No entanto, a criação manual gera um severo gargalo de escalabilidade. Por outro lado, a geração automatizada de habilidades frequentemente produz resultados frágeis ou fragmentados, pois depende de conhecimento paramétrico superficial ou se ajusta excessivamente, de forma sequencial, a lições localizadas em trajetórias não generalizáveis. Para superar isso, apresentamos o Trace2Skill, uma estrutura que espelha a forma como especialistas humanos criam habilidades: analisando holisticamente uma ampla experiência de execução antes de destilá-la em um guia único e abrangente. Em vez de reagir sequencialmente a trajetórias individuais, o Trace2Skill despacha uma frota paralela de subagentes para analisar um conjunto diversificado de execuções. Ele extrai lições específicas de cada trajetória e as consolida hierarquicamente em um diretório de habilidades unificado e livre de conflitos por meio de raciocínio indutivo. O Trace2Skill suporta tanto o aprofundamento de habilidades humanas pré-existentes quanto a criação de novas habilidades do zero. Experimentos em domínios desafiadores, como planilhas, VisionQA e raciocínio matemático, mostram que o Trace2Skill melhora significativamente linhas de base fortes, incluindo as habilidades oficiais xlsx da Anthropic. Crucialmente, esta evolução fundamentada em trajetórias não se limita a memorizar instâncias de tarefas ou peculiaridades específicas de modelos: as habilidades evoluídas transferem-se entre diferentes escalas de LLM e generalizam-se para configurações fora da distribuição (OOD). Por exemplo, habilidades evoluídas pelo Qwen3.5-35B em suas próprias trajetórias melhoraram um agente Qwen3.5-122B em até 57,65 pontos percentuais absolutos no WikiTableQuestions. Por fim, nossos resultados demonstram que a experiência complexa de um agente pode ser empacotada em habilidades declarativas altamente transferíveis - sem necessidade de atualizações de parâmetros, módulos externos de recuperação e utilizando modelos de código aberto com apenas 35B de parâmetros.

MedOpenClaw: Agentes de Imagem Médica Auditáveis com Raciocínio sobre Estudos Completos Não Curados
MedOpenClaw: Auditable Medical Imaging Agents Reasoning over Uncurated Full Studies

Mar 25

ByWeixiang Shen, Yanzhu Hu, Che Liu, Junde Wu, Jiayuan Zhu, Chengzhi Shen, Min Xu, Yueming Jin, Benedikt Wiestler, Daniel Rueckert, Jiazhen Pan

Atualmente, a avaliação de modelos visão-linguagem (VLMs) em tarefas de imagiologia médica simplifica excessivamente a realidade clínica ao depender de imagens 2D pré-selecionadas que exigem um trabalho manual significativo para serem curadas. Esta configuração ignora o desafio central dos diagnósticos do mundo real: um verdadeiro agente clínico deve navegar ativamente em volumes 3D completos através de múltiplas sequências ou modalidades para reunir evidências e, em última análise, apoiar uma decisão final. Para resolver isto, propomos o MEDOPENCLAW, um *runtime* auditável concebido para permitir que os VLMs operem dinamicamente dentro de ferramentas ou visualizadores médicos padrão (por exemplo, 3D Slicer). Sobre este *runtime*, introduzimos o MEDFLOWBENCH, um *benchmark* de imagiologia médica de estudo completo que abrange ressonância magnética cerebral multi-sequência e TC/PET pulmonar. Ele avalia sistematicamente as capacidades agentivas médicas através de pistas de apenas visualização, uso de ferramentas e método aberto. Os resultados iniciais revelam uma perceção crítica: embora os LLMs/VLMs de última geração (por exemplo, Gemini 3.1 Pro e GPT-5.4) consigam navegar com sucesso no visualizador para resolver tarefas básicas a nível de estudo, o seu desempenho degrada-se paradoxalmente quando lhes é dado acesso a ferramentas de suporte profissionais devido à falta de uma fundamentação espacial precisa. Ao colmatar a lacuna entre a perceção de imagem estática e os fluxos de trabalho clínicos interativos, o MEDOPENCLAW e o MEDFLOWBENCH estabelecem uma base reproduzível para o desenvolvimento de agentes de imagiologia média auditáveis e de estudo completo.

RealChart2Code: Avançando na Geração de Código a partir de Gráficos com Dados Reais e Avaliação Multitarefa
RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Mar 26

ByJiajun Zhang, Yuying Li, Zhixun Li, Xingyu Guo, Jingzhuo Wu, Leqi Zheng, Yiran Yang, Jianke Zhang, Qingbin Li, Shannan Yan, Zhetong Li, Changguo Jia, Junfei Wu, Zilei Wang, Qiang Liu, Liang Wang

Os Modelos de Visão-Linguagem (VLMs) demonstraram capacidades impressionantes na geração de código em vários domínios. No entanto, a sua capacidade de replicar visualizações complexas e multipainel a partir de dados do mundo real permanece amplamente não avaliada. Para colmatar esta lacuna, introduzimos o \texttt{RealChart2Code}, um novo benchmark de grande escala com mais de 2.800 instâncias baseadas em conjuntos de dados autênticos e que apresenta tarefas com uma intenção analítica clara. Crucialmente, é o primeiro benchmark a avaliar sistematicamente a geração de gráficos a partir de dados brutos em larga escala e a avaliar o refinamento iterativo de código num contexto conversacional multiturno. A nossa avaliação abrangente de 14 VLMs líderes no RealChart2Code revela uma degradação significativa de desempenho em comparação com benchmarks mais simples, destacando as suas dificuldades com estruturas de gráficos complexas e dados autênticos. A nossa análise revela uma lacuna substancial de desempenho entre modelos proprietários e de pesos abertos e confirma que mesmo os VLMs mais avançados frequentemente falham em replicar com precisão gráficos intrincados e multipainel. Estas descobertas fornecem informações valiosas sobre as limitações atuais dos VLMs e orientam futuras direções de investigação. Disponibilizamos o benchmark e o código em https://github.com/Speakn0w/RealChart2Code.

Cenários de Condução em Cauda Longa com Rastros de Raciocínio: O Conjunto de Dados KITScenes LongTail
LongTail Driving Scenarios with Reasoning Traces: The KITScenes LongTail Dataset

Mar 24

ByRoyden Wagner, Omer Sahin Tas, Jaime Villa, Felix Hauser, Yinzhe Shen, Marlon Steiner, Dominik Strutz, Carlos Fernandez, Christian Kinzig, Guillermo S. Guitierrez-Cabello, Hendrik Königshof, Fabian Immel, Richard Schwarzkopf, Nils Alexander Rack, Kevin Rösch, Kaiwen Wang, Jan-Hendrik Pauls, Martin Lauer, Igor Gilitschenski, Holger Caesar, Christoph Stiller

Em domínios do mundo real, como a condução autónoma, a generalização para cenários raros continua a ser um desafio fundamental. Para enfrentar este problema, introduzimos um novo conjunto de dados concebido para condução de ponta a ponta que se concentra em eventos de condução de cauda longa. Fornecemos dados de vídeo multi-perspetiva, trajetórias, instruções de alto nível e rastos de raciocínio detalhados, facilitando a aprendizagem contextual e a generalização com poucos exemplos. O *benchmark* resultante para modelos multimodais, como VLMs e VLAs, vai além das métricas de segurança e conforto, avaliando o seguimento de instruções e a coerência semântica entre as saídas dos modelos. Os rastos de raciocínio multilingues em inglês, espanhol e chinês provêm de especialistas de domínio com origens culturais diversas. Assim, o nosso conjunto de dados constitui um recurso único para estudar como diferentes formas de raciocínio afetam a competência de condução. O nosso conjunto de dados está disponível em: https://hf.co/datasets/kit-mrt/kitscenes-longtail

Agentes de Processamento de Linguagem Natural
Natural-Language Agent Harnesses

Mar 26

ByLinyue Pan, Lexiao Zou, Shuo Guo, Jingchen Ni, Hai-Tao Zheng

O desempenho dos agentes depende cada vez mais da engenharia de *harnesses*, no entanto, o projeto desses *harnesses* geralmente está embutido no código do controlador e em convenções específicas do ambiente de execução, dificultando sua transferência, comparação e estudo como objeto científico. Questionamos se a lógica de controle de alto nível de um *harness* de agente pode, em vez disso, ser externalizada como um artefato executável portátil. Apresentamos os *Natural-Language Agent Harnesses* (NLAHs), que expressam o comportamento do *harness* em linguagem natural editável, e o *Intelligent Harness Runtime* (IHR), um ambiente de execução compartilhado que executa esses *harnesses* por meio de contratos explícitos, artefatos duráveis e adaptadores leves. Em benchmarks de codificação e uso de computador, realizamos avaliações controladas de viabilidade operacional, ablação de módulos e migração de *harnesses* de código para texto.

Know3D: Estimulando a Geração 3D com Conhecimento de Modelos Visão-Linguagem
Know3D: Prompting 3D Generation with Knowledge from Vision-Language Models

Mar 24

ByWenyue Chen, Wenjue Chen, Peng Li, Qinghe Wang, Xu Jia, Heliang Zheng, Rongfei Jia, Yuan Liu, Ronggang Wang

Os recentes avanços na geração 3D têm melhorado a fidelidade e os detalhes geométricos dos ativos 3D sintetizados. No entanto, devido à ambiguidade inerente das observações de vista única e à falta de *priors* estruturais globais robustos causada pela limitação dos dados de treinamento 3D, as regiões não visíveis geradas pelos modelos existentes são frequentemente estocásticas e de difícil controle, podendo, por vezes, não se alinhar com as intenções do usuário ou produzir geometrias implausíveis. Neste artigo, propomos o Know3D, uma nova estrutura que incorpora conhecimento rico de modelos de linguagem grandes multimodais nos processos generativos 3D por meio da injeção de estados ocultos latentes, permitindo a geração controlada por linguagem da vista traseira de ativos 3D. Utilizamos um modelo baseado em VLM-difusão, onde o VLM é responsável pela compreensão e orientação semântica. O modelo de difusão atua como uma ponte que transfere o conhecimento semântico do VLM para o modelo de geração 3D. Desta forma, conseguimos preencher a lacuna entre instruções textuais abstratas e a reconstrução geométrica de regiões não observadas, transformando a tradicional alucinação estocástica da vista traseira em um processo semanticamente controlável, demonstrando uma direção promissora para futuros modelos de geração 3D.

Sommelier: Pré-processamento de Áudio Multi-turn Aberto e Escalável para Modelos de Linguagem de Fala Full-duplex
Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Mar 20

ByKyudan Jung, Jihwan Kim, Soyoon Kim, Jeongoon Kim, Jaegul Choo, Cheonbok Park

À medida que o paradigma da IA transita de LLMs baseados em texto para Modelos de Linguagem de Fala (SLMs), cresce a demanda por sistemas de dupla capacidade (full-duplex) capazes de interação homem-máquina natural e em tempo real. No entanto, o desenvolvimento de tais modelos é limitado pela escassez de dados conversacionais de alta qualidade e com múltiplos interlocutores, uma vez que os recursos em larga escala existentes são predominantemente de um único falante ou de volume limitado. Abordar a dinâmica complexa do diálogo natural, como sobreposições e retroalimentações conversacionais (back-channeling), permanece um desafio, com os fluxos de processamento padrão sofrendo com erros de diarização e alucinações de ASR. Para preencher essa lacuna, apresentamos um pipeline de processamento de dados robusto, escalável e de código aberto, projetado para modelos de dupla capacidade.

Relatório Técnico do Composer 2
Composer 2 Technical Report

Mar 25

ByCursor Research, Aaron Chan, Ahmed Shalaby, Alexander Wettig, Aman Sanger, Andrew Zhai, Anurag Ajay, Ashvin Nair, Charlie Snell, Chen Lu, Chen Shen, Emily Jia, Federico Cassano, Hanpeng Liu, Haoyu Chen, Henry Wildermuth, Jacob Jackson, Janet Li, Jediah Katz, Jiajun Yao, Joey Hejna, Josh Warner, Julius Vering, Kevin Frans, Lee Danilek, Less Wright, Lujing Cen, Luke Melas-Kyriazi, Michael Truell, Michiel de Jong, Naman Jain, Nate Schmidt, Nathan Wang, Niklas Muennighoff, Oleg Rybkin, Paul Loh, Phillip Kravtsov, Rishabh Yadav, Sahil Shah, Sam Kottler, Alexander M Rush, Shengtong Zhang, Shomil Jain, Sriram Sankar, Stefan Heule, Stuart H. Sul, Sualeh Asif, Victor Rong, Wanqi Zhu, William Lin, Yuchen Wu, Yuri Volkov, Yury Zemlyanskiy, Zack Holbrook, Zhiyuan Zhang

O Composer 2 é um modelo especializado projetado para engenharia de software agentiva. O modelo demonstra forte capacidade de planejamento de longo prazo e inteligência em codificação, mantendo a habilidade de resolver problemas de forma eficiente para uso interativo. O modelo é treinado em duas fases: primeiro, pré-treinamento contínuo para melhorar o conhecimento e a capacidade latente de codificação do modelo, seguido por aprendizado por reforço em larga escala para melhorar o desempenho de codificação end-to-end por meio de raciocínio mais forte, execução precisa de múltiplas etapas e coerência em problemas realistas de codificação de longo horizonte. Desenvolvemos infraestrutura para suportar o treinamento no mesmo ambiente Cursor utilizado pelo modelo implantado, com ferramentas e estrutura equivalentes, e usamos ambientes que correspondem de perto a problemas reais. Para medir a capacidade do modelo em tarefas progressivamente mais difíceis, introduzimos um benchmark derivado de problemas reais de engenharia de software em grandes bases de código, incluindo as nossas. O Composer 2 é um modelo de codificação de nível de fronteira e demonstra um processo para treinar modelos fortemente especializados em domínios. Em nossas avaliações do CursorBench, o modelo alcança uma grande melhoria na precisão em comparação com os modelos Composer anteriores (61,3). Em benchmarks públicos, o modelo obtém pontuação de 61,7 no Terminal-Bench e 73,7 no SWE-bench Multilingual em nosso ambiente, comparável aos sistemas state-of-the-art.

GenMask: Adaptando DiT para Segmentação via Máscara Direta
GenMask: Adapting DiT for Segmentation via Direct Mask

Mar 25

ByYuhuan Yang, Xianwei Zhuang, Yuxuan Cai, Chaofan Ma, Shuai Bai, Jiangchao Yao, Ya Zhang, Junyang Lin, Yanfeng Wang

Abordagens recentes para segmentação têm aproveitado modelos generativos pré-treinados como extratores de características, tratando a segmentação como uma tarefa de adaptação downstream via recuperação indireta de features. Este uso implícito sofre de um desalinhamento fundamental na representação. Também depende fortemente de pipelines indiretos de extração de características, que complicam o fluxo de trabalho e limitam a adaptação. Neste artigo, argumentamos que, em vez de adaptação indireta, as tarefas de segmentação devem ser treinadas diretamente de maneira generativa. Identificamos um obstáculo fundamental para esta formulação unificada: os latentes de VAE para máscaras binárias são distribuídos de forma abrupta, robustos ao ruído e linearmente separáveis, distintos dos latentes de imagens naturais. Para superar esta lacuna, introduzimos uma estratégia de amostragem de timesteps para máscaras binárias que enfatiza níveis extremos de ruído para segmentação e ruído moderado para geração de imagens, permitindo um treinamento conjunto harmonioso. Apresentamos o GenMask, um DiT treinado para gerar máscaras de segmentação em preto e branco, bem como imagens coloridas no espaço RGB, sob o objetivo generativo original. O GenMask preserva a arquitetura DiT original enquanto elimina a necessidade de pipelines de extração de características específicas para tarefas de segmentação. Empiricamente, o GenMask atinge desempenho state-of-the-art em benchmarks de segmentação por referência e por raciocínio, e ablations quantificam a contribuição de cada componente.

Diffutron: Um Modelo de Linguagem de Difusão Mascarada para a Língua Turca
Diffutron: A Masked Diffusion Language Model for Turkish Language

Mar 20

ByŞuayp Talha Kocabay, Talha Rüzgar Akkuş

Os Modelos de Linguagem de Difusão Mascarada (MDLMs) surgiram como uma alternativa não autorregressiva atraente aos modelos de linguagem grandes padrão; no entanto, sua aplicação a idiomas morfologicamente ricos permanece limitada. Neste artigo, apresentamos o Diffutron, um modelo de linguagem de difusão mascarada especificamente projetado para o turco. Nossa abordagem aproveita um *pipeline* de treinamento eficiente em recursos, começando com o pré-treinamento contínuo baseado em LoRA de um codificador multilíngue em um corpus em larga escala. Para habilitar capacidades generativas, empregamos uma estratégia de *instruction-tuning* progressivo, adaptando sequencialmente o modelo em conjuntos de instruções gerais e específicos de tarefas. Resultados experimentais em *benchmarks* abrangentes demonstram que, apesar de seu tamanho compacto, nosso modelo alcança um desempenho competitivo em comparação com as linhas de base existentes com múltiplos bilhões de parâmetros. Essas descobertas validam a eficácia da modelagem de difusão mascarada combinada com o ajuste multietapas para a geração de texto não autorregressiva em turco.

Aprendendo a Comprometer: Gerando Pull Requests Orgânicos por meio de Memória de Repositório Online
Learning to Commit: Generating Organic Pull Requests via Online Repository Memory

Mar 27

ByMo Li, L. H. Xu, Qitai Tan, Ting Cao, Yunxin Liu

Os agentes de programação baseados em modelos de linguagem de grande escala (LLM) alcançam resultados impressionantes em benchmarks controlados, mas frequentemente produzem pull requests que são rejeitados por mantenedores reais. A causa raiz não é a incorreção funcional, mas a falta de organicidade: o código gerado ignora convenções específicas do projeto, duplica funcionalidades já fornecidas por APIs internas e viola restrições arquitetônicas implícitas acumuladas ao longo de anos de desenvolvimento. Simplesmente expor um agente ao snapshot mais recente do repositório não é suficiente: o snapshot revela o estado final da base de código, mas não os padrões de alteração específicos do repositório pelos quais esse estado foi alcançado. Introduzimos o Learning to Commit, uma estrutura que fecha essa lacuna através da Memória de Repositório Online. Dado um repositório com uma divisão cronológica estrita, o agente realiza uma reflexão contrastiva supervisionada em commits anteriores: ele tenta cegamente resolver cada issue histórica, compara sua previsão com o diff oráculo e destila a lacuna em um conjunto continuamente crescente de habilidades - padrões reutilizáveis que capturam estilo de codificação, uso de APIs internas e invariantes arquiteturais. Quando uma nova descrição de PR chega, o agente condiciona sua geração nessas habilidades acumuladas, produzindo alterações fundamentadas na própria evolução do projeto, e não em prioridades genéricas de pré-treinamento. A avaliação é conduzida em pull requests futuras genuinamente mescladas que não poderiam ter sido vistas durante a fase de construção de habilidades, e abrange múltiplas dimensões, incluindo correção funcional, consistência de estilo de código, taxa de reutilização de API interna e plausibilidade da região modificada. Experimentos em um repositório mantido por especialistas com histórico rico de commits mostram que a Memória de Repositório Online melhora efetivamente as pontuações de organicidade em tarefas futuras retidas.

Minta-me: Quão Fiel É o Raciocínio em Cadeia de Pensamento em Modelos de Raciocínio?
Lie to Me: How Faithful Is Chain-of-Thought Reasoning in Reasoning Models?

Mar 23

ByRichard J. Young

O raciocínio de cadeia de pensamento (CoT) foi proposto como um mecanismo de transparência para modelos de linguagem grandes em implantações de segurança crítica, mas sua eficácia depende da fidelidade (se os modelos verbalizam com precisão os fatores que realmente influenciam suas saídas), uma propriedade que avaliações anteriores examinaram em apenas dois modelos proprietários, encontrando taxas de reconhecimento tão baixas quanto 25% para o Claude 3.7 Sonnet e 39% para o DeepSeek-R1. Para estender esta avaliação ao ecossistema de modelos abertos, este estudo testa 12 modelos de raciocínio de peso aberto abrangendo 9 famílias arquiteturais (7B-685B parâmetros) em 498 questões de múltipla escolha do MMLU e GPQA Diamond, injetando seis categorias de dicas de raciocínio (sicofania, consistência, padrão visual, metadados, manipulação de avaliador e informação antiética) e medindo a taxa na qual os modelos reconhecem a influência da dica em seu CoT quando as dicas alteram com sucesso as respostas. Em 41.832 execuções de inferência, as taxas gerais de fidelidade variam de 39,7% (Seed-1.6-Flash) a 89,9% (DeepSeek-V3.2-Speciale) entre as famílias de modelos, com as dicas de consistência (35,5%) e sicofania (53,9%) exibindo as taxas de reconhecimento mais baixas. A metodologia de treinamento e a família do modelo preveem a fidelidade mais fortemente do que a contagem de parâmetros, e a análise baseada em palavras-chave revela uma lacuna impressionante entre o reconhecimento nos *tokens* de pensamento (aproximadamente 87,5%) e o reconhecimento no texto da resposta (aproximadamente 28,6%), sugerindo que os modelos reconhecem internamente a influência da dica, mas suprimem sistematicamente este reconhecimento em suas saídas. Estas descobertas têm implicações diretas para a viabilidade da monitorização do CoT como mecanismo de segurança e sugerem que a fidelidade não é uma propriedade fixa dos modelos de raciocínio, mas varia sistematicamente com a arquitetura, o método de treinamento e a natureza do estímulo influenciador.

Trace2Skill: Destilar Lições Locais da Trajetória em Habilidades de Agente Transferíveis
Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills

Mar 26

ByJingwei Ni, Yihao Liu, Xinpeng Liu, Yutao Sun, Mengyu Zhou, Pengyu Cheng, Dexin Wang, Xiaoxi Jiang, Guanjun Jiang