Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de vídeo de mundo têm demonstrado imenso potencial na simulação do mundo físico, porém os mecanismos de memória existentes tratam principalmente os ambientes como telas estáticas. Quando sujeitos dinâmicos se ocultam da vista e posteriormente reaparecem, os métodos atuais frequentemente apresentam dificuldades, resultando em sujeitos congelados, distorcidos ou que desaparecem. Para resolver isso, introduzimos a Memória Híbrida, um novo paradigma que exige que os modelos atuem simultaneamente como arquivistas precisos para fundos estáticos e rastreadores vigilantes para sujeitos dinâmicos, garantindo a continuidade do movimento durante os intervalos fora de vista. Para facilitar a pesquisa nessa direção, construímos o HM-World, o primeiro grande conjunto de dados de vídeo dedicado à memória híbrida. Ele apresenta 59 mil clipes de alta fidelidade com trajetórias de câmera e de sujeitos dissociadas, abrangendo 17 cenas diversas, 49 sujeitos distintos e eventos de saída-entrada meticulosamente projetados para avaliar rigorosamente a coerência híbrida. Além disso, propomos o HyDRA, uma arquitetura de memória especializada que comprime a memória em tokens e utiliza um mecanismo de recuperação orientado por relevância espaço-temporal. Ao atender seletivamente a pistas de movimento relevantes, o HyDRA preserva efetivamente a identidade e o movimento de sujeitos ocultos. Experimentos extensivos no HM-World demonstram que nosso método supera significativamente as abordagens state-of-the-art tanto na consistência de sujeitos dinâmicos quanto na qualidade geral de geração.
A geração de vídeo multi-shot é crucial para narrativas longas, mas as arquiteturas bidirecionais atuais sofrem com interatividade limitada e alta latência. Propomos o ShotStream, uma nova arquitetura causal multi-shot que permite narrativa interativa e geração eficiente de frames em tempo real. Ao reformular a tarefa como geração do próximo shot condicionada ao contexto histórico, o ShotStream permite que os usuários instruam dinamicamente narrativas em andamento por meio de prompts em streaming. Conseguimos isso primeiro ajustando finamente um modelo texto-para-vídeo em um gerador bidirecional de próximo shot, que é então destilado em um aluno causal via Destilação por Correspondência de Distribuição. Para superar os desafios de consistência inter-shot e acumulação de erros inerentes à geração autoregressiva, introduzimos duas inovações principais. Primeiro, um mecanismo de memória de dupla cache preserva a coerência visual: uma cache de contexto global retém frames condicionais para consistência inter-shot, enquanto uma cache de contexto local armazena frames gerados dentro do shot atual para consistência intra-shot. E um indicador de descontinuidade RoPE é empregado para distinguir explicitamente as duas caches e eliminar ambiguidade. Segundo, para mitigar a acumulação de erros, propomos uma estratégia de destilação em dois estágios. Esta começa com auto-forçamento intra-shot condicionado aos shots históricos verdadeiros e progride gradualmente para auto-forçamento inter-shot usando históricos auto-gerados, efetivamente preenchendo a lacuna entre treino e teste. Experimentos extensivos demonstram que o ShotStream gera vídeos multi-shot coerentes com latência inferior a um segundo, atingindo 16 FPS em uma única GPU. Ele iguala ou excede a qualidade de modelos bidirecionais mais lentos, abrindo caminho para a narrativa interativa em tempo real. O código de treino e inferência, bem como os modelos, estão disponíveis em nosso
Os modelos de difusão de vídeo autoregressivos têm demonstrado progresso notável, mas continuam limitados pelo crescimento intratável do cache KV linear, pela repetição temporal e por erros cumulativos durante a geração de vídeos longos. Para enfrentar esses desafios, apresentamos o PackForcing, uma estrutura unificada que gerencia eficientemente o histórico de geração através de uma nova estratégia de cache KV com três partições. Especificamente, categorizamos o contexto histórico em três tipos distintos: (1) Tokens âncora, que preservam os quadros iniciais de referência em resolução total para manter a semântica global; (2) Tokens intermediários, que alcançam uma compressão espaço-temporal massiva (redução de 32x em tokens) através de uma rede de duplo ramo que funde convoluções 3D progressivas com recodificação VAE de baixa resolução; e (3) Tokens recentes, mantidos em resolução total para garantir coerência temporal local. Para limitar estritamente a pegada de memória sem sacrificar a qualidade, introduzimos um mecanismo de seleção dinâmica de contexto top-k para os tokens intermediários, aliado a um Ajuste Contínuo de RoPE Temporal que realinha perfeitamente as lacunas posicionais causadas pela descarte de tokens com sobrecarga insignificante. Potencializado por esta compressão hierárquica de contexto fundamentada, o PackForcing pode gerar vídeos coerentes de 2 minutos em 832x480 a 16 FPS em uma única GPU H200. Alcança um cache KV limitado de apenas 4 GB e permite uma notável extrapolação temporal de 24x (de 5s para 120s), operando eficazmente de forma zero-shot ou treinado com clipes de apenas 5 segundos. Resultados extensivos no VBench demonstram consistência temporal (26.07) e grau dinâmico (56.25) state-of-the-art, provando que a supervisão com vídeos curtos é suficiente para síntese de vídeos longos de alta qualidade. https://github.com/ShandaAI/PackForcing
Dotar agentes de Modelos de Linguagem de Grande Porte (LLM) com habilidades específicas de domínio é crucial para lidar com tarefas complexas. No entanto, a criação manual gera um severo gargalo de escalabilidade. Por outro lado, a geração automatizada de habilidades frequentemente produz resultados frágeis ou fragmentados, pois depende de conhecimento paramétrico superficial ou se ajusta excessivamente, de forma sequencial, a lições localizadas em trajetórias não generalizáveis. Para superar isso, apresentamos o Trace2Skill, uma estrutura que espelha a forma como especialistas humanos criam habilidades: analisando holisticamente uma ampla experiência de execução antes de destilá-la em um guia único e abrangente. Em vez de reagir sequencialmente a trajetórias individuais, o Trace2Skill despacha uma frota paralela de subagentes para analisar um conjunto diversificado de execuções. Ele extrai lições específicas de cada trajetória e as consolida hierarquicamente em um diretório de habilidades unificado e livre de conflitos por meio de raciocínio indutivo. O Trace2Skill suporta tanto o aprofundamento de habilidades humanas pré-existentes quanto a criação de novas habilidades do zero. Experimentos em domínios desafiadores, como planilhas, VisionQA e raciocínio matemático, mostram que o Trace2Skill melhora significativamente linhas de base fortes, incluindo as habilidades oficiais xlsx da Anthropic. Crucialmente, esta evolução fundamentada em trajetórias não se limita a memorizar instâncias de tarefas ou peculiaridades específicas de modelos: as habilidades evoluídas transferem-se entre diferentes escalas de LLM e generalizam-se para configurações fora da distribuição (OOD). Por exemplo, habilidades evoluídas pelo Qwen3.5-35B em suas próprias trajetórias melhoraram um agente Qwen3.5-122B em até 57,65 pontos percentuais absolutos no WikiTableQuestions. Por fim, nossos resultados demonstram que a experiência complexa de um agente pode ser empacotada em habilidades declarativas altamente transferíveis - sem necessidade de atualizações de parâmetros, módulos externos de recuperação e utilizando modelos de código aberto com apenas 35B de parâmetros.
Atualmente, a avaliação de modelos visão-linguagem (VLMs) em tarefas de imagiologia médica simplifica excessivamente a realidade clínica ao depender de imagens 2D pré-selecionadas que exigem um trabalho manual significativo para serem curadas. Esta configuração ignora o desafio central dos diagnósticos do mundo real: um verdadeiro agente clínico deve navegar ativamente em volumes 3D completos através de múltiplas sequências ou modalidades para reunir evidências e, em última análise, apoiar uma decisão final. Para resolver isto, propomos o MEDOPENCLAW, um *runtime* auditável concebido para permitir que os VLMs operem dinamicamente dentro de ferramentas ou visualizadores médicos padrão (por exemplo, 3D Slicer). Sobre este *runtime*, introduzimos o MEDFLOWBENCH, um *benchmark* de imagiologia médica de estudo completo que abrange ressonância magnética cerebral multi-sequência e TC/PET pulmonar. Ele avalia sistematicamente as capacidades agentivas médicas através de pistas de apenas visualização, uso de ferramentas e método aberto. Os resultados iniciais revelam uma perceção crítica: embora os LLMs/VLMs de última geração (por exemplo, Gemini 3.1 Pro e GPT-5.4) consigam navegar com sucesso no visualizador para resolver tarefas básicas a nível de estudo, o seu desempenho degrada-se paradoxalmente quando lhes é dado acesso a ferramentas de suporte profissionais devido à falta de uma fundamentação espacial precisa. Ao colmatar a lacuna entre a perceção de imagem estática e os fluxos de trabalho clínicos interativos, o MEDOPENCLAW e o MEDFLOWBENCH estabelecem uma base reproduzível para o desenvolvimento de agentes de imagiologia média auditáveis e de estudo completo.
Os Modelos de Visão-Linguagem (VLMs) demonstraram capacidades impressionantes na geração de código em vários domínios. No entanto, a sua capacidade de replicar visualizações complexas e multipainel a partir de dados do mundo real permanece amplamente não avaliada. Para colmatar esta lacuna, introduzimos o \texttt{RealChart2Code}, um novo benchmark de grande escala com mais de 2.800 instâncias baseadas em conjuntos de dados autênticos e que apresenta tarefas com uma intenção analítica clara. Crucialmente, é o primeiro benchmark a avaliar sistematicamente a geração de gráficos a partir de dados brutos em larga escala e a avaliar o refinamento iterativo de código num contexto conversacional multiturno. A nossa avaliação abrangente de 14 VLMs líderes no RealChart2Code revela uma degradação significativa de desempenho em comparação com benchmarks mais simples, destacando as suas dificuldades com estruturas de gráficos complexas e dados autênticos. A nossa análise revela uma lacuna substancial de desempenho entre modelos proprietários e de pesos abertos e confirma que mesmo os VLMs mais avançados frequentemente falham em replicar com precisão gráficos intrincados e multipainel. Estas descobertas fornecem informações valiosas sobre as limitações atuais dos VLMs e orientam futuras direções de investigação. Disponibilizamos o benchmark e o código em https://github.com/Speakn0w/RealChart2Code.
Em domínios do mundo real, como a condução autónoma, a generalização para cenários raros continua a ser um desafio fundamental. Para enfrentar este problema, introduzimos um novo conjunto de dados concebido para condução de ponta a ponta que se concentra em eventos de condução de cauda longa. Fornecemos dados de vídeo multi-perspetiva, trajetórias, instruções de alto nível e rastos de raciocínio detalhados, facilitando a aprendizagem contextual e a generalização com poucos exemplos. O *benchmark* resultante para modelos multimodais, como VLMs e VLAs, vai além das métricas de segurança e conforto, avaliando o seguimento de instruções e a coerência semântica entre as saídas dos modelos. Os rastos de raciocínio multilingues em inglês, espanhol e chinês provêm de especialistas de domínio com origens culturais diversas. Assim, o nosso conjunto de dados constitui um recurso único para estudar como diferentes formas de raciocínio afetam a competência de condução. O nosso conjunto de dados está disponível em: https://hf.co/datasets/kit-mrt/kitscenes-longtail
O desempenho dos agentes depende cada vez mais da engenharia de *harnesses*, no entanto, o projeto desses *harnesses* geralmente está embutido no código do controlador e em convenções específicas do ambiente de execução, dificultando sua transferência, comparação e estudo como objeto científico. Questionamos se a lógica de controle de alto nível de um *harness* de agente pode, em vez disso, ser externalizada como um artefato executável portátil. Apresentamos os *Natural-Language Agent Harnesses* (NLAHs), que expressam o comportamento do *harness* em linguagem natural editável, e o *Intelligent Harness Runtime* (IHR), um ambiente de execução compartilhado que executa esses *harnesses* por meio de contratos explícitos, artefatos duráveis e adaptadores leves. Em benchmarks de codificação e uso de computador, realizamos avaliações controladas de viabilidade operacional, ablação de módulos e migração de *harnesses* de código para texto.
Os recentes avanços na geração 3D têm melhorado a fidelidade e os detalhes geométricos dos ativos 3D sintetizados. No entanto, devido à ambiguidade inerente das observações de vista única e à falta de *priors* estruturais globais robustos causada pela limitação dos dados de treinamento 3D, as regiões não visíveis geradas pelos modelos existentes são frequentemente estocásticas e de difícil controle, podendo, por vezes, não se alinhar com as intenções do usuário ou produzir geometrias implausíveis. Neste artigo, propomos o Know3D, uma nova estrutura que incorpora conhecimento rico de modelos de linguagem grandes multimodais nos processos generativos 3D por meio da injeção de estados ocultos latentes, permitindo a geração controlada por linguagem da vista traseira de ativos 3D. Utilizamos um modelo baseado em VLM-difusão, onde o VLM é responsável pela compreensão e orientação semântica. O modelo de difusão atua como uma ponte que transfere o conhecimento semântico do VLM para o modelo de geração 3D. Desta forma, conseguimos preencher a lacuna entre instruções textuais abstratas e a reconstrução geométrica de regiões não observadas, transformando a tradicional alucinação estocástica da vista traseira em um processo semanticamente controlável, demonstrando uma direção promissora para futuros modelos de geração 3D.
À medida que o paradigma da IA transita de LLMs baseados em texto para Modelos de Linguagem de Fala (SLMs), cresce a demanda por sistemas de dupla capacidade (full-duplex) capazes de interação homem-máquina natural e em tempo real. No entanto, o desenvolvimento de tais modelos é limitado pela escassez de dados conversacionais de alta qualidade e com múltiplos interlocutores, uma vez que os recursos em larga escala existentes são predominantemente de um único falante ou de volume limitado. Abordar a dinâmica complexa do diálogo natural, como sobreposições e retroalimentações conversacionais (back-channeling), permanece um desafio, com os fluxos de processamento padrão sofrendo com erros de diarização e alucinações de ASR. Para preencher essa lacuna, apresentamos um pipeline de processamento de dados robusto, escalável e de código aberto, projetado para modelos de dupla capacidade.
O Composer 2 é um modelo especializado projetado para engenharia de software agentiva. O modelo demonstra forte capacidade de planejamento de longo prazo e inteligência em codificação, mantendo a habilidade de resolver problemas de forma eficiente para uso interativo. O modelo é treinado em duas fases: primeiro, pré-treinamento contínuo para melhorar o conhecimento e a capacidade latente de codificação do modelo, seguido por aprendizado por reforço em larga escala para melhorar o desempenho de codificação end-to-end por meio de raciocínio mais forte, execução precisa de múltiplas etapas e coerência em problemas realistas de codificação de longo horizonte. Desenvolvemos infraestrutura para suportar o treinamento no mesmo ambiente Cursor utilizado pelo modelo implantado, com ferramentas e estrutura equivalentes, e usamos ambientes que correspondem de perto a problemas reais. Para medir a capacidade do modelo em tarefas progressivamente mais difíceis, introduzimos um benchmark derivado de problemas reais de engenharia de software em grandes bases de código, incluindo as nossas. O Composer 2 é um modelo de codificação de nível de fronteira e demonstra um processo para treinar modelos fortemente especializados em domínios. Em nossas avaliações do CursorBench, o modelo alcança uma grande melhoria na precisão em comparação com os modelos Composer anteriores (61,3). Em benchmarks públicos, o modelo obtém pontuação de 61,7 no Terminal-Bench e 73,7 no SWE-bench Multilingual em nosso ambiente, comparável aos sistemas state-of-the-art.
Abordagens recentes para segmentação têm aproveitado modelos generativos pré-treinados como extratores de características, tratando a segmentação como uma tarefa de adaptação downstream via recuperação indireta de features. Este uso implícito sofre de um desalinhamento fundamental na representação. Também depende fortemente de pipelines indiretos de extração de características, que complicam o fluxo de trabalho e limitam a adaptação. Neste artigo, argumentamos que, em vez de adaptação indireta, as tarefas de segmentação devem ser treinadas diretamente de maneira generativa. Identificamos um obstáculo fundamental para esta formulação unificada: os latentes de VAE para máscaras binárias são distribuídos de forma abrupta, robustos ao ruído e linearmente separáveis, distintos dos latentes de imagens naturais. Para superar esta lacuna, introduzimos uma estratégia de amostragem de timesteps para máscaras binárias que enfatiza níveis extremos de ruído para segmentação e ruído moderado para geração de imagens, permitindo um treinamento conjunto harmonioso. Apresentamos o GenMask, um DiT treinado para gerar máscaras de segmentação em preto e branco, bem como imagens coloridas no espaço RGB, sob o objetivo generativo original. O GenMask preserva a arquitetura DiT original enquanto elimina a necessidade de pipelines de extração de características específicas para tarefas de segmentação. Empiricamente, o GenMask atinge desempenho state-of-the-art em benchmarks de segmentação por referência e por raciocínio, e ablations quantificam a contribuição de cada componente.
Os Modelos de Linguagem de Difusão Mascarada (MDLMs) surgiram como uma alternativa não autorregressiva atraente aos modelos de linguagem grandes padrão; no entanto, sua aplicação a idiomas morfologicamente ricos permanece limitada. Neste artigo, apresentamos o Diffutron, um modelo de linguagem de difusão mascarada especificamente projetado para o turco. Nossa abordagem aproveita um *pipeline* de treinamento eficiente em recursos, começando com o pré-treinamento contínuo baseado em LoRA de um codificador multilíngue em um corpus em larga escala. Para habilitar capacidades generativas, empregamos uma estratégia de *instruction-tuning* progressivo, adaptando sequencialmente o modelo em conjuntos de instruções gerais e específicos de tarefas. Resultados experimentais em *benchmarks* abrangentes demonstram que, apesar de seu tamanho compacto, nosso modelo alcança um desempenho competitivo em comparação com as linhas de base existentes com múltiplos bilhões de parâmetros. Essas descobertas validam a eficácia da modelagem de difusão mascarada combinada com o ajuste multietapas para a geração de texto não autorregressiva em turco.
Os agentes de programação baseados em modelos de linguagem de grande escala (LLM) alcançam resultados impressionantes em benchmarks controlados, mas frequentemente produzem pull requests que são rejeitados por mantenedores reais. A causa raiz não é a incorreção funcional, mas a falta de organicidade: o código gerado ignora convenções específicas do projeto, duplica funcionalidades já fornecidas por APIs internas e viola restrições arquitetônicas implícitas acumuladas ao longo de anos de desenvolvimento. Simplesmente expor um agente ao snapshot mais recente do repositório não é suficiente: o snapshot revela o estado final da base de código, mas não os padrões de alteração específicos do repositório pelos quais esse estado foi alcançado. Introduzimos o Learning to Commit, uma estrutura que fecha essa lacuna através da Memória de Repositório Online. Dado um repositório com uma divisão cronológica estrita, o agente realiza uma reflexão contrastiva supervisionada em commits anteriores: ele tenta cegamente resolver cada issue histórica, compara sua previsão com o diff oráculo e destila a lacuna em um conjunto continuamente crescente de habilidades - padrões reutilizáveis que capturam estilo de codificação, uso de APIs internas e invariantes arquiteturais. Quando uma nova descrição de PR chega, o agente condiciona sua geração nessas habilidades acumuladas, produzindo alterações fundamentadas na própria evolução do projeto, e não em prioridades genéricas de pré-treinamento. A avaliação é conduzida em pull requests futuras genuinamente mescladas que não poderiam ter sido vistas durante a fase de construção de habilidades, e abrange múltiplas dimensões, incluindo correção funcional, consistência de estilo de código, taxa de reutilização de API interna e plausibilidade da região modificada. Experimentos em um repositório mantido por especialistas com histórico rico de commits mostram que a Memória de Repositório Online melhora efetivamente as pontuações de organicidade em tarefas futuras retidas.
O raciocínio de cadeia de pensamento (CoT) foi proposto como um mecanismo de transparência para modelos de linguagem grandes em implantações de segurança crítica, mas sua eficácia depende da fidelidade (se os modelos verbalizam com precisão os fatores que realmente influenciam suas saídas), uma propriedade que avaliações anteriores examinaram em apenas dois modelos proprietários, encontrando taxas de reconhecimento tão baixas quanto 25% para o Claude 3.7 Sonnet e 39% para o DeepSeek-R1. Para estender esta avaliação ao ecossistema de modelos abertos, este estudo testa 12 modelos de raciocínio de peso aberto abrangendo 9 famílias arquiteturais (7B-685B parâmetros) em 498 questões de múltipla escolha do MMLU e GPQA Diamond, injetando seis categorias de dicas de raciocínio (sicofania, consistência, padrão visual, metadados, manipulação de avaliador e informação antiética) e medindo a taxa na qual os modelos reconhecem a influência da dica em seu CoT quando as dicas alteram com sucesso as respostas. Em 41.832 execuções de inferência, as taxas gerais de fidelidade variam de 39,7% (Seed-1.6-Flash) a 89,9% (DeepSeek-V3.2-Speciale) entre as famílias de modelos, com as dicas de consistência (35,5%) e sicofania (53,9%) exibindo as taxas de reconhecimento mais baixas. A metodologia de treinamento e a família do modelo preveem a fidelidade mais fortemente do que a contagem de parâmetros, e a análise baseada em palavras-chave revela uma lacuna impressionante entre o reconhecimento nos *tokens* de pensamento (aproximadamente 87,5%) e o reconhecimento no texto da resposta (aproximadamente 28,6%), sugerindo que os modelos reconhecem internamente a influência da dica, mas suprimem sistematicamente este reconhecimento em suas saídas. Estas descobertas têm implicações diretas para a viabilidade da monitorização do CoT como mecanismo de segurança e sugerem que a fidelidade não é uma propriedade fixa dos modelos de raciocínio, mas varia sistematicamente com a arquitetura, o método de treinamento e a natureza do estímulo influenciador.