Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes de codificação de IA são cada vez mais utilizados em trabalhos científicos, mas sua capacidade de pesquisa autônoma de ponta a ponta ainda é difícil de verificar. Apresentamos o ResearchClawBench, um benchmark para avaliar pesquisa científica autônoma em 40 tarefas de 10 domínios científicos. Cada tarefa está fundamentada em um artigo real publicado, fornece literatura relacionada e dados brutos, e oculta o artigo alvo durante a avaliação. Rubricas multimodais elaboradas por especialistas decompõem os artefatos científicos alvo em critérios ponderados, permitindo a avaliação da redescoberta em nível de artigo alvo, ao mesmo tempo que deixam espaço para novas descobertas. Avaliamos sete agentes de auto-pesquisa sob um protocolo unificado e dezessete LLMs nativos por meio do ResearchHarness leve. Os sistemas atuais ainda estão longe de uma redescoberta confiável: o agente autônomo mais forte, Claude Code, atinge média de 21,5, e o LLM do ResearchHarness mais forte, Claude-Opus-4.7, atinge média de 20,7, com uma média da fronteira dos LLMs de apenas 26,5. A análise de erros mostra que as falhas se concentram em incompatibilidade de protocolo experimental, incompatibilidade de evidências e ausência de núcleo científico. O ResearchClawBench fornece uma fronteira de avaliação reproduzível para medir o progresso em direção à pesquisa científica autônoma.
Modelos de visão-linguagem (VLMs) destacam-se em muitas tarefas, mas ainda enfrentam dificuldades com raciocínio espacial quando informações críticas não são diretamente observáveis. Muitos desses problemas exigem percepção imaginativa: inferir o que seria visto a partir de um ponto de vista não observado, traçar caminhos através de espaços ocluídos ou integrar observações parciais em uma representação espacial coerente. Apresentamos os Tokens de Percepção Imaginativa (IPT), representações perceptuais intermediárias que externalizam o que um VLM perceberia sob configurações espaciais alternativas, mantendo-se consistentes com a entrada observada. Para estudar essa capacidade, formulamos três tarefas — Tomada de Perspectiva (PET), Rastreamento de Caminhos (PT) e Contagem Multivista (MVC) — e construímos conjuntos de dados de aproximadamente 20 mil exemplos com imaginações, respostas e benchmarks de avaliação de referência. Usando o VLM unificado BAGEL como espinha dorsal, a supervisão do IPT melhora consistentemente o raciocínio espacial e frequentemente supera o treinamento textual com cadeia de pensamento, mesmo sem gerar imagens no momento da inferência. No MVC, o IPT melhora a precisão em 3,4% e atinge desempenho competitivo com modelos fechados robustos no PT. Além disso, descobrimos que combinar IPT e supervisão apenas de rótulos proporciona ganhos adicionais, enquanto a cadeia de pensamento textual pode degradar substancialmente o desempenho, sugerindo uma incompatibilidade de modalidade quando a computação espacial é forçada pela linguagem. De modo geral, o IPT fornece um sinal de supervisão fundamentado para raciocinar sobre estruturas espaciais não observadas, melhorando a generalização e produzindo representações intermediárias interpretáveis.
Grandes modelos de linguagem apresentam capacidades impressionantes de aprendizado zero-shot em uma ampla variedade de tarefas downstream. No entanto, eles têm dificuldade em funcionar como modelos de embedding prontos para uso, resultando em desempenho abaixo do ideal em benchmarks massivos de embeddings de texto. Neste artigo, identificamos uma possível causa subjacente a essa deficiência. Nossa motivação surge de uma observação inesperada: embeddings de texto tendem a se alinhar com tokens frequentes, mas pouco informativos, quando projetados no espaço vocabular. Argumentamos que essa expressão excessiva de tokens de alta frequência suprime a capacidade do modelo de capturar nuances semânticas. Para lidar com isso, apresentamos o EmbedFilter, uma transformação linear simples projetada para refinar diretamente os embeddings de texto derivados de LLMs. Especificamente, descobrimos que a matriz de unembedding dentro dos LLMs codifica um espaço latente que está ativamente escrevendo esses tokens frequentes no espaço de embedding. Ao filtrar esse subespaço, o EmbedFilter suprime a influência de tokens de alta frequência, melhorando assim as representações semânticas. Como um subproduto interessante, isso possibilita uma redução inerente de dimensionalidade, diminuindo o armazenamento de índices e acelerando a recuperação, enquanto preserva totalmente a qualidade refinada do embedding. Nossos experimentos com múltiplas arquiteturas de LLM demonstram que LLMs equipados com EmbedFilter alcançam desempenho zero-shot downstream superior, mesmo com dimensões de embedding significativamente reduzidas. Esperamos que nossas descobertas forneçam insights mais profundos sobre os mecanismos das representações baseadas em LLMs e inspirem designs mais fundamentados para melhorar o treinamento de embeddings de texto. Nosso código está disponível em https://github.com/CentreChen/EmbFilter.
Avaliar mediadores LLM continua sendo um desafio, pois a mediação se desenrola como uma trajetória em tempo real moldada pelas emoções, intenções e contexto em constante mudança das partes em disputa. Os bancos de teste existentes dependem de alguns domínios elaborados por especialistas, variam principalmente a postura estratégica e pontuam cada turno em relação a cada tópico, introduzindo ruído fora do tópico. Apresentamos o SoCRATES, um benchmark para avaliar mediadores LLM proativos em bancos de teste realistas e com múltiplos domínios. Ele constrói cenários a partir de conflitos reais por meio de um pipeline agentivo em oito domínios, investiga cinco eixos de adaptação sociocognitiva (postura estratégica, composição das partes, extensão do histórico, reatividade emocional e identidade cultural) e pontua cada tópico apenas nos turnos que o avançam, por meio de um avaliador localizado por tópico. O avaliador atinge 0,82 de alinhamento com especialistas humanos, mais que dobrando uma linha de base por turno. Ao avaliar oito LLMs de ponta, constatamos que mesmo o mediador mais forte fecha apenas cerca de um terço da lacuna de consenso não mediado em bancos de teste diversos e realistas, com desempenho variando acentuadamente conforme o eixo sociocognitivo, destacando que o progresso reside na adaptação social a condições diversas.
O progresso em modelos genômicos de base é difícil de avaliar devido a benchmarks fragmentados, protocolos de avaliação incompatíveis e relatos específicos por tarefa. Como resultado, alegações de superioridade ou generalidade entre modelos frequentemente não são diretamente comparáveis. Apresentamos o GENEB, um benchmark diagnóstico em larga escala que avalia representações congeladas de 40 modelos genômicos de base em 100 tarefas abrangendo 13 categorias funcionais, sob um protocolo unificado baseado em sondagem, incluindo regimes de poucos exemplos. O GENEB possibilita comparação controlada entre escala do modelo, arquitetura, tokenização e dados de pré-treinamento, expondo explicitamente compensações no nível de cada tarefa. Nossa análise mostra que classificações agregadas são instáveis: as posições dos modelos variam acentuadamente entre categorias de tarefas, a escala proporciona ganhos modestos e inconsistentes, e o alinhamento arquitetural e de pré-treinamento frequentemente supera o número de parâmetros. Esses resultados destacam limitações das práticas atuais de avaliação e posicionam o GENEB como uma estrutura de referência para comparação fundamentada e seleção de modelos com consciência de categoria em aprendizado de máquina genômico.
Apresentamos o MMAE, um benchmark de edição de áudio massiva e multitarefa, que constitui o primeiro ambiente de teste abrangente para edição de áudio baseada em instruções de uso geral. Impulsionado pela transição para a criação inteligente, a edição interativa expandiu-se rapidamente dos domínios visuais, pioneiramente exemplificada por modelos como Nano-banana 2 para imagens e Gemini-Omni para vídeo, para o áudio. No entanto, a infraestrutura de avaliação atual apresenta graves lacunas, permanecendo altamente fragmentada e restrita a subdomínios específicos ou operações básicas. Diferentemente dos benchmarks existentes, que têm escopo limitado, o MMAE abrange um amplo espectro de cenários do mundo real, incluindo 7 modalidades distintas de áudio — som, fala, música e suas misturas. Além disso, estabelecemos uma taxonomia abrangente que compreende 6 níveis de complexidade de tarefas, desde modificações básicas até raciocínio multi-salto e edição em múltiplas rodadas, 2 níveis de granularidade e 8 tipos distintos de operação. Meticulosamente curados por meio de colaboração humano-agente, os 2.000 exemplares de alta fidelidade do MMAE são acompanhados por uma estrutura de avaliação inovadora baseada em rubricas. Ao decompor tarefas de formato livre em 17.741 critérios verificáveis, esse paradigma robusto de rubricas possibilita uma avaliação precisa e multidimensional, tanto do seguimento de instruções quanto da consistência de contexto. Nossa extensa avaliação dos principais modelos revela que os sistemas atuais ainda estão longe de realizar edições confiáveis. Notadamente, a Taxa de Correspondência Exata (EMR) permanece consistentemente abaixo de 5% e cai para 0% absoluto em tarefas complexas de modalidades mistas, expondo gargalos críticos na execução precisa e na robustez estrutural. Esperamos que o MMAE sirva como catalisador para avanços futuros na comunidade de criação inteligente, fornecendo um roteiro de diagnóstico claro e estabelecendo um paradigma de avaliação padronizado e duradouro para a próxima geração de sistemas de edição de áudio.
Apesar de ser uma fronteira crucial, a modelagem interativa de mundos permanece subexplorada em termos da controlabilidade versátil exigida por cenários práticos. Para preencher essa lacuna, apresentamos o AnchorWorld, uma estrutura que avança a simulação egocêntrica por meio de uma melhor integridade da interação e um mecanismo flexível para personalização do mundo. Primeiro, utilizamos o movimento humano 3D como principal modalidade de interação. Para complementar as partes do corpo fora do campo de visão ou truncadas em vistas egocêntricas, introduzimos uma supervisão auxiliar de treinamento que incorpora pontos de vista exógenos dissociados do sensorium em primeira pessoa do agente. Isso permite que o modelo observe o posicionamento completo do corpo do agente em relação ao ambiente, facilitando um fundamento espacial mais robusto das interações humano-mundo. Além disso, propomos um mecanismo simples, porém eficaz, para personalizar mundos em auto-evolução. Isso é alcançado definindo vistas âncora dentro de um sistema de coordenadas mundial unificado, combinado com descrições textuais que ditam a evolução dinâmica de cenas locais. Os resultados experimentais mostram que o AnchorWorld supera significativamente as linhas de base de última geração, enquanto estudos de ablação validam a eficácia de nossos projetos principais. Notavelmente, nosso esquema de personalização exibe consistência geométrica espaço-temporal promissora e adere estritamente às dinâmicas evolutivas prescritas.
A inteligência robótica generalista é frequentemente enquadrada como um problema de escalonamento de políticas: coletar mais demonstrações robóticas, treinar modelos Visão-Linguagem-Ação (VLA) maiores e esperar uma generalização mais ampla. Neste artigo de posição, argumentamos que esse enquadramento é incompleto. O gargalo central não é apenas o aprendizado de políticas, mas a ausência de mecanismos que convertam os abundantes dados comportamentais não estruturados do mundo em supervisão fundamentada para robôs. Movimento humano, vídeo da internet, simulações de rollout e demonstrações interativas contêm informações ricas sobre tarefas, objetivos, contatos, falhas e restrições físicas; no entanto, a maior parte dessas informações não é diretamente utilizável por políticas robóticas por carecer de rótulos de ações específicos da corporificação, semântica de tarefas e estrutura de recompensa. Identificamos quatro componentes ausentes para a próxima geração da robótica: interfaces de dados para rotulagem automática de comportamento não estruturado, interfaces de corporificação para redirecionar movimento humano a ações robóticas, interfaces de modelo de mundo para raciocínio 3D fundamentado na física e interfaces de recompensa para inferir progresso e sucesso de tarefas a partir de vídeo e linguagem. Revisamos progressos recentes em modelos fundamentais de robótica, conjuntos de dados de múltiplas corporificações, aprendizado a partir de vídeos, modelos de mundo e modelagem de recompensa, e propomos uma agenda de pesquisa para construir sistemas robóticos que possam aprender não apenas a partir de demonstrações robóticas, mas do mundo físico mais amplo.
A inserção de objetos visa compor de forma contínua um objeto de referência em uma região especificada de uma imagem de fundo. Métodos recentes baseados em difusão alcançam alta qualidade visual, mas formulam a inserção como uma simples tarefa de inpaintig 2D, não fornecendo controle explícito sobre a pose 3D do objeto, limitando sua aplicabilidade prática. Propomos DIRECT (Injeção Decomposta para Composição de Referência e Integração ao Alvo), uma nova estrutura que integra manipulação interativa de pose com síntese de imagens 2D de alta fidelidade para permitir a inserção de objetos com controle de pose. Nosso método decompõe as condições de inserção em três componentes complementares: orientação de aparência, capturando detalhes visuais do objeto de referência; orientação de geometria, derivada do proxy 3D ajustado pelo usuário; e orientação de contexto, proveniente do fundo alvo. Ao injetá-los por meio de caminhos separados, o DIRECT evita o emaranhamento de características e simultaneamente preserva a aparência de referência, segue a pose especificada pelo usuário e adapta o objeto à cena alvo. Também introduzimos um pipeline automatizado de construção de dados para melhorar a diversidade e qualidade dos dados de treinamento. Experimentos mostram que o DIRECT supera métodos anteriores tanto em controlabilidade geométrica quanto em qualidade visual.
Agentes autoevolutivos exigem adaptação após a implantação, mas abordagens existentes pressupõem um ciclo de aprendizado utilizável, como habilidades curadas, trajetórias bem-sucedidas ou sinais de verificador. Implantações reais em mundo aberto podem não fornecer nada disso, oferecendo apenas uma instrução de tarefa. Neste trabalho, estudamos a autoevolução em mundo aberto, onde um agente deve construir tanto suas habilidades quanto seus próprios sinais de verificação do zero, utilizando recursos do mundo aberto, mas sem supervisão da tarefa alvo. Propomos o OpenSkill, uma estrutura que inicializa esse ciclo: ela adquire conhecimento fundamentado e âncoras de verificação a partir de documentação, repositórios e da web, sintetiza-os em habilidades transferíveis e refina essas habilidades com base em tarefas virtuais autoconstruídas, fundamentadas nas âncoras e não em respostas alvo. O mundo aberto fornece tanto o conhecimento a ser aprendido quanto um ambiente de prática independente de supervisão, com a supervisão da tarefa alvo reservada para avaliação final. Em três referências e dois agentes alvo, o OpenSkill atinge a melhor taxa de aprovação automatizada, satisfazendo a restrição de ausência de supervisão. A análise mostra que suas habilidades transferem entre modelos sem adaptação específica do modelo, e seu verificador autoconstruído se alinha com os resultados reais, apesar de nunca acessá-los.
Os benchmarks existentes avaliam o Raciocínio Integrado a Ferramentas (RIT) em LLMs em "caminhos felizes" idealizados, ignorando em grande parte as falhas reais de ferramentas. Apresentamos o ToolMaze, um benchmark para descoberta dinâmica de caminhos e recuperação de erros em agentes RIT. Para separar o replanejamento sistemático da tentativa e erro cega, o ToolMaze adota uma abordagem bidimensional: complexidade topológica baseada em DAG e uma taxonomia 2×2 de perturbações de ferramentas (explícitas/implícitas, transitórias/permanentes). As avaliações mostram que as perturbações degradam o desempenho em quase todos os modelos, com as quedas mais acentuadas sob falhas semânticas implícitas. Impulsionada por uma confiança excessiva sistêmica em saídas corrompidas, a Taxa de Recuperação de Perturbações (TRP) cai cerca de 37% nesses cenários, enquanto topologias complexas prendem os agentes em ciclos fúteis de tentativa e erro. Crucialmente, a tolerância a falhas agentiva melhora com a escala do modelo 3,66 vezes mais lentamente do que a execução básica de tarefas, destacando o replanejamento dinâmico como um gargalo distinto não abordado pelo escalonamento de modelos ou por engenharia de prompt. Dados e código estão disponíveis em https://github.com/Zhudongsheng75/ToolMaze.
A compreensão de vídeo está sendo rapidamente transformada por modelos de linguagem multimodal de grande escala (MLLMs), à medida que a pesquisa avança de clipes curtos para cenários de vídeo longos, multimodais e intensivos em conhecimento. Esses cenários exigem que os modelos lidem com evidências esparsas, dependências de longo alcance, alinhamento multimodal e inferência confiável sob orçamentos computacionais limitados. Este trabalho apresenta uma perspectiva de visão humana sobre a compreensão de vídeo baseada em LLMs, organizada em torno de três habilidades funcionais: observar, lembrar e raciocinar. Em vez de tratar tarefas de vídeo como benchmarks isolados, essa visão fornece uma estrutura unificada para analisar como os MLLMs de vídeo adquirem evidências, preservam contexto e produzem saídas fundamentadas. Introduzimos uma formulação que caracteriza sistemas de compreensão de vídeo por suas representações perceptuais, estados de memória, traços de raciocínio e previsões finais. Com base nessa formulação, identificamos desafios na percepção espaço-temporal, processamento eficiente de vídeos longos, modelagem de memória, compreensão em streaming e raciocínio fiel. Métodos representativos são organizados de acordo com seus papéis em sistemas MLLM de vídeo. Observar abrange percepção detalhada, abrangente, audiovisual e eficiente. Lembrar inclui memória offline e em streaming, enquanto raciocinar abrange raciocínio apenas textual e pensamento com vídeos. Examinamos ainda domínios de aplicação como vídeos egocêntricos, esportivos, instrucionais, médicos e narrativos, e cobrimos conjuntos de dados de treinamento e benchmarks de avaliação em tipos de tarefa, formatos de supervisão, modalidades e dimensões de capacidade. Por fim, delineamos problemas em aberto e direções futuras para inteligência de vídeo escalável, consciente de memória e fundamentada em evidências. Trabalhos relacionados serão continuamente rastreados em https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.
Assistentes de IA persistentes, como o OpenClaw, acumulam grandes coleções de memórias relacionadas ao longo de interações de longo prazo. À medida que essas memórias crescem, podem se reforçar mutuamente, divergir entre contextos ou entrar em conflito direto, tornando a assistência correta dependente das relações entre memórias, e não da recuperação isolada. Os benchmarks existentes de memória de longo prazo raramente investigam como os agentes preservam e utilizam tais relações durante tarefas subsequentes. Para preencher essa lacuna, apresentamos o SubtleMemory, um benchmark para discriminação relacional de memória em granularidade fina em agentes de IA de longa duração. O SubtleMemory constrói artefatos semânticos latentes controlados por relações, cujas variantes instanciam relações complementares, sutis ou contraditórias, e os insere em históricos realistas de interação usuário-agente, exigindo que os agentes recuperem estruturas relacionais distribuídas durante consultas e instruções posteriores. O benchmark contém 1.522 instâncias de avaliação em 10 longos históricos, fundamentadas em 1.090 conjuntos de variações de memória controlados por relações, abrangendo consultas relacionadas e não relacionadas ao usuário. Avaliando seis sistemas de memória independentes, dois agentes do tipo Claw com módulos de memória nativos e três agentes do tipo Claw com módulos de memória como plugins, constatamos que os sistemas atuais ainda são fracos na discriminação relacional de memória em granularidade fina. Introduzimos ainda protocolos de diagnóstico que revelam perfis de capacidade distintos nas etapas de preservação, recuperação e raciocínio downstream da memória.
Apresentamos o UnpredictaBench, uma avaliação que testa a capacidade de modelos de linguagem de grande porte (LLMs) de capturar distribuições subjacentes reais. À medida que os LLMs são cada vez mais utilizados como substitutos para outras entidades (por exemplo, para humanos em simulações econômicas), a tendência de muitos modelos de convergir para uma única resposta plausível implica uma falha em capturar a imprevisibilidade de sistemas reais. Trabalhos recentes sobre melhoria da diversidade de saída são insuficientes para este cenário: a simulação requer amostras calibradas para uma distribuição alvo, não apenas saídas variadas. O UnpredictaBench isola uma versão simplificada, porém fundamental, desse problema: amostragem de resultados a partir de distribuições alvo individuais, incluindo distribuições estatísticas canônicas, distribuições induzidas por programas estocásticos e cenários em linguagem natural que descrevem processos aleatórios. Introduzimos 448 desses problemas, juntamente com o KS@N, uma métrica de avaliação de propósito geral que quantifica quão bem um modelo produz aproximações de distribuições alvo de caixa-preta por meio do teste estatístico de Kolmogorov-Smirnov. Trata-se da taxa na qual falhamos em rejeitar amostras de tamanho N geradas pelo modelo em comparação com amostras reais, onde N maiores indicam maior dificuldade. Testados em modelos abertos e proprietários, encontramos uma ampla dispersão nas capacidades distribucionais. Por exemplo, quando os modelos geram amostras de tamanho 100 (KS@100, nossa métrica padrão), as pontuações variam de perto de 0 a mais de 20%. Nenhum modelo é capaz de atingir mais de 40% no KS@100, evidenciando uma margem significativa para melhoria na amostragem distribucional como capacidade. Embora adicionar raciocínio possa aumentar um pouco as pontuações, não encontramos solução imediata para esse problema. O UnpredictaBench mostra que até mesmo simulações distribucionais simples permanecem desafiadoras, tornando-se um primeiro passo necessário em direção ao uso de LLMs como substitutos para sistemas complexos.
Os grafos causais fornecem uma linguagem de alto nível para tornar os mecanismos transparentes. Trabalhos recentes utilizam Modelos de Linguagem de Grande Escala (LLMs) para recuperar grafos causais de processos do mundo externo. Neste artigo, ao contrário, utilizamos grafos causais para modelar a própria inferência dos LLMs, proporcionando às partes interessadas uma visão transparente de como o modelo percebe e organiza conceitos de alto nível para produzir uma predição. Propomos um método em quatro fases para construir tais grafos. Dados um LLM alvo e um conjunto de exemplos textuais, nosso método descobre conceitos interpretáveis por humanos e discriminativos de classes, e mapeia cada entrada para estados de conceitos percebidos pelo LLM. Em seguida, introduzimos um procedimento de aumento contrafactual inspirado em MCMC, que expande os dados observacionais esparsos por meio de cadeias de contrafactuais. Isso possibilita a descoberta causal estável com σ-CG, resultando em grafos informativos e interpretáveis. Aplicamos nosso método a três LLMs em tarefas de diagnóstico de doenças, análise de sentimentos e classificação LLM-como-juiz. Avaliamos os grafos aprendidos quanto à fidelidade preditiva e estabilidade estrutural, e o aumento inspirado em MCMC quanto à convergência e utilidade subsequente. Nossos resultados mostram que os grafos causais descobertos capturam dependências significativas, consistentes com o raciocínio dos LLMs. Em conjunto, este artigo fornece uma base para a explicabilidade em nível de conceito dos LLMs.
Embora os Modelos de Visão-Linguagem (VLMs) tenham demonstrado capacidades sólidas de raciocínio visual, suas habilidades de raciocínio espacial permanecem em grande parte restritas às imagens observadas e à cadeia de pensamento orientada por texto. Eles frequentemente têm dificuldade em inferir layouts não observados, manter a consistência entre vistas e raciocinar a partir de pontos de vista alternativos quando apenas observações egocêntricas limitadas estão disponíveis. Neste trabalho, estudamos esse problema como pensar com imaginação, onde um VLM adquire ativamente evidências visuais imaginadas ao interagir com um simulador de mundo durante o raciocínio. Propomos o Astra, uma estrutura de raciocínio espacial agentivo que capacita VLMs com imaginação visual condicionada a ações. Especificamente, o Astra acopla o Astra-VL, uma política VLM treinada por RL, com o Astra-WM, um simulador de mundo baseado em Bagel que gera observações de novas vistas a partir de imagens de contexto e movimentos de câmera em linguagem natural. Para fornecer evidências imaginadas confiáveis, o Astra-WM é treinado com ajuste de consistência de vistas para melhorar a consistência de pose e conteúdo entre vistas. No estágio de RL, propomos um currículo de RL em duas fases com simulador de mundo no loop para estabilizar a exploração do uso de ferramentas e avançar a capacidade do modelo de invocar o simulador apenas quando observações imaginadas melhoram em relação à resposta direta. Experimentos demonstram que tanto o simulador de mundo quanto a política agentiva são necessários: o Astra-WM melhora o Gemini-3-Flash aumentado pelo simulador no MMSI-Bench de 45,1 para 49,5, enquanto o Astra-VL melhora a espinha dorsal Qwen3-VL de 29,8 para 38,8 no MMSI-Bench e de 36,8 para 42,7 no MindCube. Esses resultados mostram que observações imaginadas podem fornecer evidências espaciais úteis, mas o raciocínio eficaz aumentado por modelo de mundo requer aprender quando, onde e como imaginar.
Neste trabalho, focamo-nos em estender o SHARP, o popular método de síntese de vistas fotorrealistas, para renderização monocular universal em um continuum de sistemas de câmera, desde câmeras perspectivas convencionais até configurações de campo de visão amplo, olho de peixe e panorâmicas omnidirecionais. Para superar as suposições específicas do modelo pinhole do SHARP, nossa ideia chave é alinhar várias imagens em um espaço latente omnidirecional unificado. Assim, propomos o UniSHARP, que realiza alinhamento implícito tanto no espaço de características quanto no espaço Gaussiano. Especificamente, primitivas Gaussianas são organizadas ao longo de raios e distâncias radiais em uma representação universal baseada em raios, enquanto características semânticas 2D e espaciais 3D extraídas de codificadores inspirados no UniK3D são decodificadas conjuntamente para gerar a nuvem Gaussiana completa. Para avaliar de forma abrangente nosso método, construímos um benchmark cobrindo diversos sistemas de imagem em várias cenas. O benchmark é ainda estratificado por campo de visão (FoV) para permitir uma avaliação detalhada da tarefa de renderização monocular universal. Extensos experimentos no benchmark proposto demonstram a eficácia do UniSHARP, superando métodos alternativos por uma margem significativa. A página do projeto pode ser encontrada em: https://insta360-research-team.github.io/Unisharp-website/
Defendemos que dados de movimento de alta qualidade podem direcionar as políticas de rastreamento para trajetórias de otimização melhores no início do treinamento. Neste trabalho, apresentamos o LIMMT (Less Is More for Motion Tracking — Menos é Mais para Rastreamento de Movimento). Até onde sabemos, este é o primeiro estudo centrado em dados para rastreamento de movimento humanoide baseado em física. Vamos além de simplesmente remover clipes de baixa qualidade e errôneos, mas definimos a qualidade dos dados de movimento por meio de três dimensões: viabilidade física, diversidade e complexidade. Mostramos que mesmo treinando com menos de 3% do AMASS obtém-se melhor desempenho de rastreamento do que o treinamento com o conjunto de dados completo. Realizamos ainda a limpeza de dados nos dados de mocap estimados provenientes da web. Experimentos e análises extensas validam a eficácia da nossa estrutura.
Apresentamos o dots.tts, um modelo fundamental de texto-para-fala (TTS) autorregressivo contínuo com 2B parâmetros que modela a fala em um espaço latente contínuo. Em comparação com modelos autorregressivos contínuos existentes, nossas principais inovações são três. Primeiro, treinamos um AudioVAE com múltiplos objetivos para construir um espaço de fala contínuo semanticamente estruturado e favorável à predição. Segundo, utilizamos condicionamento de histórico completo no cabeçote de flow-matching para preservar a consistência de longo alcance e reduzir o desvio durante a geração. Terceiro, aplicamos pós-treinamento autocorretivo livre de recompensa ao cabeçote de flow-matching para melhorar ainda mais a robustez e a qualidade acústica. Após ser treinado em um corpus multilíngue de grande escala, o dots.tts alcança o melhor desempenho médio no Seed-TTS-Eval, com WERs de 0,94%/1,30%/6,60% e pontuações SIM de 81,0/77,1/79,5 nos conjuntos de teste zh/en/zh-hard, respectivamente. Em outros benchmarks, o dots.tts também demonstra consistentemente desempenho de estado da arte em código aberto, exibindo forte estabilidade de geração, capacidade de clonagem de voz e expressividade emocional. Para inferência eficiente, aplicamos ainda a destilação MeanFlow consciente de CFG, permitindo geração de fala de baixa latência com latências de primeiro pacote de 85/54 ms nos modos de streaming de saída e streaming duplo, respectivamente. Para facilitar a pesquisa reproduzível e a implantação prática, disponibilizamos o código de treinamento e inferência, juntamente com os checkpoints pré-treinados, pós-treinados e destilados por MeanFlow, sob a licença Apache 2.0.
Modelos de difusão imagem-para-vídeo utilizam imagens de entrada para gerar conteúdo visual impressionante, mas frequentemente produzem movimentos que violam leis físicas. Revelamos uma descoberta surpreendente: uma geração em 2 etapas frequentemente exibe melhor consistência física do que uma saída de 50 etapas do mesmo modelo. Por meio de análise espectral, atribuímos isso à erosão de fase durante o processo de remoção de ruído; a fase degrada significativamente (caindo aproximadamente 18% da etapa 2 para a etapa 50), enquanto a magnitude permanece relativamente estável. Com base nessa percepção, propomos o PhaseLock, uma estrutura livre de treinamento que preserva os priores de movimento válidos da inferência de poucas etapas ao longo de toda a trajetória de remoção de ruído. Em vez de depender de inferência completa para consistência física, o PhaseLock extrai um prior de movimento de apenas 2 etapas e o impõe na geração de alta fidelidade por meio da Orientação Delta Latente (Latent Delta Guidance). Nossa abordagem mitiga efetivamente a degradação de fase, melhorando a consistência física em média 6,2 pontos em diversos modelos, mantendo em grande parte a fidelidade visual, com sobrecarga desprezível (1,06 vezes o tempo, 1,02 vezes a memória) e menor dependência de métodos de orientação externa caros (aproximadamente 5 vezes o tempo).
Humanos são o gargalo na construção e melhoria da IA. Tanto os modelos quanto os agentes que os envolvem são escritos, ajustados e corrigidos por pessoas. O objetivo de longo prazo de uma IA capaz de descobrir como melhorar a si mesma permanece em aberto. Duas linhas de pesquisa majoritariamente desconexas atacam esse gargalo. A escola de atualização do arcabouço faz com que um meta-agente reescreva a estrutura de suporte de um agente específico para uma tarefa (suas ferramentas, prompts, lógica de repetição e procedimento de busca), mantendo os pesos do modelo fixos. A escola de treinamento em tempo de teste utiliza pipelines de RL escritos manualmente para atualizar os próprios pesos do modelo com base no feedback da tarefa, mantendo o arcabouço fixo. Esses dois silos operam de forma isolada. Propomos o SIA, um ciclo de autoaperfeiçoamento no qual um agente baseado em modelo de linguagem (o Agente de Feedback) atualiza tanto o arcabouço quanto os pesos de um agente específico para a tarefa. Avaliamos em três domínios contrastantes: classificação de acusações legais chinesas, otimização de kernels de GPU de baixo nível e desruído de RNA de célula única. A combinação de ambas as alavancas supera a iteração apenas do arcabouço em todos os três benchmarks. Os ganhos são de 56,6% no LawBench, redução de 91,9% no tempo de execução em kernels de GPU e 502% no desruído em relação à linha de base inicial. As atualizações do arcabouço tornam o modelo agêntico, moldando como ele busca e age, enquanto as atualizações de peso constroem a intuição de domínio que nenhum prompt ou estrutura de suporte consegue incutir.
A recomendação de artigos científicos é tipicamente avaliada como um ranqueamento estático sobre um conjunto fixo de candidatos, mas a leitura científica real se desenrola como um processo longitudinal diário, no qual os interesses mudam e o feedback se acumula. Apresentamos o PaperFlow, uma estrutura que organiza esse processo em três estágios acoplados: Perfilamento, que constrói e mantém um perfil acadêmico estruturado e inspecionável a partir de evidências heterogêneas de cold-start; Recomendação, que ranqueia cada fluxo de artigos específico por data por meio de agregação de múltiplos sinais sob um orçamento fixo de exibição; e Adaptação, que atualiza o estado do usuário a partir de sinais de feedback semanticamente distintos e modela a deriva de interesse ao longo dos dias. Definimos ainda um benchmark longitudinal usuário-dia que fixa usuários, datas, conjuntos de candidatos, entradas visíveis e rótulos de relevância simulados ocultos sob uma fronteira temporal de informação compartilhada. O benchmark contém 24 usuários de pesquisa simulados, 50 fluxos diários de artigos, 1.200 episódios usuário-dia, 20.727 artigos únicos e 497.448 registros episódio-artigo. Especificamos adicionalmente um protocolo de avaliação humana cega para validar o alinhamento entre métricas automáticas e julgamentos de especialistas. Experimentos contra cinco linhas de base de recomendação científica mostram que o PaperFlow alcança o ranqueamento baseado em oráculo mais forte, o maior alinhamento comportamental com seleções simuladas de leitura e a melhor pontuação em avaliação humana cega.
Agentes de engenharia de software orientados por LLM tornaram-se um campo de prova central para a capacidade de modelos de linguagem no mundo real, mas seu treinamento ainda é limitado pela disponibilidade de tarefas de SWE de alta qualidade. Métodos existentes de dados sintéticos tipicamente criam tarefas por meio de procedimentos fixos de mutação ou injeção de bugs, fazendo com que as distribuições resultantes sejam em grande parte independentes das fraquezas do próprio agente e do progresso do treinamento. Apresentamos o Socratic-SWE, uma estrutura de auto-evolução em malha fechada que reutiliza os traços históricos de solução do agente como fonte de sinal de treinamento. Em vez de tratar os traços apenas como evidência para computação de recompensa, o Socratic-SWE os destila em habilidades estruturadas do agente que resumem falhas recorrentes e padrões eficazes de reparo. Essas habilidades então orientam a geração de tarefas de reparo direcionadas em repositórios reais. As tarefas candidatas são verificadas por meio de validação baseada em execução e pontuadas com uma recompensa de alinhamento de gradiente do Solver, de modo que as tarefas retidas sejam verificáveis e úteis para melhorar o Solver. O Solver atualizado produz novos traços, permitindo que o currículo de tarefas se adapte ao longo de rodadas sucessivas. Em SWE-bench Verified, SWE-bench Lite, SWE-bench Pro e Terminal-Bench 2.0, o Socratic-SWE melhora consistentemente as linhas de base auto-evolutivas sob o mesmo orçamento computacional, alcançando 50,40% no SWE-bench Verified após três iterações. Esses resultados sugerem que traços de solução podem servir como um substrato escalável para agentes de SWE auto-evolutivos.
Espera-se que agentes LLM operem cada vez mais em regimes de tarefas heterogêneos que exigem paradigmas de execução distintos. Isso desafia sistemas de agentes fixos e motiva a meta-adaptação em nível de sistema, além de atualizações isoladas de componentes. Embora trabalhos existentes tenham adaptado o harness externo ou treinado políticas de raciocínio subjacentes, a adaptação de sistema completo ainda é insuficientemente caracterizada. O espaço de adaptação entre estrutura e execução raramente é explicitado, e a compatibilidade entre o harness externo e o raciocinador interno não é otimizada conjuntamente. Propomos o HarnessForge, uma estrutura meta-adaptativa para evoluir sistemas de agentes LLM. O HarnessForge formula um sistema de agente como um par harness–política, definindo um espaço de adaptação estável que separa a estrutura de execução em nível de harness do comportamento de raciocínio em nível de política. Em seguida, realiza a coevolução harness–política por meio de ajuste do harness guiado por falhas e alinhamento de política condicionado ao harness. Experimentos em cinco benchmarks de domínios diversos mostram que o HarnessForge melhora consistentemente tanto os backbones Qwen3-4B quanto Qwen3-8B, superando as linhas de base apenas com harness e apenas com política, com ganhos de até 12,0% sobre a linha de base mais forte e alcançando compromissos favoráveis de eficiência de rollout, demonstrando que a coevolução harness–política é eficaz e que a compatibilidade executável entre o harness e a política de raciocínio é essencial para a adaptação do sistema de agente. O código está disponível em https://github.com/mingju-c/HarnessForge.
Apesar do rápido progresso dos Modelos de Visão-Linguagem (VLMs), a área carece de benchmarks que diagnostiquem rigorosamente suas verdadeiras capacidades de raciocínio e tracem um progresso significativo em direção à inteligência multimodal semelhante à humana. A maioria das avaliações existentes concentra-se em tarefas fragmentadas ou desconectadas, obscurecendo fraquezas cognitivas críticas e oferecendo pouca percepção para melhorias direcionadas. Para preencher essa lacuna, apresentamos o BloomBench, parte da série de benchmarks Almieyar, o primeiro benchmark multimodal bilíngue (inglês-árabe) cognitivamente fundamentado em humanos para VLMs. Fundamentado na Taxonomia de Bloom, o BloomBench avalia sistematicamente seis níveis de cognição (Lembrar, Entender, Aplicar, Analisar, Avaliar, Criar) por meio de tarefas cuidadosamente elaboradas de imagem-pergunta-resposta. Construído com um pipeline semiautomatizado e validado por meio de um protocolo de garantia de qualidade híbrido estratificado, ele garante escalabilidade, inclusão cultural e fidelidade linguística. Aproveitando essa estrutura, realizamos um estudo abrangente dos VLMs de ponta para diagnosticar seus perfis cognitivos. Nossa análise revela uma acentuada assimetria cognitiva: enquanto os modelos de ponta alcançam fortes tetos de desempenho na compreensão semântica, eles enfrentam dificuldades substanciais com a recordação factual e a síntese criativa. Isso demonstra que a atual proficiência multimodal geral mascara limitações mais profundas em camadas cognitivas específicas. Além disso, nosso estudo destaca uma lacuna crítica de desempenho entre o árabe e o inglês, expondo limitações no raciocínio multimodal multilíngue atual. Essas descobertas estabelecem uma base para o desenvolvimento de VLMs mais alinhados cognitivamente e inclusivos. A estrutura do benchmark e o conjunto de dados estão disponíveis em: https://github.com/qcri/Almieyar-Oryx-BloomBench.
Modelos de Visão e Linguagem (VLMs) são cada vez mais implantados em ambientes incorporados, onde precisam produzir saídas numéricas como magnitudes de ação e coordenadas espaciais. Embora esses números pareçam significativos, ainda não está claro se essas saídas numéricas são genuinamente fundamentadas na percepção espacial. Portanto, neste trabalho, revisitamos a compreensão numérica espacial por meio do SpaceNum, uma estrutura unificada que captura duas configurações complementares: números como transições dinâmicas durante a exploração espacial e números como layouts estáticos no raciocínio espacial. Formulamos duas tarefas bidirecionais, Num2Space e Space2Num, para avaliar quão bem os VLMs mapeiam entre a estrutura espacial do lado visual e as representações numéricas do lado da linguagem. Estudamos sistematicamente se os VLMs atuais realmente entendem valores numéricos em contextos espaciais. Em transições dinâmicas e layouts estáticos, descobrimos que os modelos falham amplamente em fundamentar números em significado espacial e frequentemente apresentam desempenho próximo a um palpite aleatório. Por meio de análise de erros, análise de rastreamento de raciocínio e intervenções controladas, mostramos que os VLMs atuais dependem fortemente de pistas espaciais superficiais, têm dificuldade em construir representações estáveis cientes de coordenadas e não conseguem abstrair layouts espaciais estruturados a partir de observações visuais. Mostramos ainda que o raciocínio explícito proporciona apenas ganhos marginais, enquanto o ajuste pode melhorar parcialmente a compreensão numérica espacial e transferir para benchmarks externos de raciocínio espacial.
Apesar dos avanços na compreensão de cenas 3D, os modelos multimodais grandes 3D existentes operam em configurações offline, exigindo observações completas da cena ou clipes de vídeo predefinidos. Neste artigo, apresentamos um modelo de visão-linguagem 3D online que possibilita a compreensão espacial em tempo real a partir de vídeo em streaming. Nossa abordagem adota uma modelagem de controle de streaming autorregressivo baseada no objetivo de predição do próximo token do LLM para aprender quando responder, e emprega um módulo leve de Integração de Características Visuo-Espaciais (VSFI) para injetar incrementalmente priores geométricos alinhados temporalmente no fluxo visual. Para aliviar a sobrecarga de decodificação de contexto longo, propomos um módulo de Compressão de Voxels Adaptável à Geometria (GAVC), do tipo plug-and-play, para compressão eficiente de tokens visuais. Para lidar com a escassez de dados 3D-linguagem em streaming, desenvolvemos ainda um pipeline de geração de dados escalável que seleciona mais de 1 milhão de pares de perguntas e respostas 3D espaço-temporais online e estabelece um benchmark abrangente cobrindo 29 tarefas. Experimentos extensivos mostram que nossa abordagem supera significativamente modelos proprietários e de código aberto em tarefas de compreensão, raciocínio e ancoragem espacial 3D online e offline. A página do projeto está disponível em https://stream3d-vlm.github.io/.
A visão 3D evoluiu rapidamente, impulsionada por representações de dados, paradigmas de aprendizado e estratégias de modelagem cada vez mais diversos. No entanto, o campo permanece fragmentado entre representações e benchmarks, dificultando o desenvolvimento de perspectivas unificadas sobre eficiência, fidelidade e escalabilidade. Este trabalho apresenta uma taxonomia centrada em dados para a visão 3D, conectando representações geométricas, conjuntos de dados, estruturas de aprendizado e aplicações em um único mapa conceitual. Começamos analisando as principais representações estruturais de dados 3D — nuvens de pontos, malhas, voxels e Gaussianos 3D —, juntamente com seus pipelines de aquisição. Em seguida, examinamos como o design de conjuntos de dados, a construção de benchmarks e os regimes de supervisão moldam avanços recentes, abrangendo aprendizado 3D supervisionado por 2D, representações neurais implícitas e modelagem de mundo 4D. Por meio dessa lente integrativa, esclarecemos as relações entre representações, paradigmas de aprendizado e tarefas subsequentes em reconstrução, geração e modelagem de vídeo, oferecendo uma visão consolidada das tendências emergentes rumo ao equilíbrio entre eficiência e fidelidade e à fundamentação geométrica multimodal.
A recuperação para agentes de busca ainda é herdada da recuperação de informação não agentiva: um recuperador ranqueia o corpus e o agente lê um pequeno conjunto de documentos retornados. Trabalhos recentes sobre interação direta com o corpus (DCI) mostram que agentes podem, em vez disso, interagir com o corpus bruto por meio de ferramentas de shell, como grep e leitura de arquivos. Mas a interação ilimitada não escala: todo comando de shell abrangente é uma varredura sobre todo o corpus, e a latência se degrada acentuadamente à medida que o corpus cresce. Argumentamos que o papel da recuperação para busca agentiva não é apenas selecionar documentos que cabem na janela de contexto do LLM, mas construir um espaço de interação: um subconjunto delimitado do corpus que o agente pode explorar com ferramentas associadas. Duas consequências de design decorrem disso. O espaço precisa de um limite fornecido pela recuperação, e os objetos dentro dele devem ser processados para interação. Como prova de conceito, propomos o RISE (Retrieving Interaction SpacE): utilizamos BM25 para construir o espaço de interação; enquanto isso, seus documentos são processados durante a indexação para navegação no estilo shell. No BrowseComp-Plus, o RISE iguala a linha de base do DCI puro com shell em 78% de acurácia com gpt-5.4-mini, a aproximadamente um quarto do custo por consulta. Com 1 milhão de documentos, o RISE-BM25 atinge 81% com gpt-5.4-mini, enquanto o DCI com gpt-5.4-nano degrada para 60%, com 33 de 100 falhas de tempo real.
A ponderação de perda baseada em confiança é geralmente evitada em modelos generativos porque acelera erros quando o modelo está confiantemente errado, mas essa intuição se desfaz no treinamento de difusão supervisionada. Apresentamos a barreira logarítmica de Eisbach, um peso livre de parâmetros derivado da entropia da distribuição espacial de energia da saída do DiT: alta entropia amortece o gradiente, enquanto baixa entropia o preserva. Aplicado ao ajuste fino via LoRA do Stable Audio 3 Medium no MusicCaps, inesperadamente resulta em desenvolvimento temático mais forte, diferenciação acústica mais clara e maior diversidade textural do que o treinamento não ponderado — o oposto do colapso de modo. Isso funciona porque, na difusão supervisionada, a direção do gradiente está travada à verdade fundamental, de modo que a confiança apenas escala o tamanho do passo, e porque a entropia temporal reduz o peso de amostras planas enquanto preserva as de alto contraste. O resultado é um currículo de dados on-line e autorreferente que emerge puramente da passagem direta, com dinâmicas de nível de ruído analisadas e previsões testáveis.
Modelos de linguagem podem usar recompensas verificáveis para melhorar em uma ampla variedade de tarefas de raciocínio. No entanto, tanto abordagens paramétricas (ex.: RLVR) quanto não paramétricas (ex.: otimização de prompts) para isso geralmente exigem centenas de amostras de treinamento e milhares de execuções do modelo, tornando-as caras no melhor caso e intratáveis no pior. Para enfrentar esse desafio, apresentamos o Contrastive Reflection (CORE), um algoritmo de aprendizado não paramétrico que compara traços de raciocínio passados para gerar insights: descrições curtas em linguagem natural de estratégias e restrições de raciocínio que capturam diferenças entre tentativas bem-sucedidas e mal-sucedidas de problemas. Em quatro tarefas de raciocínio, demonstramos que o CORE possibilita uma melhoria mais rápida do que métodos paramétricos (GRPO) e não paramétricos (GEPA, RAG episódico e MemRL), enquanto utiliza menos execuções. Sob orçamentos fixos de execução com apenas cinco amostras de treinamento, mostramos então que o CORE também alcança ganhos de desempenho comparáveis ou superiores a cada linha de base. Por fim, destacamos como o CORE é também substancialmente mais eficiente em termos de contexto do que as linhas de base não paramétricas, exigindo menos tokens de prompt enquanto armazena o conhecimento aprendido como insights compactos e interpretáveis em linguagem natural. Portanto, nossos resultados sugerem que destilar contrastes entre traços de raciocínio bem-sucedidos e mal-sucedidos em insights abstratos e úteis pode fornecer um caminho mais eficiente e interpretável para o autoaperfeiçoamento do modelo do que atualizações de pesos, otimização de prompts ou reutilização direta de traços de raciocínio armazenados.
A customização de um juiz LLM para uma tarefa ou domínio específico frequentemente envolve a otimização de seu prompt em múltiplos critérios de avaliação simultaneamente. Métodos de gradiente textual automatizam esse processo para um único critério de juiz, no entanto produzem críticas em linguagem natural, não vetores numéricos. Assim, o conjunto de ferramentas de resolução de conflitos do aprendizado multitarefa (PCGrad, MGDA) não se aplica ao cenário de gradiente textual multiobjetivo. Testamos cinco modos de decomposição de otimizadores de gradiente textual, variando o quanto de informação entre tarefas é compartilhada entre os LLMs de perda, gradiente e otimizador. Em 6 de 10 configurações, observamos que a otimização nunca melhora em relação ao prompt inicial. A especificidade do gradiente cai 59% (de 9,0 para 3,7) quando o LLM de gradiente processa múltiplos critérios conjuntamente. Separadamente, observamos que combinar ingenuamente instruções por tarefa em um único prompt degrada o rho de Spearman em -5,3%. Esses resultados identificam dois modos de falha separáveis: diluição do gradiente no tempo de otimização e interferência de instruções no tempo de inferência, que juntos restringem o espaço de design para customização de juiz multiobjetivo usando feedback textual.
Modelos de raciocínio avançaram rapidamente, mas a receita dominante de aprendizagem por reforço a partir de recompensas verificáveis (RLVR) permanece surpreendentemente restrita: amostrar muitas respostas e recompensar cada uma com um único bit indicando se a resposta final está correta. No entanto, muitos cenários fornecem feedback rico, incluindo traços de execução, saídas de ferramentas, correções de especialistas e autoavaliações do modelo. Estudamos como usar esse feedback por meio de uma variante distribucional do clássico algoritmo de aprendizado por imitação DAgger, onde o aprendiz tem acesso local a uma distribuição especialista sobre estados visitados pela política atual. Isso resulta em um objetivo simples de entropia cruzada direta que aceita um especialista caixa-preta e cujo gradiente em nível de sequência realiza uma atribuição de crédito rica ao propagar o desacordo futuro entre especialista e aluno de volta para decisões anteriores. Mostramos que RL anterior com objetivos de autodestilação baseados em KL reversa ou Jensen-Shannon falham em garantir melhoria monotônica da política: mesmo quando o especialista tem recompensa maior, suas atualizações podem aumentar a probabilidade de ações piores. Em contraste, mostramos que a entropia cruzada direta admite melhoria monotônica da política e possui garantias sobre o arrependimento. Mostramos ainda que nosso objetivo otimiza um limite inferior na verossimilhança de sucesso ponderada pelo professor, levando a um Pass@N melhorado. Empiricamente, nossa abordagem, DistIL, supera RLVR e RL com linhas de base de autodestilação em uma variedade de domínios: raciocínio científico, programação e resolução de problemas matemáticos difíceis.
Modelos de raciocínio produzem longos rastros de cadeia de pensamento que são custosos para destilar e incentivam saídas prolixas dos alunos. Estudamos a compressão post-hoc desses rastros antes da destilação de conhecimento. Dois professores, Qwen3.5-397B-A17B e gpt-oss-120B, geram cerca de 283 mil rastros corretos cada; dois modelos ajustados por instrução então os comprimem para 8,6–21,0% do comprimento original em caracteres. Em uma grade principal de 48 execuções mais sete ablações de truncamento com o professor Qwen, os rastros comprimidos reduzem os tokens de treinamento para 12–30% dos brutos, aceleram o treinamento em 2,0–7,6× e encurtam as saídas de inferência em 3–19×, com reduções menores sob o professor gpt-oss, mais curto. No entanto, os rastros brutos retêm a maior precisão downstream em todas as escalas e para ambos os professores. Uma ablação de truncamento de rastros brutos com comprimento correspondente mostra que a compressão não se beneficia apenas de um orçamento de tokens menor: rastros comprimidos por modelo geralmente superam ou igualam o truncamento ingênuo, especialmente para alunos menores, mantendo saídas de inferência mais curtas. No geral, a compressão de rastros de raciocínio oferece uma troca entre precisão e eficiência, não uma melhoria gratuita: alunos retêm até 96% da precisão dos rastros brutos enquanto ganham até 18× mais eficiência por token, e na escala de 0,8B sob LoRA, rastros comprimidos reduzem a lacuna entre bruto e comprimido, mas não superam o bruto.
Sistemas de modelos de linguagem agentivos alternam entre dois tipos de etapas estruturalmente distintos: chamadas de ferramentas estruturadas (curtas, determinísticas, com baixa perplexidade) e etapas de planejamento/raciocínio abertas (longas, complexas, com alta perplexidade). Apesar dessa heterogeneidade, sistemas de inferência atuais aplicam computação idêntica a cada etapa. Apresentamos o LayerRoute, um adaptador leve que aprende a ignorar seletivamente blocos transformadores com base em cada entrada. O LayerRoute aumenta cada um dos 24 blocos transformadores do Qwen2.5-0.5B-Instruct com: (1) um roteador por camada (~897 parâmetros, Linear(896,1)) que gera uma porta binária rígida por meio do estimador de passagem direta, e (2) adaptadores LoRA (rank 8, ~1,08M parâmetros) nas projeções de atenção Q/K/V/O. Os pesos da rede principal permanecem congelados. Uma única passagem de treinamento ponta a ponta em dados agentivos (Hermes, Glaive, GSM8K, Turing) com um termo de regularização de porta força o sistema a descobrir quais blocos podem ser ignorados por tipo de entrada. Após 3.000 passos (6,4 minutos em uma A100 40GB), o LayerRoute atinge um diferencial de ignorância de 12,91%: chamadas de ferramentas ignoram 15,25% dos FLOPs enquanto etapas de planejamento ignoram apenas 2,34%, utilizando apenas 1,10M de parâmetros treináveis (0,22% dos 494M da rede principal). A qualidade melhora em relação ao modelo base devido à adaptação LoRA, com um delta de perplexidade de -1,29 em chamadas de ferramentas e -1,30 em planejamento.
Grandes modelos de linguagem (LLMs) têm sido recentemente adotados como agentes sintéticos para simulação de opinião pública, oferecendo uma alternativa promissora a pesquisas humanas caras e lentas. Apesar de sua escalabilidade, os métodos atuais de simulação baseados em LLMs falham em capturar a diversidade social, produzindo diferenças intergrupais achatadas e respostas excessivamente homogêneas entre grupos demográficos. Identificamos essa limitação como um fenômeno de Colapso da Diversidade nas representações ocultas dos LLMs, onde identidades sociais distintas tornam-se cada vez mais indistinguíveis entre camadas. Motivados por essa observação, propomos a Injeção Paramétrica de Identidade Social (PSII), uma estrutura geral que injeta representações explícitas e paramétricas de atributos demográficos e orientações de valor diretamente nos estados ocultos intermediários dos LLMs. Diferentemente do condicionamento de persona baseado em prompts, o PSII permite uma modulação de identidade refinada e controlável no nível das representações. Experimentos extensivos na Pesquisa de Valores Mundiais utilizando múltiplos LLMs de código aberto mostram que o PSII melhora significativamente a fidelidade distribucional e a diversidade, reduzindo a divergência KL em relação a dados reais de pesquisa, ao mesmo tempo em que aumenta a diversidade geral. Este trabalho fornece novos insights sobre o controle no nível das representações de agentes LLM e avança na simulação de opinião pública escalável e consciente da diversidade.
O Reconhecimento Automático de Fala (ASR) é um componente central da interação humano-computador e um front-end cada vez mais importante para assistentes e agentes baseados em LLM. No entanto, a maioria dos sistemas atuais de ASR ainda segue um paradigma de passagem única, que está pouco alinhado com a comunicação humana, onde os mal-entendidos são resolvidos por meio de esclarecimento e refinamento iterativos. Essa incompatibilidade torna difícil corrigir erros críticos de significado uma vez que ocorrem. Enquanto isso, métricas em nível de token, como WER ou CER, não conseguem refletir adequadamente esse problema. Para lidar com essas limitações, formulamos o ASR Interativo como uma tarefa de refinamento em múltiplas rodadas e propomos o Agentic ASR, uma estrutura de malha fechada que combina um front-end de ASR de passagem única com correção semântica, roteamento de intenção e edição baseada em raciocínio. Introduzimos também a Taxa de Erro Semântico em Nível de Sentença (S^2ER), uma métrica de avaliação semântica baseada em LLM, juntamente com um Sistema de Simulação Interativa para benchmarking escalável e reproduzível. Experimentos em benchmarks multilíngues, intensivos em entidades nomeadas e de alternância de código mostram que a interação iterativa reduz consistentemente os erros semânticos, com ganhos muito maiores em S^2ER do que em métricas convencionais em nível de token. Estudos de alinhamento Humano-IA e de ablação validam ainda mais a confiabilidade do juiz semântico e a robustez da estrutura proposta. O código está disponível em: https://interactiveasr.github.io/ e a demonstração ao vivo está disponível em https://i-asr.sjtuxlance.com/
Os ataques de destilação criam um dilema de implantação para provedores de modelos: as mesmas saídas que tornam um modelo mais útil também podem facilitar sua imitação. Estudamos esse dilema por meio de um jogo minimax entre um professor com restrição de utilidade e um aluno adaptativo. Nosso arcabouço gera regras de resposta unilaterais tratáveis: uma regra de avaliação adaptativa na qual o aluno repondera exemplos de alto valor, e um modelo de defesa no lado do professor que suprime as saídas mais úteis para destilação. A partir de um proxy barato para o valor do exemplo, derivamos Product-of-Experts (PoE), uma defesa simples que opera apenas com passagem direta, combinando o professor com um aluno proxy durante a geração. Empiricamente, a avaliação adaptativa revela um grande hiato passivo-adaptativo: em defesas de última geração, alunos adaptativos recuperam substancialmente mais capacidade do que a avaliação passiva sugere no GSM8K e MATH. Sob essa avaliação mais forte, o aparente hiato de robustez entre defesas caras e o PoE se reduz consideravelmente, enquanto o PoE permanece substancialmente mais barato e preserva cadeias de raciocínio de maior qualidade. No geral, nossos resultados sugerem que a destilação forte continua difícil de impedir, e que o progresso na antidestilação deve ser julgado em relação a alunos adaptativos, e não passivos. Nosso código está disponível em: https://github.com/ysfalh/distillation-game.
Apresentamos o StreamForce, um framework de geração de vídeo em streaming que possibilita controle fisicamente fundamentado por meio de entradas contínuas de força. Diferentemente de modelos de vídeo anteriores, que treinam modelos separados para diferentes tipos de força, assumem forças fixas ou dependem de processamento não causal, o StreamForce é um modelo causal e unificado que responde instantânea e coerentemente tanto a forças locais quanto globais, variantes no tempo. Para isso, projetamos uma representação unificada de força como sinal de controle e desenvolvemos um pipeline de destilação para geração de vídeo controlável por força. Nosso modelo combina eficiência autorregressiva com capacidade de resposta a forças, mantendo realismo fotométrico e dinâmico estável. O StreamForce opera a até 16,6 FPS em uma única GPU, alcançando desempenho estado-da-arte tanto em aderência à força quanto em realismo de movimento. Site do projeto: https://neu-vi.github.io/StreamForce/
A seleção de fontes negativas difíceis para recuperação densa é geralmente decidida apenas após o ajuste fino e a avaliação downstream. Propomos o ECI_{sem}, uma variante residual semântica da Informação Contrastiva Eficaz (ECI) que classifica fontes negativas candidatas usando embeddings congelados do codificador-alvo. O ECI_{sem} é livre de treinamento, mas não livre de rótulos: cada exemplo pontuado requer uma consulta, um positivo rotulado e um negativo candidato explícito. O ECI_{sem} constrói uma matriz de informação residual ponderada a partir de consistência alvo, localidade semântica, residualidade lexical e um objetivo de diversidade de log-determinante. Em fontes negativas do MS MARCO, o ECI_{sem} intra-família classifica os negativos de LLM como os mais altos entre as fontes não híbridas e Dense+LLM como o mais alto entre as fontes híbridas, igualando os resultados agregados mais fortes de transferência BEIR em DistilBERT, E5-base e Contriever. Ablações controladas mostram que esse alinhamento depende do uso da família do codificador-alvo, enquanto ablações adicionais demonstram estabilidade sob perturbações de tamanho da amostra, temperatura, tokenizador e corpus de IDF. A teoria fornece uma ligação linearizada local com a redução de perda, enquanto o estudo empírico trata a avaliação downstream como o teste final.
Desenvolvedores utilizam cada vez mais ferramentas de IA, como ChatGPT, Copilot e Claude, em fluxos de trabalho de software cotidianos, mas estudos anteriores frequentemente avaliam as saídas de LLMs de forma isolada, em vez de examinar como os desenvolvedores as adaptam em projetos reais. Analisamos 35.361 comentários de código do GitHub que mencionam explicitamente o uso de IA, juntamente com seus blocos de código associados. Primeiramente, codificamos manualmente 500 comentários e blocos de código únicos para derivar uma taxonomia de atividades de desenvolvimento assistido por IA; em seguida, anotamos o conjunto de dados completo usando dois classificadores baseados em LLM e agregamos as previsões com o método de maximização de expectativa de Dawid-Skene. Também analisamos 12.996 mensagens de commit subsequentes para estudar como o código assistido por IA evolui após sua introdução, e examinamos tendências temporais de dezembro de 2022 a março de 2026. Nossos resultados mostram que os desenvolvedores utilizam principalmente LLMs para implementação de código, seguidas por aprimoramento de código, depuração, documentação e testes. Commits subsequentes frequentemente envolvem refatoração e limpeza, integração e extensão de funcionalidades e correção de bugs, indicando supervisão humana contínua na adaptação do código assistido por IA. Ao longo do tempo, os comentários que referenciam IA passam da geração direta de código para suporte conceitual e de conhecimento e aprimoramento de código. Esses achados sugerem que as ferramentas de IA estão se tornando incorporadas não apenas como auxílios para geração de código, mas também como mecanismos de suporte colaborativo, cujas saídas são refinadas, estendidas e corrigidas pelos desenvolvedores ao longo do tempo.
A robustez das redes neurais profundas é crucial para aplicações críticas de segurança, no entanto, os métodos de avaliação existentes são frequentemente dependentes de ataques e carecem de interpretabilidade. Propomos uma métrica de robustez fundamentada e independente de ataques, baseada na norma espectral da Matriz de Informação de Fisher (FIM), que quantifica a sensibilidade no pior caso da distribuição de saída do modelo a perturbações na entrada. Teoricamente, estabelecemos que a FIM é igual à variância do Jacobiano da entrada e derivamos limites espectrais de forma fechada para arquiteturas comuns, incluindo VGG, ResNet, DenseNet e Transformer, fornecendo o primeiro ranqueamento teórico de robustez. Para viabilizar uma avaliação escalável, desenvolvemos algoritmos eficientes, incluindo iteração de potência e estimativa baseada em Hutchinson, que suportam tanto configurações white-box quanto black-box. Extensos experimentos em múltiplos conjuntos de dados, incluindo CIFAR, ImageNet e imagens médicas, e em múltiplas arquiteturas mostram uma forte correlação entre nossa métrica e a vulnerabilidade adversarial. Nosso framework serve como uma ferramenta diagnóstica interpretável que complementa avaliações baseadas em ataques, oferecendo insights sobre a sensibilidade arquitetural e orientando o projeto de modelos mais robustos. O código está disponível em: https://github.com/franz-chang/SRP/.
Estudamos a transformação de modelos autorregressivos (ARLMs) em modelos de linguagem de difusão (DLMs). Em vez de pré-treinar do zero, trabalhos anteriores substituem a atenção causal nos ARLMs por atenção bidirecional e, em seguida, treinam o modelo resultante com um objetivo de DLM. No entanto, essas abordagens incorrem em duas mudanças de distribuição. Primeiro, a transição de um objetivo de predição do próximo token para um objetivo de DLM pode descartar conhecimento adquirido pelo ARLM durante o treinamento. Segundo, DLMs padrão sofrem de uma incompatibilidade treino-inferência, pois a perda de treinamento é definida em sequências mascaradas aleatoriamente, em vez das trajetórias encontradas na inferência, produzidas por decodificação baseada em confiança. Para enfrentar ambos os desafios, introduzimos um Modelo de Linguagem de Difusão On-Policy (OPDLM), no qual a Destilação On-Policy (OPD) é empregada para a transformação de ARLM para DLM. Especificamente, o OPDLM é treinado via auto-OPD, onde o aluno, um ARLM com atenção bidirecional, gera suas próprias trajetórias, e o professor, o ARLM original congelado, destila seu conhecimento fornecendo logits alvo nessas trajetórias. Ao treinar diretamente de forma on-policy, o OPDLM elimina a incompatibilidade treino-inferência nos DLMs, enquanto a destilação do modelo original melhora a retenção de conhecimento do ARLM. Resultados empíricos demonstram que o OPDLM requer de 15 a 7.000 vezes menos tokens de treinamento, com desempenho robusto em uma ampla variedade de tarefas. O OPDLM evita o custo proibitivo do pré-treinamento de DLMs e posiciona a transformação de DLM como uma forma de pós-treinamento de ARLM.
Modelos discretos de Visão-Linguagem-Ação (VLA) tipicamente formulam a geração de ações como predição do próximo token sobre espaços de ação discretizados, condicionando cada token autoregressivamente ao contexto anterior. Embora eficaz, este paradigma incorre em alta latência de inferência e ignora amplamente a estrutura temporal inerente às trajetórias de ação. Esforços recentes introduzem decodificação paralela para melhorar a eficiência, permitindo inferência mais rápida, mas carecem de mecanismos explícitos para modelar dependências entre tokens. Apresentamos TBD-VLA, uma estrutura VLA baseada em tokens discretos que incorpora difusão por blocos para permitir geração temporal de ações. Particionamos sequências de ação em blocos temporais e realizamos difusão discreta mascarada dentro de cada bloco, mantendo geração autoregressiva entre blocos. Esse design unifica autoregressão temporal e decodificação paralela de ações, alcançando tanto forte coerência temporal quanto velocidade de inferência aprimorada. Além disso, a modelagem temporal explícita permite a execução assíncrona de blocos de ação (ex.: Real-Time Chunking) via preenchimento temporal (temporal in-painting). TBD-VLA supera significativamente abordagens VLA anteriores tanto em simulação quanto em tarefas de manipulação no mundo real, oferecendo um caminho escalável para modelos VLA discretos, rápidos e temporalmente conscientes. Página do projeto: https://tbd-vla.github.io/
Em aplicações do mundo real, espera-se que modelos tenham desempenho confiável em diversos ambientes. No entanto, muitos benchmarks multimodais existentes expandem tipos de tarefas sem capturar a diversidade visual necessária para lidar com entradas visuais abertas. Apresentamos o WorldBench, um benchmark desafiador e visualmente diverso para avaliar Modelos de Linguagem de Grande Escala Multimodais (MLLMs). Construímos uma taxonomia de milhares de conceitos visuais em múltiplos domínios (por exemplo, seres vivos). Guiados por essa taxonomia, curamos uma ampla coleção de imagens de mecanismos de busca e conjuntos de dados existentes para representar abrangentemente o mundo visual. Por meio de tentativa e erro estruturada, projetamos manualmente perguntas desafiadoras que MLLMs de ponta não conseguem responder. Em avaliações quantitativas e humanas, o WorldBench alcança maior diversidade visual do que qualquer benchmark diverso existente. A avaliação de 15 MLLMs no WorldBench revela fraquezas na compreensão visual: mesmo o modelo mais forte atinge apenas 64,0% de precisão, enquanto alguns modelos têm desempenho marginalmente acima do nível aleatório. Esperamos que nosso trabalho destaque a importância da diversidade visual na construção de benchmarks multimodais.
Sistemas de busca agentiva interagem iterativamente com modelos de recuperação para responder a consultas complexas. Apesar do progresso substancial, otimizar recuperadores para busca agentiva continua sendo desafiador, frequentemente exigindo co-treinamento intensivo ou anotações padrão-ouro que limitam a aplicabilidade no mundo real. Propomos o Critic-R, uma estrutura que fecha explicitamente o ciclo de feedback entre o agente de raciocínio e o modelo de recuperação tanto durante a inferência quanto no treinamento. O Critic-R introduz um modelo crítico que avalia o rastro de raciocínio introspectivo do agente após consumir evidências recuperadas, para determinar se o contexto recuperado suporta suficientemente o próximo passo do raciocínio. O Critic-R possui dois mecanismos complementares: o Critic-R-Zero, um loop de refinamento de consulta em tempo de inferência que reescreve iterativamente as consultas e instruções de recuperação, e o Critic-Embed, uma abordagem de otimização para modelos de recuperação que aproveita trajetórias de refinamento bem-sucedidas e fracassadas como supervisão automática, sem exigir anotação manual de relevância. Avaliamos o Critic-R nos conjuntos HotpotQA, 2WikiMultihopQA, MuSiQue e Bamboogle. Os resultados mostram que o Critic-R melhora significativamente tanto a qualidade da recuperação quanto a precisão das respostas finais.
A inferência eficiente é fundamental para modelos de linguagem de contexto longo, onde o cálculo de atenção e o acesso ao cache KV dominam os custos. O trabalho recente RAT+ introduz um backbone de atenção aumentada por recorrência que possibilita atenção dilatada flexível durante a inferência. Neste artigo, investigamos se essa memória com decaimento exponencial também pode melhorar os métodos existentes de inferência esparsa conscientes da consulta. Utilizando métodos representativos como Quest, MoBA e SnapKV, mostramos que o RAT+ melhora consistentemente a acurácia em relação à atenção padrão em diversos orçamentos esparsos em oito tarefas de agulha no palheiro. Validamos esses ganhos tanto nos checkpoints disponibilizados no artigo do RAT+ quanto no OLMo2-7B, para o qual continuamos o pré-treinamento com o módulo de memória adicional por 10 bilhões de tokens. Por fim, propomos duas hipóteses que explicam por que esse módulo de memória beneficia a inferência esparsa consciente da consulta e projetamos experimentos direcionados para corroborá-las.
A harmonia é uma camada simbólica compacta onde as relações matemáticas de altura, a consonância acústica e a convenção musical se encontram. Este relatório trata as sequências de símbolos de acordes não como uma representação completa da música, mas como uma série temporal interpretável e controlável para modelagem harmônica local de gênero. Partindo de um checkpoint congelado do Music Transformer treinado em pop-jazz, avalio até que ponto pequenas interfaces de adaptação podem estender o modelo para onze gêneros-alvo: blues, bossa nova, corais de Bach, country, eletrônico, folk, funk, gospel, hip-hop, R&B/soul e rock. A avaliação principal compara LoRA, IA3, BitFit, ajuste via prefixo e ajuste fino completo em 11 gêneros e 3 sementes, uma grade completa de 165 células. Todos os cinco métodos melhoram em relação à base congelada na predição de acordes retidos, com ganhos macro de +2,89 a +3,61 pontos; LoRA e IA3 obtêm as maiores pontuações, mas testes de Wilcoxon com correção de Holm e Benjamini-Hochberg não apoiam um vencedor decisivo. Um controle de tamanho de dados combinado esclarece isso: quando os gêneros são sub-amostrados para um tamanho de corpus comum, o IA3 permanece no topo, mas a vantagem do LoRA com dados completos desaparece e ele cai para último, indicando que os pequenos gaps são parcialmente impulsionados pelos dados. Uma linha de base de token de controle também é forte, e adaptadores de gênero incorreto frequentemente superam a base congelada, sugerindo que grande parte do efeito vem de um condicionamento leve sobre uma base harmônica reutilizável, em vez de uma família específica de adaptadores. Diagnósticos adicionais (varreduras de posto, rotação de gênero incorreto, uma ablação do checkpoint base, classificação de gênero apenas por acordes, estatísticas de saída gerada, avaliação em músicas reais e análise de duplicatas) apoiam uma conclusão delimitada: a adaptação de símbolos de acordes melhora de forma confiável a predição harmônica local de gênero, mas os símbolos de acordes isoladamente não carregam identidade completa de gênero. O relatório, portanto, evita afirmações sobre autenticidade percebida de gênero ou qualidade musical completa, que exigem avaliação controlada por ouvintes ou músicos.