Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem visual (VLMs) comumente formulam o grounding visual e a detecção como um problema de geração de tokens de coordenadas, serializando cada caixa 2D em múltiplos tokens 1D que são aprendidos e decodificados em grande parte de forma independente. Essa decodificação token por token não corresponde à estrutura acoplada da geometria da caixa e cria um gargalo prático de inferência devido à geração estritamente sequencial. Apresentamos o LocateAnything, uma estrutura unificada de grounding e detecção generativa baseada na Decodificação Paralela de Caixas (PBD). Ao decodificar elementos geométricos como caixas delimitadoras e pontos como unidades atômicas em uma única etapa, o LocateAnything preserva a coerência geométrica intra-caixa e desbloqueia um paralelismo substancial. Mostramos que a PBD melhora tanto a taxa de transferência de decodificação quanto a precisão da localização. Desenvolvemos ainda um mecanismo de dados escalável e curadoria do LocateAnything-Data, um conjunto de dados em larga escala com mais de 138 milhões de amostras de treinamento, aumentando substancialmente a diversidade de dados para localização de alta precisão. Avaliações extensas mostram que o LocateAnything avança na fronteira velocidade-precisão, alcançando uma taxa de transferência de decodificação significativamente maior, enquanto melhora a qualidade da localização com alto IoU em diversos benchmarks. Os resultados destacam os benefícios complementares da Decodificação Paralela de Caixas e dos dados de treinamento em larga escala para permitir um grounding visual e uma detecção unificados, eficientes e precisos.
A rápida evolução dos modelos fundamentais generativos de vídeo impulsionou o campo em direção à síntese cinematográfica de nível profissional. Para alcançar essa qualidade exigente, a comunidade está migrando para o Aprendizado por Reforço (RL) e fluxos de trabalho agentivos. No entanto, a avaliação confiável emergiu como um gargalo crítico. Os referenciais existentes avaliam predominantemente "se está certo" (aderência básica ao prompt), negligenciando fundamentalmente "se é bom" (qualidade cinematográfica, atuação e estética). Além disso, as métricas automatizadas atuais carecem do rigor específico do domínio necessário para fornecer sinais confiáveis, criando uma grave lacuna de credibilidade entre a percepção estética humana e a pontuação da máquina. Para preencher essa lacuna, apresentamos o EvalVerse, uma estrutura de avaliação abrangente, ciente do pipeline e calibrada por especialistas. Tratamos a avaliação da geração de vídeos não meramente como uma tarefa de engenharia, mas como um problema científico central: a digitalização sistemática da expertise cinematográfica subjetiva. Primeiro, organizamos o conhecimento do domínio em uma taxonomia de avaliação alinhada ao fluxo de trabalho profissional de produção cinematográfica (pré-produção, produção e pós-produção). Segundo, destilamos julgamentos de especialistas humanos em um conjunto de dados curado com anotações humanas em larga escala. Terceiro, injetamos esse conhecimento em Modelos de Visão e Linguagem (VLMs) por meio de uma estratégia de ajuste fino calibrada por especialistas, permitindo que o VLM realize raciocínio explícito em Cadeia de Pensamento. Em comparação com trabalhos anteriores, o EvalVerse não apenas mantém a compatibilidade com métricas fundamentais de "correção", mas também expande significativamente os critérios para "qualidade" e amplia a cobertura de tarefas para sequenciamento complexo de múltiplas tomadas e integração audiovisual. Consequentemente, ao fornecer sinais diagnósticos granulares, o EvalVerse transcende um quadro de líderes estático e estabelece uma infraestrutura fundamental para trabalhos futuros, como modelos de recompensa e agentes avaliadores.
Embora os modelos fundamentais espaciais tenham demonstrado desempenho impressionante em conjuntos de dados padrão, uma questão crítica permanece: eles são verdadeiramente modelos completos, capazes de generalizar de forma robusta em diversas tarefas downstream, pontos de vista arbitrários, domínios de cena em mudança, densidades de entrada variadas e restrições específicas de hardware? Responder a essa questão abrangente exige uma avaliação holística, porém os modelos atuais são principalmente avaliados em domínios específicos para os quais foram especificamente projetados ou treinados. Tais avaliações são intrinsecamente limitadas por cobertura restrita de paradigmas, domínios de cena limitados e amostragem arbitrária de quadros, tornando fundamentalmente difícil avaliar suas verdadeiras capacidades de generalização. Para preencher essa lacuna, apresentamos o SpatialBench, um benchmark interparadigmas e diverso em domínios para modelos fundamentais espaciais com amostragem determinística. O SpatialBench apresenta escala sem precedentes e design determinístico rigoroso, compreendendo 19 conjuntos de dados e 546 cenas em 5 domínios espaciais diversos. Ele avalia de forma abrangente 41 modelos em 6 paradigmas, em 5 conjuntos de tarefas, sob 4 configurações diferentes de densidade de entrada. Nossa extensa avaliação revela que os modelos atuais ainda não são jogadores completos e descobre insights cruciais para avanços futuros. Especificamente, demonstramos que a atenção de contexto completo maximiza a precisão, enquanto estratégias de memória limitada desbloqueiam a escalabilidade de sequências longas. Além disso, nossas avaliações empíricas em tarefas corporificadas e egocêntricas desafiadoras demonstram que o alinhamento estrito de domínio e a alta qualidade dos dados são muito mais críticos para o desempenho do que a simples ampliação do conjunto de dados. Ademais, para preencher a maior lacuna de dados identificada em nossa análise, vamos além da avaliação, introduzindo um conjunto de dados em grande escala, DA-Next-5M, e um modelo de linha de base robusto, DA-Next, ampliando os limites da aprendizagem de representação espacial.
Apresentamos o MobileGym, um ambiente leve, totalmente controlável e hospedado em navegador, voltado para o uso cotidiano em dispositivos móveis, visando fidelidade de interação sem replicar backends proprietários. Ele possibilita duas capacidades anteriormente inacessíveis para aplicativos cotidianos: sinais de resultado verificáveis por meio de julgamento determinístico baseado em estado sobre o estado JSON estruturado, e RL online escalável por meio de rollouts paralelos de baixo custo. O estado completo do ambiente é capturado, configurado, bifurcado e comparado como JSON estruturado, e um único servidor pode hospedar centenas de instâncias paralelas, com cerca de 400 MB de memória por instância e cerca de 3 s de inicialização a frio. Um modelo de estado em camadas e um framework declarativo de definição de tarefas mantêm a programabilidade do estado e a criação de tarefas em escala prática, e um único mecanismo de julgamento programático fornece tanto vereditos de avaliação determinísticos quanto recompensas densas de RL. O acompanhante MobileGym-Bench oferece 416 modelos de tarefas parametrizados, incluindo 256 modelos de teste e 160 de treino, em 28 aplicativos, com juízes determinísticos e um protocolo AnswerSheet estruturado que evita falhas de correspondência de texto livre. Em um estudo de caso Sim-to-Real, o GRPO no Qwen3-VL-4B-Instruct obteve +12,8 pontos percentuais no conjunto de teste de 256 tarefas e, em um subconjunto de sinais de 59 tarefas em dispositivos reais, a execução no dispositivo real manteve 95,1% do ganho de treinamento do lado da simulação. Página do projeto: https://mobilegym.github.io.
A reconstrução 3D multivista alcançou progresso notável com o advento de modelos feed-forward de reconstrução 3D. No entanto, esses modelos são tipicamente treinados e avaliados sob condições ideais de imagem, livres de degradações, enquanto observações do mundo real frequentemente contêm degradações que diferem significativamente dessas condições. Melhorar a robustez da reconstrução 3D multivista sob condições degradadas continua sendo um desafio importante. Apresentamos o Geometry-Aware Representation Denoising (GARD), uma nova abordagem que realiza restauração multivista baseada em difusão diretamente no espaço de características de um modelo feed-forward de reconstrução 3D. Este design explora as representações de características sensíveis à geometria do reconstruidor 3D para recuperar de forma eficaz a geometria precisa da cena. Além disso, ao empregar um decodificador de imagem RGB adicional, as representações refinadas também podem ser usadas para restaurar imagens RGB de alta qualidade, permitindo assim a recuperação simultânea da geometria da cena 3D e de imagens de alta qualidade. Experimentos abrangentes no benchmark Depth Anything 3 (DA3) demonstram a eficácia do framework GARD proposto.
A geração audiovisual está avançando rapidamente de clipes curtos para conteúdo de um minuto de duração, enquanto os protocolos de avaliação existentes permanecem em grande parte limitados a contextos de formato curto. Os benchmarks atuais focam principalmente na geração condicionada a texto de 5 a 10 segundos e raramente oferecem suporte a uma avaliação unificada entre modalidades de condicionamento como texto, imagem e vídeo. Além disso, fornecem insights limitados sobre como a consistência de identidade, a coerência narrativa e o alinhamento audiovisual se degradam ao longo de horizontes temporais estendidos. Para preencher essa lacuna, apresentamos o LongAV-Compass, um benchmark sistemático para geração audiovisual de um minuto. O LongAV-Compass contém 284 casos de teste selecionados, abrangendo texto-para-áudio-vídeo (T2AV), imagem-para-áudio-vídeo (I2AV) e vídeo-para-áudio-vídeo (V2AV), organizados por cenário de aplicação e complexidade de geração. O benchmark combina a construção guiada por taxonomia com uma estrutura unificada de avaliação que integra a avaliação assistida por MLLM a métricas perceptuais e multimodais complementares, incluindo DINO-v2, ArcFace, CLIP e ImageBind. A estrutura avalia mais de 20 dimensões granulares, abrangendo qualidade intrassegmento, consistência interssegmento, coerência narrativa global, alinhamento semântico e sincronização audiovisual. Por meio de experimentos em 11 modelos representativos, juntamente com validação de alinhamento humano, o LongAV-Compass fornece um ambiente de teste diagnóstico para analisar as limitações dos sistemas atuais em manter geração audiovisual coerente, semanticamente alinhada e temporalmente consistente em escala de minuto, considerando diversas modalidades de entrada.
Apesar do surgimento dos modelos de linguagem de difusão (D-LLMs) como alternativa aos modelos de linguagem autorregressivos (AR-LLMs), o monitoramento de segurança para D-LLMs permanece amplamente inexplorado. Ao contrário dos AR-LLMs, os D-LLMs geram texto por meio de um processo de remoção de ruído em múltiplas etapas, expondo representações ocultas intermediárias que podem conter informações relevantes para a segurança indisponíveis em configurações padrão de monitoramento de etapa única. Motivados pela adequação de sondas leves para monitoramento contínuo, analisamos quais sinais em nível de trajetória melhor indicam quando tais sondas provavelmente terão dificuldades. Descobrimos que o sinal mais informativo é a hesitação de segurança: estados ocultos intermediários que caem repetidamente dentro de uma pequena margem da fronteira de decisão da sonda. O número dessas etapas de hesitação na trajetória do D-LLM prediz efetivamente a falha da sonda, fornecendo um proxy da dificuldade da amostra. Com base nessa análise, propomos o D²-Monitor, um monitor de segurança de dois níveis para D-LLMs. O D²-Monitor adota uma sonda leve como monitor contínuo para estimar conjuntamente a hesitação e realizar a classificação base. Quando o nível de hesitação excede um limiar, uma sonda mais expressiva, porém computacionalmente mais pesada, é ativada. Esse mecanismo de roteamento dinâmico aloca eficientemente os recursos de monitoramento no momento do teste. Avaliado em 3 conjuntos de dados (WildguardMix, ToxicChat, OpenAI-Moderation) em 4 D-LLMs, o D²-Monitor alcança desempenho de ponta com uma pegada compacta de parâmetros (≤ 0,85M parâmetros) e exibe o melhor compromisso entre eficácia e eficiência em relação a 8 baselines.
Apresentamos a série MiniMax-M2, uma família de modelos de linguagem baseados em Mistura de Especialistas, construída em torno do princípio de que mini ativações podem desbloquear o máximo de inteligência no mundo real. O carro-chefe M2 contém 229,9 bilhões de parâmetros totais, com apenas 9,8 bilhões ativados por token. Projetada de ponta a ponta para implantação agêntica, a série M2 baseia-se em três componentes: (i) pipelines de dados orientados por agentes, que produzem trajetórias verificáveis em larga escala em codificação agêntica e cowork agêntico, cada uma fundamentada em um espaço de trabalho executável e uma recompensa alinhada a artefato; (ii) Forge, um sistema de RL nativo de agentes escalável que se adapta a trajetórias de agentes de horizonte longo, combinado com escalonamento FIFO em janela, mesclagem de árvore de prefixos, otimização de inferência e um desacoplamento limpo entre treinamento-inferência-agente que suporta agentes tanto de caixa branca quanto de caixa preta; (iii) o checkpoint mais recente M2.7 dá um passo inicial em direção à autoevolução — depurando autonomamente execuções de treinamento e modificando seu próprio arcabouço. Em toda a gama do M2 ao M2.7, essa combinação traduz uma pegada de mini ativação em desempenho de nível fronteiriço em benchmarks de codificação agêntica, busca profunda, tarefas de escritório e raciocínio.
Estudamos a refilmagem cinematográfica em nível de série, um problema de geração de vídeo-para-vídeo de longo horizonte que localiza episódios ou filmes completos por meio de estilização ou substituição de atores, preservando estritamente a estrutura narrativa, a coreografia de movimento e a identidade do personagem em centenas de tomadas. Pipelines existentes de geração e edição de vídeos frequentemente falham nesse regime devido à deriva de identidade cumulativa, mutação de fundo e erosão semântica sob grandes movimentos de câmera e mudanças de ponto de vista. Propomos o Soap2Soap, um framework multiagente que impõe consistência linguístico-visual de longo prazo por meio de um mecanismo de Consistência de Ponte Dupla: um roteiro JSON ciente de cena servindo como espinha dorsal semântica persistente, e âncoras de referência visual alocadas dinamicamente nos níveis de cena e tomada. Para suprimir a deriva antes da síntese de vídeo, introduzimos a consistência de keyframes em lote, gerando conjuntamente múltiplos keyframes em um contexto latente compartilhado por meio de uma formulação baseada em grade. Um agente de verificação em malha fechada audita ainda identidade, estabilidade e alinhamento para acionar regeneração seletiva. Experimentos no SoapBench demonstram fortes melhorias em relação às APIs comerciais de geração de vídeo em consistência de longo prazo e fidelidade narrativa.
O Test-Time Scaling (TTS) aprimora as capacidades de raciocínio de grandes modelos de linguagem ao alocar poder computacional de inferência adicional para explorar o espaço de soluções. No entanto, os métodos paralelos de TTS existentes geralmente mantêm as ramificações isoladas durante a busca: descobertas intermediárias permanecem privadas da ramificação e não podem orientar outras ramificações a tempo. Esse isolamento de informações causa uma exploração substancialmente redundante, pois as ramificações redescobrem repetidamente informações já encontradas em outro lugar e exigem mais etapas de busca para coletar informações completas de decisão necessárias para chegar a respostas corretas. Para preencher essa lacuna, propomos o Pensamento Paralelo Colaborativo (CPT), uma estrutura de inferência livre de treinamento que permite o compartilhamento de informações em tempo de busca entre ramificações paralelas. O CPT extrai informações intermediárias compactas das ramificações em andamento, mantém um pool de informações em nível de consulta com deduplicação e transmite as entradas do pool por meio do contexto de entrada, permitindo que cada ramificação em etapas subsequentes de busca reutilize descobertas feitas por outras ramificações em vez de redescobrir as mesmas informações. Empiricamente, experimentos nos benchmarks HMMT e AIME mostram que o CPT estabelece uma fronteira de Pareto entre precisão e latência mais forte do que linhas de base robustas em diferentes orçamentos de rollout e escalas de modelo, destacando a colaboração em tempo de busca como uma direção eficaz para um TTS paralelo eficiente.
Apresentamos o LLaVA-OneVision-2 (LLaVA-OV-2), o modelo visão-linguagem mais capaz da série LLaVA-OneVision até o momento, alcançando desempenho superior em uma ampla gama de benchmarks multimodais. O modelo é construído sobre um codificador OneVision nativo e incorpora Atenção Janelada para computação local eficiente, mantendo a resolução nativa. Seu principal avanço é a tokenização por fluxo de codec: ela trata o vídeo comprimido como um fluxo contínuo de custo de bits, onde a dinâmica do custo de bits determina grupos temporais adaptativos, e pistas de resíduo de movimento selecionam evidências espaciais salientes em telas visuais compactas. Essa alocação concentra um orçamento limitado de tokens em conteúdo portador de eventos, permitindo uma compressão de tokens de vídeo longo mais estável do que grupos fixos de imagens. Uma RoPE 3D compartilhada ainda posiciona telas de codec, quadros amostrados e imagens em um sistema de coordenadas espaço-temporais unificado. Além disso, construímos a pilha de dados e treinamento do LLaVA-OV-2 em torno de supervisão aberta em larga escala: aproximadamente 8 milhões de amostras de vídeo com legendas recapturadas para pré-treinamento, um corpus espacial de 4 milhões de amostras para ajuste fino. Também introduzimos o JumpScore, um benchmark de localização temporal voltado para ancoragem de granulação fina em movimentos de alta frequência e repetição densa, um regime sub-representado pelas avaliações de vídeo existentes. Uma capacidade de destaque do LLaVA-OV-2 é sua percepção unificada entre compreensão de vídeo, ancoragem temporal, ancoragem espacial e raciocínio de traço de manipulação. No JumpScore, o LLaVA-OneVision-2-8B atinge 74,9 mAP no JumpScore, superando o Qwen3-VL-8B (30,1) em +44,8 pontos; sob orçamentos equivalentes de tokens visuais no mesmo benchmark, as entradas de fluxo de codec melhoram a ancoragem temporal em relação à amostragem de quadros em +9,7 pontos. Em benchmarks padrão, o LLaVA-OneVision-2-8B supera ainda o Qwen3-VL-8B em +4,3 pontos médios em tarefas de vídeo, +5,3 em tarefas espaciais e +15,6 J&F médio em tarefas de rastreamento.
As camadas de normalização em grandes modelos de linguagem modernos (LLMs) consistem em uma operação de normalização determinística e um vetor de escala aprendível. Embora a operação de normalização tenha sido extensivamente estudada, o vetor de escala permanece pouco compreendido, apesar de seu uso ubíquo. Neste trabalho, apresentamos um estudo sistemático dos vetores de escala em LLMs sob as perspectivas de expressividade, otimização e estrutura arquitetural. Primeiro, mostramos empiricamente que, embora os vetores de escala constituam apenas uma fração insignificante dos parâmetros do modelo, removê-los degrada substancialmente o pré-treinamento de LLMs. Nossa teoria mostra ainda que, em arquiteturas Pré-Norm, os vetores de escala não aumentam a expressividade; em vez disso, eles melhoram a otimização por meio de um efeito de pré-condicionamento autoamplificador nos mapeamentos lineares subsequentes. Segundo, investigamos o papel do decaimento de peso para vetores de escala. Ao distinguir camadas Input-Norm e Output-Norm, mostramos teoricamente que o decaimento de peso é benéfico para as primeiras, mas prejudicial para as últimas, devido aos seus papéis distintos na otimização e expressividade. Terceiro, motivados por esse entendimento, propomos três melhorias leves e complementares para vetores de escala: heterogeneidade específica de ramificação, posicionamento aprimorado em torno de mapeamentos lineares e reparametrização de magnitude-direção. Tanto a teoria quanto os experimentos mostram que cada melhoria produz ganhos consistentes. Finalmente, combinamos essas melhorias em uma estratégia unificada de vetor de escala e a avaliamos por meio de extensos experimentos de pré-treinamento de LLMs em modelos densos e de mistura de especialistas, variando de 0,12B a 2B parâmetros, com múltiplos otimizadores e cronogramas de taxa de aprendizado, sob orçamentos de tokens em escala industrial. A estratégia unificada atinge consistentemente uma perda terminal menor do que as linhas de base bem ajustadas e exibe um comportamento de escalonamento mais favorável, ao mesmo tempo que adiciona uma sobrecarga insignificante de parâmetros e computação.
Modelos Visão-Linguagem-Ação (VLA) adotam amplamente Modelos Visão-Linguagem (VLMs) pré-treinados como espinhas dorsais de políticas, mas ainda não está claro que tipo de representação VLM pré-treinada é útil como inicialização VLA. Neste artigo, estudamos a inicialização VLA como um problema controlado de design de representação ao longo de três eixos: supervisão de VQA incorporada em nível de capacidade, estratégia de atualização de parâmetros e pré-treinamento com dados robóticos. Nossos experimentos mostram que a representação VLM pré-treinada original é uma fonte chave de desempenho em ações. No entanto, a adaptação VQA incorporada não produz ganhos uniformes: seu benefício depende de gargalos downstream, e os ganhos de diferentes domínios de capacidade não são simplesmente aditivos. Para a estratégia de atualização, LoRA fornece uma inicialização mais confiável do que o Fine-Tuning Completo, indicando que remodelar excessivamente a representação pré-treinada pode enfraquecer a inicialização VLA. O pré-treinamento com dados robóticos melhora ainda mais a inicialização VLA, com a variante mais forte obtida por treinamento baseado em LoRA em estágios. Juntos, esses achados sugerem que a adaptação eficaz de VLM para VLA deve injetar sinais incorporados e de trajetória robótica relevantes para a ação, preservando ao mesmo tempo a representação VLM pré-treinada que permanece útil para o aprendizado de ações.
A correspondência de fluxo com predição de dados limpos demonstrou que regredir o ponto limpo explora a estrutura de baixa dimensão de forma mais eficaz do que prever uma quantidade ruidosa ambiente. Investigamos se esse princípio permanece útil após as imagens serem mapeadas para um espaço latente aprendido, onde a compressão já removeu grande parte da variabilidade bruta dos pixels. Apresentamos o JLT, um Transformer de difusão latente de 130M sobre códigos VAE FLUX.2 congelados, e comparamos a predição de latente limpo com um DiT de predição de velocidade correspondente, sob a mesma representação, arquitetura principal e configurações de treinamento. Embora as três variáveis x, epsilon e v sejam linearmente conversíveis para um tempo de corrupção fixo, uma análise gaussiana local mostra que a regressão de velocidade herda um piso isotrópico de covariância alvo e amplifica direções latentes de baixa variância, enquanto a predição limpa as atenua. No ImageNet 256x256, o JLT-B/1 obtém FID-50K 2,50 com orientação livre de classificador, apresentando uma grande diferença de alvo correspondente em relação à predição de velocidade. Esses resultados sugerem que os alvos de predição em difusão latente são escolhas geométricas dependentes da representação, e não parametrizações algébricas intercambiáveis.
O aprendizado por reforço agentivo (RL) tem se mostrado eficaz para treinar agentes baseados em LLMs com capacidade de uso externo de ferramentas. No entanto, identificamos que o treinamento RL agentivo induz chamadas redundantes crescentes de ferramentas e desfoca o limite intrínseco de conhecimento do modelo, onde o modelo falha em distinguir quando ferramentas são necessárias versus quando o conhecimento paramétrico é suficiente. Soluções existentes baseadas em modelagem de recompensa criam alvos de otimização de granularidade grossa que tendem a incentivar a supressão indiscriminada de chamadas de ferramentas, levando à manipulação de recompensa. Neste artigo, propomos o AKBE (Agentic Knowledge Boundary Enhancement), um método on-policy que sonda dinamicamente o limite intrínseco de conhecimento do modelo através de rollouts de caminho duplo (com e sem ferramenta) durante o treinamento. Definimos o limite de conhecimento como a determinação por instância da necessidade de ferramentas e o número mínimo de chamadas de ferramenta necessárias. Ao comparar a correção entre os caminhos, o AKBE categoriza trajetórias e constrói sinais de supervisão direcionados que orientam padrões eficientes de uso de ferramentas para cada pergunta. Esses sinais são integrados perfeitamente ao loop de treinamento RL agentivo. Experimentos em sete benchmarks de QA demonstram que o AKBE melhora a precisão da tarefa em +1,85 em média e reduz chamadas de ferramenta em 18% em relação ao RL agentivo padrão, resultando em 25% maior produtividade de ferramentas sem qualquer trade-off entre precisão e eficiência. Análises adicionais sugerem sua compatibilidade plug-and-play com diferentes algoritmos de RL e o mecanismo de cada categoria de sinal. Nosso código está disponível em https://github.com/CuSO4-Chen/AKBE.
Agentes baseados em grandes modelos de linguagem (LLMs) dependem de habilidades reutilizáveis para resolver tarefas complexas. No entanto, as abordagens existentes para criação de habilidades tratam-nas como artefatos isolados e estáticos, limitando sua reutilização, confiabilidade e aprimoramento contínuo. Propomos o MUSE-Autoskill Agent (Agente de Evolução de Habilidades com Utilização de Memória), uma estrutura centrada em habilidades que permite aos agentes melhorar continuamente sua capacidade de resolução de tarefas por meio da criação, reutilização e refinamento de habilidades sob um ciclo de vida unificado (criação, memória, gerenciamento, avaliação e refinamento). Nossa estrutura capacita os agentes a criar habilidades sob demanda, armazená-las e reutilizá-las entre tarefas, organizá-las e selecioná-las de forma eficiente, além de avaliá-las por meio de testes unitários e feedback em tempo de execução para refinamento contínuo. Introduzimos também a memória em nível de habilidade, que acumula experiência para cada habilidade ao longo das tarefas, possibilitando reutilização e adaptação mais eficazes ao longo do tempo. Experimentos no SkillsBench fornecem evidências iniciais de que habilidades gerenciadas por ciclo de vida podem melhorar o sucesso, a eficiência, a reutilização e a transferência entre agentes, destacando a importância de tratar as habilidades como ativos duradouros, conscientes de experiência e testáveis.
Jogos de dedução social tornaram-se um campo de teste popular para investigar raciocínio, engano, coordenação e modelagem de crenças em agentes baseados em Modelos de Linguagem Grande (LLMs). No entanto, a maioria dos ambientes é avaliada apenas por resultados de jogo, como taxas de vitória, e permanece majoritariamente restrita a interação textual, dificultando a determinação se a linguagem de um agente está de fato ancorada no que ele percebeu e fez, ou a identificação dos modos de falha subjacentes ao seu comportamento. Para suprir essa lacuna, apresentamos QUACK, um ambiente e framework de avaliação de código aberto para auditar a ancoragem da linguagem dos agentes no raciocínio social multimodal. O QUACK avalia agentes em três níveis: resultados de jogo, trajetórias comportamentais e consistência no nível das falas. Seu núcleo, o Pipeline de Verificação de Afirmações, reconstrói a trajetória real de cada agente a partir dos logs do motor e verifica cada alegação feita em discussão, sinalizando automaticamente alucinação espacial, acusação sem fundamento, colapso do engano e inconsistência entre linguagem e ação. Ao avaliar três VLMs de ponta em configurações adversariais homogêneas e com modelos diferentes, constatamos que mesmo o agente mais forte alucina 15,1% de suas afirmações espaciais verificáveis e faz mais da metade de suas acusações sem evidências fundamentadas. Disponibilizamos o motor completo, o framework de avaliação, as ferramentas e os logs em https://github.com/AAAAA-Academia-Attractions/QUACK.
O raciocínio visual por meio de aprendizado por reforço com recompensas verificáveis (RLVR) tem alcançado progressos notáveis. No entanto, ao lidar com entradas de múltiplas fontes, as abordagens existentes tendem a tratá-las como mera acumulação de informações, carecendo de mecanismos explícitos para distinguir se a integração de fontes adicionais resulta em ganho de informação ou introduz interferência. Consequentemente, elas têm dificuldade em modelar eficazmente a interação dinâmica ao integrar múltiplas fontes, particularmente quando estas diferem significativamente em propriedades físicas e semânticas, como no caso de infravermelho e profundidade, levando a um desempenho inferior ao do raciocínio monofonte quando uma determinada fonte contém o sinal dominante. Para abordar esse problema, propomos o MARS, uma nova estrutura de raciocínio multifonte ancorada em uma única fonte que modela cada modalidade visual como uma fonte de informação independente. Especificamente, ao tratar recompensas de fonte única como âncoras dinâmicas, nosso método incorpora explicitamente o ganho de informação introduzido pela fusão multifonte na normalização de vantagens e enfatiza adaptativamente a promoção mútua entre as fontes, ao mesmo tempo que suprime possíveis ruídos ou conflitos durante o RLVR. A partir de uma análise teórica, nosso método quantifica efetivamente o ganho de informação introduzido pela integração multifonte na estimativa de gradientes, permitindo uma regulação consistente das modalidades. Resultados empíricos também mostram ganhos impressionantes de desempenho de 3,2% e 4,9% no GRPO e DAPO, respectivamente, em diversos conjuntos de dados, confirmando a eficácia do nosso método.
Modelos de linguagem de grande porte (LLMs) evoluíram para agentes interativos que colaboram com usuários em tarefas do mundo real. A colaboração eficaz nesses ambientes depende cada vez mais da compreensão do usuário além do que é explicitamente declarado, pois a intenção do usuário é frequentemente refletida em interações diárias fragmentadas e exige tanto modelagem personalizada quanto interação proativa. No entanto, os benchmarks existentes para agentes avaliam principalmente raciocínio e uso de ferramentas, negligenciando em grande parte os desafios de inferir e aproveitar preferências do usuário em cenários realistas. Para preencher essa lacuna, apresentamos o VitaBench 2.0, um benchmark para avaliar o comportamento personalizado e proativo de agentes em interações de longo prazo com usuários. No VitaBench 2.0, as tarefas são organizadas como sequências ordenadas temporalmente para usuários individuais, onde as preferências estão embutidas em interações fragmentadas e heterogêneas. A conclusão bem-sucedida das tarefas exige que o agente extraia, utilize e atualize continuamente as preferências do usuário a partir dessas interações. Além disso, avaliamos a proatividade por meio de tarefas que exigem que os agentes reconheçam informações ausentes e as adquiram ativamente dos usuários ou do ambiente antes de tomar decisões. Para apoiar a análise sistemática, fornecemos uma interface de memória extensível que permite comparação controlada entre diferentes arquiteturas de memória. Comparamos um conjunto diversificado de LLMs proprietários e de código aberto de ponta. Os resultados mostram que a personalização no mundo real continua sendo altamente desafiadora mesmo para modelos de última geração, revelando uma lacuna substancial entre as capacidades atuais e os requisitos práticos. Análises extensas revelam ainda os modos de falha e os gargalos de capacidade dos agentes atuais na tomada de decisão personalizada no mundo real, fornecendo insights para futuras melhorias nos modelos.
Oráculos de ativação visam tornar as ativações de outros modelos legíveis para humanos, apresentando resultados promissores em comparação às técnicas de interpretabilidade de caixa branca. No entanto, a quantificação de incerteza (UQ) para as saídas em linguagem natural desses oráculos de ativação ainda é pouco estudada. Neste trabalho, investigamos 6 métodos diferentes para estimar a confiança de oráculos de ativação e avaliamos o quão bem calibrados estão seus escores de confiança. Nossos experimentos com 6.000 amostras por oráculo (variando verbalizador e prompts de contexto) revelam que a frequência do modo bootstrap é o método melhor calibrado entre os testados (ECE 5,7% vs. 25,5% para a log-probabilidade da palavra-resposta no Qwen3-8B; 10,3% vs. 13,1% no Qwen3.6-27B), e que a linha de base log-prob pode servir como um sinal de triagem rápido a uma fração do custo. O código e o treinador corrigido estão disponíveis em https://github.com/federicotorrielli/probabilistic_activation_oracles.
Modelos de Linguagem de Grande Porte (LLMs) estão cada vez mais sendo implantados como agentes autônomos que raciocinam, utilizam ferramentas e agem em múltiplas etapas. No entanto, a maioria dos benchmarks de alucinação ainda avalia apenas a saída final, ignorando falhas que se originam nas etapas intermediárias de Pensamento-Ação-Observação. Apresentamos Trajel, um conjunto de dados e uma estrutura de avaliação para auditar alucinações em nível de trajetória em fluxos de trabalho industriais multiagente. Trajel introduz uma taxonomia de alucinação de cinco tipos (factual, referencial, lógica, procedural e baseada em escopo) sobre traços de agentes anotados por especialistas do AssetOpsBench. Avaliamos modelos de detecção supervisionados nos níveis de subtarefa, trajetória e contexto longo. Nossos resultados mostram que os modos de falha mais comuns são ignorados pelos benchmarks existentes, que quase metade das trajetórias alucinadas envolve múltiplos tipos simultaneamente, e que detectores automatizados com alta precisão binária ainda classificam erroneamente os tipos mais sutis. A detecção ciente de trajetória supera significativamente a verificação post-hoc padrão, tornando a avaliação fundamentada em taxonomia necessária para uma implantação mais segura de agentes.
Sistemas multiagente com LLMs melhoram o raciocínio ao combinar saídas de múltiplos agentes, mas métodos com alta interação podem introduzir propagação de erros e grande sobrecarga de comunicação. Quando os agentes trocam respostas brutas ou traços de raciocínio, raciocínios intermediários incorretos podem ser adotados e amplificados, levando a um consenso confiante, mas errado; a comunicação em múltiplas rodadas também aumenta o consumo de tokens, a latência e o custo de inferência. Neste artigo, propomos um arcabouço de coordenação com comunicação controlada chamado DarkForest. O DarkForest primeiro mantém os agentes independentes, de modo que cada agente produza uma resposta sem ver as saídas dos outros. Em seguida, ele analisa as respostas brutas em registros de candidatos estruturados, agrupa candidatos semanticamente equivalentes em clusters e estima uma distribuição de crenças calibrada sobre esses clusters usando confiabilidade do agente, confiança, qualidade da análise, confiabilidade do padrão de suporte e correções de independência. Um coordenador recebe apenas evidências permitidas pela política desse estado de crença, com comunicação controlada. Experimentos em seis referências de raciocínio mostram que o DarkForest alcança qualidade global líder, melhora a melhor linha de base em até 30,7% nas métricas de referência e reduz o consumo de tokens em até 6,5 vezes em comparação com linhas de base com alta comunicação.
Mistura de Especialistas (MoE) tornou-se a arquitetura de fato para modelos de linguagem com centenas de bilhões de parâmetros, porém suas vantagens em escalas sub-bilionárias para implantação em dispositivos permanecem amplamente inexploradas. Para preencher essa lacuna, apresentamos o MobileMoE, uma família de modelos de linguagem MoE para dispositivos com parâmetros ativos sub-bilionários (0,3-0,9B ativos e 1,3-5,3B totais) que estabelece uma nova fronteira de Pareto para LLMs em dispositivos. Primeiramente, formulamos uma lei de escalonamento MoE para dispositivos que otimiza conjuntamente a arquitetura MoE sob restrições de memória e computação móveis, identificando um ponto ideal para dispositivos — esparsidade moderada com especialistas refinados e compartilhados — que é simultaneamente ótimo em memória e computação. Com base nas arquiteturas derivadas, treinamos o MobileMoE com um roteiro de quatro etapas que abrange pré-treinamento, treinamento intermediário, ajuste fino por instruções e treinamento ciente de quantização, todos em conjuntos de dados de código aberto. Em 14 benchmarks, o MobileMoE iguala ou supera os principais LLMs densos para dispositivos com 2 a 4 vezes menos FLOPs de inferência, e iguala ou supera o estado da arte MoE OLMoE-1B-7B com até 60% menos parâmetros. Para preencher a última milha rumo à implantação em dispositivos móveis, fornecemos a primeira inferência MoE eficiente em smartphones comerciais com perfilamento abrangente em dispositivos. Com memória INT4 comparável para pesos, o MobileMoE-S oferece preenchimento 1,8 a 3,8 vezes mais rápido e decodificação 2,2 a 3,4 vezes mais rápida do que a linha de base densa MobileLLM-Pro.
A geração de imagens orientada por sujeito visa sintetizar novas imagens que preservem a identidade do sujeito fornecido, seguindo instruções textuais. Abordagens existentes frequentemente codificam texto e imagens de referência separadamente, o que limita a capacidade de raciocínio multimodal e causa artefatos de copiar-colar. Estruturas recentes que conectam modelos multimodais e modelos de difusão melhoram o seguimento de instruções, mas negligenciam em grande parte a preservação de identidade. Para lidar com essas limitações, condicionamos modelos de difusão a Modelos de Linguagem Grande Multimodais (MLLMs) que codificam conjuntamente texto e imagens de referência, e os aumentamos com condicionamento de identidade baseado em VAE. Um novo módulo de Agregação de Dupla Camada (DLA) é projetado para agregar características MLLM de múltiplos níveis para condicionamento ideal, e uma estratégia de remoção de ruído em múltiplos estágios é aplicada para equilibrar progressivamente as informações semânticas do MLLM e os detalhes finos de identidade do VAE durante a inferência. Experimentos extensos demonstram que nossa abordagem harmoniza a compreensão multimodal com a preservação de identidade, mitiga problemas de copiar-colar e alcança desempenho superior em relação à preferência humana na geração de imagens orientada por sujeito. Nosso site do projeto está disponível em https://zsh2000.github.io/squeeze-mllm-subject-gen/.
Apresentamos o Gemini Embedding 2, um modelo de embedding multimodal nativo que permite representar modalidades de vídeo, áudio, imagem e texto em um espaço de representação unificado. Aproveitamos as capacidades multimodais do Gemini para produzir embeddings para combinações arbitrárias de entradas intercaladas em todas essas modalidades, que generalizam bem em uma ampla variedade de tarefas. Ao aplicar aprendizado contrastivo em larga escala em um regime de treinamento multiestágio e multitarefa, alcançamos desempenho de estado da arte nos principais benchmarks de embedding, incluindo recuperação unimodal, multimodal e multimodal, abrangendo um conjunto diversificado de tarefas. Mostramos que nosso modelo de embedding apresenta forte desempenho (com pontuação de 62,9 R@1 no MSCOCO, 68,8 NDCG@10 no Vatex, 69,9 no MTEB multilíngue e 84,0 no MTEB Code) em uma variedade de tarefas, superando o desempenho de modelos especializados. Essas capacidades unificadas tornam o Gemini Embedding 2 um candidato promissor para casos de uso downstream, como RAG, recomendação e busca. Além disso, seu desempenho robusto em zero-shot em áreas distintas — da astronomia e biociência às belas-artes e artes culinárias — estabelece-o como uma representação confiável, pronta para uso, mesmo para domínios especializados.
Avanços recentes em modelos de linguagem de grande escala (LLMs) facilitaram a ampla implementação de LLMs como agentes interativos capazes de raciocínio, planejamento e uso de ferramentas. Apesar do desempenho robusto em referenciais (benchmarks) existentes, esses agentes frequentemente exibem degradação notável quando implantados em ambientes reais, onde os cenários são inerentemente estocásticos e imperfeitos. Argumentamos que essa discrepância decorre de uma incompatibilidade fundamental entre as configurações idealizadas de treinamento e as dinâmicas de interação do mundo real, onde os paradigmas atuais dependem de instruções de tarefa cuidadosamente curadas e ambientes estáveis e bem controlados. Para preencher essa lacuna, propomos o NoisyAgent, uma estrutura de treinamento agentivo que incorpora explicitamente as imperfeições ambientais no processo de aprendizado do agente. Identificamos duas fontes principais de ruído de interação em cenários reais: o ruído do usuário, que captura ambiguidade e variabilidade na interação com o usuário, e o ruído da ferramenta, que reflete falhas e anomalias na execução de ferramentas. Introduzimos tais perturbações no pipeline de treinamento modificando os padrões de interação do usuário e simulando os resultados da execução de ferramentas no ambiente de treinamento. Para estabilizar o treinamento e, ao mesmo tempo, incentivar os agentes a lidarem com imperfeições cada vez mais desafiadoras, o ruído é aplicado apenas a um subconjunto de trajetórias (rollouts) e sua dificuldade é aumentada progressivamente à medida que o modelo se adapta ao nível atual de ruído. Experimentos extensos demonstram que nossa abordagem melhora consistentemente a robustez do agente em ambientes ruidosos e dinâmicos. Nossa análise revela que o treinamento sob condições de ruído também produz ganhos de desempenho em referenciais idealizados, sugerindo que a exposição controlada ao ruído ambiental promove comportamentos de raciocínio e tomada de decisão mais generalizáveis. Nossos achados destacam a importância de modelar imperfeições de interação para superar a lacuna entre o treinamento de agentes e a implantação no mundo real.
Agentes baseados em LLM para geração de kernels de GPU estão avançando rapidamente, porém seu progresso é fundamentalmente limitado pelos benchmarks que otimizam. Os benchmarks atuais estão mal alinhados com frameworks de inferência em produção: avaliam kernels em uma única GPU com entradas sintéticas, ignoram a pilha de compilação circundante e recompensam a replicação de otimizações conhecidas em vez da descoberta de novas. Os sinais de recompensa resultantes são enganosos: os agentes aprendem a gerar kernels que pontuam bem em ambientes isolados, mas introduzem incompatibilidades de interface, conflitos na pilha de compilação e degradação silenciosa de corretude ao serem integrados em sistemas reais. Apresentamos o FastKernels, um benchmark de kernels construído em torno de um conjunto mínimo de 46 arquiteturas representativas abrangendo 8 categorias, cujos kernels coletivamente subsomem 96,2% (409/425) das arquiteturas do HuggingFace Transformers. O FastKernels também funciona como um framework de inferência minimalista de nível de produção que opera em paridade com sistemas consolidados como vLLM e SGLang na execução mainstream de LLMs e supera substancialmente as referências upstream em arquiteturas menos atendidas; a interface de cada tarefa espelha o módulo correspondente na biblioteca de última geração de sua família de arquitetura, permitindo a implantação direta de kernels otimizados em bases de código de produção. Avaliando agentes de kernels de última geração no FastKernels, constatamos que mesmo o agente mais forte atinge apenas um ganho agregado de 0,94 vezes em relação às linhas de base de produção, com agentes mais fracos em 0,78 e 0,53 vezes — confirmando que o desalinhamento entre benchmark e produção é um gargalo crítico para a área. Lançamos o FastKernels como um trampolim para agentes de kernels cujos ganhos em benchmark se traduzam diretamente em melhorias de throughput em produção. O código está disponível em https://github.com/Snowflake-AI-Research/fastkernels
Grandes modelos de linguagem inevitavelmente retêm informações sensíveis, definidas como entradas que podem induzir gerações prejudiciais, devido ao treinamento em vastos corpora da web, gerando preocupações quanto à privacidade e segurança. Métodos existentes de desaprendizado de máquina dependem principalmente de retreinamento ou ajuste fino agressivo, que são computacionalmente caros ou propensos a degradar o conhecimento relacionado e a utilidade geral do modelo. Neste trabalho, reformulamos o desaprendizado de máquina como um problema preciso de re-mapeamento de conhecimento por meio da edição de modelos. Propomos o ZeroUnlearn, uma estrutura de desaprendizado com poucos exemplos. Ele sobrescreve entradas sensíveis mapeando-as para um estado alvo neutro e removendo suas representações originais. O ZeroUnlearn impõe ortogonalidade representacional por meio de uma atualização multiplicativa de parâmetros com solução de forma fechada, permitindo um desaprendizado eficiente e direcionado. Estendemos ainda o ZeroUnlearn para uma variante baseada em gradiente para desaprendizado multi-amostra. Experimentos demonstram que nossa abordagem supera as linhas de base existentes, preservando a utilidade geral do modelo. Nosso código está disponível no github: https://github.com/XMUDeepLIT/ZeroUnlearn.
Raciocínio agêntico de longo horizonte exige que modelos de linguagem de grande escala ajam ao longo de históricos de interação extensos, contendo pensamentos, chamadas de ferramentas, observações e conclusões parciais. O desafio não está apenas no crescimento desses históricos, mas no fato de que informações necessárias para a decisão atual podem estar dispersas por etapas distantes e só se tornar relevantes posteriormente. Abordagens existentes lidam com essa dificuldade truncando o histórico de interação, comprimindo-o em substitutos mais curtos ou recuperando partes selecionadas para reutilização, mas não modelam explicitamente como o acesso às interações passadas deve se adaptar ao estado evolutivo do agente. Em vez disso, tratamos o raciocínio de longo horizonte como um problema de memória adaptativa ao estado. Para tal, propomos a Memória Adaptativa ao Estado~(SAM, do inglês *State-Adaptive Memory*), um framework independente que consolida a interação contínua em pistas de memória compactas, preservando simultaneamente páginas brutas de trajetória para recuperação orientada por intenção. Essas pistas não são tratadas como substitutas do histórico; servem, em vez disso, como identificadores leves que permitem ao agente reconstruir informações temporalmente distantes de acordo com suas necessidades atuais, sem a necessidade de retreinar o arcabouço subjacente. Otimizamos adicionalmente o módulo de memória por meio de supervisão guiada por especialistas e aprendizado por reforço, alinhando-o à utilidade em nível de trajetória. Nos benchmarks BrowseComp, BrowseComp-ZH, WideSearch e HLE, o SAM supera consistentemente linhas de base fortes em diversos backbones de agentes. Nossos resultados sugerem que a modelagem explícita de memória fornece uma base simples e eficaz para o raciocínio agêntico de longo horizonte.
A geração e edição de imagens em camadas é uma capacidade fundamental que permite a reutilização, edição e composição de conteúdo visual gerado em camadas, de forma análoga à edição em nível de palavras na linguagem natural. Apesar de sua importância, essa área ainda é pouco explorada em larga escala. Para preencher essa lacuna, apresentamos o MRT, um modelo de difusão de região mascarada com 20 bilhões de parâmetros, projetado para geração e edição de imagens transparentes multicamadas, treinado em mais de 10 milhões de amostras de design multilíngue, abrangendo variadas proporções de aspecto e prompts textuais. Para aproveitar plenamente essa escala, fazemos duas contribuições técnicas principais. Primeiro, unificamos três tarefas complementares — texto para camadas, imagem para camadas e camadas para camadas — dentro de um framework compartilhado de difusão de região mascarada, onde o mascaramento seletivo de tokens permite geração e edição flexíveis em nível de camadas. Segundo, para possibilitar a geração de camadas de estouro (overflow), introduzimos uma camada de tela (canvas layer) ciente de estouro, que lida com inconsistências de borda e suporta síntese de fundo semitransparente, permitindo camadas editáveis completas que se estendem além dos limites visíveis da tela. Além disso, aplicamos destilação de difusão para alcançar geração multicamadas em tempo real com 8 passos, mantendo degradação mínima de qualidade. Experimentos extensivos demonstram que nosso framework supera significativamente abordagens anteriores de última geração, incluindo vários sistemas comerciais, em todas as três tarefas, estabelecendo um novo padrão para geração de imagens transparentes multicamadas. Notavelmente, nosso modelo supera substancialmente o modelo concorrente Qwen-Image-Layered na qualidade de imagem para camadas, de acordo com resultados de estudos de usuários, enquanto alcança inferência 10-100 vezes mais rápida e reduz o consumo de memória GPU ativa em 50-90% durante a inferência de imagem para camada.
Transformadores de Difusão (DiT) alcançam desempenho robusto na geração de imagens, mas incorrem em custos substanciais de inferência. Embora trabalhos anteriores tenham reduzido esse custo por meio de quantização e destilação, a esparsidade semi-estruturada, que pode reduzir quase pela metade os FLOPs, permanece pouco explorada. Uma razão principal é que a maioria das abordagens existentes foca na esparsificação de pesos, e podar 50% dos pesos pode remover capacidade crítica do modelo e degradar a qualidade da geração. Nosso estudo, no entanto, mostra que as ativações do DiT são intrinsecamente esparsas e significativamente mais robustas à esparsificação semi-estruturada N:M do que os pesos. Motivados por essa observação, defendemos uma mudança de paradigma da esparsificação de pesos para a esparsificação de ativações. Propomos o RT-Lynx, que aplica esparsificação N:M às ativações e incorpora técnicas de compensação de erro para mitigar a perda de precisão. Além disso, implementamos kernels CUDA altamente otimizados adaptados a essa configuração, alcançando uma aceleração de até 1,55x em média nas camadas lineares. Extensos experimentos em múltiplos modelos de difusão demonstram que nosso método preserva a qualidade de geração dos modelos originais enquanto acelera substancialmente a inferência.
Os sistemas agentivos estão se tornando mais capazes: agentes definem estratégias, tomam ações e interagem com diferentes ambientes. Essa autonomia impõe sérios desafios para a supervisão e avaliação do comportamento dos agentes. A maioria das ferramentas atuais é limitada, focando na observabilidade com capacidades básicas de avaliação ou impondo taxonomias estáticas e artesanais de erros que não conseguem se adaptar a novos domínios. Para preencher essa lacuna, apresentamos o Agentic CLEAR, um framework de avaliação automático, dinâmico e fácil de usar. Ele produz insights textuais sobre o comportamento do agente em três níveis de granularidade: sistema, traço e nó. O Agentic CLEAR opera acima da camada de observabilidade, permitindo integração perfeita e contando com uma interface de usuário intuitiva que torna a avaliação do agente altamente acessível. Em nossos experimentos com quatro benchmarks, sete configurações agentivas e dezenas de milhares de chamadas de LLM, mostramos que o Agentic CLEAR produz feedback de alta qualidade, orientado por dados e perspicaz. Nossa análise demonstra forte alinhamento com erros anotados por humanos e a capacidade de prever a taxa de sucesso das tarefas.
Modelos de linguagem de grande escala (LLMs) são geralmente treinados em corpora embaralhados, resultando em modelos cujo conhecimento é congelado no momento do treinamento e cuja ancoragem temporal permanece pouco compreendida. Neste trabalho, estudamos o impacto da dinâmica de pré-treinamento na aquisição de conhecimento factual sensível ao tempo, com foco específico na ordenação dos dados. Nossas principais contribuições são duas. Primeiro, introduzimos um benchmark abrangente de mais de 7.000 perguntas ancoradas temporalmente e um protocolo de avaliação que permite analisar se os modelos associam corretamente os fatos aos seus períodos de tempo correspondentes. Segundo, pré-treinamos modelos de 6 bilhões de parâmetros em instantâneos temporalmente ordenados do Common Crawl e os comparamos com o pré-treinamento embaralhado padrão. Nossos resultados mostram que modelos treinados sequencialmente equivalem às baselines embaralhadas em compreensão geral da linguagem e conhecimento comum, ao mesmo tempo que exibem consistentemente um conhecimento mais atualizado e temporalmente preciso. O pré-treinamento temporalmente ordenado resulta em frescor factual aprimorado, enquanto o pré-treinamento embaralhado atinge pico em dados mais antigos, possivelmente devido ao aumento da repetição factual. Essas descobertas, juntamente com a disponibilização de nosso código em https://github.com/kyutai-labs/kairos , checkpoints e conjuntos de dados em https://huggingface.co/collections/kyutai/kairos , fornecem uma base para pesquisas futuras sobre aprendizado contínuo para LLMs.
Modelos de linguagem de grande escala podem detectar e relatar seus próprios estados internos? Diversos estudos argumentam que a resposta a esta pergunta é sim. Nós argumentamos, com base em lições da pesquisa em metacognição humana, que essa conclusão pode ser prematura: para nos convencermos dessa conclusão, precisamos distinguir introspecção genuína de correspondência de padrões baseada em pistas superficiais. Além disso, argumentamos que apenas evidências comportamentais são inerentemente insuficientes para estabelecer afirmações introspectivas robustas. Reexaminamos dois paradigmas de avaliação recentemente introduzidos à luz dessa consideração. No primeiro paradigma, espera-se que os modelos detectem se seus estados internos foram adulterados. Descobrimos que os modelos não conseguem distinguir de forma confiável tais intervenções em seus estados internos de manipulações na entrada, sugerindo que seu sucesso nos estudos originais reflete sua capacidade de detectar anomalias de forma mais geral, em vez de intervenções em seus estados internos em particular. No segundo paradigma examinado, os modelos têm a tarefa de prever rótulos derivados de seus próprios estados ocultos. Aqui, descobrimos que classificadores que têm acesso apenas à entrada alcançam desempenho equivalente às próprias predições do modelo no contexto, indicando que os resultados originais não demonstram de forma conclusiva que o modelo tem acesso privilegiado às suas representações internas. Introduzimos ainda uma condição de controle re-rotulada, na qual os modelos não podem depender da semântica da tarefa para resolvê-la, tendo, em vez disso, que se basear na representação interna; os modelos têm desempenho próximo ao acaso nesta versão melhor controlada da tarefa. Em conjunto, esses resultados indicam que as evidências atuais são insuficientes para estabelecer que os LLMs exibem monitoramento metacognitivo.
Apresentamos o NSF-SciFy, um conjunto de dados abrangente de alegações científicas e propostas de investigação extraídas de resumos de premiações da National Science Foundation. Embora conjuntos de dados anteriores de verificação de alegações científicas tenham sido limitados em tamanho e escopo, o NSF-SciFy representa um avanço significativo com 2,8 milhões de alegações provenientes de 400.000 resumos abrangendo todas as disciplinas de ciências e matemática. Apresentamos dois subconjuntos focados: NSF-SciFy-MatSci com 114.000 alegações de premiações de ciência dos materiais, e NSF-SciFy-20K com 135.000 alegações em cinco diretorias da NSF. Utilizando prompting zero-shot, desenvolvemos uma abordagem escalável para extração conjunta de alegações científicas e propostas de investigação. Demonstramos a utilidade do conjunto de dados por meio de três tarefas downstream: geração de resumo não técnico, extração de alegações e extração de propostas de investigação. O ajuste fino de modelos de linguagem em nosso conjunto de dados produz melhorias substanciais, com ganhos relativos frequentemente superiores a 100%, particularmente para tarefas de extração de alegações e propostas. Nossa análise de erros revela que as alegações extraídas exibem alta precisão, mas menor revocação, sugerindo oportunidades para refinamento metodológico adicional. O NSF-SciFy possibilita novas direções de pesquisa em verificação de alegações em larga escala, rastreamento de descobertas científicas e análise metacientífica. O código e os dados estão disponíveis em https://github.com/darpa-scify/NSFSciFy.
Trabalhos anteriores estabelecem que a contrastividade controlada entre respostas autogeradas por modelos de linguagem de grande escala, definida por pontuações de recompensa, melhora o ajuste de preferências downstream em inglês. Estendemos este método para múltiplos idiomas e avaliamos dois modelos em um total de 14 línguas de alto e baixo recurso em um conjunto diversificado de tarefas. Nossa principal descoberta é que o ajuste contrastivo de preferências entre línguas em autogerações (CroCo) se transfere sem anotação de preferências específica do idioma. Um modelo de recompensa treinado em preferências em inglês (sobre uma base multilíngue) produz classificações intra-idioma úteis na maioria das línguas, e o pareamento, seja em ambiente monolíngue ou multilíngue, melhora ambos os modelos na maioria das configurações, prevenindo o esquecimento catastrófico do ajuste fino supervisionado. Observamos que os ganhos requerem dados on-policy. Respostas off-policy reduzem o benefício, e a otimização de preferências online não consegue superar a variante offline. Especificamente, em tarefas estruturadas, nosso método corresponde ou supera a base em 6/7 idiomas para o EuroLLM-9B e em 4/7 configurações para o Aya-3B. Na geração aberta, ambos os modelos ajustados vencem suas respectivas bases em 11 idiomas avaliados. No geral, mostramos direções promissoras para o ajuste de preferências multilíngue.
Políticas robóticas modernas dependem cada vez mais do agrupamento de ações (action chunking) para executar tarefas complexas no mundo físico. Embora o agrupamento de ações melhore a consistência temporal em frequências moderadas de ação, torna-se insuficiente quando a frequência de ação é ainda mais aumentada (por exemplo, para 60~Hz). Nessas altas frequências, as políticas frequentemente falham em gerar ações que sejam temporalmente suaves e espacialmente consistentes. Abordamos esse desafio deslocando o aprendizado de ações de alta frequência do espaço de ações para um espaço latente com um autoencoder variacional (VAE). Essa formulação melhora significativamente tanto a consistência temporal quanto a espacial do controle em alta frequência. Para permitir uma execução suave em tempo real, introduzimos ainda o Reuse-then-Refine, uma estratégia de refinamento em nível de segmento (chunk) que melhora a continuidade entre segmentos de ação adjacentes sob inferência assíncrona. Como resultado, robôs controlados por nossa política podem executar tarefas complexas com contato intenso de forma contínua, com menos pausas e movimentos bruscos. Experimentos em três tarefas robóticas reais com contato intenso mostram que nossa abordagem completa consistentemente as tarefas com movimentos suaves. Nosso código e dados estão disponíveis em https://github.com/tars-robotics/RTR.
Propomos o EverAnimate, um método eficiente de pós-treinamento para geração de vídeos animados de horizonte longo que preserva a qualidade visual e a identidade do personagem. A animação de longa duração continua desafiadora porque o movimento humano altamente dinâmico precisa ser sintetizado em ambientes relativamente estáticos, tornando a geração baseada em blocos propensa a deriva acumulada: (i) deriva de qualidade de baixo nível, como degradação progressiva de fundos estáticos, e (ii) deriva semântica de alto nível, como identidade inconsistente de personagens e atributos dependentes da visão. Para abordar esse problema, o EverAnimate restaura trajetórias de fluxo desviadas ao ancorar a geração em uma memória de contexto latente persistente, composta por dois mecanismos complementares. (i) A Propagação Latente Persistente mantém uma memória de contexto entre blocos para propagar identidade e movimento no espaço latente, mitigando o esquecimento temporal. (ii) O Casamento de Fluxo Restaurador introduz um objetivo de restauração implícito durante a amostragem por meio do ajuste de velocidade, melhorando a fidelidade intra-bloco. Com apenas um ajuste leve de LoRA, o EverAnimate supera os métodos de animação longa mais avançados tanto em cenários de horizonte curto quanto longo: em 10 segundos, melhora PSNR/SSIM em 8%/7% e reduz LPIPS/FID em 22%/11%; em 90 segundos, os ganhos aumentam para 15%/15% e 32%/27%, respectivamente.
Modelos de linguagem de grande porte para domínios verticais são limitados pela escassez de diálogos complexos e específicos de domínio orientados a tarefas. Os pipelines existentes de aquisição de dados enfrentam um trilema persistente: a anotação especializada é cara, as conversas reais de serviço são restritas por questões de privacidade e comerciais, e os corpora estáticos rapidamente se tornam temporalmente obsoletos. Propomos o Stream, uma estrutura centrada em dados que aproveita mídias de streaming publicamente disponíveis (transmissões ao vivo e vídeos curtos) para sintetizar diálogos de serviço de alto valor em escala. O Stream extrai sinais autênticos de interação de streams ruidosos e sintetiza conversas integrando a construção de persona baseada em papéis com a construção de Blueprint Conversacional; além disso, adota geração aumentada por recuperação (RAG) para suportar respostas com consciência de conhecimento. Com base no Stream, disponibilizamos o StreamDial, um conjunto de dados multidomínio de grande escala que abrange Automotivo, Restaurante e Hotel. O StreamDial contém 87.498 sessões de diálogo e 1.497.320 turnos no total, com uma média de 17,11 turnos por sessão e escala comparável entre domínios. Cada sessão é organizada como uma quádrupla estruturada ⟨P_u, P_a, B, H⟩ que combina o histórico de diálogo com personas explícitas de usuário/agente e um Blueprint Conversacional, capturando comportamentos realistas de serviço, como mineração de requisitos, conflitos de restrições, negociação e recuperação. Avaliações com juízes automáticos e tarefas subsequentes mostram que o StreamDial melhora a qualidade intrínseca do diálogo em relação a bases de referência robustas, e modelos treinados com StreamDial aprimoram o Rastreamento de Estado do Diálogo em diferentes arquiteturas; relatamos ainda um conjunto completo de avaliação humana e encorajadora transferência multilíngue no Qwen3-8B sob um orçamento de treinamento controlado. Os dados estão disponíveis em https://github.com/hitxueliang/DialogDataSetBySTREAM.