Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes de linguagem para interpretação de papéis (RPLAs) devem interpretar personagens cujos valores e comportamento evoluem conforme a história progride, e não manter uma persona fixa. Os benchmarks existentes medem a recordação factual em um determinado capítulo, e não se as respostas estão alinhadas com a trajetória psicológica do personagem, especialmente em cenários que o texto fonte nunca explora. Apresentamos o ArcANE (Arc-Aware Narrative Evaluation), um benchmark construído automaticamente que abrange 17 romances e 80 personagens principais. Um Arco de Personagem segmenta a narrativa em fases ao longo de um eixo psicológico, e cada sonda propõe o mesmo cenário através das fases, abrangendo tanto situações dentro do texto fonte quanto situações além dele. Em seis modelos e seis modos de contexto, o condicionamento no Arco de Personagem supera todas as outras estratégias de contexto em todos os modelos, e a diferença é maior em cenários fora do texto fonte, onde a recuperação não tem o que encontrar. Além disso, ajustamos modelos de peso aberto nos mesmos dados para obter o ArcANE-8B/32B, que ampliam ainda mais a vantagem do Arco em cenários fora do texto fonte.
Agentes são amplamente implantados como assistentes sobre documentos, ferramentas e código. No entanto, eles geralmente atuam apenas em solicitações explícitas dos usuários, que revelam apenas os problemas que o usuário notou, enquanto muitos outros problemas importantes coexistem, ocultos à vista de todos, no contexto mais amplo do usuário, com seu número total desconhecido de antemão. Enquadramos isso como a tarefa de descobrir múltiplos problemas ocultos a partir do contexto, na qual problemas coexistentes devem ser revelados, fundamentados em evidências de apoio e emparelhados com ações concretas. Para esse fim, apresentamos o TIDE, uma estrutura iterativa guiada por modelos com dois mecanismos complementares. Especificamente, motivados pela observação de que a previsão em passagem única se ancora nos casos mais salientes e produz alegações genéricas, propomos descoberta iterativa, que revela um pequeno lote de candidatos por rodada enquanto condiciona no que já foi encontrado, de modo que rodadas subsequentes ampliem a cobertura; e modelos de pensamento, esquemas reutilizáveis destilados de casos resolvidos anteriormente que especificam quais sinais contextuais atender e como conectá-los, ancorando cada previsão em uma classe de problema reconhecível. Validamos o TIDE em dois cenários realistas, espaços de trabalho pessoais e repositórios de software, em quatro arquiteturas de modelo base, mostrando ganhos substanciais sobre as linhas de base de agente único e multiagentes paralelos em cobertura, identificação e resolução de tarefas.
O planejamento de problemas do mundo real por modelos de linguagem frequentemente envolve tanto restrições do mundo quanto do usuário, que podem não ser totalmente especificadas de antemão e são progressivamente reveladas por meio da interação. No entanto, os benchmarks existentes ainda exploram de forma insuficiente o planejamento adaptativo sob tais restrições duplas reveladas progressivamente. Para preencher essa lacuna, apresentamos o AdaPlanBench, um benchmark interativo dinâmico para avaliar se agentes baseados em Modelos de Linguagem de Grande Escala (LLMs) conseguem planejar e replanejar de forma adaptativa sob restrições do mundo e do usuário reveladas progressivamente. O AdaPlanBench é construído sobre 307 tarefas domésticas, com um pipeline escalável de construção de restrições que aumenta cada tarefa com restrições duplas. Em tempo de execução, os agentes interagem com o ambiente em um protocolo de múltiplas rodadas, no qual restrições ocultas são reveladas apenas quando o agente propõe um plano que as viola, exigindo revisão iterativa do plano sob feedback acumulado. Isso torna o planejamento desafiador, pois os agentes devem inferir e rastrear restrições a partir do feedback enquanto replanejam de forma eficaz. Experimentos com dez LLMs líderes mostram que o planejamento adaptativo sob restrições duplas continua desafiador, com o melhor modelo atingindo apenas 67,75% de precisão. Observamos ainda que o desempenho se degrada à medida que mais restrições se acumulam, com as restrições do usuário representando um desafio particularmente grande e as falhas frequentemente decorrendo de fundamentação física mais fraca e eficácia reduzida. Esses resultados estabelecem o AdaPlanBench como um campo de teste para planejamento interativo com restrições duplas e destacam o desafio da adaptação confiável a restrições reveladas dinamicamente em agentes LLM.
Apresentamos o VideoKR, o primeiro corpus de treino em larga escala especificamente concebido para reforçar a compreensão de vídeos intensiva em conhecimento e raciocínio. Este corpus compreende 315 mil exemplos de raciocínio sobre vídeos, abrangendo 145 mil novos vídeos coletados, licenciados sob Creative Commons, de domínios especializados. Desenvolvemos um pipeline de geração de exemplos orientado por competências, com intervenção humana, que visa capacidades de raciocínio sobre vídeos progressivamente mais profundas, garantindo a dificuldade, diversidade e fiabilidade tanto dos exemplos como das suas justificações em Cadeia de Pensamento (CoT). Também organizamos o VideoKR-Eval, um novo benchmark anotado por especialistas, onde as perguntas exigem uma compreensão genuína do vídeo e um raciocínio intensivo em conhecimento, em vez de atalhos textuais. As nossas experiências mostram que, sob um pipeline padrão de SFT→GRPO, os modelos pós-treinados no VideoKR superam abordagens anteriores de pós-treino em raciocínio sobre vídeos intensivo em conhecimento, mantendo-se competitivos no raciocínio geral sobre vídeos, destacando a conceção dos dados como um fator chave para o progresso no raciocínio sobre vídeos. Realizamos ainda ablações abrangentes para isolar as contribuições do VideoKR, fornecendo ideias acionáveis para trabalhos futuros.
Trabalhos anteriores mostraram que modelos de linguagem de grande porte (LLMs) podem traduzir idiomas não vistos ou de baixos recursos por meio de treinamento contínuo ou até mesmo codificando um livro de gramática em seu contexto. No entanto, ambos os métodos geralmente superajustam idiomas específicos, com transferência zero-shot limitada no momento do teste. Para traduzir idiomas de recursos extremamente baixos em escala, argumentamos que os LLMs devem adquirir a meta-habilidade de utilizar conhecimento linguístico no contexto, em vez de memorizar idiomas específicos. Neste artigo, propomos uma abordagem de aprendizado por reforço (RL) para tradução de idiomas não vistos, dado um rico contexto linguístico, usando uma métrica de tradução superficial (chrF) como recompensa. Empiricamente, apesar da recompensa leve, nossos modelos treinados com RL extraem e aplicam efetivamente informações linguísticas relevantes do contexto fornecido, resultando em melhores traduções em idiomas completamente não vistos do que o aprendizado no contexto ou o ajuste fino supervisionado. Nossas análises sugerem que o RL baseado em resultados pode se estender além de tarefas de raciocínio convencionais, como matemática e programação, servindo como uma receita para o aprendizado de idiomas a partir do contexto.
Embora os robôs domésticos sejam frequentemente avaliados com base na conclusão de tarefas, os ambientes domésticos cotidianos envolvem situações de conflito de valores nas quais se espera que os robôs escolham ações que priorizem outros valores além do sucesso da tarefa, como autonomia humana, eficiência ou adequação social. No entanto, não existem benchmarks para avaliar as preferências de valores dos robôs nesses cenários. Apresentamos o RobotValues, um benchmark para avaliar planejadores de robôs domésticos em 10 mil cenários de conflito de valores. Cada instância consiste em uma imagem doméstica realista com múltiplas ações plausíveis do robô que priorizam diferentes valores humanos. Construímos o RobotValues por meio de geração de cenários assistida por LLM, extração de valores fundamentada em partes interessadas, geração de imagens e controle de qualidade automático. Usando o RobotValues, avaliamos VLMs utilizados em robótica e descobrimos que os modelos exibem preferências de valor padrão, incluindo segurança e acomodação, enquanto subselecionam ações que priorizam a privacidade. Quando os modelos são instruídos a priorizar valores específicos que entram em conflito com suas próprias preferências, eles frequentemente falham em substituir suas ações padrão, escolhendo ações incorretas em 80% das vezes. Esses achados sugerem que a avaliação de robôs domésticos deve medir não apenas a conclusão de tarefas ou a conformidade com a segurança, mas também se os robôs podem escolher entre ações plausíveis quando os valores humanos entram em conflito.
Estudamos o cenário de responder a perguntas visuais a partir do rolo da câmera pessoal. Nesse cenário, um assistente de IA conversacional pode acessar o rolo da câmera pessoal de um usuário e recuperar fotos relevantes para responder perguntas, que variam desde questões factuais simples (por exemplo, "Nome da comida que experimentei ontem?") até questões mais abertas (por exemplo, "Recomende alguns pratos que nunca comi antes"). Dada a natureza vasta do rolo da câmera pessoal (ou seja, vários anos, centenas a milhares de fotos), um assistente de IA bem-sucedido precisa compreender um fluxo de conteúdo visual de longo horizonte e altamente personalizado para navegar e localizar a informação correta e/ou relevante. Para apoiar isso, coletamos e anotamos manualmente perguntas que imitam o uso real. O conjunto de dados final, camroll, contém 50 usuários, 31.476 imagens e 2.500 pares de perguntas e respostas. Além disso, projetamos o camroll-agent, um agente de IA conversacional equipado com memória hierárquica e um conjunto mínimo de ferramentas para navegação eficiente sobre grandes memórias visuais personalizadas. Os resultados experimentais mostram que o camroll-agent supera inúmeras linhas de base e métodos para sistemas de agentes de IA de compreensão de contexto longo. Em conjunto, o conjunto de dados camroll e o camroll-agent destacam a lacuna no raciocínio de contexto longo dos agentes de IA: a memória visual personalizada requer abordagens diferentes da memória textual de contexto longo padrão, especialmente quando há consistência, detalhes visuais e contexto específico do usuário.
Desenvolver modelos unificados de geração e edição de vídeos capazes de interpretar entradas multimodais intercaladas é uma fronteira promissora, porém desafiadora. As estruturas unificadas existentes baseiam-se predominantemente em modelos massivos (tipicamente com 13 bilhões de parâmetros ou mais) e incorporam condições de vídeo de origem para edição por meio da concatenação de tokens de sequência. Essa concatenação inevitavelmente duplica o comprimento da sequência, quadruplicando a complexidade computacional do mecanismo de autoatenção e introduzindo custos proibitivos. Para solucionar esses gargalos, apresentamos o LoomVideo, uma arquitetura unificada altamente eficiente com 5 bilhões de parâmetros, tanto para geração quanto para edição de vídeos. O LoomVideo substitui o codificador de texto padrão por um Modelo de Linguagem Multimodal de Grande Escala (MLLM) e emprega o mecanismo de injeção Deepstack para alinhar características do MLLM em múltiplas camadas com o Transformer de Difusão (DiT). Crucialmente, introduzimos uma abordagem de condicionamento Scale-and-Add com custo zero para edição de vídeo. Ao escalar e adicionar diretamente o latente do vídeo de origem limpo ao latente alvo ruidoso, esse design elegante elimina a necessidade de concatenação de tokens, reduzindo drasticamente o custo computacional enquanto mantém capacidades robustas para edições complexas e não rígidas. Além disso, uma estratégia de RoPE Temporal Negativo é integrada de forma contínua para lidar com múltiplas imagens de referência. Experimentos extensivos demonstram que nosso modelo compacto de 5 bilhões de parâmetros alcança desempenho estado-da-arte ou altamente competitivo em benchmarks abrangentes, exibindo superioridade excepcional em cenários de geração para comércio eletrônico e moda. Beneficiando-se do mecanismo de condicionamento com custo zero, o LoomVideo atinge uma aceleração de pelo menos 5,41x na velocidade de inferência em comparação com modelos de capacidades similares, abrindo caminho para modelos fundacionais de vídeo altamente práticos e eficientes.
Os modelos generativos de tempo contínuo padrão dependem de arquiteturas monolíticas que precisam navegar por regimes de sinal drasticamente diferentes, desde ruído isotrópico até distribuições de dados complexas. Embora o aumento da capacidade do modelo melhore o desempenho, implantar uma rede massiva de forma uniforme em toda a linha temporal generativa é inerentemente ineficiente. Neste trabalho, propomos a Divisão Balanceada por Complexidade (CBS, do inglês *Complexity-Balanced Splitting*), uma abordagem fundamentada para alocação temporal de capacidade que distribui a carga de trabalho generativa entre múltiplas sub-redes especializadas. Fundamentada na teoria de aproximação de funções e no princípio de equidistribuição de de Boor, a CBS particiona a linha temporal de difusão em segmentos de igual esforço de aproximação, alocando mais capacidade representacional para regiões onde a dinâmica generativa é mais difícil de modelar. Para estimar essa complexidade local, introduzimos duas funções de monitoramento complementares e tratáveis: uma medida espacial baseada na energia de Dirichlet do fluxo, e uma medida geométrica baseada na aceleração das trajetórias de amostragem. Utilizando um modelo auxiliar leve para estimar esses perfis de complexidade, nossa abordagem elimina a necessidade de divisões temporais heurísticas ou procedimentos de busca computacionalmente caros. Uma avaliação extensa em múltiplas arquiteturas (SiT, JiT e UNet) e conjuntos de dados demonstra que a CBS melhora consistentemente a qualidade da síntese sem aumentar o custo de inferência por etapa. Em particular, a CBS melhora o FID em aproximadamente 35% no SiT-XL com CFG em comparação com a partição temporal ingênua. A página do projeto está disponível em https://noamissachar.github.io/CBS/.
A internalização da experiência converte a experiência contextual de interações passadas em capacidade paramétrica reutilizável, oferecendo um caminho promissor para a aprendizagem contínua em modelos de linguagem de grande escala (LLMs). Embora trabalhos anteriores tenham se concentrado predominantemente na transferência de iteração única, descobrimos que, sob aprendizagem de experiência multi-iteração, os métodos existentes sofrem de um colapso progressivo de capacidade, em vez de uma melhoria composta. Examinamos sistematicamente essa falha por meio de três dimensões vitais da internalização da experiência: (1) Granularidade da Experiência: Constatamos que a experiência em nível de princípio é mais durável do que a experiência em nível de instância, pois abstrai efetivamente estratégias transferíveis dos detalhes específicos da trajetória. (2) Padrão de Injeção de Experiência: Nossa análise revela que a injeção passo a passo supera significativamente a injeção global ao alinhar a experiência com estados de decisão intermediários, propriedade crucial para o uso de ferramentas de horizonte longo. (3) Regime de Internalização: Demonstramos que a destilação de contexto off-policy em trajetórias de professor de alta qualidade fornece um sinal de treinamento substancialmente mais estável do que a destilação de contexto on-policy, que é inerentemente limitada por correções locais em estados defeituosos induzidos pelo aluno. Em conjunto, esses insights produzem uma receita simples, porém robusta, para a internalização estável e sustentável da experiência, fornecendo orientação concreta para a engenharia de LLMs autoevolutivos e com aprendizagem contínua.
Os conjuntos de dados existentes para condução autônoma possibilitaram avanços significativos, mas são insuficientes em termos de fidelidade dos sensores, completude dos mapas ou diversidade geográfica. Apresentamos o KITScenes Multimodal, um conjunto de dados europeu construído com sensores e mapas de alta fidelidade. Nosso conjunto de sensores totalmente sincronizado combina câmeras de alto alcance dinâmico com obturador global, lidar de longo alcance superior a 400m, radar de imagem 4D e localização GNSS/INS redundante. Nossos mapas HD são, até onde sabemos, os mais completos de qualquer conjunto de dados de sensores, validados por meio de testes de condução autônoma em software de código aberto. Pela primeira vez em um conjunto de dados público, todos os elementos de tráfego relevantes para a condução, como semáforos, são mapeados em 3D com um nível de precisão de reprojeção e conectividade topológica total. Gravado em cidades com layouts viários irregulares e modos de tráfego mistos, nosso conjunto de dados complementa os existentes ao ampliar a diversidade geográfica disponível. Também introduzimos quatro benchmarks, cada um avançando o aprendizado espacial para IA incorporada: construção de mapas HD online, estimativa de profundidade de longo alcance, síntese de novas vistas e condução de ponta a ponta. Página do projeto: https://kitscenes.com/
Modelos de geração de vídeo têm avançado de forma impressionante na síntese de conteúdo visualmente atraente, no entanto, seus resultados permanecem confinados ao domínio virtual. Surge então uma questão natural: quão bem esses modelos refletem o mundo físico quando seus vídeos gerados deixam a tela e entram na realidade? Propomos a manipulação robótica como uma janela concreta e mensurável para essa questão: se um modelo realmente internalizou leis físicas, o movimento que ele retrata deve se traduzir em comportamento robótico executável. Apresentamos o Dream.exe, uma estrutura de avaliação que operacionaliza esse critério por meio de um pipeline de vídeo-para-execução. Dada uma imagem de cena e uma descrição de tarefa, o Dream.exe sintetiza um vídeo de manipação, converte o movimento gerado em trajetórias robóticas e as executa em um simulador físico, produzindo um sinal de ancoragem que métricas puramente visuais não podem oferecer. Usando esse pipeline, avaliamos 8 modelos que abrangem geradores de código fechado de ponta, geradores de código aberto e modelos específicos para robótica. Nosso benchmark cobre 101 tarefas de manipulação curadas manualmente em três níveis de complexidade física, medidas em termos de qualidade visual, fidelidade de trajetória e sucesso de execução. De forma encorajadora, vários modelos alcançam sucesso de execução mensurável, sugerindo que os priores generativos aprendidos a partir de dados em escala da internet já codificam conhecimento físico significativo. No entanto, a qualidade visual se mostra um preditor fraco de executabilidade, expondo uma dimensão da capacidade dos modelos que as avaliações visuais padrão não capturam. O Dream.exe será disponibilizado como código aberto em https://github.com/showlab/Dream.exe.
O aumento de habilidades no momento da inferência oferece uma maneira leve de melhorar agentes de análise de dados ao injetar conhecimento processual reutilizável sem atualizar os parâmetros do modelo. No entanto, descobrir habilidades eficazes para análise de dados continua sendo um desafio, pois a supervisão confiável é cara e os critérios de sucesso variam entre os formatos analíticos. Isso levanta a questão fundamental de como descobrir habilidades de análise de dados reutilizáveis a partir apenas de exploração não rotulada. Propomos o DataCOPE, uma estrutura de descoberta de habilidades não supervisionada guiada por verificador para agentes de análise de dados. O DataCOPE deriva sinais do verificador a partir das trajetórias de exploração e os utiliza para caracterizar a qualidade relativa ou a concordância entre as trajetórias. Ele coordena iterativamente um Agente de Análise de Dados para geração de trajetórias, um Verificador Não Supervisionado para extração de sinais e um Gerenciador de Habilidades para destilação contrastiva de habilidades. Para a análise no formato de relatório, instanciamos o verificador como um Verificador de Lista de Verificação Adaptativa que deriva critérios específicos da tarefa, pontua relatórios por cobertura verificável e refina iterativamente a lista de verificação. Para a análise no formato de raciocínio, instanciamos como um Verificador de Concordância de Respostas que agrupa trajetórias por concordância de respostas e usa a autoconsistência como sinal auxiliar. Avaliamos o DataCOPE em análise no formato de relatório a partir do Deep Data Research e em análise no formato de raciocínio a partir do DABStep. Em ambos os contextos, o DataCOPE melhora consistentemente o desempenho em dados não vistos em relação às linhas de base. Em média, considerando quatro configurações de modelo, o DataCOPE melhora a pontuação média em 9,71% e 32,30% nas tarefas de formato de relatório e raciocínio, respectivamente.
Grandes modelos de linguagem podem reproduzir dados de treinamento, mas as avaliações existentes de memorização medem principalmente se é possível forçá-los a fazê-lo, em vez de se eles realmente o fazem sob uso comum. Apresentamos o PropMe, uma estrutura baseada em propensão para avaliação de memorização que contrasta ataques de capacidade baseados em prefixo com avaliações não adversariais. Propomos uma transformação de métrica que, aplicada a funções existentes, permite criar métricas de propensão. Além disso, introduzimos o SimpleTrace, um pipeline de rastreamento leve construído sobre o infini-gram que atribui deterministicamente gerações de modelos a corpora de treinamento em grande escala e calcula métricas de memorização textual, quase textual e transformadas por propensão. Avaliando dois modelos totalmente abertos, Comma e DFM Decoder, em dois conjuntos de dados, Common Pile e Dynaword, em dois idiomas, encontramos uma lacuna consistente entre capacidade e propensão: ataques de prefixo elicitam sinais de memorização substancialmente mais fortes do que prompts genéricos ou específicos do conjunto de dados, enquanto os escores de propensão permanecem baixos de forma geral. Assim, os modelos podem revelar dados de treinamento quando diretamente solicitados, mas raramente o fazem em configurações não adversariais mais comuns. Também descobrimos que o DFM Decoder, que é pré-treinado continuamente a partir do Comma, exibe memorização reduzida e propensão de memorização para o Common Pile, confirmando que a capacidade de memorização pode diminuir quando o treinamento posterior enfatiza dados parcialmente diferentes. Nossos resultados sugerem, e incentivamos, que auditorias de memorização devem relatar tanto a extraibilidade no pior caso quanto a propensão de vazamento comum, a fim de se ter uma visão mais abrangente desse fenômeno.
Destilação on-policy (OPD) supervisiona o estudante apenas no espaço de saída, igualando probabilidades do próximo token. Esse paradigma exclusivo de saída apresenta dois limites: (1) a variância de amostragem decorrente de estimativas KL de Monte Carlo sobre vocabulários grandes (por exemplo, os ~150 mil tokens do Qwen) persiste ao longo do treinamento, e (2) trata o professor como uma caixa-preta, descartando todos os estados ocultos intermediários após a cabeça do LM. Propomos a Destilação de Representações On-Policy (OPRD), que eleva a destilação ao espaço de estados ocultos, alinhando representações do estudante e do professor em camadas selecionadas durante os mesmos rollouts, ignorando completamente a cabeça do LM. Teoricamente, a OPRD elimina a variância de amostragem e fornece informações estruturais mais ricas por camada. Empiricamente, a OPRD reduz a lacuna estudante-professor no AIME 2024/2025 e no AIMO, enquanto as linhas de base de OPD no espaço de saída estagnam abaixo do professor. A OPRD também treina 1,44x mais rápido e usa 54% menos memória que a OPD top-k. Código: https://github.com/ShenzhiYang2000/OPRD.
A seleção é uma operação central na edição interativa de imagens. Para ser prática, a usuária deve conseguir especificar e desambiguar a região de seleção desejada por meio de interações baseadas em texto ou cliques, e o sistema deve permitir selecionar não apenas objetos, mas também outros critérios, como materiais. A seleção baseada em materiais é valiosa para tarefas como retexturizar superfícies ou editar instâncias de um material específico. No entanto, os métodos existentes de seleção baseados em modelos de visão-linguagem (VLMs) são centrados em objetos e geralmente suportam uma única modalidade de interação, limitando sua aplicabilidade. Neste trabalho, apresentamos o MAOAM (Mask Any Object And Material), uma estrutura de seleção unificada que possibilita a seleção precisa de objetos e materiais por meio de interações baseadas em texto e cliques. O MAOAM utiliza um VLM com uma cabeça de segmentação para produzir máscaras precisas em nível de pixel a partir das instruções da usuária: o VLM interpreta a intenção de seleção (nível de objeto ou material) e codifica entidades visuais, atributos e relações espaciais, enquanto a cabeça de segmentação decodifica o token de saída em uma máscara. Um desafio fundamental é a falta de conjuntos de dados de seleção de materiais com anotações textuais. Propomos um pipeline escalável de geração de dados: coletamos imagens reais e sintéticas com máscaras de materiais e utilizamos VLMs para gerar descrições de materiais com rica semântica visual. Treinamos o MAOAM com um objetivo multitarefa para seleção baseada em cliques e texto, juntamente com uma tarefa auxiliar de VQA derivada das descrições de materiais para facilitar uma compreensão mais profunda dos materiais. Apesar de treinado com instruções unimodais, nosso modelo apresenta uma melhoria emergente na seleção ao combinar texto e cliques na inferência, possibilitando fluxos de trabalho flexíveis de edição de imagens. Experimentos demonstram seleções precisas e coerentes em diversos objetos, materiais e cenários de interação, evidenciando robustez na prática.
O escalonamento em tempo de inferência emergiu como uma via crítica para melhorar o desempenho de Modelos de Linguagem de Grande Escala, porém sua implantação no mundo real é limitada por orçamentos computacionais estritos. Neste trabalho, formulamos a alocação de orçamento de inferência como um problema global de otimização restrita, regido por princípios econômicos. Ao modelar a utilidade de raciocínio por consulta com uma função de surto deslocado, derivamos uma política de alocação ótima baseada em um preço sombra global que equilibra a utilidade marginal sob escassez de recursos. Com base nessa teoria, propomos o método CLEAR (Constrained Latent-utility Equilibrium Allocation for Reasoning — Alocação de Equilíbrio de Utilidade Latente com Restrições para Raciocínio). Ele realiza abandono racional e realoca recursos de consultas insolventes para consultas solucionáveis próximas de seus limiares de emergência. Experimentos extensivos em diversas tarefas de raciocínio com diferentes fluxos de tráfego demonstram que o CLEAR melhora significativamente a fronteira de Pareto entre o custo total de tokens e a acurácia média. Em regimes de escassez de recursos, o CLEAR alcança uma melhoria de até 3x na acurácia global em comparação com a alocação uniforme.
A previsão de eventos em vídeo (VEP) exige que modelos infiram estados futuros não observados a partir de evidências parciais de vídeo. Os MLLMs de vídeo existentes geralmente verbalizam o raciocínio intermediário sobre o futuro no espaço textual: uma vez que as evidências visuais são verbalizadas, pistas sutis de movimento, geometria e interação podem ser perdidas, levando a alucinações plausíveis, mas sem fundamentação visual. Apresentamos o Future-L1, uma estrutura intercalada de raciocínio visual latente que permite que um MLLM alterne entre tokens de linguagem e spans visuais latentes contínuos durante a decodificação autorregressiva. Para treinar essa capacidade, construímos o Future-L1-50K selecionando exemplos onde pistas visuais futuras ajudam na previsão e alinham estados latentes a embeddings de quadros futuros, em seguida otimizamos trajetórias latentes amostradas com LA-DAPO, um objetivo de RL consciente de latentes com recompensas de contraste de resultado e diversidade temporal. O Future-L1 alcança novos resultados de estado da arte em ambos os benchmarks: no FutureBench, melhora o Qwen3-VL-8B de 61,0 para 85,4 e supera o melhor anterior, Video-CoE, em 10,4 pontos; no TwiFF-Bench, melhora a pontuação média de 2,44 para 3,04. Esses resultados sugerem que o raciocínio de vídeo orientado para o futuro se beneficia da preservação de semânticas visuais intermediárias no espaço latente, em vez de traduzir cada etapa de raciocínio em texto.
Propomos modelos mundo-linguagem-ação (WLA) como uma nova classe de modelos fundamentais corporificados. O WLA recebe instruções textuais, imagens e estados do robô como entradas para prever conjuntamente subtarefas textuais, imagens de submetas e ações do robô, unindo a interface de modelagem do mundo para aprender a partir de vídeos egocêntricos extensos, como no modelo mundo-ação (WAM), e as capacidades de raciocínio linguístico para resolver tarefas complexas de longo horizonte, como nos modelos visão-linguagem-ação (VLA). No núcleo do WLA está um backbone Transformer autoregressivo (AR), em vez de um Transformer de difusão bidirecional como nos WAMs, para prever o próximo estado, compreendendo a intenção textual em nível semântico e a dinâmica física complementar em granularidade fina. A dinâmica física é supervisionada pelo objetivo de modelagem do mundo baseado em um Expert Mundial dedicado, e é utilizada para facilitar a caracterização da correlação estado-ação para o Expert de Ação. O WLA utiliza meta-consultas para fazer com que a previsão do mundo impacte implicitamente a geração de ações, de modo que a primeira possa ser desabilitada durante a inferência. A previsão do mundo também pode ser ativada para permitir escalonamento em tempo de teste para melhor controle do robô. Nosso protótipo WLA-0, com 2B parâmetros ativos, alcança 40 ms por inferência em uma NVIDIA RTX 5090. Avaliações em ambientes simulados e do mundo real demonstram que o WLA-0 alcança capacidades de aprendizado multitarefa e de longo horizonte de ponta, por exemplo, 92,94% de taxa de sucesso no RoboTwin2.0 Clean e 56,5% de taxa de sucesso no RMBench. O WLA-0 também promete aprender novas tarefas diretamente a partir de vídeos de robôs com diferentes corporificações, sem anotações de ação.
Agentes LLM aumentados por memória lidam com tarefas complexas de horizonte longo ao resumir recursivamente trajetórias de interação em memória compacta. No entanto, as abordagens existentes tipicamente treinam essas políticas de memória usando aprendizagem por reforço baseada em resultados, falhando em localizar onde a qualidade da memória intermediária se degrada. À medida que as interações se desenrolam, resumos recursivos ambíguos descartam progressivamente informações relevantes para a tarefa e introduzem ruído semântico. Isso exacerba o desvio da crença, obscurecendo a estimativa do agente sobre o estado latente da tarefa e, em última análise, desviando o raciocínio de horizonte longo. Portanto, argumentamos que a otimização da memória deve focar não apenas no sucesso em nível de trajetória, mas na clareza da crença induzida pelos resumos intermediários. Para esse fim, introduzimos a Entropia da Crença, um proxy auto-supervisionado que investiga quão incerto o modelo permanece sobre o estado latente da tarefa dada sua memória atual. Com base nesse proxy, propomos a Otimização de Política de Memória Metacognitiva (MMPO). Em vez de depender apenas de sinais esparsos baseados em resultados, o MMPO fornece supervisão refinada e específica de memória, penalizando explicitamente resumos que induzem alta incerteza epistêmica. Experimentos mostram que o MMPO supera consistentemente os métodos existentes em diversas tarefas de horizonte longo, mantendo 97,1% do desempenho mesmo quando escalado para contextos de 1,75 milhão de tokens.
Ancoragem Temporal (Temporal Grounding, TG) tem como objetivo localizar segmentos de vídeo correspondentes a uma consulta textual. Pesquisas anteriores focam predominantemente na recuperação de segmento único. Cenários do mundo real, no entanto, frequentemente exigem a localização de múltiplos segmentos disjuntos para uma única consulta — um cenário que denominamos Ancoragem Temporal Um-para-Muitos (One-to-Many Temporal Grounding, OMTG). Modelos de linguagem multimodais (MLLMs) de última geração, otimizados para configurações um-para-um, encontram dificuldades nesse contexto, frequentemente obtendo pontuações próximas de zero devido à falta de percepção da cardinalidade de eventos. Para preencher essa lacuna, apresentamos uma solução sistemática com três contribuições principais. Primeiro, estabelecemos o primeiro benchmark abrangente de OMTG, introduzindo a Precisão de Contagem (Count Accuracy, C-Acc) e o F1 Temporal Efetivo (Effective Temporal F1, EtF1) como métricas de avaliação. Segundo, realizamos a curadoria de um conjunto de dados de OMTG de alta qualidade, composto por 56 mil amostras, por meio de um pipeline de construção sofisticado. Terceiro, desenvolvemos funções de recompensa temporal e de legenda inovadoras, especificamente projetadas para OMTG. Em particular, a recompensa de legenda utiliza raciocínio em Cadeia de Pensamento (Chain-of-Thought) sobre legendas densas de vídeo para guiar explicitamente a otimização da política tanto em direção à precisão quanto à completude. Experimentos extensivos mostram que nosso modelo atinge um novo EtF1 de última geração de 43,65% no OMTG Bench, superando o Gemini 2.5 Pro e o Seed-1.8 em 15,85% e 15,61%, respectivamente.
Agentes de grandes modelos de linguagem (LLM) são cada vez mais aplicados a tarefas de horizonte longo, como descoberta científica e engenharia de aprendizado de máquina (MLE), onde a auto-evolução sustentada se torna uma capacidade-chave. No entanto, os agentes MLE existentes sofrem de isolamento de informações entre ramos, busca sem memória e falta de controle hierárquico, que juntos dificultam a otimização de horizonte longo. Apresentamos o MLEvolve, um framework multiagente auto-evolutivo baseado em LLM para descoberta de algoritmos de aprendizado de máquina ponta a ponta. Ao estender a busca em árvore para o Progressive MCGS, o MLEvolve permite o fluxo de informações entre ramos por meio de arestas de referência baseadas em grafo e gradualmente desloca a busca de exploração ampla para exploração focada com um agendamento progressivo inspirado em entropia. Para permitir que o agente evolua com experiência acumulada, introduzimos a Memória Retrospectiva, que combina uma base de conhecimento de domínio de inicialização a frio com uma memória global dinâmica para recuperação e reutilização de experiência específica da tarefa. Para iteração estável de horizonte longo, desacoplamos ainda o planejamento estratégico da geração de código com modos de codificação adaptativos. A avaliação no MLE-Bench mostra que o MLEvolve alcança desempenho de ponta em múltiplas dimensões, incluindo taxa média de medalhas e taxa de submissões válidas dentro de um orçamento de 12 horas (metade do tempo de execução padrão). Além disso, o MLEvolve também supera métodos especializados de descoberta de algoritmos, incluindo AlphaEvolve, em tarefas de otimização de algoritmos matemáticos, demonstrando forte generalização entre domínios. Nosso código está disponível em https://github.com/InternScience/MLEvolve.
O vídeo é temporalmente redundante: quadros adjacentes geralmente compartilham a maioria dos objetos, fundo e disposição. No entanto, os modelos multimodais de linguagem de grande escala para vídeo existentes (video MLLMs) geralmente codificam cada quadro amostrado como uma imagem RGB independente, fazendo com que tokens visuais repitam conteúdo já presente em quadros anteriores. Isso sugere uma interface de vídeo mais direta: enviar um quadro de referência completo apenas quando a cena não pode ser prevista com precisão a partir do contexto anterior e, caso contrário, transmitir uma descrição compacta das mudanças entre quadros. Chamamos essa interface de código visual preditivo e a instanciamos para video MLLMs como AdaCodec. O AdaCodec gasta tokens visuais completos em um quadro de referência apenas quando seu custo preditivo condicional é alto; caso contrário, codifica mudanças entre quadros, incluindo movimento e resíduos de predição, como tokens P compactos. Em todos os onze benchmarks, o AdaCodec supera a linha de base RGB por quadro do Qwen3-VL-8B com um orçamento de tokens visuais equivalente. Mesmo com 1/7 do orçamento, o AdaCodec com 32k tokens supera a linha de base de 224k em todos os benchmarks de vídeo longo; em cinco benchmarks de vídeo geral, ele aumenta a pontuação média enquanto reduz substancialmente o tempo até o primeiro token de 9,26s para 1,62s.
A otimização de prompts do sistema melhora o comportamento do agente sem modificar o modelo subjacente, gerando instruções legíveis por humanos e independentes de modelo. Métodos existentes constroem um agente de prompt que refina os prompts do sistema dos agentes de tarefa, mas deixam o próprio prompt do sistema do agente de prompt projetado manualmente e fixo. Propomos a Otimização de Prompts Auto-Evolutiva (SePO), que trata o prompt do sistema do próprio agente de prompt como um alvo de otimização, juntamente com os prompts do sistema dos agentes de tarefa. O SePO adota um design autorreferencial. Um único agente de prompt melhora tanto os prompts do sistema dos agentes de tarefa quanto o seu próprio, sob uma busca evolutiva aberta que mantém um arquivo de prompts candidatos como trampolins. O treinamento ocorre em dois estágios: o pré-treinamento evolui o agente de prompt em um conjunto multi-tarefa, e o ajuste fino então o aplica a uma tarefa alvo. Em cinco referenciais abrangendo matemática (AIME'25), raciocínio abstrato (ARC-AGI-1), ciência de nível de pós-graduação (GPQA), geração de código (MBPP) e quebra-cabeças lógicos (Sudoku), o SePO supera consistentemente o Manual-CoT, o TextGrad e o MetaSPO, melhorando a precisão média em 4,49 pontos em comparação com o Manual-CoT. A habilidade de otimização de prompts do pré-treinamento também generaliza para tarefas além da mistura de pré-treinamento, em vez de memorizar prompts por tarefa.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) destacam-se na compreensão semântica 2D, mas carecem de percepção tridimensional intrínseca, resultando em representações que não mantêm consistência geométrica e espacial entre quadros de vídeo. Diante da escassez de dados 3D em larga escala, apresentamos o GeoVR, uma nova estrutura que aprende representações geométricas usando apenas sequências de vídeo 2D. Essa abordagem reestrutura efetivamente o espaço latente semântico dentro dos MLLMs para desbloquear inteligência espacial. Em vez de empregar mistura superficial de características, o GeoVR remodela as representações internas do MLLM ao destilar conhecimento geométrico de modelos de base 3D pré-treinados. Isso é realizado por meio de uma estratégia de aprendizado multiobjetivo orientada por quatro metas geométricas complementares: (1) estimar poses de câmera entre quadros para incorporar dinâmicas de ponto de vista variáveis, (2) regredir mapas de profundidade densos para ancorar distâncias físicas, (3) prever um fator de escala métrica para calibração no mundo real e (4) destilar características 3D multiescala para alinhar o espaço de características intermediário. Guiadas por essas restrições físicas e geométricas explícitas, as representações internas do modelo desenvolvem naturalmente uma forte percepção 3D. Experimentos extensivos em benchmarks de raciocínio espacial demonstram que o GeoVR alcança desempenho de ponta, estabelecendo um novo paradigma para dotar modelos de base de inteligência espacial.
O Reconhecimento Automático de Fala (ASR) tornou-se uma tecnologia fundamental para a interação humano-IA. No entanto, o ASR com alternância de código (CS-ASR) continua particularmente desafiador devido à severa escassez de recursos de fala multilíngues com alternância de código entre diversos pares de idiomas. As abordagens existentes melhoram principalmente o desempenho do CS-ASR por meio da geração sintética de fala com alternância de código ou do ajuste fino específico para pares de idiomas em conjuntos de dados bilíngues limitados. No entanto, essas abordagens enfrentam uma limitação inerente de escalabilidade, pois o suporte para alternância de código deve ser desenvolvido separadamente para pares de idiomas, cujo número cresce de forma combinatória com a quantidade de idiomas suportados. Neste trabalho, investigamos se as capacidades de alternância de código aprendidas a partir de um conjunto limitado de pares de idiomas observados podem ser generalizadas para pares de idiomas não observados por meio de métodos de fusão de modelos e generalização de domínio. Nossos experimentos mostram que modelos bilíngues de CS-ASR fundidos generalizam-se modestamente para pares de idiomas não observados, sugerindo uma transferência limitada de capacidades bilíngues de alternância de código entre pares de idiomas.
Modelos Visão-Linguagem-Ação (VLA) aproveitam o rico conhecimento de mundo de modelos de visão-linguagem pré-treinados (VLMs) para possibilitar a manipulação robótica com instruções. No entanto, o desalinhamento estrutural entre os espaços semânticos dos VLMs e as políticas de controle incorporado frequentemente dificulta o aprendizado de mapeamentos precisos entre percepção e ação. Para enfrentar esse desafio, propomos o AffordanceVLA, uma estrutura unificada que introduz a previsão estruturada de affordances como uma representação intermediária orientada a tarefas, estabelecendo um mapeamento percepção-ação mais preciso e robusto. Especificamente, modelamos progressivamente os priores de manipulação por meio de três componentes complementares: 1) Which2Act, para ancoragem centrada no objeto por meio da predição latente visual, a fim de suprimir distrações; 2) Where2Act, para localização de interação 2D via estimativa do mapa de affordances; e 3) How2Act, para raciocínio geométrico 3D que orienta as políticas de manipulação. Essas dicas de affordances fornecem representações intermediárias espacialmente fundamentadas, semanticamente condicionadas e acopladas à ação, conectando de forma natural visão, linguagem e ação. Integramos esses módulos em uma arquitetura Mixture-of-Transformer (MoT) com especialistas dedicados e treinamos o modelo usando uma estratégia de treinamento em três estágios com um currículo progressivo de dados. Para superar a escassez de rótulos densos de affordances em conjuntos de dados robóticos, também desenvolvemos um pipeline robusto e automatizado de aumento de dados. Experimentos extensivos em simulação e no mundo real demonstram que o AffordanceVLA alcança desempenho sólido em diversos cenários de manipulação.
Modelos de mundo-ação (WAMs) geram conjuntamente vídeo futuro e ações de robôs por meio de difusão iterativa, alcançando desempenho robusto em benchmarks de manipulação, mas exigindo dezenas de passos de denoising, um custo que inviabiliza o controle em tempo real. A destilação de passos surgiu como o remédio natural, mas métodos prontos para uso falham no cenário conjunto de vídeo-ação porque os fluxos de vídeo e ação utilizam cronogramas de ruído com deslocamento de SNR diferentes e chegam ao treinamento com distribuições marginais de ruído substancialmente distintas, uma assimetria que métodos de destilação de modalidade única não conseguem acomodar. Apresentamos Flash-WAM, uma estrutura de destilação de passos consciente da modalidade inspirada na destilação por consistência, que seleciona a função de consistência para cada modalidade de modo a corresponder ao seu regime de ruído: uma parametrização de escalonamento linear do gradiente para o regime de baixo ruído do fluxo de ação, combinada com uma parametrização de preservação de variância para o regime de alto ruído do fluxo de vídeo, fundamentada em uma análise estrutural da família de funções de consistência que caracteriza o escalonamento de gradiente alcançável sob a condição de contorno de consistência. Instanciado no LingBot-VA, o Flash-WAM comprime a inferência a um único passo em cada modalidade. No RoboTwin 2.0, isso reduz a latência por bloco de 8,1 segundos para 348 ms em uma NVIDIA L40S, uma aceleração de 23× que viabiliza inferência em tempo real. O Flash-WAM preserva o sucesso das tarefas em benchmarks de simulação (85,5% no RoboTwin 2.0, 95,7% no LIBERO) e recupera substancialmente o desempenho no mundo real (média de 60% em um robô humanóide Unitree G1), enquanto a destilação por consistência ingênua cai para 24% com o mesmo orçamento de passos.
Em sistemas robóticos, vastas quantidades de dados visuais são facilmente capturadas em alta resolução utilizando hardware de baixo custo e baixo consumo energético. No entanto, a largura de banda limitada e os recursos computacionais restritos no dispositivo impedem seu aproveitamento total quando transmitidos por codecs convencionais, como JPEG/MPEG. Codecs mais recentes, como AV1/AVIF, melhoram a relação taxa-distorção, mas demandam muito mais recursos para codificação, tornando-se inviáveis sem ASICs personalizados. Autoencoders assimétricos recentes oferecem alta qualidade sob restrições extremas de energia e largura de banda, mas adicionam custo proibitivo de decodificação e utilizam formatos proprietários que ignoram décadas de infraestrutura construída em torno de padrões como JPEG. Para superar essas limitações, introduzimos um framework de compressão para robótica em nuvem baseado em um Autoencoder Embarcado no Sensor emparelhado com uma Transcodificação Única para Reconstrução Eficiente (SEAOTTER). Como os estágios de sensor, nuvem e consumidor enfrentam orçamentos muito diferentes de energia e largura de banda, o SEAOTTER combina a compactação de um latente aprendido com a ampla usabilidade de um arquivo JPEG padrão. Como a transcodificação ingênua degrada o desempenho, propomos uma transformação aprendível de cor e quantização JPEG que permite maior precisão para percepção global, densa e baseada em visão-linguagem. Utilizando o SEAOTTER, treinamos pipelines de transcodificação de propósito geral e cientes da tarefa para um codificador pré-treinado e congelado. A uma taxa de compressão de 200:1 e em comparação com AVIF, observamos codificação 7 vezes mais rápida, decodificação 3,5 vezes mais rápida e +8% de acurácia top-1 no ImageNet, mantendo compatibilidade com a infraestrutura JPEG. Nosso código está disponível em https://github.com/UT-SysML/seaotter.
Modelos de Linguagem de Grande Escala Multimodais (MLLMs) têm demonstrado conquistas significativas em tarefas gerais de resposta a perguntas visuais (VQA). No entanto, eles permanecem frágeis em desenhos de engenharia mecânica, onde a alta densidade de anotação e o fraco conhecimento de domínio, agravados pelo raciocínio não confiável de relações espaciais sob regras estritas de projeção e restrições geométricas, tornam fácil perder pistas decisivas e frequentemente levam a respostas erradas. Para preencher essa lacuna, apresentamos o primeiro conjunto de dados abrangente para compreensão de desenhos mecânicos, o MechVQA, criado por meio de um pipeline semiautomático de construção e controle de qualidade. O MechVQA contém 3,3 mil imagens de alta densidade com 21 mil pares pergunta-resposta, abrangendo 10 tarefas diferentes de granularidade fina em três níveis de capacidade: Reconhecimento, Raciocínio e Julgamento, fornecendo um ambiente de teste para avaliar e melhorar a compreensão de MLLMs em desenhos mecânicos do mundo real. Com base no MechVQA, desenvolvemos então o modelo MechVL por meio de um paradigma de treinamento em múltiplos estágios, estabelecendo uma baseline especializada no domínio. Resultados experimentais extensivos demonstram que o MechVL supera a baseline de código fechado mais forte em 7,57 pontos percentuais na pontuação total do MechVQA, melhorando significativamente a capacidade de compreensão de desenhos mecânicos e fornecendo uma base reutilizável para implantar MLLMs em cenários de projeto e inspeção mecânica.
Grandes modelos de linguagem são cada vez mais utilizados para simular usuários de redes sociais e inferir como indivíduos podem responder a discussões online. No entanto, ainda não está claro se essas simulações refletem crenças precisas específicas do usuário ou se são altamente sensíveis a mudanças semanticamente independentes nos contextos conversacionais. Neste trabalho, estudamos a revisão de contexto contrafactual como uma estrutura para auditoria da simulação de posicionamento baseada em LLM. Dada uma conversa online original, primeiro inferimos o posicionamento de um usuário-alvo em relação a um tópico específico. Em seguida, aplicamos estratégias controladas de revisão ao contexto conversacional e simulamos novamente o posicionamento do usuário sob o contexto revisado. Comparamos estratégias de revisão exclusivamente textuais com uma estratégia multimodal que incorpora contexto baseado em memes e avaliamos duas métricas principais de eficácia, ou seja, a mudança média direcional de posicionamento e a taxa de transição de posicionamento. Os resultados revelam transições de posicionamento eficazes e robustas tanto em estratégias textuais quanto multimodais, em diferentes mecanismos de polarização de preferência. Nosso estudo contribui com uma estrutura de avaliação para compreender a sensibilidade ao contexto da simulação de posicionamento baseada em LLM. De forma mais ampla, ele destaca tanto a promessa quanto o risco do uso de LLMs para simular dinâmicas de opinião online.
Modelos de linguagem de grande porte frequentemente melhoram o raciocínio gerando cadeias de pensamento (CoT) explícitas, demonstrando a importância da computação intermediária. No entanto, a CoT textual força essa computação através de um fluxo discreto, serial e orientado à comunicação: cada etapa do raciocínio deve ser verbalizada antes que o modelo possa prosseguir, mesmo quando a atualização subjacente é semântica, incerta ou apenas parcialmente formada. O raciocínio latente oferece uma alternativa de maior largura de banda ao realizar computação intermediária em estados contínuos compactos antes de se comprometer com o texto. Contudo, métodos existentes de raciocínio latente frequentemente sacrificam vantagens essenciais que tornam a CoT eficaz em modelos de linguagem autorregressivos, incluindo a geração nativa da esquerda para a direita, a amostragem probabilística, a compatibilidade com decodificação em cache KV e a estimativa tratável de verossimilhança. Propomos o NF-CoT, uma estrutura de raciocínio latente que preserva essas vantagens ao modelar pensamentos contínuos com fluxos normalizantes. O NF-CoT instancia um fluxo normalizante no estilo TARFlow dentro da espinha dorsal do LLM, definindo um modelo probabilístico tratável sobre pensamentos contínuos compactos destilados da CoT explícita. As posições dos pensamentos contínuos são geradas por uma cabeça NF, enquanto as posições de texto são geradas pela cabeça LM padrão dentro do mesmo fluxo causal. Esse design fornece verossimilhanças exatas para pensamentos latentes, permite decodificação probabilística da esquerda para a direita com o cache KV original e suporta otimização direta por gradiente de política no espaço de raciocínio latente. Em benchmarks de geração de código, o NF-CoT melhora as taxas de aprovação em relação à CoT explícita e às bases de raciocínio latente anteriores, reduzindo substancialmente o custo de raciocínio intermediário.
O progresso recente em agentes de Modelos de Linguagem de Grande Escala (LLMs) possibilitou avanços promissores na ciência de dados automatizada. No entanto, as abordagens existentes permanecem fundamentalmente limitadas por seus conjuntos de ações estáticos e pela falta de gerenciamento de contexto de longo horizonte baseado em princípios, dificultando sua capacidade de acumular experiência reutilizável entre tarefas e operar de forma confiável em pipelines de ciência de dados iterativos e de múltiplas etapas. Para enfrentar esses desafios, apresentamos o EvoDS, um agente autônomo de ciência de dados autoevolutivo que aprende a expandir suas habilidades e gerenciar adaptativamente o contexto de longo prazo por meio de aprendizado por reforço agentivo. Especificamente, o EvoDS introduz duas estratégias principais: (1) mecanismo de Aquisição Autônoma de Habilidades (ASA), que permite aos agentes sintetizar, validar e reutilizar habilidades executáveis; e (2) estratégia de Compressão Adaptativa de Contexto (ACC), que trata o gerenciamento de contexto como um problema de controle aprendido, em vez de truncamento passivo. Essas estratégias são orquestradas em um esquema de treinamento multiagente de dois estágios, permitindo que o EvoDS melhore autonomamente ao longo do tempo. Teoricamente, provamos que o design hierárquico do EvoDS reduz o erro de seleção de ferramentas, e seu objetivo de otimização está alinhado com o princípio do gargalo de informação, garantindo o uso eficiente do contexto. Empiricamente, o EvoDS supera os agentes de ciência de dados de código aberto mais avançados em uma média de 28,9% em quatro benchmarks diversos, eliminando falhas por falta de tokens. Nosso código e dados estão disponíveis em https://github.com/usail-hkust/EvoDS.
Uma consulta situada como "onde está Lin Wei?" frequentemente codifica mais do que seu conteúdo literal: o usuário também pode querer saber se Lin Wei está livre, de bom humor, ou se vale a pena interrompê-lo agora. Agentes padrão que usam ferramentas respondem à pergunta literal e param. O AURA insere uma etapa de inferência entre a percepção da cena e o uso de ferramentas, que produz um IntentFrame: uma estimativa estruturada da necessidade implícita, com um escore de lacuna escalar que controla o orçamento de sondagem por consulta e a seleção de ferramentas. Em um benchmark de intenção implícita com 100 consultas e quatro cenários, o AURA melhora a cobertura de necessidades implícitas em relação à sondagem estilo ReAct (Delta = +0,07, p < 10⁻⁶); três dos quatro cenários são individualmente significativos, o ganho se reproduz em um segundo backbone, e uma ablação de prompt atribui o aumento à calibração da lacuna, e não à memorização de respostas. Em consultas factuais, o controlador troca a precisão bruta por 82% menos sondagens e zero violações de ferramentas proibidas em um subconjunto sensível à privacidade; as condições de escopo são detalhadas em Limitações. O código, o simulador e o benchmark estão disponibilizados em https://github.com/innovation64/AURA.
A condução autônoma exige raciocínio sobre como as ações do ego moldam a evolução do mundo circundante. No entanto, a maioria dos métodos ponta a ponta depende de mapeamentos diretos de estado para ação, capturando correlações sem modelar explicitamente as dinâmicas condicionadas à ação. Por outro lado, modelos de mundo com latentes contínuos frequentemente carecem de estrutura composicional para raciocínio causal em futuros contrafactuais. Apresentamos o Discrete-WAM, uma política de mundo unificada visão-ação latente que representa estados visuais futuros e ações do ego como tokens discretos alinhados, permitindo raciocínio causal composicional em futuros alternativos. Construído sobre esse alinhamento discreto unificado, o Discrete-WAM estabelece uma estrutura de difusão discreta compartilhada com tarefas generativas unificadas, formulando conjuntamente modelagem do mundo, política mundo-ação e política habilitada por decisão hierárquica, apoiando a generalização composicional em diversos cenários de direção. Experimentos em benchmarks de condução autônoma em grande escala mostram que o Discrete-WAM alcança desempenho competitivo, ao mesmo tempo em que suporta geração controlável e raciocínio contrafactual, oferecendo um caminho fundamentado para uma tomada de decisão mais confiável.
A edição de imagens baseada em difusão alcançou forte fidelidade visual sob instruções em linguagem natural, mas a maioria dos sistemas existentes ainda opera no nível de seguimento superficial de instruções, sem raciocinar sobre as restrições contextuais implícitas embutidas em solicitações reais de usuários. Isso frequentemente leva a edições visualmente plausíveis, mas logicamente inconsistentes. Neste trabalho, apresentamos o RE-Edit, um benchmark para Edição de Imagens Consciente de Raciocínio que avalia sistemas de edição de imagens em cinco dimensões complementares de raciocínio: física, ambiental, cultural, causal e referencial. O RE-Edit compreende 1.000 amostras cuidadosamente selecionadas, cada uma projetada de modo que a plausibilidade visual por si só seja insuficiente e a edição correta exija a satisfação de restrições lógicas implícitas. Para apoiar uma análise detalhada, estabelecemos critérios de avaliação alinhados às dimensões e conduzimos um estudo abrangente de dez modelos de edição de imagens de código aberto e dois comerciais. Nossos resultados mostram que mesmo sistemas avançados frequentemente têm dificuldades com raciocínio implícito multidimensional, apesar de produzirem visuais de alta qualidade. Apresentamos ainda uma linha de base leve de pós-edição guiada por raciocínio como uma exploração inicial, ilustrando como a inserção de raciocínio explícito pode ajudar a mitigar tais falhas de forma independente do modelo.
O aprendizado por reforço fora da política de políticas de fluxo pré-treinadas continua desafiador devido à instabilidade da otimização decorrente do processo de amostragem em múltiplas etapas. Recentemente, o Aprendizado Q com Correspondência Adjunta (QAM) abordou esse problema reformulando-o em um problema de controle ótimo estocástico (SOC) sem memória com um crítico aprendido. No entanto, o QAM herda uma fragilidade fundamental do aprimoramento guiado por críticos: pequenos erros do crítico são amplificados quando os críticos estão mal condicionados, frequentemente levando ao colapso do modelo. Este artigo introduz a Correspondência Q-Adjunta de Região de Confiança (TRQAM), um algoritmo estável de ajuste fino fora da política que controla adaptativamente a divergência KL no espaço de trajetórias em relação a políticas de fluxo pré-treinadas por meio de descida dual projetada. Especificamente, otimizamos o parâmetro de região de confiança λ na dinâmica do SOC e mostramos teoricamente que a KL no espaço de trajetórias pode ser representada por uma função de forma fechada de λ. Como resultado, nosso método pode controlar precisamente o desvio exato das políticas de fluxo pré-treinadas, alcançando um RL fora da política estável. Por meio de experimentos em 50 tarefas do OGBench, o TRQAM supera consistentemente as técnicas anteriores tanto em RL offline quanto em RL offline para online. Em particular, o TRQAM atinge uma taxa de sucesso geral de 68% em RL offline, melhorando substancialmente a linha de base mais forte, de 46%.
Neste artigo, estudamos a minimização de arrependimento em jogos repetidos com oponentes adaptativos que podem responder com base nos históricos de jogadas. Sabe-se que a métrica padrão de arrependimento externo na aprendizagem online não consegue capturar essa adaptabilidade. Para considerar o raciocínio contrafactual dos jogadores, introduzimos o {\tt Arrependimento de Política Repetida (RP-Regret)}, uma métrica da teoria dos jogos que mede a diferença entre a utilidade acumulada realizada e a melhor utilidade acumulada em retrospectiva, quando todos os jogadores podem responder ao histórico de jogadas. Comparada a noções de arrependimento existentes neste contexto, a nossa é nativa de jogos repetidos, permitindo comparadores mais fortes e oponentes com menos restrições, mantendo a possibilidade de encontrar equilíbrios melhores quando todos os jogadores a minimizam. Primeiro, identificamos condições necessárias para obter o {\tt RP-Regret} sublinear no tempo, sobre a variação das estratégias do comparador do jogador na definição de arrependimento e sobre as memórias tanto do comparador quanto das estratégias dos oponentes. Em seguida, estudamos condições adicionais e algoritmos demonstráveis para minimizar o {\tt RP-Regret}, que por definição é não convexo no espaço de estratégias. Para enfrentar esse desafio, propomos três algoritmos: (i) um baseado em um oráculo de otimização, conforme assumido em alguns trabalhos anteriores em aprendizagem online não convexa; (ii) um que minimiza uma aproximação convexa e linearizada do {\tt RP-Regret} a cada iteração; (iii) um que minimiza diretamente o {\tt RP-Regret} quando os oponentes mudam de estratégia lentamente. Além disso, quando todos os jogadores podem executar algoritmos para minimizar o {\tt RP-Regret} (ou sua variante linearizada), certos equilíbrios perfeitos em subjogos do jogo repetido podem ser aprendidos. Também fornecemos experimentos mostrando que minimizar nossas noções de arrependimento pode levar a soluções mais cooperativas com maior utilidade em jogos como o Stag-Hunt.
Benchmarks são fundamentais para avaliar e avançar LLMs e MLLMs ao fornecer medidas padronizadas e explícitas de desempenho. No entanto, sua construção é intensiva em mão de obra e difícil de reutilizar, gerando preocupações sobre sustentabilidade e escalabilidade. Além disso, benchmarks existentes frequentemente atingem saturação de desempenho logo após seu lançamento, resultando em discriminação insuficiente entre modelos de estado da arte. Para enfrentar esses desafios, apresentamos o Benchmark Agent, um sistema agentivo totalmente autônomo projetado para a construção de benchmarks. Nosso framework orquestra o pipeline completo de construção de benchmarks, desde a análise de consulta do usuário e design de subtarefas até a anotação de dados e controle de qualidade. Para avaliar o Benchmark Agent, implementamo-lo para produzir 15 benchmarks representativos, abrangendo diversos cenários de avaliação, incluindo compreensão textual, compreensão multimodal e raciocínio específico de domínio. Experimentos extensivos, incluindo avaliação humana, avaliação de LLM como juiz e verificações de consistência, demonstram que o Benchmark Agent pode gerar amostras de benchmark de alta qualidade com mínimo envolvimento humano. Mais importante ainda, por meio de avaliação contínua, observamos várias descobertas esclarecedoras, incluindo que modelos atuais têm dificuldade com certas tarefas de raciocínio específico de domínio. Acreditamos que benchmarks em rápida evolução podem contribuir significativamente para a comunidade de pesquisa. A pré-visualização e o código estarão disponíveis publicamente na página de demonstração e no repositório de código.
Modelos de Linguagem de Grande Escala exibem fragilidade paradoxal em aritmética fundamental, sugerindo uma desconexão entre computação interna e saída discreta. Ao analisar a geometria do fluxo residual durante a adição de múltiplos operandos, identificamos a Trajetória de Soma Bruta Iso (IRST, na sigla em inglês), uma estrutura geométrica onde as representações são ancoradas por dígitos semânticos e moduladas por fibras contínuas de transporte. Propomos o Modelo de Quantização Ruidosa para explicar essa geometria, enquadrando erros aritméticos como Deslizamentos Geométricos causados por ruído neural interno que empurra um Potencial de Transporte latente contínuo através de limiares de quantização. Essa estrutura geométrica ainda elucida a Versatilidade de Sondas, explicando como sondas leves podem separar sinais latentes coexistentes (como verdade fundamental versus alucinação) a partir de um único vetor de ativação. Por fim, validamos essas percepções por meio de um método de verificação de consistência geométrica que detecta e corrige eficazmente essas falhas de quantização durante a inferência. Nosso código está disponível em https://github.com/RL-MIND/Shape-of-Addition.
Os LLMs agentivos com pesquisa na web alteram o modelo de ameaça para anonimização de texto: pistas contextuais fracas podem tornar-se evidências passíveis de referência cruzada para reidentificação, embora esses mesmos detalhes também carreguem valor analítico downstream do texto. As defesas existentes removem identificadores explícitos, perturbam o texto para privacidade formal ou testam o texto reescrito contra modelos de inferência não baseados na web, deixando subexplorada a região operacional entre resistência à reidentificação agentiva por pesquisa na web e retenção de utilidade. Apresentamos AURA (Anonymization with Utility-Retention Adaptation), uma estrutura de mascaramento e reconstrução baseada em LLM que desacopla a localização da privacidade da reconstrução que preserva a utilidade e seleciona candidatos com verificações adversariais de privacidade e retenção de utilidade. Avaliamos AURA em transcrições de entrevistas com usuários reais, utilizando ataques de reidentificação realizados por agentes de pesquisa na web, juntamente com uma avaliação de utilidade baseada em fatos de perfil do entrevistado, fatos de livro de códigos e a grade de utilidade contextual conjunta. Nossos resultados mostram que AURA melhora a fronteira privacidade-utilidade ao usar um escopo de privacidade adaptativo para fortalecer a resistência à reidentificação agentiva e ao usar um método de anonimização por mascaramento e reconstrução para melhor preservar a utilidade contextual sob escopo fixo de privacidade.
O processamento de vídeo em modelos de visão-linguagem é custoso: cada quadro ocupa centenas de tokens, e o custo de inferência escala com cada quadro e cada consulta repetida. Apresentamos o Video2LoRA, um método para internalização paramétrica de vídeo. Uma hiper-rede perceptron (perceiver) lê as representações intermediárias produzidas camada por camada enquanto um VLM congelado codifica um vídeo, e gera um adaptador de Adaptação de Baixo Posto (LoRA) em uma única passagem direta. Diferentemente do ajuste fino LoRA padrão, que requer atualizações iterativas de gradiente, o Video2LoRA prediz esses pesos diretamente a partir do vídeo. Treinado para SmolVLM2 500M e 2.2B em sumarização e legendagem de vídeos, o Video2LoRA permite que o mesmo VLM congelado responda a consultas apenas a partir do adaptador, com zero tokens visuais no contexto no momento da consulta. O Video2LoRA é estatisticamente não inferior e equivalente à inferência direta com vídeo no contexto em todos os cinco benchmarks de legendagem em ambas as escalas de modelo, e em sete de oito emparelhamentos de escala de benchmark para resposta a perguntas sobre vídeo. Embora treinado apenas com 12 quadros a 384px, permanece estável até 1.024 quadros e 1024px, onde a inferência direta com vídeo no contexto frequentemente se degenera. Ao longo dessa varredura, reduz a carga de tokens visuais no tempo de resposta em até 1.500x e o TTFT (tempo até o primeiro token) da consulta em 6-80x, enquanto preserva saídas fiéis ao vídeo. Também descobrimos que adaptadores gerados independentemente para segmentos de vídeo não sobrepostos podem compor no espaço de posto, sugerindo um caminho para a internalização de vídeos longos em partes.
Agentes financeiros de IA frequentemente falham por um motivo simples: eles transferem a complexidade para o usuário. O usuário precisa reafirmar repetidamente objetivos, preferências de risco, contexto de portfólio, julgamentos passados e suposições mutáveis de mercado, enquanto o agente responde, recupera, age e esquece. Em finanças, isso não é apenas inconveniente. Em tarefas como análise de mercado, revisão de copy-trading e preparação de negociações, contexto esquecido e memória desatualizada podem gerar latência, erros repetidos, baixa auditabilidade e decisões inseguras. Propomos o arcabouço de conhecimento nativo da interação (InKH), uma arquitetura para agentes financeiros baseados em LLM que absorve a complexidade no sistema. O InKH converte eventos do usuário, do mercado, do portfólio e de ferramentas em conhecimento operacional estruturado. Ele utiliza injeção passiva de conhecimento para montar um buffer de contexto de trabalho limitado antes da etapa principal do modelo, memória de grafo temporal para recuperação de baixa latência, uma superfície de auditoria wiki para governança legível por humanos e extração em segundo plano com maturidade, decaimento e invalidação no momento da escrita. Avaliamos o InKH em um benchmark sintético controlado e reproduzível com 24 sementes aleatórias, 4 rodadas, 80 episódios por rodada e 6 linhas de base, produzindo 46.080 avaliações condicionadas à linha de base. O InKH alcança qualidade média de tarefa de 0,815 com latência de 900 ms. Comparado à memória wiki-walk orientada por agente, reduz a latência em 82,95%, o custo de tokens em 82,29% e o uso de conhecimento desatualizado em 96,58%, enquanto melhora a qualidade em 0,108 e a rastreabilidade em 0,461. Comparado a um sistema de grafo temporal sem invalidação, melhora a qualidade em 0,050 e reduz o uso de memória desatualizada em 96,58%, com custo de operação comparável. Os resultados apoiam uma tese de projeto para IA financeira: a adoção ocorre quando a complexidade é absorvida pelo sistema, em vez de transferida para o usuário. O benchmark valida o comportamento em nível de arquitetura, não o desempenho em negociações ao vivo.
Aprendizado por Reforço com Recompensas Verificáveis (RLVR) emergiu recentemente como o alicerce para moldar as notáveis capacidades de codificação dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, a escalabilidade do RLVR é severamente limitada pela escassez de tarefas de código verificáveis suficientemente desafiadoras que estejam próximas do limite de competência do modelo. Estudos anteriores frequentemente dependem de expansões heurísticas de sementes para síntese de dados, o que restringe severamente tanto a novidade quanto a dificuldade. Consequentemente, o valor de treinamento desses dados não escala proporcionalmente ao tamanho de sua síntese. Para este fim, propomos a Decomposição e Recombinação Atômica (ADR), uma nova estrutura que gera tarefas de código verificáveis por meio da decomposição em elementos atômicos e recombinação controlada, permitindo assim a geração de tarefas de código verificáveis genuinamente novas e desafiadoras. Experimentos e análises demonstram que a ADR alcança originalidade, dificuldade, diversidade e qualidade de teste superiores às linhas de base existentes, e consistentemente proporciona maiores melhorias na habilidade de código em diferentes domínios downstream do RLVR, incluindo programação algorítmica, uso de ferramentas e ciência de dados. Nosso trabalho lança luz sobre um novo paradigma para a síntese de tarefas de código inovadoras e treinamento escalável de RLVR.
Sistemas de recomendação musical tipicamente tratam canções como tokens opacos, baseando-se em históricos de interação colaborativa que ignoram o conteúdo semântico ou acústico. Trabalhos anteriores exploraram abordagens aumentadas por LLM, multimodais e aprimoradas por texto para recomendação sequencial e, embora alguns métodos combinem parcialmente sinais semânticos, acústicos ou de engajamento, nenhum modela conjuntamente os três dentro de um quadro unificado de raciocínio sequencial baseado em LLM que fundamente as recomendações no conteúdo real das canções. Neste trabalho, propomos um quadro multimodal para recomendação musical baseada em sessão que enriquece o conjunto de dados LastFM-1K com três sinais complementares: (1) embeddings de áudio e letras extraídos usando modelos pré-treinados de representação musical e textual, (2) metadados semânticos gerados por LLM usando o esquema de anotação MGPHot e (3) taxas de conclusão de audição. Adotamos a estrutura E4SRec estendendo-a com características multimodais e diferentes backbones de codificação de IDs de itens, incluindo SASRec, BERT4Rec e GRU4Rec. Estendemos ainda a opção de backbone LLM com LLaMa-2-13B, Qwen2.5-7B-Instruct e LLaMa-3-70B em configurações zero-shot e fine-tuned. Nossos experimentos mostram que a integração de características baseadas em conteúdo melhora em até 95% em Recall e 79% em NDCG em relação às linhas de base apenas com IDs. Além disso, nossos experimentos mostram que a fusão multimodal ingênua nem sempre produz melhorias aditivas, destacando desafios na integração cross-modal. Disponibilizamos um benchmark multimodal em larga escala para recomendação musical.
Grandes modelos de linguagem estão cada vez mais sendo implantados como agentes de codificação, deslocando a segurança de respostas individuais para sequências de ações. No entanto, os benchmarks existentes avaliam principalmente se os modelos recusam prompts inseguros, deixando os impactos em espaços de trabalho com estado em grande parte não examinados. Apresentamos o SABER, um benchmark para segurança operacional ciente do ambiente, que coloca os modelos em projetos realistas no estilo de agentes e avalia a segurança a partir do estado final do ambiente após uma sequência de ações. Além de relatórios binários de violação de segurança, o SABER categoriza as violações por causa, permitindo a análise de perfis de segurança específicos de cada modelo. Nossas avaliações mostram que mesmo o modelo com melhor desempenho apresenta mais de 54% de taxa de violação de segurança prejudicial (HSR), sugerindo que o alinhamento atual permanece insuficiente para ambientes de projetos realistas. O SABER revela ainda perfis de segurança distintos entre os modelos. Nosso benchmark está disponível publicamente em https://github.com/sssr-lab/saber.
A pesquisa em IA frequentemente exige decisões antes que evidências futuras estejam disponíveis: qual gargalo atacar, qual direção perseguir ou onde um projeto deve ser posicionado. Apresentamos o ForeSci, um benchmark temporalmente controlado para avaliar se agentes LLM podem fazer tais julgamentos prospectivos de pesquisa com base em evidências históricas. O ForeSci contém 500 tarefas em quatro domínios de IA em rápida evolução e quatro famílias de decisão. Cada tarefa é emparelhada com uma base de conhecimento offline alinhada a um ponto de corte; artigos posteriores ao corte são ocultados durante a geração e usados apenas para validação. Para evitar a previsão aleatória de eventos futuros, as tarefas são derivadas de ramos taxonômicos e sinais de evidência anteriores ao corte, e as bases de resposta são selecionadas para preceder os cortes das tarefas. Avaliamos LLMs nativos, RAG Híbrido e três adaptações de agentes de pesquisa em quatro bases. Os resultados mostram que a organização explícita de evidências melhora a rastreabilidade e o suporte factual, mas os ganhos dependem fortemente da família de decisão. Diagnósticos revelam um desacoplamento recorrente entre evidência e decisão: agentes podem citar evidências relevantes enquanto preveem o objeto de pesquisa errado. O ForeSci transforma o julgamento prospectivo de pesquisa em IA em um benchmark controlado para avaliar agentes de pesquisa como sistemas de tomada de decisão.
Treinar modelos precisos de segmentação de imagens médicas requer grandes quantidades de dados densamente anotados, o que é caro e demorado de obter. O aprendizado semissupervisionado (SSL) ameniza esse problema ao aprender tanto a partir de dados não rotulados abundantes quanto de dados rotulados limitados. No entanto, a maioria dos métodos modernos de SSL depende de pseudo-rótulos para dados não rotulados e tipicamente avalia sua confiabilidade por meio da confiança ou incerteza do modelo, medidas que são autorreferenciais e carecem de fundamentação explícita na qualidade da segmentação. Em vez disso, propomos uma estrutura de SSL guiada pela qualidade, que treina uma rede dedicada para estimar a qualidade da segmentação a partir de pares imagem-máscara. O preditor é treinado em máscaras de qualidade variável geradas por meio de corrupções sintéticas aumentadas com saídas imperfeitas de modelos de segmentação parcialmente treinados, capturando padrões realistas de erro encontrados durante o treinamento. Integramos o preditor de qualidade ao SSL por meio de dois mecanismos complementares: uma perda de regularização consciente da qualidade e um esquema de reponderação de amostras baseado na qualidade dos pseudo-rótulos. Mostramos que nosso método serve como uma melhoria plug-and-play para estruturas de SSL existentes. Experimentos extensivos em cinco conjuntos de dados e múltiplas arquiteturas demonstram melhorias consistentes em relação a métodos concorrentes de SSL, avançando o estado da arte em segmentação semissupervisionada de imagens médicas.
A aprendizagem de representações de modelos CAD é um problema amplamente em aberto. Embora a aprendizagem de representações 3D tenha florescido em torno de nuvens de pontos e malhas, o formato nativo de CAD – representações de fronteira (BReps), que codifica superfícies paramétricas exatas, curvas e sua topologia – tem recebido pouca atenção como substrato para aprendizado de representações. Apresentamos o BRepCLIP, a primeira estrutura a alinhar a geometria BRep com embeddings de linguagem e imagem por meio de pré-treinamento contrastivo. Modelamos cada objeto CAD como uma sequência de tokens de face e aresta, com vocabulários discretos separados para geometria de superfície e curva, aumentados com descritores espaciais e semânticos que capturam tipos de superfície (ex.: cilíndrica, toro, NURBS) e primitivas de curva (ex.: linha, arco, B-spline). Um codificador transformer agrega esses tokens em um embedding BRep global, alinhado com os codificadores de texto e imagem do CLIP por meio de um objetivo contrastivo conjunto. O BRepCLIP gera embeddings mais discriminativos e semanticamente fundamentados do que as alternativas baseadas em pontos existentes, melhorando a recuperação Top-1 sobre o OpenShape em 40,4%, 22,0% e 23,9% nos conjuntos ABC, CADParser e Automate, respectivamente, e melhorando a classificação zero-shot no FabWave em 15% na pontuação Top-1. Demonstramos ainda sua utilidade como métrica de similaridade consciente de CAD para avaliar geração de CAD condicionada a texto e imagem, estabelecendo a importância do pré-treinamento consciente da estrutura para a compreensão multimodal de CAD. A página do projeto está disponível em https://muhammadusama100.github.io/BrepClip2026/