Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de linguagem de grande escala aproveitam dados de texto em escala da internet, mas a IA incorporada continua limitada pelos custos proibitivos da coleta de trajetórias físicas. Ambientes de desktop — particularmente jogos — oferecem uma alternativa convincente: eles proporcionam interações sensório-motoras ricas em escala, mantendo o acoplamento estruturado observação-ação essencial para o aprendizado incorporado. Apresentamos o D2E (Desktop to Embodied AI), um framework que demonstra que interações em desktop podem servir como um substrato eficaz de pré-treinamento para tarefas de IA incorporada em robótica. Diferente de trabalhos anteriores que permaneceram específicos de domínio (por exemplo, VPT para Minecraft) ou mantiveram os dados proprietários (por exemplo, SIMA), o D2E estabelece um pipeline completo desde a coleta escalável de dados em desktop até a transferência verificada em domínios incorporados. Nosso framework compreende três componentes: (1) o OWA Toolkit, que unifica diversas interações de desktop em um formato padronizado com compressão de 152x, (2) o Generalist-IDM, que alcança forte generalização zero-shot em jogos não vistos através da previsão de eventos baseada em timestamps, permitindo pseudo-rotulação em escala da internet, e (3) o VAPT, que transfere representações pré-treinadas em desktop para manipulação física e navegação. Utilizando mais de 1.3K horas de dados (259 horas de demonstrações humanas e mais de 1K horas de jogos pseudo-rotulados), alcançamos uma taxa de sucesso total de 96.6% no benchmark de manipulação LIBERO e 83.3% no benchmark de navegação CANVAS. Isso valida que primitivas sensório-motoras em interações digitais exibem invariância suficiente para transferir de forma significativa para tarefas físicas incorporadas, estabelecendo o pré-treinamento em desktop como um paradigma prático para robótica. Tornaremos todo o nosso trabalho público, incluindo o OWA toolkit, conjuntos de dados coletados por humanos e pseudo-rotulados, e modelos treinados com VAPT disponíveis em https://worv-ai.github.io/d2e/.
A compreensão e geração centradas em câmera são dois pilares fundamentais da inteligência espacial, mas geralmente são estudadas de forma isolada. Apresentamos o Puffin, um modelo multimodal unificado centrado em câmera que amplia a consciência espacial ao longo da dimensão da câmera. O Puffin integra regressão de linguagem e geração baseada em difusão para interpretar e criar cenas a partir de pontos de vista arbitrários. Para preencher a lacuna de modalidade entre câmeras e visão-linguagem, introduzimos um novo paradigma que trata a câmera como linguagem, permitindo pensar com a câmera. Isso orienta o modelo a alinhar pistas visuais espacialmente fundamentadas com terminologia fotográfica, enquanto raciocina sobre o contexto geométrico. O Puffin é treinado no Puffin-4M, um conjunto de dados em larga escala com 4 milhões de triplas visão-linguagem-câmera. Incorporamos tanto parâmetros globais da câmera quanto mapas de câmera em nível de pixel, resultando em geração espacial flexível e confiável. Experimentos demonstram o desempenho superior do Puffin em relação a modelos especializados para geração e compreensão centradas em câmera. Com ajuste por instrução, o Puffin generaliza para diversas tarefas de visão cruzada, como imaginação espacial, exploração do mundo e orientação fotográfica. Disponibilizaremos o código, modelos, pipeline de dados e benchmark para avançar a pesquisa em inteligência espacial multimodal.
Este trabalho apresenta a primeira investigação em larga escala sobre a construção de um modelo de linguagem grande (LLM) bilíngue totalmente aberto para um idioma não inglês, especificamente o coreano, treinado predominantemente em dados sintéticos. Introduzimos o KORMo-10B, um modelo com 10,8 bilhões de parâmetros treinado do zero em um corpus coreano-inglês, no qual 68,74% da porção em coreano é sintética. Por meio de experimentação sistemática, demonstramos que dados sintéticos, quando cuidadosamente curados com cobertura linguística equilibrada e estilos de instrução diversos, não causam instabilidade ou degradação durante o pré-treinamento em larga escala. Além disso, o modelo alcança desempenho comparável ao de baselines multilíngues contemporâneas de pesos abertos em uma ampla gama de benchmarks de raciocínio, conhecimento e seguimento de instruções. Nossos experimentos revelam duas descobertas principais: (1) dados sintéticos podem sustentar de forma confiável o pré-treinamento de longo horizonte sem colapso do modelo, e (2) o ajuste fino bilíngue com instruções permite raciocínio e coerência discursiva quase nativos em coreano. Ao liberar totalmente todos os componentes, incluindo dados, código, receitas de treinamento e logs, este trabalho estabelece um framework transparente para o desenvolvimento de modelos totalmente abertos (FOMs) impulsionados por dados sintéticos em cenários de baixos recursos e define um precedente reproduzível para futuras pesquisas em LLMs multilíngues.
À medida que o volume de pesquisas revisadas por pares aumenta, os estudiosos dependem cada vez mais de plataformas sociais para descoberta, enquanto os autores investem esforço considerável na promoção de seus trabalhos para garantir visibilidade e citações. Para otimizar esse processo e reduzir a dependência do esforço humano, introduzimos a Promoção Automática (AutoPR), uma nova tarefa que transforma artigos de pesquisa em conteúdo público preciso, envolvente e oportuno. Para permitir uma avaliação rigorosa, lançamos o PRBench, um benchmark multimodal que vincula 512 artigos revisados por pares a postagens promocionais de alta qualidade, avaliando os sistemas em três eixos: Fidelidade (precisão e tom), Engajamento (direcionamento e apelo ao público) e Alinhamento (timing e otimização de canal). Também apresentamos o PRAgent, uma estrutura de multiagentes que automatiza o AutoPR em três etapas: extração de conteúdo com preparação multimodal, síntese colaborativa para saídas refinadas e adaptação específica à plataforma para otimizar normas, tom e marcações para alcance máximo. Quando comparado a pipelines diretos de LLMs no PRBench, o PRAgent demonstra melhorias substanciais, incluindo um aumento de 604% no tempo total de visualização, um crescimento de 438% em curtidas e pelo menos um aumento de 2,9x no engajamento geral. Estudos de ablação mostram que a modelagem de plataforma e a promoção direcionada contribuem mais para esses ganhos. Nossos resultados posicionam o AutoPR como um problema de pesquisa mensurável e viável e fornecem um roteiro para uma comunicação acadêmica automatizada escalável e impactante.
Modelos de visão e linguagem (VLMs) podem impulsionar assistentes em tempo real e agentes autônomos, mas enfrentam um desafio crítico: compreender fluxos de vídeo quase infinitos sem aumentar a latência e o uso de memória. Processar vídeos inteiros com atenção completa resulta em custos computacionais quadráticos e desempenho ruim em vídeos longos. Enquanto isso, métodos simples de janela deslizante também são falhos, pois ou quebram a coerência ou sofrem com alta latência devido à recomputação redundante. Neste artigo, apresentamos o StreamingVLM, um modelo projetado para a compreensão estável e em tempo real de entradas visuais infinitas. Nossa abordagem é um framework unificado que alinha o treinamento com a inferência em streaming. Durante a inferência, mantemos um cache KV compacto reutilizando estados de "attention sinks", uma janela curta de tokens visuais recentes e uma janela longa de tokens de texto recentes. Essa capacidade de streaming é instilada por meio de uma simples estratégia de ajuste fino supervisionado (SFT) que aplica atenção completa em segmentos curtos e sobrepostos de vídeo, o que efetivamente imita o padrão de atenção no tempo de inferência sem treinar em contextos proibitivamente longos. Para avaliação, construímos o Inf-Streams-Eval, um novo benchmark com vídeos que duram em média mais de duas horas e exigem alinhamento denso, por segundo, entre quadros e texto. No Inf-Streams-Eval, o StreamingVLM alcança uma taxa de vitória de 66,18% contra o GPT-4O mini e mantém um desempenho estável e em tempo real de até 8 FPS em uma única NVIDIA H100. Notavelmente, nossa estratégia SFT também aprimora as habilidades gerais de VQA sem qualquer ajuste fino específico para VQA, melhorando o desempenho no LongVideoBench em +4,30 e no OVOBench Realtime em +5,96. O código está disponível em https://github.com/mit-han-lab/streaming-vlm.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado sucesso notável, e suas expansões multimodais (MLLMs) desbloqueiam ainda mais capacidades que abrangem imagens, vídeos e outras modalidades além do texto. No entanto, apesar dessa mudança, as abordagens de otimização de prompts, projetadas para reduzir o fardo da criação manual de prompts enquanto maximizam o desempenho, permanecem restritas ao texto, limitando, em última análise, o potencial completo dos MLLMs. Motivados por essa lacuna, introduzimos o novo problema de otimização de prompts multimodais, que expande a definição anterior de otimização de prompts para o espaço multimodal definido pelos pares de prompts textuais e não textuais. Para enfrentar esse problema, propomos então o Otimizador de Prompts Multimodais (MPO), uma estrutura unificada que não apenas realiza a otimização conjunta de prompts multimodais por meio de atualizações que preservam o alinhamento, mas também orienta o processo de seleção de prompts candidatos ao aproveitar avaliações anteriores como priors em uma estratégia de seleção baseada em Bayes. Por meio de extensos experimentos em diversas modalidades que vão além do texto, como imagens, vídeos e até moléculas, demonstramos que o MPO supera os principais métodos de otimização exclusivamente textuais, estabelecendo a otimização de prompts multimodais como um passo crucial para realizar o potencial dos MLLMs.
Modelos de difusão recentes alcançam o estado da arte em geração de imagens, mas frequentemente sofrem com inconsistências semânticas ou alucinações. Embora diversos métodos de orientação durante a inferência possam melhorar a geração, eles geralmente operam de forma indireta, dependendo de sinais externos ou modificações arquitetônicas, o que introduz sobrecarga computacional adicional. Neste artigo, propomos a Orientação por Amplificação Tangencial (TAG, do inglês Tangential Amplifying Guidance), um método de orientação mais eficiente e direto que opera exclusivamente em sinais de trajetória sem modificar o modelo de difusão subjacente. O TAG utiliza uma amostra intermediária como base de projeção e amplifica os componentes tangenciais dos escores estimados em relação a essa base para corrigir a trajetória de amostragem. Formalizamos esse processo de orientação utilizando uma expansão de Taylor de primeira ordem, demonstrando que a amplificação do componente tangencial direciona o estado para regiões de maior probabilidade, reduzindo assim inconsistências e melhorando a qualidade das amostras. O TAG é um módulo plug-and-play, independente de arquitetura, que melhora a fidelidade da amostragem por difusão com adição computacional mínima, oferecendo uma nova perspectiva sobre orientação em difusão.
Capacidades corporificadas referem-se a um conjunto de habilidades fundamentais para que um agente perceba, compreenda e interaja com o mundo físico. Embora os modelos de linguagem multimodal de grande escala (MLLMs) mostrem potencial como agentes corporificados, uma avaliação completa e sistemática de suas capacidades corporificadas ainda é pouco explorada, já que os benchmarks existentes focam principalmente em domínios específicos, como planejamento ou compreensão espacial. Para preencher essa lacuna, introduzimos o BEAR, um benchmark abrangente e detalhado que avalia MLLMs em capacidades corporificadas atômicas. O BEAR compreende 4.469 entradas intercaladas de imagem-vídeo-texto em 14 domínios e 6 categorias, incluindo tarefas desde apontamento de baixo nível, compreensão de trajetória, raciocínio espacial, até planejamento de alto nível. Resultados extensivos da avaliação de 20 MLLMs representativos revelam suas limitações persistentes em todos os domínios de capacidades corporificadas. Para enfrentar essa deficiência, propomos o BEAR-Agent, um agente conversável multimodal que integra modelos de visão pré-treinados para fortalecer a percepção, compreensão 3D e capacidades de planejamento dos MLLMs. Ele melhora substancialmente o desempenho dos MLLMs em diversas capacidades corporificadas no BEAR, resultando em um ganho absoluto de 9,12% e uma melhoria relativa de 17,5% no GPT-5. Além disso, nossos experimentos indicam que melhorar as capacidades corporificadas dos MLLMs pode beneficiar tarefas corporificadas em ambientes simulados. Site do projeto: https://bear-official66.github.io/
Plataformas de avaliação de modelos baseadas em crowdsourcing, como o Chatbot Arena, permitem a avaliação em tempo real a partir de perspectivas humanas para mensurar a qualidade das respostas dos modelos. No domínio da codificação, examinar manualmente a qualidade do conteúdo gerado por LLMs é extremamente desafiador, pois exige a compreensão de longos trechos de código bruto e a simulação deliberada da execução do código. Para isso, introduzimos o BigCodeArena, uma plataforma aberta de avaliação humana para geração de código, apoiada por um ambiente de execução abrangente e em tempo real. Construído sobre o Chatbot Arena, o BigCodeArena permite a execução de código gerado por LLMs e possibilita que humanos interajam com o processo de execução e seus resultados. Coletamos mais de 14.000 sessões de conversa centradas em código em 10 LLMs amplamente utilizados, abrangendo 10 linguagens e 8 tipos de ambientes de execução. Dentre essas conversas, identificamos mais de 4.700 amostras de múltiplos turnos com preferências humanas pareadas. Análises adicionais revelam preferências pouco exploradas dos LLMs em domínios de granularidade fina, caracterizados por tarefas, linguagens e frameworks. Para examinar sistematicamente as capacidades de compreensão e geração de código dos LLMs de ponta, criamos dois benchmarks baseados nos dados coletados: BigCodeReward e AutoCodeArena. Para o BigCodeReward, pós-processamos as 4.700 conversas e avaliamos a consistência entre modelos de recompensa e preferências humanas. A avaliação mostra que a maioria dos LLMs tem desempenho superior ao julgar preferências de codificação quando os resultados de execução estão disponíveis. Inspirados por essas descobertas, propomos o AutoCodeArena, um benchmark automático de classificação Elo projetado para avaliar a qualidade de codificação de LLMs sem envolvimento humano. Constatamos que LLMs proprietários como GPT-5, Claude-Sonnet-4 e Claude-Opus-4 ainda lideram em desempenho de geração de código entre os modelos emergentes recentes.
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso notável por meio de aprendizado por imitação em vastos corpora de texto, mas esse paradigma cria uma lacuna entre treinamento e geração, limitando o raciocínio robusto. O aprendizado por reforço (RL) oferece uma solução mais eficiente em termos de dados, capaz de preencher essa lacuna, mas sua aplicação tem sido limitada por um gargalo crítico de dados: os conjuntos de dados de RL existentes são ordens de magnitude menores e menos diversos do que os corpora de pré-treinamento em escala web. Para resolver isso, introduzimos o pipeline Webscale-RL, um mecanismo de dados escalável que converte sistematicamente documentos de pré-treinamento em grande escala em milhões de pares pergunta-resposta diversos e verificáveis para RL. Usando esse pipeline, construímos o conjunto de dados Webscale-RL, contendo 1,2 milhão de exemplos em mais de 9 domínios. Nossos experimentos mostram que o modelo treinado nesse conjunto de dados supera significativamente o pré-treinamento contínuo e as fortes linhas de base de refinamento de dados em uma série de benchmarks. Notavelmente, o treinamento de RL com nosso conjunto de dados se mostra substancialmente mais eficiente, alcançando o desempenho do pré-treinamento contínuo com até 100 vezes menos tokens. Nosso trabalho apresenta um caminho viável para escalar o RL aos níveis de pré-treinamento, permitindo modelos de linguagem mais capazes e eficientes.
Tendências recentes em escalonamento no tempo de teste para modelos de raciocínio (por exemplo, OpenAI o1, DeepSeek-R1) levaram a melhorias notáveis por meio de longas Cadeias de Pensamento (CoT). No entanto, os benchmarks existentes focam principalmente em tarefas imediatas e de horizonte único, falhando em avaliar adequadamente a capacidade dos modelos de compreender e responder a cenários complexos e de longo horizonte. Para abordar essa avaliação incompleta dos Modelos de Raciocínio de Grande Escala (LRMs), propomos o R-HORIZON, um método projetado para estimular comportamentos de raciocínio de longo horizonte em LRMs por meio da composição de consultas. Com base no R-HORIZON, construímos um benchmark de raciocínio de longo horizonte, composto por tarefas complexas de raciocínio em múltiplas etapas com problemas interdependentes que abrangem longos horizontes de raciocínio. Através de uma avaliação abrangente de LRMs usando o benchmark R-HORIZON, descobrimos que mesmo os LRMs mais avançados sofrem uma degradação significativa de desempenho. Nossa análise revela que os LRMs exibem um comprimento efetivo de raciocínio limitado e lutam para alocar o orçamento de pensamento de forma apropriada entre múltiplos problemas. Reconhecendo essas limitações, usamos o R-HORIZON para construir dados de raciocínio de longo horizonte para aprendizado por reforço com recompensas verificadas (RLVR). Em comparação com o treinamento com dados de horizonte único, o RLVR com R-HORIZON não apenas melhora substancialmente o desempenho em tarefas de raciocínio de múltiplos horizontes, mas também promove a precisão em tarefas de raciocínio padrão, com um aumento de 7,5 no AIME2024. Esses resultados posicionam o R-HORIZON como um paradigma escalável, controlável e de baixo custo para aprimorar e avaliar as capacidades de raciocínio de longo horizonte dos LRMs.
Modelos de linguagem de grande escala que realizam raciocínio exibem comportamentos complexos de raciocínio por meio da geração estendida de cadeias de pensamento (chain-of-thought), criando uma sobrecarga sem precedentes no cache de chave-valor (KV) durante a fase de decodificação. Os métodos existentes de compressão do cache KV têm desempenho inferior em modelos de raciocínio: métodos de descarte de tokens comprometem a integridade do raciocínio ao eliminar informações críticas, enquanto métodos de realocação de cabeças comprimem erroneamente as cabeças essenciais para o raciocínio, já que foram projetados para tarefas de recuperação, resultando em uma degradação significativa de desempenho à medida que as taxas de compressão aumentam. Nossa hipótese é que as cabeças KV exibem heterogeneidade funcional em modelos de raciocínio—algumas cabeças são críticas para a consistência da cadeia de pensamento, enquanto outras são compressíveis. Para validar e explorar essa percepção, propomos o RLKV, uma nova estrutura de identificação de cabeças críticas para o raciocínio, que utiliza aprendizado por reforço para otimizar diretamente a relação entre o uso do cache de cada cabeça e a qualidade do raciocínio. Como o RLKV gera recompensas a partir de amostras reais geradas durante o treinamento, ele identifica naturalmente as cabeças relevantes para os comportamentos de raciocínio. Em seguida, alocamos o cache KV completo para essas cabeças, enquanto aplicamos um cache KV comprimido e constante às demais, para uma inferência eficiente. Nossos experimentos revelam que apenas uma pequena fração das cabeças de atenção é essencial para o raciocínio, permitindo que nossa abordagem de compressão do cache supere os métodos de base, alcançando uma redução de 20-50% no cache com desempenho quase sem perdas em comparação com os resultados não comprimidos.
Com o atual aumento nas explorações de raciocínio espacial, os pesquisadores fizeram progressos significativos na compreensão de cenas internas, mas ainda enfrentam dificuldades em diversas aplicações, como robótica e direção autônoma. Este artigo visa avançar o raciocínio espacial em todas as escalas em diversos cenários, abordando dois desafios principais: 1) a forte dependência de varreduras 3D internas e anotações manuais intensivas para a curadoria de conjuntos de dados; 2) a ausência de modelagem eficaz de cenas em todas as escalas, o que frequentemente leva ao sobreajuste a cenas individuais. Neste artigo, introduzimos uma solução holística que integra um sistema estruturado de conhecimento de raciocínio espacial, modelagem consciente da escala e um paradigma de treinamento progressivo, como a primeira tentativa de ampliar a inteligência espacial em todas as escalas de MLLMs, até onde sabemos. Utilizando um pipeline automatizado específico para tarefas e orientado por especialistas, curamos mais de 38K cenas de vídeo em 5 escalas espaciais para criar o SpaceVista-1M, um conjunto de dados composto por aproximadamente 1M pares de perguntas e respostas espaciais abrangendo 19 tipos de tarefas diversas. Embora modelos especialistas possam injetar conhecimento útil do domínio, eles não são confiáveis para avaliação. Em seguida, construímos um benchmark em todas as escalas com anotações precisas, registrando, recuperando e montando manualmente dados baseados em vídeo. No entanto, o treinamento ingênuo com o SpaceVista-1M frequentemente produz resultados subótimos devido ao potencial conflito de conhecimento. Consequentemente, introduzimos o SpaceVista-7B, um modelo de raciocínio espacial que aceita entradas densas além da semântica e usa a escala como âncora para especialistas conscientes da escala e recompensas progressivas. Por fim, avaliações extensas em 5 benchmarks, incluindo nosso SpaceVista-Bench, demonstram desempenho competitivo, mostrando forte generalização em todas as escalas e cenários. Nosso conjunto de dados, modelo e benchmark serão disponibilizados em https://peiwensun2000.github.io/mm2km.
O aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma abordagem padrão para melhorar modelos de linguagem de grande escala (LLMs) em tarefas de raciocínio, com a Otimização de Política Relativa de Grupo (GRPO) amplamente utilizada na prática. No entanto, a GRPO desperdiça uma quantidade significativa de recursos computacionais em grupos negativos: grupos em que nenhuma resposta amostrada está correta resultam em vantagem zero e, portanto, em nenhum gradiente. Questionamos se os grupos negativos podem ser aproveitados sem supervisão adicional. Partindo de um objetivo de máxima verossimilhança (MLE) na modelagem de recompensas, mostramos que o gradiente do MLE é equivalente a um gradiente de política para uma função de valor modificada. Essa função de valor adiciona uma penalidade ponderada por confiança em respostas incorretas, impondo penalidades maiores em erros mais confiantes. Referimo-nos a isso como Estimação de Verossimilhança com Amostras Negativas (LENS). A LENS modifica a GRPO para atribuir recompensas não nulas e dependentes da confiança a gerações incorretas, tornando os grupos negativos informativos e convertendo amostras anteriormente desperdiçadas em atualizações de gradiente úteis. No benchmark MATH com os modelos Llama-3.1-8B e Qwen-2.5-3B, a variante proposta supera consistentemente a linha de base da GRPO, com ganhos significativos em itens mais difíceis. Esses resultados demonstram uma maneira prática e fundamentada de "resgatar" grupos negativos, melhorando a eficiência e o desempenho no RLVR.
A avaliação de modelos modernos de aprendizado de máquina tornou-se proibitivamente cara. Benchmarks como LMMs-Eval e HELM exigem milhares de horas de GPU por modelo. A avaliação custosa reduz a inclusividade, desacelera o ciclo de inovação e agrava o impacto ambiental. A abordagem típica segue dois passos. Primeiro, seleciona-se um subconjunto de dados âncora. Segundo, treina-se um mapeamento da precisão nesse subconjunto para o resultado final do teste. A desvantagem é que a seleção do âncora depende de clustering, que pode ser complexo e sensível a escolhas de design. Argumentamos que promover a diversidade entre as amostras não é essencial; o que importa é selecionar amostras que maximizem a diversidade nas respostas dos modelos. Nosso método, Diversifying Sample Condensation (DISCO), seleciona as k amostras com as maiores discordâncias entre os modelos. Isso utiliza estatísticas amostrais gananciosas, em vez de clustering global. A abordagem é conceitualmente mais simples. De uma perspectiva teórica, a discordância entre modelos fornece uma regra ótima em termos de teoria da informação para essa seleção gananciosa. O DISCO demonstra ganhos empíricos em relação a métodos anteriores, alcançando resultados de ponta na previsão de desempenho em MMLU, Hellaswag, Winogrande e ARC. O código está disponível aqui: https://github.com/arubique/disco-public.
Avanços recentes em modelos de raciocínio multimodal de grande escala (MLRMs) melhoraram substancialmente sua capacidade de resolver tarefas complexas envolvendo texto e imagens. No entanto, esses modelos tendem a "pensar demais" em problemas simples, produzindo traços de raciocínio desnecessariamente longos, enquanto exploram insuficientemente problemas desafiadores, levando a soluções perdidas. Para abordar esse desequilíbrio, propomos o ARES, um framework unificado e de código aberto para raciocínio adaptativo que aloca dinamicamente o esforço de exploração com base na dificuldade da tarefa. Nossa abordagem é motivada por duas descobertas empíricas principais: (i) embora a entropia de token único seja ruidosa, tokens de alta entropia de janela (HWE) (entropias em nível de token calculadas sob uma janela deslizante) podem capturar de forma confiável momentos críticos de raciocínio; e (ii) reduzir o uso de HWE beneficia problemas fáceis, enquanto aumentá-lo é essencial para resolver problemas difíceis. Com base nessas percepções, o ARES introduz um pipeline de treinamento em duas etapas. Na etapa de Inicialização Adaptativa, curamos dados multimodais e textuais pareados com traços de raciocínio de comprimento proporcional à dificuldade do problema, equipando o modelo com uma consciência inicial da dificuldade. Na segunda etapa, desenvolvemos a Otimização de Política de Entropia Adaptativa (AEPO), que usa tokens HWE como gatilhos de exploração para decidir quando explorar, e uma recompensa de entropia hierárquica com controle dinâmico de KL para decidir quanto explorar. Experimentos extensivos demonstram que o ARES alcança desempenho superior e eficiência de raciocínio em diversos benchmarks matemáticos, lógicos e multimodais, enquanto reduz a lacuta para sistemas comerciais líderes com custos de inferência significativamente menores.
A capacidade de usar, compreender e criar ferramentas é uma característica marcante da inteligência humana, permitindo uma interação sofisticada com o mundo físico. Para que qualquer agente inteligente de propósito geral alcance verdadeira versatilidade, ele também deve dominar essas habilidades fundamentais. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) modernos aproveitem seu extenso conhecimento comum para planejamento de alto nível em IA incorporada e em modelos subsequentes de Visão-Linguagem-Ação (VLA), a extensão de sua verdadeira compreensão das ferramentas físicas permanece não quantificada. Para preencher essa lacuna, apresentamos o PhysToolBench, o primeiro benchmark dedicado a avaliar a compreensão de ferramentas físicas por MLLMs. Nosso benchmark é estruturado como um conjunto de dados de Resposta a Perguntas Visuais (VQA) composto por mais de 1.000 pares de imagem-texto. Ele avalia capacidades em três níveis distintos de dificuldade: (1) Reconhecimento de Ferramentas: Exigindo o reconhecimento da função principal de uma ferramenta. (2) Compreensão de Ferramentas: Testando a capacidade de entender os princípios subjacentes ao funcionamento de uma ferramenta. (3) Criação de Ferramentas: Desafiando o modelo a criar uma nova ferramenta a partir de objetos ao redor quando as opções convencionais não estão disponíveis. Nossa avaliação abrangente de 32 MLLMs—abrangendo modelos proprietários, de código aberto, especializados em incorporação e backbones em VLAs—revela uma deficiência significativa na compreensão de ferramentas. Além disso, fornecemos uma análise detalhada e propomos soluções preliminares. O código e o conjunto de dados estão publicamente disponíveis.
A tarefa de previsão de ocupação 3D tem testemunhado progressos notáveis nos últimos anos, desempenhando um papel crucial em sistemas de condução autônoma baseados em visão. Enquanto os métodos tradicionais se limitam a categorias semânticas fixas, abordagens recentes têm evoluído para a previsão de características alinhadas a texto, permitindo consultas de vocabulário aberto em cenas do mundo real. No entanto, existe uma compensação na modelagem de cenas alinhadas a texto: a representação esparsa de Gaussiana tem dificuldade em capturar objetos pequenos na cena, enquanto a representação densa incorre em um custo computacional significativo. Para abordar essas limitações, apresentamos o PG-Occ, uma estrutura inovadora de Transformador Gaussiano Progressivo que permite a previsão de ocupação 3D de vocabulário aberto. Nossa estrutura emprega uma densificação progressiva online, uma estratégia de avanço que gradualmente melhora a representação Gaussiana 3D para capturar detalhes refinados da cena. Ao aprimorar iterativamente a representação, a estrutura alcança uma compreensão de cena cada vez mais precisa e detalhada. Outra contribuição fundamental é a introdução de uma estratégia de amostragem com consciência de anisotropia e fusão espaço-temporal, que adaptativamente atribui campos receptivos a Gaussianas em diferentes escalas e estágios, permitindo uma agregação de características mais eficaz e uma captura mais rica de informações da cena. Através de avaliações extensivas, demonstramos que o PG-Occ alcança desempenho de ponta com uma melhoria relativa de 14,3% no mIoU em relação ao método anterior de melhor desempenho. O código e os modelos pré-treinados serão liberados após a publicação em nossa página do projeto: https://yanchi-3dv.github.io/PG-Occ
Os avanços recentes têm expandido as fronteiras da IA, levando-a de tarefas de reconhecimento de padrões para problemas que exigem raciocínio passo a passo, no estilo do Sistema 2, especialmente com modelos de linguagem de grande escala. No entanto, ao contrário do aprendizado, onde conceitos de generalização e avaliação fora da distribuição (OoD) são bem formalizados, não há uma definição ou métrica clara e consistente para a capacidade de raciocínio. Propomos a generalização de Complexidade Fora da Distribuição (Complexity OoD) como uma estrutura e configuração de problema para definir e medir o raciocínio. Um modelo exibe generalização de Complexity OoD quando mantém o desempenho em instâncias de teste cuja complexidade mínima necessária para a solução, seja representacional (estrutura de solução mais rica) ou computacional (mais etapas de raciocínio/comprimento do programa), excede a de todos os exemplos de treinamento. Formalizamos a complexidade por meio da complexidade de Kolmogorov da descrição da solução e proxies operacionais (por exemplo, contagens de objetos/relações; contagens de etapas de raciocínio), esclarecendo como a Complexity OoD difere da OoD de comprimento e composicional. Essa perspectiva unifica aprendizado e raciocínio: muitos casos solucionáveis com processamento semelhante ao Sistema 1 em baixa complexidade tornam-se semelhantes ao Sistema 2 sob pressão de complexidade, enquanto o Sistema 2 pode ser visto como generalização sobre estruturas de solução. Traduzimos essa perspectiva para a prática com recomendações para operacionalizar a Complexity OoD em toda a pilha: incorporar a complexidade no design de benchmarks e métricas de avaliação, repensar a supervisão para focar em traços de solução, buscar e projetar vieses indutivos para generalização de Complexity OoD, abordar transbordamentos de aprendizado para raciocínio, como atalhos espúrios, robustez semântica, esquecimento catastrófico e calibração passo a passo. Como a Complexity OoD não pode ser resolvida apenas com o escalonamento de dados, o progresso em direção a um raciocínio robusto exigirá arquiteturas e regimes de treinamento que modelam e alocam computação explicitamente em relação à complexidade.
Os aprendizes multimodais tradicionais encontram representações unificadas para tarefas como resposta a perguntas visuais, mas dependem fortemente de conjuntos de dados pareados. No entanto, uma questão negligenciada, mas potencialmente poderosa, é: pode-se aproveitar dados multimodais auxiliares não pareados para aprimorar diretamente o aprendizado de representações em uma modalidade alvo? Apresentamos o UML: Unpaired Multimodal Learner, um paradigma de treinamento agnóstico à modalidade no qual um único modelo processa alternadamente entradas de diferentes modalidades enquanto compartilha parâmetros entre elas. Esse design explora a suposição de que diferentes modalidades são projeções de uma realidade subjacente compartilhada, permitindo que o modelo se beneficie da estrutura cruzada entre modalidades sem exigir pares explícitos. Teoricamente, sob suposições lineares de geração de dados, mostramos que dados auxiliares não pareados podem produzir representações estritamente mais informativas sobre o processo de geração de dados do que o treinamento unimodal. Empiricamente, demonstramos que o uso de dados não pareados de modalidades auxiliares — como texto, áudio ou imagens — melhora consistentemente o desempenho em tarefas subsequentes em diversos alvos unimodais, como imagem e áudio. Nossa página do projeto: https://unpaired-multimodal.github.io/
Modelos de linguagem de grande escala (LLMs) têm demonstrado progresso notável em raciocínio, frequentemente por meio de ajuste fino supervisionado (SFT). No entanto, o SFT é intensivo em recursos, dependendo de grandes conjuntos de dados curados, demonstrações amostradas por rejeição e otimização uniforme em todos os tokens, mesmo que apenas uma fração deles carregue valor de aprendizado significativo. Neste trabalho, exploramos uma ideia contraintuitiva: modelos de linguagem menores (SLMs) podem ensinar modelos de linguagem maiores (LLMs) ao revelar momentos de raciocínio de alto valor que refletem a força única dos últimos? Propomos o LightReasoner, uma estrutura inovadora que aproveita a divergência comportamental entre um modelo especialista mais forte (LLM) e um modelo amador mais fraco (SLM). O LightReasoner opera em duas etapas: (1) uma etapa de amostragem que identifica momentos críticos de raciocínio e constrói exemplos de supervisão que capturam a vantagem do especialista por meio do contraste entre especialista e amador, e (2) uma etapa de ajuste fino que alinha o modelo especialista com esses exemplos destilados, amplificando seus pontos fortes de raciocínio. Em sete benchmarks matemáticos, o LightReasoner melhora a precisão em até 28,1%, enquanto reduz o consumo de tempo em 90%, os problemas amostrados em 80% e o uso de tokens ajustados em 99%, tudo isso sem depender de rótulos de verdade absoluta. Ao transformar SLMs mais fracos em sinais de ensino eficazes, o LightReasoner oferece uma abordagem escalável e eficiente em termos de recursos para avançar o raciocínio de LLMs. O código está disponível em: https://github.com/HKUDS/LightReasoner
A robustez do ASR (Reconhecimento Automático de Fala) diante de mudanças de domínio é crucial, pois sistemas do mundo real encontram sotaques e domínios não vistos com dados rotulados limitados. Embora o pseudo-rotulamento ofereça uma solução prática, ele frequentemente introduz erros sistemáticos específicos de sotaque que a filtragem não consegue corrigir. Nós nos perguntamos: Como podemos corrigir esses vieses recorrentes sem a verdade fundamental do domínio de destino? Propomos uma correção simples no espaço de parâmetros: em um domínio de origem contendo dados reais e pseudo-rotulados, dois modelos de ASR são ajustados a partir da mesma inicialização, um com rótulos verdadeiros e outro com pseudo-rótulos, e a diferença de seus pesos forma um vetor de correção que captura os vieses dos pseudo-rótulos. Quando aplicado a um modelo de destino pseudo-rotulado, esse vetor melhora o reconhecimento, alcançando uma redução relativa de até 35% na Taxa de Erro de Palavras (WER) no AfriSpeech-200 em dez sotaques africanos com o modelo Whisper tiny.
Os modelos de difusão controláveis atuais geralmente dependem de arquiteturas fixas que modificam as ativações intermediárias para injetar orientações condicionadas a uma nova modalidade. Essa abordagem utiliza uma estratégia de condicionamento estática para um processo de desruído dinâmico e multiestágio, limitando a capacidade do modelo de adaptar sua resposta à medida que a geração evolui de uma estrutura grosseira para detalhes refinados. Introduzimos o TC-LoRA (LoRA Condicional Modulado Temporalmente), um novo paradigma que permite controle dinâmico e contextual ao condicionar diretamente os pesos do modelo. Nosso framework utiliza uma hiper-rede para gerar adaptadores LoRA em tempo real, personalizando as modificações de pesos para a rede principal congelada em cada etapa da difusão com base no tempo e na condição do usuário. Esse mecanismo permite que o modelo aprenda e execute uma estratégia explícita e adaptativa para aplicar orientações condicionais ao longo de todo o processo de geração. Por meio de experimentos em diversos domínios de dados, demonstramos que esse controle paramétrico dinâmico melhora significativamente a fidelidade gerativa e a aderência a condições espaciais em comparação com métodos estáticos baseados em ativações. O TC-LoRA estabelece uma abordagem alternativa na qual a estratégia de condicionamento do modelo é modificada por meio de uma adaptação funcional mais profunda de seus pesos, permitindo que o controle se alinhe às demandas dinâmicas da tarefa e do estágio gerativo.
Apresentamos o MRMR, o primeiro benchmark multidisciplinar multimodal de recuperação em nível de especialista que exige raciocínio intensivo. O MRMR contém 1.502 consultas abrangendo 23 domínios, com documentos positivos cuidadosamente verificados por especialistas humanos. Em comparação com benchmarks anteriores, o MRMR introduz três avanços principais. Primeiro, ele desafia sistemas de recuperação em diversas áreas de expertise, permitindo uma comparação refinada de modelos entre domínios. Segundo, as consultas são intensivas em raciocínio, com imagens que exigem interpretação mais profunda, como o diagnóstico de lâminas microscópicas. Além disso, introduzimos a Recuperação por Contradição, uma nova tarefa que requer que os modelos identifiquem conceitos conflitantes. Por fim, as consultas e documentos são construídos como sequências intercaladas de imagem-texto. Diferente de benchmarks anteriores restritos a imagens únicas ou documentos unimodais, o MRMR oferece um cenário realista com consultas de múltiplas imagens e documentos de corpus de modalidade mista. Realizamos uma avaliação extensa de 4 categorias de sistemas de recuperação multimodal e 14 modelos de ponta no MRMR. O modelo de incorporação de texto Qwen3-Embedding com legendas de imagens geradas por LLM alcança o melhor desempenho, destacando um espaço substancial para a melhoria de modelos de recuperação multimodal. Embora os modelos multimodais mais recentes, como o Ops-MM-Embedding, tenham desempenho competitivo em consultas de domínio especializado, eles ficam aquém em tarefas intensivas em raciocínio. Acreditamos que o MRMR abre caminho para o avanço da recuperação multimodal em cenários mais realistas e desafiadores.
Modelos de raciocínio têm mostrado progressos notáveis recentemente em domínios como matemática e programação. No entanto, suas habilidades de nível especialista em matemática e programação contrastam fortemente com seu desempenho em tarefas interativas de longo prazo, como navegação na web e uso de computadores/celulares. Inspirados pela literatura sobre cognição humana, argumentamos que os agentes de IA atuais precisam de "tentativa e erro vicário" - a capacidade de simular mentalmente futuros alternativos antes de agir - para aprimorar sua compreensão e desempenho em ambientes interativos complexos. Apresentamos o Dyna-Mind, uma estrutura de treinamento em duas etapas que ensina explicitamente agentes (V)LM a integrar tal simulação em seu raciocínio. Na etapa 1, introduzimos o Raciocínio com Simulações (ReSim), que treina o agente para gerar traços de raciocínio estruturados a partir de árvores de busca expandidas construídas com experiências reais coletadas por meio de interações com o ambiente. O ReSim, portanto, fundamenta o raciocínio do agente em dinâmicas mundiais fiéis e o capacita a antecipar estados futuros em seu raciocínio. Na etapa 2, propomos o Dyna-GRPO, um método de aprendizado por reforço online para fortalecer ainda mais a capacidade de simulação e tomada de decisão do agente, utilizando tanto recompensas de resultado quanto estados intermediários como feedback de execuções reais. Experimentos em dois benchmarks sintéticos (Sokoban e ALFWorld) e um benchmark realista (AndroidWorld) demonstram que (1) o ReSim infunde efetivamente a capacidade de simulação em agentes de IA, e (2) o Dyna-GRPO aproveita sinais de resultado e nível de interação para aprender políticas melhores para tarefas de longo prazo e intensivas em planejamento. Juntos, esses resultados destacam o papel central da simulação em permitir que agentes de IA raciocinem, planejem e ajam de forma mais eficaz em ambientes cada vez mais desafiadores.
Os modelos de linguagem de grande escala (LLMs) demonstraram avanços notáveis no raciocínio matemático e lógico, porém a estatística, como uma disciplina distinta e integrativa, permanece pouco explorada nos esforços de benchmark. Para abordar essa lacuna, introduzimos o StatEval, o primeiro benchmark abrangente dedicado à estatística, abrangendo tanto a amplitude quanto a profundidade em diferentes níveis de dificuldade. O StatEval consiste em 13.817 problemas fundamentais que cobrem os currículos de graduação e pós-graduação, juntamente com 2.374 tarefas de prova em nível de pesquisa extraídas de periódicos líderes. Para construir o benchmark, projetamos um pipeline escalável de múltiplos agentes com validação humana no loop que automatiza a extração em larga escala, a reformulação e o controle de qualidade dos problemas, garantindo o rigor acadêmico. Além disso, propomos um framework robusto de avaliação adaptado tanto para tarefas computacionais quanto baseadas em provas, permitindo uma avaliação detalhada da capacidade de raciocínio. Os resultados experimentais revelam que, embora modelos proprietários como o GPT5-mini atinjam menos de 57% nos problemas de nível de pesquisa, os modelos de código aberto apresentam desempenho significativamente inferior. Esses achados destacam os desafios únicos do raciocínio estatístico e as limitações dos LLMs atuais. Esperamos que o StatEval sirva como um benchmark rigoroso para avançar a inteligência estatística em modelos de linguagem de grande escala. Todos os dados e códigos estão disponíveis em nossa plataforma web: https://stateval.github.io/.
A síntese dinâmica de visão tem apresentado avanços significativos, mas a reconstrução de cenas a partir de vídeos casuais e não calibrados continua desafiadora devido à otimização lenta e à estimativa complexa de parâmetros. Neste trabalho, apresentamos o Instant4D, um sistema de reconstrução monocular que aproveita uma representação nativa 4D para processar eficientemente sequências de vídeo casuais em minutos, sem a necessidade de câmeras calibradas ou sensores de profundidade. Nosso método começa com a recuperação geométrica por meio de SLAM visual profundo, seguida pela poda de grade para otimizar a representação da cena. Nosso projeto reduz significativamente a redundância enquanto mantém a integridade geométrica, diminuindo o tamanho do modelo para menos de 10% de sua dimensão original. Para lidar com a dinâmica temporal de forma eficiente, introduzimos uma representação simplificada de Gaussianas 4D, alcançando uma aceleração de 30x e reduzindo o tempo de treinamento para menos de dois minutos, mantendo um desempenho competitivo em vários benchmarks. Nosso método reconstrói um único vídeo em até 10 minutos no conjunto de dados Dycheck ou para um vídeo típico de 200 quadros. Aplicamos ainda nosso modelo a vídeos capturados em cenários reais, demonstrando sua generalizabilidade. O site do nosso projeto está publicado em https://instant4d.github.io/.
Os agentes DeepResearch representam um paradigma transformador de IA, realizando pesquisas de nível especializado por meio de raciocínio sofisticado e integração de múltiplas ferramentas. No entanto, avaliar esses sistemas continua sendo um desafio crítico devido a cenários de pesquisa abertos e benchmarks existentes que se concentram em capacidades isoladas em vez de desempenho holístico. Diferentemente das tarefas tradicionais de LLM, os sistemas DeepResearch devem sintetizar fontes diversas, gerar insights e apresentar descobertas coerentes, capacidades que resistem à verificação simples. Para abordar essa lacuna, introduzimos o DeepResearch-ReportEval, um framework abrangente projetado para avaliar sistemas DeepResearch por meio de seus outputs mais representativos: relatórios de pesquisa. Nossa abordagem mede sistematicamente três dimensões: qualidade, redundância e factualidade, utilizando uma metodologia inovadora de LLM-as-a-Judge que alcança forte concordância com especialistas. Contribuímos com um benchmark padronizado de 100 consultas curadas, abrangendo 12 categorias do mundo real, permitindo uma comparação sistemática de capacidades. Nossa avaliação de quatro sistemas comerciais líderes revela filosofias de design distintas e trade-offs de desempenho, estabelecendo insights fundamentais à medida que o DeepResearch evolui de assistentes de informação para parceiros de pesquisa inteligentes. O código-fonte e os dados estão disponíveis em: https://github.com/HKUDS/DeepResearch-Eval.
O escalonamento paralelo em tempo de teste (TTS) é uma abordagem fundamental para aprimorar modelos de linguagem de grande escala (LLMs), geralmente por meio da amostragem de múltiplas cadeias de pensamento baseadas em tokens em paralelo e da agregação dos resultados por votação ou busca. Avanços recentes em raciocínio latente, onde o raciocínio intermediário se desdobra em espaços vetoriais contínuos, oferecem uma alternativa mais eficiente ao Chain-of-Thought explícito, mas ainda é incerto se tais modelos latentes podem se beneficiar de forma semelhante do TTS paralelo, principalmente devido à ausência de mecanismos de amostragem em espaços contínuos e à falta de sinais probabilísticos para agregação avançada de trajetórias. \ Este trabalho possibilita o TTS paralelo para modelos de raciocínio latente ao abordar as questões mencionadas. Para amostragem, introduzimos duas estratégias estocásticas inspiradas em incerteza: Monte Carlo Dropout e Ruído Gaussiano Aditivo. Para agregação, projetamos um Modelo de Recompensa Latente (LatentRM) treinado com um objetivo contrastivo passo a passo para pontuar e guiar o raciocínio latente. Experimentos extensivos e análises de visualização mostram que ambas as estratégias de amostragem escalam efetivamente com o poder de computação e exibem dinâmicas de exploração distintas, enquanto o LatentRM permite uma seleção eficaz de trajetórias. Juntas, nossas explorações abrem uma nova direção para inferência escalável em espaços contínuos. O código foi disponibilizado em https://github.com/YRYangang/LatentTTS.
Modelos de Linguagem Falada em Tempo Real (SLMs) enfrentam dificuldades para aproveitar o raciocínio em Cadeia de Pensamento (CoT) devido à latência proibitiva de gerar todo o processo de pensamento sequencialmente. Permitir que os SLMs pensem enquanto falam, de forma semelhante aos humanos, está atraindo atenção crescente. Apresentamos, pela primeira vez, o "Mind-Paced Speaking" (MPS), um framework inspirado no cérebro que permite raciocínio de alta fidelidade em tempo real. Assim como os humanos utilizam regiões distintas do cérebro para pensar e responder, propomos uma abordagem de duplo cérebro, empregando um "Cérebro de Formulação" para raciocínio de alto nível, que orienta e define o ritmo de um "Cérebro de Articulação" separado, responsável pela geração de fala fluente. Essa divisão de trabalho elimina a alternância de modos, preservando a integridade do processo de raciocínio. Experimentos mostram que o MPS supera significativamente os métodos existentes de pensar-enquanto-fala e alcança desempenho de raciocínio comparável a modelos que pré-computam o CoT completo antes de falar, enquanto reduz drasticamente a latência. Em uma configuração de latência zero, o método proposto atinge uma precisão de 92,8% na tarefa de raciocínio matemático Spoken-MQA e obtém uma pontuação de 82,5 na tarefa de conversação falada URO-Bench. Nosso trabalho efetivamente preenche a lacuna entre raciocínio de alta qualidade e interação em tempo real.
A revisão por pares é a pedra angular da publicação científica, mas sofre com inconsistências, subjetividade dos revisores e desafios de escalabilidade. Apresentamos o ReviewerToo, uma estrutura modular para estudar e implementar revisão por pares assistida por IA, complementando o julgamento humano com avaliações sistemáticas e consistentes. O ReviewerToo permite experimentos sistemáticos com personas especializadas de revisores e critérios de avaliação estruturados, podendo ser parcial ou totalmente integrado em fluxos de trabalho reais de conferências. Validamos o ReviewerToo em um conjunto de dados cuidadosamente curado de 1.963 submissões de artigos da ICLR 2025, onde nossos experimentos com o modelo gpt-oss-120b alcançaram 81,8% de precisão na tarefa de classificar um artigo como aceito/rejeitado, em comparação com 83,9% para o revisor humano médio. Além disso, as revisões geradas pelo ReviewerToo foram avaliadas como de qualidade superior à média humana por um juiz LLM, embora ainda atrás das contribuições mais fortes de especialistas. Nossa análise destaca domínios onde os revisores de IA se destacam (por exemplo, verificação de fatos, cobertura da literatura) e onde eles têm dificuldades (por exemplo, avaliar novidade metodológica e contribuições teóricas), ressaltando a necessidade contínua de expertise humana. Com base nessas descobertas, propomos diretrizes para integrar a IA em pipelines de revisão por pares, mostrando como a IA pode melhorar a consistência, cobertura e justiça, enquanto deixa julgamentos avaliativos complexos para especialistas do domínio. Nosso trabalho fornece uma base para sistemas híbridos e sistemáticos de revisão por pares que escalam com o crescimento da publicação científica.
Protocolos de controle de IA servem como um mecanismo de defesa para impedir que agentes de LLM não confiáveis causem danos em ambientes autônomos. Trabalhos anteriores tratam isso como um problema de segurança, realizando testes de estresse com explorações que utilizam o contexto de implantação para completar sutilmente tarefas secundárias prejudiciais, como a inserção de backdoors. Na prática, a maioria dos protocolos de controle de IA é fundamentalmente baseada em monitores de LLM, que podem se tornar um ponto central de falha. Estudamos ataques adaptativos por um modelo não confiável que conhece o protocolo e o modelo monitor, o que é plausível se o modelo não confiável foi treinado com um corte de conhecimento posterior ou pode buscar essas informações de forma autônoma. Instanciamos um vetor de ataque adaptativo simples no qual o atacante incorpora injeções de prompt publicamente conhecidas ou zero-shot nas saídas do modelo. Usando essa tática, modelos de ponta consistentemente evitam diversos monitores e completam tarefas maliciosas em dois principais benchmarks de controle de IA. O ataque funciona universalmente contra protocolos atuais que dependem de um monitor. Além disso, o recente protocolo Defer-to-Resample até mesmo se volta contra si mesmo, pois sua reamostragem amplifica a injeção de prompt e efetivamente a reformula como um ataque best-of-n. Em geral, ataques adaptativos a modelos de monitor representam uma grande lacuna nos protocolos de controle atuais e devem se tornar um componente padrão das avaliações para futuros mecanismos de controle de IA.
Modelos de raciocínio de grande escala (LRMs) impulsionados por Aprendizado por Reforço com Recompensa de Verificador (RLVR) têm demonstrado grande poder na resolução de problemas, mas frequentemente causam sobrepensamento: raciocínio excessivo e desviante que infla o custo computacional. Projetos anteriores de penalização no RLVR conseguiram reduzir o consumo de tokens, mas muitas vezes prejudicaram o desempenho do modelo, o que decorre da supervisão excessivamente simplista em nível de token. Neste artigo, argumentamos que a granularidade da supervisão desempenha um papel crucial no equilíbrio entre eficiência e precisão, e propomos a Penalização de Segmento Relativo em Grupo (GRSP), um método em nível de etapa para regular o raciocínio. Como análises preliminares mostram que segmentos de raciocínio estão fortemente correlacionados com o consumo de tokens e o desempenho do modelo, projetamos um mecanismo de ponderação consciente do comprimento em clusters de segmentos. Experimentos extensivos demonstram que o GRSP alcança uma eficiência superior de tokens sem comprometer significativamente a precisão, especialmente em problemas mais difíceis. Além disso, o GRSP estabiliza o treinamento de RL e escala efetivamente em diferentes tamanhos de modelos.
Modelos de descrição de imagens zero-shot são propostos recentemente como abordagens que utilizam representações visão-linguagem em um espaço comum para descrever imagens sem depender de dados pareados de imagem-texto. Para descrever uma imagem, eles decodificam textualmente uma característica de imagem alinhada com texto, mas limitam seu escopo a representações globais e descrições da imagem inteira. Apresentamos , um framework unificado para descrição zero-shot que muda de um paradigma centrado na imagem para um paradigma centrado em patches, permitindo a descrição de regiões arbitrárias sem a necessidade de supervisão em nível de região. Em vez de depender de representações globais da imagem, tratamos patches individuais como unidades atômicas de descrição e os agregamos para descrever regiões arbitrárias, desde patches únicos até áreas não contíguas e imagens inteiras. Analisamos os elementos-chave que permitem que os modelos latentes de descrição atuais funcionem em nosso novo framework proposto. Experimentos demonstram que backbones que produzem características visuais densas e significativas, como o DINO, são essenciais para alcançar desempenho de ponta em múltiplas tarefas de descrição baseada em regiões. Comparados a outras linhas de base e competidores de última geração, nossos modelos alcançam melhor desempenho em tarefas zero-shot de descrição densa, descrição de conjuntos de regiões e uma nova tarefa de descrição por traçado, destacando a eficácia das representações semânticas baseadas em patches para a geração escalável de descrições. Página do projeto em https://paciosoft.com/Patch-ioner/ .
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram progressos notáveis em raciocínio, mas às vezes produzem respostas que são subótimas para os usuários em tarefas como escrita, busca de informações ou fornecimento de orientações práticas. As práticas convencionais de alinhamento geralmente assumem que maximizar a recompensa do modelo também maximiza o bem-estar do usuário, mas essa suposição frequentemente falha na prática: os modelos podem superexplicar ou gerar raciocínios excessivamente verbosos quando os usuários preferem respostas concisas. Tais comportamentos se assemelham ao dilema do prisioneiro, onde escolhas individualmente racionais levam a resultados socialmente subótimas. O desafio fundamental é a falta de um mecanismo de tomada de decisão fundamentado que beneficie mutuamente tanto o LLM quanto o usuário. Propomos o Alinhamento Teórico dos Jogos (GTAlign), uma estrutura de alinhamento que integra a tomada de decisão baseada na teoria dos jogos tanto no raciocínio quanto no treinamento. Durante o raciocínio, o modelo trata explicitamente a interação usuário-LLM como um jogo estratégico: ele constrói matrizes de payoff em sua cadeia de raciocínio para estimar o bem-estar tanto para si mesmo quanto para o usuário e, em seguida, seleciona ações que são mutuamente benéficas. Durante o treinamento, introduzimos uma recompensa de bem-estar mútuo que reforça respostas cooperativas, alinhando o comportamento do modelo com resultados socialmente eficientes. Além disso, introduzimos uma técnica de inferência que aproveita o raciocínio teórico dos jogos para adaptar dinamicamente a resposta do LLM quando as políticas de precificação do serviço de LLM mudam. Experimentos extensivos demonstram que o GTAlign melhora substancialmente a eficiência do raciocínio, a qualidade das respostas e o bem-estar mútuo em comparação com as abordagens de referência em diversas tarefas. O código está disponível em https://github.com/ulab-uiuc/GTAlign.
Agentes baseados em grandes modelos de linguagem (LLMs) enfrentam dificuldades com tentativas e erros sem sentido e a geração de ações alucinatórias devido à falta de planejamento global em tarefas de longo prazo. Neste artigo, introduzimos uma estrutura de planejar-e-executar e propomos o EAGLET, um método de treinamento de planejamento eficiente e eficaz para aprimorar as habilidades de planejamento do agente executor sem esforço humano. Especificamente, treinamos um planejador global plug-and-play por meio de um processo em duas etapas: primeiro, sintetizamos planos de alta qualidade a partir de um LLM avançado usando nossa estratégia de filtragem de consenso homólogo proposta e aplicamos o ajuste fino como uma inicialização a frio. Além disso, aprimoramos ainda mais o planejador com uma etapa de aprendizado por reforço baseado em regras, utilizando uma nova recompensa de ganho de capacidade do executor, garantindo que ele possa lidar com instruções de tarefas de diferentes níveis de dificuldade. Experimentos em três tarefas de agente de longo prazo mostram que os agentes executores equipados com nosso planejador superam os métodos existentes, alcançando um novo desempenho de ponta. Enquanto isso, o EAGLET reduz os custos de treinamento em 8 vezes em comparação com as linhas de base baseadas em RL, e não requer esforço manual ou dados de treinamento extras, oferecendo uma solução eficiente e eficaz.
Como um novo paradigma de geração de conteúdo visual, os modelos autoregressivos de texto para imagem sofrem com inferência lenta devido ao seu processo sequencial de decodificação token por token, frequentemente exigindo milhares de passagens de modelo para gerar uma única imagem. Para abordar essa ineficiência, propomos o Especulativo Jacobi-Denoising Decoding (SJD2), um framework que incorpora o processo de denoising em iterações de Jacobi para permitir a geração paralela de tokens em modelos autoregressivos. Nosso método introduz um paradigma de previsão do próximo token limpo que permite que os modelos autoregressivos pré-treinados aceitem embeddings de tokens perturbados por ruído e prevejam os próximos tokens limpos por meio de ajuste fino de baixo custo. Esse paradigma de denoising guia o modelo em direção a trajetórias de Jacobi mais estáveis. Durante a inferência, nosso método inicializa sequências de tokens com ruído gaussiano e realiza previsões iterativas do próximo token limpo no espaço de embeddings. Empregamos um critério probabilístico para verificar e aceitar múltiplos tokens em paralelo, e refinamos os tokens não aceitos para a próxima iteração com a trajetória de denoising. Experimentos mostram que nosso método pode acelerar a geração ao reduzir as passagens de modelo, mantendo a qualidade visual das imagens geradas.
Modelos de linguagem de grande escala (LLMs) e frameworks agentes emergentes estão começando a transformar a biologia de célula única ao permitir raciocínio em linguagem natural, anotação generativa e integração de dados multimodais. No entanto, o progresso permanece fragmentado entre modalidades de dados, arquiteturas e padrões de avaliação. O LLM4Cell apresenta o primeiro levantamento unificado de 58 modelos fundamentais e agentes desenvolvidos para pesquisa em célula única, abrangendo modalidades de RNA, ATAC, multi-ômicas e espaciais. Categorizamos esses métodos em cinco famílias — fundamentais, ponte-texto, espaciais, multimodais, epigenômicos e agentes — e os mapeamos para oito tarefas analíticas principais, incluindo anotação, modelagem de trajetória e perturbação, e previsão de resposta a drogas. Com base em mais de 40 conjuntos de dados públicos, analisamos a adequação de benchmarks, diversidade de dados e restrições éticas ou de escalabilidade, e avaliamos os modelos em 10 dimensões de domínio, cobrindo fundamentação biológica, alinhamento multi-ômico, justiça, privacidade e explicabilidade. Ao vincular conjuntos de dados, modelos e domínios de avaliação, o LLM4Cell fornece a primeira visão integrada da inteligência de célula única impulsionada por linguagem e delineia desafios abertos em interpretabilidade, padronização e desenvolvimento confiável de modelos.
Modelos de Linguagem de Grande Escala (LLMs) exigem edição eficiente de conhecimento (KE) para atualizar informações factuais, mas os métodos existentes apresentam uma deterioração significativa no recall factual multi-hop. Essa falha é particularmente aguda quando as edições envolvem sujeitos intermediários implícitos dentro de cadeias de raciocínio. Através de análise causal, revelamos que essa limitação decorre de uma negligência em relação à forma como o conhecimento encadeado é dinamicamente representado e utilizado no nível dos neurônios. Descobrimos que, durante o raciocínio multi-hop, sujeitos implícitos funcionam como neurônios de consulta, que ativam sequencialmente neurônios de valor correspondentes através das camadas do transformador para acumular informações em direção à resposta final, um aspecto dinâmico que trabalhos anteriores de KE ignoraram. Guiados por essa percepção, propomos o ACE: Edição de Conhecimento Controlada por Atribuição para Recall Fatorial Multi-hop, um framework que aproveita a atribuição no nível dos neurônios para identificar e editar essas vias críticas de consulta-valor (Q-V). O ACE oferece uma solução mecanicamente fundamentada para KE multi-hop, superando empiricamente os métodos state-of-the-art em 9,44% no GPT-J e 37,46% no Qwen3-8B. Nossa análise revela ainda padrões de ativação mais refinados no Qwen3 e demonstra que a interpretabilidade semântica dos neurônios de valor é orquestrada pela acumulação orientada por consultas. Essas descobertas estabelecem um novo caminho para avançar as capacidades de KE com base no entendimento fundamentado dos mecanismos internos de raciocínio.
A Segmentação de Objetos em Vídeo por Referência (RVOS) tem como objetivo segmentar o objeto referenciado pela frase de consulta em um vídeo. A maioria dos métodos existentes requer treinamento de ponta a ponta com anotações densas de máscaras, o que pode ser computacionalmente custoso e menos escalável. Neste trabalho, repensamos o problema do RVOS e buscamos investigar a chave para essa tarefa. Com base em modelos de segmentação fundamentais existentes, decompomos a tarefa de RVOS em fatores de referência, vídeo e segmentação, e propomos uma estrutura de Geração e Seleção de Prompts Temporais (Tenet) para abordar os fatores de referência e vídeo, deixando o problema de segmentação para os modelos fundamentais. Para adaptar de forma eficiente modelos de segmentação fundamentais baseados em imagens à segmentação de objetos em vídeo por referência, utilizamos detectores e rastreadores de objetos prontos para uso a fim de produzir prompts temporais associados à frase de referência. Embora prompts temporais de alta qualidade possam ser produzidos, eles não podem ser facilmente identificados a partir de pontuações de confiança. Para resolver esse problema, propomos o Aprendizado de Preferência de Prompts para avaliar a qualidade dos prompts temporais produzidos. Ao utilizar esses prompts para instruir modelos de segmentação fundamentais baseados em imagens, conseguimos produzir máscaras de alta qualidade para o objeto referenciado, permitindo uma adaptação eficiente do modelo à segmentação de objetos em vídeo por referência. Experimentos em benchmarks de RVOS demonstram a eficácia da estrutura Tenet.
Modelos de linguagem de grande escala (LLMs) apresentam desafios significativos de implantação devido aos seus imensos requisitos computacionais e de memória. Embora o pruning semi-estruturado, particularmente a esparsidade 2:4, ofereça um caminho para a aceleração prática em hardware, os métodos existentes frequentemente resultam em uma degradação substancial de desempenho. Para preencher essa lacuna, introduzimos o ARMOR: (Adaptive Representation with Matrix-factORization), um novo algoritmo de pruning pós-treinamento em uma única etapa. Em vez de podar diretamente os pesos, o ARMOR fatoriza cada matriz de pesos em um núcleo esparso 2:4 envolto por duas matrizes diagonais de bloco de baixo custo. Esses envoltórios atuam como corretores de erro de pré e pós-transformação eficientes, oferecendo maior flexibilidade para preservar a qualidade do modelo em comparação com as técnicas convencionais de pruning 2:4. O núcleo esparso e os envoltórios diagonais de bloco são escolhidos por meio de um algoritmo de descida coordenada por blocos que minimiza uma perda proxy por camada. Provamos teoricamente que essa otimização é garantida para convergir para uma solução com uma perda proxy menor ou igual aos algoritmos de pruning state-of-the-art. Experimentos nas famílias de modelos Llama (Touvron et al., 2023; Dubey et al., 2024) e Qwen (Yang et al., 2025) demonstram que o ARMOR supera consistentemente e de forma significativa os métodos de pruning 2:4 state-of-the-art em uma ampla gama de tarefas downstream e avaliações de perplexidade. O ARMOR alcança esse desempenho superior enquanto mantém os ganhos de velocidade de inferência e as reduções substanciais no uso de memória do pruning 2:4, estabelecendo uma troca mais eficaz entre compressão do modelo e precisão da tarefa.
Agentes robóticos do mundo real devem agir sob observabilidade parcial e horizontes longos, onde pistas-chave podem aparecer muito antes de afetarem a tomada de decisão. No entanto, a maioria das abordagens modernas depende exclusivamente de informações instantâneas, sem incorporar insights do passado. Modelos recorrentes ou transformadores padrão lutam para reter e aproveitar dependências de longo prazo: janelas de contexto truncam o histórico, enquanto extensões ingênuas de memória falham em escala e esparsidade. Propomos o ELMUR (External Layer Memory with Update/Rewrite), uma arquitetura transformadora com memória externa estruturada. Cada camada mantém embeddings de memória, interage com eles via atenção cruzada bidirecional e os atualiza por meio de um módulo de memória Least Recently Used (LRU) usando substituição ou combinação convexa. O ELMUR estende os horizontes efetivos até 100.000 vezes além da janela de atenção e alcança uma taxa de sucesso de 100% em uma tarefa sintética de Labirinto-T com corredores de até um milhão de passos. No POPGym, ele supera as linhas de base em mais da metade das tarefas. Nas tarefas de manipulação com recompensa esparsa do MIKASA-Robo com observações visuais, ele quase dobra o desempenho de linhas de base robustas. Esses resultados demonstram que a memória externa estruturada e local por camada oferece uma abordagem simples e escalável para a tomada de decisão sob observabilidade parcial.
Como podemos ensinar novas habilidades a grandes modelos multimodais (LMMs) sem apagar habilidades anteriores? Estudamos o ajuste sequencial em cinco habilidades específicas enquanto monitoramos a capacidade geral em oito benchmarks de teste em três famílias de modelos. Observamos que o aparente "esquecimento" em tarefas de teste após o ajuste fino específico pode se recuperar parcialmente em estágios posteriores. Rastreamos esse comportamento a uma mudança mensurável na distribuição de tokens de saída, manifestada por meio de uma sonda simples de viés de contagem que co-varia com o esquecimento. Guiados por essa análise, identificamos duas receitas simples e robustas de ajuste que aprendem fortemente enquanto limitam a deriva: (i) atualizar apenas as camadas de projeção de auto-atenção, e (ii) atualizar apenas o Gate&Up da MLP enquanto congela a projeção Down. Em modelos e tarefas, essas escolhas proporcionam ganhos significativos no alvo enquanto preservam amplamente o desempenho nos testes. O código está disponível em https://github.com/jessemelpolio/LMM_CL.
Narrativas pessoais são histórias que os autores constroem para dar significado às suas experiências. O estilo, a maneira distintiva como os autores usam a linguagem para se expressar, é fundamental para a forma como essas narrativas transmitem experiências subjetivas. No entanto, há uma falta de um framework formal para analisar sistematicamente essas escolhas estilísticas. Apresentamos uma abordagem inovadora que formaliza o estilo em narrativas pessoais como padrões nas escolhas linguísticas que os autores fazem ao comunicar experiências subjetivas. Nosso framework integra três domínios: a linguística funcional estabelece a linguagem como um sistema de escolhas significativas, a ciência da computação fornece métodos para extrair e analisar automaticamente padrões sequenciais, e esses padrões são vinculados a observações psicológicas. Usando modelos de linguagem, extraímos automaticamente características linguísticas, como processos, participantes e circunstâncias. Aplicamos nosso framework a centenas de narrativas de sonhos, incluindo um estudo de caso sobre um veterano de guerra com transtorno de estresse pós-traumático. A análise de suas narrativas revela padrões distintos, particularmente como os processos verbais dominam sobre os mentais, ilustrando a relação entre escolhas linguísticas e estados psicológicos.
As abordagens atuais de estimativa de profundidade monocular auto-supervisionada (MDE) enfrentam limitações de desempenho devido à extração insuficiente de conhecimento semântico-espacial. Para resolver esse desafio, propomos o Hybrid-depth, um novo framework que integra sistematicamente modelos de base (por exemplo, CLIP e DINO) para extrair priors visuais e adquirir informações contextuais suficientes para MDE. Nossa abordagem introduz um framework de aprendizado progressivo de grosseiro para refinado: 1) Primeiramente, agregamos características multi-granulares do CLIP (semântica global) e do DINO (detalhes espaciais locais) sob orientação de linguagem contrastiva. Uma tarefa proxy comparando patches de imagem próximos e distantes é projetada para reforçar o alinhamento de características conscientes da profundidade usando prompts de texto; 2) Em seguida, com base nas características grosseiras, integramos informações de pose da câmera e alinhamento de linguagem pixel a pixel para refinar as previsões de profundidade. Este módulo se integra perfeitamente com pipelines existentes de MDE auto-supervisionada (por exemplo, Monodepth2, ManyDepth) como um codificador de profundidade plug-and-play, aprimorando a estimativa contínua de profundidade. Ao agregar o contexto semântico do CLIP e os detalhes espaciais do DINO por meio de orientação de linguagem, nosso método resolve efetivamente os desajustes de granularidade de características. Experimentos extensivos no benchmark KITTI demonstram que nosso método supera significativamente os métodos SOTA em todas as métricas, o que também beneficia tarefas subsequentes como percepção BEV. O código está disponível em https://github.com/Zhangwenyao1/Hybrid-depth.
A personalização de modelos de difusão permite que os usuários gerem novas imagens que incorporam um determinado assunto, oferecendo maior controle do que um prompt de texto. Esses modelos frequentemente apresentam dificuldades quando acabam apenas recriando a imagem do assunto e ignoram o prompt de texto. Observamos que um método popular de personalização, o IP-Adapter, gera automaticamente máscaras que segmentam definitivamente o assunto do fundo durante a inferência. Propomos usar essa máscara gerada automaticamente em uma segunda passagem para mascarar os tokens da imagem, restringindo-os ao assunto e não ao fundo, permitindo que o prompt de texto atue no restante da imagem. Para prompts de texto que descrevem locais e lugares, isso produz imagens que retratam com precisão o assunto enquanto correspondem definitivamente ao prompt. Comparamos nosso método com alguns outros métodos de personalização em tempo de teste e descobrimos que nosso método exibe um alto alinhamento com o prompt e a imagem de origem.