Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos a Ling 2.0, uma série de bases linguísticas orientadas para o raciocínio construída sobre o princípio de que cada ativação potencializa a capacidade de raciocínio. Projetada para escalar de dezenas de bilhões até um trilhão de parâmetros sob um paradigma unificado de *Mixture-of-Experts* (MoE), a Ling 2.0 enfatiza alta esparsidade, consistência entre escalas e eficiência guiada por leis de escalonamento empíricas. A série inclui três modelos sem pensamento (*instruct*) - Ling-mini-2.0, Ling-flash-2.0 e Ling-1T - variando de 16B a 1T de parâmetros totais e alcançando até 7 vezes a eficiência computacional ativa em comparação com suas contrapartes densas. A Ling 2.0 integra inovações coordenadas em arquitetura de modelo, pré-treinamento, pós-treinamento e infraestrutura: um MoE de alta esparsidade com MTP para raciocínio eficiente, dados orientados para raciocínio e ativação de CoT (*Chain-of-Thought*) em meio ao treinamento, ajuste fino baseado em reforço (DFT, Evo-CoT) e treinamento em FP8 em larga escala com *pipelines* heterogêneos de granularidade fina. Na escala de trilhão, a Ling-1T estabelece uma nova fronteira de Pareto entre precisão de raciocínio e eficiência computacional, demonstrando que a ativação esparsa, quando devidamente alinhada com objetivos de raciocínio, permite uma inteligência escalável e eficiente. Coletivamente, a Ling 2.0 fornece uma base coerente, aberta e eficiente para o avanço de futuros modelos de raciocínio e pensamento, incluindo a série Ring construída sobre a mesma base.
Políticas implícitas parametrizadas por modelos generativos, como a Política de Difusão, tornaram-se o padrão para a aprendizagem de políticas e modelos Visão-Linguagem-Ação (VLA) em robótica. No entanto, essas abordagens frequentemente sofrem com alto custo computacional, viés de exposição e dinâmicas de inferência instáveis, que levam à divergência sob mudanças de distribuição. Os Modelos Baseados em Energia (EBMs) abordam essas questões ao aprender paisagens de energia de forma ponta a ponta e modelar dinâmicas de equilíbrio, oferecendo maior robustez e redução do viés de exposição. Ainda assim, políticas parametrizadas por EBMs historicamente têm lutado para escalar de forma eficaz. Trabalhos recentes sobre Transformadores Baseados em Energia (EBTs) demonstram a escalabilidade dos EBMs para espaços de alta dimensionalidade, mas o seu potencial para resolver desafios centrais em modelos fisicamente incorporados permanece pouco explorado. Introduzimos uma nova arquitetura baseada em energia, a EBT-Policy, que resolve problemas centrais em contextos robóticos e do mundo real. Em tarefas simuladas e do mundo real, a EBT-Policy supera consistentemente políticas baseadas em difusão, ao mesmo tempo que requer menos computação para treinamento e inferência. Notavelmente, em algumas tarefas, ela converge em apenas dois passos de inferência, uma redução de 50x em comparação com os 100 passos da Política de Difusão. Além disso, a EBT-Policy exibe capacidades emergentes não vistas em modelos anteriores, como a recuperação *zero-shot* de sequências de ações falhas usando apenas clonagem comportamental e sem treinamento explícito de repetição. Ao alavancar sua energia escalar para inferência consciente da incerteza e alocação dinâmica de computação, a EBT-Policy oferece um caminho promissor para comportamentos robóticos robustos e generalizáveis sob mudanças de distribuição.
O Escalonamento no Momento do Teste (TTS) melhora os modelos de linguagem de grande escala (LLMs) ao alocar computação adicional durante a inferência, tipicamente através de escalonamento paralelo, sequencial ou híbrido. No entanto, estudos anteriores frequentemente assumem arquiteturas de colaboração fixas (por exemplo, topologias) e uso de modelo único, negligenciando o facto de que as arquiteturas e combinações de modelos ótimas podem variar consoante a tarefa. Portanto, estudamos o novo problema de procurar combinações de modelos e arquiteturas computacionalmente ótimas no TTS sob um orçamento fixo. Formalizamo-lo como um grafo de colaboração multi-LLM, onde os nós codificam funções e atribuições de modelos LLM, e as arestas capturam o fluxo de informação. Este problema é desafiador porque (i) o espaço de busca combinatória é proibitivamente grande, e (ii) os requisitos específicos da tarefa exigem projetos personalizados. Para resolver estes desafios, reformulamos o problema como uma otimização probabilística de grafos e, através de experiências piloto, derivamos três perspetivas empíricas sobre os grafos de colaboração TTS. Guiados por estas perspetivas, propomos o Agent-REINFORCE, uma estrutura aumentada por agente-LLM que espelha o *pipeline* REINFORCE ao mapear amostragem-gradiente-atualização para amostragem-*feedback*-atualização, onde o *feedback* serve como um gradiente textual para atualizar o grafo probabilístico e procurar eficientemente grafos de colaboração multi-LLM ótimos. Experiências mostram que o Agent-REINFORCE supera as linhas de base tradicionais e baseadas em LLM em eficiência de amostragem e desempenho de busca, e identifica eficazmente grafos ótimos sob objetivos conjuntos de precisão e latência de inferência.
Apresentamos o [Cosmos-Predict2.5], a mais recente geração dos Modelos de Fundação Mundial Cosmos para IA Física. Construído sobre uma arquitetura baseada em fluxos, o [Cosmos-Predict2.5] unifica a geração Text2World, Image2World e Video2World em um único modelo e aproveita o [Cosmos-Reason1], um modelo de linguagem visual para IA Física, para fornecer uma ancoragem textual mais rica e um controle mais refinado da simulação mundial. Treinado em 200 milhões de clipes de vídeo selecionados e refinado com pós-treinamento baseado em aprendizado por reforço, o [Cosmos-Predict2.5] alcança melhorias substanciais em relação ao [Cosmos-Predict1] na qualidade do vídeo e no alinhamento com instruções, com modelos lançados nas escalas de 2B e 14B. Essas capacidades permitem uma geração de dados sintéticos mais confiável, avaliação de políticas e simulação de circuito fechado para robótica e sistemas autónomos. Ampliamos ainda mais a família com o [Cosmos-Transfer2.5], uma estrutura no estilo control-net para tradução mundial Sim2Real e Real2Real. Apesar de ser 3,5 vezes menor que o [Cosmos-Transfer1], ele oferece maior fidelidade e geração de vídeo robusta de longo horizonte. Juntos, esses avanços estabelecem o [Cosmos-Predict2.5] e o [Cosmos-Transfer2.5] como ferramentas versáteis para escalar a inteligência incorporada. Para acelerar a pesquisa e implantação em IA Física, disponibilizamos o código-fonte, *checkpoints* pré-treinados e *benchmarks* selecionados sob a Licença de Modelo Aberto da NVIDIA em https://github.com/nvidia-cosmos/cosmos-predict2.5 e https://github.com/nvidia-cosmos/cosmos-transfer2.5. Esperamos que esses recursos abertos reduzam as barreiras à adoção e promovam a inovação na construção da próxima geração de inteligência incorporada.
Os recentes avanços em modelos generativos multimodais têm impulsionado melhorias substanciais na edição de imagens. No entanto, os modelos generativos atuais ainda lutam para lidar com tarefas de edição de imagem diversas e complexas que exigem raciocínio implícito, ressaltando a necessidade de um benchmark abrangente para avaliar sistematicamente seu desempenho em vários cenários de raciocínio. Os benchmarks existentes concentram-se principalmente na transformação de atributos de objeto único em cenários realistas, que, embora eficazes, enfrentam dois desafios principais: (1) eles ignoram amplamente as interações multiobjeto, bem como cenários de mundo de jogo que envolvem regras definidas pelo homem, comuns em aplicações da vida real; (2) eles dependem apenas de referências textuais para avaliar as imagens geradas, potencialmente levando a erros de julgamento sistemáticos, especialmente em cenários de raciocínio complexos. Para tanto, este trabalho propõe o UniREditBench, um benchmark unificado para avaliação de edição de imagem baseada em raciocínio. Ele compreende 2.700 amostras criteriosamente curadas, abrangendo cenários do mundo real e do mundo dos jogos em 8 dimensões primárias e 18 subdimensões. Para melhorar a confiabilidade da avaliação, introduzimos a avaliação de referência dual multimodal, fornecendo referências textais e de imagem de ground-truth para cada avaliação de amostra. Além disso, projetamos um pipeline automatizado de síntese de dados multi-cenário e construímos o UniREdit-Data-100K, um grande conjunto de dados sintético com anotações de raciocínio chain-of-thought (CoT) de alta qualidade. Ajustamos o Bagel neste conjunto de dados e desenvolvemos o UniREdit-Bagel, demonstrando melhorias substanciais tanto em configurações in-domain quanto out-of-distribution. Através de um benchmarking abrangente de modelos de edição de imagem de código aberto e proprietários, revelamos seus pontos fortes e fracos em vários aspectos.
A reiluminação é uma tarefa crucial com demanda prática e valor artístico, e os recentes modelos de difusão têm demonstrado grande potencial ao permitir efeitos de iluminação ricos e controláveis. No entanto, como são tipicamente otimizados em espaço latente semântico, onde a proximidade não garante correção física no espaço visual, frequentemente produzem resultados irreais, como reflexos superexpostos, sombras desalinhadas e oclusões incorretas. Abordamos este problema com o UniLumos, uma estrutura unificada de reiluminação para imagens e vídeos que incorpora *feedback* geométrico no espaço RGB em um *backbone* de correspondência de fluxo. Ao supervisionar o modelo com mapas de profundidade e normais extraídos de suas saídas, alinhamos explicitamente os efeitos de iluminação com a estrutura da cena, aumentando a plausibilidade física. Contudo, este *feedback* requer saídas de alta qualidade para supervisão no espaço visual, tornando a eliminação de ruído multi-etapa padrão computacionalmente dispendiosa. Para mitigar isto, empregamos aprendizado de consistência de caminho, permitindo que a supervisão permaneça eficaz mesmo sob regimes de treinamento com poucas etapas. Para permitir controle e supervisão de reiluminação de granularidade fina, projetamos um protocolo de anotação estruturado de seis dimensões que captura atributos fundamentais de iluminação. Com base nisto, propomos o LumosBench, um *benchmark* de nível de atributo desacoplado que avalia a controlabilidade da iluminação por meio de grandes modelos de visão e linguagem, permitindo uma avaliação automática e interpretável da precisão da reiluminação em dimensões individuais. Experimentos extensivos demonstram que o UniLumos alcança qualidade de reiluminação de última geração com consistência física significativamente melhorada, enquanto proporciona uma aceleração de 20x para reiluminação de imagem e vídeo. O código está disponível em https://github.com/alibaba-damo-academy/Lumos-Custom.
As Redes Neurais de Grafos operam através da passagem de mensagens ascendente (bottom-up), diferindo fundamentalmente da percepção visual humana, que capta intuitivamente as estruturas globais primeiro. Investigamos o potencial subestimado dos modelos de visão para a compreensão de grafos, constatando que eles alcançam desempenho comparável ao das GNNs em benchmarks estabelecidos, enquanto exibem padrões de aprendizagem nitidamente diferentes. Esses comportamentos divergentes, combinados com as limitações dos benchmarks existentes que confundem características de domínio com compreensão topológica, motivam nossa introdução do GraphAbstract. Este benchmark avalia a capacidade dos modelos de perceber propriedades globais dos grafos como os humanos fazem: reconhecendo arquétipos organizacionais, detectando simetria, percebendo a força de conectividade e identificando elementos críticos. Nossos resultados revelam que os modelos de visão superam significativamente as GNNs em tarefas que exigem compreensão estrutural holística e mantêm generalização em diferentes escalas de grafos, enquanto as GNNs lutam com a abstração de padrões globais e degradam-se com o aumento do tamanho do grafo. Este trabalho demonstra que os modelos de visão possuem capacidades notáveis, porém subutilizadas, para a compreensão estrutural de grafos, particularmente para problemas que exigem consciência topológica global e raciocínio invariante à escala. Essas descobertas abrem novas vias para alavancar esse potencial subestimado no desenvolvimento de modelos de fundação para grafos mais eficazes para tarefas dominadas pelo reconhecimento holístico de padrões.
Os grandes modelos de raciocínio (LRMs) demonstram fortes capacidades em raciocínio complexo, mas seus ganhos marginais em questões factuais dependentes de evidências são limitados. Descobrimos que essa limitação é parcialmente atribuível a uma lacuna de acerto raciocínio-resposta, na qual o modelo identifica os fatos corretos durante o raciocínio, mas falha em incorporá-los na resposta final, reduzindo assim a fidelidade factual. Para resolver esse problema, propomos o MR-ALIGN, uma estrutura de alinhamento baseada em Meta-Raciocínio que melhora a factualidade sem depender de verificadores externos. O MR-ALIGN quantifica as probabilidades de transição de estado ao longo do processo de pensamento do modelo e constrói uma recompensa implícita consciente da transição que reforça padrões de raciocínio benéficos enquanto suprime os defeituosos nos segmentos atômicos do pensamento. Essa reavaliação remodela os sinais a nível de token em pontuações de segmento conscientes da probabilidade, incentivando trajetórias de raciocínio coerentes que são mais propícias à correção factual. Avaliações empíricas em quatro conjuntos de dados de QA factual e um benchmark de factualidade de formato longo mostram que o MR-ALIGN melhora consistentemente a precisão e a veracidade, reduzindo ao mesmo tempo o raciocínio enganoso. Esses resultados destacam que alinhar o próprio processo de raciocínio, e não meramente as saídas, é crucial para avançar a factualidade nos LRMs.
Os modelos multimodais unificados (UMMs) emergiram como um paradigma poderoso para unir perfeitamente a compreensão e geração de texto e imagem. No entanto, as avaliações predominantes tratam essas habilidades de forma isolada, de modo que tarefas com entradas e saídas multimodais são pontuadas principalmente por meio de raciocínio unimodal, ou seja, benchmarks textuais enfatizam o raciocínio baseado em linguagem, enquanto benchmarks visuais enfatizam resultados de raciocínio manifestados nos pixels. Apresentamos o ROVER para atender a esta necessidade premente de testar o raciocínio cruzado recíproco entre modalidades - o uso de uma modalidade para orientar, verificar ou refinar saídas na outra, uma habilidade central para a visão de inteligência multimodal unificada. O ROVER é um benchmark anotado por humanos que visa explicitamente o raciocínio cruzado recíproco entre modalidades, contendo 1312 tarefas baseadas em 1876 imagens, abrangendo duas configurações complementares. O raciocínio verbalmente aumentado para geração visual avalia se os modelos podem usar instruções verbais e cadeias de raciocínio para orientar a síntese fiel de imagens. O raciocínio visualmente aumentado para geração verbal avalia se os modelos podem gerar visualizações intermediárias que fortalecem seus próprios processos de raciocínio para resposta a perguntas. Experimentos em 17 modelos unificados revelam duas descobertas principais: (i) O raciocínio cruzado entre modalidades determina a qualidade da geração visual, com modelos intercalados superando significativamente os não intercalados; notavelmente, combinar modelos unimodais fortes não consegue alcançar um raciocínio comparável. (ii) Os modelos mostram dissociação entre raciocínio físico e simbólico: eles têm sucesso em interpretar conceitos perceptivos literalmente, mas falham em construir abstrações visuais para tarefas simbólicas, onde raciocínios falhos prejudicam o desempenho. Esses resultados destacam o raciocínio cruzado recíproco entre modalidades como uma fronteira crítica para permitir a verdadeira geração omnimodal.
A imitação de movimento é uma abordagem promissora para locomoção de humanoides, permitindo que agentes adquiram comportamentos semelhantes aos humanos. Os métodos existentes geralmente dependem de conjuntos de dados de captura de movimento de alta qualidade, como o AMASS, mas estes são escassos e caros, limitando a escalabilidade e a diversidade. Estudos recentes tentam escalar a coleta de dados convertendo vídeos da internet em larga escala, exemplificado pelo Humanoid-X. No entanto, eles frequentemente introduzem artefatos físicos, como flutuação, penetração e deslizamento dos pés, que dificultam a imitação estável. Em resposta, apresentamos o PHUMA, um conjunto de dados de locomoção HUMAnoide com base Física que aproveita vídeos humanos em larga escala, ao mesmo tempo que aborda os artefatos físicos por meio de uma curadoria de dados cuidadosa e um redirecionamento com restrições físicas. O PHUMA aplica limites articulares, garante o contato com o solo e elimina o deslizamento dos pés, produzindo movimentos que são tanto em larga escala quanto fisicamente confiáveis. Avaliamos o PHUMA em dois conjuntos de condições: (i) imitação de movimento não visto a partir de vídeos de teste auto-gravados e (ii) seguimento de trajetória com orientação apenas da pélvis. Em ambos os casos, as políticas treinadas com PHUMA superaram o Humanoid-X e o AMASS, alcançando ganhos significativos na imitação de movimentos diversos. O código está disponível em https://davian-robotics.github.io/PHUMA.
Os métodos atuais de geração de vídeo condicionada por movimento sofrem com latência proibitiva (minutos por vídeo) e processamento não causal que impede a interação em tempo real. Apresentamos o MotionStream, que permite latência inferior a um segundo com geração de streaming de até 29 FPS em uma única GPU. Nossa abordagem começa aprimorando um modelo de texto-para-vídeo com controle de movimento, que gera vídeos de alta qualidade que aderem ao prompt de texto global e à orientação de movimento local, mas não realiza inferência sob demanda. Assim, destilamos este professor bidirecional em um aluno causal através do Self Forcing com Destilação por Correspondência de Distribuição, permitindo inferência de streaming em tempo real. Vários desafios cruciais surgem ao gerar vídeos de horizontes temporais longos e potencialmente infinitos: (1) superar a lacuna de domínio entre o treinamento em durações finitas e a extrapolação para horizontes infinitos, (2) sustentar a alta qualidade prevenindo o acúmulo de erros, e (3) manter inferência rápida, sem incorrer em crescimento do custo computacional devido ao aumento de janelas de contexto. Um elemento-chave da nossa abordagem é a introdução de atenção causal com janela deslizante cuidadosamente projetada, combinada com attention sinks. Ao incorporar self-rollout com attention sinks e rolagem do cache KV durante o treinamento, simulamos adequadamente extrapolações no tempo de inferência com uma janela de contexto fixa, permitindo geração em velocidade constante de vídeos arbitrariamente longos. Nossos modelos alcançam resultados state-of-the-art em seguimento de movimento e qualidade de vídeo, sendo duas ordens de magnitude mais rápidos, permitindo exclusivamente streaming de duração infinita. Com o MotionStream, os usuários podem pintar trajetórias, controlar câmeras ou transferir movimento, e ver os resultados se desdobrarem em tempo real, proporcionando uma experiência verdadeiramente interativa.
Apresentamos o LongCat-Flash-Omni, um modelo omni-modal de código aberto e estado da arte com 560 bilhões de parâmetros, que se destaca na interação áudio-visual em tempo real. Ao adotar uma estratégia de treinamento progressivo inspirada em currículo, que transita de tarefas de modelagem de sequência de modalidades mais simples para outras progressivamente mais complexas, o LongCat-Flash-Omni atinge capacidades multimodais abrangentes, mantendo uma forte capacidade unimodal. Construído com base no LongCat-Flash, que adota uma arquitetura de Mistura de Especialistas (MoE) de alta performance com conexões por atalho e especialistas de computação zero, o LongCat-Flash-Omni integra módulos eficientes de percepção multimodal e reconstrução de fala. Apesar do seu tamanho imenso de 560B de parâmetros (sendo 27B ativados), o LongCat-Flash-Omni alcança interação áudio-visual em tempo real com baixa latência. Para a infraestrutura de treinamento, desenvolvemos um esquema de paralelismo com modalidades desacopladas, especificamente projetado para gerenciar a heterogeneidade de dados e modelo inerente ao treinamento multimodal em larga escala. Esta abordagem inovadora demonstra eficiência excepcional ao sustentar mais de 90% da taxa de transferência alcançada pelo treinamento apenas com texto. Avaliações extensivas mostram que o LongCat-Flash-Omni alcança desempenho de ponta em benchmarks omni-modais entre os modelos de código aberto. Além disso, produz resultados altamente competitivos em uma ampla gama de tarefas específicas por modalidade, incluindo compreensão de texto, imagem e vídeo, bem como compreensão e geração de áudio. Fornecemos uma visão geral abrangente do design da arquitetura do modelo, dos procedimentos de treinamento e das estratégias de dados, e disponibilizamos o modelo em código aberto para promover futuras pesquisas e desenvolvimentos na comunidade.
Recentemente, os grandes modelos de linguagem (LLMs) demonstraram capacidades notáveis de resolução de problemas ao se integrarem autonomamente com ferramentas externas para raciocínio colaborativo. No entanto, devido à natureza inerentemente complexa e diversa da informação multimodal, permitir que os modelos grandes de linguagem multimodal (MLLMs) utilizem ferramentas externas de forma flexível e eficiente durante o raciocínio permanece um desafio pouco explorado. Neste trabalho, apresentamos o ToolScope, uma estrutura agentística projetada para unificar o planejamento global com a percepção multimodal local, adotando uma ferramenta especializada Perceive para mitigar a degradação do contexto visual em tarefas de VQA de longo horizonte. O ToolScope compreende três componentes principais: o Navegador Global, o Executor Agentístico e o Sintetizador de Respostas. O Navegador Global funciona como uma "lente telescópica", oferecendo orientação estratégica de alto nível. O Executor Agentístico opera iterativamente para aumentar o MLLM com percepção local por meio da integração de ferramentas externas - Search, Code e Perceive. Por fim, o Sintetizador de Respostas consolida e organiza o processo de raciocínio em uma saída coerente e amigável ao usuário. Avaliamos o ToolScope em quatro benchmarks de VQA em diversos domínios, incluindo VQA 2.0, ScienceQA, MAT-Search e MathVista. O framework demonstra fortes capacidades de generalização, alcançando uma melhoria média de desempenho de até +6,69% em todos os conjuntos de dados.
Os avanços recentes no raciocínio de grandes modelos de linguagem (LLMs) através de aprendizagem por reforço dependem de conjuntos de dados anotados para recompensas verificáveis, o que pode limitar a capacidade dos modelos de superar o desempenho humano. Embora o autojogo (self-play) ofereça uma alternativa promissora, as abordagens existentes dependem de verificadores externos ou não conseguem aprender de forma aberta. Apresentamos o Open-Ended Self-Improving Reasoner (OpenSIR), uma estrutura de autojogo na qual um LLM aprende a gerar e resolver problemas novos, alternando entre os papéis de professor e aluno sem supervisão externa. Para gerar problemas novos, o OpenSIR otimiza tanto a dificuldade quanto a diversidade, recompensando problemas que desafiam adequadamente enquanto exploram conceitos distintos, permitindo a descoberta matemática aberta. Partindo de um único problema inicial trivial, o OpenSIR melhora substancialmente os modelos de instrução: o Llama-3.2-3B-Instruct avança de 73,9 para 78,3 no GSM8K e de 28,8 para 34,4 no College Math, enquanto o Gemma-2-2B-Instruct sobe de 38,5 para 58,7 no GSM8K. Nossas análises revelam que o OpenSIR alcança a aprendizagem aberta através de papéis professor-aluno que coevoluem, calibrando adaptativamente a dificuldade e impulsionando uma exploração diversificada, progredindo autonomamente da matemática básica para a avançada.
O paradigma predominante de recuperação de vídeo está estruturalmente desalinhado, pois benchmarks restritos incentivam dados igualmente limitados e treinamento de tarefa única. Consequentemente, a capacidade universal é suprimida devido à ausência de uma avaliação diagnóstica que defina e exija generalização multidimensional. Para romper este ciclo, introduzimos uma estrutura baseada no co-design de avaliação, dados e modelagem. Primeiro, estabelecemos o *Universal Video Retrieval Benchmark* (UVRB), um conjunto de 16 conjuntos de dados projetado não apenas para medir o desempenho, mas também para diagnosticar lacunas críticas de capacidade entre tarefas e domínios. Segundo, guiados pelos diagnósticos do UVRB, introduzimos um fluxo de trabalho de síntese escalável que gera 1,55 milhão de pares de alta qualidade para preencher o espaço semântico necessário para a universalidade. Finalmente, concebemos a Pirâmide de Modalidades, um currículo que treina nosso *General Video Embedder* (GVE) aproveitando explicitamente as interconexões latentes em nossos dados diversos. Experimentos extensivos mostram que o GVE alcança generalização *zero-shot* state-of-the-art no UVRB. Em particular, nossa análise revela que benchmarks populares são maus preditores de habilidade geral e que a recuperação parcialmente relevante é um cenário dominante, mas negligenciado. No geral, nossa estrutura de co-design fornece um caminho prático para escapar do escopo limitado e avançar em direção a uma recuperação de vídeo verdadeiramente universal.
A fronteira do raciocínio visual está a deslocar-se para modelos como o OpenAI o3, que podem criar e operar ferramentas de forma inteligente para transformar imagens na resolução de problemas, também conhecido como pensar-com-imagens em cadeia de pensamento. No entanto, os benchmarks existentes não conseguem captar plenamente esta capacidade avançada. Mesmo a Pesquisa Visual, o benchmark mais comum para os métodos atuais de pensar-com-imagens, testa apenas operações básicas, como localização e recorte, oferecendo pouca perceção sobre um raciocínio mais complexo, dinâmico e dependente de ferramentas. Apresentamos o TIR-Bench, um benchmark abrangente para avaliar o pensamento-agente-com-imagens em 13 tarefas diversificadas, cada uma exigindo o uso novo de ferramentas para processamento e manipulação de imagens em cadeia de pensamento. Avaliámos 22 modelos de linguagem grandes multimodais (MLLMs), desde os principais modelos de código aberto e proprietários até àqueles com aumento explícito de uso de ferramentas. Os resultados mostram que o TIR-Bench é universalmente desafiador, e um bom desempenho exige capacidades genuínas de pensar-com-imagens. Por fim, apresentamos um estudo piloto que compara o ajuste fino direto versus o ajuste fino agente.
Os modelos visão-linguagem demonstram desempenho e capacidade de generalização sem precedentes em uma ampla gama de tarefas e cenários. A integração desses modelos de base em sistemas de navegação robótica abre caminhos para a construção de robôs de propósito geral. No entanto, a avaliação das capacidades de navegação desses modelos continua limitada por testes no mundo real dispendiosos, simulações excessivamente simplificadas e benchmarks limitados. Apresentamos o NaviTrace, um benchmark de alta qualidade para Questionamento Visual onde um modelo recebe uma instrução e um tipo de corporeidade (humano, robô com pernas, robô com rodas, bicicleta) e deve produzir um traço de navegação 2D no espaço da imagem. Através de 1000 cenários e mais de 3000 traços especializados, avaliamos sistematicamente oito VLMs state-of-the-art usando uma nova pontuação de traço semanticamente consciente. Esta métrica combina a distância de Dynamic Time Warping, o erro do ponto final da meta e penalidades condicionadas à corporeidade derivadas da semântica por pixel, e correlaciona-se com as preferências humanas. Nossa avaliação revela uma lacuna consistente em relação ao desempenho humano causada por um fraco grounding espacial e localização de objetivos. O NaviTrace estabelece um benchmark escalável e reproduzível para navegação robótica no mundo real. O benchmark e o ranking de líderes podem ser encontrados em https://leggedrobotics.github.io/navitrace_webpage/.
A compreensão de quebra-cabeças de rebus (que utilizam imagens, símbolos e letras para representar palavras ou frases de forma criativa) exige uma variedade de competências, como reconhecimento de imagem, capacidades cognitivas, raciocínio de senso comum, raciocínio em múltiplas etapas, trocadilhos visuais, etc., tornando esta uma tarefa desafiadora mesmo para os atuais Modelos de Visão e Linguagem. Neste artigo, apresentamos o |↻BUS|, um benchmark amplo e diversificado com 1.333 quebra-cabeças de rebus em inglês, contendo diferentes estilos artísticos e níveis de dificuldade, distribuídos por 18 categorias, como alimentação, expressões idiomáticas, desporto, finanças, entretenimento, etc. Propomos também o RebusDescProgICE, uma estrutura agnóstica ao modelo que utiliza uma combinação de descrição não estruturada e raciocínio estruturado baseado em código, juntamente com uma melhor seleção de exemplos em contexto baseada no raciocínio, melhorando o desempenho dos Modelos de Visão e Linguagem no |↻BUS| em 2,1-4,1% e 20-30% utilizando modelos de código fechado e de código aberto, respetivamente, em comparação com o Raciocínio em Cadeia.
Apresentamos o Trove, um kit de ferramentas de recuperação de código aberto e fácil de usar que simplifica experimentos de pesquisa sem sacrificar flexibilidade ou velocidade. Pela primeira vez, introduzimos funcionalidades eficientes de gerenciamento de dados que carregam e processam (filtram, selecionam, transformam e combinam) conjuntos de dados de recuperação dinamicamente, com apenas algumas linhas de código. Isso oferece aos usuários a flexibilidade para experimentar facilmente com diferentes configurações de conjuntos de dados, sem a necessidade de calcular e armazenar múltiplas cópias de grandes volumes de dados. O Trove é altamente personalizável: além de muitas opções integradas, permite que os usuários modifiquem livremente componentes existentes ou os substituam completamente por objetos definidos pelo usuário. Também fornece um pipeline unificado e de baixo código para avaliação e mineração de negativos difíceis, que suporta execução multi-nó sem qualquer alteração de código. As funcionalidades de gerenciamento de dados do Trove reduzem o consumo de memória em um fator de 2,6. Além disso, o pipeline de inferência fácil de usar do Trove não incorre em sobrecarga, e os tempos de inferência diminuem linearmente com o número de nós disponíveis. Mais importante ainda, demonstramos como o Trove simplifica experimentos de recuperação e permite personalizações arbitrárias, facilitando assim a pesquisa exploratória.
A leitura de instrumentos de medição é uma tarefa simples para humanos e requer relativamente pouca expertise de domínio, mas permanece surpreendentemente desafiadora para os atuais modelos de visão e linguagem (VLMs), como descobrimos em nossa avaliação preliminar. Neste trabalho, apresentamos o MeasureBench, um benchmark para leitura visual de medições que abrange tanto imagens do mundo real quanto imagens sintetizadas de vários tipos de instrumentos, juntamente com um pipeline extensível para síntese de dados. Nosso pipeline gera proceduralmente um tipo específico de medidor com aparência visual controlável, permitindo variações escaláveis em detalhes-chave como ponteiros, escalas, fontes, iluminação e elementos de desordem visual. A avaliação em VLMs proprietários e de pesos abertos populares mostra que mesmo os VLMs de fronteira mais avançados têm dificuldades gerais na leitura de medições. Um modo de falha consistente é a localização do indicador: os modelos conseguem ler dígitos ou etiquetas, mas identificam incorretamente as posições-chave dos ponteiros ou alinhamentos, levando a grandes erros numéricos apesar de um raciocínio textual plausível. Também realizamos experimentos preliminares com aprendizado por reforço sobre dados sintéticos e encontramos resultados encorajadores no subconjunto sintético dentro do domínio, mas menos promissores para imagens do mundo real. Nossa análise destaca uma limitação fundamental dos VLMs atuais na fundamentação espacial de granularidade fina. Esperamos que este recurso possa auxiliar avanços futuros na numeracia visualmente fundamentada e na percepção espacial precisa dos VLMs, preenchendo a lacuna entre reconhecer números e medir o mundo.
Os recentes avanços nos Modelos de Linguagem de Grande Porte Multimodais (MLLMs) melhoraram significativamente a compreensão visual 2D, despertando interesse na sua aplicação a tarefas complexas de raciocínio 3D. No entanto, permanece incerto se estes modelos podem capturar eficazmente a informação espacial detalhada necessária para um desempenho robusto no mundo real, especialmente a consistência entre vistas (cross-view consistency), um requisito fundamental para um raciocínio 3D preciso. Considerando esta questão, introduzimos a Aprendizagem de Ponto de Vista (Viewpoint Learning), uma tarefa concebida para avaliar e melhorar as capacidades de raciocínio espacial dos MLLMs. Apresentamos o conjunto de dados Viewpoint-100K, composto por 100K pares de imagens centradas em objetos com diversos pontos de vista e pares de perguntas-respostas correspondentes. A nossa abordagem emprega uma estratégia de afinação (fine-tuning) em duas etapas: primeiro, o conhecimento fundamental é injetado no MLLM de base através de Afinação Supervisionada (SFT) no Viewpoint-100K, resultando em melhorias significativas em múltiplas tarefas; segundo, a generalização é melhorada através de Aprendizagem por Reforço utilizando o algoritmo de Otimização de Política Relativa de Grupo (GRPO) num conjunto mais alargado de questões. Adicionalmente, introduzimos um método de inicialização híbrido de arranque a frio (cold-start) concebido para aprender simultaneamente representações de ponto de vista e manter um pensamento de raciocínio coerente. Resultados experimentais mostram que a nossa abordagem ativa significativamente a capacidade de raciocínio espacial do MLLM, melhorando o desempenho em tarefas de raciocínio dentro do domínio (in-domain) e fora do domínio (out-of-domain). As nossas descobertas destacam o valor de desenvolver competências espaciais fundamentais nos MLLMs, apoiando progressos futuros em robótica, sistemas autónomos e compreensão de cenas 3D.
A seleção de dados é um aspeto crítico do Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para melhorar as capacidades de raciocínio de modelos de linguagem grandes (LLMs). Os métodos atuais de seleção de dados são amplamente baseados em heurísticas, carecendo de garantias teóricas e generalizabilidade. Este trabalho propõe uma abordagem fundamentada teoricamente que utiliza funções de influência para estimar a contribuição de cada ponto de dados para o objetivo de aprendizagem. Para superar o custo computacional proibitivo das simulações de política necessárias para a estimativa de influência online, introduzimos um método de estimativa de influência fora da política que aproxima eficientemente a influência dos dados usando trajectórias offline pré-coletadas. Além disso, para gerir os gradientes de alta dimensionalidade dos LLMs, empregamos uma projeção aleatória esparsa para reduzir a dimensionalidade e melhorar a eficiência de armazenamento e computação. Aproveitando estas técnicas, desenvolvemos o *Curriculum RL with Off-Policy Influence guidance* (CROPI), uma estrutura de RL multiestágio que seleciona iterativamente os dados mais influentes para a política atual. Experiências em modelos com até 7 mil milhões de parâmetros demonstram que o CROPI acelera significativamente o treino. Num modelo de 1,5 mil milhões de parâmetros, alcança uma aceleração de 2,66x ao nível do passo, utilizando apenas 10\% dos dados por estágio em comparação com o treino com o conjunto de dados completo. Os nossos resultados destacam o potencial substancial da seleção de dados baseada em influência para um RLVR eficiente.
A definição das métricas norteadoras adequadas é crucial para o avanço das capacidades de raciocínio matemático dos modelos de base, especialmente considerando que as avaliações existentes são ou muito fáceis ou focam apenas na obtenção de respostas curtas corretas. Para resolver essas questões, apresentamos o IMO-Bench, um conjunto de benchmarks de raciocínio avançado, validado por um painel de especialistas de alto nível e que visa especificamente o nível da Olimpíada Internacional de Matemática (IMO), o evento mais prestigiado para jovens matemáticos. O IMO-AnswerBench testa primeiro os modelos em 400 problemas diversos de Olimpíadas com respostas curtas verificáveis. O IMO-Proof Bench é a avaliação de nível superior para capacidades de escrita de provas, que inclui problemas básicos e avançados de nível IMO, bem como diretrizes de correção detalhadas para facilitar a avaliação automática. Esses benchmarks desempenharam um papel crucial na nossa conquista histórica do desempenho de nível ouro na IMO 2025 com o Gemini Deep Think (Luong e Lockhart, 2025). Nosso modelo alcançou 80,0% no IMO-AnswerBench e 65,7% no IMO-Proof Bench avançado, superando os melhores modelos não-Gemini por grandes margens de 6,9% e 42,4%, respectivamente. Também demonstramos que os corretores automáticos construídos com o raciocínio do Gemini correlacionam-se bem com as avaliações humanas e construímos o IMO-GradingBench, com 1000 correções humanas de provas, para permitir mais progressos na avaliação automática de respostas longas. Esperamos que o IMO-Bench ajude a comunidade a avançar no raciocínio matemático robusto e o disponibilizamos em https://imobench.github.io/.
Os modelos visão-linguagem-ação (VLA) visam compreender instruções em linguagem natural e observações visuais para executar ações correspondentes como um agente incorporado. Trabalhos recentes integram imagens futuras no ciclo de compreensão-ação, resultando em VLAs unificados que compreendem, geram e agem conjuntamente — lendo texto e imagens e produzindo imagens e ações futuras. No entanto, estes modelos ou dependem de especialistas externos para unificação de modalidades ou tratam a geração de imagens e a previsão de ações como processos separados, limitando os benefícios da sinergia direta entre estas tarefas. Nossa filosofia central é otimizar a geração e a ação conjuntamente através de um processo de desserruição síncrono, onde o refinamento iterativo permite que as ações evoluam da inicialização, sob orientação visual constante e suficiente. Fundamentamos esta filosofia em nossa proposta de VLA de Difusão Unificada e Processo de Difusão de Desserruição Discreta Conjunta (JD3P), que é um processo de difusão conjunto que integra múltiplas modalidades em uma única trajetória de desserruição para servir como mecanismo-chave que permite que a compreensão, geração e ação sejam intrinsecamente sinérgicas. Nosso modelo e teoria são construídos sobre um espaço tokenizado unificado de todas as modalidades e um mecanismo de atenção híbrido. Propomos ainda um pipeline de treinamento em duas etapas e várias técnicas de inferência que otimizam desempenho e eficiência. Nossa abordagem alcança desempenho state-of-the-art em benchmarks como CALVIN, LIBERO e SimplerEnv com inferência 4 vezes mais rápida que métodos autoregressivos, e demonstramos sua eficácia através de análises aprofundadas e avaliações no mundo real. Nossa página do projeto está disponível em https://irpn-eai.github.io/UD-VLA.github.io/.
Os modelos de fundo em geração de vídeo estão demonstrando capacidades notáveis como modelos mundiais potenciais para simular o mundo físico. No entanto, sua aplicação em domínios de alto risco como a cirurgia, que exigem conhecimento causal profundo e especializado em vez de regras físicas gerais, permanece uma lacuna crítica não explorada. Para enfrentar sistematicamente este desafio, apresentamos o SurgVeo, o primeiro benchmark curado por especialistas para avaliação de modelos de geração de vídeo em cirurgia, e a Pirâmide de Plausibilidade Cirúrgica (PPC), uma estrutura nova e de quatro níveis adaptada para avaliar as saídas dos modelos desde a aparência básica até a estratégia cirúrgica complexa. Com base no benchmark SurgVeo, atribuímos ao modelo avançado Veo-3 uma tarefa de previsão *zero-shot* em clipes cirúrgicos de procedimentos laparoscópicos e neurocirúrgicos. Um painel de quatro cirurgiões certificados avalia os vídeos gerados de acordo com a PPC. Nossos resultados revelam uma distinta "lacuna de plausibilidade": enquanto o Veo-3 atinge uma Plausibilidade Perceptiva Visual excecional, falha criticamente em níveis superiores da PPC, incluindo a Plausibilidade da Operação de Instrumentos, a Plausibilidade do *Feedback* do Ambiente e a Plausibilidade da Intenção Cirúrgica. Este trabalho fornece a primeira evidência quantitativa do abismo entre a mímica visualmente convincente e a compreensão causal na IA cirúrgica. As nossas descobertas com o SurgVeo e a PPC estabelecem uma base e um roteiro cruciais para desenvolver modelos futuros capazes de navegar as complexidades de domínios de saúde especializados e do mundo real.
O notável sucesso dos modelos de linguagem multimodal de grande escala (MLLMs) tem impulsionado avanços em embeddings multimodais, porém os modelos existentes permanecem inerentemente discriminativos, limitando sua capacidade de se beneficiar do paradigma de geração orientado por raciocínio. Neste trabalho, pioneiramente exploramos embeddings generativos, unificando tarefas de embedding dentro de um paradigma generativo. Propomos o UME-R1, uma estrutura universal de embedding multimodal que consiste em uma estratégia de treinamento em dois estágios: um ajuste fino supervisionado de arranque inicial (cold-start) equipa o modelo com capacidades de raciocínio e permite que ele gere embeddings tanto discriminativos quanto generativos; um subsequente aprendizado por reforço aprimora o raciocínio e otimiza ainda mais a qualidade do embedding generativo. Este trabalho pioneiro revela quatro insights fundamentais: 1) embeddings generativos desbloqueiam ganhos substanciais de desempenho em comparação com embeddings discriminativos convencionais, aproveitando as poderosas capacidades de raciocínio generativo dos MLLMs; 2) embeddings discriminativos e generativos são complementares, cujo desempenho oráculo combinado supera em muito o de qualquer um isoladamente; 3) o AR pode efetivamente aprimorar embeddings generativos, estabelecendo um paradigma de otimização escalável; 4) a amostragem repetida durante a inferência aumenta a cobertura de tarefas subsequentes (pass@k), destacando o potencial de escalabilidade no tempo de inferência dos embeddings generativos. Avaliado no benchmark MMEB-V2 em 78 tarefas abrangendo vídeo, imagem e documentos visuais, o UME-R1 supera significativamente os modelos convencionais de embedding discriminativo e oferece uma base para embeddings multimodais generativos mais interpretáveis e orientados por raciocínio. Nosso código, modelos e conjuntos de dados estarão publicamente disponíveis em https://github.com/XMUDeepLIT/UME-R1.
Os Grandes Modelos de Linguagem (LLMs) demonstraram fortes capacidades no raciocínio em linguagem natural, mas a sua aplicação na Ciberinteligência de Ameaças (CTI) permanece limitada. A análise de CTI envolve destilar grandes volumes de relatórios não estruturados em conhecimento acionável, um processo no qual os LLMs poderiam reduzir substancialmente a carga de trabalho dos analistas. O CTIBench introduziu um benchmark abrangente para avaliar LLMs em múltiplas tarefas de CTI. Neste trabalho, estendemos o CTIBench desenvolvendo o AthenaBench, um benchmark aprimorado que inclui um *pipeline* de criação de conjunto de dados melhorado, remoção de duplicatas, métricas de avaliação refinadas e uma nova tarefa focada em estratégias de mitigação de riscos. Avaliamos doze LLMs, incluindo modelos proprietários de última geração, como o GPT-5 e o Gemini-2.5 Pro, juntamente com sete modelos de código aberto das famílias LLaMA e Qwen. Embora os LLMs proprietários obtenham resultados mais fortes no geral, o seu desempenho permanece abaixo do ideal em tarefas intensivas em raciocínio, como a atribuição de agentes de ameaças e a mitigação de riscos, com os modelos de código aberto ficando ainda mais atrás. Estas descobertas destacam limitações fundamentais nas capacidades de raciocínio dos LLMs atuais e sublinham a necessidade de modelos explicitamente adaptados aos fluxos de trabalho e automação de CTI.
A fundamentação de interface gráfica do utilizador (GUI) é uma função fundamental dos agentes de uso de computador, que mapeia instruções em linguagem natural para regiões de ecrã acionáveis. As abordagens existentes baseadas em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) normalmente formulam esta tarefa como uma geração de coordenadas baseada em texto; no entanto, gerar coordenadas precisas diretamente a partir de entradas visuais continua a ser um desafio e computacionalmente intensivo. Uma forma intuitiva de implementar a fundamentação de GUI é primeiro selecionar fragmentos visuais relevantes para as instruções e depois determinar a localização precisa do clique dentro desses fragmentos. Com base nas observações de que os MLLMs gerais possuem alguma capacidade de fundamentação nativa, aninhada nas suas atenções, propomos o GUI-AIMA, um framework de afinamento supervisionado, baseado em atenção e livre de coordenadas, para uma fundamentação de GUI eficiente. O GUI-AIMA alinha a atenção multimodal intrínseca dos MLLMs com sinais de fundamentação a nível de fragmento. Estes sinais são calculados de forma adaptativa para diversas instruções do utilizador através de agregação multi-cabeça em matrizes de atenção consulta-visual simplificadas. Além disso, a sua natureza livre de coordenadas pode integrar facilmente uma fase de ampliação do tipo "plug-and-play". O GUI-AIMA-3B foi treinado com apenas 85 mil capturas de ecrã, demonstrando uma excecional eficiência de dados e verificando que um treino leve pode desencadear a capacidade de fundamentação nativa dos MLLMs. Ele atinge um desempenho de ponta entre os modelos de 3B, alcançando uma precisão média de 58,6% no ScreenSpot-Pro e 62,2% no OSWorld-G. Página do projeto: https://github.com/sjz5202/GUI-AIMA
As Explicações em Linguagem Natural (NLEs) descrevem como os Modelos de Linguagem de Grande Porte (LLMs) tomam decisões, recorrendo tanto ao Conhecimento Contextual (CK) externo quanto ao Conhecimento Paramétrico (PK) armazenado nos pesos do modelo. Compreender a sua interação é fundamental para avaliar a fundamentação das NLEs, no entanto, este aspeto permanece pouco explorado. Trabalhos anteriores examinaram maioritariamente apenas a geração em etapa única, tipicamente a resposta final, e modelaram a interação entre PK e CK apenas como uma escolha binária num subespaço de posto 1. Esta abordagem ignora formas mais ricas de interação, como conhecimento complementar ou de suporte. Propomos um novo subespaço de projeção de posto 2 que separa as contribuições do PK e do CK de forma mais precisa e utilizamo-lo para a primeira análise multi-etapa das interações de conhecimento em sequências de NLEs mais longas. Experiências em quatro conjuntos de dados de Perguntas e Respostas (QA) e três LLMs sintonizados por instrução e de pesos abertos mostram que as diversas interações de conhecimento são mal representadas num subespaço de posto 1, mas são eficazmente capturadas na nossa formulação de posto 2. A nossa análise multi-etapa revela que as NLEs alucinadas alinham-se fortemente com a direção do PK, as NLEs fiéis ao contexto equilibram o PK e o CK, e a técnica de *Chain-of-Thought* para NLEs desloca as NLEs geradas em direção ao CK, reduzindo a dependência do PK. Este trabalho fornece o primeiro quadro para estudos sistemáticos das interações de conhecimento multi-etapa em LLMs através de uma separação mais rica num subespaço de posto 2. Código e dados: https://github.com/copenlu/pk-ck-knowledge-disentanglement.
No domínio da recuperação de informação, a fusão de candidatos proveniente de recuperadores heterogéneos é um desafio de longa data, particularmente para dados complexos e multimodais, como vídeos. Embora as técnicas típicas de fusão não requeiram treino (training-free), elas dependem exclusivamente de sinais de classificação (rank) ou pontuação (score), desconsiderando as representações dos candidatos. Este trabalho introduz o Vote-in-Context (ViC), um framework generalizado e sem necessidade de treino que repensa o reranking e a fusão a nível de lista (list-wise) como uma tarefa de raciocínio de zero-shot para um Modelo de Visão e Linguagem (Vision-Language Model - VLM). A perceção fundamental é serializar tanto a evidência de conteúdo como os metadados do recuperador diretamente no prompt do VLM, permitindo que o modelo pondere adaptativamente o consenso do recuperador face ao conteúdo visual-linguístico. Demonstramos a generalidade deste framework aplicando-o ao domínio desafiador da recuperação de vídeo cross-modal. Para tal, introduzimos o S-Grid, um mapa de serialização compacto que representa cada vídeo como uma grelha de imagens, opcionalmente emparelhada com legendas (subtitles) para permitir o raciocínio a nível de lista sobre candidatos de vídeo. O ViC é avaliado tanto como um reranker de lista única, onde melhora drasticamente a precisão de recuperadores individuais, como como um fusor de ensemble, onde supera consistentemente baselines fortes como o CombSUM. Através de benchmarks de recuperação de vídeo, incluindo ActivityNet e VATEX, o framework estabelece um novo estado da arte em desempenho de recuperação zero-shot, demonstrando a sua eficácia no tratamento de sinais visuais e temporais complexos juntamente com texto. Em configurações zero-shot, o ViC atinge pontuações Recall@1 de 87,1% (t2v) / 89,0% (v2t) no MSR-VTT e 99,6% (v2t) no VATEX, representando ganhos massivos de até +40 em Recall@1 sobre os baselines anteriores do estado da arte. Apresentamos o ViC como uma receita simples, reproduzível e altamente eficaz para transformar VLMs modernos em poderosos rerankers e fusores de zero-shot. O código e os recursos estão publicamente disponíveis em: https://github.com/mohammad2012191/ViC