Artigos de pesquisa em IA selecionados diariamente com traduções
Neste relatório técnico, apresentamos a série de modelos Ring-linear, especificamente incluindo o Ring-mini-linear-2.0 e o Ring-flash-linear-2.0. O Ring-mini-linear-2.0 compreende 16 bilhões de parâmetros e 957 milhões de ativações, enquanto o Ring-flash-linear-2.0 contém 104 bilhões de parâmetros e 6,1 bilhões de ativações. Ambos os modelos adotam uma arquitetura híbrida que integra efetivamente a atenção linear e a atenção softmax, reduzindo significativamente a sobrecarga de I/O e computacional em cenários de inferência de contexto longo. Comparado a um modelo denso de 32 bilhões de parâmetros, esta série reduz o custo de inferência para 1/10, e em comparação com a série Ring original, o custo também é reduzido em mais de 50%. Além disso, através da exploração sistemática da proporção entre diferentes mecanismos de atenção na arquitetura híbrida, identificamos a estrutura de modelo atualmente ótima. Adicionalmente, ao aproveitar nossa biblioteca de operadores de alta performance FP8 auto-desenvolvida, chamada linghe, a eficiência geral do treinamento foi melhorada em 50%. Beneficiando-se da alta alinhamento entre os operadores do motor de treinamento e inferência, os modelos podem passar por uma otimização de longo prazo, estável e altamente eficiente durante a fase de aprendizado por reforço, mantendo consistentemente desempenho SOTA em múltiplos benchmarks desafiadores de raciocínio complexo.
O aprendizado por reforço (RL, do inglês Reinforcement Learning) tornou-se recentemente o paradigma central para alinhar e fortalecer grandes modelos de linguagem (LLMs, do inglês Large Language Models). No entanto, aplicar RL em configurações off-policy—onde dados desatualizados de políticas anteriores são usados para treinamento—melhora a eficiência amostral, mas continua desafiador: a entropia da política diminui drasticamente, a otimização frequentemente se torna instável e pode até colapsar. Por meio de análises teóricas e empíricas, identificamos dois insights principais: (i) um desequilíbrio na otimização, onde amostras de vantagem negativa dominam o gradiente da política, suprimindo comportamentos úteis e arriscando explosões de gradiente; e (ii) a Regra de Clipping de Entropia derivada, que revela que o mecanismo de clipping fixo em objetivos semelhantes ao PPO bloqueia sistematicamente atualizações que aumentam a entropia, levando a política à superexploração em detrimento da exploração. Com base nesses insights, propomos o BAlanced Policy Optimization with Adaptive Clipping (BAPO), um método simples, porém eficaz, que ajusta dinamicamente os limites de clipping para reequilibrar de forma adaptativa as contribuições positivas e negativas, preservar a entropia e estabilizar a otimização de RL. Em diversos cenários off-policy—incluindo replay de amostras e rollout parcial—o BAPO alcança treinamento rápido, estável e eficiente em termos de dados. Nos benchmarks AIME 2024 e AIME 2025, nosso modelo BAPO de 7B supera contrapartes de código aberto, como o SkyWork-OR1-7B, enquanto nosso modelo BAPO de 32B não apenas alcança resultados de ponta entre modelos da mesma escala, mas também supera sistemas proprietários líderes, como o o3-mini e o Gemini-2.5-Flash-Thinking.
O raciocínio sobre contextos longos é essencial para modelos de linguagem de grande escala. Embora o aprendizado por reforço (RL) aprimore o raciocínio em contextos curtos ao induzir momentos de "insight" em cadeias de pensamento, os padrões avançados de pensamento necessários para o raciocínio em contextos longos permanecem amplamente inexplorados, e dados de RL de alta dificuldade são escassos. Neste artigo, apresentamos o LoongRL, um método de RL baseado em dados para raciocínio avançado em contextos longos. O cerne do LoongRL é o KeyChain, uma abordagem de síntese que transforma perguntas e respostas (QA) de múltiplos saltos em tarefas de alta dificuldade em contextos longos, inserindo cadeias de UUID que escondem a verdadeira pergunta entre grandes coleções de documentos distratores. Resolver essas tarefas exige que o modelo rastreie a cadeia correta passo a passo, identifique a verdadeira pergunta, recupere fatos relevantes e raciocine sobre eles para responder corretamente. O treinamento de RL com dados do KeyChain induz um padrão emergente de raciocínio planejar-recuperar-raciocinar-reverificar que se generaliza muito além do comprimento de treinamento. Modelos treinados em 16K resolvem efetivamente tarefas de 128K sem os custos proibitivos de execução completa de RL. No Qwen2.5-7B e 14B, o LoongRL melhora substancialmente a precisão de QA de múltiplos saltos em contextos longos, com ganhos absolutos de +23,5% e +21,1%. O LoongRL-14B resultante alcança uma pontuação de 74,2, rivalizando com modelos de fronteira muito maiores, como o o3-mini (74,5) e o DeepSeek-R1 (74,9). Ele também melhora a recuperação em contextos longos, passa em todos os testes de estresse "agulha no palheiro" de 128K e preserva as capacidades de raciocínio em contextos curtos.
O treinamento de modelos Visão-Linguagem-Ação (VLA) para robôs generalistas geralmente requer dados em grande escala do mundo real, que são caros e demorados de coletar. A ineficiência da coleta de dados físicos limita severamente a escalabilidade e a capacidade de generalização dos sistemas VLA atuais. Para enfrentar esse desafio, apresentamos o GigaBrain-0, um novo modelo de base VLA impulsionado por dados gerados por modelos de mundo (por exemplo, geração de vídeo, transferência real2real, transferência humana, transferência de visão, transferência sim2real). Ao aproveitar modelos de mundo para gerar dados diversos em escala, o GigaBrain-0 reduz significativamente a dependência de dados reais de robôs enquanto melhora a generalização entre tarefas. Nossa abordagem ainda melhora a robustez da política por meio da modelagem de entrada RGBD e supervisão de Cadeia de Pensamento (CoT) incorporada, permitindo que o modelo raciocine sobre geometria espacial, estados de objetos e dependências de longo horizonte durante a execução de tarefas. Isso resulta em ganhos substanciais no desempenho do mundo real em tarefas de manipulação hábil, de longo horizonte e móvel. Experimentos extensivos demonstram que o GigaBrain-0 alcança uma generalização superior em variações de aparências (por exemplo, texturas, cores), posicionamentos de objetos e pontos de vista da câmera. Além disso, apresentamos o GigaBrain-0-Small, uma variante leve otimizada projetada para rodar com eficiência em dispositivos como o NVIDIA Jetson AGX Orin.
Componentes do Transformer, como ativações não lineares e normalização, são inerentemente não injetivos, sugerindo que diferentes entradas podem mapear para a mesma saída e impedir a recuperação exata da entrada a partir das representações do modelo. Neste artigo, desafiamos essa visão. Primeiro, provamos matematicamente que modelos de linguagem Transformer que mapeiam sequências de entrada discretas para suas correspondentes sequências de representações contínuas são injetivos e, portanto, sem perdas, uma propriedade estabelecida na inicialização e preservada durante o treinamento. Segundo, confirmamos esse resultado empiricamente por meio de bilhões de testes de colisão em seis modelos de linguagem state-of-the-art, e não observamos nenhuma colisão. Terceiro, operacionalizamos a injetividade: introduzimos o SipIt, o primeiro algoritmo que prova e reconstrói eficientemente o texto de entrada exato a partir de ativações ocultas, estabelecendo garantias de tempo linear e demonstrando invertibilidade exata na prática. No geral, nosso trabalho estabelece a injetividade como uma propriedade fundamental e explorável de modelos de linguagem, com implicações diretas para transparência, interpretabilidade e implantação segura.
Treinar agentes de uso de computador requer grandes quantidades de dados de interação com interfaces gráficas (GUI), mas anotar manualmente trajetórias de ações em escala é proibitivamente caro. Apresentamos o VideoAgentTrek, um pipeline escalável que extrai automaticamente dados de treinamento de vídeos gravados de tela disponíveis publicamente em escala web, eliminando a necessidade de anotação manual. Nossa abordagem resolve um desafio crucial: vídeos brutos contêm demonstrações implícitas, mas carecem de rótulos explícitos de ações. Para resolver isso, desenvolvemos o Video2Action, um módulo de dinâmica inversa (IDM) com dois componentes: (1) um modelo de ancoragem de vídeo que detecta e localiza ações na GUI com limites temporais precisos e contexto, e (2) um reconhecedor de conteúdo de ação que extrai parâmetros estruturados, como coordenadas de clique e texto digitado, com alta fidelidade. Aplicado a 39.000 vídeos tutoriais do YouTube, nosso pipeline gera automaticamente 1,52 milhão de etapas de interação. Aproveitamos esses dados por meio de pré-treinamento contínuo seguido de ajuste fino supervisionado. No OSWorld-Verified, nossa abordagem melhora as taxas de sucesso de tarefas de 9,3% (baseline com apenas ajuste fino) para 15,8%, uma melhoria relativa de 70%. No AgentNetBench, a precisão por etapa aumenta de 64,1% para 69,3%. Nossos resultados demonstram que vídeos passivos da internet podem ser transformados em supervisão de alta qualidade para agentes de uso de computador, oferecendo uma alternativa escalável à anotação manual dispendiosa.
Os Agentes de Telefone Móvel (MPAs) surgiram como uma direção de pesquisa promissora devido à sua ampla aplicabilidade em diversos cenários. Embora os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) sirvam como base para os MPAs, sua eficácia no gerenciamento de múltiplas tarefas de telefone móvel simultaneamente permanece limitada. Embora o ajuste fino supervisionado multitarefa (SFT) seja amplamente adotado para aprendizado multitarefa, as abordagens existentes lutam para determinar composições ideais de dados de treinamento para o desempenho máximo. Para enfrentar esse desafio, propomos o DaMo (Otimizador de Mistura de Dados) - uma solução inovadora que emprega uma rede treinável que prevê misturas ideais de dados ao prever o desempenho de tarefas subsequentes para qualquer proporção de conjunto de dados. Para apoiar uma avaliação abrangente, introduzimos o PhoneAgentBench, o primeiro benchmark especializado para avaliar MLLMs em tarefas multimodais de telefone móvel, compreendendo 1235 pares de perguntas e respostas que abrangem diversos cenários reais de aplicações industriais móveis. Demonstrando forte capacidade preditiva (R^2=0,81) em experimentos piloto de pequena escala, o DaMo extrapola eficientemente configurações ideais de mistura de dados. Nossos resultados mostram que o DaMo alcança uma melhoria de desempenho de 3,38% no PhoneAgentBench em comparação com métodos alternativos. Além disso, experimentos extensos em benchmarks estabelecidos, incluindo BFCL-v3, MME-Reasoning, MME-Perception e OCRBench, revelam a superior generalização do DaMo, superando outras abordagens em 2,57% em termos de pontuação média. Quando usado exclusivamente para otimização de MLLMs na tarefa BFCL-v3, o DaMo melhora as métricas em 12,47% em relação a outros métodos. Notavelmente, o DaMo mantém uma escalabilidade robusta, preservando sua eficácia quando aplicado a outras arquiteturas de modelo. O código e o conjunto de dados estão disponíveis em https://github.com/OPPO-Mente-Lab/DaMo.git.
Modelos Visão-Linguagem (VLMs) têm alcançado progressos notáveis, mas sua grande escala frequentemente os torna impraticáveis para ambientes com recursos limitados. Este artigo introduz o Aprendizado Unificado de Reforço e Imitação (RIL), um algoritmo de treinamento novo e eficiente projetado para criar VLMs poderosos e leves. O RIL combina de forma distinta os pontos fortes do aprendizado por reforço com o aprendizado de imitação adversarial. Isso permite que VLMs menores, os chamados modelos "estudantes", não apenas imitem a geração sofisticada de texto de grandes modelos "professores", mas também melhorem sistematicamente suas capacidades gerativas por meio de sinais de reforço. Um elemento-chave de nosso framework de imitação é um discriminador baseado em LLM que distingue habilmente as saídas dos modelos estudante e professor, complementado pela orientação de múltiplos VLMs professores grandes para garantir um aprendizado diversificado. Essa estratégia de aprendizado unificada, que aproveita tanto o reforço quanto a imitação, capacita os modelos estudantes a alcançarem ganhos significativos de desempenho, tornando-os competitivos com os principais VLMs de código fechado. Experimentos extensos em diversos benchmarks de visão-linguagem demonstram que o RIL reduz significativamente a lacuna de desempenho em relação aos VLMs de código aberto e fechado mais avançados e, em vários casos, os supera.
Avanços recentes em modelos multimodais demonstraram capacidades notáveis de edição de imagens guiadas por texto, com sistemas como GPT-4o e Nano-Banana estabelecendo novos padrões de referência. No entanto, o progresso da comunidade de pesquisa continua limitado pela ausência de conjuntos de dados em larga escala, de alta qualidade e abertamente acessíveis, construídos a partir de imagens reais. Apresentamos o Pico-Banana-400K, um conjunto abrangente de 400 mil imagens para edição de imagens baseada em instruções. Nosso conjunto de dados é construído aproveitando o Nano-Banana para gerar pares de edições diversas a partir de fotografias reais da coleção OpenImages. O que distingue o Pico-Banana-400K de conjuntos de dados sintéticos anteriores é nossa abordagem sistemática à qualidade e diversidade. Empregamos uma taxonomia detalhada de edição de imagens para garantir cobertura abrangente dos tipos de edição, mantendo a preservação precisa do conteúdo e a fidelidade às instruções por meio de pontuação de qualidade baseada em MLLM e curadoria cuidadosa. Além da edição em uma única etapa, o Pico-Banana-400K possibilita pesquisas em cenários complexos de edição. O conjunto de dados inclui três subconjuntos especializados: (1) uma coleção de 72 mil exemplos de múltiplas etapas para estudar edição sequencial, raciocínio e planejamento em modificações consecutivas; (2) um subconjunto de preferência com 56 mil exemplos para pesquisa de alinhamento e treinamento de modelos de recompensa; e (3) pares de instruções de edição longas e curtas para desenvolver capacidades de reescrita e resumo de instruções. Ao fornecer esse recurso em larga escala, de alta qualidade e rico em tarefas, o Pico-Banana-400K estabelece uma base robusta para treinar e avaliar a próxima geração de modelos de edição de imagens guiadas por texto.
A geração de relatórios financeiros profissionais é um processo intensivo em mão de obra e intelectualmente exigente, com o qual os sistemas atuais de IA têm dificuldade em lidar de forma totalmente automatizada. Para enfrentar esse desafio, apresentamos o FinSight (Financial InSight), uma nova estrutura multiagente para a produção de relatórios financeiros multimodais de alta qualidade. A base do FinSight é a arquitetura Code Agent with Variable Memory (CAVM), que unifica dados externos, ferramentas projetadas e agentes em um espaço variável programável, permitindo a coleta flexível de dados, análise e geração de relatórios por meio de código executável. Para garantir visualizações de nível profissional, propomos um Mecanismo Iterativo de Aprimoramento Visual que refina progressivamente as saídas visuais brutas em gráficos financeiros polidos. Além disso, uma Estrutura de Escrita em Duas Etapas expande segmentos concisos de Chain-of-Analysis em relatórios coerentes, com citações e multimodais, garantindo tanto profundidade analítica quanto consistência estrutural. Experimentos em diversas tarefas em nível de empresa e setor demonstram que o FinSight supera significativamente todas as linhas de base, incluindo sistemas líderes de pesquisa profunda, em termos de precisão factual, profundidade analítica e qualidade de apresentação, mostrando um caminho claro para a geração de relatórios que se aproximam da qualidade de especialistas humanos.
À medida que os modelos de linguagem de grande escala (LLMs) são cada vez mais utilizados em interações humano-IA, suas capacidades de raciocínio social em contextos interpessoais são cruciais. Apresentamos o SCRIPTS, um conjunto de dados de 1.000 diálogos em inglês e coreano, extraídos de roteiros de filmes. A tarefa envolve avaliar a capacidade de raciocínio social dos modelos para inferir os relacionamentos interpessoais (por exemplo, amigos, irmãs, amantes) entre os interlocutores em cada diálogo. Cada diálogo é anotado com rótulos relacionais probabilísticos (Altamente Provável, Menos Provável, Improvável) por falantes nativos (ou equivalentes) de coreano e inglês da Coreia e dos EUA. Ao avaliar nove modelos em nossa tarefa, os LLMs proprietários atuais alcançam cerca de 75-80% no conjunto de dados em inglês, enquanto seu desempenho no coreano cai para 58-69%. Mais surpreendentemente, os modelos selecionam relacionamentos Improváveis em 10-25% de suas respostas. Além disso, descobrimos que os modelos de pensamento e a técnica de prompt de cadeia de pensamento, eficazes para raciocínio geral, oferecem benefícios mínimos para o raciocínio social e, ocasionalmente, amplificam vieses sociais. Nossas descobertas revelam limitações significativas nas capacidades de raciocínio social dos LLMs atuais, destacando a necessidade de esforços para desenvolver modelos de linguagem socialmente conscientes.
Modelos de mundo para direção autônoma são esperados para funcionar efetivamente em três dimensões principais: estado, ação e recompensa. No entanto, os modelos existentes são tipicamente restritos a modalidades de estado limitadas, sequências de vídeo curtas, controle de ação impreciso e falta de consciência sobre recompensas. Neste artigo, apresentamos o OmniNWM, um modelo de mundo de navegação panorâmica onisciente que aborda todas as três dimensões dentro de um framework unificado. Para o estado, o OmniNWM gera conjuntamente vídeos panorâmicos de RGB, semântica, profundidade métrica e ocupação 3D. Uma estratégia de forçamento flexível permite uma geração auto-regressiva de alta qualidade em horizontes longos. Para a ação, introduzimos uma representação normalizada de mapa de raios Plucker panorâmico que codifica trajetórias de entrada em sinais de nível de pixel, permitindo um controle altamente preciso e generalizável sobre a geração de vídeos panorâmicos. Em relação à recompensa, vamos além da aprendizagem de funções de recompensa com modelos baseados em imagens externas: em vez disso, aproveitamos a ocupação 3D gerada para definir diretamente recompensas densas baseadas em regras para conformidade e segurança na direção. Experimentos extensivos demonstram que o OmniNWM alcança desempenho de ponta em geração de vídeo, precisão de controle e estabilidade de longo horizonte, enquanto fornece um framework confiável de avaliação em loop fechado por meio de recompensas fundamentadas em ocupação. A página do projeto está disponível em https://github.com/Arlo0o/OmniNWM.
Modelos de Linguagem de Difusão Mascarada (DLMs, na sigla em inglês) surgiram recentemente como uma alternativa promissora aos tradicionais Modelos Autoregressivos (ARMs, na sigla em inglês). Os DLMs empregam codificadores baseados em transformers com atenção bidirecional, permitindo a geração paralela de tokens enquanto mantêm um desempenho competitivo. Embora sua eficiência e eficácia tenham sido amplamente estudadas, os mecanismos internos que governam os DLMs permanecem em grande parte inexplorados. Neste trabalho, realizamos uma análise empírica dos padrões de atenção dos DLMs, com foco no fenômeno de "afundamento de atenção" (attention sinking), um efeito previamente observado em várias arquiteturas baseadas em transformers. Nossos resultados revelam que os DLMs também exibem afundamentos de atenção, mas com características distintas. Primeiro, ao contrário dos ARMs, as posições de afundamento nos DLMs tendem a se deslocar ao longo do processo de geração, exibindo um comportamento dinâmico. Segundo, enquanto os ARMs são altamente sensíveis à remoção dos afundamentos de atenção, os DLMs permanecem robustos: mascarar os afundamentos resulta em apenas uma pequena degradação no desempenho. Esses resultados fornecem novos insights sobre o funcionamento interno dos modelos de linguagem baseados em difusão e destacam diferenças fundamentais em como eles alocam e utilizam a atenção em comparação com os modelos autoregressivos.
Apresentamos o Chart2Code, um novo benchmark para avaliar as capacidades de compreensão de gráficos e geração de código de modelos multimodais de grande escala (LMMs). O Chart2Code foi explicitamente projetado a partir de uma perspectiva orientada ao usuário, capturando diversos cenários do mundo real e aumentando progressivamente a dificuldade das tarefas. Ele consiste em três níveis: Nível 1 (Reprodução de Gráficos) reproduz gráficos a partir de uma figura de referência e uma consulta do usuário; Nível 2 (Edição de Gráficos) envolve modificações complexas, como alterar tipos de gráficos ou adicionar elementos; e Nível 3 (Geração de Gráficos a partir de Tabelas Longas) exige que os modelos transformem tabelas longas e densas em informações em gráficos fiéis, seguindo as instruções do usuário. Até onde sabemos, este é o primeiro benchmark hierárquico que reflete o uso prático de chart2code enquanto escala sistematicamente a complexidade das tarefas. No total, o Chart2Code contém 2.023 tarefas em 22 tipos de gráficos, acompanhadas de métricas de avaliação de múltiplos níveis que avaliam tanto a correção do código quanto a fidelidade visual dos gráficos renderizados. Avaliamos 25 LMMs state-of-the-art (SoTA), incluindo modelos proprietários e os mais recentes modelos de código aberto, como GPT-5, Qwen2.5-VL, InternVL3/3.5, MiMo-VL e Seed-1.6-VL. Os resultados experimentais demonstram que mesmo o modelo SoTA GPT-5 obtém uma média de apenas 0,57 na avaliação baseada em código e 0,22 na avaliação da qualidade dos gráficos nas tarefas de edição, destacando a dificuldade do Chart2Code. Antecipamos que este benchmark impulsionará avanços no raciocínio multimodal e fomentará o desenvolvimento de LMMs mais robustos e de propósito geral. Nosso código e dados estão disponíveis no Chart2Code.
Grandes Modelos Multimodais codificam um extenso conhecimento factual em seus pesos pré-treinados. No entanto, esse conhecimento permanece estático e limitado, incapaz de acompanhar os desenvolvimentos do mundo real, o que dificulta a aquisição contínua de conhecimento. A injeção eficaz de conhecimento torna-se, portanto, crítica, envolvendo dois objetivos: adaptação de conhecimento (injetar novo conhecimento) e retenção de conhecimento (preservar o conhecimento antigo). Os métodos existentes frequentemente lutam para aprender novos conhecimentos e sofrem com o esquecimento catastrófico. Para resolver isso, propomos o KORE, um método sinérgico de aumentos e restrições orientados ao conhecimento (KnOwledge-oRientEd) para injetar novos conhecimentos em grandes modelos multimodais enquanto preserva o conhecimento antigo. Diferente da ampliação geral de texto ou imagem, o KORE converte automaticamente itens individuais de conhecimento em conhecimento estruturado e abrangente para garantir que o modelo aprenda novos conhecimentos com precisão, permitindo uma adaptação precisa. Enquanto isso, o KORE armazena o conhecimento anterior na matriz de covariância das ativações da camada linear do LMM e inicializa o adaptador projetando os pesos originais no espaço nulo da matriz, definindo uma direção de ajuste fino que minimiza a interferência com o conhecimento anterior, permitindo uma retenção poderosa. Experimentos extensivos em vários LMMs, incluindo LLaVA-v1.5-7B, LLaVA-v1.5-13B e Qwen2.5-VL-7B, mostram que o KORE alcança um desempenho superior na injeção de novos conhecimentos e mitiga efetivamente o esquecimento catastrófico.
Apresentamos o olmOCR 2, o mais recente da nossa família de sistemas OCR avançados para converter documentos impressos digitalizados, como PDFs, em texto simples limpo e ordenado de forma natural. O olmOCR 2 é alimentado pelo olmOCR-2-7B-1025, um modelo de linguagem visual (VLM) especializado de 7 bilhões de parâmetros, treinado com aprendizado por reforço com recompensas verificáveis (RLVR), onde nossas recompensas são um conjunto diversificado de testes unitários binários. Para escalar a criação de testes unitários, desenvolvemos um pipeline para gerar documentos sintéticos com layouts diversos e desafiadores, código-fonte HTML de referência conhecido e casos de teste extraídos. Demonstramos que o treinamento por RL com esses casos de teste resulta em desempenho de ponta no olmOCR-Bench, nosso benchmark de OCR em inglês, com os maiores avanços na conversão de fórmulas matemáticas, análise de tabelas e layouts de múltiplas colunas em comparação com versões anteriores. Disponibilizamos nosso modelo, dados e código sob licenças abertas permissivas.
Desde a introdução do Protocolo de Contexto de Modelo (MCP), o número de ferramentas disponíveis para Modelos de Linguagem de Grande Escala (LLMs) aumentou significativamente. Esses conjuntos de ferramentas específicas para tarefas oferecem uma alternativa às ferramentas de propósito geral, como navegadores da web, ao mesmo tempo em que são mais fáceis de desenvolver e manter do que interfaces gráficas de usuário (GUIs). No entanto, os agentes de propósito geral atuais dependem predominantemente de navegadores da web para interagir com o ambiente. Aqui, apresentamos TheMCPCompany, um benchmark para avaliar agentes de chamada de ferramentas em tarefas que envolvem interação com diversos serviços do mundo real. Utilizamos as APIs REST desses serviços para criar servidores MCP, que incluem mais de 18.000 ferramentas. Também fornecemos ferramentas de verdade fundamental (ground-truth) anotadas manualmente para cada tarefa. Em nossos experimentos, usamos as ferramentas de verdade fundamental para mostrar o potencial dos agentes de chamada de ferramentas tanto para melhorar o desempenho quanto para reduzir custos, assumindo uma recuperação perfeita de ferramentas. Em seguida, exploramos o desempenho dos agentes usando recuperação de ferramentas para estudar a praticidade no mundo real dos agentes baseados em ferramentas. Embora todos os modelos com recuperação de ferramentas tenham desempenho semelhante ou superior aos agentes baseados em navegadores, modelos menores não conseguem aproveitar totalmente as ferramentas disponíveis por meio da recuperação. Por outro lado, o desempenho do GPT-5 com recuperação de ferramentas é muito próximo ao seu desempenho com ferramentas de verdade fundamental. No geral, nosso trabalho mostra que os modelos de raciocínio mais avançados são eficazes em descobrir ferramentas em ambientes mais simples, mas enfrentam sérias dificuldades para navegar em ambientes empresariais complexos. TheMCPCompany revela que navegar por dezenas de milhares de ferramentas e combiná-las de maneiras não triviais para resolver problemas complexos ainda é uma tarefa desafiadora para os modelos atuais e requer tanto modelos de raciocínio quanto de recuperação melhores.
Modelos de linguagem multimodal de grande escala (MLLMs) demonstram uma forte compreensão de vídeos ao atender a tokens visuais relevantes para consultas textuais. Para adaptar isso diretamente para localização de maneira livre de treinamento, enquadramos a segmentação de raciocínio em vídeo como uma tarefa de Q&A (Question Answering) em vídeo e extraímos mapas de atenção por meio de um mecanismo de rollout. No entanto, os mapas de atenção brutos são ruidosos e mal alinhados com as regiões dos objetos. Propomos o Decomposed Attention Fusion (DecAF), que refina esses mapas por meio de dois mecanismos: (1) fusão contrastiva objeto-fundo e (2) fusão complementar de quadros de vídeo. Esse método suprime ativações irrelevantes e aprimora pistas focadas em objetos, permitindo a conversão direta de mapas de atenção em máscaras de segmentação grosseiras. Além disso, introduzimos o prompting SAM2 guiado por atenção para obter máscaras de granularidade fina. Diferente dos métodos existentes que treinam conjuntamente MLLMs com SAM, nosso método opera completamente sem retreinamento. O DecAF supera métodos livres de treinamento e alcança desempenho comparável a métodos baseados em treinamento em benchmarks de VOS (Video Object Segmentation) de referência e raciocínio. O código estará disponível em https://github.com/HYUNJS/DecAF.
Com os avanços em hardware, software e tecnologias de modelos de linguagem de grande escala, a interação entre humanos e sistemas operacionais evoluiu da interface de linha de comando para as interações emergentes com agentes de IA. Construir um agente de sistema operacional (SO) capaz de executar instruções do usuário e seguir fielmente seus desejos está se tornando uma realidade. Neste relatório técnico, apresentamos o ColorAgent, um agente de SO projetado para interações de longo prazo e robustas com o ambiente, além de permitir interações personalizadas e proativas com o usuário. Para habilitar interações de longo prazo com o ambiente, aprimoramos as capacidades do modelo por meio de aprendizado por reforço passo a passo e treinamento auto-evolutivo, ao mesmo tempo em que desenvolvemos uma estrutura de multiagentes personalizada que garante generalidade, consistência e robustez. Em termos de interação com o usuário, exploramos o reconhecimento personalizado de intenções e o engajamento proativo, posicionando o agente de SO não apenas como uma ferramenta de automação, mas como um parceiro colaborativo e acolhedor. Avaliamos o ColorAgent nos benchmarks AndroidWorld e AndroidLab, alcançando taxas de sucesso de 77,2% e 50,7%, respectivamente, estabelecendo um novo estado da arte. No entanto, observamos que os benchmarks atuais são insuficientes para uma avaliação abrangente de agentes de SO e propomos explorar direções futuras, particularmente nas áreas de paradigmas de avaliação, colaboração entre agentes e segurança. Nosso código está disponível em https://github.com/MadeAgents/mobile-use.
Modelos Multimodais de Grande Escala (LMMs) codificam conhecimento factual rico por meio de pré-treinamento multimodal, mas suas representações estáticas lutam para manter uma compreensão precisa de conhecimentos factuais sensíveis ao tempo. Os benchmarks existentes permanecem limitados por designs estáticos, avaliando de forma inadequada a capacidade dos LMMs de entender conhecimentos sensíveis ao tempo. Para abordar essa lacuna, propomos MINED, um benchmark abrangente que avalia a consciência temporal ao longo de 6 dimensões-chave e 11 tarefas desafiadoras: cognição, consciência, confiabilidade, compreensão, raciocínio e robustez. O MINED é construído a partir da Wikipedia por dois anotadores profissionais, contendo 2.104 amostras de conhecimento sensível ao tempo abrangendo seis tipos de conhecimento. A avaliação de 15 LMMs amplamente utilizados no MINED mostra que o Gemini-2.5-Pro alcança a maior pontuação média CEM de 63,07, enquanto a maioria dos LMMs de código aberto ainda carece de capacidade de entendimento temporal. Enquanto isso, os LMMs têm o melhor desempenho em conhecimento organizacional, enquanto seu desempenho é mais fraco em esportes. Para enfrentar esses desafios, investigamos a viabilidade de atualizar conhecimentos sensíveis ao tempo em LMMs por meio de métodos de edição de conhecimento e observamos que os LMMs podem efetivamente atualizar o conhecimento via métodos de edição de conhecimento em cenários de edição única.
A modelagem de otimização possibilita decisões críticas em diversas indústrias, mas ainda é difícil de automatizar: a linguagem informal precisa ser mapeada para formulações matemáticas precisas e código executável por solvers. Abordagens anteriores com LLMs dependem de prompts frágeis ou de retreinamentos custosos com generalização limitada. Apresentamos o AlphaOPT, uma biblioteca de experiência que se autoaperfeiçoa e permite que um LLM aprenda a partir de demonstrações limitadas (apenas respostas, sem programas de referência) e feedback de solvers — sem rastros de raciocínio anotados ou atualizações de parâmetros. O AlphaOPT opera em um ciclo contínuo de duas fases: (i) uma fase de Aprendizado da Biblioteca, que reflete sobre tentativas falhas, extraindo insights estruturados e verificados pelo solver como {taxonomia, condição, explicação, exemplo}; e (ii) uma fase de Evolução da Biblioteca, que diagnostica desalinhamentos na recuperação e refina as condições de aplicabilidade dos insights armazenados, melhorando a transferência entre tarefas. Esse design (1) aprende de forma eficiente a partir de demonstrações limitadas sem racionais curados, (2) se expande continuamente sem retreinamentos custosos, atualizando a biblioteca em vez dos pesos do modelo, e (3) torna o conhecimento explícito e interpretável para inspeção e intervenção humana. Experimentos mostram que o AlphaOPT melhora consistentemente com mais dados (de 65% para 72% ao passar de 100 para 300 itens de treinamento) e supera a linha de base mais forte em 7,7% no conjunto de dados OptiBench fora da distribuição, quando treinado apenas com respostas. Código e dados estão disponíveis em: https://github.com/Minw913/AlphaOPT.
Os métodos existentes de ajuste fino eficiente em parâmetros (PEFT) se enquadram principalmente em duas categorias: baseados em adição e adaptação seletiva in-situ. O primeiro, como o LoRA, introduz módulos adicionais para adaptar o modelo a tarefas subsequentes, oferecendo alta eficiência de memória. No entanto, sua capacidade de representação é frequentemente limitada, tornando-os menos adequados para adaptações refinadas. Em contraste, o segundo ajusta diretamente um subconjunto cuidadosamente escolhido dos parâmetros originais do modelo, permitindo uma adaptação mais precisa e eficaz, mas ao custo de um consumo de memória significativamente maior. Para conciliar essa compensação, propomos o NeuroAda, um novo método PEFT que permite o ajuste fino refinado do modelo enquanto mantém alta eficiência de memória. Nossa abordagem primeiro identifica parâmetros importantes (ou seja, conexões dentro da rede), como na adaptação seletiva, e então introduz conexões de desvio para esses parâmetros selecionados. Durante o ajuste fino, apenas as conexões de desvio são atualizadas, mantendo os parâmetros originais do modelo congelados. Resultados empíricos em mais de 23 tarefas, abrangendo tanto geração quanto compreensão de linguagem natural, demonstram que o NeuroAda alcança desempenho de ponta com apenas ≤ 0,02% dos parâmetros treináveis, enquanto reduz o uso de memória CUDA em até 60%. Disponibilizamos nosso código aqui: https://github.com/FightingFighting/NeuroAda.git.
Modelos de linguagem multimodal de grande escala (MLLMs) estão avançando rapidamente, mas sua capacidade de raciocínio frequentemente fica aquém de seus equivalentes baseados apenas em texto. Os métodos existentes para preencher essa lacuna dependem de ajuste fino supervisionado sobre grandes volumes de dados de raciocínio multimodal ou de aprendizado por reforço, ambos intensivos em recursos. Uma alternativa promissora é a fusão de modelos, que interpola parâmetros entre LLMs aprimorados para raciocínio e variantes multimodais. No entanto, nossa análise mostra que a fusão ingênua nem sempre é uma "solução gratuita": sua eficácia varia drasticamente entre famílias de modelos, com alguns (por exemplo, LLaVA, Idefics) se beneficiando, enquanto outros (por exemplo, Qwen) sofrem degradação de desempenho. Para resolver isso, propomos o Método de Injeção Direcional de Raciocínio para Ajuste Fino (DRIFT) em MLLMs, uma abordagem leve que transfere conhecimento de raciocínio no espaço de gradientes, sem desestabilizar o alinhamento multimodal. O DRIFT pré-computa um prior de raciocínio como a diferença no espaço de parâmetros entre variantes de raciocínio e multimodais, e então o utiliza para influenciar os gradientes durante o ajuste fino multimodal. Essa abordagem preserva a simplicidade dos pipelines padrão de ajuste fino supervisionado, ao mesmo tempo em que permite uma transferência eficiente de raciocínio. Experimentos extensivos em benchmarks de raciocínio multimodal, incluindo MathVista e MathVerse, demonstram que o DRIFT melhora consistentemente o desempenho de raciocínio em relação à fusão ingênua e ao ajuste fino supervisionado, enquanto iguala ou supera métodos de treinamento pesado a uma fração do custo.
Dados de pré-treinamento de alta qualidade são cruciais para modelos de linguagem de grande escala, onde a qualidade captura confiabilidade factual e valor semântico, e a diversidade garante cobertura ampla e heterogeneidade distribucional. As abordagens existentes geralmente dependem de seleção baseada em pontuação uni ou multidimensional. No entanto, a seleção direta dos dados com maior pontuação frequentemente degrada o desempenho, sendo necessário amostrar de uma faixa mais ampla para recuperar os resultados. A não monotonicidade observada entre as pontuações do conjunto de dados e os resultados de benchmarks subsequentes revela um viés fundamental: métodos baseados em pontuação colapsam dimensões correlacionadas, fazendo com que os dados com maior pontuação pareçam de alta qualidade enquanto sistematicamente negligenciam a diversidade. Argumentamos que garantir a diversidade requer decompor métricas correlacionadas em dimensões de características ortogonais, a partir das quais os dados com maior pontuação podem ser diretamente selecionados. Portanto, propomos o algoritmo de Seleção Ortogonal com Consciência de Diversidade (ODiS), que preserva tanto a qualidade quanto a diversidade durante a seleção de dados. Primeiro, o ODiS avalia os dados em múltiplas dimensões, abrangendo qualidade linguística, qualidade do conhecimento e dificuldade de compreensão. As pontuações multidimensionais são então descorrelacionadas via Análise de Componentes Principais (PCA), resultando em dimensões de avaliação ortogonais. Para cada dimensão, um avaliador baseado em Roberta é treinado para regredir os dados nas pontuações projetadas pelo PCA, permitindo inferência escalável em grandes corpora. Finalmente, o ODiS constrói o conjunto de treinamento selecionando os dados com maior pontuação dentro de cada dimensão ortogonal, garantindo assim qualidade e diversidade. Resultados empíricos mostram que os dados selecionados pelo ODiS exibem menos de 2% de sobreposição inter-dimensional, confirmando a ortogonalidade entre as dimensões. Mais importante, modelos treinados com dados selecionados pelo ODiS superam significativamente outras baselines em benchmarks subsequentes, destacando a necessidade de seleção de dados ortogonal e consciente da diversidade para LLMs.
As respostas ao impulso de sala (RIRs) são um recurso fundamental para desreverberação, reconhecimento robusto de fala, localização de fontes e estimativa de acústica de ambientes. Apresentamos o RIR-Mega, uma grande coleção de RIRs simuladas descritas por um esquema de metadados compacto e amigável para máquinas, distribuído com ferramentas simples para validação e reutilização. O conjunto de dados inclui um carregador para o Hugging Face Datasets, scripts para verificação de metadados e checksums, e uma linha de base de regressão de referência que prevê alvos como o RT60 a partir de formas de onda. Em uma divisão de treinamento e validação de 36.000 e 4.000 exemplos, uma pequena Floresta Aleatória com características leves de tempo e espectro atinge um erro absoluto médio próximo de 0,013 s e um erro quadrático médio próximo de 0,022 s. Disponibilizamos um subconjunto com 1.000 RIRs de arranjo linear e 3.000 RIRs de arranjo circular no Hugging Face para streaming e testes rápidos, e preservamos o arquivo completo de 50.000 RIRs no Zenodo. O conjunto de dados e o código são públicos para apoiar estudos reproduzíveis.
A avaliação do progresso em modelos de linguagem de grande escala (LLMs) é frequentemente limitada pelo desafio de verificar respostas, restringindo as avaliações a tarefas como matemática, programação e respostas curtas a perguntas. No entanto, muitas aplicações do mundo real exigem a avaliação de LLMs no processamento de documentos profissionais, na síntese de informações e na geração de relatórios abrangentes em resposta a consultas dos usuários. Apresentamos o ProfBench: um conjunto de mais de 7000 pares de critérios de resposta avaliados por especialistas humanos com conhecimento profissional em PhD em Física, PhD em Química, MBA em Finanças e MBA em Consultoria. Construímos LLM-Judges robustos e acessíveis para avaliar as rubricas do ProfBench, mitigando o viés de autoaprimoramento e reduzindo o custo de avaliação em 2-3 ordens de magnitude, tornando-o justo e acessível para a comunidade em geral. Nossas descobertas revelam que o ProfBench apresenta desafios significativos mesmo para LLMs de última geração, com modelos de alto desempenho como o GPT-5-high alcançando apenas 65,9% de desempenho geral. Além disso, identificamos disparidades notáveis de desempenho entre modelos proprietários e de pesos abertos e fornecemos insights sobre o papel que o pensamento estendido desempenha na abordagem de tarefas complexas em domínios profissionais. Dados: https://huggingface.co/datasets/nvidia/ProfBench e Código: https://github.com/NVlabs/ProfBench
As pessoas veem texto. Os humanos leem reconhecendo palavras como objetos visuais, incluindo suas formas, layouts e padrões, antes de conectá-las ao significado, o que nos permite lidar eficazmente com erros de digitação, fontes distorcidas e diversos scripts. No entanto, os modelos de linguagem de grande escala (LLMs) modernos dependem de tokenização de subpalavras, fragmentando o texto em pedaços de um vocabulário fixo. Embora eficaz para idiomas de alta disponibilidade de recursos, essa abordagem segmenta excessivamente idiomas de baixa disponibilidade de recursos, gerando sequências longas e linguisticamente sem sentido e inflando a computação. Neste trabalho, desafiamos esse paradigma enraizado e avançamos em direção a uma alternativa centrada na visão. Nosso método, SeeTok, renderiza o texto como imagens (texto visual) e aproveita LLMs multimodais pré-treinados para interpretá-los, reutilizando fortes habilidades de OCR e alinhamento texto-visão aprendidas com treinamento multimodal em grande escala. Em três tarefas de linguagem diferentes, o SeeTok iguala ou supera os tokenizadores de subpalavras, enquanto requer 4,43 vezes menos tokens e reduz os FLOPs em 70,5%, com ganhos adicionais em generalização translinguística, robustez a ruídos tipográficos e hierarquia linguística. O SeeTok sinaliza uma mudança da tokenização simbólica para uma leitura visual semelhante à humana e dá um passo em direção a modelos de linguagem mais naturais e inspirados na cognição.
Os modelos de Texto para Imagem (T2I) avançaram rapidamente, mas ainda permanecem vulneráveis ao vazamento semântico, a transferência não intencional de características semanticamente relacionadas entre entidades distintas. As estratégias existentes de mitigação são frequentemente baseadas em otimização ou dependentes de entradas externas. Apresentamos o DeLeaker, uma abordagem leve e livre de otimização durante a inferência que mitiga o vazamento ao intervir diretamente nos mapas de atenção do modelo. Ao longo do processo de difusão, o DeLeaker reajusta dinamicamente os mapas de atenção para suprimir interações excessivas entre entidades, ao mesmo tempo em que fortalece a identidade de cada entidade. Para apoiar uma avaliação sistemática, introduzimos o SLIM (Vazamento Semântico em IMagens), o primeiro conjunto de dados dedicado ao vazamento semântico, composto por 1.130 amostras verificadas por humanos que abrangem diversos cenários, juntamente com uma nova estrutura de avaliação automática. Experimentos demonstram que o DeLeaker supera consistentemente todas as linhas de base, mesmo quando estas recebem informações externas, alcançando uma mitigação eficaz do vazamento sem comprometer a fidelidade ou a qualidade. Esses resultados destacam o valor do controle de atenção e abrem caminho para modelos T2I semanticamente mais precisos.
Embora os ataques de inferência de associação (MIAs) e a detecção de textos gerados por máquina tenham objetivos diferentes - identificar amostras de treinamento e textos sintéticos, respectivamente - seus métodos frequentemente exploram sinais semelhantes com base na distribuição de probabilidade de um modelo de linguagem. Apesar dessa base metodológica compartilhada, as duas tarefas têm sido estudadas de forma independente, o que pode levar a conclusões que negligenciam métodos mais robustos e insights valiosos desenvolvidos na outra tarefa. Neste trabalho, investigamos teórica e empiricamente a transferibilidade, ou seja, o quão bem um método originalmente desenvolvido para uma tarefa se desempenha na outra, entre MIAs e detecção de textos gerados por máquina. Para nossa contribuição teórica, provamos que a métrica que alcança o desempenho assintoticamente mais alto em ambas as tarefas é a mesma. Unificamos uma grande proporção da literatura existente no contexto dessa métrica ótima e hipotetizamos que a precisão com que um determinado método aproxima essa métrica está diretamente correlacionada com sua transferibilidade. Nossos experimentos empíricos em larga escala, incluindo 7 métodos de MIA e 5 detectores de texto gerado por máquina de última geração, abrangendo 13 domínios e 10 geradores, demonstram uma forte correlação de classificação (rho > 0,6) no desempenho entre tarefas. Notavelmente, descobrimos que o Binoculars, originalmente projetado para detecção de texto gerado por máquina, também alcança desempenho de última geração em benchmarks de MIA, demonstrando o impacto prático da transferibilidade. Nossas descobertas destacam a necessidade de maior conscientização e colaboração entre as duas comunidades de pesquisa. Para facilitar desenvolvimentos entre tarefas e avaliações justas, introduzimos o MINT, um conjunto unificado de avaliação para MIAs e detecção de texto gerado por máquina, com a implementação de 15 métodos recentes de ambas as tarefas.
Transformadores frequentemente falham em aprender algoritmos generalizáveis, em vez disso, dependendo de heurísticas frágeis. Utilizando a conectividade de grafos como um ambiente de teste, explicamos esse fenômeno tanto teoricamente quanto empiricamente. Consideramos uma arquitetura simplificada de Transformador, o Transformador desacoplado, e provamos que um modelo com L camadas tem capacidade para resolver grafos com diâmetros de até exatamente 3^L, implementando um algoritmo equivalente ao cálculo de potências da matriz de adjacência. Analisamos a dinâmica de treinamento e mostramos que a estratégia aprendida depende se a maioria das instâncias de treinamento está dentro dessa capacidade do modelo. Grafos dentro da capacidade (diâmetro ≤ 3^L) impulsionam o aprendizado de uma solução algorítmica correta, enquanto grafos além da capacidade levam ao aprendizado de uma heurística simples baseada nos graus dos nós. Por fim, demonstramos empiricamente que restringir os dados de treinamento dentro da capacidade de um modelo faz com que tanto os transformadores padrão quanto os desacoplados aprendam o algoritmo exato, em vez da heurística baseada em graus.