Artigos de pesquisa em IA selecionados diariamente com traduções
A relação entre sistemas computacionais e o cérebro tem servido como motivação para teóricos pioneiros desde John von Neumann e Alan Turing. Redes biológicas uniformes e livres de escala, como o cérebro, possuem propriedades poderosas, incluindo a capacidade de generalizar ao longo do tempo, que é o principal obstáculo para o Aprendizado de Máquina no caminho para Modelos de Raciocínio Universal. Apresentamos o `Dragon Hatchling' (BDH), uma nova arquitetura de Modelo de Linguagem de Grande Escala baseada em uma rede biologicamente inspirada e livre de escala de partículas neuronais que interagem localmente. O BDH combina fundamentos teóricos robustos e interpretabilidade inerente sem sacrificar o desempenho semelhante ao dos Transformers. O BDH é uma arquitetura prática e de alto desempenho para aprendizado de sequências baseado em espaço de estados com atenção, estado da arte. Além de ser um modelo de grafo, o BDH admite uma formulação otimizada para GPUs. Ele exibe leis de escalonamento semelhantes às dos Transformers: empiricamente, o BDH rivaliza com o desempenho do GPT2 em tarefas de linguagem e tradução, com o mesmo número de parâmetros (10M a 1B) e os mesmos dados de treinamento. O BDH pode ser representado como um modelo cerebral. A memória de trabalho do BDH durante a inferência depende inteiramente da plasticidade sináptica com aprendizado Hebbiano usando neurônios pulsantes. Confirmamos empiricamente que sinapses específicas e individuais fortalecem suas conexões sempre que o BDH ouve ou raciocina sobre um conceito específico ao processar entradas de linguagem. A rede de interação neuronal do BDH é um grafo de alta modularidade com distribuição de grau de cauda pesada. O modelo BDH é biologicamente plausível, explicando um possível mecanismo que os neurônios humanos poderiam usar para alcançar a fala. O BDH foi projetado para interpretabilidade. Os vetores de ativação do BDH são esparsos e positivos. Demonstramos a monosemanticidade do BDH em tarefas de linguagem. A interpretabilidade do estado, que vai além da interpretabilidade dos neurônios e parâmetros do modelo, é uma característica inerente da arquitetura do BDH.
O MCP padroniza como os LLMs interagem com sistemas externos, formando a base para agentes gerais. No entanto, os benchmarks existentes de MCP permanecem limitados em escopo: eles se concentram em tarefas com muita leitura ou tarefas com profundidade de interação limitada, e não conseguem capturar a complexidade e o realismo dos fluxos de trabalho do mundo real. Para abordar essa lacuna, propomos o MCPMark, um benchmark projetado para avaliar o uso do MCP de maneira mais realista e abrangente. Ele consiste em 127 tarefas de alta qualidade criadas colaborativamente por especialistas de domínio e agentes de IA. Cada tarefa começa com um estado inicial curado e inclui um script programático para verificação automática. Essas tarefas exigem interações mais ricas e diversas com o ambiente, envolvendo uma ampla gama de operações de criação, leitura, atualização e exclusão (CRUD). Realizamos uma avaliação abrangente de LLMs de ponta usando uma estrutura mínima de agente que opera em um loop de chamada de ferramentas. Os resultados empíricos mostram que o modelo de melhor desempenho, gpt-5-medium, alcança apenas 52,56% de pass@1 e 33,86% de pass^4, enquanto outros modelos amplamente reconhecidos como fortes, incluindo claude-sonnet-4 e o3, ficam abaixo de 30% de pass@1 e 15% de pass^4. Em média, os LLMs exigem 16,2 turnos de execução e 17,4 chamadas de ferramentas por tarefa, superando significativamente os benchmarks anteriores de MCP e destacando a natureza de teste de estresse do MCPMark.
Embora o aprendizado por reforço (RL) possa aprimorar efetivamente as capacidades de raciocínio de modelos visão-linguagem (VLMs), os métodos atuais ainda dependem fortemente de conjuntos de dados intensivos em mão de obra que exigem construção e verificação manual extensiva, resultando em custos de treinamento extremamente altos e, consequentemente, limitando a implantação prática dos VLMs. Para enfrentar esse desafio, propomos o Vision-Zero, um framework independente de domínio que permite a auto-melhoria dos VLMs por meio de jogos visuais competitivos gerados a partir de pares de imagens arbitrários. Especificamente, o Vision-Zero engloba três atributos principais: (1) Framework de Autojogo Estratégico: o Vision-Zero treina VLMs em jogos no estilo "Quem é o Espião", onde os modelos se envolvem em raciocínio e ações estratégicas em múltiplos papéis. Por meio da interatividade do jogo, os modelos geram autonomamente seus dados de treinamento sem anotação humana. (2) Jogabilidade a partir de Imagens Arbitrárias: Diferente de frameworks gamificados existentes, o Vision-Zero pode gerar jogos a partir de imagens arbitrárias, aprimorando assim a capacidade de raciocínio do modelo em diversos domínios e demonstrando forte generalização para diferentes tarefas. Demonstramos essa versatilidade utilizando três tipos distintos de conjuntos de dados de imagens: cenas sintéticas baseadas em CLEVR, gráficos e imagens do mundo real. (3) Ganho de Desempenho Sustentável: Introduzimos o Iterative Self-Play Policy Optimization (Iterative-SPO), um novo algoritmo de treinamento que alterna entre Autojogo e aprendizado por reforço com recompensas verificáveis (RLVR), mitigando o platô de desempenho frequentemente observado no treinamento apenas com autojogo e alcançando melhorias sustentáveis a longo prazo. Apesar de utilizar dados sem rótulos, o Vision-Zero alcança desempenho de ponta em tarefas de raciocínio, resposta a perguntas sobre gráficos e compreensão centrada em visão, superando outros métodos baseados em anotação. Modelos e código foram disponibilizados em https://github.com/wangqinsi1/Vision-Zero.
O raciocínio emergiu como uma capacidade fundamental em Modelos de Linguagem de Grande Escala (LLMs). Através do Aprendizado por Reforço (RL), tipicamente utilizando a Otimização de Política Relativa em Grupo (GRPO), esses modelos são capazes de resolver tarefas complexas, como geração de códigos e problemas matemáticos. Com base nesses avanços, pesquisas recentes buscaram estender o raciocínio para Modelos de Visão e Linguagem (VLMs), obtendo resultados promissores em diversas tarefas visuais. Apesar desse progresso, nosso estudo revela a natureza dual do raciocínio multimodal: enquanto ele aprimora substancialmente a inferência lógica e facilita o desempenho em problemas desafiadores, pode gradualmente prejudicar a ancoragem perceptiva, levando a falhas de reconhecimento em questões visuais básicas. Através de análises adicionais, atribuímos esse fenômeno ao esquecimento visual, no qual o raciocínio prolongado faz com que o modelo ignore progressivamente as entradas visuais. Para resolver isso, propomos a Otimização de Política Ancorada em Visão (VAPO), um método simples, porém eficaz, que direciona explicitamente o processo de raciocínio para trajetórias visualmente fundamentadas. Nosso modelo resultante, o VAPO-Thinker-7B, fortalece significativamente a dependência do modelo em informações visuais e alcança novos resultados de ponta em uma ampla gama de benchmarks estabelecidos. Página do projeto: https://xytian1008.github.io/VAPO/
À medida que o ajuste fino supervisionado (SFT) evolui de uma etapa leve pós-treinamento para uma fase intensiva em computação que rivaliza em escala com o meio do treinamento, a eficiência de dados tornou-se crucial para alinhar grandes modelos de linguagem (LLMs) sob orçamentos restritos. Os métodos existentes de poda de dados sofrem de um design fragmentado: eles operam isoladamente no nível de amostra ou no nível de token, falhando em otimizar conjuntamente ambas as dimensões. Essa desconexão leva a ineficiências significativas—amostras de alto valor ainda podem conter tokens redundantes, enquanto a poda em nível de token frequentemente descarta sinais instrucionais ou corretivos cruciais embutidos em exemplos individuais. Para abordar esse gargalo, introduzimos o Plano de Erro-Incerteza (EU), uma estrutura de diagnóstico que caracteriza conjuntamente a utilidade heterogênea dos dados de treinamento em amostras e tokens. Guiados por essa visão, propomos o Ajuste Baseado em Quadrantes (Q-Tuning), uma estrutura unificada que coordena estrategicamente a poda de amostras e a poda de tokens. O Q-Tuning emprega uma estratégia de duas etapas: primeiro, realiza uma triagem em nível de amostra para reter exemplos ricos em equívocos informativos ou sinais de calibração; segundo, aplica uma política assimétrica de poda de tokens, usando um mecanismo de pontuação contextual para eliminar tokens menos salientes exclusivamente de amostras de equívocos, enquanto preserva amostras de calibração em sua totalidade. Nosso método estabelece um novo estado da arte em cinco benchmarks diversos. Notavelmente, no SmolLM2-1.7B, o Q-Tuning alcança uma melhoria média de +38\% em relação à linha de base de SFT com dados completos, utilizando apenas 12,5\% dos dados de treinamento originais. Como a primeira abordagem de poda dinâmica a superar consistentemente o treinamento com dados completos, o Q-Tuning fornece um plano prático e escalável para maximizar a utilização de dados em SFT de LLMs com orçamento limitado.
Embora os grandes modelos de linguagem (LLMs) tenham demonstrado um desempenho robusto em tarefas de questionamento factual, eles ainda são propensos a alucinações e respostas não verídicas, especialmente quando as tarefas exigem informações fora de seu conhecimento paramétrico. De fato, a veracidade exige mais do que precisão — os modelos também devem reconhecer a incerteza e se abster quando não têm certeza para evitar alucinações. Isso representa um desafio fundamental para os métodos existentes: abordagens que otimizam a precisão frequentemente amplificam as alucinações, enquanto aquelas que incentivam a abstenção podem se tornar excessivamente conservadoras, sacrificando respostas corretas. Ambos os extremos acabam comprometendo a veracidade. Neste trabalho, apresentamos o TruthRL, uma estrutura geral de aprendizado por reforço (RL) que otimiza diretamente a veracidade dos LLMs. Especificamente, implementamos o TruthRL usando GRPO com uma recompensa ternária simples, porém eficaz, que distingue respostas corretas, alucinações e abstenções. Ele incentiva os modelos a reduzir alucinações não apenas fornecendo respostas corretas, mas também permitindo a abstenção quando incertos, melhorando assim a veracidade. Experimentos extensos em quatro benchmarks intensivos em conhecimento mostram que, em comparação com o RL convencional, o TruthRL reduz significativamente as alucinações em 28,9% e melhora a veracidade em 21,1%, com ganhos consistentes em vários modelos base (por exemplo, Qwen, Llama) tanto em configurações com recuperação quanto sem recuperação. Um estudo de ablação detalhado demonstra que métodos convencionais orientados por precisão, como ajuste fino supervisionado ou RL com recompensa binária, lutam para equilibrar a correção factual e a incerteza. Em contraste, nosso TruthRL orientado por veracidade alcança um desempenho forte tanto em precisão quanto em veracidade, destacando a importância do design do objetivo de aprendizado para o desenvolvimento de LLMs verídicos.
Os Modelos de Linguagem de Grande Escala (LLMs), apesar de serem treinados apenas com texto, desenvolvem surpreendentemente ricos conhecimentos prévios visuais. Esses conhecimentos permitem que capacidades visuais latentes sejam desbloqueadas para tarefas de visão com uma quantidade relativamente pequena de dados multimodais e, em alguns casos, que realizem tarefas visuais sem nunca terem visto uma imagem. Através de uma análise sistemática, revelamos que os conhecimentos prévios visuais — o conhecimento implícito e emergente sobre o mundo visual adquirido durante o pré-treinamento de linguagem — são compostos por conhecimentos prévios de percepção e raciocínio separáveis, com tendências de escalonamento e origens únicas. Mostramos que a capacidade de raciocínio visual latente de um LLM é predominantemente desenvolvida pelo pré-treinamento em dados centrados em raciocínio (por exemplo, código, matemática, academia) e escala progressivamente. Esse conhecimento prévio de raciocínio adquirido no pré-treinamento de linguagem é transferível e universalmente aplicável ao raciocínio visual. Em contraste, um conhecimento prévio de percepção emerge de forma mais difusa de corpora amplos, e a capacidade de percepção é mais sensível ao codificador visual e aos dados de ajuste fino com instruções visuais. Paralelamente, o texto que descreve o mundo visual prova ser crucial, embora seu impacto no desempenho sature rapidamente. Aproveitando esses insights, propomos uma abordagem centrada em dados para o pré-treinamento de LLMs conscientes da visão e a verificamos em um pré-treinamento em escala de 1 trilhão de tokens. Nossas descobertas são fundamentadas em mais de 100 experimentos controlados que consumiram 500.000 horas de GPU, abrangendo todo o pipeline de construção de MLLM — desde o pré-treinamento do LLM até o alinhamento visual e o ajuste fino supervisionado multimodal — em cinco escalas de modelo, uma ampla gama de categorias e misturas de dados, e múltiplas configurações de adaptação. Junto com nossas principais descobertas, propomos e investigamos várias hipóteses e introduzimos o Multi-Level Existence Bench (MLE-Bench). Juntos, este trabalho fornece uma nova maneira de cultivar deliberadamente conhecimentos prévios visuais a partir do pré-treinamento de linguagem, abrindo caminho para a próxima geração de LLMs multimodais.
Apresentamos o DC-VideoGen, uma estrutura de aceleração pós-treinamento para geração eficiente de vídeos. O DC-VideoGen pode ser aplicado a qualquer modelo de difusão de vídeo pré-treinado, melhorando a eficiência ao adaptá-lo a um espaço latente de compressão profunda com ajuste fino leve. A estrutura é baseada em duas inovações principais: (i) um Autoencoder de Vídeo com Compressão Profunda, com um novo design temporal chunk-causal que alcança compressão espacial de 32x/64x e temporal de 4x, mantendo a qualidade de reconstrução e a generalização para vídeos mais longos; e (ii) AE-Adapt-V, uma estratégia de adaptação robusta que permite a transferência rápida e estável de modelos pré-treinados para o novo espaço latente. A adaptação do modelo Wan-2.1-14B pré-treinado com o DC-VideoGen requer apenas 10 dias de GPU no NVIDIA H100. Os modelos acelerados alcançam uma latência de inferência até 14,8x menor do que suas contrapartes base, sem comprometer a qualidade, e ainda permitem a geração de vídeos em 2160x3840 em uma única GPU. Código: https://github.com/dc-ai-projects/DC-VideoGen.
Apresentamos o OceanGym, o primeiro benchmark abrangente para agentes corporificados subaquáticos oceânicos, projetado para avançar a IA em um dos ambientes do mundo real mais desafiadores. Diferentemente de domínios terrestres ou aéreos, os cenários subaquáticos apresentam desafios extremos de percepção e tomada de decisão, incluindo visibilidade reduzida e correntes oceânicas dinâmicas, tornando a implantação eficaz de agentes excepcionalmente difícil. O OceanGym abrange oito domínios de tarefas realistas e uma estrutura unificada de agentes impulsionada por Modelos de Linguagem de Grande Escala Multimodais (MLLMs), que integra percepção, memória e tomada de decisão sequencial. Os agentes são obrigados a compreender dados ópticos e de sonar, explorar ambientes complexos de forma autônoma e alcançar objetivos de longo prazo nessas condições adversas. Experimentos extensivos revelam lacunas significativas entre os agentes impulsionados por MLLMs de última geração e especialistas humanos, destacando a dificuldade persistente de percepção, planejamento e adaptabilidade em ambientes subaquáticos oceânicos. Ao fornecer uma plataforma de alta fidelidade e rigorosamente projetada, o OceanGym estabelece um ambiente de teste para o desenvolvimento de IA corporificada robusta e a transferência dessas capacidades para veículos autônomos subaquáticos oceânicos do mundo real, marcando um passo decisivo em direção a agentes inteligentes capazes de operar em uma das últimas fronteiras inexploradas da Terra. O código e os dados estão disponíveis em https://github.com/OceanGPT/OceanGym.
O Aprendizado por Reforço com Recompensa Verificável (RLVR) resolve efetivamente tarefas complexas, mas exige contextos extremamente longos durante o treinamento, resultando em custos computacionais substanciais. Embora o treinamento em múltiplos estágios possa mitigar parcialmente isso, iniciar com contextos excessivamente curtos frequentemente causa degradação irreversível no desempenho, falhando em reduzir significativamente o custo total de treinamento. Neste artigo, introduzimos a **I**nicialização de **P**olítica **L**ivre de **P**ensamento (**TFPI**), uma adaptação simples, porém eficaz, ao RLVR que conecta a destilação de Cadeia de Pensamento (CoT) longa ao RLVR padrão. A TFPI emprega uma operação *ThinkFree* simples, descartando explicitamente o conteúdo de pensamento por meio de uma anexação direta *</think>*, para reduzir o uso de tokens durante a inferência. O treinamento com entradas adaptadas ao *ThinkFree* melhora o desempenho e reduz o consumo de tokens, mesmo no modo original de pensamento lento. Experimentos extensos em diversos benchmarks mostraram que a TFPI acelera a convergência do RL, alcança um teto de desempenho mais alto e produz modelos de raciocínio mais eficientes em termos de tokens, sem a necessidade de recompensas especializadas ou designs de treinamento complexos. Com apenas a TFPI, treinamos um modelo de 4B para atingir 89,0% de precisão no AIME24 e 65,5% no LiveCodeBench, utilizando menos de 4K horas de H20.
Julgamentos baseados em Modelos de Linguagem de Grande Escala (LLMs) aproveitam o poder desses modelos para avaliar eficientemente conteúdos candidatos e fornecer pontuações de julgamento. No entanto, os vieses inerentes e as vulnerabilidades dos julgamentos gerados por LLMs levantam preocupações, destacando a necessidade urgente de distingui-los em cenários sensíveis, como a revisão por pares acadêmica. Neste trabalho, propomos e formalizamos a tarefa de detecção de julgamentos e investigamos sistematicamente a detectabilidade de julgamentos gerados por LLMs. Diferente da detecção de textos gerados por LLMs, a detecção de julgamentos depende apenas das pontuações de julgamento e dos conteúdos candidatos, refletindo cenários do mundo real onde o feedback textual muitas vezes não está disponível no processo de detecção. Nossa análise preliminar mostra que os métodos existentes de detecção de textos gerados por LLMs têm desempenho ruim devido à sua incapacidade de capturar a interação entre as pontuações de julgamento e o conteúdo candidato — um aspecto crucial para uma detecção eficaz de julgamentos. Inspirados por isso, introduzimos o J-Detector, um detector neural leve e transparente, aprimorado com características linguísticas explicitamente extraídas e características melhoradas por LLMs, para vincular os vieses dos juízes LLMs às propriedades dos candidatos, permitindo uma detecção precisa. Experimentos em diversos conjuntos de dados demonstram a eficácia do J-Detector e mostram como sua interpretabilidade permite quantificar os vieses nos juízes LLMs. Por fim, analisamos os principais fatores que afetam a detectabilidade de julgamentos gerados por LLMs e validamos a utilidade prática da detecção de julgamentos em cenários do mundo real.
A confiabilidade de modelos de linguagem de grande escala (LLMs) durante o escalonamento em tempo de teste é frequentemente avaliada com verificadores externos ou modelos de recompensa que distinguem raciocínio correto de lógica falha. Trabalhos anteriores geralmente assumem que modelos de recompensa de processo (PRMs), que pontuam cada etapa intermediária do raciocínio, superam modelos de recompensa de resultado (ORMs) que avaliam apenas a resposta final. Essa visão é baseada principalmente em evidências de domínios restritos e relacionados à matemática. Apresentamos a primeira avaliação unificada de quatro variantes de modelos de recompensa, ORM e PRM discriminativos (\DisORM, \DisPRM) e ORM e PRM generativos (\GenORM, \GenPRM), em 14 domínios diversos. Contrariamente à sabedoria convencional, descobrimos que (i) \DisORM tem desempenho equivalente ao \DisPRM, (ii) \GenPRM não é competitivo, e (iii) no geral, \GenORM é o mais robusto, proporcionando ganhos significativos e consistentes em todos os domínios testados. Atribuímos isso à pontuação passo a passo do estilo PRM, que herda ruído de rótulos da auto-rotulagem de LLMs e tem dificuldade em avaliar trajetórias longas de raciocínio, incluindo aquelas que envolvem raciocínio de autocorreção. Nossa análise teórica mostra que a agregação passo a passo amplifica erros à medida que o comprimento do raciocínio aumenta, e nossas observações empíricas confirmam esse efeito. Esses achados desafiam a suposição predominante de que supervisão detalhada é sempre melhor e apoiam a verificação generativa de resultados para implantação em múltiplos domínios. Disponibilizamos publicamente nosso código, conjuntos de dados e checkpoints em https://github.com/db-Lee/Multi-RM{\small\texttt{https://github.com/db-Lee/Multi-RM}} para facilitar pesquisas futuras em configurações de múltiplos domínios.
O Panorama possui um FoV completo (360^circ vezes 180^circ), oferecendo uma descrição visual mais completa do que as imagens em perspectiva. Graças a essa característica, a estimativa de profundidade panorâmica está ganhando cada vez mais destaque na visão 3D. No entanto, devido à escassez de dados panorâmicos, os métodos anteriores são frequentemente restritos a configurações de domínio interno, resultando em uma generalização zero-shot ruim. Além disso, devido às distorções esféricas inerentes aos panoramas, muitas abordagens dependem de divisão em perspectiva (por exemplo, cubemaps), o que leva a uma eficiência subótima. Para enfrentar esses desafios, propomos o DA^{2}: Depth Anything in Any Direction, um estimador de profundidade panorâmico preciso, generalizável zero-shot e totalmente end-to-end. Especificamente, para ampliar os dados panorâmicos, introduzimos um mecanismo de curadoria de dados para gerar dados de profundidade panorâmica de alta qualidade a partir de perspectivas, e criamos sim543K pares RGB-profundidade panorâmicos, elevando o total para sim607K. Para mitigar ainda mais as distorções esféricas, apresentamos o SphereViT, que utiliza explicitamente coordenadas esféricas para reforçar a consistência geométrica esférica nas características das imagens panorâmicas, resultando em um desempenho aprimorado. Um benchmark abrangente em múltiplos conjuntos de dados demonstra claramente o desempenho SoTA do DA^{2}, com uma melhoria média de 38% no AbsRel em relação à linha de base zero-shot mais forte. Surpreendentemente, o DA^{2} supera até mesmo os métodos anteriores de domínio interno, destacando sua superior generalização zero-shot. Além disso, como uma solução end-to-end, o DA^{2} exibe uma eficiência muito maior em comparação com abordagens baseadas em fusão. Tanto o código quanto os dados panorâmicos curados serão liberados. Página do projeto: https://depth-any-in-any-dir.github.io/.
As capacidades notáveis dos modelos modernos de raciocínio em grande escala são em grande parte desbloqueadas por meio de técnicas de pós-treinamento, como ajuste fino supervisionado e aprendizado por reforço. No entanto, os mecanismos arquitetônicos por trás dessas melhorias permanecem amplamente opacos. Neste trabalho, utilizamos análise de circuitos para demonstrar que o pós-treinamento para raciocínio complexo desencadeia o surgimento de cabeças de atenção novas e funcionalmente especializadas. Essas cabeças, coletivamente, suportam raciocínio e computação estruturados. Nossa análise comparativa entre as famílias Qwen e o modelo destilado DeepSeek revela que essas cabeças emergentes evoluem de maneira diferente sob diferentes regimes de treinamento. A destilação e o ajuste fino supervisionado promovem uma adição cumulativa de cabeças de raciocínio estáveis. Em contraste, a otimização de política relativa em grupo opera em um modo de busca dinâmica: relativamente poucas cabeças de atenção são iterativamente ativadas, avaliadas e podadas, com sua sobrevivência acompanhando de perto as flutuações no sinal de recompensa da tarefa. Além disso, descobrimos que modelos controláveis de ligar/desligar o pensamento não possuem cabeças de pensamento dedicadas. Em vez disso, desligar o raciocínio explícito aciona um conjunto mais amplo — porém menos eficiente — de cabeças compensatórias. Por meio de análises de ablação e qualitativas, conectamos essas dinâmicas em nível de circuito a uma troca crucial de desempenho: cabeças fortalecidas permitem estratégias sofisticadas de resolução de problemas para questões difíceis, mas também podem introduzir modos de falha por excesso de pensamento, como erros de cálculo ou loops lógicos em tarefas mais simples. Essas descobertas conectam dinâmicas em nível de circuito ao desempenho macro, identificando uma tensão inerente em que o raciocínio complexo vem ao custo de computações elementares. De forma mais ampla, nosso trabalho aponta para direções futuras no design de políticas de treinamento, enfatizando a necessidade de equilibrar o desenvolvimento de estratégias eficazes de raciocínio com a garantia de execução confiável e impecável.
À medida que os agentes baseados em LLM (Large Language Models) são cada vez mais implantados em cenários da vida real, os benchmarks existentes falham em capturar sua complexidade inerente de lidar com informações extensas, aproveitar recursos diversos e gerenciar interações dinâmicas com os usuários. Para abordar essa lacuna, apresentamos o VitaBench, um benchmark desafiador que avalia agentes em tarefas interativas versáteis, fundamentadas em contextos do mundo real. Inspirado por aplicações cotidianas como entrega de comida, consumo em lojas e serviços de viagens online, o VitaBench oferece aos agentes o ambiente de simulação mais complexo até hoje, composto por 66 ferramentas. Por meio de um framework que elimina políticas específicas de domínio, permitimos a composição flexível desses cenários e ferramentas, resultando em 100 tarefas de cenários cruzados (resultados principais) e 300 tarefas de cenário único. Cada tarefa é derivada de múltiplas solicitações reais de usuários e exige que os agentes raciocinem em dimensões temporais e espaciais, utilizem conjuntos complexos de ferramentas, esclareçam proativamente instruções ambíguas e acompanhem a intenção mutável do usuário ao longo de conversas com múltiplas interações. Além disso, propomos um avaliador baseado em rubricas com janela deslizante, permitindo uma avaliação robusta de diversas vias de solução em ambientes complexos e interações estocásticas. Nossa avaliação abrangente revela que mesmo os modelos mais avançados alcançam apenas 30% de taxa de sucesso em tarefas de cenários cruzados e menos de 50% em outras tarefas. No geral, acreditamos que o VitaBench servirá como um recurso valioso para avançar o desenvolvimento de agentes de IA em aplicações práticas do mundo real. O código, o conjunto de dados e o quadro de líderes estão disponíveis em https://vitabench.github.io/.
A geração de vídeos a partir de imagens tem alcançado progressos notáveis com os avanços nos modelos de difusão, mas a criação de vídeos com movimentos realistas continua sendo um desafio significativo. Essa dificuldade surge da complexidade de modelar o movimento com precisão, o que envolve capturar restrições físicas, interações entre objetos e dinâmicas específicas de domínio que não são facilmente generalizadas em cenários diversos. Para abordar esse problema, propomos o MotionRAG, uma estrutura aprimorada por recuperação que aumenta o realismo do movimento ao adaptar prioridades de movimento a partir de vídeos de referência relevantes por meio da Adaptação de Movimento Consciente do Contexto (CAMA). As principais inovações técnicas incluem: (i) um pipeline baseado em recuperação que extrai características de movimento de alto nível usando um codificador de vídeo e resamplers especializados para destilar representações semânticas de movimento; (ii) uma abordagem de aprendizado em contexto para adaptação de movimento implementada por meio de uma arquitetura de transformador causal; (iii) um adaptador de injeção de movimento baseado em atenção que integra de forma contínua características de movimento transferidas em modelos de difusão de vídeo pré-treinados. Experimentos extensivos demonstram que nosso método alcança melhorias significativas em múltiplos domínios e diversos modelos base, tudo com um custo computacional insignificante durante a inferência. Além disso, nosso design modular permite generalização zero-shot para novos domínios simplesmente atualizando o banco de dados de recuperação sem a necessidade de retreinar qualquer componente. Esta pesquisa aprimora a capacidade central dos sistemas de geração de vídeos ao permitir a recuperação e transferência eficazes de prioridades de movimento, facilitando a síntese de dinâmicas de movimento realistas.
Modelos de linguagem de grande escala baseados em difusão (dLLMs) têm recentemente atraído considerável atenção na comunidade de pesquisa como uma alternativa promissora à geração autoregressiva, oferecendo previsão paralela de tokens e menor latência de inferência. No entanto, seu potencial de decodificação paralela permanece amplamente inexplorado, já que os modelos de código aberto existentes ainda exigem quase tantos passos de decodificação quanto o comprimento do token para garantir desempenho. Para resolver isso, introduzimos o dParallel, um método simples e eficaz que desbloqueia o paralelismo inerente dos dLLMs para amostragem rápida. Identificamos que o principal gargalo para a decodificação paralela surge da convergência sequencial de certeza para tokens mascarados. Com base nessa percepção, introduzimos o cerne de nossa abordagem: a destilação forçada de certeza, uma nova estratégia de treinamento que destila o modelo para seguir suas trajetórias de amostragem originais, ao mesmo tempo em que o obriga a alcançar alta certeza em tokens mascarados de forma mais rápida e paralela. Experimentos extensos em vários benchmarks demonstram que nosso método pode reduzir drasticamente o número de passos de decodificação enquanto mantém o desempenho. Quando aplicado ao modelo LLaDA-8B-Instruct, o dParallel reduz os passos de decodificação de 256 para 30 no GSM8K, alcançando uma aceleração de 8,5x sem degradação de desempenho. No benchmark MBPP, ele reduz os passos de decodificação de 256 para 24, resultando em uma aceleração de 10,5x enquanto mantém a precisão. Nosso código está disponível em https://github.com/czg1225/dParallel.
O otimizador Muon é consistentemente mais rápido que o Adam no treinamento de Modelos de Linguagem de Grande Escala (LLMs), mas o mecanismo por trás de seu sucesso permanece obscuro. Este artigo desmistifica esse mecanismo através da lente da memória associativa. Ao realizar ablações dos componentes do transformer otimizados pelo Muon, revelamos que os parâmetros de memória associativa dos LLMs, especificamente os pesos de atenção de Valor e Saída (VO) e as Redes Feed-Forward (FFNs), são os principais contribuintes para a superioridade do Muon. Motivados por essa visão de memória associativa, explicamos então a superioridade do Muon em corpora do mundo real, que são intrinsecamente de cauda pesada: algumas classes (classes de cauda) aparecem com muito menos frequência do que outras. A superioridade é explicada por duas propriedades-chave: (i) sua regra de atualização produz consistentemente um espectro singular mais isotrópico do que o Adam; e, como resultado, (ii) em dados de cauda pesada, ele otimiza as classes de cauda de forma mais eficaz do que o Adam. Além de evidências empíricas, confirmamos teoricamente essas descobertas ao analisar um modelo de memória associativa de uma camada sob dados com desequilíbrio de classes. Provamos que o Muon alcança consistentemente um aprendizado equilibrado entre as classes, independentemente dos embeddings de características, enquanto o Adam pode induzir grandes disparidades nos erros de aprendizado dependendo das propriedades dos embeddings. Em resumo, nossas observações empíricas e análises teóricas revelam a vantagem central do Muon: sua regra de atualização está alinhada com a estrutura de produto externo das memórias associativas lineares, permitindo um aprendizado mais equilibrado e eficaz das classes de cauda em distribuições de cauda pesada do que o Adam.
Garantir um alinhamento multimodal preciso entre imagens geradas por difusão e prompts de entrada tem sido um desafio de longa data. Trabalhos anteriores ajustam os pesos do modelo de difusão utilizando dados de preferência de alta qualidade, que tendem a ser limitados e difíceis de escalar. Métodos recentes baseados em edição refinam regiões locais das imagens geradas, mas podem comprometer a qualidade geral da imagem. Neste trabalho, propomos o Implicit Multimodal Guidance (IMG), uma nova estrutura de alinhamento multimodal baseada em re-geração que não requer dados adicionais ou operações de edição. Especificamente, dada uma imagem gerada e seu prompt, o IMG a) utiliza um modelo de linguagem multimodal de grande escala (MLLM) para identificar desalinhamentos; b) introduz um Alinhador Implícito que manipula as características de condicionamento da difusão para reduzir desalinhamentos e permitir a re-geração; e c) formula o objetivo de realinhamento em uma função de treinamento, denominada Iteratively Updated Preference Objective. Avaliações qualitativas e quantitativas extensas no SDXL, SDXL-DPO e FLUX mostram que o IMG supera os métodos de alinhamento existentes. Além disso, o IMG atua como um adaptador flexível plug-and-play, aprimorando de forma contínua métodos de alinhamento baseados em ajuste fino anteriores. Nosso código estará disponível em https://github.com/SHI-Labs/IMG-Multimodal-Diffusion-Alignment.
Os seres humanos conseguem identificar vídeos gerados por IA (falsos) e fornecer razões fundamentadas? Embora os modelos de geração de vídeo tenham avançado rapidamente, uma dimensão crítica -- se os seres humanos conseguem detectar traços de deepfake em um vídeo gerado, ou seja, artefatos visuais espaciotemporais fundamentados que revelam um vídeo como gerado por máquina -- tem sido amplamente negligenciada. Apresentamos o DeeptraceReward, o primeiro benchmark detalhado, espacial e temporalmente consciente, que anota traços falsos percebidos por humanos para recompensa na geração de vídeos. O conjunto de dados compreende 4,3 mil anotações detalhadas em 3,3 mil vídeos gerados de alta qualidade. Cada anotação fornece uma explicação em linguagem natural, aponta uma região delimitada contendo o traço percebido e marca os tempos exatos de início e término. Consolidamos essas anotações em 9 categorias principais de traços de deepfake que levam os humanos a identificar um vídeo como gerado por IA, e treinamos modelos de linguagem multimodal (LMs) como modelos de recompensa para imitar os julgamentos e localizações humanos. No DeeptraceReward, nosso modelo de recompensa de 7B supera o GPT-5 em 34,7% em média na identificação de pistas falsas, fundamentação e explicação. Curiosamente, observamos um gradiente de dificuldade consistente: a classificação binária de falso versus real é substancialmente mais fácil do que a detecção detalhada de traços de deepfake; dentro desta última, o desempenho decai das explicações em linguagem natural (mais fácil), para a fundamentação espacial, até a rotulação temporal (mais difícil). Ao destacar traços de deepfake percebidos por humanos, o DeeptraceReward fornece um ambiente de teste rigoroso e um sinal de treinamento para a geração de vídeos socialmente conscientes e confiáveis.
Embora os sistemas anteriores de Cientista de IA possam gerar descobertas inovadoras, eles frequentemente carecem de foco para produzir contribuições cientificamente valiosas que abordem desafios urgentes definidos por humanos. Apresentamos o DeepScientist, um sistema projetado para superar essa limitação ao conduzir descobertas científicas totalmente autônomas e orientadas a objetivos em escalas de tempo mensais. Ele formaliza a descoberta como um problema de Otimização Bayesiana, operacionalizado por meio de um processo hierárquico de avaliação composto por "hipotetizar, verificar e analisar". Aproveitando uma Memória Cumulativa de Descobertas, esse ciclo equilibra de forma inteligente a exploração de novas hipóteses com a exploração, promovendo seletivamente as descobertas mais promissoras para níveis de validação de maior fidelidade. Consumindo mais de 20.000 horas de GPU, o sistema gerou cerca de 5.000 ideias científicas únicas e validou experimentalmente aproximadamente 1.100 delas, ultrapassando, em última análise, os métodos state-of-the-art (SOTA) projetados por humanos em três tarefas de IA de fronteira em 183,7%, 1,9% e 7,9%. Este trabalho fornece a primeira evidência em grande escala de uma IA alcançando descobertas que progressivamente superam o SOTA humano em tarefas científicas, produzindo achados valiosos que genuinamente avançam a fronteira da descoberta científica. Para facilitar pesquisas adicionais sobre esse processo, disponibilizaremos todos os logs experimentais e o código do sistema em https://github.com/ResearAI/DeepScientist/.
Estudamos a regressão de código para métricas: a previsão de resultados numéricos da execução de código, uma tarefa desafiadora devido à natureza aberta das linguagens de programação. Enquanto métodos anteriores recorreram a engenharia de características pesada e específica do domínio, mostramos que um único Modelo de Linguagem de Regressão (RLM) unificado pode prever simultaneamente diretamente a partir do texto: (i) a pegada de memória do código em várias linguagens de alto nível, como Python e C++, (ii) a latência de kernels GPU Triton, e (iii) a precisão e velocidade de redes neurais treinadas representadas em ONNX. Em particular, um RLM relativamente pequeno com 300M de parâmetros, inicializado a partir do T5Gemma, obtém > 0,9 de Spearman-rank em submissões de programação competitiva do APPS, e um único modelo unificado alcança > 0,5 de Spearman-rank médio em 17 linguagens separadas do CodeNet. Além disso, o RLM pode obter o maior Kendall-Tau médio de 0,46 em cinco espaços de design clássicos de NAS anteriormente dominados por redes neurais gráficas, e prever simultaneamente as latências de arquitetura em diversas plataformas de hardware.
Agentes de modelos de linguagem de grande escala (LLMs) são limitados por janelas de contexto restritas, necessitando de sistemas de memória externa para o entendimento de informações de longo prazo. Atualmente, agentes aprimorados por memória geralmente dependem de instruções e ferramentas pré-definidas para atualizações de memória. No entanto, modelos de linguagem podem não ter a capacidade de determinar quais informações armazenar, como estruturá-las e quando atualizá-las, especialmente à medida que os sistemas de memória se tornam mais complexos. Isso resulta em uma construção de memória subótima e perda de informações. Para isso, propomos o Mem-alpha, um framework de aprendizado por reforço que treina agentes para gerenciar efetivamente sistemas de memória complexos por meio de interação e feedback. Também construímos um conjunto de dados de treinamento especializado, abrangendo diversos padrões de interação multi-turnos, pareados com perguntas de avaliação abrangentes projetadas para ensinar o gerenciamento eficaz de memória. Durante o treinamento, os agentes processam sequências de informações, aprendem a extrair e armazenar conteúdo relevante e, em seguida, atualizam o sistema de memória. O sinal de recompensa deriva da precisão na resposta a perguntas ao longo de todo o histórico de interação, otimizando diretamente a construção da memória. Para ilustrar a eficácia do nosso framework de treinamento, projetamos uma arquitetura de memória composta por componentes centrais, episódicos e semânticos, equipada com múltiplas ferramentas para operações de memória. A avaliação empírica demonstra que o Mem-alpha alcança melhorias significativas em relação às linhas de base de agentes aprimorados por memória existentes. Apesar de serem treinados exclusivamente em instâncias com um comprimento máximo de 30 mil tokens, nossos agentes exibem uma generalização notável para sequências que excedem 400 mil tokens, mais de 13 vezes o comprimento de treinamento, destacando a robustez do Mem-alpha.
Redes Neurais Recorrentes modernas tornaram-se uma arquitetura competitiva para reconstrução 3D devido à sua complexidade de tempo linear. No entanto, seu desempenho degrada significativamente quando aplicadas além do comprimento de contexto de treinamento, revelando generalização limitada em termos de comprimento. Neste trabalho, revisitamos os modelos fundamentais de reconstrução 3D a partir de uma perspectiva de Treinamento em Tempo de Teste (Test-Time Training), enquadrando seus projetos como um problema de aprendizado online. Com base nessa perspectiva, aproveitamos a confiança de alinhamento entre o estado de memória e as observações recebidas para derivar uma taxa de aprendizado de forma fechada para atualizações de memória, equilibrando a retenção de informações históricas e a adaptação a novas observações. Essa intervenção livre de treinamento, denominada TTT3R, melhora substancialmente a generalização de comprimento, alcançando uma melhoria de 2 vezes na estimativa de pose global em relação às abordagens baselines, enquanto opera a 20 FPS com apenas 6 GB de memória GPU para processar milhares de imagens. Código disponível em https://rover-xingyu.github.io/TTT3R.
Métodos de separação de fala audiovisual (AVSS) utilizam pistas visuais para extrair a fala alvo e demonstraram alta qualidade de separação em ambientes acústicos ruidosos. No entanto, esses métodos geralmente envolvem um grande número de parâmetros e exigem alto custo computacional, o que é inaceitável em muitas aplicações onde a separação de fala serve apenas como uma etapa de pré-processamento para processamento adicional de fala. Para resolver esse problema, propomos um método AVSS eficiente, denominado Dolphin. Para a extração de características visuais, desenvolvemos o DP-LipCoder, um codificador de vídeo leve de caminho duplo que transforma o movimento labial em tokens semânticos discretos alinhados ao áudio. Para a separação de áudio, construímos um separador leve codificador-decodificador, no qual cada camada incorpora um bloco de atenção global-local (GLA) para capturar eficientemente dependências em múltiplas escalas. Experimentos em três conjuntos de dados de referência mostraram que o Dolphin não apenas superou o modelo state-of-the-art (SOTA) atual em qualidade de separação, mas também alcançou melhorias notáveis em eficiência: mais de 50% menos parâmetros, redução de mais de 2,4x em MACs e velocidade de inferência em GPU mais de 6x mais rápida. Esses resultados indicam que o Dolphin oferece uma solução prática e implantável para AVSS de alto desempenho em cenários do mundo real. Nosso código e página de demonstração estão disponíveis publicamente em http://cslikai.cn/Dolphin/.
O Aprendizado por Reforço (RL) tem demonstrado sucesso notável em aprimorar as capacidades de raciocínio de Modelos de Linguagem de Grande Escala (LLMs). O RL Supervisionado por Processo (PSRL) surgiu como um paradigma mais eficaz em comparação com o RL baseado em resultados. No entanto, as abordagens existentes de PSRL sofrem com eficiência limitada de exploração, tanto em termos de posições de ramificação quanto de amostragem. Neste artigo, introduzimos um novo framework de PSRL (AttnRL), que possibilita uma exploração eficiente para modelos de raciocínio. Motivados por observações preliminares de que passos que exibem altos escores de atenção estão correlacionados com comportamentos de raciocínio, propomos ramificar a partir de posições com altos valores. Além disso, desenvolvemos uma estratégia de amostragem adaptativa que leva em consideração a dificuldade do problema e o tamanho do lote histórico, garantindo que todo o lote de treinamento mantenha valores de vantagem não nulos. Para melhorar ainda mais a eficiência de amostragem, projetamos um pipeline de treinamento off-policy de uma etapa para o PSRL. Experimentos extensivos em diversos benchmarks desafiadores de raciocínio matemático demonstram que nosso método supera consistentemente abordagens anteriores em termos de desempenho e eficiência de amostragem e treinamento.
O alinhamento online (por exemplo, GRPO) geralmente é mais eficiente do que o alinhamento offline (por exemplo, DPO) — mas por quê? Baseando-nos na teoria da perspectiva da economia comportamental, propomos uma explicação centrada no ser humano. Provamos que a amostragem on-policy online aproxima-se melhor da distribuição percebida pelos humanos do que o modelo pode produzir, e o recorte no estilo PPO/GRPO — originalmente introduzido para estabilizar o treinamento — recupera um viés perceptual na forma como os humanos percebem a probabilidade. Nesse sentido, PPO/GRPO já atuam como perdas perceptuais. Nossa teoria sugere ainda que a dicotomia online/offline é, em si, incidental para maximizar a utilidade humana, já que podemos alcançar o mesmo efeito ao treinar seletivamente qualquer dado de uma maneira que imita a percepção humana, em vez de nos restringirmos a dados on-policy online. Fazer isso nos permitiria realizar pós-treinamentos de forma mais rápida, barata e flexível, sem sacrificar o desempenho. Para esse fim, propomos um padrão de design que incorpora explicitamente distorções perceptuais de probabilidade em objetivos como DPO/KTO/GRPO, criando variantes humanline deles. Surpreendentemente, descobrimos que essas variantes humanline, mesmo quando treinadas com dados off-policy offline, podem igualar o desempenho de suas contrapartes online em tarefas verificáveis e não verificáveis.
A construção de agentes de Modelos de Linguagem de Grande Escala (LLM) que expandem suas capacidades por meio da interação com ferramentas externas representa uma nova fronteira na pesquisa e aplicações de IA. Neste artigo, apresentamos o InfoAgent, um agente de pesquisa profunda impulsionado por um pipeline inovador de síntese de dados e ferramentas de busca na web orquestradas. Para construir consultas desafiadoras e difíceis de encontrar, construímos árvores de entidades e aplicamos amostragem de subárvores com fuzzificação de entidades para aumentar sistematicamente a dificuldade das perguntas. Diferente de trabalhos anteriores que dependem fortemente de ferramentas de busca comerciais, desenvolvemos uma infraestrutura de busca auto-hospedada dedicada, aumentando a transparência dos ambientes dos agentes e facilitando o avanço adicional da capacidade dos agentes. Avaliamos a eficácia do nosso pipeline de dados medindo o número médio de chamadas de ferramentas necessárias para responder corretamente a uma pergunta, e também mostramos que nosso agente apresenta melhor desempenho quando equipado com nossas ferramentas. Nosso InfoAgent é pós-treinado a partir do Qwen3-14B usando uma receita de duas etapas: ajuste fino supervisionado de partida a frio para incutir comportamentos de busca de longo horizonte, seguido de aprendizado por reforço que melhora significativamente o uso de ferramentas orientadas por raciocínio. Com nossos métodos, o InfoAgent alcança 15,3% de precisão no BrowseComp, 29,2% no BrowseComp-ZH e 40,4% no Xbench-DS, superando agentes de pesquisa profunda de código aberto anteriores, como o WebSailor-72B e o DeepDive-32B.
A segurança dos Modelos de Linguagem de Grande Escala (LLMs) é um dos desafios mais urgentes para permitir sua implantação em larga escala. Embora a maioria dos estudos e discussões globais se concentre em danos genéricos, como modelos que auxiliam usuários a se prejudicarem ou prejudicarem outros, as empresas enfrentam uma preocupação mais fundamental: se os agentes baseados em LLMs são seguros para seus casos de uso pretendidos. Para abordar isso, introduzimos o conceito de segurança operacional, definida como a capacidade de um LLM de aceitar ou recusar adequadamente as consultas dos usuários quando designado para um propósito específico. Além disso, propomos o OffTopicEval, um conjunto de avaliações e um benchmark para medir a segurança operacional tanto de forma geral quanto em casos de uso específicos de agentes. Nossas avaliações em seis famílias de modelos, compreendendo 20 LLMs de pesos abertos, revelam que, embora o desempenho varie entre os modelos, todos eles permanecem altamente inseguros do ponto de vista operacional. Mesmo os modelos mais fortes — Qwen-3 (235B) com 77,77% e Mistral (24B) com 79,96% — ficam muito aquém de uma segurança operacional confiável, enquanto os modelos GPT estacionam na faixa de 62–73%, o Phi alcança apenas pontuações intermediárias (48–70%), e o Gemma e o Llama-3 caem para 39,53% e 23,84%, respectivamente. Embora a segurança operacional seja uma questão central de alinhamento de modelos, para suprimir essas falhas, propomos métodos de direcionamento baseados em prompts: ancoragem de consulta (Q-ground) e ancoragem de prompt do sistema (P-ground), que melhoram substancialmente a recusa fora do domínio (OOD). O Q-ground proporciona ganhos consistentes de até 23%, enquanto o P-ground oferece aumentos ainda maiores, elevando o Llama-3.3 (70B) em 41% e o Qwen-3 (30B) em 27%. Esses resultados destacam tanto a necessidade urgente de intervenções de segurança operacional quanto o potencial do direcionamento baseado em prompts como um primeiro passo para agentes baseados em LLMs mais confiáveis.
Métodos recentes de aprendizado por reforço (RL) têm aprimorado substancialmente as capacidades de planejamento de Modelos de Linguagem de Grande Escala (LLMs), embora a base teórica para sua eficácia permaneça elusiva. Neste trabalho, investigamos os benefícios e limitações do RL por meio de uma abstração tratável baseada em grafos, focando nos métodos de gradiente de política (PG) e Q-learning. Nossas análises teóricas revelam que o ajuste fino supervisionado (SFT) pode introduzir soluções espúrias baseadas em co-ocorrência, enquanto o RL alcança o planejamento correto principalmente por meio de exploração, destacando o papel da exploração em permitir uma melhor generalização. No entanto, também mostramos que o PG sofre de colapso de diversidade, onde a diversidade de saída diminui durante o treinamento e persiste mesmo após a precisão perfeita ser atingida. Em contraste, o Q-learning oferece duas vantagens principais: aprendizado fora da política e preservação da diversidade na convergência. Demonstramos ainda que um projeto cuidadoso de recompensa é necessário para evitar o "hacking" de recompensa no Q-learning. Por fim, aplicando nossa estrutura ao benchmark de planejamento do mundo real Blocksworld, confirmamos que esses comportamentos se manifestam na prática.
A proliferação de grandes modelos de linguagem (LLMs) abertos está fomentando um ecossistema vibrante de pesquisa e inovação em inteligência artificial (IA). No entanto, os métodos de colaboração utilizados para desenvolver LLMs abertos, tanto antes quanto após seu lançamento público, ainda não foram estudados de forma abrangente, limitando nossa compreensão de como os projetos de LLMs abertos são iniciados, organizados e governados, bem como as oportunidades existentes para promover ainda mais esse ecossistema. Abordamos essa lacuna por meio de uma análise exploratória da colaboração aberta ao longo do ciclo de vida de desenvolvimento e reutilização de LLMs abertos, baseando-nos em entrevistas semiestruturadas com os desenvolvedores de 14 LLMs abertos provenientes de projetos comunitários, institutos de pesquisa, startups e grandes empresas de tecnologia na América do Norte, Europa, África e Ásia. Fazemos três contribuições principais para a pesquisa e a prática. Primeiro, a colaboração em projetos de LLMs abertos vai muito além dos próprios LLMs, abrangendo conjuntos de dados, benchmarks, frameworks de código aberto, rankings, fóruns de compartilhamento de conhecimento e discussão, e parcerias de computação, entre outros. Segundo, os desenvolvedores de LLMs abertos têm uma variedade de motivações sociais, econômicas e tecnológicas, desde democratizar o acesso à IA e promover a ciência aberta até construir ecossistemas regionais e expandir a representação linguística. Terceiro, os projetos de LLMs abertos analisados exibem cinco modelos organizacionais distintos, variando de projetos de uma única empresa a projetos comunitários patrocinados por organizações sem fins lucrativos, que diferem em sua centralização de controle e estratégias de engajamento comunitário utilizadas ao longo do ciclo de vida dos LLMs abertos. Concluímos com recomendações práticas para as partes interessadas que buscam apoiar a comunidade global na construção de um futuro mais aberto para a IA.
A compreensão visual básica está realmente resolvida nos modelos de linguagem visual (VLMs) de última geração? Apresentamos o VisualOverload, um benchmark de resposta a perguntas visuais (VQA) ligeiramente diferente, composto por 2.720 pares de perguntas e respostas, com respostas verdadeiras mantidas em privado. Ao contrário dos conjuntos de dados VQA anteriores, que normalmente se concentram em uma compreensão quase global da imagem, o VisualOverload desafia os modelos a realizar tarefas visuais simples e livres de conhecimento em cenas densamente povoadas (ou sobrecarregadas). Nosso conjunto de dados consiste em digitalizações de alta resolução de pinturas de domínio público que são povoadas com múltiplas figuras, ações e subtramas em desenvolvimento, definidas contra cenários elaboradamente detalhados. Anotamos manualmente essas imagens com perguntas em seis categorias de tarefas para investigar uma compreensão profunda da cena. Nossa hipótese é que os benchmarks atuais superestimam o desempenho dos VLMs, e a codificação e o raciocínio sobre detalhes ainda são tarefas desafiadoras para eles, especialmente quando confrontados com cenas densamente povoadas. De fato, observamos que mesmo o melhor modelo (o3) entre os 37 modelos testados alcança apenas 19,6% de precisão em nosso conjunto de teste mais difícil e 69,5% de precisão geral em todas as perguntas. Além de uma avaliação detalhada, complementamos nosso benchmark com uma análise de erros que revela múltiplos modos de falha, incluindo falta de habilidades de contagem, falhas em OCR e inconsistências lógicas marcantes em tarefas complexas. No geral, o VisualOverload expõe uma lacuna crítica nos modelos de visão atuais e oferece um recurso crucial para a comunidade desenvolver modelos melhores. Benchmark: http://paulgavrikov.github.io/visualoverload
Apresentamos o Voice Evaluation of Reasoning Ability (VERA), um benchmark para avaliar a capacidade de raciocínio em sistemas interativos por voz sob restrições de conversação em tempo real. O VERA compreende 2.931 episódios nativos de voz derivados de benchmarks de texto estabelecidos e organizados em cinco categorias (Matemática, Web, Ciência, Contexto Longo, Fatual). Cada item é adaptado para interação por voz, mantendo a dificuldade de raciocínio. O VERA permite comparação direta entre texto e voz dentro de famílias de modelos e suporta a análise de como escolhas arquitetônicas afetam a confiabilidade. Avaliamos 12 sistemas de voz contemporâneos juntamente com fortes baselines de texto e observamos grandes e consistentes lacunas de modalidade: em matemática competitiva, um modelo líder de texto atinge 74,8% de precisão, enquanto sua contraparte de voz alcança 6,1%; em média macro entre as categorias, os melhores modelos de texto atingem 54,0% contra 11,3% para voz. Análises de latência-precisão revelam um platô de baixa latência, onde sistemas de voz rápidos se agrupam em torno de ~10% de precisão, enquanto a aproximação do desempenho de texto exige o sacrifício da interação em tempo real. Experimentos diagnósticos indicam que mitigações comuns são insuficientes. Aumentar o "tempo de pensamento" gera ganhos insignificantes; uma cascata desacoplada que separa o raciocínio da narração melhora a precisão, mas ainda fica bem aquém do texto e introduz erros característicos de ancoragem/consistência. Análises de falhas mostram ainda assinaturas distintas de erros entre designs nativos de streaming, end-to-end e em cascata. O VERA fornece um ambiente de teste reproduzível e diagnósticos direcionados para arquiteturas que desacoplam o pensamento da fala, oferecendo uma maneira fundamentada de medir o progresso em direção a assistentes de voz em tempo real que sejam tanto fluentes quanto confiáveis em seu raciocínio.
O desenvolvimento de agentes autônomos que interagem efetivamente com Interfaces Gráficas de Usuário (GUIs) continua sendo um problema aberto e desafiador, especialmente para modelos compactos em dispositivos. Neste artigo, apresentamos o Ferret-UI Lite, um agente de GUI compacto e de ponta a ponta que opera em diversas plataformas, incluindo mobile, web e desktop. Utilizando técnicas otimizadas para o desenvolvimento de modelos compactos, construímos nosso agente Ferret-UI Lite de 3B por meio da curadoria de uma mistura diversificada de dados de GUI provenientes de fontes reais e sintéticas, fortalecendo o desempenho em tempo de inferência por meio de raciocínio em cadeia de pensamento e uso de ferramentas visuais, e aprendizado por reforço com recompensas projetadas. O Ferret-UI Lite alcança um desempenho competitivo em comparação com outros agentes de GUI de pequena escala. Na fundamentação de GUI, o Ferret-UI Lite obtém pontuações de 91,6%, 53,3% e 61,2% nos benchmarks ScreenSpot-V2, ScreenSpot-Pro e OSWorld-G, respectivamente. Para navegação em GUI, o Ferret-UI Lite alcança taxas de sucesso de 28,0% no AndroidWorld e 19,8% no OSWorld. Compartilhamos nossos métodos e lições aprendidas no desenvolvimento de agentes de GUI compactos e em dispositivos.
Provedores de grandes modelos de linguagem (LLMs) destacam números impressionantes para o tamanho máximo das janelas de contexto. Para testar o uso real dessas janelas de contexto, nós 1) definimos um conceito de janela de contexto máxima efetiva, 2) formulamos um método de teste para avaliar a eficácia da janela de contexto em diversos tamanhos e tipos de problemas, e 3) criamos uma forma padronizada de comparar a eficácia dos modelos para tamanhos crescentes de janelas de contexto, a fim de identificar o ponto de falha. Coletamos centenas de milhares de pontos de dados em vários modelos e encontramos diferenças significativas entre o tamanho da Janela de Contexto Máxima (MCW) reportada e o tamanho da Janela de Contexto Máxima Efetiva (MECW). Nossos resultados mostram que a MECW não apenas é drasticamente diferente da MCW, mas também varia de acordo com o tipo de problema. Alguns dos modelos mais avançados em nosso grupo de teste falharam com apenas 100 tokens no contexto; a maioria apresentou uma degradação severa na precisão com 1000 tokens no contexto. Todos os modelos ficaram muito aquém de sua Janela de Contexto Máxima, em até 99%. Nossos dados revelam que a Janela de Contexto Máxima Efetiva varia conforme o tipo de problema fornecido, oferecendo insights claros e acionáveis sobre como melhorar a precisão dos modelos e reduzir as taxas de alucinação.
Modelos de Linguagem de Grande Escala (LLMs) empregam a interação multi-turno como um paradigma fundamental para a realização de tarefas complexas. No entanto, seu desempenho frequentemente se degrada em interações prolongadas, uma vez que são tipicamente treinados em dados estáticos e de turno único, o que dificulta sua capacidade de se adaptar ao feedback do usuário em tempo real. Para abordar essa limitação, propomos inicialmente um novo paradigma: Adaptação de Política em Tempo de Teste para Interações Multi-Turno (T2PAM), que utiliza o feedback do usuário da interação em andamento como um sinal de recompensa para estimar uma política ótima latente alinhada com as preferências do usuário, em seguida atualiza um pequeno subconjunto de parâmetros para direcionar o modelo em direção a essa política, permitindo, por fim, uma autocorreção eficiente durante a conversação. Em seguida, introduzimos a Adaptação Ótima Referenciada em Um Passo (ROSA), um algoritmo leve que operacionaliza o T2PAM. O ROSA guia os parâmetros do modelo em direção a uma política ótima teórica em uma única etapa de atualização eficiente, evitando a otimização iterativa baseada em gradiente de alto custo e minimizando a sobrecarga computacional. Fornecemos uma análise teórica rigorosa que garante que a política do ROSA converge para a preferência do usuário à medida que o número de interações aumenta. Experimentos extensos em benchmarks desafiadores demonstram que o ROSA alcança melhorias significativas tanto na eficácia quanto na eficiência das tarefas.
O jina-reranker-v3 é um reranker de documentos multilíngue com 0,6 bilhão de parâmetros que introduz uma nova abordagem de interação "last but not late". Diferente de modelos de interação tardia, como o ColBERT, que realizam codificação separada seguida de correspondência de múltiplos vetores, nossa abordagem realiza autoatenção causal entre a consulta e os documentos dentro da mesma janela de contexto, permitindo interações ricas entre documentos antes de extrair embeddings contextuais do último token de cada documento. Essa arquitetura compacta alcança desempenho state-of-the-art no BEIR com 61,94 nDCG@10, sendo dez vezes menor do que rerankers generativos listwise.
Modelos de linguagem de grande escala se destacam com o aprendizado por reforço (RL), mas desbloquear todo esse potencial requer uma etapa intermediária de treinamento. Uma fase intermediária eficaz deve identificar um conjunto compacto de ações úteis e permitir uma seleção rápida entre elas por meio de RL online. Formalizamos essa intuição apresentando o primeiro resultado teórico sobre como o treinamento intermediário molda o pós-treinamento: ele caracteriza um subespaço de ações que minimiza tanto o erro de aproximação de valor decorrente da poda quanto o erro de RL durante o planejamento subsequente. Nossa análise revela dois determinantes-chave da eficácia do treinamento intermediário: a eficiência da poda, que molda o prior da política inicial de RL, e seu impacto na convergência do RL, que governa até que ponto essa política pode ser aprimorada por meio de interações online. Esses resultados sugerem que o treinamento intermediário é mais eficaz quando o espaço de decisão é compacto e o horizonte efetivo é curto, destacando a importância de operar no espaço de abstrações de ações em vez de ações primitivas. Com base nessas percepções, propomos o Reasoning as Action Abstractions (RA3), um algoritmo escalável de treinamento intermediário. Especificamente, derivamos um limite inferior variacional sequencial e o otimizamos iterativamente, descobrindo estruturas latentes temporalmente consistentes por meio de RL, seguido por um ajuste fino nos dados bootstrapped. Experimentos em tarefas de geração de código demonstram a eficácia de nossa abordagem. Em vários modelos base, o RA3 melhora o desempenho médio no HumanEval e no MBPP em 8 e 4 pontos, respectivamente, em relação ao modelo base e à linha de base de previsão do próximo token. Além disso, o RA3 alcança convergência mais rápida e desempenho assintótico superior no RLVR no HumanEval+, MBPP+, LiveCodeBench e Codeforces.
A compressão do cache KV promete maior taxa de transferência e eficiência com perda insignificante de desempenho. Embora os ganhos em taxa de transferência sejam indiscutíveis e a literatura recente tenha de fato mostrado degradação mínima em benchmarks específicos, em geral, as consequências da compressão em cenários realistas, como prompts de múltiplas instruções, têm sido insuficientemente estudadas. Neste artigo, identificamos várias armadilhas que os profissionais devem estar cientes ao implantar LLMs com cache KV comprimido. Importante, mostramos que certas instruções se degradam muito mais rapidamente com a compressão, efetivamente fazendo com que sejam completamente ignoradas pelo LLM. Como um exemplo prático disso, destacamos o vazamento de prompts do sistema como um estudo de caso, mostrando empiricamente o impacto da compressão no vazamento e no seguimento geral de instruções. Mostramos vários fatores que desempenham um papel no vazamento de prompts: método de compressão, ordem das instruções e viés de evicção do KV. Em seguida, propomos mudanças simples nas políticas de evicção do cache KV que podem reduzir o impacto desses fatores e melhorar o desempenho geral em tarefas de múltiplas instruções.
As técnicas atuais de busca estão limitadas a aplicações padrão de RAG (Recuperação Aumentada por Geração) entre consultas e documentos. Neste artigo, propomos uma nova técnica para expandir o código e o índice para prever as APIs necessárias, permitindo diretamente a geração de código de alta qualidade de ponta a ponta para aplicações de autocompletar e IA agentiva. Abordamos o problema de vazamentos de API em conjuntos de dados de referência código-para-código atuais, introduzindo um novo conjunto de dados construído a partir de Script Includes do ServiceNow do mundo real, que capturam o desafio da intenção de uso de API não clara no código. Nossas métricas de avaliação mostram que esse método alcança 87,86% de precisão de recuperação no top-40, fornecendo o contexto crítico com as APIs necessárias para a geração de código subsequente bem-sucedida. Para permitir previsões em tempo real, desenvolvemos um pipeline abrangente de pós-treinamento que otimiza um reranker compacto de 0,6B por meio de geração de conjunto de dados sintéticos, ajuste fino supervisionado e aprendizado por reforço. Essa abordagem permite que nosso reranker compacto supere um modelo muito maior de 8B, mantendo uma latência 2,5 vezes menor, abordando efetivamente as nuances de código específico de empresas sem a sobrecarga computacional de modelos maiores.
Modelos de Linguagem de Grande Escala (LLMs) têm sido cada vez mais estudados como bases de conhecimento neural para apoiar aplicações intensivas em conhecimento, como resposta a perguntas e verificação de fatos. No entanto, a organização estrutural de seu conhecimento permanece inexplorada. Inspirados por descobertas da neurociência cognitiva, como agrupamento semântico e priming, onde conhecer um fato aumenta a probabilidade de recordar fatos relacionados, investigamos um padrão análogo de homofilia de conhecimento em LLMs. Para isso, mapeamos o conhecimento dos LLMs em uma representação gráfica por meio de verificação de conhecimento tanto no nível de triplas quanto de entidades. Em seguida, analisamos a relação de conhecimento entre uma entidade e seus vizinhos, descobrindo que os LLMs tendem a possuir um nível semelhante de conhecimento sobre entidades posicionadas mais próximas no grafo. Motivados por esse princípio de homofilia, propomos um modelo de regressão de Rede Neural de Grafos (GNN) para estimar escores de conhecimento no nível de entidades para triplas, aproveitando os escores de seus vizinhos. O conhecimento previsto nos permite priorizar a verificação de triplas menos conhecidas, maximizando assim a cobertura de conhecimento sob o mesmo orçamento de rotulagem. Isso não apenas melhora a eficiência da rotulagem ativa para ajuste fino a fim de injetar conhecimento nos LLMs, mas também aprimora a recuperação de caminhos de múltiplos saltos em respostas a perguntas intensivas em raciocínio.
Os algoritmos atuais de aprendizado por reforço online (RL), como o GRPO, compartilham uma limitação fundamental no raciocínio de LLMs: eles não conseguem aprender com problemas que são "insolúveis" para o modelo. Em outras palavras, eles só podem melhorar o desempenho em problemas onde o modelo é capaz de explorar a resposta correta. Consequentemente, o "limite superior" do modelo permanece inalterado após o treinamento de RL, mesmo que a probabilidade de resolver problemas mais fáceis e solúveis possa aumentar. Esses exemplos difíceis não contribuem para o treinamento, pois nenhum rollout gera recompensas e, portanto, nenhum gradiente é produzido. Para desbloquear o aprendizado a partir desses exemplos difíceis, propomos o NuRL, um método de "empurrão" que visa elevar o limite superior do raciocínio de LLMs usando dicas auto-geradas, ou seja, pistas abstratas que ajudam a reduzir a dificuldade do problema para o modelo. Dada uma pergunta e sua resposta correta, o modelo gera um CoT (Chain of Thought) e, em seguida, produz uma dica contendo o conhecimento central necessário para resolver o problema. Durante o treinamento, geramos G rollouts a partir da política base e usamos a taxa de acerto para decidir se a dica deve ser injetada. Para exemplos difíceis com taxa de acerto de 0%, injetamos a dica e regeneramos um novo lote de trajetórias. Isso traz dois benefícios: (1) a dica aumenta as taxas de acerto (de 0% para um valor não nulo), introduzindo assim sinais de treinamento para exemplos anteriormente insolúveis, e (2) as dicas são auto-geradas, evitando deslocamento de distribuição e não dependendo de modelos externos. O NuRL alcança melhorias consistentes em 6 benchmarks e 3 modelos, enquanto permanece complementar ao escalonamento em tempo de teste. Notavelmente, o NuRL pode elevar o limite superior do modelo, enquanto o GRPO mantém o pass@1024 inalterado em relação ao modelo base. Além disso, apresentamos um estudo sistemático sobre o que torna uma dica eficaz e quando as dicas são mais úteis. Curiosamente, as melhores dicas são abstratas e de alto nível, e são mais benéficas quando aplicadas necessariamente e após o GRPO ter convergido.
Modelos de linguagem baseados em difusão (dLLMs), apesar de seu desempenho promissor, ainda sofrem com eficiência inferior durante a inferência. Isso ocorre porque os dLLMs dependem de atenção bidirecional e não podem se beneficiar diretamente do cache padrão de chave-valor (KV), como fazem os modelos autoregressivos (ARMs). Para resolver esse problema, introduzimos o Dual Adaptive Cache (d^2Cache), um framework de cache KV aproximado e livre de treinamento para acelerar a inferência de dLLMs. O d^2Cache apresenta uma estratégia de seleção de dois estágios e granularidade fina para identificar tokens e atualizar adaptativamente seus estados KV a cada etapa de decodificação, enquanto armazena em cache os estados KV dos tokens restantes para reutilização. Além disso, o d^2Cache oferece naturalmente uma alternativa de decodificação mais confiável, que pode permitir uma geração quase da esquerda para a direita e mitigar a confiança prematura em tokens no final da sequência. Resultados experimentais extensivos em dois dLLMs representativos (\ie, LLaDA e Dream) demonstram que o d^2Cache não apenas alcança acelerações substanciais na inferência, mas também produz melhorias consistentes na qualidade da geração. O código está disponível em https://github.com/Kamichanw/d2Cache.
Estudos empíricos recentes exploraram a ideia de continuar treinando um modelo durante o teste para uma determinada tarefa, conhecida como treinamento durante o teste (TTT, do inglês "test-time training"), e descobriram que isso resulta em melhorias significativas de desempenho. No entanto, há uma compreensão limitada sobre por que e quando o TTT é eficaz. Explicações anteriores concentravam-se principalmente na observação de que o TTT pode ser útil quando aplicado à adaptação fora da distribuição ou usado com dados privilegiados. No entanto, a escala crescente dos modelos de base (foundation models), com a maioria dos dados de teste estando dentro da distribuição, questiona essas explicações. Em vez disso, propomos que os modelos de base permanecem globalmente subparametrizados, com o TTT fornecendo um mecanismo para especialização após a generalização, concentrando a capacidade em conceitos relevantes para a tarefa de teste. Especificamente, sob a hipótese de representação linear, propomos um modelo no qual o TTT alcança um erro de teste dentro da distribuição substancialmente menor do que o treinamento global. Validamos empiricamente as principais suposições do nosso modelo treinando um autoencoder esparso no ImageNet, mostrando que pontos de dados semanticamente relacionados são explicados por apenas alguns conceitos compartilhados. Por fim, realizamos estudos de escalonamento em tarefas de imagem e linguagem que confirmam as implicações práticas do nosso modelo, identificando os regimes onde a especialização é mais eficaz.
Modelos baseados em Transformadores avançaram significativamente a previsão de séries temporais, com estratégias de entrada baseadas em patches oferecendo eficiência e melhor modelagem de longo horizonte. No entanto, as abordagens existentes dependem da construção de patches temporalmente agnósticos, onde posições iniciais arbitrárias e comprimentos fixos fragmentam a coerência temporal ao dividir transições naturais entre os limites. Essa segmentação ingênua frequentemente interrompe dependências de curto prazo e enfraquece o aprendizado de representação. Em resposta, propomos o EntroPE (Entropy-Guided Dynamic Patch Encoder), uma estrutura nova e temporalmente informada que detecta dinamicamente pontos de transição por meio de entropia condicional e posiciona dinamicamente os limites dos patches. Isso preserva a estrutura temporal enquanto mantém os benefícios computacionais do uso de patches. O EntroPE consiste em dois módulos principais: um Dynamic Patcher baseado em Entropia (EDP) que aplica critérios teóricos da informação para localizar mudanças temporais naturais e determinar os limites dos patches, e um Adaptive Patch Encoder (APE) que emprega pooling e atenção cruzada para capturar dependências intra-patch e produzir representações latentes de tamanho fixo. Esses embeddings são então processados por um transformer global para modelar a dinâmica inter-patch. Experimentos em benchmarks de previsão de longo prazo demonstram que o EntroPE melhora tanto a precisão quanto a eficiência, estabelecendo o patching dinâmico guiado por entropia como um novo paradigma promissor para a modelagem de séries temporais. O código está disponível em: https://github.com/Sachithx/EntroPE.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) requerem informações visuais de alta resolução para realizar percepção de granularidade fina, mas processar imagens inteiras em alta resolução é computacionalmente proibitivo. Embora métodos recentes utilizem um mecanismo de Região de Interesse (RoI) para focar em áreas salientes, eles geralmente apresentam uma difícil troca: abordagens baseadas em treinamento dependem de conjuntos de dados anotados em grande escala, enquanto métodos sem treinamento que utilizam a atenção interna do modelo são computacionalmente ineficientes e menos precisos, exigindo estágios de pré-preenchimento multipassos ou dependência do lento processo de decodificação auto-regressiva. Neste artigo, propomos uma Rede de Proposta de Região Auto-Distilada (SD-RPN) eficiente e sem anotações que resolve essa troca. A SD-RPN é construída em torno de um pipeline que transforma os mapas de atenção ruidosos das camadas intermediárias do MLLM em rótulos pseudo-RoI de alta qualidade, denoizando explicitamente o sinal e resolvendo ambiguidades. Utilizamos esses rótulos para treinar uma Rede de Proposta de Região (RPN) leve que aprende uma localização mais precisa. Essa RPN também é altamente eficiente, prevendo a RoI em uma única passada direta usando características das camadas intermediárias do MLLM, desacoplando a identificação da RoI da geração auto-regressiva e evitando operações multipassos custosas. Para validar nossa abordagem, integramos o framework na arquitetura LLaVA-1.5. Apesar de ser treinado com apenas alguns (por exemplo, 10 mil) pares de perguntas e respostas, nosso método demonstra excepcional eficiência de dados e generalização, alcançando uma melhoria de mais de 10% em precisão absoluta em benchmarks não vistos, incluindo TextVQA, DocVQA e V-Star. Nosso trabalho apresenta uma solução prática e escalável para aprimorar a percepção de granularidade fina dos MLLMs sem exigir supervisão custosa ou ajuste fino completo do modelo. O código está disponível em https://github.com/YuHengsss/SD-RPN.
Grandes modelos de áudio-linguagem estão avançando rapidamente, mas a maioria das avaliações enfatiza a fala ou sons de origem global, negligenciando pistas culturalmente distintas. Essa lacuna levanta uma questão crítica: os modelos atuais podem generalizar para áudios localizados e não semânticos que as comunidades reconhecem instantaneamente, mas os de fora não? Para abordar isso, apresentamos o TAU (Taiwan Audio Understanding), um benchmark de "soundmarks" cotidianos de Taiwan. O TAU é construído por meio de um pipeline que combina fontes curadas, edição humana e geração de questões assistida por LLM, produzindo 702 clipes e 1.794 itens de múltipla escolha que não podem ser resolvidos apenas por transcrições. Experimentos mostram que os LALMs mais avançados, incluindo Gemini 2.5 e Qwen2-Audio, têm desempenho muito inferior ao dos humanos locais. O TAU demonstra a necessidade de benchmarks localizados para revelar pontos cegos culturais, orientar avaliações multimodais mais equitativas e garantir que os modelos atendam a comunidades além do mainstream global.
A IA moderna é baseada em redes neurais artificiais profundas (NNs). Em 2025, o artigo científico mais citado do século XXI é um trabalho sobre aprendizado profundo residual com conexões residuais. Quem inventou isso? Apresentamos uma linha do tempo da evolução do aprendizado profundo residual.
A compilação automática de projetos de software de código aberto (OSS) é uma tarefa vital, trabalhosa e complexa, o que a torna um bom desafio para Agentes de LLM. Os métodos existentes dependem de regras e fluxos de trabalho manualmente curados, que não conseguem se adaptar a OSS que exigem configuração personalizada ou preparação de ambiente. Tentativas recentes usando Modelos de Linguagem de Grande Escala (LLMs) empregaram avaliação seletiva em um subconjunto de OSS altamente avaliados, uma prática que subestima os desafios realistas da compilação de OSS. Na prática, as instruções de compilação frequentemente estão ausentes, as dependências não são documentadas, e compilações bem-sucedidas podem até exigir a aplicação de patches em arquivos de origem ou a modificação de scripts de compilação. Propomos um benchmark mais desafiador e realista, o BUILD-BENCH, que compreende OSS mais diversos em qualidade, escala e características. Além disso, propomos um agente baseado em LLM robusto como linha de base, o OSS-BUILD-AGENT, um sistema eficaz com um módulo aprimorado de recuperação de instruções de compilação que alcança desempenho de ponta no BUILD-BENCH e é adaptável a características heterogêneas de OSS. Também fornecemos uma análise detalhada sobre diferentes escolhas de design de métodos de compilação e sua influência na tarefa como um todo, oferecendo insights para guiar avanços futuros. Acreditamos que o desempenho no BUILD-BENCH pode refletir fielmente a capacidade de um agente de lidar com a compilação como uma tarefa complexa de engenharia de software e, como tal, nosso benchmark impulsionará a inovação com um impacto significativo em aplicações subsequentes nos campos de desenvolvimento de software e segurança de software.
Os modelos de difusão oferecem uma estrutura fisicamente fundamentada para previsões meteorológicas probabilísticas, mas sua dependência típica de solucionadores iterativos e lentos durante a inferência os torna impraticáveis para aplicações de sub-sazonal a sazonal (S2S), onde longos prazos de previsão e calibração orientada por domínio são essenciais. Para resolver isso, introduzimos o Swift, um modelo de consistência de passo único que, pela primeira vez, permite o ajuste fino autoregressivo de um modelo de fluxo de probabilidade com um objetivo de pontuação de probabilidade classificada contínua (CRPS). Isso elimina a necessidade de conjuntos multi-modelos ou perturbações de parâmetros. Os resultados mostram que o Swift produz previsões habilidosas de 6 em 6 horas que permanecem estáveis por até 75 dias, executando 39 vezes mais rápido do que os modelos de difusão de última geração, enquanto alcança uma habilidade de previsão competitiva com o IFS ENS operacional baseado em métodos numéricos. Isso representa um passo em direção a previsões de conjunto eficientes e confiáveis, desde escalas de médio prazo até sazonais.
Designers criam e editam designs gráficos em uma representação por camadas, mas a edição baseada em camadas torna-se impossível uma vez que o design é composto em uma imagem rasterizada. Neste trabalho, propomos o LayerD, um método para decompor designs gráficos rasterizados em camadas, permitindo um fluxo de trabalho criativo reeditável. O LayerD aborda a tarefa de decomposição extraindo iterativamente camadas de primeiro plano não ocluídas. Propomos uma abordagem de refinamento simples, porém eficaz, que aproveita a suposição de que as camadas frequentemente exibem uma aparência uniforme em designs gráficos. Como a decomposição é um problema mal posto e a estrutura de camadas de referência pode não ser confiável, desenvolvemos uma métrica de qualidade que aborda essa dificuldade. Nos experimentos, mostramos que o LayerD consegue alcançar uma decomposição de alta qualidade e supera os métodos baselines. Também demonstramos o uso do LayerD com geradores de imagem de última geração e edição baseada em camadas.
A purificação adversária com modelos de difusão emergiu como uma estratégia de defesa promissora, mas os métodos existentes geralmente dependem da injeção uniforme de ruído, que perturba indiscriminadamente todas as frequências, corrompendo estruturas semânticas e comprometendo a robustez. Nosso estudo empírico revela que as perturbações adversárias não são distribuídas uniformemente: elas estão predominantemente concentradas em regiões de alta frequência, com padrões heterogêneos de intensidade de magnitude que variam entre frequências e tipos de ataque. Motivados por essa observação, introduzimos o MANI-Pure, uma estrutura de purificação adaptativa à magnitude que utiliza o espectro de magnitude das entradas para guiar o processo de purificação. Em vez de injetar ruído homogêneo, o MANI-Pure aplica adaptativamente ruído heterogêneo e direcionado por frequência, suprimindo efetivamente as perturbações adversárias em bandas frágeis de alta frequência e baixa magnitude, enquanto preserva o conteúdo semanticamente crítico de baixa frequência. Experimentos extensivos no CIFAR-10 e ImageNet-1K validam a eficácia do MANI-Pure. Ele reduz a lacuna de precisão limpa para dentro de 0,59 do classificador original, enquanto aumenta a precisão robusta em 2,15, e alcança a precisão robusta top-1 no leaderboard do RobustBench, superando o método estado da arte anterior.
Os modelos existentes de geração de áudio multimodal frequentemente carecem de controle preciso do usuário, o que limita sua aplicabilidade em fluxos de trabalho profissionais de Foley. Em particular, esses modelos se concentram no vídeo como um todo e não fornecem métodos precisos para priorizar um objeto específico em uma cena, gerando sons de fundo desnecessários ou focando nos objetos errados. Para abordar essa lacuna, introduzimos a nova tarefa de geração de áudio consciente da segmentação de objetos em vídeo, que condiciona explicitamente a síntese de som em mapas de segmentação em nível de objeto. Apresentamos o SAGANet, um novo modelo generativo multimodal que permite a geração controlada de áudio ao aproveitar máscaras de segmentação visual juntamente com pistas de vídeo e texto. Nosso modelo oferece aos usuários controle refinado e visualmente localizado sobre a geração de áudio. Para apoiar essa tarefa e promover mais pesquisas sobre Foley consciente de segmentação, propomos o Segmented Music Solos, um conjunto de dados de referência de vídeos de performance de instrumentos musicais com informações de segmentação. Nosso método demonstra melhorias substanciais em relação aos métodos atuais de ponta e estabelece um novo padrão para síntese de Foley controlável e de alta fidelidade. Código, amostras e o Segmented Music Solos estão disponíveis em https://saganet.notion.site.
Sistemas multiagentes (MAS) estão se tornando cada vez mais capazes de lidar com tarefas complexas do mundo real, mas sua dependência de coordenação entre agentes, uso de ferramentas e raciocínio de longo prazo torna o reconhecimento de erros particularmente desafiador. Pequenos erros podem se propagar entre os agentes, escalando para falhas na execução da tarefa enquanto geram trajetórias de execução longas e entrelaçadas, impondo custos significativos tanto para desenvolvedores humanos quanto para sistemas automatizados depurarem e analisarem. Nossa principal percepção é que, apesar das diferenças superficiais nas trajetórias de falha (por exemplo, logs), os erros em MAS frequentemente se repetem com padrões estruturais semelhantes. Este artigo apresenta o CORRECT, o primeiro framework leve e sem necessidade de treinamento que utiliza um cache online de esquemas de erros destilados para reconhecer e transferir o conhecimento de estruturas de falhas em novas requisições. Essa reutilização baseada em cache permite que LLMs realizem localização de erros direcionada durante a inferência, evitando a necessidade de retreinamento caro enquanto se adapta a implantações dinâmicas de MAS em frações de segundo. Para apoiar um estudo rigoroso nesse domínio, também introduzimos o CORRECT-Error, um conjunto de dados em larga escala com mais de 2.000 trajetórias anotadas coletadas por meio de um pipeline de injeção de erros guiado por distribuições do mundo real e validado por avaliação humana para garantir alinhamento com padrões naturais de falha. Experimentos em sete aplicações diversas de MAS mostram que o CORRECT melhora a localização de erros em nível de etapa em até 19,8% em relação aos avanços existentes, com sobrecarga próxima de zero, reduzindo substancialmente a lacuna entre o reconhecimento de erros automatizado e o nível humano.
Modelos de base para séries temporais (TSFMs, na sigla em inglês) oferecem previsões robustas em cenários de zero-shot por meio de pré-treinamento em larga escala, mas o ajuste fino continua sendo crucial para impulsionar o desempenho em domínios com dados públicos limitados. Com o crescente número de TSFMs, identificar de forma eficiente o melhor modelo para ajuste fino em tarefas subsequentes torna-se cada vez mais desafiador. Neste trabalho, apresentamos o TimeTic, uma estrutura de estimativa de transferibilidade que reformula a seleção de modelos como um problema de aprendizado em contexto: dadas observações em conjuntos de dados conhecidos (fonte), ele prevê como um TSFM terá desempenho após o ajuste fino em um conjunto de dados subsequente (alvo). O TimeTic organiza de forma flexível as relações observadas entre modelo e dados como informações contextuais, permitindo que ele se adapte de maneira contínua a diversos cenários de teste. Aproveitando a estrutura tabular natural formada por meta-características dos conjuntos de dados, características dos modelos e desempenho após ajuste fino, empregamos modelos de base tabulares para atuar como aprendizes em contexto. Além disso, introduzimos uma nova caracterização de modelos baseada na evolução da entropia entre as camadas do modelo, capturando distinções no espaço de incorporação e permitindo que o TimeTic generalize para conjuntos de modelos arbitrários. Estabelecemos um benchmark abrangente para estimativa de transferibilidade, incluindo 10 conjuntos de dados, 10 modelos de base e 3 tarefas de previsão. Neste benchmark, a estimativa do TimeTic demonstra uma forte correlação com o desempenho real após ajuste fino para conjuntos de dados nunca vistos anteriormente, alcançando uma correlação de postos média de aproximadamente 0,6 e uma melhoria de 30% em comparação com o uso do desempenho zero-shot como pontuação de transferibilidade.
Apresentamos o Convolutional Set Transformer (CST), uma nova arquitetura neural projetada para processar conjuntos de imagens de cardinalidade arbitrária que são visualmente heterogêneos, mas compartilham semânticas de alto nível - como uma categoria, cena ou conceito comum. As redes existentes que processam conjuntos, por exemplo, Deep Sets e Set Transformer, são limitadas a entradas vetoriais e não podem lidar diretamente com tensores de imagem 3D. Como resultado, elas precisam ser combinadas com um extrator de características, tipicamente uma CNN, que codifica as imagens em embeddings antes que a rede de conjunto possa modelar as relações entre as imagens. Em contraste, o CST opera diretamente em tensores de imagem 3D, realizando a extração de características e a modelagem contextual simultaneamente, permitindo assim sinergias entre os dois processos. Esse design resulta em desempenho superior em tarefas como Classificação de Conjuntos e Detecção de Anomalias em Conjuntos, além de fornecer compatibilidade nativa com métodos de explicabilidade de CNNs, como Grad-CAM, ao contrário de abordagens concorrentes que permanecem opacas. Por fim, demonstramos que os CSTs podem ser pré-treinados em grandes conjuntos de dados e posteriormente adaptados a novos domínios e tarefas por meio de esquemas padrão de Transfer Learning. Para apoiar pesquisas futuras, disponibilizamos o CST-15, um backbone de CST pré-treinado no ImageNet (https://github.com/chinefed/convolutional-set-transformer).
Enquanto os grandes modelos de linguagem (LLMs) com capacidades de raciocínio estão progredindo rapidamente em competições de matemática do ensino médio e em codificação, eles podem raciocinar efetivamente através de desafios complexos e abertos encontrados na pesquisa de física de fronteira? E, crucialmente, que tipos de tarefas de raciocínio os físicos desejam que os LLMs auxiliem? Para abordar essas questões, apresentamos o CritPt (Complex Research using Integrated Thinking - Physics Test, pronunciado "ponto crítico"), o primeiro benchmark projetado para testar LLMs em tarefas de raciocínio de nível de pesquisa não publicadas que abrangem amplamente áreas modernas de pesquisa em física, incluindo matéria condensada, física quântica, física atômica, molecular e óptica, astrofísica, física de alta energia, física matemática, física estatística, física nuclear, dinâmica não linear, dinâmica de fluidos e biofísica. O CritPt consiste em 71 desafios de pesquisa compostos projetados para simular projetos de pesquisa em escala completa no nível de entrada, que também são decompostos em 190 tarefas de verificação mais simples para insights mais detalhados. Todos os problemas foram criados recentemente por mais de 50 pesquisadores ativos em física com base em suas próprias pesquisas. Cada problema é cuidadosamente curado para admitir uma resposta resistente a palpites e verificável por máquina, e é avaliado por um pipeline de correção automatizado altamente personalizado para formatos de saída específicos de física avançada. Descobrimos que, embora os LLMs state-of-the-art atuais mostrem promessas iniciais em verificações isoladas, eles ainda estão longe de serem capazes de resolver de forma confiável desafios completos em escala de pesquisa: a melhor precisão média entre os modelos base é de apenas 4,0%, alcançada pelo GPT-5 (alto), subindo moderadamente para cerca de 10% quando equipado com ferramentas de codificação. Através da avaliação realista, porém padronizada, oferecida pelo CritPt, destacamos uma grande desconexão entre as capacidades atuais dos modelos e as demandas realistas da pesquisa em física, oferecendo uma base para orientar o desenvolvimento de ferramentas de IA cientificamente fundamentadas.
A marcação d'água (watermarking) para modelos de linguagem de grande escala (LLMs) incorpora um sinal estatístico durante a geração de texto para permitir a detecção de conteúdo produzido pelo modelo. Embora a marcação d'água tenha se mostrado eficaz em cenários benignos, sua robustez diante de evasões adversárias permanece contestada. Para avançar em uma compreensão e avaliação rigorosas dessas vulnerabilidades, propomos o Ataque de Reescrevimento por Inversão de Viés (BIRA, Bias-Inversion Rewriting Attack), que é teoricamente fundamentado e independente do modelo. O BIRA enfraquece o sinal da marcação d'água ao suprimir os logits dos tokens provavelmente marcados durante a reescrita baseada em LLM, sem qualquer conhecimento do esquema de marcação d'água subjacente. Em métodos recentes de marcação d'água, o BIRA alcança mais de 99% de evasão enquanto preserva o conteúdo semântico do texto original. Além de demonstrar um ataque, nossos resultados revelam uma vulnerabilidade sistemática, enfatizando a necessidade de testes de estresse e defesas robustas.
Os recentes avanços na geração de vídeos permitiram a síntese de vídeos de alta fidelidade a partir de prompts fornecidos pelo usuário. No entanto, os modelos e benchmarks existentes não conseguem capturar a complexidade e os requisitos da geração profissional de vídeos. Com esse objetivo, introduzimos o Stable Cinemetrics, um framework de avaliação estruturado que formaliza os controles de produção cinematográfica em quatro taxonomias hierárquicas e desacopladas: Configuração, Evento, Iluminação e Câmera. Juntas, essas taxonomias definem 76 nós de controle refinados, fundamentados em práticas da indústria. Utilizando essas taxonomias, construímos um benchmark de prompts alinhados com casos de uso profissionais e desenvolvemos um pipeline automatizado para categorização de prompts e geração de perguntas, permitindo a avaliação independente de cada dimensão de controle. Realizamos um estudo em larga escala com humanos, abrangendo mais de 10 modelos e 20 mil vídeos, anotados por um grupo de mais de 80 profissionais de cinema. Nossa análise, tanto em nível macro quanto micro, revela que mesmo os modelos atuais mais robustos apresentam lacunas significativas, especialmente em controles relacionados a Eventos e Câmera. Para permitir uma avaliação escalável, treinamos um avaliador automático, um modelo de visão e linguagem alinhado com anotações de especialistas, que supera as baselines zero-shot existentes. O SCINE é a primeira abordagem a situar a geração profissional de vídeos no cenário dos modelos generativos de vídeo, introduzindo taxonomias centradas em controles cinematográficos e apoiando-as com pipelines de avaliação estruturados e análises detalhadas para orientar pesquisas futuras.
As abordagens existentes para estimativa de proficiência em habilidades frequentemente dependem de classificadores de vídeo de caixa preta, ignorando o contexto de múltiplas visões e carecendo de explicabilidade. Apresentamos o ProfVLM, um modelo compacto de visão e linguagem que reformula essa tarefa como raciocínio generativo: ele prevê conjuntamente o nível de habilidade e gera feedback semelhante ao de especialistas a partir de vídeos egocêntricos e exocêntricos. Central ao nosso método é um AttentiveGatedProjector que funde dinamicamente características de múltiplas visões, projetadas a partir de uma estrutura congelada TimeSformer em um modelo de linguagem ajustado para geração de feedback. Treinado no EgoExo4D com comentários de especialistas, o ProfVLM supera os métodos state-of-the-art enquanto utiliza até 20 vezes menos parâmetros e reduz o tempo de treinamento em até 60%. Nossa abordagem não apenas alcança precisão superior em diversas atividades, mas também produz críticas em linguagem natural alinhadas ao desempenho, oferecendo raciocínio transparente. Esses resultados destacam a modelagem generativa de visão e linguagem como uma nova e poderosa direção para avaliação de habilidades.
Em direção à edição inteligente de imagens, a remoção de objetos deve eliminar tanto o objeto alvo quanto seus artefatos visuais causais, como sombras e reflexos. No entanto, os métodos existentes baseados na aparência da imagem seguem estritamente o treinamento alinhado por máscara e falham em remover esses efeitos causais que não são explicitamente mascarados, ou adotam estratégias de alinhamento de máscara frouxo que carecem de controlabilidade e podem apagar outros objetos de forma não intencional. Identificamos que essas limitações decorrem da ignorância da relação causal entre a presença geométrica de um objeto e seus efeitos visuais. Para abordar essa limitação, propomos uma estrutura de duas etapas consciente da geometria que desacopla a remoção de objetos em (1) remoção geométrica e (2) renderização de aparência. Na primeira etapa, removemos o objeto diretamente da geometria (por exemplo, profundidade) usando supervisão estritamente alinhada por máscara, permitindo edição consciente da estrutura com fortes restrições geométricas. Na segunda etapa, renderizamos uma imagem RGB fotorrealista condicionada na geometria atualizada, onde os efeitos visuais causais são considerados implicitamente como resultado da geometria 3D modificada. Para orientar o aprendizado na etapa de remoção geométrica, introduzimos um objetivo orientado por preferência baseado em pares de amostras positivas e negativas, incentivando o modelo a remover objetos, bem como seus artefatos visuais causais, evitando novas inserções estruturais. Experimentos extensivos demonstram que nosso método alcança desempenho de ponta na remoção de objetos e seus artefatos associados em dois benchmarks populares. O código está disponível em https://github.com/buxiangzhiren/GeoRemover.