Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos Visão-Linguagem-Ação (VLA, na sigla em inglês) normalmente conectam a lacuna entre os espaços perceptivo e de ação por meio do pré-treinamento de um Modelo de Visão-Linguagem (VLM) em grande escala com dados robóticos. Embora essa abordagem melhore significativamente o desempenho, ela também acarreta custos elevados de treinamento. Neste artigo, investigamos como conectar efetivamente as representações de visão-linguagem (VL) à ação (A). Apresentamos o VLA-Adapter, um novo paradigma projetado para reduzir a dependência dos modelos VLA em VLMs de grande escala e em extensos pré-treinamentos. Para isso, primeiro analisamos sistematicamente a eficácia de várias condições de VL e apresentamos descobertas essenciais sobre quais condições são fundamentais para conectar os espaços perceptivo e de ação. Com base nessas análises, propomos um módulo de Política leve com Atenção de Ponte, que injeta automaticamente a condição ideal no espaço de ação. Dessa forma, nosso método alcança alto desempenho utilizando apenas uma arquitetura base com 0,5 bilhão de parâmetros, sem qualquer pré-treinamento com dados robóticos. Experimentos extensivos em benchmarks robóticos simulados e do mundo real demonstram que o VLA-Adapter não apenas atinge desempenho de ponta, mas também oferece a velocidade de inferência mais rápida já relatada. Além disso, graças ao paradigma avançado de ponte proposto, o VLA-Adapter permite o treinamento de um modelo VLA poderoso em apenas 8 horas em uma única GPU de nível consumidor, reduzindo significativamente a barreira para a implantação do modelo VLA. Página do projeto: https://vla-adapter.github.io/.
Os métodos de Geração de Vídeo Centrada no Humano (HCVG, na sigla em inglês) buscam sintetizar vídeos humanos a partir de entradas multimodais, incluindo texto, imagem e áudio. Os métodos existentes enfrentam dificuldades para coordenar efetivamente essas modalidades heterogêneas devido a dois desafios: a escassez de dados de treinamento com condições de tripla correspondência e a dificuldade de colaborar nas subtarefas de preservação do sujeito e sincronização áudio-visual com entradas multimodais. Neste trabalho, apresentamos o HuMo, um framework unificado de HCVG para controle multimodal colaborativo. Para o primeiro desafio, construímos um conjunto de dados de alta qualidade com texto, imagens de referência e áudio diversos e correspondentes. Para o segundo desafio, propomos um paradigma de treinamento multimodal progressivo em duas etapas com estratégias específicas para cada tarefa. Para a tarefa de preservação do sujeito, a fim de manter as habilidades de geração visual e de seguir instruções do modelo base, adotamos a estratégia de injeção de imagem minimamente invasiva. Para a tarefa de sincronização áudio-visual, além da camada de atenção cruzada de áudio comumente adotada, propomos uma estratégia de foco por previsão que guia implicitamente o modelo a associar o áudio com as regiões faciais. Para o aprendizado conjunto das controlabilidades entre as entradas multimodais, com base nas capacidades previamente adquiridas, incorporamos progressivamente a tarefa de sincronização áudio-visual. Durante a inferência, para um controle multimodal flexível e de granularidade fina, projetamos uma estratégia de Orientação Livre de Classificador adaptativa ao tempo que ajusta dinamicamente os pesos de orientação ao longo das etapas de redução de ruído. Resultados experimentais extensivos demonstram que o HuMo supera métodos especializados de ponta nas subtarefas, estabelecendo um framework unificado para HCVG condicionada multimodalmente de forma colaborativa. Página do Projeto: https://phantom-video.github.io/HuMo.
Modelos Visão-Linguagem-Ação (VLA) surgiram recentemente como um paradigma poderoso para manipulação robótica. Apesar do progresso substancial possibilitado pelo pré-treinamento em larga escala e ajuste fino supervisionado (SFT), esses modelos enfrentam dois desafios fundamentais: (i) a escassez e o alto custo de trajetórias robóticas operadas por humanos em grande escala necessárias para a escalabilidade do SFT, e (ii) a generalização limitada para tarefas que envolvem mudanças de distribuição. Avanços recentes em Modelos de Raciocínio em Larga Escala (LRMs) demonstram que o aprendizado por reforço (RL) pode aprimorar dramaticamente as capacidades de raciocínio passo a passo, levantando uma questão natural: O RL pode, de forma similar, melhorar o planejamento de ações passo a passo de longo prazo dos modelos VLA? Neste trabalho, introduzimos o SimpleVLA-RL, um framework de RL eficiente projetado para modelos VLA. Baseando-se no veRL, introduzimos amostragem de trajetórias específica para VLA, paralelização escalável, renderização multi-ambiente e computação de perda otimizada. Quando aplicado ao OpenVLA-OFT, o SimpleVLA-RL alcança desempenho de ponta no LIBERO e até supera o pi_0 no RoboTwin 1.0\&2.0 com as estratégias de aprimoramento de exploração que introduzimos. O SimpleVLA-RL não apenas reduz a dependência de dados em larga escala e permite generalização robusta, mas também supera notavelmente o SFT em tarefas do mundo real. Além disso, identificamos um novo fenômeno chamado "pushcut" durante o treinamento de RL, no qual a política descobre padrões anteriormente não vistos, além daqueles observados no processo de treinamento anterior. Github: https://github.com/PRIME-RL/SimpleVLA-RL
Modelos de linguagem de grande escala para fala (SLLMs) estão atraindo atenção crescente. Derivados de modelos de linguagem de grande escala baseados em texto (LLMs), os SLLMs frequentemente exibem degradação nas capacidades de conhecimento e raciocínio. Nossa hipótese é que essa limitação surge porque os paradigmas de treinamento atuais para SLLMs não conseguem preencher a lacuna acústico-semântica no espaço de representação de características. Para resolver esse problema, propomos o EchoX, que aproveita representações semânticas e gera dinamicamente alvos de treinamento de fala. Essa abordagem integra tanto o aprendizado acústico quanto o semântico, permitindo que o EchoX preserve fortes habilidades de raciocínio como um modelo de linguagem de grande escala para fala. Resultados experimentais demonstram que o EchoX, com cerca de seis mil horas de dados de treinamento, alcança desempenho avançado em múltiplos benchmarks de questionamento baseado em conhecimento. O projeto está disponível em https://github.com/FreedomIntelligence/EchoX.
Avanços recentes na geração de vídeos de avatares impulsionados por áudio têm aprimorado significativamente o realismo audiovisual. No entanto, os métodos existentes tratam o condicionamento por instruções meramente como um rastreamento de baixo nível guiado por pistas acústicas ou visuais, sem modelar o propósito comunicativo transmitido pelas instruções. Essa limitação compromete sua coerência narrativa e expressividade dos personagens. Para preencher essa lacuna, introduzimos o Kling-Avatar, uma nova estrutura em cascata que unifica a compreensão multimodal de instruções com a geração de retratos fotorealistas. Nossa abordagem adota um pipeline de dois estágios. No primeiro estágio, projetamos um diretor baseado em um modelo de linguagem multimodal (MLLM) que produz um vídeo de referência condicionado a diversos sinais de instrução, governando assim semânticas de alto nível, como movimento e emoções dos personagens. No segundo estágio, guiados pelos quadros-chave de referência, geramos múltiplos sub-clipes em paralelo usando uma estratégia de primeiro-último quadro. Essa estrutura global-para-local preserva detalhes refinados enquanto codifica fielmente a intenção de alto nível por trás das instruções multimodais. Nossa arquitetura paralela também permite a geração rápida e estável de vídeos de longa duração, tornando-a adequada para aplicações do mundo real, como transmissões ao vivo e vlogs de humanos digitais. Para avaliar nosso método de forma abrangente, construímos um benchmark com 375 amostras curadas, cobrindo diversas instruções e cenários desafiadores. Experimentos extensivos demonstram que o Kling-Avatar é capaz de gerar vídeos vívidos, fluentes e de longa duração com resolução de até 1080p e 48 fps, alcançando desempenho superior em precisão de sincronização labial, expressividade emocional e dinâmica, controlabilidade de instruções, preservação de identidade e generalização entre domínios. Esses resultados estabelecem o Kling-Avatar como um novo padrão para a síntese de avatares impulsionados por áudio, semanticamente fundamentada e de alta fidelidade.
Em tarefas de longo prazo, agentes recentes baseados em Modelos de Linguagem de Grande Escala (LLMs) enfrentam um desafio significativo: recompensas esparsas e baseadas em resultados dificultam a atribuição de crédito a etapas intermediárias. Métodos anteriores concentram-se principalmente na criação de sinais de recompensa densos para orientar o aprendizado, seja por meio de técnicas tradicionais de aprendizado por reforço, como aprendizado por reforço inverso, ou utilizando Modelos de Recompensa de Processo para feedback passo a passo. Neste artigo, identificamos um problema fundamental na dinâmica de aprendizado dos LLMs: a magnitude dos gradientes da política está intrinsecamente acoplada à entropia, o que leva a atualizações pequenas e ineficientes para ações corretas confiantes e potencialmente desestabiliza grandes atualizações para ações incertas. Para resolver isso, propomos Gradientes de Política Modulados por Entropia (EMPG), uma estrutura que recalibra o sinal de aprendizado com base na incerteza passo a passo e no resultado final da tarefa. O EMPG amplifica atualizações para ações corretas confiantes, penaliza erros confiantes e atenua atualizações de etapas incertas para estabilizar a exploração. Além disso, introduzimos um termo de bônus para clareza futura que incentiva os agentes a encontrar caminhos de solução mais previsíveis. Por meio de experimentos abrangentes em três tarefas desafiadoras de agentes — WebShop, ALFWorld e Deep Search — demonstramos que o EMPG alcança ganhos substanciais de desempenho e supera significativamente as linhas de base de gradientes de política. A página do projeto está disponível em https://empgseed-seed.github.io/.
O avanço dos modelos de texto para imagem (T2I) de código aberto tem sido prejudicado pela ausência de conjuntos de dados em grande escala focados em raciocínio e benchmarks de avaliação abrangentes, resultando em uma lacuna de desempenho em comparação com os principais sistemas de código fechado. Para enfrentar esse desafio, introduzimos o FLUX-Reason-6M e o PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). O FLUX-Reason-6M é um conjunto de dados massivo composto por 6 milhões de imagens de alta qualidade geradas pelo FLUX e 20 milhões de descrições bilíngues (inglês e chinês) projetadas especificamente para ensinar raciocínio complexo. As imagens são organizadas de acordo com seis características principais: Imaginação, Entidade, Renderização de Texto, Estilo, Afeto e Composição, e incluem uma Cadeia de Pensamento de Geração (GCoT) explícita para fornecer detalhamentos passo a passo da geração de imagens. Toda a curadoria dos dados consumiu 15.000 dias de GPU A100, oferecendo à comunidade um recurso anteriormente inacessível fora de grandes laboratórios industriais. O PRISM-Bench oferece um novo padrão de avaliação com sete trilhas distintas, incluindo um desafio formidável de Texto Longo utilizando GCoT. Por meio de prompts cuidadosamente projetados, ele utiliza modelos avançados de visão e linguagem para uma avaliação sutil e alinhada com o ser humano, tanto no alinhamento prompt-imagem quanto na estética da imagem. Nossa avaliação extensiva de 19 modelos líderes no PRISM-Bench revela lacunas críticas de desempenho e destaca áreas específicas que necessitam de melhoria. Nosso conjunto de dados, benchmark e código de avaliação são disponibilizados para catalisar a próxima onda de geração T2I orientada para o raciocínio. Página do projeto: https://flux-reason-6m.github.io/.
Neste artigo, introduzimos um paradigma perspicaz através da lente do Auto-Encoder: a compreensão como o codificador (I2T) que comprime imagens em texto, e a geração como o decodificador (T2I) que reconstrói imagens a partir desse texto. Utilizando a fidelidade de reconstrução como o objetivo de treinamento unificado, impomos um fluxo bidirecional coerente de informações entre os processos de compreensão e geração, trazendo ganhos mútuos. Para implementar isso, propomos o UAE, uma nova estrutura para aprendizado multimodal unificado. Começamos pré-treinando o decodificador com legendas de imagens de contexto longo em grande escala para capturar relações semânticas detalhadas e complexas relações espaciais. Em seguida, propomos o Unified-GRPO via aprendizado por reforço (RL), que abrange três estágios: (1) Uma fase de inicialização para inicializar suavemente tanto o codificador quanto o decodificador com uma perda de reconstrução semântica; (2) Geração para Compreensão, onde o codificador é treinado para gerar legendas informativas que maximizam a qualidade de reconstrução do decodificador, aprimorando sua compreensão visual; (3) Compreensão para Geração, onde o decodificador é refinado para reconstruir a partir dessas legendas, forçando-o a aproveitar cada detalhe e melhorando sua capacidade de seguir instruções de contexto longo e a fidelidade de geração. Para avaliação, introduzimos o Unified-Bench, o primeiro benchmark projetado para avaliar o grau de unificação dos UMMs. Um momento surpreendente de "insight" surge no domínio do aprendizado multimodal: à medida que o RL avança, o codificador produz autonomamente legendas mais descritivas, enquanto o decodificador demonstra simultaneamente uma profunda capacidade de compreender essas descrições intrincadas, resultando em reconstruções de fidelidade impressionante.
Modelos de linguagem de grande escala (LLMs) possuem amplo conhecimento do mundo e uma forte capacidade de raciocínio de propósito geral, mas eles têm dificuldade em aprender a partir de muitos exemplos em contexto em tarefas padrão de aprendizado de máquina (ML), ou seja, em aproveitar demonstrações de muitos exemplos puramente por meio de aprendizado em contexto (ICL) sem descida de gradiente. Apresentamos o MachineLearningLM, uma estrutura portátil de pré-treinamento contínuo que equipa um LLM de propósito geral com uma robusta capacidade de ML em contexto, preservando seu conhecimento geral e raciocínio para fluxos de trabalho mais amplos de chat. Nosso procedimento de pré-treinamento sintetiza tarefas de ML a partir de milhões de modelos causais estruturais (SCMs), abrangendo contagens de exemplos de até 1.024. Começamos com um professor de floresta aleatória, destilando estratégias de decisão baseadas em árvores no LLM para fortalecer a robustez na modelagem numérica. Todas as tarefas são serializadas com um prompt eficiente em tokens, permitindo de 3x a 6x mais exemplos por janela de contexto e entregando até 50x de taxa de transferência amortizada por meio de inferência em lote. Apesar de uma configuração modesta (Qwen-2.5-7B-Instruct com LoRA rank 8), o MachineLearningLM supera fortes baselines de LLMs (por exemplo, GPT-5-mini) em média em cerca de 15% em classificação tabular fora da distribuição em domínios como finanças, física, biologia e saúde. Ele exibe uma impressionante lei de escalonamento de muitos exemplos: a precisão aumenta monotonicamente à medida que as demonstrações em contexto crescem de 8 para 1.024. Sem qualquer treinamento específico para a tarefa, ele atinge precisão no nível de floresta aleatória em centenas de exemplos. As capacidades gerais de chat, incluindo conhecimento e raciocínio, são preservadas: ele alcança 75,4% no MMLU.
Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é um paradigma poderoso para aprimorar a capacidade de raciocínio de Modelos de Linguagem de Grande Escala (LLMs). No entanto, os métodos atuais de RLVR frequentemente exploram de forma inadequada, levando a convergência prematura e colapso de entropia. Para enfrentar esse desafio, introduzimos a Exploração Guiada por Curiosidade (CDE), uma estrutura que aproveita o senso intrínseco de curiosidade do próprio modelo para orientar a exploração. Formalizamos a curiosidade com sinais tanto do ator quanto do crítico: para o ator, utilizamos a perplexidade sobre sua resposta gerada, e para o crítico, usamos a variância das estimativas de valor de uma arquitetura multi-cabeça. Ambos os sinais servem como um bônus de exploração dentro da estrutura RLVR para guiar o modelo. Nossa análise teórica mostra que o bônus relacionado ao ator penaliza inerentemente erros excessivamente confiantes e promove a diversidade entre respostas corretas; além disso, conectamos o bônus relacionado ao crítico ao bem-estabelecido bônus de exploração baseado em contagem no Aprendizado por Reforço. Empiricamente, nosso método alcança uma melhoria aproximada de +3 pontos em relação ao RLVR padrão usando GRPO/PPO em benchmarks AIME. Uma análise adicional identifica um mecanismo de colapso de calibração dentro do RLVR, lançando luz sobre modos comuns de falha em LLMs.
Progressos significativos foram alcançados na inteligência espacial, abrangendo tanto a reconstrução espacial quanto a exploração do mundo. No entanto, a escalabilidade e a fidelidade ao mundo real dos modelos atuais permanecem severamente limitadas pela escassez de dados de treinamento em grande escala e de alta qualidade. Embora vários conjuntos de dados forneçam informações sobre a pose da câmera, eles são tipicamente limitados em escala, diversidade e riqueza de anotações, especialmente para cenas dinâmicas do mundo real com movimentos de câmera de verdade absoluta. Para isso, coletamos o SpatialVID, um conjunto de dados que consiste em um grande corpus de vídeos capturados em ambientes reais, com cenas diversas, movimentos de câmera e anotações 3D densas, como poses de câmera por quadro, profundidade e instruções de movimento. Especificamente, coletamos mais de 21.000 horas de vídeo bruto e as processamos em 2,7 milhões de clipes por meio de um pipeline de filtragem hierárquica, totalizando 7.089 horas de conteúdo dinâmico. Um pipeline subsequente de anotação enriquece esses clipes com informações espaciais e semânticas detalhadas, incluindo poses de câmera, mapas de profundidade, máscaras dinâmicas, legendas estruturadas e instruções de movimento serializadas. A análise das estatísticas dos dados do SpatialVID revela uma riqueza e diversidade que promovem diretamente a melhoria da generalização e do desempenho dos modelos, estabelecendo-o como um recurso essencial para a comunidade de pesquisa em visão 3D e vídeo.
Os Grandes Modelos de Linguagem de Áudio (LALMs, na sigla em inglês) estão avançando rapidamente, mas sua avaliação continua desafiadora devido a kits de ferramentas ineficientes que limitam comparações justas e avaliações sistemáticas. Os frameworks atuais sofrem com três problemas críticos: processamento lento que cria gargalos em estudos em larga escala, prompts inconsistentes que prejudicam a reprodutibilidade e cobertura limitada de tarefas que ignora capacidades importantes de raciocínio em áudio. Apresentamos o AU-Harness, um framework de avaliação eficiente e abrangente para LALMs. Nosso sistema alcança uma aceleração de até 127% em relação aos kits de ferramentas existentes por meio de processamento em lote otimizado e execução paralela, permitindo avaliações em larga escala anteriormente impraticáveis. Oferecemos protocolos de prompts padronizados e configurações flexíveis para comparações justas de modelos em diversos cenários. Além disso, introduzimos duas novas categorias de avaliação: Diarização Adaptativa a LLMs para compreensão temporal de áudio e Raciocínio em Linguagem Falada para tarefas cognitivas complexas baseadas em áudio. Por meio da avaliação em mais de 380 tarefas, revelamos lacunas significativas nos LALMs atuais, particularmente em compreensão temporal e tarefas complexas de raciocínio em linguagem falada. Nossas descobertas também destacam a falta de padronização na modalidade de instrução presente em benchmarks de áudio, o que pode levar a diferenças de desempenho de até 9,5 pontos absolutos em tarefas desafiadoras de seguimento de instruções complexas. O AU-Harness fornece tanto ferramentas práticas de avaliação quanto insights sobre as limitações dos modelos, avançando o desenvolvimento sistemático de LALMs.
A compreensão de gráficos representa um teste crítico para as capacidades de raciocínio dos Modelos de Visão e Linguagem (VLMs). Abordagens anteriores enfrentam limitações significativas: algumas dependem de ferramentas externas, tornando-as frágeis e restritas por um conjunto de ferramentas predefinido, enquanto outras ajustam modelos especializados que frequentemente adotam uma única estratégia de raciocínio, como a cadeia de pensamento (CoT) baseada em texto. As etapas intermediárias do raciocínio baseado em texto são difíceis de verificar, o que complica o uso de sinais de aprendizado por reforço que recompensam a precisão factual. Para resolver isso, propomos uma abordagem de Código-como-Pensamento (CaT) para representar a informação visual de um gráfico em um formato simbólico verificável. Nossa principal percepção é que essa estratégia deve ser adaptativa: uma implementação fixa, baseada apenas em código, consistentemente falha em gráficos complexos onde a representação simbólica é inadequada. Essa descoberta nos leva a introduzir a Programabilidade Visual: uma propriedade aprendível que determina se um par gráfico-pergunta é melhor resolvido com código ou com análise visual direta. Implementamos esse conceito em um framework adaptativo onde um VLM aprende a escolher entre o caminho CaT e um caminho de raciocínio visual direto. A política de seleção do modelo é treinada com aprendizado por reforço usando um sistema de recompensa dual inovador. Esse sistema combina uma recompensa de precisão de dados para fundamentar o modelo em fatos e prevenir alucinações numéricas, com uma recompensa de decisão que ensina o modelo quando usar cada estratégia, evitando que ele recaia em um único modo de raciocínio. Experimentos demonstram um desempenho forte e robusto em diversos benchmarks de compreensão de gráficos. Nosso trabalho mostra que VLMs podem ser ensinados não apenas a raciocinar, mas também como raciocinar, selecionando dinamicamente o caminho de raciocínio ideal para cada tarefa.
Modelos de linguagem do tipo encoder-only são frequentemente utilizados para uma variedade de tarefas padrão de aprendizado de máquina, incluindo classificação e recuperação de informações. No entanto, há uma escassez de pesquisas recentes sobre modelos encoder, especialmente no que diz respeito a modelos multilíngues. Apresentamos o mmBERT, um modelo de linguagem encoder-only pré-treinado em 3 trilhões de tokens de texto multilíngue, abrangendo mais de 1800 idiomas. Para construir o mmBERT, introduzimos vários elementos inovadores, incluindo um cronograma de taxa de máscara inversa e uma taxa de amostragem de temperatura inversa. Adicionamos mais de 1700 idiomas de baixo recurso à mistura de dados apenas durante a fase de decaimento, demonstrando que isso impulsiona significativamente o desempenho e maximiza os ganhos obtidos com a quantidade relativamente pequena de dados de treinamento. Apesar de incluir esses idiomas de baixo recurso apenas na curta fase de decaimento, alcançamos desempenho de classificação semelhante a modelos como o o3 da OpenAI e o Gemini 2.5 Pro da Google. No geral, mostramos que o mmBERT supera significativamente a geração anterior de modelos em tarefas de classificação e recuperação de informações — tanto em idiomas de alto quanto de baixo recurso.
A compreensão das relações espaciais 3D continua sendo uma grande limitação dos atuais Modelos de Visão e Linguagem (VLMs). Trabalhos anteriores abordaram essa questão criando conjuntos de dados de perguntas e respostas (QA) espaciais baseados em imagens únicas ou vídeos de ambientes internos. No entanto, agentes de IA incorporados no mundo real, como robôs e carros autônomos, geralmente dependem de observações egocêntricas e multiview. Para isso, introduzimos o Ego3D-Bench, um novo benchmark projetado para avaliar as habilidades de raciocínio espacial de VLMs usando dados egocêntricos e multiview de ambientes externos. O Ego3D-Bench compreende mais de 8.600 pares de QA, criados com significativa participação de anotadores humanos para garantir qualidade e diversidade. Avaliamos 16 VLMs de última geração, incluindo GPT-4o, Gemini1.5-Pro, InternVL3 e Qwen2.5-VL. Nossos resultados revelam uma lacuna notável entre os escores de nível humano e o desempenho dos VLMs, destacando que os VLMs atuais ainda não atingem o nível de compreensão espacial humana. Para reduzir essa lacuna, propomos o Ego3D-VLM, um framework de pós-treinamento que aprimora o raciocínio espacial 3D de VLMs. O Ego3D-VLM gera um mapa cognitivo baseado em coordenadas 3D globais estimadas, resultando em uma melhoria média de 12% em QA de múltipla escolha e 56% na estimativa de distância absoluta. O Ego3D-VLM é modular e pode ser integrado a qualquer VLM existente. Juntos, o Ego3D-Bench e o Ego3D-VLM oferecem ferramentas valiosas para avançar em direção à compreensão espacial de nível humano em ambientes reais e multiview.
Embora o Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) exiba um desempenho robusto em diversas tarefas de visão, sua aplicação ao aprendizado de representação de pessoas enfrenta dois desafios críticos: (i) a escassez de dados em grande escala anotados de visão e linguagem focados em imagens centradas em pessoas, e (ii) as limitações inerentes do aprendizado contrastivo global, que luta para manter características locais discriminativas cruciais para correspondência de granularidade fina, ao mesmo tempo em que permanece vulnerável a tokens de texto ruidosos. Este trabalho avança o CLIP para o aprendizado de representação de pessoas por meio de melhorias sinérgicas na curadoria de dados e na arquitetura do modelo. Primeiro, desenvolvemos um pipeline de construção de dados resistente a ruídos que aproveita as capacidades de aprendizado em contexto dos MLLMs para filtrar e descrever automaticamente imagens obtidas da web. Isso resulta no WebPerson, um conjunto de dados em larga escala com 5 milhões de pares imagem-texto de alta qualidade centrados em pessoas. Segundo, introduzimos o framework GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), que melhora o alinhamento multimodal ao mascarar adaptativamente tokens textuais ruidosos com base no escore de similaridade de gradiente-atenção. Além disso, incorporamos objetivos de previsão de tokens mascarados que obrigam o modelo a prever tokens de texto informativos, aprimorando o aprendizado de representação semântica de granularidade fina. Experimentos extensivos mostram que o GA-DMS alcança desempenho de ponta em múltiplos benchmarks.
O Gaussian Splatting (GS), uma técnica recente para converter pontos discretos em representações espaciais contínuas, tem mostrado resultados promissores na modelagem de cenas 3D e na super-resolução de imagens 2D. Neste artigo, exploramos seu potencial inexplorado para a restauração de imagens (inpainting), que exige tanto a síntese de pixels localmente coerente quanto a restauração semanticamente consistente em nível global. Propomos o primeiro framework de inpainting de imagens baseado em Gaussian Splatting 2D, que codifica imagens incompletas em um campo contínuo de coeficientes de splat Gaussiano 2D e reconstrói a imagem final por meio de um processo de rasterização diferenciável. O paradigma de renderização contínua do GS promove naturalmente a coerência em nível de pixel nos resultados restaurados. Para melhorar a eficiência e a escalabilidade, introduzimos uma estratégia de rasterização por blocos que reduz a sobrecarga de memória e acelera a inferência. Para garantir a consistência semântica global, incorporamos recursos de um modelo DINO pré-treinado. Observamos que os recursos globais do DINO são naturalmente robustos a pequenas regiões ausentes e podem ser efetivamente adaptados para guiar o alinhamento semântico em cenários com grandes máscaras, garantindo que o conteúdo restaurado permaneça contextualmente consistente com a cena circundante. Experimentos extensivos em benchmarks padrão demonstram que nosso método alcança desempenho competitivo tanto em métricas quantitativas quanto na qualidade perceptual, estabelecendo uma nova direção para a aplicação do Gaussian Splatting no processamento de imagens 2D.
O surgimento de modelos de linguagem de contexto longo, com janelas de contexto estendendo-se a milhões de tokens, criou novas oportunidades para a compreensão sofisticada de código e a avaliação do desenvolvimento de software. Propomos o LoCoBench, um benchmark abrangente projetado especificamente para avaliar LLMs de contexto longo em cenários realistas e complexos de desenvolvimento de software. Diferentemente dos benchmarks de avaliação de código existentes, que se concentram na conclusão de funções únicas ou tarefas de contexto curto, o LoCoBench aborda a lacuna crítica de avaliação para capacidades de contexto longo que exigem a compreensão de bases de código inteiras, o raciocínio entre múltiplos arquivos e a manutenção da consistência arquitetônica em sistemas de software em larga escala. Nosso benchmark oferece 8.000 cenários de avaliação gerados sistematicamente em 10 linguagens de programação, com comprimentos de contexto variando de 10K a 1M de tokens, uma variação de 100x que permite uma avaliação precisa da degradação de desempenho em contextos longos em cenários realistas de desenvolvimento de software. O LoCoBench introduz 8 categorias de tarefas que capturam capacidades essenciais de contexto longo: compreensão arquitetônica, refatoração entre arquivos, desenvolvimento multi-sessão, investigação de bugs, implementação de funcionalidades, compreensão de código, testes de integração e análise de segurança. Por meio de um pipeline de 5 fases, criamos cenários diversos e de alta qualidade que desafiam os LLMs a raciocinar sobre bases de código complexas em uma escala sem precedentes. Introduzimos um framework de avaliação abrangente com 17 métricas em 4 dimensões, incluindo 8 novas métricas de avaliação, combinadas em um LoCoBench Score (LCBS). Nossa avaliação dos modelos de contexto longo state-of-the-art revela lacunas substanciais de desempenho, demonstrando que a compreensão de contexto longo no desenvolvimento de software complexo representa um desafio significativo não resolvido que demanda mais atenção. O LoCoBench está disponível em: https://github.com/SalesforceAIResearch/LoCoBench.
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) abriram novas oportunidades para a inteligência incorporada, permitindo compreensão, raciocínio e interação multimodal, bem como tomada de decisão espacial contínua. No entanto, os sistemas incorporados baseados em MLLMs atuais enfrentam duas limitações críticas. Primeiro, a Lacuna de Adaptabilidade Geométrica: modelos treinados exclusivamente em entradas 2D ou com injeção de geometria 3D codificada sofrem com informações espaciais insuficientes ou generalização 2D restrita, levando a uma má adaptabilidade em tarefas com demandas espaciais diversas. Segundo, a Lacuna de Restrição de Incorporação: trabalhos anteriores frequentemente negligenciam as restrições físicas e capacidades de robôs reais, resultando em planos de tarefas teoricamente válidos, mas praticamente inviáveis. Para abordar essas lacunas, introduzimos o OmniEVA — um planejador versátil incorporado que permite raciocínio avançado e planejamento de tarefas por meio de duas inovações fundamentais: (1) um Mecanismo de Aterramento 3D Adaptativo à Tarefa, que introduz um roteador com portas para realizar regulação seletiva explícita da fusão 3D com base em requisitos contextuais, permitindo aterramento 3D consciente do contexto para diversas tarefas incorporadas. (2) um Framework de Raciocínio Consciente da Incorporação que incorpora conjuntamente objetivos de tarefa e restrições de incorporação no ciclo de raciocínio, resultando em decisões de planejamento que são tanto direcionadas a objetivos quanto executáveis. Resultados experimentais extensivos demonstram que o OmniEVA não apenas alcança desempenho de raciocínio incorporado geral de última geração, mas também exibe uma forte capacidade em uma ampla gama de cenários subsequentes. Avaliações de um conjunto de benchmarks incorporados propostos, incluindo tarefas primitivas e compostas, confirmam suas capacidades de planejamento robustas e versáteis. Página do projeto: https://omnieva.github.io
Avanços recentes em modelos de visão e linguagem de grande escala (LVLMs) demonstraram um forte desempenho em tarefas médicas de propósito geral. No entanto, sua eficácia em domínios especializados, como a odontologia, permanece pouco explorada. Em particular, as radiografias panorâmicas, uma modalidade de imagem amplamente utilizada em radiologia oral, apresentam desafios interpretativos devido às estruturas anatômicas densas e aos sinais patológicos sutis, que não são capturados pelos benchmarks ou conjuntos de dados de instruções médicas existentes. Para isso, introduzimos o MMOral, o primeiro conjunto de dados e benchmark de instruções multimodais em grande escala projetado especificamente para a interpretação de radiografias panorâmicas. O MMOral consiste em 20.563 imagens anotadas, emparelhadas com 1,3 milhão de instâncias de seguimento de instruções em diversos tipos de tarefas, incluindo extração de atributos, geração de relatórios, resposta a perguntas visuais e diálogo baseado em imagens. Além disso, apresentamos o MMOral-Bench, uma suíte de avaliação abrangente que cobre cinco dimensões diagnósticas fundamentais na odontologia. Avaliamos 64 LVLMs no MMOral-Bench e descobrimos que mesmo o modelo com melhor desempenho, ou seja, o GPT-4o, alcança apenas 41,45% de precisão, revelando limitações significativas dos modelos atuais nesse domínio. Para promover o progresso nesse campo específico, também propomos o OralGPT, que realiza ajuste fino supervisionado (SFT) sobre o Qwen2.5-VL-7B com nosso conjunto de dados de instruções MMOral cuidadosamente curado. Notavelmente, uma única época de SFT resulta em melhorias substanciais de desempenho para os LVLMs, por exemplo, o OralGPT demonstra uma melhoria de 24,73%. Tanto o MMOral quanto o OralGPT têm um potencial significativo como base crítica para a odontologia inteligente e permitem sistemas de IA multimodal com maior impacto clínico no campo odontológico. O conjunto de dados, modelo, benchmark e suíte de avaliação estão disponíveis em https://github.com/isbrycee/OralGPT.
A navegação visual utilizando apenas uma única câmera e um mapa topológico tornou-se recentemente uma alternativa atraente aos métodos que exigem sensores adicionais e mapas 3D. Isso é tipicamente alcançado através de uma abordagem "relativa à imagem" para estimar o controle a partir de um par dado de observação atual e imagem de subobjetivo. No entanto, as representações do mundo no nível da imagem têm limitações, pois as imagens estão estritamente vinculadas à pose e à incorporação do agente. Em contraste, os objetos, sendo uma propriedade do mapa, oferecem uma representação do mundo invariante à incorporação e à trajetória. Neste trabalho, apresentamos um novo paradigma de aprendizado de controle "relativo ao objeto" que exibe várias características desejáveis: a) novas rotas podem ser percorridas sem a necessidade estrita de imitar experiências anteriores, b) o problema de previsão de controle pode ser desacoplado da resolução do problema de correspondência de imagens, e c) alta invariância pode ser alcançada na implantação cruzada de incorporações para variações entre configurações de treinamento-teste e mapeamento-execução. Propomos uma representação de mapa topométrico na forma de um grafo de cena 3D "relativo", que é usado para obter custos de planejamento de caminho global mais informativos no nível do objeto. Treinamos um controlador local, denominado "ObjectReact", condicionado diretamente a uma representação de alto nível do "Mapa de Custos WayObject", que elimina a necessidade de uma entrada RGB explícita. Demonstramos as vantagens do aprendizado de controle relativo ao objeto em relação à sua contraparte relativa à imagem em variações de altura do sensor e em múltiplas tarefas de navegação que desafiam a capacidade subjacente de compreensão espacial, por exemplo, navegar por uma trajetória de mapa na direção inversa. Além disso, mostramos que nossa política treinada apenas em simulação é capaz de generalizar bem para ambientes internos do mundo real. O código e material suplementar estão acessíveis através da página do projeto: https://object-react.github.io/
Um paradoxo central no ajuste fino de Modelos de Linguagem de Grande Escala (LLMs) com Aprendizado por Reforço com Recompensa Verificável (RLVR) é a frequente degradação do desempenho em múltiplas tentativas (Pass@k), apesar das melhorias na precisão de tentativa única (Pass@1). Isso geralmente é acompanhado por esquecimento catastrófico, onde os modelos perdem habilidades previamente adquiridas. Embora vários métodos tenham sido propostos, a escolha e a função do termo de divergência têm sido surpreendentemente pouco examinadas como uma solução proativa. Argumentamos que os objetivos padrão do RLVR — tanto aqueles que usam a divergência reversa de KL, que busca o modo, quanto aqueles que dispensam completamente um termo de divergência — carecem de um mecanismo crucial para a retenção de conhecimento. A KL reversa acelera ativamente essa deterioração ao estreitar a política, enquanto sua ausência não oferece nenhuma salvaguarda contra o desvio do modelo de sua base de conhecimento diversificada. Propomos uma mudança fundamental de perspectiva: usar o próprio termo de divergência como a solução. Nosso framework, Aprendizado por Reforço Híbrido de Preservação de Diversidade (DPH-RL), aproveita as divergências f de cobertura de massa (como a KL direta e a divergência JS) para funcionar como um mecanismo de revisão. Ao referenciar continuamente a política inicial, essa abordagem força o modelo a manter uma ampla cobertura de soluções. Experimentos extensos em geração de matemática e SQL demonstram que o DPH-RL não apenas resolve a degradação do Pass@k, mas melhora tanto o Pass@1 quanto o Pass@k dentro e fora do domínio. Além disso, o DPH-RL é mais eficiente em termos de treinamento porque calcula a divergência f usando funções geradoras, exigindo apenas amostragem da política inicial e nenhum modelo de referência online. Nosso trabalho destaca um eixo crucial e negligenciado para melhorar o RLVR, demonstrando que a seleção adequada de uma medida de divergência é uma ferramenta poderosa para construir modelos de raciocínio mais gerais e diversos.
As soluções de aprendizado profundo para detecção de vulnerabilidades propostas em pesquisas acadêmicas nem sempre são acessíveis aos desenvolvedores, e sua aplicabilidade em ambientes industriais raramente é abordada. A transferência dessas tecnologias da academia para a indústria apresenta desafios relacionados à confiabilidade, sistemas legados, baixa literacia digital e a lacuna entre a expertise acadêmica e industrial. Especificamente para o aprendizado profundo, o desempenho e a integração em fluxos de trabalho existentes são preocupações adicionais. Neste trabalho, avaliamos primeiro o desempenho do CodeBERT na detecção de funções vulneráveis em software industrial e de código aberto. Analisamos sua generalização entre domínios quando ajustado em dados de código aberto e testado em dados industriais, e vice-versa, explorando também estratégias para lidar com o desequilíbrio de classes. Com base nesses resultados, desenvolvemos o AI-DO (Automatizando a Integração de Detecção de Vulnerabilidades para Operações de Desenvolvedores), um sistema de recomendação integrado ao CI/CD (Integração Contínua-Implantação Contínua) que utiliza o CodeBERT ajustado para detectar e localizar vulnerabilidades durante a revisão de código sem interromper os fluxos de trabalho. Por fim, avaliamos a utilidade percebida da ferramenta por meio de uma pesquisa com profissionais de TI da empresa. Nossos resultados mostram que modelos treinados em dados industriais detectam vulnerabilidades com precisão dentro do mesmo domínio, mas perdem desempenho em código aberto, enquanto um modelo de aprendizado profundo ajustado em dados abertos, com técnicas adequadas de subamostragem, melhora a detecção de vulnerabilidades.
Os sistemas de recomendação multimodal estão se tornando cada vez mais tecnologias fundamentais para plataformas de e-commerce e conteúdo, permitindo serviços personalizados ao modelar conjuntamente os comportamentos históricos dos usuários e as características multimodais dos itens (por exemplo, visuais e textuais). No entanto, a maioria dos métodos existentes depende de estratégias de fusão estáticas ou de modelagem de interação local baseada em grafos, enfrentando duas limitações críticas: (1) capacidade insuficiente para modelar associações cruzadas de modalidades em nível granular, levando a uma qualidade de fusão subótima; e (2) falta de consistência em nível de distribuição global, causando viés representacional. Para abordar esses problemas, propomos o MambaRec, uma nova estrutura que integra alinhamento local de características e regularização de distribuição global por meio de aprendizado guiado por atenção. Em seu núcleo, introduzimos o Módulo de Atenção de Refinamento Dilatado (DREAM), que utiliza convoluções dilatadas multiescala com atenção espacial e por canal para alinhar padrões semânticos granulares entre as modalidades visual e textual. Esse módulo captura relações hierárquicas e associações contextuais, melhorando a modelagem semântica cruzada. Além disso, aplicamos a Discrepância de Média Máxima (MMD) e funções de perda contrastiva para restringir o alinhamento global de modalidades, aumentando a consistência semântica. Essa dupla regularização reduz desvios específicos de modalidade e aumenta a robustez. Para melhorar a escalabilidade, o MambaRec emprega uma estratégia de redução de dimensionalidade para diminuir o custo computacional de características multimodais de alta dimensão. Experimentos extensivos em conjuntos de dados reais de e-commerce mostram que o MambaRec supera os métodos existentes em qualidade de fusão, generalização e eficiência. Nosso código foi disponibilizado publicamente em https://github.com/rkl71/MambaRec.
Nossa equipe, All You Need Is A Fuzzing Brain, foi uma das sete finalistas do Desafio de Cibersegurança com Inteligência Artificial (AIxCC) da DARPA, ficando em quarto lugar na rodada final. Durante a competição, desenvolvemos um Sistema de Raciocínio Cibernético (CRS) que descobriu de forma autônoma 28 vulnerabilidades de segurança - incluindo seis zero-days previamente desconhecidas - em projetos de código aberto em C e Java do mundo real, e corrigiu com sucesso 14 delas. O CRS completo é de código aberto em https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain. Este artigo fornece uma descrição técnica detalhada do nosso CRS, com ênfase em seus componentes e estratégias alimentados por LLM. Baseando-se no AIxCC, introduzimos ainda um quadro de líderes público para avaliar os LLMs de última geração em tarefas de detecção e correção de vulnerabilidades, derivadas do conjunto de dados do AIxCC. O quadro de líderes está disponível em https://o2lab.github.io/FuzzingBrain-Leaderboard/.
Pesquisas iniciais sobre ataques de envenenamento de dados contra Modelos de Linguagem de Grande Escala (LLMs) demonstraram a facilidade com que backdoors poderiam ser injetados. Modelos mais recentes de LLMs incorporam raciocínio passo a passo, ampliando a superfície de ataque para incluir a cadeia de pensamento (CoT) intermediária e sua característica inerente de decompor problemas em subproblemas. Utilizando esses vetores para um envenenamento mais discreto, introduzimos o "envenenamento de raciocínio decomposto", no qual o atacante modifica apenas o caminho de raciocínio, mantendo os prompts e as respostas finais limpos, e divide o gatilho em múltiplos componentes individualmente inofensivos. Curiosamente, embora seja possível injetar esses venenos decompostos, ativá-los de forma confiável para alterar as respostas finais (em vez de apenas o CoT) é surpreendentemente difícil. Essa dificuldade surge porque os modelos frequentemente conseguem se recuperar de backdoors que são ativados durante seus processos de pensamento. No final das contas, parece que uma forma emergente de robustez contra backdoors está surgindo das capacidades de raciocínio desses LLMs avançados, bem como da separação arquitetônica entre o raciocínio e a geração da resposta final.