Artigos de pesquisa em IA selecionados diariamente com traduções
Disponibilizamos em código aberto os modelos MiMo-VL-7B-SFT e MiMo-VL-7B-RL, dois poderosos modelos de visão e linguagem que oferecem desempenho de ponta tanto em compreensão visual geral quanto em raciocínio multimodal. O MiMo-VL-7B-RL supera o Qwen2.5-VL-7B em 35 das 40 tarefas avaliadas e alcança 59,4 no OlympiadBench, superando modelos com até 78 bilhões de parâmetros. Para aplicações de fundamentação em interfaces gráficas, ele estabelece um novo padrão com 56,1 no OSWorld-G, superando até mesmo modelos especializados como o UI-TARS. Nosso treinamento combina pré-treinamento em quatro estágios (2,4 trilhões de tokens) com Aprendizado por Reforço Misto On-policy (MORL), integrando diversos sinais de recompensa. Identificamos a importância de incorporar dados de raciocínio de alta qualidade com longas cadeias de pensamento (Chain-of-Thought) nos estágios de pré-treinamento, bem como os benefícios do uso de reforço misto, apesar dos desafios na otimização simultânea em múltiplos domínios. Também contribuímos com uma suíte abrangente de avaliação que cobre mais de 50 tarefas para promover a reprodutibilidade e avançar o campo. Os checkpoints dos modelos e a suíte completa de avaliação estão disponíveis em https://github.com/XiaomiMiMo/MiMo-VL.
Inspirados pelas notáveis capacidades de raciocínio do Deepseek-R1 em tarefas textuais complexas, muitos trabalhos tentam incentivar habilidades semelhantes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) aplicando diretamente o aprendizado por reforço (RL). No entanto, eles ainda enfrentam dificuldades para ativar o raciocínio complexo. Neste artigo, em vez de examinar o RL multimodal de forma isolada, investigamos os pipelines de treinamento atuais e identificamos três fenômenos cruciais: 1) Uma inicialização eficaz de "cold start" é crítica para aprimorar o raciocínio dos MLLMs. Curiosamente, descobrimos que inicializar apenas com dados textuais cuidadosamente selecionados pode levar a um desempenho superior a muitos modelos recentes de raciocínio multimodal, mesmo antes do RL multimodal. 2) O GRPO padrão aplicado ao RL multimodal sofre de estagnação de gradiente, o que prejudica a estabilidade e o desempenho do treinamento. 3) O treinamento subsequente de RL apenas com texto, após a fase de RL multimodal, aprimora ainda mais o raciocínio multimodal. Essa abordagem de treinamento em etapas equilibra efetivamente o desenvolvimento do fundamento perceptivo e do raciocínio cognitivo. Ao incorporar as percepções acima e abordar os problemas do RL multimodal, introduzimos o ReVisual-R1, alcançando um novo estado da arte entre os MLLMs de 7B de código aberto em benchmarks desafiadores, incluindo MathVerse, MathVision, WeMath, LogicVista, DynaMath, e os desafiadores AIME2024 e AIME2025.
Como parte de um agente incorporado, os Modelos de Linguagem de Grande Escala (LLMs) são tipicamente utilizados para o planejamento de comportamentos com base em instruções em linguagem natural fornecidas pelo usuário. No entanto, lidar com instruções ambíguas em ambientes do mundo real continua sendo um desafio para os LLMs. Vários métodos para detecção de ambiguidade em tarefas foram propostos. Entretanto, é difícil compará-los, pois são testados em diferentes conjuntos de dados e não há um benchmark universal. Por esse motivo, propomos o AmbiK (Tarefas Ambíguas em Ambiente de Cozinha), um conjunto de dados totalmente textual de instruções ambíguas direcionadas a um robô em um ambiente de cozinha. O AmbiK foi coletado com a assistência de LLMs e é validado por humanos. Ele compreende 1000 pares de tarefas ambíguas e suas contrapartes inequívocas, categorizadas por tipo de ambiguidade (Preferências Humanas, Conhecimento de Senso Comum, Segurança), com descrições do ambiente, perguntas e respostas de esclarecimento, intenções do usuário e planos de tarefas, totalizando 2000 tarefas. Esperamos que o AmbiK permita que os pesquisadores realizem uma comparação unificada de métodos de detecção de ambiguidade. O AmbiK está disponível em https://github.com/cog-model/AmbiK-dataset.
Modelos de raciocínio têm feito progressos rápidos em muitos benchmarks envolvendo matemática, código e ciência. No entanto, ainda há muitas questões em aberto sobre as melhores abordagens de treinamento para raciocínio, já que os modelos de última geração frequentemente dependem de conjuntos de dados proprietários com pouca ou nenhuma informação pública disponível. Para abordar isso, o objetivo do projeto OpenThoughts é criar conjuntos de dados de código aberto para treinar modelos de raciocínio. Após explorações iniciais, nosso conjunto de dados OpenThoughts2-1M levou ao OpenThinker2-32B, o primeiro modelo treinado com dados públicos de raciocínio a igualar o desempenho do DeepSeek-R1-Distill-32B em benchmarks padrão de raciocínio, como AIME e LiveCodeBench. Em seguida, aprimoramos nosso conjunto de dados investigando sistematicamente cada etapa do nosso pipeline de geração de dados com mais de 1.000 experimentos controlados, o que resultou no OpenThoughts3. Escalonando o pipeline para 1,2 milhões de exemplos e usando o QwQ-32B como professor, obtivemos nosso modelo OpenThinker3-7B, que alcança resultados de última geração: 53% no AIME 2025, 51% no LiveCodeBench 06/24-01/25 e 54% no GPQA Diamond. Todos os nossos conjuntos de dados e modelos estão disponíveis em https://openthoughts.ai.
A geração de textos longos continua sendo um desafio significativo para grandes modelos de linguagem (LLMs), especialmente na manutenção da coerência, garantia da consistência lógica e preservação da qualidade do texto à medida que o comprimento da sequência aumenta. Para abordar essas limitações, propomos o SuperWriter-Agent, uma estrutura baseada em agentes projetada para aprimorar a qualidade e a consistência da geração de textos longos. O SuperWriter-Agent introduz etapas explícitas de pensamento estruturado, como planejamento e refinamento, no pipeline de geração, orientando o modelo a seguir um processo mais deliberado e cognitivamente fundamentado, semelhante ao de um escritor profissional. Com base nessa estrutura, construímos um conjunto de dados de ajuste fino supervisionado para treinar um SuperWriter-LM de 7B. Desenvolvemos ainda um procedimento hierárquico de Otimização de Preferência Direta (DPO) que utiliza a Busca em Árvore de Monte Carlo (MCTS) para propagar avaliações finais de qualidade e otimizar cada etapa de geração de acordo. Resultados empíricos em diversos benchmarks demonstram que o SuperWriter-LM alcança desempenho de ponta, superando até mesmo modelos de linha de base em maior escala, tanto em avaliações automáticas quanto em avaliações humanas. Além disso, estudos abrangentes de ablação demonstram a eficácia do DPO hierárquico e destacam o valor da incorporação de etapas de pensamento estruturado para melhorar a qualidade da geração de textos longos.
Os frameworks existentes para avaliar modelos de linguagem de contexto longo (LCLM) podem ser amplamente categorizados em tarefas do mundo real e tarefas sintéticas. Apesar de sua utilidade, ambas as abordagens são acompanhadas por certas limitações intrínsecas. As tarefas do mundo real são muito complexas para interpretar ou caracterizar e são suscetíveis à contaminação de dados. Em contraste, as tarefas sintéticas frequentemente adotam o formato "agulha no palheiro" (NIAH), onde a falta de coerência entre a "agulha" e o "palheiro" compromete sua validade como proxies para aplicações realistas. Em resposta a esses desafios, propomos que um framework ideal de avaliação de contexto longo deve ser caracterizado por três características essenciais: contexto contínuo, configuração controlável e avaliação sólida. Este estudo introduz o LongBioBench, um novo benchmark que utiliza biografias geradas artificialmente como um ambiente controlado para avaliar LCLMs nas dimensões de compreensão, raciocínio e confiabilidade. Nossa avaliação experimental, que inclui 18 LCLMs no total, demonstra que a maioria dos modelos ainda apresenta deficiências na compreensão semântica e no raciocínio elementar sobre os resultados recuperados e são menos confiáveis à medida que o comprimento do contexto aumenta. Nossa análise adicional indica que algumas escolhas de design empregadas por benchmarks sintéticos existentes, como a não coerência contextual, agulhas numéricas e a ausência de distratores, os tornam vulneráveis para testar as capacidades de contexto longo dos modelos. Além disso, também revelamos que o pré-treinamento contínuo de contexto longo ajusta principalmente a incorporação RoPE para acomodar comprimentos de contexto estendidos. Em resumo, comparado a benchmarks sintéticos anteriores, o LongBioBench alcança um melhor equilíbrio entre espelhar tarefas autênticas de linguagem e manter a controlabilidade, sendo altamente interpretável e configurável.
A estrutura sequencial dos vídeos representa um desafio para a capacidade dos modelos de linguagem multimodal de grande escala (MLLMs) de localizar evidências em múltiplos quadros e realizar raciocínio multimodal. No entanto, os benchmarks de vídeo existentes focam principalmente em tarefas de compreensão, que exigem apenas que os modelos correspondam aos quadros mencionados na pergunta (doravante denominados "quadro da pergunta") e percebam alguns quadros adjacentes. Para abordar essa lacuna, propomos o MMR-V: Um Benchmark para Raciocínio Profundo Multimodal em Vídeos. O benchmark é caracterizado pelas seguintes características. (1) Raciocínio de longo alcance e multi-quadro: Os modelos são obrigados a inferir e analisar quadros de evidência que podem estar distantes do quadro da pergunta. (2) Além da percepção: As perguntas não podem ser respondidas apenas por percepção direta, mas exigem raciocínio sobre informações ocultas. (3) Confiabilidade: Todas as tarefas são anotadas manualmente, com referência a um extenso entendimento do mundo real dos usuários para alinhar-se com percepções comuns. (4) Confusão: Estratégias de anotação de distratores cuidadosamente projetadas para reduzir atalhos dos modelos. O MMR-V consiste em 317 vídeos e 1.257 tarefas. Nossos experimentos revelam que os modelos atuais ainda lutam com o raciocínio multimodal; mesmo o modelo de melhor desempenho, o o4-mini, alcança apenas 52,5% de precisão. Além disso, as estratégias atuais de aprimoramento de raciocínio (Chain-of-Thought e escalonamento de computação em tempo de teste) trazem ganhos limitados. Uma análise adicional indica que o CoT exigido para o raciocínio multimodal difere daquele no raciocínio textual, o que explica parcialmente os ganhos limitados de desempenho. Esperamos que o MMR-V possa inspirar mais pesquisas para aprimorar as capacidades de raciocínio multimodal.
O desenvolvimento de grandes modelos de linguagem (LLMs) depende de avaliações confiáveis. No entanto, a maioria das avaliações atuais se baseia em benchmarks públicos, que são suscetíveis a problemas de contaminação de dados, comprometendo significativamente a justiça. Pesquisas anteriores focaram na construção de benchmarks dinâmicos para abordar a contaminação. Entretanto, a criação contínua de novos benchmarks é custosa e cíclica. Neste trabalho, buscamos enfrentar a contaminação analisando os mecanismos dos próprios modelos contaminados. Por meio de nossos experimentos, descobrimos que a superestimação dos modelos contaminados provavelmente ocorre porque os parâmetros adquirem soluções de atalho durante o treinamento. Propomos ainda um método inovador para identificar neurônios de atalho por meio de análises comparativas e causais. Com base nisso, introduzimos um método de avaliação chamado "shortcut neuron patching" para suprimir neurônios de atalho. Experimentos validam a eficácia de nossa abordagem na mitigação da contaminação. Além disso, nossos resultados de avaliação exibem uma forte correlação linear com o MixEval, um benchmark confiável recentemente lançado, alcançando um coeficiente de Spearman (rho) superior a 0,95. Essa alta correlação indica que nosso método revela de forma precisa as verdadeiras capacidades dos modelos e é confiável. Realizamos experimentos adicionais para demonstrar a generalizabilidade de nosso método em diversos benchmarks e configurações de hiperparâmetros. Código: https://github.com/GaryStack/Trustworthy-Evaluation
Aplicações do mundo real, como jogos de vídeo e realidade virtual, frequentemente exigem a capacidade de modelar cenas 3D que os usuários possam explorar ao longo de trajetórias de câmera personalizadas. Embora progressos significativos tenham sido feitos na geração de objetos 3D a partir de texto ou imagens, a criação de cenas 3D exploráveis, consistentes em longo alcance e tridimensionalmente coerentes, continua sendo um problema complexo e desafiador. Neste trabalho, apresentamos o Voyager, uma nova estrutura de difusão de vídeo que gera sequências de nuvens de pontos 3D consistentes com o mundo a partir de uma única imagem com um caminho de câmera definido pelo usuário. Diferente das abordagens existentes, o Voyager alcança a geração e reconstrução de cenas de ponta a ponta com consistência intrínseca entre os quadros, eliminando a necessidade de pipelines de reconstrução 3D (por exemplo, estrutura a partir do movimento ou estereoscopia multivista). Nosso método integra três componentes principais: 1) Difusão de Vídeo Consistente com o Mundo: Uma arquitetura unificada que gera conjuntamente sequências de vídeo RGB e de profundidade alinhadas, condicionadas à observação do mundo existente para garantir coerência global; 2) Exploração de Mundo em Longo Alcance: Um cache de mundo eficiente com eliminação de pontos e uma inferência autorregressiva com amostragem suave de vídeo para extensão iterativa da cena com consistência contextual; e 3) Motor de Dados Escalável: Um pipeline de reconstrução de vídeo que automatiza a estimativa de pose da câmera e a previsão de profundidade métrica para vídeos arbitrários, permitindo a curadoria de dados de treinamento em grande escala e diversificada sem anotações 3D manuais. Coletivamente, esses designs resultam em uma melhoria clara em relação aos métodos existentes em qualidade visual e precisão geométrica, com aplicações versáteis.
Embora os modelos de difusão tenham alcançado sucesso notável na geração de imagens a partir de texto, eles enfrentam desafios significativos na edição de imagens orientada por instruções. Nossa pesquisa destaca um desafio crucial: esses modelos têm dificuldade particular com edições estruturalmente inconsistentes que envolvem mudanças substanciais no layout. Para mitigar essa lacuna, introduzimos o Image Editing As Programs (IEAP), um framework unificado de edição de imagens baseado na arquitetura Diffusion Transformer (DiT). No cerne do IEAP, a edição instrucional é abordada por uma perspectiva reducionista, decompondo instruções complexas de edição em sequências de operações atômicas. Cada operação é implementada por meio de um adaptador leve que compartilha o mesmo backbone DiT e é especializado para um tipo específico de edição. Programadas por um agente baseado em um modelo de visão e linguagem (VLM), essas operações colaboram para suportar transformações arbitrárias e estruturalmente inconsistentes. Ao modularizar e sequenciar as edições dessa forma, o IEAP generaliza de maneira robusta em uma ampla gama de tarefas de edição, desde ajustes simples até mudanças estruturais substanciais. Experimentos extensivos demonstram que o IEAP supera significativamente os métodos state-of-the-art em benchmarks padrão em diversos cenários de edição. Nessas avaliações, nosso framework oferece precisão superior e fidelidade semântica, especialmente para instruções complexas e de múltiplos passos. Os códigos estão disponíveis em https://github.com/YujiaHu1109/IEAP.
Grandes modelos de linguagem (LLMs) frequentemente enfrentam dificuldades em tarefas de visualização, como a plotagem de diagramas e gráficos, onde o sucesso depende tanto da correção do código quanto da semântica visual. Os conjuntos de dados existentes para ajuste de instruções carecem de supervisão baseada em execução e oferecem suporte limitado para correção iterativa de código, resultando em geração de gráficos frágeis e pouco confiáveis. Apresentamos o VisCode-200K, um conjunto de dados em grande escala para ajuste de instruções em visualização baseada em Python e autocorreção. Ele contém mais de 200 mil exemplos de duas fontes: (1) código de plotagem validado de repositórios de código aberto, emparelhado com instruções em linguagem natural e gráficos renderizados; e (2) 45 mil diálogos de correção multi-turn do Code-Feedback, permitindo que os modelos revisem códigos defeituosos usando feedback de execução. Ajustamos o Qwen2.5-Coder-Instruct no VisCode-200K para criar o VisCoder e o avaliamos no PandasPlotBench. O VisCoder supera significativamente os fortes modelos de código aberto de referência e se aproxima do desempenho de modelos proprietários como o GPT-4o-mini. Além disso, adotamos um protocolo de auto-depuração para avaliar a correção iterativa, demonstrando os benefícios do aprendizado baseado em feedback para a geração de código executável e visualmente preciso.
Embora os modelos baseados em difusão possam gerar sequências de vídeo de alta qualidade e alta resolução a partir de entradas textuais ou de imagem, eles carecem de integração explícita de pistas geométricas ao controlar a iluminação da cena e a aparência visual entre os quadros. Para abordar essa limitação, propomos o IllumiCraft, uma estrutura de difusão de ponta a ponta que aceita três entradas complementares: (1) mapas de vídeo de alta faixa dinâmica (HDR) para controle detalhado da iluminação; (2) quadros sinteticamente reiluminados com alterações aleatórias de iluminação (opcionalmente emparelhados com uma imagem de referência de fundo estático) para fornecer pistas de aparência; e (3) trilhas de pontos 3D que capturam informações precisas de geometria 3D. Ao integrar as pistas de iluminação, aparência e geometria em uma arquitetura de difusão unificada, o IllumiCraft gera vídeos temporalmente coerentes alinhados com prompts definidos pelo usuário. Ele suporta reiluminação de vídeo condicionada ao fundo e ao texto, oferecendo melhor fidelidade do que os métodos existentes de geração de vídeo controlável. Página do Projeto: https://yuanze-lin.me/IllumiCraft_page
Testemunhamos que modelos de linguagem robustos (LLMs) como Qwen-Math, MiMo e Phi-4 possuem um imenso potencial de raciocínio herdado da etapa de pré-treinamento. Com o aprendizado por reforço (RL), esses modelos podem melhorar drasticamente em tarefas de raciocínio. Estudos recentes mostraram que até mesmo o RL em um único problema pode liberar as capacidades de raciocínio desses modelos. No entanto, o RL não é apenas caro, mas também instável. Mesmo o RL de uma única execução requer centenas de horas de GPU. Isso levanta uma questão crítica: Existe uma maneira mais eficiente de liberar o potencial de raciocínio desses LLMs base poderosos? Neste trabalho, demonstramos que o Fine-Tuning com Crítica (CFT) em apenas um problema pode efetivamente liberar o potencial de raciocínio dos LLMs. Nosso método constrói dados de crítica coletando soluções diversas geradas por modelos para um único problema e usando LLMs professores para fornecer críticas detalhadas. Ajustamos finamente modelos das famílias Qwen e Llama, variando de 1,5B a 14B parâmetros, nos dados de CFT e observamos ganhos significativos de desempenho em diversas tarefas de raciocínio. Por exemplo, com apenas 5 horas de treinamento em GPU, o Qwen-Math-7B-CFT mostrou uma melhoria média de 15% em seis benchmarks de matemática e 16% em três benchmarks de raciocínio lógico. Esses resultados são comparáveis ou até superam os resultados do RL com 20 vezes menos computação. Estudos de ablação revelam a robustez do CFT de uma única execução em diferentes problemas de prompt. Esses resultados destacam o CFT de uma única execução como uma abordagem simples, geral e computacionalmente eficiente para liberar as capacidades de raciocínio dos LLMs modernos.
Apresentamos o Psi-Sampler, uma estrutura baseada em SMC que incorpora amostragem inicial de partículas baseada em pCNL para alinhamento eficaz de recompensas durante a inferência com um modelo generativo baseado em pontuação. O alinhamento de recompensas durante a inferência com modelos generativos baseados em pontuação tem ganhado tração significativa recentemente, seguindo uma mudança de paradigma mais ampla da otimização pré-treinamento para pós-treinamento. No centro dessa tendência está a aplicação do Método de Monte Carlo Sequencial (SMC) ao processo de remoção de ruído. No entanto, os métodos existentes normalmente inicializam as partículas a partir de uma distribuição gaussiana prévia, que não captura adequadamente as regiões relevantes para a recompensa e resulta em eficiência reduzida de amostragem. Demonstramos que a inicialização a partir da posteriori consciente da recompensa melhora significativamente o desempenho do alinhamento. Para permitir a amostragem da posteriori em espaços latentes de alta dimensionalidade, introduzimos o algoritmo de Langevin de Crank-Nicolson pré-condicionado (pCNL), que combina propostas robustas à dimensionalidade com dinâmicas informadas por gradiente. Essa abordagem permite uma amostragem posteriori eficiente e escalável e melhora consistentemente o desempenho em várias tarefas de alinhamento de recompensas, incluindo geração de layout para imagem, geração consciente de quantidade e geração de preferências estéticas, conforme demonstrado em nossos experimentos.
Modelos de Linguagem de Grande Escala (LLMs) e LLMs Multimodais têm demonstrado capacidades promissoras para o processamento de SVG, mas os benchmarks existentes sofrem com cobertura limitada do mundo real, falta de estratificação de complexidade e paradigmas de avaliação fragmentados. Apresentamos o SVGenius, um benchmark abrangente que compreende 2.377 consultas em três dimensões progressivas: compreensão, edição e geração. Construído com base em dados do mundo real de 24 domínios de aplicação com estratificação sistemática de complexidade, o SVGenius avalia modelos por meio de 8 categorias de tarefas e 18 métricas. Avaliamos 22 modelos principais que abrangem diferentes escalas, arquiteturas, paradigmas de treinamento e níveis de acessibilidade. Nossa análise revela que, embora os modelos proprietários superem significativamente suas contrapartes de código aberto, todos os modelos exibem degradação sistemática de desempenho com o aumento da complexidade, indicando limitações fundamentais nas abordagens atuais; no entanto, o treinamento aprimorado por raciocínio prova-se mais eficaz do que o simples escalonamento para superar essas limitações, embora a transferência de estilo continue sendo a capacidade mais desafiadora em todos os tipos de modelos. O SVGenius estabelece o primeiro framework de avaliação sistemática para o processamento de SVG, fornecendo insights cruciais para o desenvolvimento de modelos de gráficos vetoriais mais capazes e o avanço de aplicações automatizadas de design gráfico. O apêndice e materiais suplementares (incluindo todos os dados e códigos) estão disponíveis em https://zju-real.github.io/SVGenius.
Apresentamos o LayerFlow, uma solução unificada para geração de vídeos com consciência de camadas. Dados prompts por camada, o LayerFlow gera vídeos para o primeiro plano transparente, o fundo limpo e a cena mesclada. Ele também suporta variantes versáteis, como decompor um vídeo mesclado ou gerar o fundo para um primeiro plano dado e vice-versa. Partindo de um transformador de difusão de texto para vídeo, organizamos os vídeos para diferentes camadas como sub-clipes e utilizamos embeddings de camada para distinguir cada clipe e os prompts correspondentes por camada. Dessa forma, suportamos de maneira contínua as variantes mencionadas em um único framework unificado. Para suprir a falta de vídeos de treinamento de alta qualidade com camadas, projetamos uma estratégia de treinamento em múltiplos estágios para acomodar imagens estáticas com anotações de camada de alta qualidade. Especificamente, primeiro treinamos o modelo com dados de vídeo de baixa qualidade. Em seguida, ajustamos um LoRA de movimento para tornar o modelo compatível com quadros estáticos. Posteriormente, treinamos o LoRA de conteúdo em uma mistura de dados de imagem com imagens em camadas de alta qualidade juntamente com dados de vídeo copiados e colados. Durante a inferência, removemos o LoRA de movimento, gerando assim vídeos suaves com as camadas desejadas.
O Direct Preference Optimization (DPO) foi recentemente aplicado como uma técnica pós-treinamento para modelos de difusão de texto para vídeo. Para obter dados de treinamento, os anotadores são solicitados a fornecer preferências entre dois vídeos gerados a partir de ruídos independentes. No entanto, essa abordagem impede comparações refinadas, e destacamos que ela tende a favorecer clipes com pouco movimento, pois esses geralmente contêm menos artefatos visuais. Neste trabalho, apresentamos o DenseDPO, um método que aborda essas limitações com três contribuições principais. Primeiro, criamos cada par de vídeos para o DPO ao desnaturar cópias corrompidas de um vídeo de referência. Isso resulta em pares alinhados com estruturas de movimento semelhantes, mas com diferenças em detalhes locais, neutralizando efetivamente o viés de movimento. Segundo, aproveitamos o alinhamento temporal resultante para rotular preferências em segmentos curtos em vez de clipes inteiros, gerando um sinal de aprendizado mais denso e preciso. Com apenas um terço dos dados rotulados, o DenseDPO melhora significativamente a geração de movimento em comparação com o DPO tradicional, enquanto mantém a mesma qualidade em alinhamento de texto, qualidade visual e consistência temporal. Por fim, demonstramos que o DenseDPO permite a anotação automática de preferências usando modelos de linguagem visual (VLMs) prontos para uso: o GPT prevê com precisão preferências em nível de segmento, semelhante a modelos de recompensa de vídeo ajustados especificamente para a tarefa, e o DenseDPO treinado com essas anotações alcança desempenho próximo ao uso de rótulos humanos.
Recentemente, os Modelos de Linguagem de Grande Escala (LLMs) têm feito progressos significativos em domínios relacionados ao QI que exigem pensamento cuidadoso, como matemática e programação. No entanto, o aprimoramento do desenvolvimento cognitivo dos LLMs em domínios sociais, particularmente de uma perspectiva pós-treinamento, ainda é pouco explorado. Reconhecendo que o mundo social segue uma linha do tempo distinta e requer uma mistura mais rica de modos cognitivos (desde reações intuitivas (Sistema 1) e pensamento superficial até pensamento deliberado (Sistema 2)) do que a matemática, que depende principalmente da cognição do Sistema 2 (raciocínio cuidadoso e passo a passo), introduzimos o Aprendizado por Reforço Cognitivo Hierárquico com Consciência Temporal (TimeHC-RL) para aprimorar a inteligência social dos LLMs. Em nossos experimentos, exploramos sistematicamente a melhoria da inteligência social dos LLMs e validamos a eficácia do método TimeHC-RL, por meio de cinco outros paradigmas de pós-treinamento e dois paradigmas de intervenção em tempo de teste em oito conjuntos de dados com padrões de dados diversos. Os resultados experimentais revelam a superioridade do nosso método TimeHC-RL proposto em comparação com o amplamente adotado método de Reforço do Sistema 2. Ele dá asas ao modelo base de 7B, permitindo que ele rivalize com o desempenho de modelos avançados como DeepSeek-R1 e OpenAI-O3. Além disso, a exploração sistemática das perspectivas de pós-treinamento e intervenções em tempo de teste para melhorar a inteligência social dos LLMs revelou várias percepções valiosas.
A geração eficiente de sequências longas é um desafio crítico para Modelos de Linguagem de Grande Escala. Embora métodos recentes de decodificação esparsa melhorem a eficiência, eles sofrem com o desalinhamento do cache KV, onde erros de aproximação se acumulam e degradam a qualidade da geração. Neste trabalho, propomos a Atenção Esparsa Retificada (ReSA), um método simples, porém eficaz, que combina atenção esparsa em blocos com retificação densa periódica. Ao atualizar o cache KV em intervalos fixos usando uma passagem direta densa, a ReSA limita o acúmulo de erros e preserva o alinhamento com a distribuição de pré-treinamento. Experimentos em tarefas de raciocínio matemático, modelagem de linguagem e recuperação demonstram que a ReSA alcança qualidade de geração quase sem perdas com eficiência significativamente melhorada. Notavelmente, a ReSA oferece um aumento de velocidade de até 2,42 vezes de ponta a ponta na decodificação de sequências de 256K de comprimento, tornando-a uma solução prática para inferência escalável de contexto longo. O código está disponível em https://aka.ms/ReSA-LM.
Agentes de Modelos de Linguagem de Grande Escala (LLM) estão transformando a indústria de jogos, especialmente com personagens de jogos mais inteligentes e preferíveis para humanos. No entanto, os benchmarks de jogos existentes não atendem às necessidades práticas: eles carecem de avaliações das diversas capacidades dos LLMs em vários gêneros de jogos, estudos de módulos agentes cruciais para jogabilidade complexa e conjuntos de dados de ajuste fino para alinhar LLMs pré-treinados em agentes de jogos. Para preencher essas lacunas, apresentamos \benchname{}, um benchmark fundamental projetado para treinar e avaliar agentes LLMs em diversos jogos de vídeo do mundo real. Diferente dos benchmarks existentes, Orak inclui 12 jogos de vídeo populares abrangendo todos os principais gêneros, permitindo estudos abrangentes das capacidades dos LLMs e dos módulos agentes essenciais para cenários de jogos intrincados. Para apoiar uma avaliação consistente dos LLMs, introduzimos uma interface plug-and-play baseada no Protocolo de Contexto de Modelo (MCP) que permite que os LLMs se conectem perfeitamente com os jogos e manipulem módulos agentes. Além disso, propomos um conjunto de dados de ajuste fino, composto por trajetórias de jogabilidade de LLMs em diversos gêneros de jogos. Orak oferece uma estrutura de avaliação abrangente, englobando tabelas de classificação gerais de pontuação de jogos, arenas de batalha de LLMs e análises aprofundadas do estado de entrada visual, estratégias agentes e efeitos de ajuste fino, estabelecendo uma base para a construção de agentes de jogos genéricos. O código está disponível em https://github.com/krafton-ai/Orak.
Neste artigo, apresentamos o TalkingMachines -- um framework eficiente que transforma modelos pré-treinados de geração de vídeo em animadores de personagens em tempo real e impulsionados por áudio. O TalkingMachines possibilita experiências conversacionais naturais ao integrar um modelo de linguagem de grande escala (LLM) de áudio com nosso modelo base de geração de vídeo. Nossas principais contribuições incluem: (1) Adaptamos um DiT (Diffusion Transformer) de última geração pré-treinado para geração de imagens em vídeo em um modelo de geração de avatares impulsionado por áudio com 18 bilhões de parâmetros; (2) Habilitamos o streaming infinito de vídeo sem acumulação de erros por meio de destilação assimétrica de conhecimento de um modelo professor bidirecional para um modelo estudante causal esparso e autorregressivo; (3) Projetamos um pipeline de inferência de alta taxa de transferência e baixa latência, incorporando várias otimizações de engenharia essenciais, como: (a) desagregação do DiT e do decodificador VAE em dispositivos separados, (b) sobreposição eficiente de comunicação e computação entre dispositivos usando CUDA streams, (c) eliminação de recomputações redundantes para maximizar a taxa de geração de quadros. Confira os vídeos de demonstração aqui - https://aaxwaz.github.io/TalkingMachines/
Estudos recentes mostram que modelos de linguagem de grande escala (LLMs) exibem viés de autopreferência ao atuarem como juízes, o que significa que tendem a favorecer suas próprias respostas em relação às geradas por outros modelos. Os métodos existentes geralmente medem esse viés calculando a diferença entre as pontuações que um modelo juiz atribui às suas próprias respostas e aquelas que atribui às respostas de outros modelos. No entanto, essa abordagem confunde o viés de autopreferência com a qualidade das respostas, já que respostas de maior qualidade do modelo juiz também podem levar a diferenças positivas nas pontuações, mesmo na ausência de viés. Para resolver esse problema, introduzimos julgamentos de ouro como proxies para a qualidade real das respostas e propomos a pontuação DBG, que mede o viés de autopreferência como a diferença entre as pontuações atribuídas pelo modelo juiz às suas próprias respostas e os julgamentos de ouro correspondentes. Como os julgamentos de ouro refletem a verdadeira qualidade das respostas, a pontuação DBG mitiga o efeito de confusão da qualidade das respostas na medição do viés. Utilizando a pontuação DBG, realizamos experimentos abrangentes para avaliar o viés de autopreferência em LLMs de diferentes versões, tamanhos e habilidades de raciocínio. Além disso, investigamos dois fatores que influenciam e ajudam a aliviar o viés de autopreferência: o estilo do texto das respostas e os dados de pós-treinamento dos modelos juízes. Por fim, exploramos possíveis mecanismos subjacentes ao viés de autopreferência a partir de uma perspectiva baseada em atenção. Nosso código e dados estão disponíveis em https://github.com/zhiyuanc2001/self-preference.
À medida que os modelos de linguagem de grande escala (LLMs) continuam a avançar, a necessidade de benchmarks atualizados e bem organizados torna-se cada vez mais crítica. No entanto, muitos conjuntos de dados existentes estão dispersos, são difíceis de gerenciar e tornam desafiador realizar avaliações adaptadas a necessidades ou domínios específicos, apesar da crescente importância de modelos específicos para áreas como matemática ou código. Neste artigo, apresentamos o BenchHub, um repositório dinâmico de benchmarks que capacita pesquisadores e desenvolvedores a avaliar LLMs de forma mais eficaz. O BenchHub agrega e classifica automaticamente conjuntos de dados de benchmarks de diversos domínios, integrando 303 mil questões em 38 benchmarks. Ele foi projetado para suportar atualizações contínuas e gerenciamento escalável de dados, permitindo avaliações flexíveis e personalizadas adaptadas a vários domínios ou casos de uso. Por meio de extensos experimentos com diversas famílias de LLMs, demonstramos que o desempenho dos modelos varia significativamente entre subconjuntos específicos de domínios, destacando a importância de benchmarks conscientes do domínio. Acreditamos que o BenchHub pode incentivar uma melhor reutilização de conjuntos de dados, comparações mais transparentes de modelos e uma identificação mais fácil de áreas sub-representadas nos benchmarks existentes, oferecendo uma infraestrutura crítica para o avanço da pesquisa em avaliação de LLMs.
Avanços recentes na inteligência artificial generativa transformaram significativamente o campo da síntese de texto para fala com legendas de estilo (CapTTS). No entanto, a adaptação do CapTTS para aplicações do mundo real continua desafiadora devido à falta de conjuntos de dados padronizados e abrangentes e à pesquisa limitada sobre tarefas subsequentes baseadas no CapTTS. Para abordar essas lacunas, apresentamos o CapSpeech, um novo benchmark projetado para uma série de tarefas relacionadas ao CapTTS, incluindo síntese de texto para fala com legendas de estilo e eventos sonoros (CapTTS-SE), TTS com legendas de sotaque (AccCapTTS), TTS com legendas de emoção (EmoCapTTS) e síntese de texto para fala para agentes de chat (AgentTTS). O CapSpeech compreende mais de 10 milhões de pares áudio-legenda anotados por máquina e quase 0,36 milhão de pares áudio-legenda anotados por humanos. Além disso, introduzimos dois novos conjuntos de dados coletados e gravados por um dublador profissional e engenheiros de áudio experientes, especificamente para as tarefas de AgentTTS e CapTTS-SE. Juntamente com os conjuntos de dados, realizamos experimentos abrangentes usando modelos autoregressivos e não autoregressivos no CapSpeech. Nossos resultados demonstram síntese de fala de alta fidelidade e altamente inteligível em uma ampla variedade de estilos de fala. Até onde sabemos, o CapSpeech é o maior conjunto de dados disponível que oferece anotações abrangentes para tarefas relacionadas ao CapTTS. Os experimentos e descobertas fornecem ainda insights valiosos sobre os desafios no desenvolvimento de sistemas CapTTS.
Os modelos de difusão têm recentemente motivado grande sucesso em muitas tarefas de geração, como a remoção de objetos. No entanto, os métodos existentes de decomposição de imagens lutam para separar oclusões de camadas semi-transparentes ou transparentes devido a dependências de máscaras prévias, suposições estáticas de objetos e a falta de conjuntos de dados. Neste artigo, exploramos uma nova tarefa: a Decomposição Camada a Camada de Imagens Alpha-Compostas, visando recuperar camadas constituintes a partir de imagens sobrepostas únicas sob a condição de oclusão não linear de camadas alpha semi-transparentes/transparentes. Para abordar os desafios de ambiguidade de camadas, generalização e escassez de dados, primeiro introduzimos o AlphaBlend, o primeiro conjunto de dados em larga escala e de alta qualidade para decomposição de camadas transparentes e semi-transparentes, suportando seis subtarefas do mundo real (por exemplo, remoção de flare translúcido, decomposição de células semi-transparentes, decomposição de vidrarias). Com base nesse conjunto de dados, apresentamos o DiffDecompose, um framework baseado em Transformers de difusão que aprende a posteriori sobre possíveis decomposições de camadas condicionadas à imagem de entrada, prompts semânticos e tipo de mesclagem. Em vez de regredir diretamente os mattes alpha, o DiffDecompose realiza a Decomposição em Contexto, permitindo que o modelo preveja uma ou múltiplas camadas sem supervisão por camada, e introduz a Clonagem de Codificação de Posição de Camada para manter a correspondência em nível de pixel entre as camadas. Experimentos extensivos no conjunto de dados AlphaBlend proposto e no conjunto de dados público LOGO verificam a eficácia do DiffDecompose. O código e o conjunto de dados estarão disponíveis após a aceitação do artigo. Nosso código estará disponível em: https://github.com/Wangzt1121/DiffDecompose.
A decodificação especulativa acelera a inferência de modelos de linguagem de grande escala (LLMs) ao utilizar um modelo rascunho pequeno para prever múltiplos tokens e um modelo alvo grande para verificar esses tokens em paralelo. Estudos recentes aproveitam o estado oculto do modelo alvo para melhorar a precisão das previsões do modelo rascunho. No entanto, os métodos existentes sofrem com a degradação da qualidade das previsões de tokens rascunho em posições posteriores, devido ao acúmulo de erros nas características geradas pelo modelo rascunho. Neste artigo, propomos Especialistas de Posição (PosS), que consistem em múltiplas camadas rascunho especializadas por posição para gerar tokens em posições designadas. Os especialistas de posição melhoram significativamente a taxa de aceitação de tokens em posições posteriores por rodada de rascunho, pois cada especialista precisa se concentrar apenas em lidar com um certo nível de desvio das características do modelo rascunho. Resultados experimentais em Llama-3-8B-Instruct e Llama-2-13B-chat em seis conjuntos de dados demonstram que o PosS melhora efetivamente as linhas de base em relação ao comprimento médio de aceitação e à taxa de aceleração. Nossa base de código está disponível em https://github.com/shrango/PosS.
Avanços recentes no raciocínio em Cadeia de Pensamento (Chain-of-Thought, CoT) têm aprimorado a compreensão complexa de vídeos, mas os métodos existentes frequentemente enfrentam dificuldades para se adaptar a habilidades específicas de domínio (por exemplo, detecção de eventos, compreensão de relações espaciais, compreensão de emoções) em diversos conteúdos de vídeo. Para abordar isso, propomos o Video-Skill-CoT (também conhecido como Video-SKoT), um framework que constrói e utiliza automaticamente supervisões de CoT conscientes de habilidades para o raciocínio adaptativo em vídeos. Primeiro, construímos anotações de CoT baseadas em habilidades: extraímos habilidades de raciocínio relevantes ao domínio a partir de perguntas de treinamento, agrupamo-las em uma taxonomia de habilidades compartilhada e criamos uma racionalização detalhada de CoT em múltiplos passos, personalizada para cada par vídeo-pergunta, para treinamento. Segundo, introduzimos um framework de aprendizado especializado em habilidades. Cada módulo especializado foca em um subconjunto de habilidades de raciocínio e é treinado com adaptadores leves usando a supervisão de CoT coletada. Demonstramos a eficácia da abordagem proposta em três benchmarks de compreensão de vídeo, onde o Video-SKoT supera consistentemente as linhas de base fortes. Também fornecemos análises detalhadas comparando diferentes pipelines de anotação de CoT e habilidades aprendidas em múltiplos domínios de vídeo.
Ataques de entrada adversariais podem causar uma mudança significativa nos embeddings do CLIP. Isso pode afetar a robustez de modelos subsequentes que incorporam o CLIP no pipeline, como modelos generativos de texto para imagem ou grandes modelos de linguagem visual. Embora alguns esforços tenham sido feitos para tornar os codificadores de imagem do CLIP robustos, a robustez dos codificadores de texto permanece inexplorada. Neste trabalho, cobrimos essa lacuna na literatura. Propomos o LEAF: um método eficiente de ajuste fino adversarial para o domínio do texto, com a capacidade de escalar para grandes modelos CLIP. Nossos modelos melhoram significativamente a precisão adversarial zero-shot no domínio do texto, mantendo o desempenho visual fornecido por codificadores de imagem robustos. Quando combinados com modelos de difusão de texto para imagem, podemos melhorar a qualidade da geração sob ruído adversarial. Ao empregar nossos codificadores CLIP robustos em tarefas de recuperação multimodal, melhoramos a taxa de recall sob ruído adversarial em comparação com modelos CLIP padrão. Por fim, mostramos que codificadores de texto robustos facilitam uma melhor reconstrução do texto de entrada a partir de seu embedding via otimização direta.
Avanços recentes no aprendizado por reforço (RL) com feedback numérico, como recompensas escalares, têm aprimorado significativamente as capacidades de raciocínio complexo de grandes modelos de linguagem (LLMs). Apesar desse sucesso, identificamos três desafios principais enfrentados pelo RL com feedback exclusivamente numérico: platôs de desempenho, eficácia limitada da autorreflexão e falhas persistentes. Em seguida, demonstramos que modelos ajustados por RL, mesmo após exibirem platôs de desempenho, podem gerar refinamentos corretos em problemas com falhas persistentes ao aproveitar feedback em linguagem natural na forma de críticas. Com base nessa percepção, propomos o Critique-GRPO, um framework de RL online que integra tanto feedback em linguagem natural quanto numérico para otimização eficaz de políticas. O Critique-GRPO permite que LLMs aprendam com respostas iniciais e refinamentos guiados por críticas simultaneamente, mantendo a exploração. Experimentos extensivos utilizando Qwen2.5-7B-Base e Qwen3-8B-Base mostram que o Critique-GRPO supera consistentemente abordagens de ajuste fino baseadas em aprendizado supervisionado e RL em oito tarefas desafiadoras de matemática, STEM e raciocínio geral, melhorando as pontuações médias pass@1 em aproximadamente 4,5% e 5%, respectivamente. Notavelmente, o Critique-GRPO supera uma linha de base forte que incorpora demonstrações de especialistas dentro do RL online. Análises adicionais revelam dois insights críticos sobre a exploração de políticas: (1) entropia mais alta nem sempre garante aprendizado eficiente por meio da exploração, e (2) respostas mais longas não necessariamente levam a uma exploração mais eficaz.
Grandes modelos de base treinados em extensos conjuntos de dados demonstram capacidades robustas de zero-shot em diversos domínios. Para replicar seu sucesso quando os dados e o tamanho do modelo são limitados, a destilação de conhecimento tornou-se uma ferramenta estabelecida para transferir conhecimento de modelos de base para pequenas redes estudante. No entanto, a eficácia da destilação é criticamente limitada pelos dados de treinamento disponíveis. Este trabalho aborda a questão prática comum de deslocamento de covariáveis na destilação de conhecimento, onde características espúrias aparecem durante o treinamento, mas não no momento do teste. Colocamos a questão: quando essas características espúrias são desconhecidas, mas um professor robusto está disponível, é possível que um estudante também se torne robusto a elas? Abordamos esse problema introduzindo uma nova estratégia de aumento de dados baseada em difusão que gera imagens maximizando a discordância entre o professor e o estudante, criando efetivamente amostras desafiadoras com as quais o estudante tem dificuldade. Experimentos demonstram que nossa abordagem melhora significativamente a precisão do pior grupo e do grupo médio no CelebA e SpuCo Birds, bem como o mAUC espúrio no ImageNet espúrio sob deslocamento de covariáveis, superando as abordagens de aumento de dados baseadas em difusão mais avançadas.
O Aprendizado Contínuo (CL, do inglês Continual Learning) visa capacitar redes neurais a adquirir novos conhecimentos de forma incremental (plasticidade) enquanto mantêm o conhecimento existente (estabilidade). Embora modelos pré-treinados (PTMs, do inglês Pre-trained Models) tenham se tornado fundamentais no CL, as abordagens predominantes congelam o backbone do PTM para preservar a estabilidade, limitando sua plasticidade, especialmente ao enfrentar lacunas significativas de domínio em tarefas incrementais. Por outro lado, ajustar sequencialmente todo o PTM corre o risco de causar esquecimento catastrófico de conhecimentos generalizáveis, expondo um crítico trade-off entre estabilidade e plasticidade. Para enfrentar esse desafio, propomos o Ajuste de PTMs antes do processo central de CL (ACL, do inglês Adapting PTMs before the core CL process), um novo framework que refina o backbone do PTM por meio de uma fase de adaptação plug-and-play antes de aprender cada nova tarefa com abordagens de CL existentes (por exemplo, ajuste de prompts). O ACL aprimora a plasticidade ao alinhar embeddings com seus protótipos de classe originais, enquanto os distancia de outros, mostrando-se teórica e empiricamente eficaz para equilibrar estabilidade e plasticidade. Experimentos extensivos demonstram que o ACL melhora significativamente o desempenho do CL em benchmarks e métodos integrados, oferecendo uma solução versátil para CL baseado em PTMs.
LLM-as-a-judge é um framework no qual um modelo de linguagem de grande escala (LLM) avalia automaticamente a saída de outro LLM. Propomos juízes quantitativos de LLM, que alinham as pontuações de avaliação de juízes de LLM existentes às pontuações humanas em um determinado domínio, utilizando modelos de regressão. Esses modelos são treinados para melhorar a pontuação do juiz original, utilizando a avaliação textual e a pontuação do juiz. Apresentamos quatro juízes quantitativos para diferentes tipos de feedback absoluto e relativo, demonstrando a generalidade e versatilidade do nosso framework. Nosso framework é mais eficiente computacionalmente do que o ajuste fino supervisionado e pode ser mais eficiente estatisticamente quando o feedback humano é limitado, o que é esperado na maioria das aplicações do nosso trabalho. Validamos essas afirmações empiricamente em quatro conjuntos de dados, utilizando dois juízes base. Nossos experimentos mostram que os juízes quantitativos podem efetivamente melhorar o poder preditivo de juízes existentes por meio de modelagem pós-hoc.
A descoberta de materiais supercondutores de alta temperatura possui grande importância para a indústria e a vida cotidiana humana. Nos últimos anos, pesquisas sobre a previsão de temperaturas de transição supercondutora utilizando inteligência artificial (IA) ganharam popularidade, com a maioria dessas ferramentas alegando alcançar precisão notável. No entanto, a falta de conjuntos de dados de referência amplamente aceitos nesse campo tem dificultado severamente comparações justas entre diferentes algoritmos de IA e impedido o avanço desses métodos. Neste trabalho, apresentamos o HTSC-2025, um conjunto de dados de referência para supercondutores de alta temperatura em pressão ambiente. Esta compilação abrangente engloba materiais supercondutores previstos teoricamente por físicos teóricos entre 2023 e 2025 com base na teoria da supercondutividade BCS, incluindo o renomado sistema X_2YH_6, o sistema perovskita MXH_3, o sistema M_3XH_8, sistemas atômicos metálicos dopados com BCN em estrutura de gaiola derivados da evolução estrutural do LaH_{10}, e sistemas bidimensionais com estrutura hexagonal derivados do MgB_2. O benchmark HTSC-2025 foi disponibilizado como código aberto em https://github.com/xqh19970407/HTSC-2025 e será continuamente atualizado. Este benchmark possui importância significativa para acelerar a descoberta de materiais supercondutores utilizando métodos baseados em IA.
Apesar dos avanços recentes em inversão e edição de imagens baseada em instruções, as abordagens existentes se destacam principalmente na edição de objetos únicos e proeminentes, mas enfrentam dificuldades significativas quando aplicadas a cenas complexas contendo múltiplas entidades. Para quantificar essa lacuna, primeiro introduzimos o RefEdit-Bench, um rigoroso benchmark do mundo real baseado no RefCOCO, onde até mesmo modelos de base treinados com milhões de amostras têm desempenho ruim. Para superar essa limitação, apresentamos o RefEdit — um modelo de edição baseado em instruções treinado em nosso pipeline escalável de geração de dados sintéticos. Nosso RefEdit, treinado com apenas 20.000 triplas de edição, supera os modelos de base baseados em Flux/SD3 treinados com milhões de dados. Avaliações extensas em vários benchmarks demonstram que nosso modelo não apenas se destaca em tarefas de expressão referencial, mas também melhora o desempenho em benchmarks tradicionais, alcançando resultados de ponta comparáveis a métodos de código fechado. Disponibilizamos dados e checkpoints para garantir a reprodutibilidade.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) são frequentemente elogiados por exibir desempenho quase humano em uma ampla gama de tarefas e valorizados por sua capacidade de manter uma conversa geral. No entanto, o surgimento de sistemas de IA agentes está introduzindo uma série de aplicações em que os modelos de linguagem executam um pequeno número de tarefas especializadas de forma repetitiva e com pouca variação. Aqui, defendemos a posição de que os pequenos modelos de linguagem (SLMs, na sigla em inglês) são suficientemente poderosos, intrinsecamente mais adequados e necessariamente mais econômicos para muitas invocações em sistemas agentes e, portanto, representam o futuro da IA agente. Nossa argumentação é baseada no nível atual de capacidades exibidas pelos SLMs, nas arquiteturas comuns dos sistemas agentes e na economia de implantação de modelos de linguagem. Argumentamos ainda que, em situações em que habilidades conversacionais de propósito geral são essenciais, sistemas agentes heterogêneos (ou seja, agentes que invocam múltiplos modelos diferentes) são a escolha natural. Discutimos os possíveis obstáculos para a adoção de SLMs em sistemas agentes e delineamos um algoritmo geral de conversão de agentes LLM para SLM. Nossa posição, formulada como uma declaração de valor, destaca a importância do impacto operacional e econômico que mesmo uma mudança parcial de LLMs para SLMs terá na indústria de agentes de IA. Nosso objetivo é estimular a discussão sobre o uso eficiente de recursos de IA e esperamos avançar os esforços para reduzir os custos da IA atual. Convidamos tanto contribuições quanto críticas à nossa posição e nos comprometemos a publicar toda essa correspondência em https://research.nvidia.com/labs/lpr/slm-agents.
Fluxogramas são uma ferramenta essencial para visualizar processos de tomada de decisão. No entanto, sua estrutura não linear e as complexas relações visuais-textuais tornam desafiador interpretá-los usando LLMs (Large Language Models), já que modelos de visão e linguagem frequentemente alucinam conexões e caminhos de decisão inexistentes ao analisar esses diagramas. Isso compromete a confiabilidade do processamento automatizado de fluxogramas em domínios críticos, como logística, saúde e engenharia. Introduzimos a tarefa de Atribuição de Fluxograma de Granularidade Fina, que rastreia componentes específicos que fundamentam uma resposta de LLM referente a um fluxograma. A Atribuição de Fluxograma garante a verificabilidade das previsões do LLM e melhora a explicabilidade ao vincular as respostas geradas à estrutura do fluxograma. Propomos o FlowPathAgent, um agente neurosimbólico que realiza atribuição de granularidade fina pós-hoc por meio de raciocínio baseado em grafos. Ele primeiro segmenta o fluxograma, converte-o em um grafo simbólico estruturado e, em seguida, emprega uma abordagem agentiva para interagir dinamicamente com o grafo, gerando caminhos de atribuição. Além disso, apresentamos o FlowExplainBench, um novo benchmark para avaliar atribuições de fluxogramas em diversos estilos, domínios e tipos de perguntas. Resultados experimentais mostram que o FlowPathAgent mitiga alucinações visuais nas respostas de LLMs em tarefas de Q&A sobre fluxogramas, superando baselines fortes em 10-14% em nosso conjunto de dados FlowExplainBench proposto.
A poda tem sido amplamente adotada recentemente para reduzir a escala de parâmetros e melhorar a eficiência de inferência dos Modelos de Linguagem de Grande Escala (LLMs). As técnicas de poda predominantes frequentemente dependem de estratégias uniformes de poda por camadas, o que pode levar a uma degradação severa do desempenho em níveis elevados de esparsidade. Reconhecendo as contribuições variáveis de diferentes camadas nos LLMs, estudos recentes têm direcionado seu foco para a poda não uniforme por camadas. No entanto, essas abordagens frequentemente dependem de valores pré-definidos, o que pode resultar em desempenho subótimo. Para superar essas limitações, propomos um novo método chamado Poda Dinâmica por Camadas (Dynamic Layerwise Pruning - DLP). Essa abordagem determina adaptativamente a importância relativa de cada camada ao integrar os pesos do modelo com informações de ativação de entrada, atribuindo taxas de poda de acordo. Resultados experimentais mostram que o DLP preserva efetivamente o desempenho do modelo em níveis elevados de esparsidade em múltiplos LLMs. Especificamente, com 70% de esparsidade, o DLP reduz a perplexidade do LLaMA2-7B em 7,79 e melhora a precisão média em 2,7% em comparação com os métodos mais avançados atualmente. Além disso, o DLP é compatível com várias técnicas de compressão de LLMs existentes e pode ser integrado de forma contínua ao Ajuste Fino Eficiente em Parâmetros (Parameter-Efficient Fine-Tuning - PEFT). Disponibilizamos o código em https://github.com/ironartisan/DLP para facilitar pesquisas futuras.
Os recentes benchmarks de compreensão de vídeo e linguagem de longa duração têm impulsionado o progresso em modelos multimodais de grande escala para vídeo (Video-LMMs). No entanto, a escassez de vídeos longos bem anotados deixou o treinamento de Video-LLMs de longa duração pouco explorado. Para preencher essa lacuna, apresentamos o VideoMarathon, um conjunto de dados em grande escala de instruções de vídeo de longa duração. Este conjunto de dados inclui aproximadamente 9.700 horas de vídeos longos provenientes de diversos domínios, variando de 3 a 60 minutos por vídeo. Especificamente, ele contém 3,3 milhões de pares de perguntas e respostas de alta qualidade, abrangendo seis tópicos fundamentais: temporalidade, espacialidade, objeto, ação, cenário e evento. Em comparação com os conjuntos de dados de instrução de vídeo existentes, o VideoMarathon estende significativamente a duração dos vídeos de treinamento para até 1 hora e suporta 22 tarefas diversas que exigem compreensão de vídeo tanto de curto quanto de longo prazo. Com base no VideoMarathon, propomos o Hour-LLaVA, um Video-LMM poderoso e eficiente para modelagem de vídeo e linguagem em escala de horas. Ele permite o treinamento e inferência de vídeos de longa duração com amostragem de 1-FPS, aproveitando um módulo de aumento de memória que integra de forma adaptativa a semântica relevante para a pergunta do usuário e informativa em termos espaço-temporais a partir de um contexto de vídeo completo armazenado em cache. Em nossos experimentos, o Hour-LLaVA alcança o melhor desempenho em vários benchmarks de vídeo e linguagem de longa duração, demonstrando a alta qualidade do conjunto de dados VideoMarathon e a superioridade do modelo Hour-LLaVA.
Sistemas de IA agentes, construídos com base em grandes modelos de linguagem (LLMs) e implantados em configurações multiagentes, estão redefinindo a autonomia inteligente, a colaboração e a tomada de decisões em domínios empresariais e sociais. Esta revisão apresenta uma análise estruturada de Gerenciamento de Confiança, Risco e Segurança (TRiSM) no contexto de sistemas multiagentes baseados em LLMs (AMAS). Começamos examinando os fundamentos conceituais da IA agente, suas diferenças arquitetônicas em relação aos agentes de IA tradicionais e os designs de sistemas emergentes que permitem autonomia escalável com uso de ferramentas. O TRiSM no framework de IA agente é detalhado através de quatro pilares: governança, explicabilidade, ModelOps e privacidade/segurança, cada um contextualizado para LLMs agentes. Identificamos vetores de ameaça únicos e introduzimos uma taxonomia de risco abrangente para aplicações de IA agente, apoiada por estudos de caso que ilustram vulnerabilidades do mundo real. Além disso, o artigo também examina mecanismos de construção de confiança, técnicas de transparência e supervisão, e estratégias de explicabilidade de última geração em sistemas distribuídos de agentes LLM. Métricas para avaliar confiança, interpretabilidade e desempenho centrado no humano são revisadas juntamente com desafios abertos de benchmarking. Segurança e privacidade são abordadas por meio de criptografia, defesa contra adversários e conformidade com regulamentações de IA em evolução. O artigo conclui com um roteiro para IA agente responsável, propondo direções de pesquisa para alinhar sistemas multiagentes emergentes com princípios robustos de TRiSM para implantação segura, responsável e transparente.
Melhorar as capacidades de raciocínio de modelos de linguagem de grande escala de forma eficaz usando aprendizado por reforço (RL) continua sendo um desafio crucial. As abordagens existentes adotam principalmente duas granularidades contrastantes de estimativa de vantagem: Métodos de nível de token (por exemplo, PPO) visam fornecer sinais de vantagem refinados, mas sofrem com estimativas imprecisas devido às dificuldades em treinar um modelo crítico preciso. No outro extremo, métodos de nível de trajetória (por exemplo, GRPO) dependem exclusivamente de um sinal de vantagem de granularidade grossa proveniente da recompensa final, levando a uma atribuição de crédito imprecisa. Para abordar essas limitações, propomos o Segment Policy Optimization (SPO), um novo framework de RL que aproveita a estimativa de vantagem em nível de segmento com uma granularidade intermediária, alcançando um melhor equilíbrio ao oferecer uma atribuição de crédito mais precisa do que os métodos de nível de trajetória e exigindo menos pontos de estimativa do que os métodos de nível de token, permitindo uma estimativa de vantagem precisa baseada em Monte Carlo (MC) sem um modelo crítico. O SPO apresenta três componentes com estratégias inovadoras: (1) partição de segmento flexível; (2) estimativa de vantagem de segmento precisa; e (3) otimização de política usando vantagens de segmento, incluindo uma nova estratégia de máscara de probabilidade. Além disso, instanciamos o SPO para dois cenários específicos: (1) SPO-chain para cadeias de pensamento (CoT) curtas, apresentando partição baseada em pontos de corte e estimativa de vantagem baseada em cadeia, alcançando melhorias de 6 a 12 pontos percentuais em precisão sobre PPO e GRPO no GSM8K. (2) SPO-tree para CoT longas, apresentando estimativa de vantagem baseada em árvore, que reduz significativamente o custo da estimativa MC, alcançando melhorias de 7 a 11 pontos percentuais sobre GRPO no MATH500 sob avaliação de contexto de 2K e 4K. Disponibilizamos nosso código publicamente em https://github.com/AIFrameResearch/SPO.
A referência a objetos visa detectar todos os objetos em uma imagem que correspondam a uma descrição em linguagem natural. Argumentamos que um modelo robusto de referência a objetos deve ser fundamentado, significando que suas previsões devem ser tanto explicáveis quanto fiéis ao conteúdo visual. Especificamente, ele deve satisfazer duas propriedades-chave: 1) Verificável, ao produzir raciocínios interpretáveis que justifiquem suas previsões e as liguem claramente a evidências visuais; e 2) Confiável, ao aprender a se abster quando nenhum objeto na imagem satisfaz a expressão dada. No entanto, a maioria dos métodos trata a referência como uma tarefa direta de previsão de caixas delimitadoras, oferecendo interpretabilidade limitada e dificuldade em rejeitar expressões sem objetos correspondentes. Neste trabalho, propomos o Rex-Thinker, um modelo que formula a referência a objetos como uma tarefa explícita de raciocínio CoT (Chain of Thought). Dada uma expressão de referência, primeiro identificamos todas as instâncias de objetos candidatos correspondentes à categoria do objeto referido. O Rex-Thinker então realiza um raciocínio passo a passo sobre cada candidato para avaliar se ele corresponde à expressão dada, antes de fazer uma previsão final. Para apoiar esse paradigma, construímos um grande conjunto de dados de referência no estilo CoT, chamado HumanRef-CoT, ao solicitar ao GPT-4o que gerasse traços de raciocínio no conjunto de dados HumanRef. Cada traço de raciocínio segue um formato estruturado de planejamento, ação e resumo, permitindo que o modelo aprenda raciocínios decompostos e interpretáveis sobre os candidatos a objetos. Em seguida, treinamos o Rex-Thinker em duas etapas: uma fase de ajuste fino supervisionado de inicialização a frio para ensinar o modelo a realizar raciocínios estruturados, seguida por um aprendizado por reforço baseado em GRPO para melhorar a precisão e a generalização. Experimentos mostram que nossa abordagem supera as linhas de base padrão tanto em precisão quanto em interpretabilidade na avaliação em domínio, além de demonstrar uma capacidade aprimorada de rejeitar saídas alucinadas e uma forte generalização em configurações fora do domínio.
A busca pela Aprendizagem Contínua (CL, do inglês Continual Learning) visa capacitar redes neurais com a habilidade de aprender e se adaptar de forma incremental. Central para essa busca é o enfrentamento do dilema estabilidade-plasticidade, que envolve encontrar um equilíbrio entre dois objetivos conflitantes: preservar o conhecimento previamente aprendido e adquirir novos conhecimentos. Embora diversos métodos de CL busquem alcançar esse equilíbrio, eles frequentemente negligenciam o impacto da arquitetura da rede na estabilidade e na plasticidade, restringindo o trade-off ao nível dos parâmetros. Neste artigo, exploramos o conflito entre estabilidade e plasticidade no nível arquitetural. Revelamos que, sob uma restrição igual de parâmetros, redes mais profundas exibem melhor plasticidade, enquanto redes mais largas são caracterizadas por uma estabilidade superior. Para abordar esse dilema no nível arquitetural, introduzimos um novo framework denominado Dual-Arch, que funciona como um componente plug-in para CL. Esse framework aproveita os pontos fortes complementares de duas redes distintas e independentes: uma dedicada à plasticidade e outra à estabilidade. Cada rede é projetada com uma arquitetura especializada e leve, adaptada ao seu respectivo objetivo. Experimentos extensivos demonstram que o Dual-Arch melhora o desempenho dos métodos existentes de CL, ao mesmo tempo em que é até 87% mais compacto em termos de parâmetros.
Bases de dados de publicações dependem da extração precisa de metadados de diversas fontes da web, porém variações nos layouts e formatos de dados apresentam desafios para os provedores de metadados. Este artigo introduz o CRAWLDoc, um novo método para classificação contextual de documentos web vinculados. A partir do URL de uma publicação, como um identificador de objeto digital, o CRAWLDoc recupera a página inicial e todos os recursos web vinculados, incluindo PDFs, perfis ORCID e materiais suplementares. Ele incorpora esses recursos, juntamente com textos âncora e URLs, em uma representação unificada. Para avaliar o CRAWLDoc, criamos um novo conjunto de dados manualmente rotulado de 600 publicações de seis editoras líderes em ciência da computação. Nosso método CRAWLDoc demonstra uma classificação robusta e independente de layout de documentos relevantes entre editoras e formatos de dados. Ele estabelece a base para uma extração aprimorada de metadados de documentos web com diversos layouts e formatos. Nosso código-fonte e conjunto de dados podem ser acessados em https://github.com/FKarl/CRAWLDoc.
Uma maneira de mitigar riscos em modelos de visão e linguagem (VLMs) é remover amostras perigosas em seus dados de treinamento. No entanto, essa moderação de dados pode ser facilmente contornada quando imagens prejudiciais são divididas em pequenos fragmentos de aparência benigna, espalhados por muitas amostras de treinamento. Os VLMs podem então aprender a juntar esses fragmentos durante o treinamento e gerar respostas prejudiciais na inferência, seja a partir de imagens completas ou referências textuais. Por exemplo, se treinados em fragmentos de imagens de uma cena sangrenta associados às descrições "segura", os VLMs podem posteriormente descrever a imagem completa ou uma referência textual à cena como "segura". Definimos a capacidade central dos VLMs que possibilita esse ataque como costura visual — a capacidade de integrar informações visuais distribuídas em várias amostras de treinamento que compartilham as mesmas descrições textuais. Em nosso trabalho, primeiro demonstramos habilidades de costura visual em VLMs de código aberto comuns em três conjuntos de dados onde cada imagem é rotulada com um ID sintético único: dividimos cada par (imagem, ID) em pares {(fragmento, ID)} em diferentes granularidades para ajuste fino, e descobrimos que os modelos ajustados conseguem verbalizar os IDs corretos a partir de imagens completas ou referências textuais. Com base nisso, simulamos o cenário de envenenamento de dados adversariais mencionado acima, utilizando fragmentos de imagens perigosas e substituindo os IDs por descrições textuais como "segura" ou "insegura", demonstrando como conteúdo prejudicial pode evadir a moderação em fragmentos e posteriormente ser reconstruído por meio da costura visual, representando sérios riscos à segurança dos VLMs. O código está disponível em https://github.com/ZHZisZZ/visual-stitching.
A reconstrução 3D a partir de imagens capturadas em ambientes não controlados continua sendo uma tarefa desafiadora devido às condições de iluminação inconsistentes e aos distratores transitórios. Os métodos existentes geralmente dependem de estratégias heurísticas para lidar com dados de treinamento de baixa qualidade, que frequentemente lutam para produzir reconstruções estáveis e consistentes, resultando em artefatos visuais. Neste trabalho, propomos o Asymmetric Dual 3DGS, um novo framework que aproveita a natureza estocástica desses artefatos: eles tendem a variar entre diferentes execuções de treinamento devido a pequenas variações aleatórias. Especificamente, nosso método treina dois modelos de 3D Gaussian Splatting (3DGS) em paralelo, aplicando uma restrição de consistência que incentiva a convergência para uma geometria de cena confiável enquanto suprime artefatos inconsistentes. Para evitar que os dois modelos colapsem em modos de falha semelhantes devido ao viés de confirmação, introduzimos uma estratégia de mascaramento divergente que aplica duas máscaras complementares: uma máscara adaptativa multicomponente e uma máscara suave auto-supervisionada, o que leva a um processo de treinamento assimétrico dos dois modelos, reduzindo modos de erro compartilhados. Além disso, para melhorar a eficiência do treinamento do modelo, introduzimos uma variante leve chamada Dynamic EMA Proxy, que substitui um dos dois modelos por um proxy de Média Móvel Exponencial (EMA) atualizado dinamicamente, e emprega uma estratégia de mascaramento alternado para preservar a divergência. Experimentos extensivos em conjuntos de dados desafiadores do mundo real demonstram que nosso método supera consistentemente as abordagens existentes enquanto alcança alta eficiência. Códigos e modelos treinados serão disponibilizados.
Modelos generativos latentes baseados em fluxo, como o Stable Diffusion 3, são capazes de gerar imagens com qualidade notável, permitindo até mesmo a geração foto-realística de texto para imagem. Seu desempenho impressionante sugere que esses modelos também deveriam constituir priors poderosos para problemas de imagem inversa, mas essa abordagem ainda não alcançou fidelidade comparável. Existem vários obstáculos principais: (i) a codificação em um espaço latente de dimensão reduzida torna o mapeamento (direto) subjacente não linear; (ii) o termo de verossimilhança dos dados geralmente é intratável; e (iii) modelos generativos aprendidos têm dificuldade em recuperar modos de dados raros e atípicos durante a inferência. Apresentamos o FLAIR, uma nova estrutura variacional livre de treinamento que aproveita modelos generativos baseados em fluxo como prior para problemas inversos. Para isso, introduzimos um objetivo variacional para correspondência de fluxo que é agnóstico ao tipo de degradação e o combinamos com ajustes determinísticos de trajetória para recuperar modos atípicos. Para impor consistência exata com os dados observados, desacoplamos a otimização dos termos de fidelidade dos dados e regularização. Além disso, introduzimos um esquema de calibração dependente do tempo em que a força da regularização é modulada de acordo com estimativas de precisão off-line. Resultados em benchmarks padrão de imagem demonstram que o FLAIR supera consistentemente métodos existentes baseados em difusão e fluxo em termos de qualidade de reconstrução e diversidade de amostras.
O raciocínio simbólico em múltiplos passos é crucial para avançar o desempenho em tarefas financeiras. No entanto, faltam benchmarks para avaliar sistematicamente essa capacidade. Conjuntos de dados existentes, como FinQA e ConvFinQA, supervisionam apenas as respostas numéricas finais, sem avaliar os passos intermediários de raciocínio. Para resolver isso, introduzimos o FinChain, o primeiro benchmark simbólico projetado para raciocínio financeiro verificável em Cadeia de Pensamento (Chain-of-Thought, CoT). Abrangendo 54 tópicos em 12 domínios financeiros, o FinChain oferece cinco modelos parametrizados por tópico, cada um variando em complexidade de raciocínio e expertise de domínio necessária. Cada instância do conjunto de dados inclui um rastreamento executável em Python, permitindo a geração automática de dados de treinamento extensivos e fácil adaptação a outros domínios. Também introduzimos o ChainEval, uma nova métrica para avaliação automática tanto das respostas finais quanto do raciocínio intermediário. Ao avaliar 30 LLMs em nosso conjunto de dados, descobrimos que mesmo os modelos mais avançados têm espaço considerável para melhoria no raciocínio financeiro em múltiplos passos. Todos os modelos e métricas de avaliação para o FinChain estão disponíveis em https://github.com/mbzuai-nlp/finchain.
Gerar sons precisos para cenas audiovisuais complexas é um desafio, especialmente na presença de múltiplos objetos e fontes sonoras. Neste artigo, propomos um modelo de {\em geração de áudio interativa com consciência de objetos} que fundamenta a geração de sons em objetos visuais selecionados pelo usuário dentro de imagens. Nosso método integra o aprendizado centrado em objetos em um modelo de difusão latente condicional, que aprende a associar regiões da imagem com seus sons correspondentes por meio de atenção multimodal. No momento do teste, nosso modelo emprega segmentação de imagem para permitir que os usuários gerem sons de forma interativa no nível do {\em objeto}. Validamos teoricamente que nosso mecanismo de atenção aproxima funcionalmente as máscaras de segmentação no momento do teste, garantindo que o áudio gerado esteja alinhado com os objetos selecionados. Avaliações quantitativas e qualitativas mostram que nosso modelo supera as abordagens de referência, alcançando um melhor alinhamento entre os objetos e seus sons associados. Página do projeto: https://tinglok.netlify.app/files/avobject/
Anotar dados é uma tarefa demorada e custosa, mas é intrinsecamente necessária para o aprendizado de máquina supervisionado. O Aprendizado Ativo (AA) é um método consolidado que minimiza o esforço de rotulagem humana ao selecionar iterativamente as amostras não rotuladas mais informativas para anotação por especialistas, melhorando assim o desempenho geral da classificação. Apesar de o AA ser conhecido há décadas, ele ainda é raramente utilizado em aplicações do mundo real. Como indicado em duas pesquisas comunitárias realizadas entre a comunidade de PLN sobre o AA, dois motivos principais continuam a impedir os profissionais de adotar o AA: primeiro, a complexidade de configurar o AA, e segundo, a falta de confiança em sua eficácia. Nossa hipótese é que ambos os motivos têm o mesmo culpado: o grande espaço de hiperparâmetros do AA. Esse espaço de hiperparâmetros, em grande parte inexplorado, frequentemente leva a resultados de experimentos de AA enganosos e irreproduzíveis. Neste estudo, primeiro compilamos uma grade extensa de hiperparâmetros com mais de 4,6 milhões de combinações, segundo, registramos o desempenho de todas as combinações no maior estudo de AA já conduzido até o momento, e terceiro, analisamos o impacto de cada hiperparâmetro nos resultados dos experimentos. Por fim, fornecemos recomendações sobre a influência de cada hiperparâmetro, demonstramos a surpreendente influência da implementação concreta da estratégia de AA e delineamos um design de estudo experimental para experimentos de AA reproduzíveis com esforço computacional mínimo, contribuindo assim para uma pesquisa de AA mais reproduzível e confiável no futuro.
Com o rápido desenvolvimento dos modelos de linguagem multimodal de grande escala (MLLMs), eles estão sendo cada vez mais implantados como agentes autônomos de uso de computador capazes de realizar tarefas complexas. No entanto, surge uma questão urgente: Os princípios de risco de segurança projetados e alinhados para MLLMs gerais em cenários de diálogo podem ser efetivamente transferidos para cenários reais de uso de computador? A pesquisa existente sobre a avaliação dos riscos de segurança de agentes de uso de computador baseados em MLLMs sofre de várias limitações: ou carece de ambientes interativos realistas, ou se concentra de forma restrita em um ou poucos tipos específicos de risco. Essas limitações ignoram a complexidade, variabilidade e diversidade dos ambientes do mundo real, restringindo assim uma avaliação abrangente dos riscos para agentes de uso de computador. Para isso, introduzimos o RiOSWorld, um benchmark projetado para avaliar os riscos potenciais de agentes baseados em MLLMs durante manipulações reais de computador. Nosso benchmark inclui 492 tarefas de risco abrangendo várias aplicações de computador, envolvendo web, mídias sociais, multimídia, sistema operacional, e-mail e software de escritório. Categorizamos esses riscos em duas classes principais com base em sua fonte de risco: (i) Riscos originados pelo usuário e (ii) Riscos ambientais. Para a avaliação, avaliamos os riscos de segurança a partir de duas perspectivas: (i) Intenção do objetivo de risco e (ii) Conclusão do objetivo de risco. Experimentos extensivos com agentes multimodais no RiOSWorld demonstram que os atuais agentes de uso de computador enfrentam riscos de segurança significativos em cenários do mundo real. Nossas descobertas destacam a necessidade e urgência do alinhamento de segurança para agentes de uso de computador em manipulações reais de computador, fornecendo insights valiosos para o desenvolvimento de agentes de uso de computador confiáveis. Nosso benchmark está publicamente disponível em https://yjyddq.github.io/RiOSWorld.github.io/.