Artigos de pesquisa em IA selecionados diariamente com traduções
A geração de pôsteres acadêmicos é uma tarefa crucial, porém desafiadora, na comunicação científica, exigindo a compressão de documentos intercalados de longo contexto em uma única página visualmente coesa. Para enfrentar esse desafio, introduzimos o primeiro benchmark e conjunto de métricas para geração de pôsteres, que emparelha artigos recentes de conferências com pôsteres projetados pelos autores e avalia as saídas com base em: (i) Qualidade Visual - alinhamento semântico com pôsteres humanos, (ii) Coerência Textual - fluência linguística, (iii) Avaliação Holística - seis critérios estéticos e informacionais detalhados pontuados por um VLM como juiz, e notavelmente (iv) PaperQuiz - a capacidade do pôster de transmitir o conteúdo principal do artigo, medida por VLMs respondendo a questionários gerados. Com base nesse benchmark, propomos o PosterAgent, um pipeline multiagente de cima para baixo com loop visual: o (a) Parser destila o artigo em uma biblioteca estruturada de recursos; o (b) Planner alinha pares texto-visual em um layout de árvore binária que preserva a ordem de leitura e o equilíbrio espacial; e o loop (c) Painter-Commenter refina cada painel executando código de renderização e usando feedback do VLM para eliminar transbordamentos e garantir alinhamento. Em nossa avaliação abrangente, descobrimos que as saídas do GPT-4o - embora visualmente atraentes à primeira vista - frequentemente exibem texto ruidoso e pontuações baixas no PaperQuiz, e constatamos que o engajamento do leitor é o principal gargalo estético, já que pôsteres projetados por humanos dependem amplamente de semântica visual para transmitir significado. Nossas variantes totalmente de código aberto (por exemplo, baseadas na série Qwen-2.5) superam os sistemas multiagentes existentes impulsionados por 4o em quase todas as métricas, enquanto utilizam 87% menos tokens. Ele transforma um artigo de 22 páginas em um pôster finalizado, mas editável, em formato .pptx - tudo por apenas $0,005. Essas descobertas traçam direções claras para a próxima geração de modelos de geração de pôsteres totalmente automatizados. O código e os conjuntos de dados estão disponíveis em https://github.com/Paper2Poster/Paper2Poster.
Os Modelos de Linguagem de Grande Escala (LLMs) expandiram seu impacto além do Processamento de Linguagem Natural, impulsionando substancialmente o desenvolvimento de pesquisas interdisciplinares. Recentemente, diversos agentes baseados em LLMs foram desenvolvidos para auxiliar o progresso da descoberta científica em múltiplos aspectos e domínios. Entre esses, os agentes que utilizam computadores, capazes de interagir com sistemas operacionais como humanos, estão abrindo caminho para a resolução automatizada de problemas científicos e a otimização de rotinas nos fluxos de trabalho dos pesquisadores. Reconhecendo o potencial transformador desses agentes, apresentamos o ScienceBoard, que engloba duas contribuições complementares: (i) um ambiente realista e multidisciplinar que apresenta fluxos de trabalho científicos dinâmicos e visualmente ricos com software profissional integrado, onde os agentes podem interagir de forma autônoma por meio de diferentes interfaces para acelerar tarefas e experimentos de pesquisa complexos; e (ii) um benchmark desafiador composto por 169 tarefas de alta qualidade e rigorosamente validadas, curadas por humanos, abrangendo fluxos de trabalho de descoberta científica em domínios como bioquímica, astronomia e geoinformática. Avaliações extensivas de agentes com arquiteturas de ponta (por exemplo, GPT-4o, Claude 3.7, UI-TARS) mostram que, apesar de alguns resultados promissores, eles ainda estão aquém de auxiliar cientistas de forma confiável em fluxos de trabalho complexos, alcançando uma taxa de sucesso geral de apenas 15%. Análises detalhadas fornecem insights valiosos para abordar as limitações atuais dos agentes e princípios de design mais eficazes, pavimentando o caminho para a construção de agentes mais capazes para a descoberta científica. Nosso código, ambiente e benchmark estão disponíveis em https://qiushisun.github.io/ScienceBoard-Home/.
O raciocínio lógico é um aspecto fundamental da inteligência humana e uma capacidade essencial para modelos de linguagem multimodal de grande escala (MLLMs). Apesar dos avanços significativos no raciocínio multimodal, os benchmarks existentes falham em avaliar de forma abrangente suas habilidades de raciocínio devido à falta de categorização explícita dos tipos de raciocínio lógico e a uma compreensão pouco clara do raciocínio. Para abordar essas questões, introduzimos o MME-Reasoning, um benchmark abrangente projetado para avaliar a capacidade de raciocínio dos MLLMs, que cobre todos os três tipos de raciocínio (ou seja, indutivo, dedutivo e abdutivo) em suas perguntas. Cuidadosamente selecionamos os dados para garantir que cada questão avalie efetivamente a capacidade de raciocínio, em vez de habilidades perceptivas ou amplitude de conhecimento, e estendemos os protocolos de avaliação para cobrir a avaliação de diversas questões. Nossa avaliação revela limitações substanciais dos MLLMs de última geração quando submetidos a avaliações holísticas de capacidades de raciocínio lógico. Mesmo os MLLMs mais avançados mostram desempenho limitado no raciocínio lógico abrangente, com desequilíbrios notáveis de desempenho entre os tipos de raciocínio. Além disso, realizamos uma análise aprofundada de abordagens como o "modo de pensamento" e o RL baseado em regras, que são comumente acreditados para melhorar as habilidades de raciocínio. Essas descobertas destacam as limitações críticas e os desequilíbrios de desempenho dos MLLMs atuais em diversos cenários de raciocínio lógico, fornecendo insights abrangentes e sistemáticos sobre a compreensão e avaliação das capacidades de raciocínio.
Avanços recentes, como o OpenAI-o1 e o DeepSeek R1, demonstraram o potencial do Aprendizado por Reforço (RL) para aprimorar as habilidades de raciocínio em Modelos de Linguagem de Grande Escala (LLMs). Embora os esforços de replicação de código aberto tenham se concentrado principalmente em domínios matemáticos e de codificação, os métodos e recursos para desenvolver capacidades gerais de raciocínio permanecem pouco explorados. Essa lacuna se deve, em parte, ao desafio de coletar dados de raciocínio diversos e verificáveis adequados para RL. Nossa hipótese é que o raciocínio lógico é fundamental para o desenvolvimento de capacidades gerais de raciocínio, uma vez que a lógica forma um bloco fundamental do raciocínio. Neste trabalho, apresentamos o SynLogic, uma estrutura de síntese de dados e um conjunto de dados que gera dados de raciocínio lógico diversos em escala, abrangendo 35 tarefas distintas de raciocínio lógico. A abordagem SynLogic permite a síntese controlada de dados com dificuldade e quantidade ajustáveis. Importante destacar que todos os exemplos podem ser verificados por regras simples, tornando-os idealmente adequados para RL com recompensas verificáveis. Em nossos experimentos, validamos a eficácia do treinamento de RL no conjunto de dados SynLogic com base em modelos de 7B e 32B. O SynLogic alcança desempenho de ponta em raciocínio lógico entre os conjuntos de dados de código aberto, superando o DeepSeek-R1-Distill-Qwen-32B em 6 pontos no BBEH. Além disso, a mistura de dados do SynLogic com tarefas matemáticas e de codificação melhora a eficiência do treinamento nesses domínios e aprimora significativamente a generalização do raciocínio. Notavelmente, nosso modelo de treinamento misto supera o DeepSeek-R1-Zero-Qwen-32B em vários benchmarks. Esses achados posicionam o SynLogic como um recurso valioso para avançar as capacidades gerais de raciocínio dos LLMs. Disponibilizamos tanto o pipeline de síntese de dados quanto o conjunto de dados SynLogic em código aberto em https://github.com/MiniMax-AI/SynLogic.
Os modelos de difusão avançaram significativamente a estilização de imagens, mas dois desafios centrais persistem: (1) manter uma estilização consistente em cenas complexas, particularmente em relação à identidade, composição e detalhes finos, e (2) evitar a degradação do estilo em pipelines de imagem para imagem com LoRAs de estilo. A excepcional consistência de estilização do GPT-4o destaca a lacuna de desempenho entre métodos de código aberto e modelos proprietários. Para preencher essa lacuna, propomos o OmniConsistency, um plugin universal de consistência que aproveita Transformers de Difusão em larga escala (DiTs). O OmniConsistency contribui com: (1) um framework de aprendizado de consistência em contexto treinado em pares de imagens alinhadas para generalização robusta; (2) uma estratégia de aprendizado progressivo em duas etapas que desacopla o aprendizado de estilo da preservação da consistência para mitigar a degradação do estilo; e (3) um design totalmente plug-and-play compatível com LoRAs de estilo arbitrários sob o framework Flux. Experimentos extensivos mostram que o OmniConsistency melhora significativamente a coerência visual e a qualidade estética, alcançando desempenho comparável ao modelo comercial state-of-the-art GPT-4o.
Um estudo recente mostrou que modelos de linguagem de grande escala (LLMs) podem reconstruir textos surpreendentemente longos - até milhares de tokens - por meio de geração autoregressiva a partir de apenas um embedding de entrada especialmente treinado. Neste trabalho, exploramos se tal reconstrução é possível sem autoregressão. Demonstramos que LLMs congelados podem gerar centenas de tokens precisos em apenas uma passada direta, quando fornecidos com apenas dois embeddings aprendidos. Isso revela uma capacidade surpreendente e pouco explorada dos LLMs - geração de múltiplos tokens sem decodificação iterativa. Investigamos o comportamento desses embeddings e fornecemos insights sobre o tipo de informação que eles codificam. Também mostramos empiricamente que, embora essas representações não sejam únicas para um determinado texto, elas formam regiões conectadas e locais no espaço de embedding - uma propriedade que sugere o potencial de aprender um codificador dedicado para esse espaço.
Modelos de linguagem de grande escala (LLMs) para raciocínio dependem fortemente do aumento do poder computacional em tempo de teste para realizar tarefas complexas de raciocínio, gerando extensas cadeias de "pensamento". Embora demonstrem resultados impressionantes, essa abordagem acarreta custos computacionais significativos e tempo de inferência prolongado. Neste trabalho, questionamos a suposição de que cadeias de pensamento mais longas resultam em melhores capacidades de raciocínio. Primeiro, demonstramos que cadeias de raciocínio mais curtas dentro de perguntas individuais têm uma probabilidade significativamente maior de produzir respostas corretas — até 34,5% mais precisas do que a cadeia mais longa amostrada para a mesma pergunta. Com base nesses resultados, propomos o short-m@k, um novo método de inferência para LLMs de raciocínio. Nosso método executa k gerações independentes em paralelo e interrompe o cálculo assim que os primeiros m processos de pensamento são concluídos. A resposta final é escolhida por votação majoritária entre essas m cadeias. O short-1@k básico demonstra desempenho semelhante ou até superior ao da votação majoritária padrão em configurações de baixo poder computacional — utilizando até 40% menos tokens de pensamento. O short-3@k, embora ligeiramente menos eficiente que o short-1@k, supera consistentemente a votação majoritária em todos os orçamentos computacionais, enquanto ainda é substancialmente mais rápido (redução de até 33% no tempo de execução). Inspirados por nossos resultados, ajustamos um LLM usando cadeias de raciocínio curtas, longas e selecionadas aleatoriamente. Observamos que o treinamento com as cadeias mais curtas leva a um melhor desempenho. Nossas descobertas sugerem repensar os métodos atuais de computação em tempo de teste em LLMs de raciocínio, enfatizando que um "pensamento" mais longo não necessariamente se traduz em melhor desempenho e pode, de forma contra-intuitiva, levar a resultados degradados.
A geração de Subject-to-Video (S2V) visa criar vídeos que incorporam fielmente conteúdo de referência, oferecendo maior flexibilidade na produção de vídeos. Para estabelecer a infraestrutura para a geração de S2V, propomos o OpenS2V-Nexus, composto por (i) OpenS2V-Eval, um benchmark de avaliação detalhada, e (ii) OpenS2V-5M, um conjunto de dados em escala de milhões. Em contraste com os benchmarks de S2V existentes, herdados do VBench, que se concentram em avaliações globais e de alto nível dos vídeos gerados, o OpenS2V-Eval foca na capacidade do modelo de gerar vídeos consistentes com o assunto, com aparência natural e fidelidade de identidade. Para esses propósitos, o OpenS2V-Eval introduz 180 prompts de sete categorias principais de S2V, que incorporam dados de teste reais e sintéticos. Além disso, para alinhar com precisão as preferências humanas aos benchmarks de S2V, propomos três métricas automáticas, NexusScore, NaturalScore e GmeScore, para quantificar separadamente a consistência do assunto, a naturalidade e a relevância textual nos vídeos gerados. Com base nisso, realizamos uma avaliação abrangente de 16 modelos representativos de S2V, destacando seus pontos fortes e fracos em diferentes conteúdos. Além disso, criamos o primeiro conjunto de dados de grande escala e código aberto para geração de S2V, o OpenS2V-5M, que consiste em cinco milhões de triplas de alta qualidade (assunto-texto-vídeo) em 720P. Especificamente, garantimos a diversidade de informações sobre o assunto em nosso conjunto de dados por meio de (1) segmentação de assuntos e construção de informações de emparelhamento via associações entre vídeos e (2) uso do GPT-Image-1 em quadros brutos para sintetizar representações de múltiplas perspectivas. Através do OpenS2V-Nexus, entregamos uma infraestrutura robusta para acelerar futuras pesquisas em geração de S2V.
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm mostrado promessas na geração de código em nível de função, mas tarefas de engenharia de software em nível de repositório continuam desafiadoras. As soluções atuais dependem predominantemente de agentes LLMs proprietários, que introduzem imprevisibilidade e limitam a acessibilidade, levantando preocupações sobre privacidade de dados e personalização de modelos. Este artigo investiga se LLMs de código aberto podem efetivamente abordar tarefas em nível de repositório sem exigir abordagens baseadas em agentes. Demonstramos que isso é possível ao permitir que LLMs compreendam funções e arquivos dentro de bases de código por meio de suas informações semânticas e dependências estruturais. Para isso, introduzimos Modelos de Grafos de Código (CGMs), que integram estruturas de grafos de código de repositório no mecanismo de atenção do LLM e mapeiam atributos de nós para o espaço de entrada do LLM usando um adaptador especializado. Quando combinado com um framework de RAG de grafos sem agente, nossa abordagem alcança uma taxa de resolução de 43,00% no benchmark SWE-bench Lite usando o modelo de código aberto Qwen2.5-72B. Esse desempenho ocupa o primeiro lugar entre modelos de peso aberto, o segundo lugar entre métodos com sistemas de código aberto e o oitavo lugar geral, superando o melhor método baseado em modelo de código aberto anterior em 12,33%.
Métodos de Escalonamento em Tempo de Teste (TTS) para aprimorar o raciocínio de Modelos de Linguagem de Grande Escala (LLMs) frequentemente acarretam custos computacionais substanciais, principalmente devido à extensa dependência de Modelos de Recompensa de Processo (PRMs) externos ou métodos de amostragem como Best-of-N (BoN). Este artigo apresenta o Guided by Gut (GG), uma estrutura TTS autoguiada eficiente que alcança desempenho no nível de PRMs sem a necessidade de modelos verificadores externos custosos. Nosso método emprega uma busca em árvore leve guiada apenas por sinais intrínsecos do LLM, como confiança no nível de token e novidade no passo. Uma inovação crítica é a melhoria da confiabilidade das estimativas de confiança interna por meio de uma fase de ajuste fino com reforço direcionado. Avaliações empíricas em benchmarks desafiadores de raciocínio matemático demonstram que o GG permite que modelos menores (por exemplo, 1,5 bilhão de parâmetros) alcancem precisão igual ou superior a modelos significativamente maiores (por exemplo, 32-70 bilhões de parâmetros), enquanto reduz o uso de memória GPU em até 10 vezes. Comparado a métodos baseados em PRMs, o GG alcança precisão comparável com velocidades de inferência 8 vezes mais rápidas e uso de memória 4-5 vezes menor. Além disso, o GG reduz o uso de memória do cache KV em aproximadamente 50% em relação à estratégia BoN, facilitando uma implantação mais eficiente e prática de técnicas TTS.
Os recentes avanços em Modelos de Linguagem de Grande Escala Multimodais (MLLMs) têm permitido o processamento unificado de linguagem, visão e entradas estruturadas, abrindo caminho para tarefas complexas como dedução lógica, raciocínio espacial e análise científica. Apesar de seu potencial, as capacidades de raciocínio dos MLLMs, especialmente aqueles aprimorados com traços de pensamento intermediário (MLLMs-T), permanecem pouco compreendidas e carecem de benchmarks de avaliação padronizados. O trabalho existente foca principalmente na percepção ou na correção da resposta final, oferecendo insights limitados sobre como os modelos raciocinam ou falham entre modalidades. Para abordar essa lacuna, introduzimos o MMMR, um novo benchmark projetado para avaliar rigorosamente o raciocínio multimodal com pensamento explícito. O MMMR compreende 1) um conjunto de dados de alta dificuldade com 1.083 questões abrangendo seis tipos diversos de raciocínio com profundidade simbólica e demandas de múltiplos passos e 2) um Pipeline de Avaliação de Traços de Raciocínio (RTEP) modular para avaliar a qualidade do raciocínio além da precisão, por meio de métricas como relevância, consistência e anotações estruturadas de erros. Resultados empíricos mostram que os MLLMs-T geralmente superam suas contrapartes sem pensamento, mas até mesmo modelos de ponta como Claude-3.7-Sonnet e Gemini-2.5 Pro sofrem com patologias de raciocínio, como inconsistência e excesso de pensamento. Este benchmark revela lacunas persistentes entre precisão e qualidade de raciocínio e fornece um pipeline de avaliação acionável para o desenvolvimento futuro de modelos. No geral, o MMMR oferece uma base escalável para avaliar, comparar e melhorar a próxima geração de sistemas de raciocínio multimodal.
A aplicação de Aprendizado por Reforço (RL) a Modelos de Linguagem de Grande Escala para Vídeo (Video-LLMs) mostra um potencial significativo para o raciocínio complexo em vídeos. No entanto, métodos populares de Ajuste Fino por Reforço (RFT), como a Otimização de Política Relativa de Grupo baseada em Resultados (GRPO), são limitados por gargalos na preparação de dados (por exemplo, ruído ou alto custo) e exibem melhorias instáveis na qualidade de cadeias longas de pensamento (CoTs) e no desempenho em tarefas subsequentes. Para abordar essas limitações, propomos o VerIPO, um método de Otimização de Política Iterativa Guiada por Verificador, projetado para melhorar gradualmente a capacidade dos Video-LLMs de gerar cadeias de raciocínio profundas e de longo prazo. O componente central é o Verificador Consciente de Rollout, posicionado entre as fases de treinamento GRPO e Otimização de Preferência Direta (DPO) para formar o ciclo de treinamento GRPO-Verificador-DPO. Esse verificador utiliza pequenos LLMs como juízes para avaliar a lógica de raciocínio dos rollouts, permitindo a construção de dados contrastivos de alta qualidade, incluindo CoTs reflexivos e contextualmente consistentes. Essas amostras de preferência curadas impulsionam a etapa eficiente de DPO (7x mais rápida que a GRPO), levando a melhorias marcantes na qualidade das cadeias de raciocínio, especialmente em termos de comprimento e consistência contextual. Esse ciclo de treinamento se beneficia da busca expansiva da GRPO e da otimização direcionada da DPO. Os resultados experimentais demonstram: 1) Uma otimização significativamente mais rápida e eficaz em comparação com variantes padrão da GRPO, resultando em desempenho superior; 2) Nossos modelos treinados superam a inferência direta de Video-LLMs de grande escala ajustados por instrução, produzindo CoTs longos e contextualmente consistentes em diversas tarefas de raciocínio em vídeo; e 3) Nosso modelo com uma iteração supera LMMs poderosos (por exemplo, Kimi-VL) e modelos de raciocínio longo (por exemplo, Video-R1), destacando sua eficácia e estabilidade.
Transformadores de Difusão (DiTs) são essenciais para a geração de vídeos, mas sofrem com uma latência significativa devido à complexidade quadrática do mecanismo de atenção. Ao calcular apenas os tokens críticos, a atenção esparsa reduz os custos computacionais e oferece uma abordagem promissora para aceleração. No entanto, identificamos que os métodos existentes falham em alcançar a qualidade ótima de geração sob o mesmo orçamento computacional por duas razões: (1) Identificação imprecisa de tokens críticos: os métodos atuais agrupam tokens com base na posição em vez da semântica, levando a representações agregadas imprecisas. (2) Desperdício excessivo de computação: os tokens críticos estão dispersos entre os não críticos, resultando em computação desperdiçada em GPUs, que são otimizadas para processar tokens contíguos. Neste artigo, propomos o SVG2, uma estrutura livre de treinamento que maximiza a precisão de identificação e minimiza o desperdício de computação, alcançando uma fronteira de Pareto entre qualidade de geração e eficiência. O núcleo do SVG2 é a permutação semântica, que agrupa e reordena tokens com base na similaridade semântica usando k-means. Essa abordagem garante tanto uma representação precisa do cluster, melhorando a precisão de identificação, quanto um layout densificado de tokens críticos, permitindo computação eficiente sem preenchimento. Além disso, o SVG2 integra controle dinâmico de orçamento top-p e implementações de kernel personalizadas, alcançando acelerações de até 2,30x e 1,89x enquanto mantém um PSNR de até 30 e 26 em HunyuanVideo e Wan 2.1, respectivamente.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) alcançaram precisão considerável na Reconhecimento Óptico de Caracteres (OCR) em imagens estáticas. No entanto, sua eficácia no OCR de vídeos é significativamente reduzida devido a fatores como desfoque de movimento, variações temporais e efeitos visuais inerentes ao conteúdo de vídeo. Para fornecer orientações mais claras para o treinamento de MLLMs práticos, introduzimos o benchmark MME-VideoOCR, que abrange uma ampla gama de cenários de aplicação de OCR em vídeos. O MME-VideoOCR apresenta 10 categorias de tarefas, compreendendo 25 tarefas individuais e abrangendo 44 cenários diversos. Essas tarefas vão além do reconhecimento de texto para incorporar uma compreensão e raciocínio mais profundos do conteúdo textual dentro dos vídeos. O benchmark consiste em 1.464 vídeos com diferentes resoluções, proporções de tela e durações, juntamente com 2.000 pares de perguntas e respostas meticulosamente curados e anotados manualmente. Avaliamos 18 MLLMs de última geração no MME-VideoOCR, revelando que mesmo o modelo com melhor desempenho (Gemini-2.5 Pro) alcança uma precisão de apenas 73,7%. Análises detalhadas indicam que, embora os MLLMs existentes demonstrem um desempenho forte em tarefas onde os textos relevantes estão contidos em um único ou poucos quadros, eles exibem capacidade limitada em lidar efetivamente com tarefas que exigem uma compreensão holística do vídeo. Essas limitações são especialmente evidentes em cenários que requerem raciocínio espaço-temporal, integração de informações entre quadros ou resistência ao viés de prioridade linguística. Nossas descobertas também destacam a importância de uma entrada visual de alta resolução e cobertura temporal suficiente para um OCR confiável em cenários de vídeo dinâmicos.
Neste artigo, apresentamos o UI-Genie, um framework de autoaperfeiçoamento que aborda dois desafios fundamentais em agentes de interface gráfica (GUI): a verificação do resultado da trajetória é complexa e a obtenção de dados de treinamento de alta qualidade não é escalável. Esses desafios são tratados, respectivamente, por um modelo de recompensa e um pipeline de autoaperfeiçoamento. O modelo de recompensa, UI-Genie-RM, apresenta uma arquitetura intercalada de imagem-texto que processa eficientemente o contexto histórico e unifica recompensas em nível de ação e em nível de tarefa. Para apoiar o treinamento do UI-Genie-RM, desenvolvemos estratégias de geração de dados cuidadosamente projetadas, incluindo verificação baseada em regras, corrupção controlada de trajetórias e mineração de negativos difíceis. Para abordar o segundo desafio, um pipeline de autoaperfeiçoamento expande progressivamente tarefas complexas de GUI solucionáveis, aprimorando tanto o agente quanto os modelos de recompensa por meio de exploração guiada por recompensas e verificação de resultados em ambientes dinâmicos. Para o treinamento do modelo, geramos os conjuntos de dados UI-Genie-RM-517k e UI-Genie-Agent-16k, estabelecendo o primeiro conjunto de dados específico para recompensas em agentes de GUI, ao mesmo tempo em que demonstramos a geração de trajetórias sintéticas de alta qualidade sem anotação manual. Os resultados experimentais mostram que o UI-Genie alcança desempenho de ponta em vários benchmarks de agentes de GUI com três gerações de autoaperfeiçoamento de dados e modelos. Disponibilizamos a implementação completa do framework e os conjuntos de dados gerados para facilitar pesquisas futuras em https://github.com/Euphoria16/UI-Genie.
A Adaptação de Baixa Classificação (LoRA) é um método popular para ajuste fino eficiente em parâmetros (PEFT) de modelos generativos, valorizado por sua simplicidade e eficácia. Apesar de aprimoramentos recentes, a LoRA ainda sofre de uma limitação fundamental: overfitting quando o gargalo é ampliado. Ela apresenta o melhor desempenho em classificações de 32-64, mas sua precisão estagna ou diminui em classificações mais altas, ainda ficando aquém do desempenho do ajuste fino completo (FFT). Identificamos a causa raiz como o gargalo estrutural da LoRA, que introduz emaranhamento de gradiente aos canais de entrada não relacionados e distorce a propagação do gradiente. Para resolver isso, introduzimos uma nova estrutura, a Adaptação de Baixa Classificação Granular (GraLoRA), que particiona matrizes de peso em sub-blocos, cada um com seu próprio adaptador de baixa classificação. Com custo computacional ou de armazenamento insignificante, a GraLoRA supera as limitações da LoRA, aumenta efetivamente a capacidade de representação e se aproxima mais do comportamento do FFT. Experimentos em benchmarks de geração de código e raciocínio de senso comum mostram que a GraLoRA consistentemente supera a LoRA e outras baselines, alcançando um ganho absoluto de até +8,5% em Pass@1 no HumanEval+. Essas melhorias se mantêm em diferentes tamanhos de modelo e configurações de classificação, tornando a GraLoRA uma solução escalável e robusta para PEFT. Código, dados e scripts estão disponíveis em https://github.com/SqueezeBits/GraLoRA.git.
Os clientes empresariais estão adotando cada vez mais Modelos de Linguagem de Grande Escala (LLMs) para tarefas críticas de comunicação, como redigir e-mails, elaborar pitches de vendas e compor mensagens casuais. A implantação desses modelos em diferentes regiões exige que eles compreendam diversos contextos culturais e linguísticos e gerem respostas seguras e respeitosas. Para aplicações empresariais, é crucial mitigar riscos reputacionais, manter a confiança e garantir conformidade, identificando e lidando efetivamente com linguagem insegura ou ofensiva. Para abordar isso, introduzimos o SweEval, um benchmark que simula cenários do mundo real com variações de tom (positivo ou negativo) e contexto (formal ou informal). Os prompts instruem explicitamente o modelo a incluir palavrões específicos ao concluir a tarefa. Esse benchmark avalia se os LLMs cumprem ou resistem a tais instruções inadequadas e verifica seu alinhamento com frameworks éticos, nuances culturais e capacidades de compreensão linguística. Para avançar a pesquisa na construção de sistemas de IA alinhados eticamente para uso empresarial e além, disponibilizamos o conjunto de dados e o código: https://github.com/amitbcp/multilingual_profanity.
O avanço do raciocínio de código em modelos de linguagem de grande escala (LLMs) é fundamentalmente limitado pela escassez de conjuntos de dados de alta dificuldade, especialmente aqueles com casos de teste de entrada-saída verificáveis necessários para validação rigorosa de soluções em escala. Apresentamos o rStar-Coder, que melhora significativamente as capacidades de raciocínio de código dos LLMs ao construir um conjunto de dados em larga escala e verificado de 418K problemas de código de nível competitivo, 580K soluções de raciocínio longo juntamente com casos de teste ricos e de variada dificuldade. Isso é alcançado por meio de três contribuições principais: (1) curadoria de problemas de programação competitiva e soluções oráculo para sintetizar novos problemas solucionáveis; (2) introdução de um pipeline confiável de síntese de casos de teste de entrada-saída que desacopla a geração em um método de geração de entrada em três etapas e um mecanismo de verificação mútua para rotulação eficaz de saída; (3) aumento dos problemas com soluções de raciocínio longo de alta qualidade e verificadas por casos de teste. Experimentos extensivos nos modelos Qwen (1.5B-14B) em vários benchmarks de raciocínio de código demonstram a superioridade do conjunto de dados rStar-Coder, alcançando desempenho líder comparável aos LLMs de raciocínio de ponta com tamanhos de modelo muito menores. No LiveCodeBench, o rStar-Coder melhora o Qwen2.5-7B de 17.4% para impressionantes 57.3%, e o Qwen2.5-14B de 23.3% para 62.5%, superando o o3-mini (baixo) em 3.1%. No mais desafiador USA Computing Olympiad, nosso modelo de 7B alcança uma precisão média pass@1 de 16.15%, superando o QWQ-32B de nível de ponta. O código e o conjunto de dados serão liberados em https://github.com/microsoft/rStar.
Avanços recentes no raciocínio CoT e no pós-treinamento de RL têm sido relatados como impulsionadores das capacidades de raciocínio em vídeo dos MLLMs. Esse progresso naturalmente levanta uma questão: esses modelos podem realizar raciocínios complexos em vídeo de maneira comparável a especialistas humanos? No entanto, os benchmarks de vídeo existentes avaliam principalmente habilidades de percepção visual e fundamentação, com perguntas que podem ser respondidas com base em prompts explícitos ou pistas visuais isoladas. Tais benchmarks não capturam plenamente as complexidades do raciocínio do mundo real, onde os humanos precisam buscar ativamente, integrar e analisar múltiplas pistas antes de chegar a uma conclusão. Para abordar essa questão, apresentamos o Video-Holmes, um benchmark inspirado no processo de raciocínio de Sherlock Holmes, projetado para avaliar as capacidades de raciocínio complexo em vídeo dos MLLMs. O Video-Holmes consiste em 1.837 perguntas derivadas de 270 curtas-metragens de suspense anotadas manualmente, abrangendo sete tarefas cuidadosamente projetadas. Cada tarefa é construída primeiro identificando eventos-chave e relações causais dentro dos filmes e, em seguida, elaborando perguntas que exigem que os modelos localizem e conectem ativamente múltiplas pistas visuais relevantes espalhadas por diferentes segmentos de vídeo. Nossa avaliação abrangente dos MLLMs state-of-the-art revela que, embora esses modelos geralmente se destaquem na percepção visual, eles enfrentam dificuldades substanciais na integração de informações e frequentemente perdem pistas críticas. Por exemplo, o modelo de melhor desempenho, o Gemini-2.5-Pro, alcança uma precisão de apenas 45%, com a maioria dos modelos pontuando abaixo de 40%. Nosso objetivo é que o Video-Holmes sirva como um "teste de Holmes" para o raciocínio multimodal, motivando os modelos a raciocinarem mais como humanos e destacando os desafios contínuos nesse campo. O benchmark está disponível em https://github.com/TencentARC/Video-Holmes.
A recente mudança de paradigma em direção ao treinamento de grandes modelos de linguagem (LLMs) utilizando aprendizado por reforço (RL) no estilo DeepSeek-R1-Zero com recompensas verificáveis tem levado a avanços impressionantes no raciocínio matemático e de código. No entanto, essa metodologia é limitada a tarefas onde a verificação de respostas baseada em regras é possível e não se estende naturalmente a domínios do mundo real, como química, saúde, engenharia, direito, biologia, negócios e economia. As soluções práticas atuais utilizam um LLM adicional como verificador baseado em modelo; no entanto, isso introduz problemas como a dependência de um LLM verificador forte, suscetibilidade a manipulação de recompensas e o ônus prático de manter o modelo verificador na memória durante o treinamento. Para abordar isso e estender o treinamento no estilo DeepSeek-R1-Zero a domínios de raciocínio geral, propomos um método sem verificador (VeriFree) que ignora a verificação de respostas e, em vez disso, usa RL para maximizar diretamente a probabilidade de gerar a resposta de referência. Comparamos o VeriFree com métodos baseados em verificador e demonstramos que, além de seus benefícios práticos significativos e requisitos computacionais reduzidos, o VeriFree iguala e até supera métodos baseados em verificador em avaliações extensas em MMLU-Pro, GPQA, SuperGPQA e benchmarks relacionados a matemática. Além disso, fornecemos insights sobre esse método a partir de múltiplas perspectivas: como uma integração elegante do treinamento tanto da política quanto do verificador implícito em um modelo unificado, e como uma abordagem de otimização variacional. O código está disponível em https://github.com/sail-sg/VeriFree.
As interações sociais humanas dependem da capacidade de inferir intenções, emoções e crenças não expressas dos outros - uma habilidade cognitiva fundamentada no conceito psicológico de Teoria da Mente (ToM). Embora os grandes modelos de linguagem (LLMs) se destaquem em tarefas de compreensão semântica, eles têm dificuldade com a ambiguidade e a nuance contextual inerentes à comunicação humana. Para preencher essa lacuna, apresentamos o MetaMind, um framework multiagente inspirado em teorias psicológicas de metacognição, projetado para emular o raciocínio social semelhante ao humano. O MetaMind decompõe a compreensão social em três estágios colaborativos: (1) um Agente de Teoria da Mente gera hipóteses sobre os estados mentais do usuário (por exemplo, intenção, emoção), (2) um Agente de Domínio refina essas hipóteses usando normas culturais e restrições éticas, e (3) um Agente de Resposta gera respostas contextualmente apropriadas enquanto valida o alinhamento com a intenção inferida. Nosso framework alcança desempenho de ponta em três benchmarks desafiadores, com uma melhoria de 35,7% em cenários sociais do mundo real e um ganho de 6,2% no raciocínio de ToM. Notavelmente, ele permite que os LLMs atinjam o desempenho humano em tarefas-chave de ToM pela primeira vez. Estudos de ablação confirmam a necessidade de todos os componentes, que demonstram a capacidade do framework de equilibrar plausibilidade contextual, adequação social e adaptação ao usuário. Este trabalho avança os sistemas de IA em direção à inteligência social semelhante à humana, com aplicações em diálogo empático e interações culturalmente sensíveis. O código está disponível em https://github.com/XMZhangAI/MetaMind.
Modelos de linguagem de grande escala para vídeo (video LLMs) se destacam na compreensão de vídeos, mas enfrentam ineficiências computacionais significativas devido a tokens de vídeo redundantes. Métodos existentes de poda de tokens oferecem soluções. No entanto, abordagens que operam dentro do LLM (poda interna ao LLM), como o FastV, incorrem em sobrecarga computacional intrínseca nas camadas superficiais. Em contraste, métodos que realizam a poda de tokens antes do LLM (poda externa ao LLM) abordam principalmente a redundância espacial dentro de quadros individuais ou janelas temporais limitadas, negligenciando as dinâmicas temporais globais e as correlações cruciais em sequências de vídeo mais longas. Isso resulta em uma redução espaço-temporal subótima e não aproveita totalmente a compressibilidade do vídeo. Crucialmente, o potencial sinérgico e a influência mútua da combinação dessas estratégias permanecem inexplorados. Para reduzir ainda mais a redundância, introduzimos o HoliTom, uma nova estrutura de fusão holística de tokens sem necessidade de treinamento. O HoliTom emprega a poda externa ao LLM por meio de segmentação temporal global consciente da redundância, seguida de fusão espaço-temporal para reduzir os tokens visuais em mais de 90%, aliviando significativamente a carga computacional do LLM. Complementando isso, introduzimos uma abordagem robusta de fusão de tokens baseada em similaridade interna ao LLM, projetada para desempenho superior e compatibilidade com a poda externa ao LLM. Avaliações demonstram a promissora relação eficiência-desempenho do nosso método no LLaVA-OneVision-7B, reduzindo os custos computacionais para 6,9% dos FLOPs enquanto mantém 99,1% do desempenho original. Além disso, alcançamos uma redução de 2,28x no Tempo para o Primeiro Token (TTFT) e uma aceleração de 1,32x na taxa de decodificação, destacando os benefícios práticos da nossa abordagem integrada de poda para inferência eficiente de video LLMs.
A animação de imagens com controle interativo de movimento tem ganhado popularidade na geração de imagem para vídeo (I2V). As abordagens modernas geralmente dependem de grandes kernels gaussianos para estender trajetórias de movimento como condição sem definir explicitamente a região de movimento, resultando em um controle de movimento grosseiro e falhando em separar o movimento do objeto e da câmera. Para mitigar esses problemas, apresentamos o MotionPro, um controlador de movimento preciso que utiliza de forma inovadora trajetórias por região e máscaras de movimento para regular a síntese de movimento em nível refinado e identificar a categoria de movimento alvo (ou seja, movimento do objeto ou da câmera), respectivamente. Tecnicamente, o MotionPro primeiro estima os mapas de fluxo em cada vídeo de treinamento por meio de um modelo de rastreamento e, em seguida, amostra as trajetórias por região para simular o cenário de inferência. Em vez de estender o fluxo através de grandes kernels gaussianos, nossa abordagem de trajetória por região permite um controle mais preciso ao utilizar diretamente as trajetórias dentro de regiões locais, caracterizando efetivamente movimentos refinados. Uma máscara de movimento é simultaneamente derivada dos mapas de fluxo previstos para capturar a dinâmica holística do movimento das regiões. Para buscar um controle de movimento natural, o MotionPro ainda reforça a remoção de ruído em vídeos incorporando tanto as trajetórias por região quanto a máscara de movimento por meio de modulação de características. Mais notavelmente, construímos meticulosamente um benchmark, ou seja, o MC-Bench, com 1.1K pares de imagem-trajetória anotados por usuários, para a avaliação do controle de movimento I2V tanto em nível refinado quanto em nível de objeto. Experimentos extensivos conduzidos no WebVid-10M e no MC-Bench demonstram a eficácia do MotionPro. Consulte nossa página do projeto para mais resultados: https://zhw-zhang.github.io/MotionPro-page/.
Melhorar o desempenho em tarefas complexas e possibilitar a tomada de decisão interpretável em modelos de linguagem de grande escala (LLMs), especialmente para aplicações clínicas, requer raciocínio eficaz. No entanto, isso continua desafiador sem o ajuste fino supervisionado (SFT) em dados caros de cadeia de pensamento (CoT) destilados de modelos de código fechado (por exemplo, GPT-4o). Neste trabalho, apresentamos o AlphaMed, o primeiro LLM médico a demonstrar que a capacidade de raciocínio pode emergir puramente por meio de aprendizado por reforço (RL), utilizando recompensas minimalistas baseadas em regras em conjuntos de dados públicos de perguntas e respostas de múltipla escolha, sem depender de SFT ou dados de CoT destilados. O AlphaMed alcança resultados de ponta em seis benchmarks de perguntas e respostas médicas, superando modelos treinados com pipelines convencionais de SFT+RL. Em benchmarks desafiadores (por exemplo, MedXpert), o AlphaMed até supera modelos maiores ou de código fechado, como DeepSeek-V3-671B e Claude-3.5-Sonnet. Para entender os fatores por trás desse sucesso, realizamos uma análise abrangente centrada nos dados, guiada por três perguntas: (i) O RL minimalista baseado em regras pode incentivar o raciocínio sem supervisão de CoT destilado? (ii) Como a quantidade e a diversidade dos dados impactam o raciocínio? (iii) Como a dificuldade das perguntas molda a emergência e a generalização do raciocínio? Nossas descobertas mostram que a informatividade dos dados é um fator-chave para o desempenho do raciocínio, e que o RL minimalista em dados informativos de perguntas e respostas de múltipla escolha é eficaz para induzir o raciocínio sem supervisão de CoT. Também observamos tendências divergentes entre os benchmarks, destacando limitações na avaliação atual e a necessidade de benchmarks médicos de perguntas e respostas mais desafiadores e orientados para o raciocínio.
Em muitas aplicações do mundo real, modelos implantados encontram entradas que diferem dos dados vistos durante o treinamento. A detecção fora da distribuição identifica se uma entrada provém de uma distribuição não vista anteriormente, enquanto o reconhecimento em mundo aberto sinaliza tais entradas para garantir que o sistema permaneça robusto à medida que categorias previamente desconhecidas e emergentes aparecem e precisam ser tratadas sem retreinamento. Modelos de base e modelos de visão e linguagem são pré-treinados em grandes e diversos conjuntos de dados com a expectativa de generalização ampla entre domínios, incluindo imagens médicas. No entanto, ao avaliar esses modelos em conjuntos de teste com apenas alguns tipos comuns de outliers, a avaliação colapsa silenciosamente de volta para um problema de conjunto fechado, mascarando falhas em condições raras ou verdadeiramente novas encontradas no uso clínico. Apresentamos, portanto, o NOVA, um benchmark desafiador e exclusivo para avaliação de 900 exames de ressonância magnética cerebral que abrangem 281 patologias raras e protocolos de aquisição heterogêneos. Cada caso inclui narrativas clínicas detalhadas e anotações de caixas delimitadoras feitas por especialistas em duplo-cego. Juntos, esses elementos permitem uma avaliação conjunta de localização de anomalias, geração de legendas visuais e raciocínio diagnóstico. Como o NOVA nunca é usado para treinamento, ele serve como um teste de estresse extremo para a generalização fora da distribuição: os modelos devem superar uma lacuna de distribuição tanto na aparência das amostras quanto no espaço semântico. Resultados de linha de base com modelos líderes de visão e linguagem (GPT-4o, Gemini 2.0 Flash e Qwen2.5-VL-72B) revelam quedas substanciais de desempenho em todas as tarefas, estabelecendo o NOVA como um ambiente de teste rigoroso para avançar modelos capazes de detectar, localizar e raciocinar sobre anomalias verdadeiramente desconhecidas.
O Alinhamento Multilíngue é um paradigma eficaz e representativo para aprimorar as capacidades multilíngues de LLMs (Modelos de Linguagem de Grande Escala), transferindo as capacidades de idiomas de alta disponibilidade de recursos para idiomas de baixa disponibilidade. Paralelamente, algumas pesquisas sobre neurônios específicos de idiomas revelam que existem neurônios específicos que são seletivamente ativados em LLMs ao processar diferentes idiomas. Isso fornece uma nova perspectiva para analisar e entender os mecanismos dos LLMs de forma mais específica em cenários multilíngues. Neste trabalho, propomos um novo algoritmo de identificação de neurônios mais refinado, que detecta neurônios de idioma (incluindo neurônios específicos de idioma e neurônios relacionados a idiomas) e neurônios independentes de idioma. Além disso, com base nas características distributivas de diferentes tipos de neurônios, dividimos o processo interno dos LLMs para inferência multilíngue em quatro partes: (1) compreensão multilíngue, (2) raciocínio em espaço semântico compartilhado, (3) transformação do espaço de saída multilíngue e (4) saída no espaço de vocabulário. Adicionalmente, analisamos sistematicamente os modelos antes e depois do alinhamento, com foco em diferentes tipos de neurônios. Também analisamos o fenômeno do "Alinhamento Multilíngue Espontâneo". No geral, nosso trabalho realiza uma investigação abrangente com base em diferentes tipos de neurônios, fornecendo resultados empíricos e insights valiosos para uma melhor compreensão do alinhamento multilíngue e das capacidades multilíngues dos LLMs.
Os avanços recentes em modelos generativos permitiram a geração de imagens de alta fidelidade a partir de texto. No entanto, os modelos de edição de imagens de código aberto ainda ficam atrás de suas contrapartes proprietárias, principalmente devido à limitação de dados de alta qualidade e benchmarks insuficientes. Para superar essas limitações, introduzimos o ImgEdit, um conjunto de dados de edição de imagens em larga escala e de alta qualidade, composto por 1,2 milhão de pares de edição cuidadosamente curados, que contêm tanto edições únicas e complexas de uma única etapa, quanto tarefas desafiadoras de múltiplas etapas. Para garantir a qualidade dos dados, empregamos um pipeline de múltiplos estágios que integra um modelo de visão e linguagem de ponta, um modelo de detecção, um modelo de segmentação, juntamente com procedimentos específicos de in-painting e um rigoroso pós-processamento. O ImgEdit supera os conjuntos de dados existentes tanto em novidade de tarefas quanto em qualidade de dados. Utilizando o ImgEdit, treinamos o ImgEdit-E1, um modelo de edição que usa um Modelo de Linguagem de Visão para processar a imagem de referência e o prompt de edição, que supera os modelos de código aberto existentes em várias tarefas, destacando o valor do ImgEdit e do design do modelo. Para uma avaliação abrangente, introduzimos o ImgEdit-Bench, um benchmark projetado para avaliar o desempenho da edição de imagens em termos de aderência à instrução, qualidade de edição e preservação de detalhes. Ele inclui um conjunto básico de testes, um conjunto desafiador de uma única etapa e um conjunto dedicado de múltiplas etapas. Avaliamos tanto modelos de código aberto quanto proprietários, bem como o ImgEdit-E1, fornecendo uma análise profunda e insights acionáveis sobre o comportamento atual dos modelos de edição de imagens. Os dados de origem estão disponíveis publicamente em https://github.com/PKU-YuanGroup/ImgEdit.
Apresentamos o FinTagging, o primeiro benchmark de XBRL de escopo completo e consciente de tabelas, projetado para avaliar as capacidades de extração de informações estruturadas e alinhamento semântico de modelos de linguagem de grande escala (LLMs) no contexto de relatórios financeiros baseados em XBRL. Diferente de benchmarks anteriores que simplificam excessivamente a marcação XBRL como uma classificação multiclasse plana e focam apenas em texto narrativo, o FinTagging decompõe o problema de marcação XBRL em duas subtarefas: FinNI para extração de entidades financeiras e FinCL para alinhamento de conceitos orientado por taxonomia. Ele exige que os modelos extraiam fatos e os alinhem com toda a taxonomia US-GAAP de mais de 10 mil entradas, abrangendo tanto texto não estruturado quanto tabelas estruturadas, permitindo uma avaliação realista e detalhada. Avaliamos um conjunto diversificado de LLMs em configurações zero-shot, analisando sistematicamente seu desempenho em ambas as subtarefas e na precisão geral de marcação. Nossos resultados revelam que, embora os LLMs demonstrem forte generalização na extração de informações, eles têm dificuldades com o alinhamento detalhado de conceitos, especialmente na desambiguação de entradas de taxonomia intimamente relacionadas. Essas descobertas destacam as limitações dos LLMs existentes na automação completa da marcação XBRL e reforçam a necessidade de melhorias no raciocínio semântico e na modelagem consciente de esquemas para atender às demandas de divulgação financeira precisa. O código está disponível em nosso repositório no GitHub e os dados estão em nosso repositório no Hugging Face.
Controlabilidade, coerência temporal e síntese de detalhes continuam sendo os desafios mais críticos na geração de vídeos. Neste artigo, focamos em uma técnica cinematográfica comumente usada, mas pouco explorada, conhecida como Frame In e Frame Out. Especificamente, partindo da geração de imagem para vídeo, os usuários podem controlar os objetos na imagem para sair naturalmente da cena ou fornecer novas referências de identidade para entrar na cena, guiados por uma trajetória de movimento especificada pelo usuário. Para apoiar essa tarefa, introduzimos um novo conjunto de dados curado de forma semi-automática, um protocolo de avaliação abrangente direcionado a esse cenário e uma arquitetura eficiente de Transformador de Difusão para vídeo com controle de movimento e preservação de identidade. Nossa avaliação mostra que a abordagem proposta supera significativamente as linhas de base existentes.
Este artigo apresenta o DetailFlow, um método de geração de imagens autoregressivo (AR) unidimensional (1D) de granularidade grossa para fina, que modela imagens por meio de uma nova estratégia de previsão de detalhes subsequentes. Ao aprender uma sequência de tokens sensível à resolução supervisionada com imagens progressivamente degradadas, o DetailFlow permite que o processo de geração comece a partir da estrutura global e refine incrementalmente os detalhes. Essa sequência de tokens 1D de granularidade grossa para fina se alinha bem com o mecanismo de inferência autoregressiva, proporcionando uma maneira mais natural e eficiente para o modelo AR gerar conteúdo visual complexo. Nosso modelo AR 1D compacto alcança síntese de imagens de alta qualidade com significativamente menos tokens do que abordagens anteriores, como VAR/VQGAN. Propomos ainda um mecanismo de inferência paralela com autocorreção que acelera a velocidade de geração em aproximadamente 8x, ao mesmo tempo que reduz o erro de amostragem acumulado inerente à supervisão por forçamento de professor. No benchmark ImageNet 256x256, nosso método alcança 2,96 gFID com 128 tokens, superando o VAR (3,3 FID) e o FlexVAR (3,05 FID), que exigem 680 tokens em seus modelos AR. Além disso, devido à redução significativa na contagem de tokens e ao mecanismo de inferência paralela, nosso método executa inferência quase 2x mais rápida em comparação com VAR e FlexVAR. Resultados experimentais extensivos demonstram a qualidade e eficiência superior de geração do DetailFlow em comparação com os métodos state-of-the-art existentes.
Visão ativa, também conhecida como percepção ativa, refere-se ao processo de selecionar ativamente onde e como olhar para coletar informações relevantes para a tarefa. É um componente crítico para a percepção eficiente e a tomada de decisões em humanos e agentes corporificados avançados. Recentemente, o uso de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) como módulos centrais de planejamento e tomada de decisão em sistemas robóticos tem recebido ampla atenção. No entanto, apesar da importância da percepção ativa na inteligência corporificada, há pouca ou nenhuma exploração sobre como os MLLMs podem ser equipados ou aprender capacidades de percepção ativa. Neste artigo, primeiro fornecemos uma definição sistemática de tarefas de percepção ativa baseadas em MLLMs. Apontamos que a estratégia de busca de zoom do modelo GPT-o3, recentemente proposta, pode ser considerada um caso especial de percepção ativa; no entanto, ela ainda sofre com baixa eficiência de busca e seleção imprecisa de regiões. Para resolver esses problemas, propomos o ACTIVE-O3, um framework de treinamento baseado puramente em aprendizado por reforço, construído sobre o GRPO, projetado para equipar MLLMs com capacidades de percepção ativa. Além disso, estabelecemos um conjunto abrangente de benchmarks para avaliar o ACTIVE-O3 em tarefas gerais do mundo aberto, como a localização de objetos pequenos e densos, e em cenários específicos de domínio, incluindo detecção de objetos pequenos em sensoriamento remoto e direção autônoma, bem como segmentação interativa de granularidade fina. Adicionalmente, o ACTIVE-O3 também demonstra fortes habilidades de raciocínio zero-shot no Benchmark V*, sem depender de dados explícitos de raciocínio. Esperamos que nosso trabalho possa fornecer uma base de código simples e um protocolo de avaliação para facilitar pesquisas futuras sobre percepção ativa em MLLMs.
O controle preciso sobre a geração de modelos de linguagem é essencial para garantir segurança e confiabilidade. Embora a engenharia de prompts e a direcionamento sejam comumente usadas para intervir nos comportamentos dos modelos, o grande número de parâmetros nos modelos frequentemente resulta em representações internas altamente interligadas. Essa interdependência pode limitar a precisão do controle e, às vezes, levar a efeitos colaterais indesejados. Pesquisas recentes exploraram o uso de autoencoders esparsos (SAE) para desembaraçar o conhecimento em espaços de alta dimensionalidade para direcionamento. No entanto, essas aplicações foram limitadas a tarefas simples devido ao desafio não trivial de localizar componentes atômicos de conhecimento. Neste artigo, propomos Átomos de Direcionamento Alvo (STA), um método novo que isola e manipula componentes de conhecimento desembaraçados para aumentar a segurança. Experimentos abrangentes demonstram a eficácia da nossa abordagem. Análises adicionais revelam que o direcionamento exibe robustez e flexibilidade superiores, especialmente em cenários adversários. Também aplicamos a estratégia de direcionamento ao modelo de raciocínio em larga escala, confirmando sua eficácia no controle preciso do raciocínio.
Modelos visão-linguagem (VLMs) demonstraram capacidades notáveis na compreensão e raciocínio sobre conteúdo visual, mas desafios significativos persistem em tarefas que exigem compreensão de múltiplos pontos de vista e raciocínio espacial. Identificamos uma limitação crítica: os VLMs atuais se destacam principalmente no raciocínio espacial egocêntrico (da perspectiva da câmera), mas falham em generalizar para pontos de vista allocêntricos quando precisam adotar o quadro de referência espacial de outra entidade. Introduzimos o ViewSpatial-Bench, o primeiro benchmark abrangente projetado especificamente para avaliação de reconhecimento de localização espacial em múltiplos pontos de vista, abrangendo cinco tipos distintos de tarefas, apoiado por um pipeline automatizado de anotação 3D que gera rótulos direcionais precisos. A avaliação abrangente de diversos VLMs no ViewSpatial-Bench revela uma disparidade significativa de desempenho: os modelos demonstram desempenho razoável em tarefas de perspectiva da câmera, mas exibem precisão reduzida ao raciocinar a partir de um ponto de vista humano. Ao ajustar finamente os VLMs em nosso conjunto de dados espaciais de múltiplas perspectivas, alcançamos uma melhoria geral de desempenho de 46,24% nas tarefas, destacando a eficácia de nossa abordagem. Nosso trabalho estabelece um benchmark crucial para a inteligência espacial em sistemas de IA incorporada e fornece evidências empíricas de que a modelagem de relações espaciais 3D aprimora as capacidades correspondentes de compreensão espacial dos VLMs.
Os Gráficos Vetoriais Escaláveis (SVG) oferecem um formato poderoso para representar designs visuais como código interpretável. Avanços recentes em modelos de visão e linguagem (VLMs) permitiram a geração de SVGs de alta qualidade ao enquadrar o problema como uma tarefa de geração de código e aproveitar o pré-treinamento em larga escala. Os VLMs são particularmente adequados para essa tarefa, pois capturam tanto a semântica global quanto os padrões visuais detalhados, ao mesmo tempo em que transferem conhecimento entre os domínios de visão, linguagem natural e código. No entanto, as abordagens existentes de VLMs frequentemente têm dificuldade em produzir SVGs fiéis e eficientes, pois nunca observam as imagens renderizadas durante o treinamento. Embora a renderização diferenciável para geração autoregressiva de código SVG ainda não esteja disponível, as saídas renderizadas ainda podem ser comparadas às entradas originais, permitindo feedback avaliativo adequado para o aprendizado por reforço (RL). Introduzimos o RLRF (Reinforcement Learning from Rendering Feedback), um método de RL que aprimora a geração de SVGs em VLMs autoregressivos ao aproveitar o feedback das saídas SVG renderizadas. Dada uma imagem de entrada, o modelo gera sequências de SVG que são renderizadas e comparadas à imagem original para calcular uma recompensa. Esse feedback de fidelidade visual orienta o modelo a produzir SVGs mais precisos, eficientes e semanticamente coerentes. O RLRF supera significativamente o ajuste fino supervisionado, abordando modos de falha comuns e permitindo a geração precisa e de alta qualidade de SVGs com forte compreensão estrutural e generalização.
Estudos recentes mostram que as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) podem ser aprimoradas aplicando Aprendizado por Reforço (RL) a tarefas de perguntas e respostas (QA) em áreas como matemática e programação. Com um comprimento de contexto longo, os LLMs podem aprender a realizar buscas, conforme indicado pelo comportamento de autocorreção observado no DeepSeek R1. No entanto, esse comportamento de busca muitas vezes é impreciso e carece de confiança, resultando em respostas longas e redundantes, destacando deficiências na intuição e na verificação. Inspirados pela Teoria do Processo Duplo em psicologia, introduzimos uma modificação simples na tarefa de QA que inclui quatro estágios: Pensamento Rápido, onde o LLM deve responder dentro de um limite estrito de tokens; Verificação, onde o modelo avalia sua resposta inicial; Pensamento Lento, onde ele refina a resposta inicial com mais deliberação; e Sumarização, onde ele destila o refinamento do estágio anterior em etapas precisas. Nossa tarefa proposta melhora a precisão média de 24,9% para 27,9% no Qwen2.5-1.5B, e de 45,9% para 49,8% no DeepSeek-R1-Qwen-1.5B. Notavelmente, para o Qwen2.5-1.5B, o modo de Pensamento Rápido sozinho alcança 26,8% de precisão usando menos de 1000 tokens, demonstrando ganhos substanciais em eficiência de inferência. Esses achados sugerem que a intuição e o raciocínio deliberativo são sistemas distintos e complementares que se beneficiam de treinamentos direcionados.
Apresentamos o VisTA, um novo framework de aprendizado por reforço que capacita agentes visuais a explorar, selecionar e combinar dinamicamente ferramentas de uma biblioteca diversificada com base no desempenho empírico. Os métodos existentes para raciocínio aumentado por ferramentas dependem de prompts sem treinamento ou de ajuste fino em larga escala; ambos carecem de exploração ativa de ferramentas e geralmente assumem diversidade limitada de ferramentas, e os métodos de ajuste fino exigem ainda supervisão humana extensiva. Em contraste, o VisTA utiliza aprendizado por reforço de ponta a ponta para refinar iterativamente estratégias sofisticadas de seleção de ferramentas específicas para consultas, usando os resultados das tarefas como sinais de feedback. Por meio da Otimização de Política Relativa em Grupo (GRPO), nosso framework permite que um agente descubra autonomamente caminhos eficazes de seleção de ferramentas sem exigir supervisão explícita de raciocínio. Experimentos nos benchmarks ChartQA, Geometry3K e BlindTest demonstram que o VisTA alcança ganhos substanciais de desempenho em relação às linhas de base sem treinamento, especialmente em exemplos fora da distribuição. Esses resultados destacam a capacidade do VisTA de aprimorar a generalização, utilizar adaptativamente ferramentas diversas e pavimentar o caminho para sistemas flexíveis de raciocínio visual orientados por experiência.
Modelos de linguagem de grande escala têm demonstrado capacidades impressionantes de raciocínio, mas são intrinsecamente limitados pelo seu reservatório de conhecimento. O raciocínio aumentado por recuperação mitiga essa limitação ao permitir que os LLMs consultem recursos externos, mas os métodos existentes frequentemente recuperam informações irrelevantes ou ruidosas, prejudicando o raciocínio preciso. Neste artigo, propomos o AutoRefine, um framework de pós-treinamento com aprendizado por reforço que adota um novo paradigma de "buscar-e-refinar-durante-pensar". O AutoRefine introduz etapas explícitas de refinamento de conhecimento entre chamadas de busca sucessivas, permitindo que o modelo filtre, destile e organize evidências de forma iterativa antes de gerar uma resposta. Além disso, incorporamos recompensas específicas de recuperação personalizadas juntamente com recompensas de correção de respostas, utilizando otimização de política relativa em grupo. Experimentos em benchmarks de QA de salto único e múltiplos saltos demonstram que o AutoRefine supera significativamente as abordagens existentes, particularmente em cenários complexos de raciocínio de múltiplos saltos. Análises detalhadas mostram que o AutoRefine realiza buscas frequentes e de maior qualidade, além de sintetizar evidências de forma eficaz.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) permitiram que agentes realizassem tarefas complexas e de natureza aberta de forma autônoma. No entanto, muitos frameworks existentes dependem fortemente de ferramentas e fluxos de trabalho predefinidos manualmente, o que limita sua adaptabilidade, escalabilidade e generalização entre domínios. Neste trabalho, apresentamos Alita—um agente generalista projetado com o princípio de "A simplicidade é o último grau de sofisticação", permitindo raciocínio agentivo escalável por meio de pré-definição mínima e auto-evolução máxima. Para a pré-definição mínima, o Alita é equipado com apenas um componente para resolução direta de problemas, tornando-o muito mais simples e organizado do que abordagens anteriores que dependiam fortemente de ferramentas e fluxos de trabalho elaborados e manuais. Esse design limpo aumenta seu potencial de generalização para questões desafiadoras, sem ser limitado por ferramentas. Para a auto-evolução máxima, habilitamos a criatividade do Alita fornecendo um conjunto de componentes de propósito geral para construir, refinar e reutilizar capacidades externas de forma autônoma, gerando protocolos de contexto de modelo (MCPs) relacionados a tarefas a partir de fontes abertas, o que contribui para o raciocínio agentivo escalável. Notavelmente, o Alita alcança 75,15% de precisão pass@1 e 87,27% pass@3, posicionando-se entre os melhores agentes de propósito geral no conjunto de dados de validação do benchmark GAIA, e 74,00% e 52,00% pass@1, respectivamente, em Mathvista e PathVQA, superando muitos sistemas de agentes com complexidade muito maior. Mais detalhes serão atualizados em https://github.com/CharlesQ9/Alita{https://github.com/CharlesQ9/Alita}.
A avaliação automática da geração multimodal apresenta um desafio significativo, uma vez que as métricas automatizadas frequentemente têm dificuldade em se alinhar de forma confiável com a avaliação humana, especialmente para tarefas complexas que envolvem múltiplas modalidades. Para abordar esse problema, apresentamos o MMMG, um benchmark abrangente e alinhado com a avaliação humana para geração multimodal em 4 combinações de modalidades (imagem, áudio, texto e imagem intercalados, texto e áudio intercalados), com foco em tarefas que apresentam desafios significativos para modelos de geração, ao mesmo tempo em que permitem uma avaliação automática confiável por meio de uma combinação de modelos e programas. O MMMG abrange 49 tarefas (incluindo 29 recém-desenvolvidas), cada uma com um pipeline de avaliação cuidadosamente projetado, e 937 instruções para avaliar sistematicamente o raciocínio, a controlabilidade e outras capacidades-chave dos modelos de geração multimodal. Uma validação extensa demonstra que o MMMG está altamente alinhado com a avaliação humana, alcançando uma concordância média de 94,3%. Os resultados de benchmark em 24 modelos de geração multimodal revelam que, embora o modelo state-of-the-art, GPT Image, alcance 78,3% de precisão na geração de imagens, ele fica aquém no raciocínio multimodal e na geração intercalada. Além disso, os resultados sugerem uma margem considerável para melhoria na geração de áudio, destacando uma direção importante para pesquisas futuras.
Modelos de linguagem multimodal de grande escala (MLLMs) permanecem vulneráveis a exemplos adversariais transferíveis. Enquanto os métodos existentes geralmente alcançam ataques direcionados alinhando características globais—como o token [CLS] do CLIP—entre amostras adversariais e alvo, eles frequentemente negligenciam a rica informação local codificada nos tokens de patches. Isso resulta em alinhamento subótimo e transferibilidade limitada, especialmente para modelos de código fechado. Para abordar essa limitação, propomos um método de ataque adversarial transferível direcionado baseado no alinhamento ótimo de características, chamado FOA-Attack, para melhorar a capacidade de transferência adversarial. Especificamente, no nível global, introduzimos uma perda de características globais baseada na similaridade de cosseno para alinhar as características de granularidade grossa das amostras adversariais com as das amostras alvo. No nível local, dada a rica representação local dentro dos Transformers, utilizamos técnicas de agrupamento para extrair padrões locais compactos, a fim de aliviar características locais redundantes. Em seguida, formulamos o alinhamento de características locais entre amostras adversariais e alvo como um problema de transporte ótimo (OT) e propomos uma perda de transporte ótimo com agrupamento local para refinar o alinhamento de características de granularidade fina. Além disso, propomos uma estratégia de ponderação dinâmica de modelos em conjunto para equilibrar adaptativamente a influência de múltiplos modelos durante a geração de exemplos adversariais, melhorando ainda mais a transferibilidade. Experimentos extensivos em vários modelos demonstram a superioridade do método proposto, superando métodos state-of-the-art, especialmente na transferência para MLLMs de código fechado. O código é disponibilizado em https://github.com/jiaxiaojunQAQ/FOA-Attack.
Compreender a perspectiva é fundamental para a percepção visual humana, mas a extensão em que os modelos de linguagem multimodal de grande escala (MLLMs) internalizam a geometria da perspectiva permanece incerta. Apresentamos o MMPerspective, o primeiro benchmark especificamente projetado para avaliar sistematicamente o entendimento da perspectiva pelos MLLMs por meio de 10 tarefas cuidadosamente elaboradas em três dimensões complementares: Percepção de Perspectiva, Raciocínio e Robustez. Nosso benchmark compreende 2.711 instâncias de imagens reais e sintéticas com 5.083 pares de perguntas e respostas que investigam capacidades-chave, como percepção e contagem de pontos de fuga, raciocínio sobre tipos de perspectiva, compreensão de relações de linhas no espaço 3D, invariância a transformações que preservam a perspectiva, entre outros. Por meio de uma avaliação abrangente de 43 MLLMs de última geração, descobrimos limitações significativas: embora os modelos demonstrem competência em tarefas perceptivas de superfície, eles lutam com o raciocínio composicional e a manutenção da consistência espacial sob perturbações. Nossa análise revela ainda padrões intrigantes entre arquitetura, escala e capacidades de perspectiva dos modelos, destacando tanto gargalos de robustez quanto os benefícios do prompting em cadeia de pensamento. O MMPerspective estabelece um valioso campo de testes para diagnosticar e avançar o entendimento espacial em sistemas de visão e linguagem. Recursos disponíveis em: https://yunlong10.github.io/MMPerspective/
Modelos de Linguagem de Grande Escala (LLMs) treinados por meio de Aprendizado por Reforço (RL) têm demonstrado fortes capacidades de raciocínio e comportamentos reflexivos emergentes, como retrocesso e correção de erros. No entanto, o RL Markoviano convencional limita a exploração à fase de treinamento para aprender uma política determinística ótima e depende dos contextos históricos apenas através do estado atual. Portanto, permanece incerto se o raciocínio reflexivo emergirá durante o treinamento de RL Markoviano, ou por que ele é benéfico no momento do teste. Para remediar isso, reformulamos a exploração reflexiva dentro do framework de RL Bayesiano Adaptativo, que otimiza explicitamente o retorno esperado sob uma distribuição posterior sobre processos de decisão de Markov. Essa formulação Bayesiana incentiva intrinsecamente tanto a exploração de maximização de recompensa quanto a exploração de coleta de informações por meio de atualizações de crença. Nosso algoritmo resultante, BARL, instrui o LLM a costurar e alternar estratégias com base nos resultados observados, oferecendo orientação fundamentada sobre quando e como o modelo deve explorar reflexivamente. Resultados empíricos em tarefas de raciocínio sintético e matemático demonstram que o BARL supera abordagens padrão de RL Markoviano no momento do teste, alcançando eficiência superior de tokens com maior eficácia na exploração. Nosso código está disponível em https://github.com/shenao-zhang/BARL.
Apresentamos o SeePhys, um benchmark multimodal em larga escala para raciocínio de LLMs (Large Language Models) fundamentado em questões de física que variam desde o ensino fundamental até exames de qualificação de doutorado. O benchmark abrange 7 domínios fundamentais que percorrem a disciplina de física, incorporando 21 categorias de diagramas altamente heterogêneos. Em contraste com trabalhos anteriores, nos quais os elementos visuais serviam principalmente a propósitos auxiliares, nosso benchmark apresenta uma proporção significativa de problemas essencialmente visuais (75\%) que exigem a extração de informações visuais para soluções corretas. Por meio de uma avaliação extensiva, observamos que mesmo os modelos de raciocínio visual mais avançados (por exemplo, Gemini-2.5-pro e o4-mini) atingem uma precisão inferior a 60\% em nosso benchmark. Esses resultados revelam desafios fundamentais nas capacidades atuais de compreensão visual dos grandes modelos de linguagem, particularmente em: (i) estabelecer um acoplamento rigoroso entre a interpretação de diagramas e o raciocínio físico, e (ii) superar sua dependência persistente em pistas textuais como atalhos cognitivos.
Modelos de difusão de vídeo baseados em Transformers de Difusão (DiT) geram vídeos de alta qualidade em escala, mas incorrem em latência de processamento e custos de memória proibitivos para vídeos longos. Para resolver isso, propomos uma nova estratégia de inferência distribuída, denominada DualParal. A ideia central é que, em vez de gerar um vídeo inteiro em uma única GPU, paralelizamos tanto os quadros temporais quanto as camadas do modelo em várias GPUs. No entanto, uma implementação ingênua dessa divisão enfrenta uma limitação crucial: como os modelos de difusão exigem níveis de ruído sincronizados entre os quadros, essa implementação leva à serialização dos paralelismos originais. Para lidar com isso, utilizamos um esquema de remoção de ruído em blocos. Ou seja, processamos uma sequência de blocos de quadros através do pipeline com níveis de ruído progressivamente decrescentes. Cada GPU lida com um subconjunto específico de blocos e camadas, enquanto passa os resultados anteriores para a próxima GPU, permitindo computação e comunicação assíncronas. Para otimizar ainda mais o desempenho, incorporamos dois aprimoramentos principais. Primeiro, um cache de recursos é implementado em cada GPU para armazenar e reutilizar recursos do bloco anterior como contexto, minimizando a comunicação entre GPUs e a computação redundante. Segundo, empregamos uma estratégia coordenada de inicialização de ruído, garantindo dinâmicas temporais globalmente consistentes ao compartilhar padrões de ruído inicial entre as GPUs sem custos extras de recursos. Juntos, esses elementos permitem a geração de vídeos rápidos, sem artefatos e de duração infinita. Aplicado ao mais recente gerador de vídeo baseado em transformer de difusão, nosso método produz eficientemente vídeos de 1.025 quadros com até 6,54 vezes menos latência e 1,48 vezes menor custo de memória em 8 GPUs RTX 4090.
Modelos visão-linguagem (VLMs) têm alcançado resultados robustos em benchmarks de codificação e matemática que são desafiadores para humanos, mas sua capacidade de realizar tarefas que são naturais para humanos—como percepção, navegação espacial e gerenciamento de memória—permanece pouco estudada. Jogos de vídeo reais são projetados para serem intuitivos para humanos aprenderem e dominarem, aproveitando vieses indutivos inatos, tornando-os um ambiente ideal para avaliar tais capacidades em VLMs. Para isso, apresentamos o VideoGameBench, um benchmark composto por 10 jogos de vídeo populares da década de 1990 com os quais os VLMs interagem diretamente em tempo real. O VideoGameBench desafia os modelos a completar jogos inteiros com acesso apenas a entradas visuais brutas e uma descrição de alto nível dos objetivos e controles, uma abordagem significativamente diferente das configurações existentes que dependem de estruturas específicas do jogo e informações auxiliares. Mantemos três dos jogos em segredo para incentivar soluções que generalizem para ambientes não vistos. Nossos experimentos mostram que os modelos de ponta visão-linguagem têm dificuldade em progredir além do início de cada jogo. Identificamos que a latência de inferência é uma grande limitação dos modelos de ponta no cenário em tempo real; portanto, introduzimos o VideoGameBench Lite, uma configuração em que o jogo pausa enquanto espera a próxima ação do modelo de linguagem. O modelo com melhor desempenho, o Gemini 2.5 Pro, completa apenas 0,48% do VideoGameBench e 1,6% do VideoGameBench Lite. Esperamos que a formalização das habilidades humanas mencionadas neste benchmark motive avanços nessas direções de pesquisa.
À medida que o dimensionamento em tempo de teste se torna uma fronteira crucial de pesquisa no desenvolvimento de Modelos de Linguagem de Grande Escala (LLMs), as metodologias contemporâneas e avançadas de pós-treinamento estão cada vez mais focadas em estender o comprimento da geração de respostas longas de Cadeia de Pensamento (CoT) para aprimorar as capacidades de raciocínio em direção a um desempenho semelhante ao DeepSeek R1. No entanto, estudos recentes revelam um fenômeno persistente de "overthinking" em modelos de raciocínio state-of-the-art, manifestando-se como redundância excessiva ou padrões de pensamento repetitivos em respostas longas de CoT. Para abordar esse problema, neste artigo, propomos uma estrutura simples, porém eficaz, de aprendizado por reforço em dois estágios para alcançar raciocínio conciso em LLMs, denominada ConciseR. Especificamente, o primeiro estágio, utilizando mais etapas de treinamento, visa incentivar as capacidades de raciocínio do modelo por meio da Otimização de Política Relativa em Grupo com componentes de recorte superior e amostragem dinâmica (GRPO++), enquanto o segundo estágio, utilizando menos etapas de treinamento, impõe explicitamente a concisão e melhora a eficiência por meio da Otimização de Política Relativa em Grupo Consciente do Comprimento (L-GRPO). De forma significativa, o ConciseR otimiza o comprimento da resposta apenas quando todas as execuções de uma amostra estão corretas, seguindo o princípio de "andar antes de correr". Resultados experimentais extensivos demonstram que nosso modelo ConciseR, que gera respostas de raciocínio CoT mais concisas, supera os modelos de raciocínio state-of-the-art recentes com o paradigma de RL zero em benchmarks como AIME 2024, MATH-500, AMC 2023, Minerva e Olimpíadas.
A capacidade de seguir instruções (IF) é uma habilidade crítica para grandes modelos de linguagem (LLMs). No entanto, lidar com instruções complexas que envolvem múltiplas restrições continua sendo um desafio. Métodos anteriores geralmente selecionam pares de preferência com base no número de restrições que satisfazem, introduzindo ruído onde exemplos escolhidos podem falhar em seguir algumas restrições, enquanto exemplos rejeitados podem se destacar em certos aspectos em relação aos escolhidos. Para enfrentar o desafio de alinhar múltiplas preferências, propomos um método simples, porém eficaz, chamado Otimização de Preferência Reversa (RPO). Ele mitiga o ruído nos pares de preferência ao reverter dinamicamente as restrições dentro da instrução, garantindo que a resposta escolhida seja perfeita, aliviando a necessidade de amostragem extensiva e filtragem para coletar respostas perfeitas. Além disso, a reversão também amplia a diferença entre respostas escolhidas e rejeitadas, esclarecendo a direção de otimização e tornando-a mais robusta ao ruído. Avaliamos o RPO em dois benchmarks de IF multi-turn, Sysbench e Multi-IF, demonstrando melhorias médias em relação à linha de base DPO de 4,6 e 2,5 pontos (no Llama-3.1 8B), respectivamente. Além disso, o RPO escala efetivamente em diferentes tamanhos de modelos (8B a 70B parâmetros), com o modelo RPO de 70B superando o GPT-4o.
O rápido avanço dos Modelos Multimodais de Grande Escala (LMMs) para imagens e vídeos 2D motivou a extensão desses modelos para compreender cenas 3D, visando uma inteligência visual-espacial semelhante à humana. No entanto, alcançar um entendimento espacial profundo comparável às capacidades humanas apresenta desafios significativos na codificação do modelo e na aquisição de dados. Os métodos existentes frequentemente dependem de sensores de profundidade externos para captura de geometria ou utilizam algoritmos prontos para pré-construir mapas 3D, limitando assim sua escalabilidade, especialmente com entradas de vídeo monoculares predominantes e para aplicações sensíveis ao tempo. Neste trabalho, apresentamos o VLM-3R, uma estrutura unificada para Modelos de Visão e Linguagem (VLMs) que incorpora ajuste de instruções reconstrutivas 3D. O VLM-3R processa quadros de vídeo monoculares empregando um codificador de geometria para derivar tokens 3D implícitos que representam o entendimento espacial. Aproveitando nossa Fusão Espacial-Visual-View e mais de 200K pares de perguntas e respostas (QA) de ajuste de instruções reconstrutivas 3D, o VLM-3R alinha efetivamente o contexto espacial do mundo real com instruções de linguagem. Isso permite assistência espacial 3D monocular e raciocínio incorporado. Para facilitar a avaliação do raciocínio temporal, introduzimos o benchmark de Inteligência Espacial-Temporal-Visual, apresentando mais de 138,6K pares de QA em cinco tarefas distintas focadas em relações espaciais em evolução. Experimentos extensivos demonstram que nosso modelo, VLM-3R, não apenas facilita um raciocínio visual-espacial robusto, mas também permite a compreensão de mudanças contextuais 3D temporais, destacando-se tanto em precisão quanto em escalabilidade.
A compressão pós-treinamento reduz os custos computacionais e de memória de grandes modelos de linguagem (LLMs), permitindo uma implantação eficiente em termos de recursos. No entanto, os benchmarks de compressão existentes focam apenas em modelagem de linguagem (por exemplo, perplexidade) e tarefas de compreensão de linguagem natural (por exemplo, precisão no GLUE), ignorando as capacidades agentivas - fluxo de trabalho, uso de ferramentas/chamadas de função, compreensão de contexto longo e aplicação no mundo real. Introduzimos o Agent Compression Benchmark (ACBench), o primeiro benchmark abrangente para avaliar como a compressão impacta as habilidades agentivas dos LLMs. O ACBench abrange (1) 12 tarefas em 4 capacidades (por exemplo, WorfBench para geração de fluxo de trabalho, Needle-in-Haystack para recuperação de contexto longo), (2) quantização (GPTQ, AWQ) e poda (Wanda, SparseGPT), e (3) 15 modelos, incluindo pequenos (Gemma-2B), padrão (Qwen2.5 7B-32B) e LLMs de raciocínio destilados (DeepSeek-R1-Distill). Nossos experimentos revelam tradeoffs de compressão: a quantização de 4 bits preserva a geração de fluxo de trabalho e o uso de ferramentas (queda de 1%-3%), mas degrada a precisão da aplicação no mundo real em 10%-15%. Introduzimos ERank, Correlação de Ranking Top-k e Energia para sistematizar a análise. O ACBench fornece insights acionáveis para otimizar a compressão de LLMs em cenários agentivos. O código pode ser encontrado em https://github.com/pprp/ACBench.
Os recentes avanços nos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm mostrado resultados promissores na integração de diversas modalidades, como textos e imagens. No entanto, os MLLMs são fortemente influenciados pelo viés de modalidade, frequentemente dependendo da linguagem enquanto subutilizam outras modalidades, como entradas visuais. Este artigo de posicionamento argumenta que os MLLMs são profundamente afetados pelo viés de modalidade. Primeiramente, diagnosticamos o estado atual do viés de modalidade, destacando suas manifestações em várias tarefas. Em segundo lugar, propomos um roteiro de pesquisa sistemático relacionado ao viés de modalidade em MLLMs. Terceiro, identificamos os principais fatores do viés de modalidade em MLLMs e oferecemos sugestões práticas para pesquisas futuras que visem mitigá-lo. Para corroborar essas descobertas, conduzimos experimentos que demonstram a influência de cada fator: 1. Características dos Dados: Os dados linguísticos são compactos e abstratos, enquanto os dados visuais são redundantes e complexos, criando um desequilíbrio inerente na dinâmica de aprendizado. 2. Capacidades Desequilibradas do Backbone: A dominância de modelos de linguagem pré-treinados em MLLMs leva a uma dependência excessiva da linguagem e ao descuido das informações visuais. 3. Objetivos de Treinamento: Os objetivos atuais frequentemente falham em promover um alinhamento multimodal equilibrado, resultando em um aprendizado por atalhos tendencioso para a linguagem. Essas descobertas destacam a necessidade de estratégias de treinamento e arquiteturas de modelo mais equilibradas para integrar melhor múltiplas modalidades em MLLMs. Conclamamos esforços interdisciplinares para enfrentar esses desafios e impulsionar a inovação na pesquisa de MLLMs. Nosso trabalho oferece uma nova perspectiva sobre o viés de modalidade em MLLMs e fornece insights para o desenvolvimento de sistemas multimodais mais robustos e generalizáveis, avançando o progresso em direção à Inteligência Artificial Geral.
O frame inbetweening tem como objetivo sintetizar sequências de vídeo intermediárias condicionadas aos quadros inicial e final fornecidos. Os métodos atuais de ponta estendem principalmente modelos de difusão de imagem para vídeo (I2V-DMs) pré-treinados em grande escala, incorporando restrições do quadro final por meio de ajuste fino direto ou omitindo o treinamento. Identificamos uma limitação crítica em seu design: a injeção da restrição do quadro final geralmente utiliza o mesmo mecanismo que originalmente impôs a restrição do quadro inicial (imagem única). No entanto, como os I2V-DMs originais já são adequadamente treinados para a condição do quadro inicial com antecedência, a introdução ingênua da restrição do quadro final pelo mesmo mecanismo com muito menos (ou mesmo nenhum) treinamento especializado provavelmente não pode fazer com que o quadro final tenha um impacto suficientemente forte no conteúdo intermediário, como o quadro inicial. Essa assimetria na força de controle dos dois quadros sobre o conteúdo intermediário provavelmente leva a movimentos inconsistentes ou colapso de aparência nos quadros gerados. Para alcançar eficientemente restrições simétricas dos quadros inicial e final, propomos uma nova estrutura, denominada Sci-Fi, que aplica uma injeção mais forte para a restrição de uma escala de treinamento menor. Especificamente, ela trata a restrição do quadro inicial como antes, enquanto introduz a restrição do quadro final por meio de um mecanismo aprimorado. O novo mecanismo é baseado em um módulo leve bem projetado, chamado EF-Net, que codifica apenas o quadro final e o expande em recursos temporais adaptativos por quadro, injetados no I2V-DM. Isso torna a restrição do quadro final tão forte quanto a do quadro inicial, permitindo que nosso Sci-Fi produza transições mais harmoniosas em vários cenários. Experimentos extensivos comprovam a superioridade do nosso Sci-Fi em comparação com outras abordagens de referência.
A recuperação de informações multimodais (MIR) enfrenta desafios inerentes devido à heterogeneidade das fontes de dados e à complexidade do alinhamento entre modalidades. Embora estudos anteriores tenham identificado lacunas modais nos espaços de características, uma abordagem sistemática para resolver esses desafios permanece inexplorada. Neste trabalho, apresentamos o UNITE, um framework universal que aborda esses desafios por meio de dois aspectos críticos, mas pouco explorados: a curadoria de dados e configurações de treinamento conscientes da modalidade. Nosso trabalho fornece a primeira análise abrangente de como as propriedades específicas dos dados de cada modalidade influenciam o desempenho em tarefas subsequentes em diversos cenários. Além disso, propomos o Aprendizado Contrastivo Mascarado Consciente da Modalidade (MAMCL) para mitigar as relações competitivas entre as instâncias de diferentes modalidades. Nosso framework alcança resultados de ponta em vários benchmarks de recuperação multimodal, superando os métodos existentes por margens significativas. Por meio de extensos experimentos, demonstramos que a curadoria estratégica de modalidades e protocolos de treinamento personalizados são fundamentais para o aprendizado robusto de representações cruzadas entre modalidades. Este trabalho não apenas avança o desempenho da MIR, mas também fornece um plano fundamental para pesquisas futuras em sistemas multimodais. Nosso projeto está disponível em https://friedrichor.github.io/projects/UNITE.
Com o rápido avanço das técnicas de pós-treinamento para raciocínio e busca de informações, os grandes modelos de linguagem (LLMs) podem incorporar uma grande quantidade de conhecimento recuperado para resolver tarefas complexas. No entanto, a janela de contexto limitada dos LLMs impede a escalabilidade da quantidade de conhecimento externo inserido, limitando melhorias adicionais, especialmente para tarefas que exigem uma quantidade significativa de conhecimento externo. Os métodos existentes de extensão da janela de contexto inevitavelmente causam perda de informações. Métodos baseados em LLMs com múltiplos agentes surgem como um novo paradigma para lidar com entradas massivas de forma distribuída, onde identificamos dois gargalos principais nos processos existentes de sincronização de conhecimento e raciocínio. Neste trabalho, desenvolvemos uma estrutura de múltiplos agentes, ExtAgents, para superar esses gargalos e permitir uma melhor escalabilidade na integração de conhecimento durante a inferência, sem a necessidade de treinamento com contextos mais longos. Avaliado com nosso teste aprimorado de resposta a perguntas multi-hop, $boldsymbol{inftyBench+}, e outros conjuntos de testes públicos, incluindo a geração de pesquisas longas, o ExtAgents melhora significativamente o desempenho em relação aos métodos existentes que não envolvem treinamento, com a mesma quantidade de conhecimento externo inserido, independentemente de estar dentro ou além da janela de contexto$. Além disso, o método mantém alta eficiência devido ao alto paralelismo. Um estudo adicional sobre a coordenação de agentes LLMs com o aumento do conhecimento externo inserido pode beneficiar aplicações do mundo real.
Pesquisadores biomédicos estão cada vez mais dependendo de bancos de dados estruturados em larga escala para tarefas analíticas complexas. No entanto, os sistemas atuais de conversão de texto para SQL frequentemente enfrentam dificuldades para mapear questões científicas qualitativas em SQL executável, especialmente quando raciocínio implícito do domínio é necessário. Apresentamos o BiomedSQL, o primeiro benchmark explicitamente projetado para avaliar o raciocínio científico na geração de texto para SQL sobre uma base de conhecimento biomédica do mundo real. O BiomedSQL compreende 68.000 triplas de pergunta/consulta SQL/resposta, ancoradas em uma base de conhecimento harmonizada do BigQuery que integra associações gene-doença, inferência causal a partir de dados ômicos e registros de aprovação de medicamentos. Cada questão exige que os modelos infiram critérios específicos do domínio, como limiares de significância em todo o genoma, direcionalidade do efeito ou filtragem por fase de ensaio, em vez de depender apenas de tradução sintática. Avaliamos uma variedade de modelos de linguagem de código aberto e fechado em diferentes estratégias de prompt e paradigmas de interação. Nossos resultados revelam uma lacuna substancial de desempenho: o GPT-o3-mini alcança 59,0% de precisão na execução, enquanto nosso agente personalizado de múltiplos passos, BMSQL, atinge 62,6%, ambos bem abaixo da linha de base de especialistas de 90,0%. O BiomedSQL fornece uma nova base para avançar sistemas de texto para SQL capazes de apoiar a descoberta científica por meio de raciocínio robusto sobre bases de conhecimento biomédicas estruturadas. Nosso conjunto de dados está publicamente disponível em https://huggingface.co/datasets/NIH-CARD/BiomedSQL, e nosso código é de código aberto em https://github.com/NIH-CARD/biomedsql.
Modelos de Linguagem de Grande Escala (LLMs) são poderosos, mas propensos a alucinações devido ao conhecimento estático. A Geração Aumentada por Recuperação (RAG) ajuda ao injetar informações externas, mas os métodos atuais frequentemente são custosos, generalizam mal ou ignoram o conhecimento interno do modelo. Neste artigo, introduzimos o R1-Searcher++, uma nova estrutura projetada para treinar LLMs a aproveitar de forma adaptativa tanto fontes de conhecimento internas quanto externas. O R1-Searcher++ emprega uma estratégia de treinamento em duas etapas: uma fase inicial de Cold-start com Ajuste Fino Supervisionado (SFT) para aprendizado preliminar de formato, seguida por Aprendizado por Reforço (RL) para Aquisição Dinâmica de Conhecimento. A etapa de RL utiliza supervisão de resultados para incentivar a exploração, incorpora um mecanismo de recompensa para utilização do conhecimento interno e integra um mecanismo de memorização para assimilar continuamente as informações recuperadas, enriquecendo assim o conhecimento interno do modelo. Ao aproveitar o conhecimento interno e um mecanismo de busca externo, o modelo melhora continuamente suas capacidades, permitindo um raciocínio aumentado por recuperação eficiente. Nossos experimentos demonstram que o R1-Searcher++ supera métodos anteriores de RAG e raciocínio e alcança uma recuperação eficiente. O código está disponível em https://github.com/RUCAIBox/R1-Searcher-plus.
À medida que os modelos de linguagem de grande escala aumentam em capacidade e agência, identificar vulnerabilidades por meio de red-teaming torna-se crucial para uma implantação segura. No entanto, abordagens tradicionais de engenharia de prompts podem se mostrar ineficazes uma vez que o red-teaming se transforma em um problema de fraco para forte, onde os modelos-alvo superam os red-teamers em capacidades. Para estudar essa mudança, enquadramos o red-teaming através da lente da diferença de capacidade entre atacante e alvo. Avaliamos mais de 500 pares atacante-alvo usando ataques de jailbreak baseados em LLM que imitam red-teamers humanos em diversas famílias, tamanhos e níveis de capacidade. Três tendências fortes emergem: (i) modelos mais capazes são melhores atacantes, (ii) o sucesso do ataque cai drasticamente quando a capacidade do alvo excede a do atacante, e (iii) as taxas de sucesso do ataque correlacionam-se com alto desempenho nas divisões de ciências sociais do benchmark MMLU-Pro. A partir dessas tendências, derivamos uma lei de escalonamento de jailbreaking que prevê o sucesso do ataque para um alvo fixo com base na diferença de capacidade entre atacante e alvo. Essas descobertas sugerem que atacantes de capacidade fixa (por exemplo, humanos) podem se tornar ineficazes contra modelos futuros, modelos de código aberto cada vez mais capazes amplificam os riscos para sistemas existentes, e os provedores de modelos devem medir e controlar com precisão as habilidades persuasivas e manipulativas dos modelos para limitar sua eficácia como atacantes.
A Extração de Fala Alvo (TSE, do inglês Target Speech Extraction) visa isolar a voz de um falante específico de uma mistura de múltiplos falantes, utilizando pistas específicas do locutor, geralmente fornecidas como áudio auxiliar (também conhecido como áudio de referência). Embora os avanços recentes em TSE tenham empregado principalmente modelos discriminativos que oferecem alta qualidade perceptual, esses modelos frequentemente introduzem artefatos indesejados, reduzem a naturalidade e são sensíveis a discrepâncias entre os ambientes de treinamento e teste. Por outro lado, os modelos generativos para TSE ficam aquém em qualidade perceptual e inteligibilidade. Para enfrentar esses desafios, apresentamos o SoloSpeech, um novo pipeline generativo em cascata que integra processos de compressão, extração, reconstrução e correção. O SoloSpeech apresenta um extrator de fala alvo que dispensa embeddings de falantes, utilizando informações condicionais do espaço latente do áudio de referência e alinhando-o com o espaço latente do áudio misto para evitar incompatibilidades. Avaliado no amplamente utilizado conjunto de dados Libri2Mix, o SoloSpeech alcança o novo estado da arte em inteligibilidade e qualidade para tarefas de extração de fala alvo e separação de fala, demonstrando ainda uma generalização excepcional em dados fora do domínio e cenários do mundo real.
Os modelos state-of-the-art de geração de texto-para-movimento dependem da representação de movimento local-relativa e cinematicamente consciente popularizada pelo HumanML3D, que codifica o movimento em relação à pelve e ao quadro anterior com redundância incorporada. Embora esse design simplifique o treinamento para modelos de geração anteriores, ele introduz limitações críticas para modelos de difusão e dificulta a aplicabilidade em tarefas subsequentes. Neste trabalho, revisitamos a representação de movimento e propomos uma alternativa radicalmente simplificada e há muito abandonada para a geração de texto-para-movimento: coordenadas absolutas das articulações no espaço global. Por meio de uma análise sistemática das escolhas de design, mostramos que essa formulação alcança uma fidelidade de movimento significativamente maior, melhor alinhamento de texto e forte escalabilidade, mesmo com uma arquitetura simples de Transformer e sem perdas auxiliares cinematicamente conscientes. Além disso, nossa formulação suporta naturalmente tarefas subsequentes, como controle de movimento orientado por texto e edição temporal/espacial, sem a necessidade de reengenharia específica para a tarefa e geração custosa de orientação por classificador a partir de sinais de controle. Por fim, demonstramos uma generalização promissora ao gerar diretamente vértices de malha SMPL-H em movimento a partir de texto, estabelecendo uma base sólida para pesquisas futuras e aplicações relacionadas a movimento.
Os recentes avanços em modelos de linguagem multimodal de grande escala (MLLMs) têm aprimorado significativamente suas capacidades; no entanto, suas habilidades de percepção espacial continuam sendo uma limitação notável. Para enfrentar esse desafio, a síntese de dados multimodal oferece uma solução promissora. Contudo, garantir que os dados sintetizados estejam alinhados com o senso comum espacial é uma tarefa não trivial. Neste trabalho, apresentamos o SKG2Data, uma nova abordagem de síntese multimodal guiada por grafos de conhecimento espacial, fundamentada no conceito de geração de conhecimento para dados. O SKG2Data constrói automaticamente um Grafo de Conhecimento Espacial (SKG) para emular a percepção humana de direções e distâncias espaciais, que é subsequentemente utilizado para orientar a síntese de dados multimodal. Experimentos extensivos demonstram que os dados sintetizados a partir de diversos tipos de conhecimento espacial, incluindo direção e distância, não apenas aprimoram as habilidades de percepção e raciocínio espacial dos MLLMs, mas também exibem fortes capacidades de generalização. Esperamos que a ideia de síntese de dados baseada em conhecimento possa impulsionar o desenvolvimento da inteligência espacial.
Enquanto os sistemas de experimentação virtual (VTON) visam renderizar uma peça de roupa em uma imagem de uma pessoa alvo, este artigo aborda a nova tarefa de remoção virtual (VTOFF), que trata do problema inverso: gerar imagens padronizadas de produtos de roupas a partir de fotos reais de indivíduos vestidos. Diferente do VTON, que deve resolver diversas variações de pose e estilo, o VTOFF se beneficia de um formato de saída consistente e bem definido -- tipicamente uma representação plana e deitada da peça de roupa -- tornando-o uma ferramenta promissora para geração de dados e aprimoramento de conjuntos de dados. No entanto, as abordagens existentes de VTOFF enfrentam duas grandes limitações: (i) dificuldade em separar as características da roupa de oclusões e poses complexas, frequentemente resultando em artefatos visuais, e (ii) aplicabilidade restrita a peças de uma única categoria (por exemplo, apenas roupas da parte superior do corpo), limitando a generalização. Para enfrentar esses desafios, apresentamos o Text-Enhanced MUlti-category Virtual Try-Off (TEMU-VTOFF), uma nova arquitetura que apresenta uma estrutura dual baseada em DiT com um mecanismo de atenção multimodal modificado para extração robusta de características da roupa. Nossa arquitetura é projetada para receber informações da roupa de múltiplas modalidades, como imagens, texto e máscaras, para funcionar em um cenário de múltiplas categorias. Por fim, propomos um módulo adicional de alinhamento para refinar ainda mais os detalhes visuais gerados. Experimentos nos conjuntos de dados VITON-HD e Dress Code mostram que o TEMU-VTOFF estabelece um novo estado da arte na tarefa de VTOFF, melhorando significativamente tanto a qualidade visual quanto a fidelidade às peças de roupa alvo.
A área de Forense Digital e Resposta a Incidentes (DFIR, na sigla em inglês) envolve a análise de evidências digitais para apoiar investigações legais. Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) oferecem novas oportunidades em tarefas de DFIR, como análise de logs e forense de memória, mas sua suscetibilidade a erros e alucinações levanta preocupações em contextos de alta responsabilidade. Apesar do crescente interesse, não há um benchmark abrangente para avaliar LLMs tanto em domínios teóricos quanto práticos de DFIR. Para preencher essa lacuna, apresentamos o DFIR-Metric, um benchmark composto por três componentes: (1) Avaliação de Conhecimento: um conjunto de 700 questões de múltipla escolha revisadas por especialistas, extraídas de certificações padrão da indústria e documentação oficial; (2) Desafios Forenses Realistas: 150 tarefas no estilo Capture the Flag (CTF) que testam raciocínio em múltiplas etapas e correlação de evidências; e (3) Análise Prática: 500 casos de forense de disco e memória do Programa de Testes de Ferramentas de Forense Computacional do NIST (CFTT, na sigla em inglês). Avaliamos 14 LLMs usando o DFIR-Metric, analisando tanto sua precisão quanto consistência ao longo dos testes. Também introduzimos uma nova métrica, o Task Understanding Score (TUS), projetado para avaliar de forma mais eficaz os modelos em cenários onde eles atingem precisão próxima de zero. Este benchmark oferece uma base rigorosa e reproduzível para o avanço da IA na forense digital. Todos os scripts, artefatos e resultados estão disponíveis no site do projeto em https://github.com/DFIR-Metric.
Modelos Visão-Linguagem (VLMs) se destacam em diversas tarefas, mas sofrem com altos custos de inferência em tempo e memória. A esparsidade de tokens mitiga ineficiências no uso de tokens, enquanto a esparsidade de neurônios reduz computações de alta dimensionalidade, ambas oferecendo soluções promissoras para melhorar a eficiência. Recentemente, esses dois paradigmas de esparsidade evoluíram em grande parte em paralelo, reforçando a suposição predominante de que funcionam de forma independente. No entanto, uma questão fundamental e ainda pouco explorada permanece: Eles realmente operam isoladamente, ou há uma interação subjacente mais profunda que ainda não foi descoberta? Neste artigo, realizamos a primeira investigação abrangente sobre essa questão. Ao introduzir e analisar o mecanismo de correspondência entre Neurônios Centrais e Tokens Centrais, descobrimos que os neurônios e tokens-chave para inferência influenciam e reforçam mutuamente uns aos outros. Com base nessa percepção, propomos o CoreMatching, uma estrutura de inferência esparsa co-adaptativa, que aproveita a sinergia entre a esparsidade de tokens e neurônios para melhorar a eficiência da inferência. Por meio de análise teórica e avaliações de eficiência, demonstramos que o método proposto supera os baselines state-of-the-art em dez tarefas de compreensão de imagem e três dispositivos de hardware. Notavelmente, no NVIDIA Titan Xp, alcançou uma redução de 5x em FLOPs e um aumento de velocidade geral de 10x. O código está disponível em https://github.com/wangqinsi1/2025-ICML-CoreMatching/tree/main.
Com o rápido avanço dos modelos generativos, a geração de propósito geral tem ganhado crescente atenção como uma abordagem promissora para unificar diversas tarefas entre modalidades em um único sistema. Apesar desse progresso, os frameworks de código aberto existentes frequentemente permanecem frágeis e lutam para suportar aplicações complexas do mundo real devido à falta de planejamento estruturado de fluxo de trabalho e feedback no nível de execução. Para abordar essas limitações, apresentamos o ComfyMind, um sistema de IA colaborativo projetado para permitir geração de propósito geral robusta e escalável, construído na plataforma ComfyUI. O ComfyMind introduz duas inovações principais: a Interface de Fluxo de Trabalho Semântico (SWI), que abstrai gráficos de nós de baixo nível em módulos funcionais chamáveis descritos em linguagem natural, permitindo composição de alto nível e reduzindo erros estruturais; e o mecanismo de Planejamento de Árvore de Busca com execução de feedback localizado, que modela a geração como um processo de decisão hierárquico e permite correção adaptativa em cada estágio. Juntos, esses componentes melhoram a estabilidade e a flexibilidade de fluxos de trabalho generativos complexos. Avaliamos o ComfyMind em três benchmarks públicos: ComfyBench, GenEval e Reason-Edit, que abrangem tarefas de geração, edição e raciocínio. Os resultados mostram que o ComfyMind consistentemente supera as baselines de código aberto existentes e alcança desempenho comparável ao GPT-Image-1. O ComfyMind abre um caminho promissor para o desenvolvimento de sistemas de IA generativa de propósito geral de código aberto. Página do projeto: https://github.com/LitaoGuo/ComfyMind
Neste trabalho, buscamos incentivar a capacidade de raciocínio dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs) por meio de aprendizado por reforço (RL) e desenvolver uma abordagem eficaz que mitigue os problemas de recompensa esparsa e desaparecimento de vantagem durante o RL. Para isso, propomos o Share-GRPO, uma nova abordagem de RL que aborda essas questões explorando e compartilhando trajetórias de raciocínio diversas em um espaço de questões expandido. Especificamente, o Share-GRPO primeiro expande o espaço de questões para uma determinada pergunta por meio de técnicas de transformação de dados e, em seguida, incentiva o MLLM a explorar efetivamente trajetórias de raciocínio diversas no espaço de questões expandido e compartilha as trajetórias de raciocínio descobertas entre as questões expandidas durante o RL. Além disso, o Share-GRPO também compartilha informações de recompensa durante o cálculo da vantagem, estimando as vantagens das soluções de forma hierárquica entre e dentro das variantes de questões, permitindo uma estimativa mais precisa das vantagens relativas e melhorando a estabilidade do treinamento da política. Avaliações extensas em seis benchmarks de raciocínio amplamente utilizados demonstram o desempenho superior do nosso método. O código estará disponível em https://github.com/HJYao00/R1-ShareVL.
Arquiteturas de mistura de especialistas (MoE) permitem escalar modelos de linguagem grandes (LLMs) para contagens vastas de parâmetros sem um aumento proporcional nos custos computacionais. No entanto, as demandas significativas de memória de grandes modelos MoE dificultam sua implantação em diversos ambientes computacionais, desde servidores em nuvem até dispositivos de consumo. Este estudo primeiro demonstra uma especialização acentuada e específica de tarefas nos padrões de ativação de especialistas dentro das camadas MoE. Com base nisso, introduzimos o PreMoe, uma nova estrutura que possibilita a implantação eficiente de modelos MoE massivos em ambientes com restrições de memória. O PreMoe apresenta dois componentes principais: poda probabilística de especialistas (PEP) e recuperação de especialistas adaptativa à tarefa (TAER). O PEP emprega uma nova métrica, o escore esperado de seleção condicionado à tarefa (TCESS), derivado dos logits do roteador para quantificar a importância dos especialistas para tarefas específicas, identificando assim um conjunto mínimo de especialistas críticos. O TAER aproveita esses perfis de importância de especialistas específicos da tarefa para inferência eficiente. Ele pré-computa e armazena padrões compactos de especialistas para diversas tarefas. Quando uma consulta do usuário é recebida, o TAER identifica rapidamente o padrão de tarefa armazenado mais relevante e reconstrói o modelo carregando apenas o pequeno subconjunto de especialistas crucial para essa tarefa. Essa abordagem reduz drasticamente a pegada de memória em todos os cenários de implantação. O DeepSeek-R1 671B mantém 97,2% de precisão no MATH500 quando podado para a configuração 8/128 (redução de 50% nos especialistas), e ainda alcança 72,0% com uma poda agressiva de 8/32 (redução de 87,5% nos especialistas). O Pangu-Ultra-MoE 718B atinge 97,15% no MATH500 e 81,3% no AIME24 com poda 8/128, enquanto uma poda ainda mais agressiva para 4/64 (390GB de memória) preserva 96,95% de precisão no MATH500. Disponibilizamos nosso código publicamente em https://github.com/JarvisPei/PreMoe.
Algoritmos de programação dinâmica (DP) para problemas de otimização combinatória funcionam utilizando maximização, minimização e adição clássica em seus algoritmos recursivos. As funções de valor associadas correspondem a poliedros convexos no semianel max-plus. No entanto, os modelos existentes de Raciocínio Algorítmico Neural dependem de atenção baseada no produto escalar normalizado por softmax, onde a ponderação exponencial suavizada desfoca essas estruturas poliedrais nítidas e colapsa quando avaliada em cenários fora da distribuição (OOD). Introduzimos a atenção Tropical, uma nova função de atenção que opera nativamente no semianel max-plus da geometria tropical. Provamos que a atenção Tropical pode aproximar circuitos tropicais de algoritmos combinatórios do tipo DP. Em seguida, propomos que o uso de transformadores Tropicais melhora o desempenho empírico OOD tanto na generalização de comprimento quanto na generalização de valor, em tarefas de raciocínio algorítmico, superando as baselines de softmax enquanto permanece estável sob ataques adversários. Também apresentamos a generalização contra ataques adversários como um terceiro eixo para avaliação de Raciocínio Algorítmico Neural. Nossos resultados demonstram que a atenção Tropical restaura o raciocínio nítido e invariante em escala ausente no softmax.
O DeepSeek-R1 demonstrou capacidades de raciocínio poderosas no domínio textual por meio de aprendizado por reforço (RL) estável. Recentemente, no domínio multimodal, trabalhos começaram a aplicar diretamente o RL para gerar raciocínio livre semelhante ao R1 em tarefas de Visual Question Answering (VQA). No entanto, tarefas multimodais compartilham uma natureza intrinsecamente diferente das tarefas textuais, que dependem fortemente da compreensão da imagem de entrada para resolver o problema. Portanto, esse raciocínio livre enfrenta duas limitações críticas na tarefa de VQA: (1) Cadeias de raciocínio estendidas dispersam o foco visual das regiões críticas para a tarefa, degradando a precisão das respostas. (2) Etapas intermediárias não verificáveis amplificam a variância do gradiente de política e os custos computacionais adicionais. Para abordar esses problemas, neste artigo, introduzimos o SATORI (Spatially Anchored Task Optimization with Reinforcement Learning), que decompõe o VQA em três estágios verificáveis, incluindo a descrição global da imagem, a localização de regiões e a previsão de respostas, cada um fornecendo sinais de recompensa explícitos. Além disso, também introduzimos o VQA-Verify, um conjunto de dados de 12k anotado com legendas e caixas delimitadoras alinhadas às respostas para facilitar o treinamento. Experimentos demonstram melhorias consistentes de desempenho em sete benchmarks de VQA, alcançando uma melhoria de até 15,7% na precisão em comparação com a linha de base semelhante ao R1. Nossa análise do mapa de atenção confirma um foco aprimorado nas regiões críticas, o que traz melhorias na precisão. Nosso código está disponível em https://github.com/justairr/SATORI-R1.
Agentes Web baseados em Modelos de Visão e Linguagem (VLM) representam um avanço significativo na automação de tarefas complexas ao simular interações humanas com websites. No entanto, sua implantação em ambientes web não controlados introduz vulnerabilidades de segurança consideráveis. Pesquisas existentes sobre ataques de injeção ambiental adversária frequentemente dependem de suposições irrealistas, como manipulação direta de HTML, conhecimento da intenção do usuário ou acesso aos parâmetros do modelo do agente, limitando sua aplicabilidade prática. Neste artigo, propomos o AdInject, um método de ataque em caixa-preta inovador e aplicável ao mundo real que utiliza a entrega de publicidade na internet para injetar conteúdo malicioso no ambiente do Agente Web. O AdInject opera sob um modelo de ameaça significativamente mais realista do que trabalhos anteriores, assumindo um agente em caixa-preta, restrições de conteúdo malicioso estático e nenhum conhecimento específico da intenção do usuário. O AdInject inclui estratégias para projetar conteúdo publicitário malicioso com o objetivo de enganar os agentes e levá-los a clicar, além de uma técnica de otimização de conteúdo publicitário baseada em VLM que infere possíveis intenções do usuário a partir do contexto do website alvo e integra essas intenções no conteúdo do anúncio para torná-lo mais relevante ou crítico para a tarefa do agente, aumentando assim a eficácia do ataque. Avaliações experimentais demonstram a eficácia do AdInject, com taxas de sucesso de ataque superiores a 60% na maioria dos cenários e próximas de 100% em certos casos. Isso demonstra fortemente que a entrega de publicidade prevalente constitui um vetor potente e realista para ataques de injeção ambiental contra Agentes Web. Este trabalho destaca uma vulnerabilidade crítica na segurança dos Agentes Web decorrente de canais de manipulação ambiental do mundo real, enfatizando a necessidade urgente de desenvolver mecanismos de defesa robustos contra tais ameaças. Nosso código está disponível em https://github.com/NicerWang/AdInject.
Compreender as fontes de incerteza de um modelo em relação às suas previsões é crucial para uma colaboração eficaz entre humanos e IA. Trabalhos anteriores propõem o uso de incerteza numérica ou expressões de hesitação ("Não tenho certeza, mas..."), que não explicam a incerteza decorrente de evidências conflitantes, deixando os usuários incapazes de resolver discordâncias ou confiar na saída. Apresentamos o CLUE (Conflict-and-Agreement-aware Language-model Uncertainty Explanations), o primeiro framework para gerar explicações em linguagem natural sobre a incerteza do modelo, ao (i) identificar relações entre trechos de texto que revelam conflitos ou concordâncias entre afirmações e evidências ou entre evidências, que impulsionam a incerteza preditiva do modelo de forma não supervisionada, e (ii) gerar explicações por meio de prompts e direcionamento de atenção que verbalizam essas interações críticas. Em três modelos de linguagem e dois conjuntos de dados de verificação de fatos, mostramos que o CLUE produz explicações mais fiéis à incerteza do modelo e mais consistentes com decisões de verificação de fatos do que solicitar explicações de incerteza sem orientação sobre interações entre trechos. Avaliadores humanos consideram nossas explicações mais úteis, mais informativas, menos redundantes e mais logicamente consistentes com a entrada do que essa linha de base. O CLUE não requer ajuste fino ou alterações arquitetônicas, tornando-o plug-and-play para qualquer modelo de linguagem de caixa branca. Ao vincular explicitamente a incerteza a conflitos de evidências, ele oferece suporte prático para verificação de fatos e se generaliza facilmente para outras tarefas que exigem raciocínio sobre informações complexas.
Os grandes modelos de linguagem (LLMs) são cada vez mais reconhecidos como ferramentas poderosas para a descoberta científica, particularmente na ciência molecular. Um requisito fundamental para esses modelos é a capacidade de compreender com precisão estruturas moleculares, comumente codificadas na representação SMILES. No entanto, os LLMs atuais têm dificuldade em interpretar SMILES, falhando até mesmo em realizar tarefas básicas, como contar anéis moleculares. Para abordar essa limitação, introduzimos o CLEANMOL, uma estrutura inovadora que formula a análise de SMILES em um conjunto de tarefas limpas e determinísticas, explicitamente projetadas para promover a compreensão molecular em nível de grafo. Essas tarefas variam desde a correspondência de subgrafos até a correspondência de grafos globais, fornecendo supervisão estruturada alinhada com as propriedades estruturais moleculares. Construímos um conjunto de dados de pré-treinamento molecular com pontuação de dificuldade adaptativa e pré-treinamos LLMs de código aberto nessas tarefas. Nossos resultados mostram que o CLEANMOL não apenas melhora a compreensão estrutural, mas também alcança o melhor desempenho ou compete com a linha de base no benchmark Mol-Instructions.
Text-to-SQL visa traduzir consultas em linguagem natural para instruções SQL, o que é prático, pois permite que qualquer pessoa recupere facilmente as informações desejadas de bancos de dados. Recentemente, muitas abordagens existentes lidam com esse problema utilizando Modelos de Linguagem de Grande Escala (LLMs), aproveitando sua forte capacidade de compreender consultas do usuário e gerar o código SQL correspondente. No entanto, o conhecimento paramétrico dos LLMs pode ser limitado para cobrir todas as consultas diversas e específicas de domínio que exigem ancoragem em vários esquemas de banco de dados, o que torna os SQLs gerados menos precisos em muitos casos. Para resolver isso, propomos a construção de uma base de conhecimento para text-to-SQL, uma fonte fundamental de conhecimento, da qual recuperamos e geramos o conhecimento necessário para consultas específicas. Em particular, diferente das abordagens existentes que ou anotam conhecimento manualmente ou geram apenas algumas partes de conhecimento para cada consulta, nossa base de conhecimento é abrangente, sendo construída com base em uma combinação de todas as perguntas disponíveis e seus esquemas de banco de dados associados, juntamente com o conhecimento relevante, e pode ser reutilizada para bancos de dados não vistos de diferentes conjuntos de dados e domínios. Validamos nossa abordagem em múltiplos conjuntos de dados text-to-SQL, considerando tanto cenários de bancos de dados sobrepostos quanto não sobrepostos, onde ela supera substancialmente as linhas de base relevantes.
A Geração Aumentada por Recuperação melhora a precisão dos LLMs ao adicionar trechos recuperados de um corpus externo ao prompt do LLM. Este artigo investiga como o viés posicional - a tendência dos LLMs de ponderar informações de forma diferente com base em sua posição no prompt - afeta não apenas a capacidade do LLM de aproveitar trechos relevantes, mas também sua suscetibilidade a trechos distrativos. Por meio de extensos experimentos em três benchmarks, mostramos como pipelines de recuperação de última geração, ao tentar recuperar trechos relevantes, sistematicamente trazem trechos altamente distrativos para as primeiras posições, com mais de 60% das consultas contendo pelo menos um trecho altamente distrativo entre os 10 primeiros trechos recuperados. Como resultado, o impacto do viés posicional do LLM, que em configurações controladas é frequentemente relatado como muito proeminente por trabalhos relacionados, é na verdade marginal em cenários reais, uma vez que tanto os trechos relevantes quanto os distrativos são, por sua vez, penalizados. De fato, nossas descobertas revelam que estratégias sofisticadas que tentam reorganizar os trechos com base nas preferências posicionais do LLM não têm desempenho melhor do que um embaralhamento aleatório.
Os Vision Transformers (ViTs) emergiram como a arquitetura dominante para tarefas de processamento visual, demonstrando excelente escalabilidade com o aumento de dados de treinamento e tamanho do modelo. No entanto, trabalhos recentes identificaram o surgimento de tokens de artefato em ViTs que são incongruentes com a semântica local. Esses tokens anômalos degradam o desempenho dos ViTs em tarefas que exigem localização refinada ou coerência estrutural. Uma mitigação eficaz desse problema é a adição de tokens de registro aos ViTs, que implicitamente "absorvem" o termo de artefato durante o treinamento. Dada a disponibilidade de diversos ViTs pré-treinados em grande escala, neste artigo buscamos equipá-los com tais tokens de registro sem a necessidade de retreiná-los do zero, o que é inviável considerando seu tamanho. Especificamente, propomos o Post Hoc Registers (PH-Reg), um método eficiente de auto-distilação que integra registros a um ViT existente sem exigir dados rotulados adicionais e retreinamento completo. O PH-Reg inicializa tanto a rede professora quanto a estudante a partir do mesmo ViT pré-treinado. A professora permanece congelada e inalterada, enquanto a estudante é aumentada com tokens de registro inicializados aleatoriamente. Ao aplicar aumento de dados em tempo de teste às entradas da professora, geramos embeddings densos denoizados livres de artefatos, que são então usados para otimizar apenas um pequeno subconjunto de pesos desbloqueados da estudante. Mostramos que nossa abordagem pode reduzir efetivamente o número de tokens de artefato, melhorando a segmentação e a previsão de profundidade do ViT estudante em cenários de zero-shot e sondagem linear.
Os modelos de linguagem de proteínas (PLMs, na sigla em inglês) surgiram como ferramentas poderosas para detectar padrões complexos em sequências proteicas. No entanto, a capacidade dos PLMs de capturar completamente as informações sobre as sequências proteicas pode ser limitada ao se concentrar em tarefas únicas de pré-treinamento. Embora a adição de modalidades de dados ou objetivos supervisionados possa melhorar o desempenho dos PLMs, o pré-treinamento frequentemente permanece focado na descontaminação de sequências corrompidas. Para expandir os limites dos PLMs, nossa pesquisa investigou uma estratégia de pré-treinamento multitarefa. Desenvolvemos o Ankh3, um modelo otimizado conjuntamente em dois objetivos: modelagem de linguagem mascarada com múltiplas probabilidades de mascaramento e conclusão de sequências proteicas utilizando apenas sequências proteicas como entrada. Esse pré-treinamento multitarefa demonstrou que os PLMs podem aprender representações mais ricas e generalizáveis apenas a partir de sequências proteicas. Os resultados mostraram um desempenho aprimorado em tarefas subsequentes, como predição de estrutura secundária, fluorescência, aptidão GB1 e predição de contatos. A integração de múltiplas tarefas proporcionou ao modelo uma compreensão mais abrangente das propriedades das proteínas, levando a previsões mais robustas e precisas.
O diagnóstico diferencial das demências neurodegenerativas é uma tarefa clínica desafiadora, principalmente devido à sobreposição na apresentação dos sintomas e à similaridade dos padrões observados em neuroimagens estruturais. Para melhorar a eficiência e a precisão diagnóstica, métodos baseados em aprendizado profundo, como Redes Neurais Convolucionais e Vision Transformers, foram propostos para a classificação automática de ressonâncias magnéticas cerebrais. No entanto, apesar de seu forte desempenho preditivo, esses modelos têm utilidade clínica limitada devido à sua tomada de decisão opaca. Neste trabalho, propomos um framework que integra dois componentes principais para aumentar a transparência diagnóstica. Primeiro, introduzimos um pipeline modular para converter ressonâncias magnéticas cerebrais 3D ponderadas em T1 em relatórios radiológicos textuais. Segundo, exploramos o potencial dos modernos Modelos de Linguagem de Grande Escala (LLMs) para auxiliar os clínicos no diagnóstico diferencial entre subtipos de demência frontotemporal, doença de Alzheimer e envelhecimento normal com base nos relatórios gerados. Para preencher a lacuna entre precisão preditiva e explicabilidade, empregamos aprendizado por reforço para incentivar o raciocínio diagnóstico nos LLMs. Sem a necessidade de traços de raciocínio supervisionados ou destilação de modelos maiores, nossa abordagem permite o surgimento de racionalidades diagnósticas estruturadas fundamentadas em achados de neuroimagem. Diferente de métodos de explicabilidade pós-hoc que justificam retrospectivamente as decisões do modelo, nosso framework gera racionalidades diagnósticas como parte do processo de inferência, produzindo explicações causalmente fundamentadas que informam e guiam o processo de tomada de decisão do modelo. Ao fazer isso, nosso framework iguala o desempenho diagnóstico dos métodos existentes de aprendizado profundo, ao mesmo tempo em que oferece racionalidades que sustentam suas conclusões diagnósticas.
As interações proteína-proteína (PPIs) são fundamentais para inúmeros processos celulares, e sua caracterização é crucial para compreender os mecanismos das doenças e orientar a descoberta de medicamentos. Embora os modelos de linguagem de proteínas (PLMs) tenham demonstrado sucesso notável na previsão da estrutura e função de proteínas, sua aplicação na previsão da afinidade de ligação de PPIs baseada em sequência permanece relativamente pouco explorada. Essa lacuna é frequentemente atribuída à escassez de conjuntos de dados de alta qualidade e rigorosamente refinados, bem como à dependência de estratégias simples para concatenar representações de proteínas. Neste trabalho, abordamos essas limitações. Primeiro, introduzimos uma versão meticulosamente curada do conjunto de dados PPB-Affinity, contendo um total de 8.207 entradas únicas de interações proteína-proteína, resolvendo inconsistências de anotação e entradas duplicadas para interações de proteínas de múltiplas cadeias. Esse conjunto de dados incorpora um rigoroso limite de identidade de sequência menor ou igual a 30% para garantir uma divisão robusta em conjuntos de treinamento, validação e teste, minimizando o vazamento de dados. Segundo, propomos e avaliamos sistematicamente quatro arquiteturas para adaptar PLMs à previsão da afinidade de ligação de PPIs: concatenação de embeddings (EC), concatenação de sequências (SC), pooling hierárquico (HP) e adição de atenção agrupada (PAD). Essas arquiteturas foram avaliadas usando dois métodos de treinamento: ajuste fino completo e uma abordagem leve que emprega cabeças ConvBERT sobre características congeladas de PLMs. Nossos experimentos abrangentes com múltiplos PLMs líderes (ProtT5, ESM2, Ankh, Ankh2 e ESM3) demonstraram que as arquiteturas HP e PAD superam consistentemente os métodos convencionais de concatenação, alcançando um aumento de até 12% em termos de correlação de Spearman. Esses resultados destacam a necessidade de designs arquitetônicos sofisticados para explorar plenamente as capacidades dos PLMs na previsão da afinidade de ligação de PPIs.