Artigos de pesquisa em IA selecionados diariamente com traduções
A Inteligência Artificial (IA) está acelerando a transformação dos paradigmas de pesquisa científica, não apenas aumentando a eficiência da pesquisa, mas também impulsionando a inovação. Apresentamos o NovelSeek, uma estrutura unificada de múltiplos agentes em loop fechado para conduzir Pesquisa Científica Autônoma (ASR) em diversos campos de pesquisa científica, permitindo que os pesquisadores abordem problemas complexos nesses campos com velocidade e precisão sem precedentes. O NovelSeek destaca três vantagens principais: 1) Escalabilidade: O NovelSeek demonstrou sua versatilidade em 12 tarefas de pesquisa científica, sendo capaz de gerar ideias inovadoras para melhorar o desempenho do código de referência. 2) Interatividade: O NovelSeek fornece uma interface para feedback de especialistas humanos e interação entre múltiplos agentes em processos automatizados de ponta a ponta, permitindo a integração contínua do conhecimento de especialistas do domínio. 3) Eficiência: O NovelSeek alcançou ganhos de desempenho promissores em vários campos científicos com um custo de tempo significativamente menor em comparação com os esforços humanos. Por exemplo, na previsão de rendimento de reações, aumentou de 27,6% para 35,4% em apenas 12 horas; na previsão de atividade de intensificadores, a precisão subiu de 0,52 para 0,79 com apenas 4 horas de processamento; e na segmentação semântica 2D, a precisão avançou de 78,8% para 81,0% em meras 30 horas.
A capacidade de seguir instruções é essencial para alinhar grandes modelos de linguagem (LLMs) com a intenção do usuário. Embora modelos recentes orientados para raciocínio demonstrem desempenho impressionante em problemas matemáticos complexos, sua capacidade de aderir a instruções em linguagem natural permanece pouco explorada. Neste trabalho, apresentamos o MathIF, um benchmark dedicado para avaliar o seguimento de instruções em tarefas de raciocínio matemático. Nossa análise empírica revela uma tensão consistente entre escalar a capacidade de raciocínio e manter a controlabilidade, já que modelos que raciocinam de forma mais eficaz frequentemente lutam para cumprir as diretivas do usuário. Descobrimos que modelos ajustados em cadeias de pensamento longas destiladas ou treinados com aprendizado por reforço orientado para raciocínio muitas vezes apresentam degradação na aderência às instruções, especialmente quando o comprimento da geração aumenta. Além disso, mostramos que até mesmo intervenções simples podem recuperar parcialmente a obediência, embora às custas do desempenho de raciocínio. Essas descobertas destacam uma tensão fundamental nos paradigmas atuais de treinamento de LLMs e motivam a necessidade de modelos de raciocínio mais conscientes das instruções. Disponibilizamos o código e os dados em https://github.com/TingchenFu/MathIF.
Recentemente, modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis de raciocínio por meio de aprendizado por reforço em larga escala (RL). No entanto, aproveitar o algoritmo de RL para capacitar o raciocínio colaborativo eficaz com múltiplas ferramentas em LLMs continua sendo um desafio em aberto. Neste artigo, apresentamos o Tool-Star, um framework baseado em RL projetado para capacitar LLMs a invocar autonomamente múltiplas ferramentas externas durante o raciocínio passo a passo. O Tool-Star integra seis tipos de ferramentas e incorpora designs sistemáticos tanto na síntese de dados quanto no treinamento. Para lidar com a escassez de dados de uso de ferramentas, propomos um pipeline geral de síntese de dados de raciocínio integrado a ferramentas, que combina prompts integrados a ferramentas com amostragem baseada em dicas para gerar automaticamente e de forma escalável trajetórias de uso de ferramentas. Um processo subsequente de normalização de qualidade e classificação consciente da dificuldade filtra amostras de baixa qualidade e organiza o conjunto de dados do fácil para o difícil. Além disso, propomos um framework de treinamento em duas etapas para aprimorar o raciocínio colaborativo com múltiplas ferramentas: (1) ajuste fino de partida a frio, que orienta os LLMs a explorar padrões de raciocínio por meio de feedback de invocação de ferramentas; e (2) um algoritmo de RL de auto-crítica com múltiplas ferramentas e design hierárquico de recompensa, que reforça a compreensão das recompensas e promove a colaboração eficaz de ferramentas. Análises experimentais em mais de 10 benchmarks desafiadores de raciocínio destacam a eficácia e eficiência do Tool-Star. O código está disponível em https://github.com/dongguanting/Tool-Star.
O raciocínio em cadeia de pensamento melhorou significativamente o desempenho de Modelos de Linguagem de Grande Escala (LLMs) em diversos domínios. No entanto, esse processo de raciocínio tem sido confinado exclusivamente ao espaço textual, limitando sua eficácia em tarefas visualmente intensivas. Para superar essa limitação, introduzimos o conceito de raciocínio no espaço de pixels. Nessa nova estrutura, Modelos de Visão e Linguagem (VLMs) são equipados com um conjunto de operações de raciocínio visual, como zoom e seleção de quadro. Essas operações permitem que os VLMs inspecionem, interroguem e infiram diretamente a partir de evidências visuais, aumentando assim a fidelidade do raciocínio em tarefas visuais. Cultivar tais capacidades de raciocínio no espaço de pixels em VLMs apresenta desafios notáveis, incluindo a competência inicialmente desequilibrada do modelo e sua relutância em adotar as novas operações no espaço de pixels. Abordamos esses desafios por meio de uma abordagem de treinamento em duas fases. A primeira fase emprega ajuste por instrução em traços de raciocínio sintetizados para familiarizar o modelo com as novas operações visuais. Em seguida, uma fase de aprendizado por reforço (RL) utiliza um esquema de recompensa baseado em curiosidade para equilibrar a exploração entre o raciocínio no espaço de pixels e o raciocínio textual. Com essas operações visuais, os VLMs podem interagir com entradas visuais complexas, como imagens ou vídeos ricos em informações, para coletar proativamente as informações necessárias. Demonstramos que essa abordagem melhora significativamente o desempenho dos VLMs em diversos benchmarks de raciocínio visual. Nosso modelo de 7B, \model, alcança 84% no V* bench, 74% no TallyQA-Complex e 84% no InfographicsVQA, marcando a maior precisão alcançada por qualquer modelo de código aberto até o momento. Esses resultados destacam a importância do raciocínio no espaço de pixels e a eficácia de nossa estrutura.
Os recentes avanços em modelos generativos multimodais possibilitaram progressos significativos na edição de imagens baseada em instruções. No entanto, embora esses modelos produzam resultados visualmente plausíveis, sua capacidade para tarefas de edição baseadas em raciocínio de conhecimento permanece pouco explorada. Neste artigo, apresentamos o KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), um benchmark diagnóstico projetado para avaliar modelos por meio de uma perspectiva cognitivamente informada. Inspirado na teoria educacional, o KRIS-Bench categoriza tarefas de edição em três tipos fundamentais de conhecimento: Fático, Conceitual e Procedimental. Com base nessa taxonomia, projetamos 22 tarefas representativas abrangendo 7 dimensões de raciocínio e disponibilizamos 1.267 instâncias de edição anotadas de alta qualidade. Para apoiar uma avaliação detalhada, propomos um protocolo abrangente que incorpora uma nova métrica de Plausibilidade de Conhecimento, aprimorada por dicas de conhecimento e calibrada por meio de estudos humanos. Resultados empíricos em 10 modelos de última geração revelam lacunas significativas no desempenho de raciocínio, destacando a necessidade de benchmarks centrados em conhecimento para avançar o desenvolvimento de sistemas inteligentes de edição de imagens.
A compreensão de vídeos longos emergiu como uma capacidade crucial em aplicações do mundo real, como vigilância por vídeo, resumo de reuniões, análise de palestras educacionais e transmissão esportiva. No entanto, ela continua sendo computacionalmente proibitiva para VideoLLMs, principalmente devido a dois gargalos: 1) a decodificação sequencial de vídeo, o processo de conversão do fluxo de bits brutos para quadros RGB, pode levar até um minuto para entradas de vídeo de uma hora, e 2) o preenchimento custoso de até vários milhões de tokens para inferência de LLM, resultando em alta latência e uso de memória. Para enfrentar esses desafios, propomos o QuickVideo, uma co-projeto de sistema-algoritmo que acelera substancialmente a compreensão de vídeos longos para suportar aplicações em tempo real. Ele compreende três inovações principais: QuickDecoder, um decodificador de vídeo baseado em CPU paralelizado que alcança uma aceleração de 2 a 3 vezes ao dividir vídeos em intervalos alinhados por keyframes processados simultaneamente; QuickPrefill, um método de preenchimento eficiente em memória que utiliza poda de cache KV para suportar mais quadros com menos memória GPU; e um esquema de sobreposição que sobrepõe a decodificação de vídeo na CPU com a inferência na GPU. Juntos, esses componentes reduzem o tempo de inferência em um minuto para entradas de vídeo longos, permitindo uma compreensão de vídeo escalável e de alta qualidade mesmo em hardware limitado. Experimentos mostram que o QuickVideo generaliza-se em durações e taxas de amostragem, tornando o processamento de vídeos longos viável na prática.
Apesar dos recentes avanços no aprendizado por reforço (RL) em larga escala para raciocínio, a receita de treinamento para construir modelos de alto desempenho em raciocínio permanece evasiva. Detalhes-chave de implementação de modelos de fronteira, como o DeepSeek-R1, incluindo estratégias de curadoria de dados e a receita de treinamento de RL, são frequentemente omitidos. Além disso, pesquisas recentes indicam que a destilação continua sendo mais eficaz do que o RL para modelos menores. Neste trabalho, demonstramos que o RL em larga escala pode aprimorar significativamente as capacidades de raciocínio de modelos pequenos e médios já robustos, alcançando resultados que superam os dos modelos baseados em destilação de última geração. Estudamos sistematicamente o processo de treinamento de RL por meio de extensas ablações e propomos uma abordagem simples, porém eficaz: primeiro treinar em prompts exclusivamente matemáticos, depois em prompts exclusivamente de código. Notavelmente, descobrimos que o RL apenas em matemática não apenas melhora significativamente o desempenho de modelos destilados robustos em benchmarks matemáticos (por exemplo, +14,6% / +17,2% no AIME 2025 para os modelos 7B / 14B), mas também em tarefas de raciocínio em código (por exemplo, +6,8% / +5,8% no LiveCodeBench para os modelos 7B / 14B). Além disso, iterações estendidas de RL apenas em código melhoram ainda mais o desempenho em benchmarks de código com degradação mínima ou nula nos resultados matemáticos. Desenvolvemos um pipeline robusto de curadoria de dados para coletar prompts desafiadores com respostas e casos de teste de alta qualidade e verificáveis, permitindo o RL baseado em verificação em ambos os domínios. Por fim, identificamos insights experimentais-chave, incluindo o aprendizado curricular com comprimentos de resposta progressivamente maiores e o efeito estabilizador de atualizações de parâmetros on-policy. Descobrimos que o RL não apenas elicita as capacidades fundamentais de raciocínio adquiridas durante o pré-treinamento e o ajuste fino supervisionado (por exemplo, destilação), mas também expande os limites da capacidade de raciocínio do modelo, permitindo que ele resolva problemas que antes eram insolúveis.
Os Transformers de Difusão emergiram como a base para modelos generativos de visão, mas sua escalabilidade é limitada pelo alto custo de ajuste de hiperparâmetros (HP) em grandes escalas. Recentemente, a Parametrização de Atualização Máxima (muP) foi proposta para Transformers convencionais, permitindo a transferência estável de HP de modelos de linguagem pequenos para grandes e reduzindo drasticamente os custos de ajuste. No entanto, ainda não está claro se a muP de Transformers convencionais se estende aos Transformers de Difusão, que diferem arquitetural e objetivamente. Neste trabalho, generalizamos a muP padrão para Transformers de Difusão e validamos sua eficácia por meio de experimentos em grande escala. Primeiro, provamos rigorosamente que a muP dos principais Transformers de Difusão, incluindo DiT, U-ViT, PixArt-alpha e MMDiT, está alinhada com a do Transformer convencional, permitindo a aplicação direta das metodologias muP existentes. Aproveitando esse resultado, demonstramos sistematicamente que o DiT-muP possui uma robusta transferibilidade de HP. Notavelmente, o DiT-XL-2-muP com taxa de aprendizado transferida alcança uma convergência 2,9 vezes mais rápida que o DiT-XL-2 original. Por fim, validamos a eficácia da muP na geração de texto para imagem ao escalar o PixArt-alpha de 0,04B para 0,61B e o MMDiT de 0,18B para 18B. Em ambos os casos, os modelos sob muP superam suas respectivas linhas de base enquanto exigem um custo de ajuste mínimo, apenas 5,5% de uma execução de treinamento para o PixArt-alpha e 3% do consumo por especialistas humanos para o MMDiT-18B. Esses resultados estabelecem a muP como uma estrutura eficiente e fundamentada para escalar Transformers de Difusão.
Neste trabalho, apresentamos o LLaDA-V, um Modelo de Linguagem Multimodal (MLLM) baseado exclusivamente em difusão que integra ajuste fino de instruções visuais com modelos de difusão mascarados, representando uma divergência dos paradigmas autoregressivos dominantes nas abordagens multimodais atuais. Construído sobre o LLaDA, um modelo representativo de difusão de linguagem de grande escala, o LLaDA-V incorpora um codificador visual e um conector MLP que projeta características visuais no espaço de incorporação de linguagem, permitindo um alinhamento multimodal eficaz. Nossa investigação empírica revela vários resultados intrigantes: Primeiro, o LLaDA-V demonstra um desempenho multimodal promissor, apesar de seu modelo de linguagem ser mais fraco em tarefas puramente textuais em comparação com contrapartes como o LLaMA3-8B e o Qwen2-7B. Quando treinado com os mesmos dados de instrução, o LLaDA-V é altamente competitivo em relação ao LLaMA3-V em tarefas multimodais, com melhor escalabilidade de dados. Ele também reduz a lacuna de desempenho em relação ao Qwen2-VL, sugerindo a eficácia de sua arquitetura para tarefas multimodais. Segundo, o LLaDA-V alcança desempenho de ponta em compreensão multimodal em comparação com os MLLMs híbridos autoregressivos-difusão e baseados exclusivamente em difusão existentes. Nossas descobertas sugerem que os modelos de difusão de linguagem de grande escala mostram potencial em contextos multimodais e merecem investigação adicional em pesquisas futuras. Página do projeto e códigos: https://ml-gsai.github.io/LLaDA-V-demo/.
Modelos de geração visual têm feito progressos notáveis na criação de imagens realistas a partir de prompts de texto, mas ainda enfrentam dificuldades com prompts complexos que especificam múltiplos objetos com relações espaciais e atributos precisos. O tratamento eficaz desses prompts requer um raciocínio explícito sobre o conteúdo semântico e o layout espacial. Apresentamos o GoT-R1, um framework que aplica aprendizado por reforço para aprimorar o raciocínio semântico-espacial na geração visual. Baseando-se na abordagem Generation Chain-of-Thought, o GoT-R1 permite que os modelos descubram autonomamente estratégias de raciocínio eficazes além de modelos predefinidos, por meio de um aprendizado por reforço cuidadosamente projetado. Para alcançar isso, propomos um framework de recompensa multidimensional em duas etapas que aproveita MLLMs para avaliar tanto o processo de raciocínio quanto o resultado final, permitindo uma supervisão eficaz em todo o pipeline de geração. O sistema de recompensa avalia o alinhamento semântico, a precisão espacial e a qualidade visual de forma unificada. Resultados experimentais demonstram melhorias significativas no benchmark T2I-CompBench, particularmente em tarefas composicionais que envolvem relações espaciais precisas e vinculação de atributos. O GoT-R1 avança o estado da arte na geração de imagens ao transferir com sucesso capacidades sofisticadas de raciocínio para o domínio da geração visual. Para facilitar pesquisas futuras, disponibilizamos nosso código e modelos pré-treinados publicamente em https://github.com/gogoduan/GoT-R1.
O aprendizado por reforço avesso ao risco encontra aplicação em diversos campos de alta responsabilidade. Diferente do aprendizado por reforço clássico, que visa maximizar os retornos esperados, agentes avessos ao risco escolhem políticas que minimizam o risco, ocasionalmente sacrificando o valor esperado. Essas preferências podem ser enquadradas por meio da teoria da utilidade. Nosso foco é o caso específico da função de utilidade exponencial, onde podemos derivar as equações de Bellman e empregar diversos algoritmos de aprendizado por reforço com poucas modificações. No entanto, esses métodos sofrem com instabilidade numérica devido à necessidade de computação de exponenciais ao longo do processo. Para resolver isso, introduzimos uma função de perda numericamente estável e matematicamente sólida, baseada na divergência de Itakura-Saito, para aprender funções de valor de estado e de ação. Avaliamos nossa função de perda proposta em comparação com alternativas estabelecidas, tanto teoricamente quanto empiricamente. Na seção experimental, exploramos múltiplos cenários financeiros, alguns com soluções analíticas conhecidas, e mostramos que nossa função de perda supera as alternativas.
Modelos de linguagem de grande escala (LLMs) alcançaram progressos notáveis em tarefas matemáticas por meio do raciocínio em Cadeia de Pensamento (Chain-of-Thought, CoT). No entanto, os conjuntos de dados matemáticos de CoT existentes frequentemente sofrem com Saltos de Pensamento devido à omissão de etapas intermediárias por especialistas, o que impacta negativamente o aprendizado e a generalização dos modelos. Propomos a Tarefa de Ponte para Saltos de Pensamento em CoT, que visa detectar automaticamente esses saltos e gerar etapas intermediárias de raciocínio ausentes para restaurar a completude e a coerência do CoT. Para facilitar isso, construímos um conjunto de dados de treinamento especializado chamado ScaleQM+, baseado no conjunto de dados estruturado ScaleQuestMath, e treinamos o CoT-Bridge para preencher os saltos de pensamento. Por meio de experimentos abrangentes em benchmarks de raciocínio matemático, demonstramos que modelos ajustados em conjuntos de dados com pontes superam consistentemente aqueles treinados em conjuntos de dados originais, com melhorias de até +5,87% no NuminaMath. Nossa abordagem aprimora efetivamente dados destilados (+3,02%) e fornece pontos de partida melhores para aprendizado por reforço (+3,1%), funcionando como um módulo plug-and-play compatível com técnicas de otimização existentes. Além disso, o CoT-Bridge demonstra uma generalização aprimorada para tarefas de raciocínio lógico fora do domínio, confirmando que a melhoria da completude do raciocínio traz benefícios amplamente aplicáveis.
Apesar da qualidade notável de geração dos modelos de Transformadores de Difusão de Vídeo (DiT), sua implantação prática é severamente limitada pelos extensos requisitos computacionais. Essa ineficiência decorre de dois desafios principais: a complexidade quadrática da auto-atenção em relação ao comprimento dos tokens e a natureza de múltiplos passos dos modelos de difusão. Para abordar essas limitações, apresentamos o Jenga, um pipeline de inferência inovador que combina o recorte dinâmico de atenção com a geração progressiva de resolução. Nossa abordagem aproveita dois insights fundamentais: (1) os passos iniciais de remoção de ruído não exigem latentes de alta resolução, e (2) os passos posteriores não exigem atenção densa. O Jenga introduz um mecanismo de atenção em blocos que seleciona dinamicamente as interações relevantes entre tokens usando curvas de preenchimento de espaço 3D, juntamente com uma estratégia de resolução progressiva que aumenta gradualmente a resolução latente durante a geração. Resultados experimentais demonstram que o Jenga alcança acelerações significativas em vários modelos de difusão de vídeo de última geração, mantendo uma qualidade de geração comparável (8,83 vezes mais rápido com uma queda de desempenho de 0,01% no VBench). Como uma solução plug-and-play, o Jenga possibilita a geração prática e de alta qualidade de vídeos em hardware moderno, reduzindo o tempo de inferência de minutos para segundos — sem exigir retreinamento do modelo. Código: https://github.com/dvlab-research/Jenga
A Inteligência Artificial Generativa (GenAI) apresenta um potencial significativo para automatizar tarefas cotidianas de edição de imagens, especialmente após o recente lançamento do GPT-4o em 25 de março de 2025. No entanto, quais são os assuntos que as pessoas mais desejam editar? Que tipos de ações de edição elas querem realizar (por exemplo, remover ou estilizar o assunto)? As pessoas preferem edições precisas com resultados previsíveis ou edições altamente criativas? Ao compreender as características das solicitações do mundo real e as edições correspondentes feitas por especialistas freelancers em edição de fotos, podemos extrair lições para melhorar os editores baseados em IA e determinar quais tipos de solicitações podem atualmente ser atendidos com sucesso por editores de IA? Neste artigo, apresentamos um estudo único que aborda essas questões ao analisar 83 mil solicitações dos últimos 12 anos (2013-2025) na comunidade do Reddit, que coletou 305 mil edições feitas por especialistas em PSR. De acordo com avaliações humanas, aproximadamente apenas 33% das solicitações podem ser atendidas pelos melhores editores de IA (incluindo GPT-4o, Gemini-2.0-Flash, SeedEdit). Curiosamente, os editores de IA têm um desempenho pior em solicitações de baixa criatividade que exigem edição precisa do que em tarefas mais abertas. Eles frequentemente lutam para preservar a identidade de pessoas e animais e muitas vezes fazem retoques não solicitados. Por outro lado, os juízes de VLM (por exemplo, o1) têm um comportamento diferente dos juízes humanos e podem preferir edições de IA mais do que edições humanas. Códigos e exemplos qualitativos estão disponíveis em: https://psrdataset.github.io.
O treinamento de modelos robustos de recuperação e reranking geralmente depende de grandes conjuntos de dados de recuperação; por exemplo, a coleção BGE contém 1,6 milhão de pares consulta-passagem provenientes de diversas fontes de dados. No entanto, descobrimos que certos conjuntos de dados podem impactar negativamente a eficácia do modelo — a remoção de 8 dos 15 conjuntos de dados da coleção BGE reduz o tamanho do conjunto de treinamento em 2,35 vezes e aumenta o nDCG@10 no BEIR em 1,0 ponto. Isso motiva um exame mais aprofundado da qualidade dos dados de treinamento, com foco especial nos "falsos negativos", onde passagens relevantes são incorretamente rotuladas como irrelevantes. Propomos uma abordagem simples e econômica usando prompts em cascata de LLMs para identificar e reclassificar negativos difíceis. Resultados experimentais mostram que a reclassificação de falsos negativos como verdadeiros positivos melhora tanto os modelos de recuperação E5 (base) quanto Qwen2.5-7B em 0,7-1,4 nDCG@10 no BEIR e em 1,7-1,8 nDCG@10 na avaliação zero-shot do AIR-Bench. Ganhos semelhantes são observados para modelos de reranking ajustados com os dados reclassificados, como o Qwen2.5-3B no BEIR. A confiabilidade do design em cascata é ainda mais apoiada por resultados de anotação humana, onde verificamos que o julgamento do GPT-4o apresenta uma concordância muito maior com humanos do que o GPT-4o-mini.
Modelos de raciocínio de grande escala (LRMs), como o OpenAI o1 e o DeepSeek-R1, aprimoraram significativamente suas capacidades de raciocínio ao gerar cadeias de pensamento mais longas, demonstrando desempenho excepcional em uma variedade de tarefas. No entanto, esse ganho de desempenho vem ao custo de um aumento substancial no raciocínio redundante durante o processo de geração, resultando em alta sobrecarga computacional e agravando o problema de "overthinking" (pensamento excessivo). Embora diversas abordagens existentes busquem resolver o problema do overthinking, elas frequentemente dependem de intervenções externas. Neste artigo, propomos um novo framework, o Self-Braking Tuning (SBT), que aborda o overthinking a partir da perspectiva de permitir que o modelo regule seu próprio processo de raciocínio, eliminando assim a dependência de mecanismos de controle externos. Construímos um conjunto de métricas de identificação de overthinking baseadas em respostas padrão e projetamos um método sistemático para detectar raciocínio redundante. Esse método identifica com precisão etapas desnecessárias dentro da trajetória de raciocínio e gera sinais de treinamento para aprender comportamentos de autorregulação. Com base nisso, desenvolvemos uma estratégia completa para a construção de dados com comprimentos de raciocínio adaptativos e introduzimos um mecanismo inovador de "braking prompt" (prompt de frenagem) que permite ao modelo aprender naturalmente quando encerrar o raciocínio em um ponto apropriado. Experimentos em benchmarks matemáticos (AIME, AMC, MATH500, GSM8K) demonstram que nosso método reduz o consumo de tokens em até 60%, mantendo uma precisão comparável a modelos sem restrições.
Neste trabalho, propomos o Dimple, o primeiro Modelo de Linguagem Multimodal com Difusão Discreta (DMLLM). Observamos que o treinamento com uma abordagem puramente discreta de difusão leva a uma instabilidade significativa durante o treinamento, desempenho subótimo e problemas graves de viés de comprimento. Para enfrentar esses desafios, projetamos um novo paradigma de treinamento que combina uma fase inicial autorregressiva com uma fase subsequente de difusão. Essa abordagem resulta no modelo Dimple-7B, treinado no mesmo conjunto de dados e utilizando um pipeline de treinamento semelhante ao do LLaVA-NEXT. O Dimple-7B supera o LLaVA-NEXT em desempenho em 3,9%, demonstrando que o DMLLM pode alcançar um desempenho comparável ao dos modelos autorregressivos. Para melhorar a eficiência na inferência, propomos uma estratégia de decodificação chamada decodificação confiante, que ajusta dinamicamente o número de tokens gerados em cada etapa, reduzindo significativamente o número de iterações de geração. Em modelos autorregressivos, o número de iterações diretas durante a geração é igual ao comprimento da resposta. Com a decodificação confiante, no entanto, o número de iterações necessárias pelo Dimple é apenas text{comprimento da resposta}{3}. Também reimplementamos a técnica de preenchimento prévio em modelos autorregressivos e demonstramos que ela não impacta significativamente o desempenho na maioria das avaliações de benchmark, enquanto oferece uma aceleração de 1,5x a 7x. Além disso, exploramos a capacidade do Dimple de controlar precisamente sua resposta usando priors estruturais. Esses priors permitem respostas estruturadas de uma maneira distinta do prompting baseado em instruções ou em cadeia de pensamento, e permitem um controle refinado sobre o formato e o comprimento da resposta, o que é difícil de alcançar em modelos autorregressivos. No geral, este trabalho valida a viabilidade e as vantagens do DMLLM e aprimora sua eficiência de inferência e controlabilidade. O código e os modelos estão disponíveis em https://github.com/yu-rp/Dimple.
Com os videogames agora gerando as maiores receitas na indústria do entretenimento, a otimização dos fluxos de trabalho de desenvolvimento de jogos tornou-se essencial para o crescimento sustentável do setor. Avanços recentes em Modelos de Visão e Linguagem (VLMs) oferecem um potencial considerável para automatizar e aprimorar vários aspectos do desenvolvimento de jogos, particularmente a Garantia de Qualidade (QA), que continua sendo um dos processos mais intensivos em mão de obra da indústria, com opções limitadas de automação. Para avaliar com precisão o desempenho dos VLMs em tarefas de QA de videogames e determinar sua eficácia no tratamento de cenários do mundo real, há uma clara necessidade de benchmarks padronizados, uma vez que os benchmarks existentes são insuficientes para atender às demandas específicas desse domínio. Para preencher essa lacuna, apresentamos o VideoGameQA-Bench, um benchmark abrangente que cobre uma ampla gama de atividades de QA em jogos, incluindo testes de unidade visual, testes de regressão visual, tarefas de "agulha no palheiro", detecção de falhas e geração de relatórios de bugs para imagens e vídeos de diversos jogos. O código e os dados estão disponíveis em: https://asgaardlab.github.io/videogameqa-bench/
Embora o aprendizado por reforço (RL) tenha demonstrado sucesso notável em aprimorar grandes modelos de linguagem (LLMs), ele tem se concentrado principalmente em tarefas de turno único, como resolver problemas matemáticos. Treinar agentes web eficazes para interações multi-turno continua desafiador devido à complexidade da tomada de decisão de longo horizonte em interfaces web dinâmicas. Neste trabalho, apresentamos o WebAgent-R1, uma estrutura RL multi-turno de ponta a ponta simples, porém eficaz, para treinar agentes web. Ele aprende diretamente a partir de interações online com ambientes web, gerando de forma assíncrona trajetórias diversas, totalmente guiadas por recompensas binárias dependentes do sucesso da tarefa. Experimentos no benchmark WebArena-Lite demonstram a eficácia do WebAgent-R1, aumentando a taxa de sucesso de tarefas do Qwen-2.5-3B de 6,1% para 33,9% e do Llama-3.1-8B de 8,5% para 44,8%, superando significativamente os métodos state-of-the-art existentes e modelos proprietários robustos, como o OpenAI o3. Análises detalhadas revelam a eficácia da estratégia de prompting baseada em pensamento e da escalagem em tempo de teste por meio do aumento de interações para tarefas web. Investigamos ainda diferentes políticas de inicialização de RL, introduzindo duas variantes, WebAgent-R1-Zero e WebAgent-R1-CoT, que destacam a importância da etapa de treinamento de aquecimento (ou seja, clonagem de comportamento) e fornecem insights sobre a incorporação de raciocínio de cadeia longa de pensamento (CoT) em agentes web.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) estão sendo cada vez mais implantados em cenários de ajuste fino como serviço (FTaaS), onde conjuntos de dados enviados por usuários adaptam modelos de propósito geral para tarefas específicas. Essa flexibilidade, no entanto, introduz sérios riscos de segurança, pois o ajuste fino malicioso pode implantar backdoors em MLLMs com esforço mínimo. Neste artigo, observamos que os gatilhos de backdoor perturbam sistematicamente o processamento multimodal ao causar uma concentração anormal de atenção em regiões não semânticas—um fenômeno que denominamos colapso de atenção. Com base nessa percepção, propomos o Believe Your Eyes (BYE), um framework de filtragem de dados que utiliza padrões de entropia de atenção como sinais auto-supervisionados para identificar e filtrar amostras com backdoor. O BYE opera por meio de um pipeline de três etapas: (1) extração de mapas de atenção usando o modelo ajustado, (2) cálculo de escores de entropia e perfilamento de camadas sensíveis por meio de separação bimodal, e (3) realização de agrupamento não supervisionado para remover amostras suspeitas. Diferente de defesas anteriores, o BYE não requer supervisão limpa, rótulos auxiliares ou modificações no modelo. Experimentos extensivos em diversos conjuntos de dados, modelos e tipos de gatilhos validam a eficácia do BYE: ele alcança taxas de sucesso de ataque próximas a zero enquanto mantém o desempenho em tarefas limpas, oferecendo uma solução robusta e generalizável contra ameaças de backdoor em MLLMs.
Avanços recentes têm demonstrado sucesso em eliciar fortes habilidades de raciocínio em modelos de linguagem multimodal de grande escala (MLLMs) por meio de aprendizado por reforço (RL) baseado em regras com recompensas de resultado. No entanto, esse paradigma geralmente carece de supervisão sobre o processo de pensamento que leva ao resultado final. Como consequência, o modelo pode aprender estratégias de raciocínio subótimas, o que pode prejudicar sua capacidade de generalização. Diante disso, propomos o SophiaVL-R1, como uma tentativa de adicionar sinais de recompensa para o processo de pensamento nesse paradigma. Para alcançar isso, primeiro treinamos um modelo de recompensa de pensamento que avalia a qualidade de todo o processo de raciocínio. Dado que a recompensa de pensamento pode ser pouco confiável para certas amostras devido ao "reward hacking", propomos o método Trust-GRPO, que atribui um peso de confiabilidade à recompensa de pensamento durante o treinamento. Esse peso é calculado com base na comparação da recompensa de pensamento de respostas que levam a respostas corretas versus incorretas, ajudando a mitigar o impacto de recompensas de pensamento potencialmente não confiáveis. Além disso, projetamos uma estratégia de treinamento com decaimento que gradualmente reduz a recompensa de pensamento ao longo do tempo, permitindo que o modelo dependa mais da recompensa de resultado baseada em regras, que é mais precisa, nas fases posteriores do treinamento. Experimentos mostram que nosso SophiaVL-R1 supera uma série de MLLMs de raciocínio em vários benchmarks (por exemplo, MathVisita, MMMU), demonstrando fortes capacidades de raciocínio e generalização. Notavelmente, nosso SophiaVL-R1-7B até supera o LLaVA-OneVision-72B na maioria dos benchmarks, apesar deste último ter 10 vezes mais parâmetros. Todo o código, modelos e conjuntos de dados estão disponíveis publicamente em https://github.com/kxfan2002/SophiaVL-R1.
O Aprendizado por Reforço (RL) tornou-se uma ferramenta poderosa para aprimorar as habilidades de raciocínio de grandes modelos de linguagem (LLMs) ao otimizar suas políticas com sinais de recompensa. No entanto, o sucesso do RL depende da confiabilidade das recompensas, que são fornecidas por verificadores. Neste artigo, expomos e analisamos um problema generalizado—falsos negativos—onde os verificadores rejeitam erroneamente saídas corretas do modelo. Nosso estudo detalhado do conjunto de dados Big-Math-RL-Verified revela que mais de 38% das respostas geradas pelo modelo sofrem de falsos negativos, onde o verificador falha em reconhecer respostas corretas. Mostramos, tanto empiricamente quanto teoricamente, que esses falsos negativos prejudicam severamente o treinamento de RL ao privar o modelo de sinais de gradiente informativos e retardar a convergência. Para mitigar isso, propomos o TinyV, um verificador leve baseado em LLM que complementa os métodos baseados em regras existentes, identificando dinamicamente possíveis falsos negativos e recuperando respostas válidas para produzir estimativas de recompensa mais precisas. Em vários benchmarks de raciocínio matemático, a integração do TinyV aumenta as taxas de acerto em até 10% e acelera a convergência em relação à linha de base. Nossas descobertas destacam a importância crítica de abordar falsos negativos dos verificadores e oferecem uma abordagem prática para melhorar o ajuste fino baseado em RL de LLMs. Nosso código está disponível em https://github.com/uw-nsl/TinyV.
Os Modelos Visão-Linguagem (VLMs) modernos podem resolver uma ampla gama de tarefas que exigem raciocínio visual. Em cenários do mundo real, propriedades desejáveis para VLMs incluem inferência rápida e geração controlável (por exemplo, restringir as saídas para aderir a um formato desejado). No entanto, os VLMs autoregressivos (AR) existentes, como o LLaVA, enfrentam dificuldades nesses aspectos. Os modelos de difusão discreta (DMs) oferecem uma alternativa promissora, permitindo decodificação paralela para inferência mais rápida e contexto bidirecional para geração controlável por meio de preenchimento de texto. Embora eficazes em configurações apenas de linguagem, o potencial dos DMs para tarefas multimodais é pouco explorado. Apresentamos o LaViDa, uma família de VLMs baseada em DMs. Construímos o LaViDa equipando os DMs com um codificador visual e ajustando conjuntamente as partes combinadas para seguir instruções multimodais. Para enfrentar os desafios encontrados, o LaViDa incorpora técnicas inovadoras, como mascaramento complementar para treinamento eficaz, cache de prefixo KV para inferência eficiente e deslocamento de timestep para amostragem de alta qualidade. Experimentos mostram que o LaViDa alcança desempenho competitivo ou superior aos VLMs AR em benchmarks multimodais como o MMMU, ao mesmo tempo que oferece vantagens únicas dos DMs, incluindo flexibilidade na troca entre velocidade e qualidade, controlabilidade e raciocínio bidirecional. Na tarefa de legendagem do COCO, o LaViDa supera o Open-LLaVa-Next-8B em +4,1 CIDEr com uma aceleração de 1,92x. Em tarefas bidirecionais, ele alcança uma melhoria de +59% na Conclusão de Poema Restrita. Esses resultados demonstram o LaViDa como uma forte alternativa aos VLMs AR. O código e os modelos serão liberados na versão final do artigo.
Estudos recentes demonstraram a eficácia do uso de Aprendizado por Reforço (RL) na construção de modelos de raciocínio que articulam cadeias de pensamento antes de produzir respostas finais. No entanto, apesar dos avanços contínuos que visam habilitar o raciocínio para tarefas de visão e linguagem, os modelos de raciocínio visual de código aberto existentes geralmente geram conteúdo de raciocínio com linguagem natural pura, carecendo de integração explícita de informações visuais. Isso limita sua capacidade de produzir cadeias de raciocínio claramente articuladas e fundamentadas visualmente. Para tanto, propomos o Grounded Reasoning with Images and Texts (GRIT), um método novo para treinar MLLMs a pensar com imagens. O GRIT introduz um paradigma de raciocínio fundamentado, no qual os modelos geram cadeias de raciocínio que intercalam linguagem natural e coordenadas explícitas de caixas delimitadoras. Essas coordenadas apontam para regiões da imagem de entrada que o modelo consulta durante seu processo de raciocínio. Além disso, o GRIT é equipado com uma abordagem de aprendizado por reforço, GRPO-GR, construída sobre o algoritmo GRPO. O GRPO-GR emprega recompensas robustas focadas na precisão da resposta final e no formato da saída de raciocínio fundamentado, o que elimina a necessidade de dados com anotações de cadeias de raciocínio ou rótulos explícitos de caixas delimitadoras. Como resultado, o GRIT alcança uma eficiência de dados excepcional, exigindo apenas 20 tripletos imagem-pergunta-resposta de conjuntos de dados existentes. Avaliações abrangentes demonstram que o GRIT treina efetivamente MLLMs para produzir cadeias de raciocínio coerentes e fundamentadas visualmente, mostrando uma unificação bem-sucedida das habilidades de raciocínio e fundamentação.
Modelos de linguagem multimodal de grande escala (MLLMs) têm alcançado sucesso impressionante em tarefas de questionamento e resposta, mas suas capacidades para compreensão espacial são menos exploradas. Este trabalho investiga uma questão crítica: os MLLMs existentes possuem habilidades de percepção e compreensão espacial 3D? Concretamente, fazemos as seguintes contribuições neste artigo: (i) introduzimos o VGBench, um benchmark projetado especificamente para avaliar MLLMs em percepção de geometria visual, como estimativa de pose de câmera e movimento; (ii) propomos o SpatialScore, o benchmark mais abrangente e diversificado até hoje para compreensão espacial multimodal, integrando o VGBench com dados relevantes de outros 11 conjuntos de dados existentes. Este benchmark compreende 28K amostras em várias tarefas de compreensão espacial, modalidades e formatos de QA, juntamente com um subconjunto desafiador cuidadosamente selecionado, o SpatialScore-Hard; (iii) desenvolvemos o SpatialAgent, um sistema multiagente inovador que incorpora 9 ferramentas especializadas para compreensão espacial, suportando tanto os paradigmas de raciocínio Plan-Execute quanto ReAct; (iv) realizamos avaliações extensas para revelar desafios persistentes no raciocínio espacial, ao mesmo tempo em que demonstramos a eficácia do SpatialAgent. Acreditamos que o SpatialScore oferecerá insights valiosos e servirá como um benchmark rigoroso para a próxima evolução dos MLLMs.
Recentemente, modelos multimodais de linguagem (MLLMs) baseados em raciocínio alcançaram um certo sucesso na geração de cadeias de raciocínio textual de longa duração. No entanto, eles ainda enfrentam dificuldades com tarefas complexas que exigem foco dinâmico e iterativo em regiões visuais, bem como a revisão dessas regiões para alcançar uma fundamentação precisa do raciocínio textual em evidências visuais. Apresentamos o VLM-R^3 (Visual Language Model with Region Recognition and Reasoning), um framework que capacita um MLLM com a capacidade de (i) decidir quando evidências visuais adicionais são necessárias, (ii) determinar onde fundamentar dentro da imagem e (iii) integrar de forma contínua o conteúdo relevante da sub-imagem em uma cadeia de pensamento intercalada. O núcleo do nosso método é o Region-Conditioned Reinforcement Policy Optimization (R-GRPO), um paradigma de treinamento que recompensa o modelo por selecionar regiões informativas, formular transformações apropriadas (por exemplo, recorte, zoom) e integrar o contexto visual resultante em etapas subsequentes de raciocínio. Para inicializar essa política, compilamos um corpus modesto, mas cuidadosamente curado, chamado Visuo-Lingual Interleaved Rationale (VLIR), que fornece supervisão em nível de etapa sobre a seleção de regiões e justificativa textual. Experimentos extensivos no MathVista, ScienceQA e outros benchmarks mostram que o VLM-R^3 estabelece um novo estado da arte em configurações zero-shot e few-shot, com os maiores ganhos aparecendo em questões que exigem raciocínio espacial sutil ou extração de pistas visuais refinadas.
O aprendizado por reforço (RL) proporciona melhorias substanciais no desempenho de tarefas subsequentes de modelos de linguagem de grande escala (LLMs) e no alinhamento com valores humanos. Surpreendentemente, tais ganhos significativos resultam da atualização de apenas uma pequena sub-rede, compreendendo de 5% a 30% dos parâmetros, enquanto o restante permanece efetivamente inalterado. Referimo-nos a esse fenômeno como esparsidade de atualização de parâmetros induzida pelo RL. Isso foi observado em todos os 7 algoritmos de RL amplamente utilizados (por exemplo, PPO, GRPO, DPO) e em todos os 10 LLMs de diferentes famílias em nossos experimentos. Essa esparsidade é intrínseca e ocorre sem qualquer regularização explícita de promoção de esparsidade ou restrições arquiteturais. O ajuste fino apenas da sub-rede recupera a precisão do teste e, notavelmente, produz um modelo quase idêntico ao obtido por meio do ajuste fino completo. As sub-redes de diferentes sementes aleatórias, dados de treinamento e até mesmo algoritmos de RL apresentam uma sobreposição substancialmente maior do que o esperado por acaso. Nossa análise sugere que essa esparsidade não se deve à atualização de apenas um subconjunto de camadas; em vez disso, quase todas as matrizes de parâmetros recebem atualizações igualmente esparsas. Além disso, as atualizações para quase todas as matrizes de parâmetros são quase de posto completo, sugerindo que o RL atualiza um pequeno subconjunto de parâmetros que, no entanto, abrangem quase todos os subespaços que as matrizes de parâmetros podem representar. Conjecturamos que essa esparsidade de atualização pode ser atribuída principalmente ao treinamento em dados próximos à distribuição da política, enquanto técnicas que incentivam a política a permanecer próxima ao modelo pré-treinado, como a regularização KL e o corte de gradiente, têm impacto limitado.
O Aprendizado por Reforço (RL) tem se mostrado uma estratégia eficaz de pós-treinamento para aprimorar o raciocínio em modelos de visão e linguagem (VLMs). O Group Relative Policy Optimization (GRPO) é um método recente e proeminente que incentiva os modelos a gerar traços completos de raciocínio antes de responder, resultando em maior uso de tokens e custo computacional. Inspirados pelo processo de pensamento humano—onde as pessoas pulam o raciocínio para perguntas fáceis, mas pensam cuidadosamente quando necessário—exploramos como permitir que os VLMs decidam primeiro quando o raciocínio é necessário. Para isso, propomos o TON, uma estratégia de treinamento em duas etapas: (i) uma etapa de ajuste fino supervisionado (SFT) com uma operação simples, porém eficaz, de 'abandono de pensamento', onde os traços de raciocínio são substituídos aleatoriamente por pensamentos vazios. Isso introduz um formato de pensar-ou-não que serve como um ponto de partida para o raciocínio seletivo; (ii) uma etapa de GRPO que permite ao modelo explorar livremente quando pensar ou não, enquanto maximiza as recompensas orientadas à tarefa. Resultados experimentais mostram que o TON pode reduzir o comprimento da conclusão em até 90% em comparação com o GRPO padrão, sem sacrificar o desempenho ou até mesmo melhorando-o. Avaliações adicionais em diversas tarefas de visão e linguagem—abrangendo uma variedade de dificuldades de raciocínio em modelos de 3B e 7B—revelam consistentemente que o modelo aprende progressivamente a ignorar etapas desnecessárias de raciocínio à medida que o treinamento avança. Essas descobertas lançam luz sobre o caminho para padrões de raciocínio semelhantes aos humanos em abordagens de aprendizado por reforço. Nosso código está disponível em https://github.com/kokolerk/TON.
Modelos de linguagem multimodal de grande escala (MLLMs) avançaram rapidamente em tarefas visuais, mas sua compreensão espacial ainda se limita a imagens únicas, tornando-os inadequados para robótica e outras aplicações do mundo real que exigem raciocínio multiframe. Neste artigo, propomos um framework para equipar MLLMs com uma compreensão espacial multiframe robusta, integrando percepção de profundidade, correspondência visual e percepção dinâmica. O elemento central da nossa abordagem é o conjunto de dados MultiSPA, uma coleção nova e em larga escala com mais de 27 milhões de amostras abrangendo diversas cenas 3D e 4D. Juntamente com o MultiSPA, introduzimos um benchmark abrangente que testa um amplo espectro de tarefas espaciais sob métricas uniformes. Nosso modelo resultante, Multi-SpatialMLLM, alcança ganhos significativos em relação a sistemas de linha de base e proprietários, demonstrando raciocínio multiframe escalável e generalizável. Observamos ainda benefícios multitarefa e indícios precoces de capacidades emergentes em cenários desafiadores, e mostramos como nosso modelo pode servir como um anotador de recompensas multiframe para robótica.
Grandes modelos de visão e linguagem (LVLMs) permanecem vulneráveis à alucinação, frequentemente gerando conteúdo desalinhado com as entradas visuais. Embora abordagens recentes avancem na Otimização de Preferência Direta (DPO) multimodal para mitigar a alucinação, elas geralmente dependem de amostras negativas pré-definidas ou editadas aleatoriamente que não refletem os erros reais do modelo, limitando a eficácia do treinamento. Neste trabalho, propomos uma estrutura de Aprendizado de Preferência Online em Visão e Linguagem (OViP) que constrói dinamicamente dados de treinamento contrastivos com base nas próprias saídas alucinadas do modelo. Ao identificar diferenças semânticas entre pares de respostas amostradas e sintetizar imagens negativas usando um modelo de difusão, o OViP gera sinais de supervisão mais relevantes em tempo real. Esse treinamento orientado por falhas permite o alinhamento adaptativo tanto das preferências textuais quanto visuais. Além disso, refinamos protocolos de avaliação existentes para capturar melhor a relação entre a supressão de alucinações e a expressividade. Experimentos em benchmarks de alucinação e gerais demonstram que o OViP reduz efetivamente as alucinações enquanto preserva as capacidades multimodais essenciais.
Os recentes avanços em LLMs de raciocínio (por exemplo, DeepSeek-R1 e OpenAI-o1) demonstraram capacidades impressionantes de raciocínio por meio de aprendizado por reforço. No entanto, estender essas capacidades para LLMs Multimodais (MLLMs) é dificultado pelos custos proibitivos de retreinamento e pela escassez de conjuntos de dados multimodais de raciocínio de alta qualidade e verificáveis. Este artigo apresenta o Modelo FRANK, um MLLM sem treinamento (FRee ANd r1-liKe) que confere a MLLMs prontos para uso habilidades de raciocínio e reflexão, sem qualquer atualização de gradiente ou supervisão adicional. Nossa principal percepção é desacoplar a percepção e o raciocínio entre as camadas do decodificador do MLLM. Especificamente, observamos que, em comparação com as camadas mais profundas do decodificador, as camadas mais superficiais alocam mais atenção aos tokens visuais, enquanto as camadas mais profundas se concentram na semântica textual. Essa observação motiva uma abordagem de fusão hierárquica de pesos que combina um MLLM pré-treinado visualmente com um LLM especializado em raciocínio. Para isso, propomos um mecanismo de fusão em camadas, derivado de Taylor, que integra a capacidade de raciocínio nas camadas profundas do decodificador, preservando a fundamentação visual nas camadas superficiais. Experimentos extensos em benchmarks desafiadores de raciocínio multimodal demonstram a eficácia de nossa abordagem. No benchmark MMMU, nosso modelo FRANK-38B alcança uma precisão de 69,2, superando o baseline mais forte, InternVL2.5-38B, em +5,3, e até mesmo ultrapassando o modelo proprietário GPT-4o. A página inicial do nosso projeto está em: http://iip.whu.edu.cn/frank/index.html
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades avançadas em aplicações agentes do mundo real. Esforços crescentes de pesquisa visam desenvolver agentes baseados em LLMs para atender demandas práticas, introduzindo um novo desafio: cenários agentes frequentemente envolvem instruções extensas com restrições complexas, como prompts de sistema prolongados e especificações detalhadas de ferramentas. Embora a adesão a tais instruções seja crucial para aplicações agentes, a capacidade dos LLMs de segui-las de forma confiável ainda é pouco explorada. Neste artigo, apresentamos o AgentIF, o primeiro benchmark para avaliar sistematicamente a capacidade de seguir instruções de LLMs em cenários agentes. O AgentIF apresenta três características principais: (1) Realista, construído a partir de 50 aplicações agentes do mundo real. (2) Longo, com uma média de 1.723 palavras e um máximo de 15.630 palavras. (3) Complexo, com uma média de 11,9 restrições por instrução, abrangendo diversos tipos de restrições, como especificações de ferramentas e restrições de condição. Para construir o AgentIF, coletamos 707 instruções anotadas por humanos em 50 tarefas agentes de agentes de aplicações industriais e sistemas agentes de código aberto. Para cada instrução, anotamos as restrições associadas e as métricas de avaliação correspondentes, incluindo avaliação baseada em código, avaliação baseada em LLM e avaliação híbrida código-LLM. Utilizamos o AgentIF para avaliar sistematicamente LLMs avançados existentes. Observamos que os modelos atuais geralmente têm desempenho ruim, especialmente no tratamento de estruturas de restrições complexas e especificações de ferramentas. Além disso, realizamos análises de erro e experimentos analíticos sobre o comprimento das instruções e meta-restrições, fornecendo algumas descobertas sobre os modos de falha dos LLMs existentes. Disponibilizamos o código e os dados para facilitar pesquisas futuras.
O aprendizado por reforço a partir de feedback humano (RLHF, na sigla em inglês) tornou-se um paradigma poderoso de pós-treinamento para alinhar grandes modelos de linguagem com as preferências humanas. Um desafio central no RLHF é a construção de sinais de recompensa precisos, onde os modelos de recompensa convencionais de Bradley-Terry (BT RMs) frequentemente sofrem com sensibilidade ao tamanho e cobertura dos dados, além de vulnerabilidade a ataques de manipulação de recompensa. Os modelos de recompensa generativos (GenRMs) oferecem uma alternativa mais robusta ao gerar cadeias de raciocínio (CoT) seguidas por uma recompensa final. No entanto, os GenRMs existentes dependem de raciocínios verticais e superficiais, limitando sua capacidade de lidar com tarefas complexas ou que exigem raciocínio detalhado. Além disso, suas saídas de preferência pareadas são incompatíveis com algoritmos padrão de RLHF, que exigem sinais de recompensa pontuais. Neste trabalho, introduzimos o Think-RM, uma estrutura de treinamento que habilita raciocínios de longo horizonte em GenRMs ao modelar um processo interno de pensamento. Em vez de produzir racionalizações estruturadas e externamente fornecidas, o Think-RM gera traços de raciocínio flexíveis e autoguiados que suportam capacidades avançadas, como autorreflexão, raciocínio hipotético e raciocínio divergente. Para elicitar essas habilidades de raciocínio, primeiro ajustamos os modelos por meio de fine-tuning supervisionado (SFT) sobre dados de CoT longos. Em seguida, aprimoramos ainda mais as habilidades de longo horizonte do modelo por meio de aprendizado por reforço baseado em regras (RL). Além disso, propomos um novo pipeline de RLHF pareado que otimiza diretamente as políticas usando recompensas de preferência pareadas, eliminando a necessidade de conversão de recompensas pontuais e permitindo um uso mais eficaz das saídas do Think-RM. Experimentos mostram que o Think-RM alcança resultados de ponta no RM-Bench, superando tanto o BT RM quanto o GenRM verticalmente escalado em 8%. Quando combinado com nosso pipeline de RLHF pareado, ele demonstra desempenho superior em políticas finais em comparação com abordagens tradicionais.
Propomos o RoPECraft, um método de transferência de movimento em vídeo sem necessidade de treinamento para transformadores de difusão que opera exclusivamente pela modificação de suas incorporações posicionais rotativas (RoPE). Primeiramente, extraímos o fluxo óptico denso de um vídeo de referência e utilizamos os deslocamentos de movimento resultantes para deformar os tensores complexo-exponenciais do RoPE, codificando efetivamente o movimento no processo de geração. Essas incorporações são então otimizadas durante as etapas de remoção de ruído por meio do alinhamento de trajetórias entre as velocidades previstas e as almejadas, utilizando um objetivo de correspondência de fluxo. Para manter a fidelidade da saída ao prompt de texto e evitar gerações duplicadas, incorporamos um termo de regularização baseado nos componentes de fase da transformada de Fourier do vídeo de referência, projetando os ângulos de fase em uma variedade suave para suprimir artefatos de alta frequência. Experimentos em benchmarks revelam que o RoPECraft supera todos os métodos recentemente publicados, tanto qualitativa quanto quantitativamente.
Modelos de Recompensa de Processo (PRMs), que fornecem feedback passo a passo sobre o raciocínio gerado por Modelos de Linguagem de Grande Escala (LLMs), estão recebendo atenção crescente. No entanto, duas lacunas importantes de pesquisa permanecem: a coleta de rótulos precisos de erros em nível de etapa para treinamento geralmente requer anotação humana custosa, e os PRMs existentes são limitados a problemas de raciocínio matemático. Em resposta a essas lacunas, este artigo visa abordar os desafios da criação automática de conjuntos de dados e da generalização de PRMs para diversas tarefas de raciocínio. Para alcançar esse objetivo, propomos o FoVer, uma abordagem para treinar PRMs em rótulos de erros em nível de etapa anotados automaticamente por ferramentas de verificação formal, como Z3 para lógica formal e Isabelle para provas de teoremas, que fornecem verificação automática e precisa para tarefas simbólicas. Usando essa abordagem, sintetizamos um conjunto de dados de treinamento com rótulos de erros em respostas de LLMs para tarefas de lógica formal e provas de teoremas sem anotação humana. Embora essa síntese de dados seja viável apenas para tarefas compatíveis com verificação formal, observamos que PRMs baseados em LLMs treinados em nosso conjunto de dados exibem generalização entre tarefas, melhorando a verificação em diversas tarefas de raciocínio. Especificamente, PRMs treinados com FoVer superam significativamente PRMs de linha de base baseados nos LLMs originais e alcançam resultados competitivos ou superiores em comparação com PRMs state-of-the-art treinados em rótulos anotados por humanos ou modelos mais fortes, conforme medido pela verificação em nível de etapa no ProcessBench e pelo desempenho Best-of-K em 12 benchmarks de raciocínio, incluindo MATH, AIME, ANLI, MMLU e BBH. Os conjuntos de dados, modelos e código são fornecidos em https://github.com/psunlpgroup/FoVer.
Os Modelos de Raciocínio de Grande Escala (LRMs) introduzem um novo paradigma de geração que envolve o raciocínio explícito antes de responder, resultando em melhorias notáveis em tarefas complexas. No entanto, eles apresentam grandes riscos de segurança contra consultas maliciosas e ataques adversariais. Embora os esforços recentes de segurança em LRMs, como o ajuste fino supervisionado (SFT), melhorem o desempenho de segurança, descobrimos que os modelos alinhados com SFT têm dificuldade em generalizar para prompts de jailbreak não vistos. Após uma investigação detalhada da geração dos LRMs, identificamos um "momento de insight de segurança" que pode ativar o raciocínio de segurança e levar a uma resposta segura. Esse momento de insight geralmente aparece na "frase-chave", que segue o processo de compreensão da consulta pelo modelo e pode indicar se o modelo procederá de forma segura. Com base nessas percepções, propomos o SafeKey, que inclui dois objetivos complementares para ativar melhor o momento de insight de segurança na frase-chave: (1) um Cabeçalho de Segurança de Caminho Duplo para reforçar o sinal de segurança nas representações internas do modelo antes da frase-chave, e (2) um objetivo de Modelagem de Máscara de Consulta para melhorar a atenção do modelo na compreensão da consulta, que contém pistas importantes de segurança. Experimentos em vários benchmarks de segurança demonstram que nossos métodos melhoram significativamente a generalização de segurança para uma ampla gama de ataques de jailbreak e prompts maliciosos fora da distribuição, reduzindo a taxa média de nocividade em 9,6%, enquanto mantêm as habilidades gerais. Nossa análise revela como o SafeKey melhora a segurança ao remodelar a atenção interna e aprimorar a qualidade das representações ocultas.
A avaliação das capacidades de geração de texto de modelos de linguagem de grande escala (LLMs) é desafiadora, especialmente para idiomas de baixo recurso, onde métodos de avaliação direta são escassos. Propomos o MUG-Eval, uma estrutura inovadora que avalia as capacidades de geração multilíngue dos LLMs transformando benchmarks existentes em tarefas conversacionais e medindo a precisão dos LLMs nessas tarefas. Projetamos especificamente essas tarefas conversacionais para exigir comunicação eficaz no idioma alvo. Em seguida, utilizamos simplesmente a taxa de sucesso da tarefa como um indicador de geração bem-sucedida de conversas. Nossa abordagem oferece duas vantagens principais: ela é independente de ferramentas de NLP específicas para cada idioma ou conjuntos de dados anotados, que são limitados para a maioria dos idiomas, e não depende de LLMs como juízes, cuja qualidade de avaliação se degrada fora de alguns idiomas de alto recurso. Avaliamos 8 LLMs em 30 idiomas abrangendo categorias de alto, médio e baixo recurso, e descobrimos que o MUG-Eval correlaciona-se fortemente com benchmarks estabelecidos (r > 0,75), ao mesmo tempo que permite comparações padronizadas entre idiomas e modelos. Nossa estrutura fornece uma solução robusta e eficiente em termos de recursos para avaliar a geração multilíngue, que pode ser estendida a milhares de idiomas.
Sistemas de tradução automática de alta qualidade baseados em grandes modelos de linguagem (LLMs) simplificaram a produção de traduções personalizadas que refletem restrições estilísticas específicas. No entanto, esses sistemas ainda enfrentam dificuldades em cenários onde os requisitos estilísticos são menos explícitos e podem ser mais difíceis de transmitir por meio de prompts. Exploramos várias estratégias para personalizar traduções geradas por LLMs em contextos de baixos recursos, com foco no desafiador domínio da tradução literária. Investigamos estratégias de prompting e intervenções durante a inferência para direcionar as gerações do modelo para um estilo personalizado, e propomos um framework contrastivo que explora conceitos latentes extraídos de autoencoders esparsos para identificar propriedades salientes de personalização. Nossos resultados mostram que o direcionamento alcança uma forte personalização enquanto preserva a qualidade da tradução. Além disso, examinamos o impacto do direcionamento nas representações dos LLMs, descobrindo que as camadas do modelo com impacto relevante para personalização são afetadas de forma semelhante por prompting multi-shot e nosso método de direcionamento, sugerindo mecanismos semelhantes em ação.
Apesar dos avanços significativos nos Grandes Modelos de Linguagem Visual (LVLMs, na sigla em inglês), ainda existe uma lacuna, especialmente em relação à sua interpretabilidade e à forma como localizam e interpretam informações textuais em imagens. Neste artigo, exploramos diversos LVLMs para identificar as cabeças específicas responsáveis pelo reconhecimento de texto em imagens, que denominamos Cabeça de Reconhecimento Óptico de Caracteres (OCR Head, em inglês). Nossas descobertas sobre essas cabeças são as seguintes: (1) Menos Esparsas: Diferente das cabeças de recuperação anteriores, um grande número de cabeças é ativado para extrair informações textuais de imagens. (2) Qualitativamente Distintas: As cabeças OCR possuem propriedades que diferem significativamente das cabeças de recuperação gerais, exibindo baixa similaridade em suas características. (3) Estaticamente Ativadas: A frequência de ativação dessas cabeças está alinhada com suas pontuações OCR. Validamos nossas descobertas em tarefas subsequentes aplicando o Chain-of-Thought (CoT) tanto às cabeças OCR quanto às cabeças de recuperação convencionais e mascarando essas cabeças. Também demonstramos que a redistribuição dos valores dos tokens de sumidouro (sink-tokens) dentro das cabeças OCR melhora o desempenho. Esses insights fornecem uma compreensão mais profunda dos mecanismos internos que os LVLMs empregam no processamento de informações textuais embutidas em imagens.
À medida que os modelos de visão e linguagem (VLMs) se tornam cada vez mais integrados à vida cotidiana, a necessidade de uma compreensão precisa da cultura visual está se tornando crítica. No entanto, esses modelos frequentemente falham em interpretar efetivamente as nuances culturais. Trabalhos anteriores demonstraram a eficácia da geração aumentada por recuperação (RAG) em melhorar a compreensão cultural em cenários apenas de texto, enquanto sua aplicação em cenários multimodais permanece pouco explorada. Para preencher essa lacuna, introduzimos o RAVENEA (Retrieval-Augmented Visual culturE uNdErstAnding), um novo benchmark projetado para avançar a compreensão da cultura visual por meio de recuperação, com foco em duas tarefas: resposta a perguntas visuais com foco cultural (cVQA) e legendagem de imagens informada por cultura (cIC). O RAVENEA estende conjuntos de dados existentes ao integrar mais de 10.000 documentos da Wikipédia curados e classificados por anotadores humanos. Com o RAVENEA, treinamos e avaliamos sete recuperadores multimodais para cada consulta de imagem e medimos o impacto a jusante das entradas aumentadas por recuperação em quatorze VLMs state-of-the-art. Nossos resultados mostram que VLMs leves, quando aumentados com recuperação consciente da cultura, superam suas contrapartes não aumentadas (em pelo menos 3,2% absoluto no cVQA e 6,2% absoluto no cIC). Isso destaca o valor dos métodos aumentados por recuperação e benchmarks culturalmente inclusivos para a compreensão multimodal.
Modelos Visão-Linguagem (VLMs) adquirem conhecimento do mundo real e capacidade de raciocínio geral por meio de corpora de imagem-texto em escala da internet. Eles podem aprimorar sistemas robóticos com compreensão de cena e planejamento de tarefas, além de auxiliar políticas visuomotoras treinadas em dados de trajetórias robóticas. Exploramos o paradigma inverso - utilizando dados ricos, reais e multimodais de trajetórias robóticas para aprimorar e avaliar VLMs. Neste artigo, apresentamos Robo2VLM, um framework de geração de conjuntos de dados de Resposta a Perguntas Visuais (VQA) para VLMs. Dada uma trajetória robótica teleoperada por humanos, o Robo2VLM deriva a verdade fundamental a partir de modalidades sensoriais não visuais e não descritivas, como a pose do efetuador final, a abertura da garra e a detecção de força. Com base nessas modalidades, ele segmenta a trajetória robótica em uma sequência de fases de manipulação. Em cada fase, o Robo2VLM utiliza a compreensão da cena e da interação para identificar propriedades 3D do robô, o objetivo da tarefa e o objeto alvo. Essas propriedades são usadas para gerar consultas VQA representativas - imagens com perguntas de múltipla escolha textuais - com base em modelos de perguntas de raciocínio espacial, condicionado ao objetivo e de interação. Criamos o Robo2VLM-1, um conjunto de dados em grande escala no mundo real com 684.710 perguntas, abrangendo 463 cenas distintas e 3.396 tarefas de manipulação robótica a partir de 176 mil trajetórias robóticas reais. Os resultados sugerem que o Robo2VLM-1 pode avaliar e melhorar as capacidades dos VLMs em raciocínio espacial e de interação.
A compreensão metafórica em imagens continua sendo um desafio crítico para os sistemas de IA, uma vez que os modelos existentes têm dificuldade em captar as nuances culturais, emocionais e contextuais embutidas no conteúdo visual. Embora os modelos de linguagem multimodal de grande escala (MLLMs) se destaquem em tarefas básicas de Resposta a Perguntas Visuais (VQA), eles enfrentam uma limitação fundamental em tarefas de implicação visual: lacunas contextuais que obscurecem as relações entre diferentes elementos visuais e seus significados abstratos. Inspirados pelo processo cognitivo humano, propomos o Let Androids Dream (LAD), uma nova estrutura para compreensão e raciocínio sobre implicações visuais. O LAD aborda a falta de contexto por meio de uma estrutura de três estágios: (1) Percepção: conversão de informações visuais em representações textuais ricas e multiníveis, (2) Busca: busca iterativa e integração de conhecimento de múltiplos domínios para resolver ambiguidades, e (3) Raciocínio: geração de implicações visuais alinhadas ao contexto por meio de raciocínio explícito. Nossa estrutura, com o modelo leve GPT-4o-mini, alcança desempenho de ponta (SOTA) em comparação com mais de 15 MLLMs no benchmark de implicação visual em inglês e uma grande melhoria no benchmark em chinês, apresentando desempenho comparável ao modelo GPT-4o em Perguntas de Múltipla Escolha (MCQ) e superando-o em 36,7% em Perguntas de Resposta Aberta (OSQ). Além disso, nosso trabalho oferece novas perspectivas sobre como a IA pode interpretar implicações visuais de forma mais eficaz, avançando o campo do raciocínio visão-linguagem e da interação humano-IA. Nosso projeto está disponível publicamente em https://github.com/MING-ZCH/Let-Androids-Dream-of-Electric-Sheep.
Modelos de linguagem de grande escala (LLMs) podem admitir seus erros quando deveriam saber melhor? Neste trabalho, definimos o comportamento de reconhecer erros em respostas previamente geradas como "retratação" e buscamos entender quando e por que os LLMs escolhem se retratar. Primeiro, construímos conjuntos de dados específicos para cada modelo a fim de avaliar se um modelo irá retratar uma resposta incorreta que contradiz seu próprio conhecimento paramétrico. Embora os LLMs sejam capazes de se retratar, eles o fazem apenas raramente. Demonstramos que a retratação está intimamente ligada a indicadores previamente identificados das crenças internas dos modelos: os modelos falham em retratar respostas erradas que eles "acreditam" serem factualmente corretas. Experimentos de direcionamento demonstram ainda que a crença interna influencia causalmente a retratação do modelo. Em particular, quando o modelo não acredita em sua resposta, isso não apenas incentiva o modelo a tentar verificar a resposta, mas também altera o comportamento de atenção durante a autoverificação. Por fim, demonstramos que uma simples fine-tuning supervisionada melhora significativamente o desempenho de retratação, ajudando o modelo a aprender crenças internas mais precisas. Códigos e conjuntos de dados estão disponíveis em https://github.com/ayyyq/llm-retraction.
Apresentamos um novo conjunto de dados projetado para avaliar as capacidades de raciocínio físico e espacial de Modelos de Linguagem de Grande Escala (LLM) com base na otimização topológica, um método para calcular distribuições ótimas de material dentro de um espaço de projeto sob cargas e apoios pré-definidos. Neste conjunto de dados, os LLMs recebem condições como contornos 2D, forças aplicadas e apoios, e devem raciocinar sobre a distribuição ótima de material resultante. O conjunto de dados inclui uma variedade de tarefas, desde preencher regiões mascaradas em estruturas parciais até prever distribuições completas de material. Resolver essas tarefas requer compreender o fluxo de forças e a distribuição necessária de material sob restrições dadas, sem acesso a ferramentas de simulação ou modelos físicos explícitos, desafiando os modelos a raciocinar sobre estabilidade estrutural e organização espacial. Nosso conjunto de dados visa avaliar habilidades de raciocínio espacial e físico em cenários 2D, oferecendo uma perspectiva complementar aos benchmarks tradicionais de linguagem e lógica.
Os tokenizadores BPE modernos frequentemente dividem datas do calendário em fragmentos sem significado, por exemplo, 20250312 → 202, 503, 12, inflando a contagem de tokens e obscurecendo a estrutura inerente necessária para um raciocínio temporal robusto. Neste trabalho, (1) introduzimos uma métrica simples, porém interpretável, denominada taxa de fragmentação de datas, que mede o quão fielmente um tokenizador preserva os componentes de datas com múltiplos dígitos; (2) lançamos o DateAugBench, um conjunto de 6500 exemplos abrangendo três tarefas de raciocínio temporal: resolução de datas baseada em contexto, quebra-cabeças de invariância de formato e aritmética de datas em regimes históricos, contemporâneos e futuros; e (3) por meio de análises de sondagem camada a camada e de saltos de atenção causal, descobrimos um mecanismo emergente de abstração de datas pelo qual grandes modelos de linguagem costuram os fragmentos dos componentes de mês, dia e ano para o raciocínio temporal. Nossos experimentos mostram que a fragmentação excessiva está correlacionada com quedas de precisão de até 10 pontos em datas incomuns, como datas históricas e futurísticas. Além disso, descobrimos que, quanto maior o modelo, mais rapidamente a abstração emergente de datas que repara os fragmentos é realizada. Por fim, observamos um caminho de raciocínio que os LLMs seguem para montar os fragmentos de datas, que tipicamente difere da interpretação humana (ano → mês → dia).
Ao realizar o pré-treinamento para sintetizar imagens coerentes a partir de entradas perturbadas, os modelos generativos aprendem inerentemente a compreender os limites dos objetos e as composições das cenas. Como podemos reutilizar essas representações generativas para a organização perceptual de propósito geral? Ajustamos o Stable Diffusion e o MAE (codificador+decodificador) para a segmentação de instâncias independente de categoria, utilizando exclusivamente nossa função de perda de coloração de instâncias em um conjunto restrito de tipos de objetos (mobiliário interno e carros). Surpreendentemente, nossos modelos exibem uma forte generalização zero-shot, segmentando com precisão objetos de tipos e estilos não vistos durante o ajuste fino (e, em muitos casos, também não vistos no pré-treinamento do MAE no ImageNet-1K). Nossos modelos de melhor desempenho se aproximam bastante do SAM, que é altamente supervisionado, quando avaliados em tipos e estilos de objetos não vistos, e o superam ao segmentar estruturas finas e limites ambíguos. Em contraste, arquiteturas de segmentação acionáveis por prompt ou modelos pré-treinados de forma discriminativa falham em generalizar. Isso sugere que os modelos generativos aprendem um mecanismo de agrupamento inerente que se transfere entre categorias e domínios, mesmo sem um pré-treinamento em escala da internet. Código, modelos pré-treinados e demonstrações estão disponíveis em nosso site.
Grandes modelos de áudio-linguagem (LALMs) estendem os grandes modelos de linguagem com compreensão multimodal em fala, áudio, etc. Embora seus desempenhos em tarefas de processamento de fala e áudio sejam amplamente estudados, suas habilidades de raciocínio permanecem pouco exploradas. Particularmente, seu raciocínio multi-hop, a capacidade de recordar e integrar múltiplos fatos, carece de avaliação sistemática. Os benchmarks existentes focam em tarefas gerais de processamento de fala e áudio, habilidades conversacionais e justiça, mas negligenciam esse aspecto. Para preencher essa lacuna, introduzimos o SAKURA, um benchmark que avalia o raciocínio multi-hop dos LALMs com base em informações de fala e áudio. Os resultados mostram que os LALMs têm dificuldade em integrar representações de fala/áudio para raciocínio multi-hop, mesmo quando extraem as informações relevantes corretamente, destacando um desafio fundamental no raciocínio multimodal. Nossas descobertas expõem uma limitação crítica nos LALMs, oferecendo insights e recursos para pesquisas futuras.