Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

Atrito de Feedback: LLMs Têm Dificuldade em Incorporar Totalmente Feedback Externo
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback

Jun 13, 2025

Dongwei Jiang, Alvin Zhang, Andrew Wang, Nicholas Andrews, Daniel Khashabi

553

Estudos recentes mostraram que os LLMs possuem certa capacidade de melhorar suas respostas ao receber feedback externo. No entanto, ainda não está claro quão efetiva e completamente esses modelos podem incorporar feedback extrínseco. Em um cenário ideal, se os LLMs receberem feedback quase perfeito e completo, esperaríamos que eles integrassem totalmente o feedback e mudassem suas respostas incorretas para as corretas. Neste artigo, investigamos sistematicamente a capacidade dos LLMs de incorporar feedback projetando um ambiente experimental controlado. Para cada problema, um modelo solucionador tenta uma solução, então um gerador de feedback com acesso a respostas verdadeiras quase completas produz feedback direcionado, após o qual o solucionador tenta novamente. Avaliamos esse pipeline em uma ampla gama de tarefas, incluindo raciocínio matemático, raciocínio de conhecimento, raciocínio científico e avaliações multidomínio gerais com modelos de linguagem state-of-the-art, incluindo Claude 3.7 (com e sem pensamento estendido). Surpreendentemente, mesmo nessas condições quase ideais, os modelos solucionadores mostram consistentemente resistência ao feedback, uma limitação que denominamos ATRITO DE FEEDBACK. Para mitigar essa limitação, experimentamos estratégias baseadas em amostragem, como aumentos progressivos de temperatura e rejeição explícita de respostas incorretas previamente tentadas, que resultam em melhorias, mas ainda não ajudam os modelos a atingir o desempenho desejado. Também realizamos uma exploração rigorosa das possíveis causas do ATRITO DE FEEDBACK, descartando fatores como excesso de confiança do modelo e familiaridade com os dados. Esperamos que destacar esse problema nos LLMs e descartar várias causas aparentes ajude pesquisas futuras em autossuperação.

A Dualidade de Difusão
The Diffusion Duality

Jun 12, 2025

Subham Sekhar Sahoo, Justin Deschenaux, Aaron Gokaslan, Guanghan Wang, Justin Chiu, Volodymyr Kuleshov

384

Modelos de difusão discreta de estado uniforme prometem geração rápida de texto devido à sua capacidade inerente de autocorreção. No entanto, eles geralmente são superados por modelos autoregressivos e modelos de difusão mascarada. Neste trabalho, reduzimos essa lacuna de desempenho ao aproveitar uma percepção fundamental: processos de difusão de estado uniforme emergem naturalmente de uma difusão Gaussiana subjacente. Nosso método, Duo, transfere técnicas poderosas da difusão Gaussiana para melhorar tanto o treinamento quanto a amostragem. Primeiro, introduzimos uma estratégia de aprendizado curricular guiada pelo processo Gaussiano, dobrando a velocidade de treinamento ao reduzir a variância. Modelos treinados com aprendizado curricular superam modelos autoregressivos em perplexidade zero-shot em 3 de 7 benchmarks. Segundo, apresentamos a Distilação de Consistência Discreta, que adapta a distilação de consistência do cenário contínuo para o discreto. Esse algoritmo permite geração em poucos passos em modelos de difusão de linguagem ao acelerar a amostragem em duas ordens de magnitude. Disponibilizamos o código e os checkpoints dos modelos na página do projeto: http://s-sahoo.github.io/duo.

Testagem Eficaz de Agentes Conformes a Políticas
Effective Red-Teaming of Policy-Adherent Agents

Jun 11, 2025

Itay Nakash, George Kour, Koren Lazar, Matan Vetzler, Guy Uziel, Ateret Anaby-Tavor

382

Agentes baseados em LLM (Large Language Models) orientados a tarefas estão sendo cada vez mais utilizados em domínios com políticas rigorosas, como elegibilidade para reembolsos ou regras de cancelamento. O desafio reside em garantir que o agente adira consistentemente a essas regras e políticas, recusando adequadamente qualquer solicitação que as viole, ao mesmo tempo em que mantém uma interação útil e natural. Isso exige o desenvolvimento de metodologias de design e avaliação personalizadas para garantir a resiliência do agente contra comportamentos maliciosos dos usuários. Propomos um novo modelo de ameaça que se concentra em usuários adversários que visam explorar agentes aderentes a políticas para benefício pessoal. Para abordar isso, apresentamos o CRAFT, um sistema de red-teaming multiagente que utiliza estratégias persuasivas conscientes das políticas para minar um agente aderente a políticas em um cenário de atendimento ao cliente, superando métodos convencionais de jailbreak, como prompts DAN, manipulação emocional e coercitivos. Com base no benchmark existente tau-bench, introduzimos o tau-break, um benchmark complementar projetado para avaliar rigorosamente a robustez do agente contra comportamentos manipulativos dos usuários. Por fim, avaliamos várias estratégias de defesa simples, porém eficazes. Embora essas medidas ofereçam alguma proteção, elas se mostram insuficientes, destacando a necessidade de salvaguardas mais fortes e baseadas em pesquisa para proteger agentes aderentes a políticas de ataques adversários.

Síntese Alinhada de Imagem de Visão Nova e Geometria via Instilação de Atenção Cross-modal
Aligned Novel View Image and Geometry Synthesis via Cross-modal Attention Instillation

Jun 13, 2025

Min-Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin-Hwa Kim

332

Apresentamos um framework baseado em difusão que realiza a geração alinhada de novas visões de imagem e geometria por meio de uma metodologia de deformação e preenchimento. Diferentemente de métodos anteriores que exigem imagens densamente posicionadas ou modelos generativos incorporados de pose limitados a visões dentro do domínio, nosso método aproveita preditores de geometria prontos para uso para prever geometrias parciais visualizadas a partir de imagens de referência e formula a síntese de novas visões como uma tarefa de preenchimento tanto para imagem quanto para geometria. Para garantir o alinhamento preciso entre as imagens geradas e a geometria, propomos a destilação de atenção cruzada, onde mapas de atenção do ramo de difusão de imagem são injetados em um ramo paralelo de difusão de geometria durante o treinamento e a inferência. Essa abordagem multitarefa alcança efeitos sinérgicos, facilitando a síntese de imagens geometricamente robustas, bem como a previsão de geometria bem definida. Introduzimos ainda o condicionamento de malha baseado em proximidade para integrar pistas de profundidade e normal, interpolando entre nuvens de pontos e filtrando geometrias erroneamente previstas de influenciar o processo de geração. Empiricamente, nosso método alcança síntese extrapolativa de visão de alta fidelidade tanto em imagem quanto em geometria em uma variedade de cenas não vistas, oferece qualidade de reconstrução competitiva em configurações de interpolação e produz nuvens de pontos coloridas geometricamente alinhadas para conclusão 3D abrangente. A página do projeto está disponível em https://cvlab-kaist.github.io/MoAI.

LiveCodeBench Pro: Como Medalhistas de Olimpíadas Avaliam LLMs na Programação Competitiva?
LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?

Jun 13, 2025

Zihan Zheng, Zerui Cheng, Zeyu Shen, Shang Zhou, Kaiyuan Liu, Hansen He, Dongruixuan Li, Stanley Wei, Hangyi Hao, Jianzhu Yao, Peiyao Sheng, Zixuan Wang, Wenhao Chai, Aleksandra Korolova, Peter Henderson, Sanjeev Arora, Pramod Viswanath, Jingbo Shang, Saining Xie

242

Relatos recentes afirmam que os grandes modelos de linguagem (LLMs, na sigla em inglês) agora superam humanos de elite em programação competitiva. Com base no conhecimento de um grupo de medalhistas de competições internacionais de algoritmos, revisitamos essa afirmação, examinando como os LLMs diferem de especialistas humanos e onde ainda persistem limitações. Apresentamos o LiveCodeBench Pro, um benchmark composto por problemas do Codeforces, ICPC e IOI que são continuamente atualizados para reduzir a probabilidade de contaminação de dados. Uma equipe de medalhistas de olimpíadas anota cada problema em categorias algorítmicas e realiza uma análise linha por linha das submissões geradas por modelos que falharam. Utilizando esses novos dados e benchmark, descobrimos que os modelos de ponta ainda têm limitações significativas: sem ferramentas externas, o melhor modelo alcança apenas 53% de acerto (pass@1) em problemas de dificuldade média e 0% em problemas difíceis, domínios onde humanos especialistas ainda se destacam. Também observamos que os LLMs têm sucesso em problemas com foco em implementação, mas lutam com raciocínio algorítmico sutil e análise de casos complexos, frequentemente gerando justificativas confiantes, porém incorretas. O alto desempenho parece ser impulsionado principalmente pela precisão de implementação e pela ampliação de ferramentas, e não por um raciocínio superior. Assim, o LiveCodeBench Pro destaca a lacuna significativa em relação aos níveis de grandes mestres humanos, ao mesmo tempo que oferece diagnósticos detalhados para orientar futuras melhorias no raciocínio de LLMs centrados em código.

ViCrit: Uma Tarefa Proxy Verificável de Aprendizado por Reforço para Percepção Visual em VLMs
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs

Jun 11, 2025

Xiyao Wang, Zhengyuan Yang, Chao Feng, Yongyuan Liang, Yuhang Zhou, Xiaoyu Liu, Ziyi Zang, Ming Li, Chung-Ching Lin, Kevin Lin, Linjie Li, Furong Huang, Lijuan Wang

232

O aprendizado por reforço (RL) tem demonstrado grande eficácia no ajuste fino de grandes modelos de linguagem (LLMs) utilizando tarefas que são desafiadoras, mas facilmente verificáveis, como raciocínio matemático ou geração de código. No entanto, estender esse sucesso para a percepção visual em modelos visão-linguagem (VLMs) tem sido dificultado pela escassez de tarefas centradas em visão que são simultaneamente desafiadoras e inequivocamente verificáveis. Para isso, introduzimos o ViCrit (Visual Caption Hallucination Critic), uma tarefa proxy de RL que treina VLMs para localizar uma sutil alucinação visual sintética injetada em parágrafos de legendas de imagens escritas por humanos. Partindo de uma legenda de 200 palavras, injetamos um único erro sutil de descrição visual—alterando algumas palavras em objetos, atributos, contagens ou relações espaciais—e solicitamos que o modelo identifique o trecho corrompido, dada a imagem e a legenda modificada. Essa formulação preserva a dificuldade perceptual completa enquanto fornece uma recompensa binária de correspondência exata que é fácil de calcular e inequívoca. Modelos treinados com a Tarefa ViCrit exibem ganhos substanciais em uma variedade de benchmarks de VL. Crucialmente, as melhorias se transferem além dos dados de treinamento de imagens naturais para o raciocínio com imagens abstratas e matemática visual, mostrando promessas de aprender a perceber em vez de apenas memorizar objetos vistos. Para facilitar a avaliação, introduzimos ainda o ViCrit-Bench, um benchmark diagnóstico balanceado por categorias que investiga sistematicamente erros de percepção em diversos domínios de imagem e tipos de erro. Juntos, nossos resultados demonstram que a crítica de alucinações em nível granular é um objetivo eficaz e generalizável para aprimorar a percepção visual em VLMs.

Além da Atenção Homogênea: LLMs Eficientes em Memória via Cache KV Aproximado por Fourier
Beyond Homogeneous Attention: Memory-Efficient LLMs via Fourier-Approximated KV Cache

Jun 13, 2025

Xiaoran Liu, Siyang He, Qiqi Wang, Ruixiao Li, Yuerong Song, Zhigeng Liu, Linlin Li, Qun Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu

214

Modelos de Linguagem de Grande Escala enfrentam desafios com as demandas de memória do crescente cache Chave-Valor (KV) à medida que os comprimentos de contexto aumentam. Os métodos de compressão existentes homogeneizam as dimensões das cabeças ou dependem da poda de tokens guiada por atenção, muitas vezes sacrificando precisão ou introduzindo sobrecarga computacional. Propomos o FourierAttention, uma estrutura livre de treinamento que explora os papéis heterogêneos das dimensões das cabeças do transformador: dimensões inferiores priorizam o contexto local, enquanto as superiores capturam dependências de longo alcance. Ao projetar as dimensões insensíveis ao contexto longo em bases de Fourier ortogonais, o FourierAttention aproxima sua evolução temporal com coeficientes espectrais de comprimento fixo. Avaliações em modelos LLaMA mostram que o FourierAttention alcança a melhor precisão de contexto longo no LongBench e no Needle-In-A-Haystack (NIAH). Além disso, um kernel Triton personalizado, FlashFourierAttention, foi projetado para otimizar a memória por meio de operações simplificadas de leitura e escrita, permitindo implantação eficiente sem comprometer o desempenho.

Med-PRM: Modelos de Raciocínio Médico com Recompensas de Processo Verificadas por Diretrizes e Passo a Passo
Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards

Jun 13, 2025

Jaehoon Yun, Jiwoong Sohn, Jungwoo Park, Hyunjae Kim, Xiangru Tang, Yanjun Shao, Yonghoe Koo, Minhyeok Ko, Qingyu Chen, Mark Gerstein, Michael Moor, Jaewoo Kang

172

Grandes modelos de linguagem têm mostrado potencial na tomada de decisões clínicas, mas as abordagens atuais enfrentam dificuldades em localizar e corrigir erros em etapas específicas do processo de raciocínio. Essa limitação é crítica na medicina, onde identificar e abordar erros de raciocínio é essencial para diagnósticos precisos e cuidados eficazes ao paciente. Apresentamos o Med-PRM, uma estrutura de modelagem de recompensa de processo que utiliza geração aumentada por recuperação para verificar cada etapa do raciocínio em relação a bases de conhecimento médico estabelecidas. Ao verificar etapas intermediárias do raciocínio com evidências recuperadas de diretrizes clínicas e literatura, nosso modelo pode avaliar a qualidade do raciocínio de maneira refinada. Avaliações em cinco benchmarks de perguntas e respostas médicas e duas tarefas diagnósticas de resposta aberta demonstram que o Med-PRM alcança desempenho de ponta, melhorando o desempenho dos modelos base em até 13,50% com o uso do Med-PRM. Além disso, demonstramos a generalidade do Med-PRM ao integrá-lo de forma plug-and-play com modelos de política robustos, como o Meerkat, alcançando pela primeira vez mais de 80% de precisão no MedQA com modelos de pequena escala de 8 bilhões de parâmetros. Nosso código e dados estão disponíveis em: https://med-prm.github.io/

SwS: Síntese de Problemas Orientada por Autoconsciência de Fraquezas no Aprendizado por Reforço para Raciocínio em LLMs
SwS: Self-aware Weakness-driven Problem Synthesis in Reinforcement Learning for LLM Reasoning

Jun 10, 2025

Xiao Liang, Zhong-Zhi Li, Yeyun Gong, Yang Wang, Hengyuan Zhang, Yelong Shen, Ying Nian Wu, Weizhu Chen

152

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tem se mostrado eficaz para treinar grandes modelos de linguagem (LLMs) em tarefas complexas de raciocínio, como a resolução de problemas matemáticos. Um pré-requisito para a escalabilidade do RLVR é um conjunto de problemas de alta qualidade com respostas precisas e verificáveis. No entanto, a escassez de problemas matemáticos bem elaborados e rotulados por humanos, além das respostas de verificação limitada em conjuntos de dados sintéticos orientados à destilação, restringem sua eficácia no aprendizado por reforço. Além disso, a maioria das estratégias de síntese de problemas expande indiscriminadamente o conjunto de problemas sem considerar as capacidades do modelo, resultando em baixa eficiência na geração de questões úteis. Para mitigar esse problema, introduzimos um framework de Síntese de Problemas Orientada por Autoconsciência de Fraquezas (SwS), que identifica sistematicamente as deficiências do modelo e as utiliza para a ampliação de problemas. Especificamente, definimos fraquezas como questões que o modelo consistentemente falha em aprender durante sua amostragem iterativa no treinamento de RL. Em seguida, extraímos os conceitos centrais desses casos de falha e sintetizamos novos problemas para fortalecer as áreas fracas do modelo em treinamentos subsequentes ampliados, permitindo que ele se concentre e supere gradualmente suas fraquezas. Sem depender de destilação de conhecimento externa, nosso framework possibilita uma generalização robusta ao capacitar o modelo a autoidentificar e abordar suas fraquezas no RL, resultando em ganhos médios de desempenho de 10,0% e 7,7% em modelos de 7B e 32B em oito benchmarks principais de raciocínio.

DeepVideo-R1: Ajuste Fino de Reforço em Vídeo via GRPO Regressivo com Consciência de Dificuldade
DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO

Jun 9, 2025

Jinyoung Park, Jeehye Na, Jinyoung Kim, Hyunwoo J. Kim

133

Trabalhos recentes demonstraram a eficácia do pós-treinamento baseado em aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). Em particular, a Otimização de Política Relativa em Grupo (GRPO) mostrou sucesso impressionante ao empregar um algoritmo de reforço no estilo PPO com recompensas normalizadas baseadas em grupos. No entanto, a aplicação da GRPO a Modelos de Linguagem de Grande Escala para Vídeo (Video LLMs) tem sido menos estudada. Neste artigo, exploramos a GRPO para Video LLMs e identificamos dois problemas principais que impedem seu aprendizado eficaz: (1) dependência de salvaguardas e (2) o problema de vantagem desaparecida. Para mitigar esses desafios, propomos o DeepVideo-R1, um modelo de linguagem de grande escala para vídeo treinado com nossa proposta de Reg-GRPO (GRPO Regressiva) e uma estratégia de aumento de dados consciente da dificuldade. A Reg-GRPO reformula o objetivo da GRPO como uma tarefa de regressão, prevendo diretamente a vantagem na GRPO. Esse design elimina a necessidade de salvaguardas como funções de corte e mínimo, facilitando assim uma orientação de política mais direta ao alinhar o modelo com os valores de vantagem. Também projetamos a estratégia de aumento de dados consciente da dificuldade, que aumenta dinamicamente as amostras de treinamento em níveis de dificuldade solucionáveis, promovendo sinais de recompensa diversos e informativos. Nossos experimentos abrangentes mostram que o DeepVideo-R1 melhora significativamente o desempenho de raciocínio em vídeo em vários benchmarks de raciocínio em vídeo.

pLSTM: Redes de Transição de Fonte Linear Paralelizáveis
pLSTM: parallelizable Linear Source Transition Mark networks

Jun 13, 2025

Korbinian Pöppel, Richard Freinschlag, Thomas Schmied, Wei Lin, Sepp Hochreiter

102

Arquiteturas recorrentes modernas, como xLSTM e Mamba, recentemente desafiaram o Transformer na modelagem de linguagem. No entanto, sua estrutura limita sua aplicabilidade a sequências ou exige o processamento de estruturas de dados multidimensionais, como imagens ou grafos moleculares, em uma ordem sequencial predefinida. Em contraste, Redes Neurais Recorrentes Multidimensionais (MDRNNs) são bem adequadas para dados com uma estrutura de nível superior, como grades 2D, árvores e grafos acíclicos direcionados (DAGs). Neste trabalho, estendemos a noção de multidimensionalidade para RNNs lineares. Introduzimos redes Lineares de Transição de Fonte Marcada paralelizáveis (pLSTMs) usando portas de Fonte, Transição e Marca que atuam no grafo de linha de um DAG geral. Isso permite a paralelização em analogia a varreduras associativas paralelas e à forma recorrente por blocos de RNNs lineares sequenciais, mas para DAGs. Para grades regulares (1D e 2D), como imagens, esse esquema pode ser implementado de forma eficiente usando operações einsum, concatenações e preenchimento em tempo logarítmico. As pLSTMs abordam o problema de ativação/gradiente que desaparece/explode para longas distâncias em DAGs por meio de dois modos distintos: um modo de propagação direcionada (modo P) e um modo de distribuição difusiva (modo D). Para demonstrar as capacidades de longo alcance da pLSTM, introduzimos a extrapolação de apontamento de seta como uma tarefa sintética de visão computacional que contém informações direcionais de longa distância. Demonstramos que as pLSTMs generalizam bem para tamanhos de imagem maiores, enquanto os Transformers têm dificuldade em extrapolar. Em benchmarks estabelecidos de grafos moleculares e visão computacional, as pLSTMs também mostram um desempenho forte. Código e conjuntos de dados estão disponíveis em: https://github.com/ml-jku/plstm_experiments.

JAFAR: Aprimorar Qualquer Característica em Qualquer Resolução
JAFAR: Jack up Any Feature at Any Resolution

Jun 10, 2025

Paul Couairon, Loick Chambon, Louis Serrano, Jean-Emmanuel Haugeard, Matthieu Cord, Nicolas Thome

102

Os codificadores de visão fundamentais tornaram-se essenciais para uma ampla gama de tarefas de visão densa. No entanto, suas saídas de características espaciais de baixa resolução exigem a ampliação de características para produzir as modalidades de alta resolução necessárias para tarefas subsequentes. Neste trabalho, apresentamos o JAFAR, um ampliador de características leve e flexível que melhora a resolução espacial de características visuais de qualquer codificador de visão fundamental para uma resolução alvo arbitrária. O JAFAR emprega um módulo baseado em atenção projetado para promover o alinhamento semântico entre consultas de alta resolução, derivadas de características de imagem de baixo nível, e chaves de baixa resolução semanticamente enriquecidas, utilizando modulação de Transformação de Características Espaciais (SFT). Notavelmente, apesar da ausência de supervisão de alta resolução, demonstramos que o aprendizado em razões de ampliação e resoluções baixas generaliza-se de forma notável para escalas de saída significativamente maiores. Experimentos extensivos mostram que o JAFAR recupera efetivamente detalhes espaciais refinados e supera consistentemente os métodos existentes de ampliação de características em um conjunto diversificado de tarefas subsequentes. Página do projeto em https://jafar-upsampler.github.io.

Não Preste Atenção
Don't Pay Attention

Jun 12, 2025

Mohammad Hammoud, Devang Acharya

O Transformer tornou-se o padrão de facto para modelos de linguagem de grande escala e uma ampla gama de tarefas subsequentes em diversos domínios. Apesar de suas inúmeras vantagens, como o paralelismo inerente durante o treinamento, o Transformer ainda enfrenta desafios significativos devido à sua incapacidade de processar efetivamente sequências além de uma janela de contexto fixa e à complexidade quadrática de seu mecanismo de atenção. Esses desafios renovaram o interesse em arquiteturas semelhantes a RNNs, que oferecem escalabilidade linear com o comprimento da sequência e um melhor tratamento de dependências de longo alcance, embora com paralelismo limitado devido à sua natureza inerentemente recorrente. Neste artigo, propomos o Avey, uma nova arquitetura neural fundamental que se afasta tanto da atenção quanto da recorrência. O Avey é composto por um classificador e um processador neural autoregressivo, que colaboram para identificar e contextualizar apenas os tokens mais relevantes para qualquer token dado, independentemente de suas posições na sequência. Especificamente, o Avey desacopla o comprimento da sequência da largura do contexto, permitindo assim o processamento eficaz de sequências arbitrariamente longas. Resultados experimentais mostram que o Avey se compara favoravelmente ao Transformer em uma variedade de benchmarks padrão de NLP de curto alcance, enquanto se destaca notavelmente na captura de dependências de longo alcance.

LoRA-Edit: Edição de Vídeo Controlada por Guia de Primeiro Quadro via Ajuste Fino LoRA com Consciência de Máscara
LoRA-Edit: Controllable First-Frame-Guided Video Editing via Mask-Aware LoRA Fine-Tuning

Jun 11, 2025

Chenjian Gao, Lihe Ding, Xin Cai, Zhanpeng Huang, Zibin Wang, Tianfan Xue

A edição de vídeo utilizando modelos de difusão tem alcançado resultados notáveis na geração de edições de alta qualidade para vídeos. No entanto, os métodos atuais frequentemente dependem de pré-treinamento em larga escala, limitando a flexibilidade para edições específicas. A edição guiada pelo primeiro quadro oferece controle sobre o quadro inicial, mas carece de flexibilidade sobre os quadros subsequentes. Para resolver isso, propomos um método de ajuste baseado em máscara com LoRA (Low-Rank Adaptation) que adapta modelos pré-treinados de Imagem para Vídeo (I2V) para edição flexível de vídeos. Nossa abordagem preserva regiões de fundo enquanto permite a propagação controlada de edições. Essa solução oferece edição de vídeo eficiente e adaptável sem alterar a arquitetura do modelo. Para melhor direcionar esse processo, incorporamos referências adicionais, como pontos de vista alternativos ou estados representativos da cena, que servem como âncoras visuais para como o conteúdo deve se desdobrar. Abordamos o desafio de controle utilizando uma estratégia de ajuste LoRA orientada por máscara que adapta um modelo pré-treinado de imagem para vídeo ao contexto de edição. O modelo deve aprender a partir de duas fontes distintas: o vídeo de entrada fornece estrutura espacial e pistas de movimento, enquanto as imagens de referência oferecem orientação de aparência. Uma máscara espacial permite o aprendizado específico por região, modulando dinamicamente o que o modelo atende, garantindo que cada área se baseie na fonte apropriada. Resultados experimentais mostram que nosso método alcança desempenho superior em edição de vídeo comparado aos métodos state-of-the-art.

Um Conjunto de Dados de Alta Qualidade e Avaliação Confiável para Geração Intercalada de Imagem-Texto
A High-Quality Dataset and Reliable Evaluation for Interleaved Image-Text Generation

Jun 11, 2025

Yukang Feng, Jianwen Sun, Chuanhao Li, Zizhen Li, Jiaxin Ai, Fanrui Zhang, Yifan Chang, Sizhuo Zhou, Shenglin Zhang, Yu Dai, Kaipeng Zhang

Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) melhoraram significativamente a compreensão e geração multimodal. No entanto, esses modelos ainda enfrentam dificuldades para gerar saídas de imagem-texto fortemente intercaladas, principalmente devido à escala limitada, qualidade e riqueza instrucional dos conjuntos de dados de treinamento atuais. Para resolver isso, introduzimos o InterSyn, um conjunto de dados multimodal em larga escala construído usando nosso método de Autoavaliação com Refinamento Iterativo (SEIR). O InterSyn apresenta diálogos de múltiplas interações orientados por instruções com respostas de imagem-texto fortemente intercaladas, oferecendo diversidade rica de objetos e refinamento de qualidade automatizado rigoroso, tornando-o bem adequado para treinar LMMs de próxima geração que seguem instruções. Além disso, para abordar a falta de ferramentas de avaliação confiáveis capazes de avaliar saídas multimodais intercaladas, introduzimos o SynJudge, um modelo de avaliação automática projetado para quantificar saídas multimodais em quatro dimensões: conteúdo de texto, conteúdo de imagem, qualidade de imagem e sinergia imagem-texto. Estudos experimentais mostram que o método SEIR resulta em uma qualidade de conjunto de dados substancialmente maior em comparação com um processo idêntico sem refinamento. Além disso, LMMs treinados no InterSyn alcançam ganhos de desempenho uniformes em todas as métricas de avaliação, confirmando a utilidade do InterSyn para avançar sistemas multimodais.

SkillBlender: Rumo à Versatilidade na Locomoção-Manipulação Corporal Total de Humanoides via Fusão de Habilidades
SkillBlender: Towards Versatile Humanoid Whole-Body Loco-Manipulation via Skill Blending

Jun 11, 2025

Yuxuan Kuang, Haoran Geng, Amine Elhafsi, Tan-Dzung Do, Pieter Abbeel, Jitendra Malik, Marco Pavone, Yue Wang

Robôs humanoides possuem um potencial significativo para realizar tarefas diárias em diversos ambientes, graças à sua flexibilidade e morfologia semelhante à humana. Trabalhos recentes têm feito progressos notáveis no controle de corpo inteiro e na loco-manipulação de humanoides, utilizando controle ótimo ou aprendizado por reforço. No entanto, esses métodos exigem ajustes tediosos e específicos para cada tarefa a fim de alcançar comportamentos satisfatórios, limitando sua versatilidade e escalabilidade para diversas tarefas em cenários cotidianos. Para isso, apresentamos o SkillBlender, uma nova estrutura hierárquica de aprendizado por reforço para loco-manipulação versátil de humanoides. O SkillBlender primeiro pré-treina habilidades primitivas agnósticas à tarefa condicionadas por objetivos e, em seguida, combina dinamicamente essas habilidades para realizar tarefas complexas de loco-manipulação com engenharia de recompensa mínima e específica para a tarefa. Também introduzimos o SkillBench, um benchmark simulado paralelo, de múltiplas embodiências e diversificado, contendo três embodiências, quatro habilidades primitivas e oito tarefas desafiadoras de loco-manipulação, acompanhadas por um conjunto de métricas de avaliação científica que equilibram precisão e viabilidade. Experimentos simulados extensivos mostram que nosso método supera significativamente todas as baselines, enquanto regulariza naturalmente os comportamentos para evitar "reward hacking", resultando em movimentos mais precisos e viáveis para diversas tarefas de loco-manipulação em nossos cenários cotidianos. Nosso código e benchmark serão disponibilizados à comunidade para facilitar pesquisas futuras. Página do projeto: https://usc-gvl.github.io/SkillBlender-web/.

AbstentionBench: Modelos de Linguagem de Grande Escala Falham em Perguntas Inrespondíveis
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions

Jun 10, 2025

Polina Kirichenko, Mark Ibrahim, Kamalika Chaudhuri, Samuel J. Bell

Para que os Modelos de Linguagem de Grande Escala (LLMs) sejam implantados de forma confiável tanto em domínios cotidianos quanto de alta responsabilidade, saber quando não responder é tão crítico quanto responder corretamente. Consultas de usuários do mundo real, que podem ser subespecificadas, mal formuladas ou fundamentalmente impossíveis de responder, exigem que os LLMs raciocinem sobre incerteza e se abstenham seletivamente — ou seja, recusem-se a responder de forma definitiva. No entanto, a abstenção permanece pouco estudada, sem um framework de avaliação sistemática para LLMs modernos. Neste trabalho, apresentamos o AbstentionBench, um benchmark em larga escala para avaliar holisticamente a abstenção em 20 conjuntos de dados diversos, incluindo perguntas com respostas desconhecidas, subespecificação, premissas falsas, interpretações subjetivas e informações desatualizadas. A avaliação de 20 LLMs de ponta revela que a abstenção é um problema não resolvido, e um em que a escalonamento de modelos é de pouca utilidade. Embora LLMs recentes de raciocínio tenham mostrado resultados impressionantes na resolução de problemas complexos, surpreendentemente, descobrimos que o ajuste fino de raciocínio degrada a abstenção (em 24% em média), mesmo em domínios de matemática e ciências nos quais os modelos de raciocínio são explicitamente treinados. Descobrimos que, embora um prompt de sistema cuidadosamente elaborado possa impulsionar a abstenção na prática, ele não resolve a incapacidade fundamental dos modelos de raciocinar sobre incerteza. Lançamos o AbstentionBench para fomentar pesquisas que avancem a confiabilidade dos LLMs.

Aprendendo um Token de Pensamento Contínuo para Melhorar a Escalabilidade em Tempo de Teste
Learning a Continue-Thinking Token for Enhanced Test-Time Scaling

Jun 12, 2025

Liran Ringel, Elad Tolochinsky, Yaniv Romano

A escala em tempo de teste surgiu como uma abordagem eficaz para melhorar o desempenho de modelos de linguagem ao utilizar computação adicional durante a inferência. Estudos recentes demonstraram que substituir tokens de fim de pensamento (por exemplo, trocar "</think>" por "Wait") pode estender os passos de raciocínio e melhorar a precisão. Neste trabalho, exploramos se um token dedicado para continuar o pensamento pode ser aprendido para desencadear um raciocínio estendido. Aumentamos uma versão destilada do DeepSeek-R1 com um único token aprendido "<|continue-thinking|>", treinando apenas sua incorporação por meio de aprendizado por reforço enquanto mantemos os pesos do modelo congelados. Nossos experimentos mostram que esse token aprendido alcança uma precisão melhorada em benchmarks matemáticos padrão em comparação tanto com o modelo base quanto com uma abordagem de escala em tempo de teste que usa um token fixo (por exemplo, "Wait") para forçar o orçamento. Em particular, observamos que, nos casos em que a abordagem de token fixo melhora a precisão do modelo base, nosso método alcança uma melhoria significativamente maior. Por exemplo, no benchmark GSM8K, a abordagem de token fixo resulta em uma melhoria absoluta de 1,3% na precisão, enquanto nosso método de token aprendido alcança uma melhoria de 4,2% sobre o modelo base que não utiliza forçamento de orçamento.

Um Framework de Autorrefinamento para Aprimorar o ASR Utilizando Dados Sintetizados por TTS
A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data

Jun 10, 2025

Cheng Kang Chou, Chan-Jan Hsu, Ho-Lam Chung, Liang-Hsuan Tseng, Hsi-Chun Cheng, Yu-Kuan Fu, Kuan Po Huang, Hung-Yi Lee

Propomos uma estrutura de auto-refinamento que melhora o desempenho de ASR utilizando apenas conjuntos de dados não rotulados. O processo começa com um modelo ASR existente gerando pseudo-rótulos em fala não anotada, que são então usados para treinar um sistema de texto-para-fala (TTS) de alta fidelidade. Em seguida, pares de fala e texto sintetizados são integrados ao sistema ASR original, completando o ciclo de auto-melhoria em loop fechado. Demonstramos a eficácia da estrutura em fala de mandarim taiwanês. Utilizando 6.000 horas de fala não rotulada, uma quantidade moderada de dados de texto e conteúdo sintético dos modelos de IA, adaptamos o Whisper-large-v2 para um modelo especializado, o Twister. O Twister reduz as taxas de erro em até 20% no mandarim e 50% em benchmarks de alternância de código mandarim-inglês em comparação com o Whisper. Os resultados destacam a estrutura como uma alternativa atraente às abordagens de auto-distilação com pseudo-rótulos e fornecem um caminho prático para melhorar o desempenho de ASR em cenários de baixos recursos ou específicos de domínio.

Recuperadores Densos Podem Falhar em Consultas Simples: Revelando o Dilema da Granularidade dos Embeddings
Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings

Jun 10, 2025

Liyan Xu, Zhenlin Su, Mo Yu, Jiangnan Li, Fandong Meng, Jie Zhou

Este trabalho se concentra em uma limitação observada em codificadores de texto: as incorporações podem não ser capazes de reconhecer entidades ou eventos de granularidade fina dentro da semântica, resultando em falhas na recuperação densa mesmo em casos simples. Para examinar esses comportamentos, primeiro introduzimos um novo conjunto de dados de avaliação em chinês, chamado CapRetrieval, cujas passagens são legendas de imagens, e as consultas são frases que questionam entidades ou eventos em várias formas. A avaliação zero-shot sugere que os codificadores podem falhar nesses emparelhamentos de granularidade fina, independentemente das fontes de treinamento ou dos tamanhos dos modelos. Visando a melhoria, prosseguimos com o ajuste fino dos codificadores com nossas estratégias propostas de geração de dados, que obtêm o melhor desempenho no CapRetrieval. Dentro desse processo, identificamos ainda um problema de dilema de granularidade, um desafio para as incorporações expressarem saliência de granularidade fina enquanto se alinham com a semântica geral. Nosso conjunto de dados, código e modelos neste trabalho são disponibilizados publicamente em https://github.com/lxucs/CapRetrieval.

Mirage-1: Aprimorando e Atualizando Agentes de Interface Gráfica com Habilidades Multimodais Hierárquicas
Mirage-1: Augmenting and Updating GUI Agent with Hierarchical Multimodal Skills

Jun 12, 2025

Yuquan Xie, Zaijing Li, Rui Shao, Gongwei Chen, Kaiwen Zhou, Yinchuan Li, Dongmei Jiang, Liqiang Nie

Esforços recentes para aproveitar o Modelo de Linguagem de Grande Escala Multimodal (MLLM) como agentes de interface gráfica do usuário (GUI) têm gerado resultados promissores. No entanto, esses agentes ainda enfrentam dificuldades com tarefas de longo prazo em ambientes online, principalmente devido ao conhecimento insuficiente e à lacuna inerente entre os domínios offline e online. Neste artigo, inspirados pela forma como os seres humanos generalizam o conhecimento em ambientes abertos, propomos um módulo de Habilidades Multimodais Hierárquicas (HMS) para abordar a questão do conhecimento insuficiente. Ele abstrai progressivamente trajetórias em habilidades de execução, habilidades centrais e, finalmente, meta-habilidades, fornecendo uma estrutura de conhecimento hierárquica para o planejamento de tarefas de longo prazo. Para preencher a lacuna entre os domínios, propomos o algoritmo de Busca em Árvore de Monte Carlo Aumentada por Habilidades (SA-MCTS), que aproveita eficientemente as habilidades adquiridas em ambientes offline para reduzir o espaço de busca de ações durante a exploração de árvores online. Com base no HMS, propomos o Mirage-1, um agente GUI multimodal, multiplataforma e plug-and-play. Para validar o desempenho do Mirage-1 em cenários reais de longo prazo, construímos um novo benchmark, o AndroidLH. Os resultados experimentais mostram que o Mirage-1 supera os agentes anteriores em 32%, 19%, 15% e 79% no AndroidWorld, MobileMiniWob++, Mind2Web-Live e AndroidLH, respectivamente. Página do projeto: https://cybertronagent.github.io/Mirage-1.github.io/

Detecção de Memes Nocivos com Compreensão Desacoplada e Raciocínio CoT Guiado
Detecting Harmful Memes with Decoupled Understanding and Guided CoT Reasoning

Jun 10, 2025

Fengjun Pan, Anh Tuan Luu, Xiaobao Wu

A detecção de memes nocivos é essencial para manter a integridade dos ambientes online. No entanto, as abordagens atuais frequentemente enfrentam desafios em termos de eficiência de recursos, flexibilidade ou explicabilidade, limitando sua implantação prática em sistemas de moderação de conteúdo. Para enfrentar esses desafios, apresentamos o U-CoT+, um novo framework para detecção de memes nocivos. Em vez de depender exclusivamente de prompts ou ajuste fino de modelos multimodais, primeiro desenvolvemos um pipeline de meme-para-texto de alta fidelidade que converte memes visuais em descrições textuais que preservam detalhes. Esse design desacopla a interpretação do meme da classificação do meme, evitando assim o raciocínio imediato sobre conteúdo visual bruto complexo e permitindo a detecção eficiente de memes nocivos com modelos de linguagem grandes (LLMs) gerais. Com base nessas descrições textuais, incorporamos ainda diretrizes interpretáveis e direcionadas, elaboradas por humanos, para orientar o raciocínio dos modelos sob prompts de zero-shot CoT. Dessa forma, esse framework permite uma fácil adaptação a diferentes critérios de detecção de nocividade entre plataformas, regiões e ao longo do tempo, oferecendo alta flexibilidade e explicabilidade. Experimentos extensivos em sete conjuntos de dados de referência validam a eficácia do nosso framework, destacando seu potencial para detecção explicável e de baixo recurso de memes nocivos usando LLMs de pequena escala. Códigos e dados estão disponíveis em: https://anonymous.4open.science/r/HMC-AF2B/README.md.

Infinity Instruct: Escalonando a Seleção e Síntese de Instruções para Aprimorar Modelos de Linguagem
Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models

Jun 9, 2025

Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin

Os Modelos de Linguagem de Grande Escala (LLMs) demonstram um desempenho robusto em aplicações do mundo real, porém os conjuntos de dados de instrução de código aberto existentes frequentemente se concentram em domínios restritos, como matemática ou programação, limitando a generalização e ampliando a lacuna em relação aos modelos proprietários. Para reduzir essa lacuna, apresentamos o Infinity-Instruct, um conjunto de dados de instrução de alta qualidade projetado para aprimorar tanto as capacidades fundamentais quanto de conversação dos LLMs por meio de um pipeline de duas fases. Na Fase 1, selecionamos 7,4 milhões de instruções fundamentais de alta qualidade (InfInstruct-F-7.4M) a partir de mais de 100 milhões de amostras, utilizando técnicas híbridas de seleção de dados. Na Fase 2, sintetizamos 1,5 milhão de instruções de conversação de alta qualidade (InfInstruct-G-1.5M) por meio de um processo de duas etapas que envolve seleção, evolução e filtragem diagnóstica de instruções. Avaliamos empiricamente o Infinity-Instruct ajustando finamente vários modelos de código aberto, incluindo Mistral, LLaMA, Qwen e Yi, e observamos ganhos substanciais de desempenho em benchmarks tanto fundamentais quanto de seguimento de instruções, superando consistentemente as versões ajustadas oficialmente. Notavelmente, o InfInstruct-LLaMA3.1-70B supera o GPT-4-0314 em 8,6% em tarefas de seguimento de instruções, ao mesmo tempo que alcança um desempenho fundamental comparável. Esses resultados destacam a sinergia entre o treinamento fundamental e de conversação e oferecem novos insights para o desenvolvimento holístico de LLMs. Nosso conjunto de dados https://huggingface.co/datasets/BAAI/Infinity-Instruct e códigos https://gitee.com/li-touch/infinity-instruct foram disponibilizados publicamente.

Mapas de Atenção Intrinsecamente Fiéis para Transformadores Visuais
Inherently Faithful Attention Maps for Vision Transformers

Jun 10, 2025

Ananthu Aniraj, Cassio F. Dantas, Dino Ienco, Diego Marcos

Apresentamos um método baseado em atenção que utiliza máscaras de atenção binárias aprendidas para garantir que apenas as regiões da imagem atendidas influenciem a predição. O contexto pode afetar fortemente a percepção de objetos, às vezes levando a representações tendenciosas, especialmente quando os objetos aparecem em fundos fora da distribuição. Ao mesmo tempo, muitas tarefas centradas em objetos no nível da imagem exigem a identificação de regiões relevantes, frequentemente dependendo do contexto. Para abordar esse dilema, propomos uma estrutura em duas etapas: a etapa 1 processa a imagem completa para descobrir partes do objeto e identificar regiões relevantes para a tarefa, enquanto a etapa 2 aproveita o mascaramento de atenção na entrada para restringir seu campo receptivo a essas regiões, permitindo uma análise focada enquanto filtra informações potencialmente espúrias. Ambas as etapas são treinadas em conjunto, permitindo que a etapa 2 refine a etapa 1. Experimentos extensos em diversos benchmarks demonstram que nossa abordagem melhora significativamente a robustez contra correlações espúrias e fundos fora da distribuição.

Modelos de Recompensa Permitem Verificação Escalável de Código ao Trocar Precisão por Taxa de Processamento
Reward Models Enable Scalable Code Verification by Trading Accuracy for Throughput

Jun 11, 2025

Gabriel Orlanski, Nicholas Roberts, Aws Albarghouthi, Frederic Sala

O paradigma padrão para resolver tarefas de codificação por meio de modelos de linguagem de grande escala (LLMs) é gerar e, em seguida, classificar programas, onde a etapa de classificação utiliza um verificador no processo. O consenso crescente é que um verificador abrangente (por exemplo, um conjunto completo de testes) deve ser priorizado em relação a um modelo de recompensa de resultado (ORM) sempre que possível, com pouca consideração dada às compensações envolvidas. Nosso objetivo é desafiar essa suposição, explorando sistematicamente a compensação entre velocidade e precisão. Descobrimos que os ORMs desempenham um papel crucial na escalabilidade da verificação, trocando precisão por velocidade, mesmo quando um verificador abrangente está disponível. Seu valor torna-se especialmente evidente quando usado em uma abordagem de gerar-podar-e-depois-classificar, onde um verificador mais rápido, porém menos preciso, remove soluções incorretas antes da classificação — resultando em um sistema 11,65 vezes mais rápido, enquanto é apenas 8,33% menos preciso do que o conjunto completo de testes. Analisamos a abordagem de gerar-podar-e-depois-classificar e mostramos que ela funciona filtrando soluções incorretas, mas altamente classificadas. Essas descobertas permitem o design de sistemas de classificação de programas escaláveis e precisos.

Candidatos de Prompt, depois Destile: Um Framework de Professor-Aluno para Anotação de Dados Orientada por LLM
Prompt Candidates, then Distill: A Teacher-Student Framework for LLM-driven Data Annotation

Jun 4, 2025

Mingxuan Xia, Haobo Wang, Yixuan Li, Zewei Yu, Jindong Wang, Junbo Zhao, Runze Wu

Recentemente, os Modelos de Linguagem de Grande Escala (LLMs) demonstraram um potencial significativo para anotação de dados, reduzindo consideravelmente os custos de mão de obra associados a aplicações subsequentes. No entanto, os métodos existentes adotam principalmente uma estratégia agressiva, solicitando que o LLM determine um único rótulo de referência para cada amostra não rotulada. Devido à incerteza inerente dos LLMs, eles frequentemente produzem rótulos incorretos para amostras difíceis, comprometendo severamente a qualidade dos dados para aplicações subsequentes. Motivados pela aversão à ambiguidade observada em comportamentos humanos, propomos um novo paradigma de anotação de candidatos, no qual os modelos de linguagem de grande escala são incentivados a gerar todos os rótulos possíveis quando enfrentam incerteza. Para garantir que rótulos únicos sejam fornecidos para tarefas subsequentes, desenvolvemos uma estrutura de professor-aluno chamada CanDist, que destila anotações de candidatos com um Modelo de Linguagem de Pequena Escala (SLM). Além disso, fornecemos uma justificativa rigorosa demonstrando que a destilação de anotações de candidatos do LLM professor oferece garantias teóricas superiores em comparação com o uso direto de anotações únicas. Experimentos extensos em seis tarefas de classificação de texto validam a eficácia do método proposto. O código-fonte está disponível em https://github.com/MingxuanXia/CanDist.

Ajuste Configurável de Preferências com Dados Sintéticos Orientados por Rúbrica
Configurable Preference Tuning with Rubric-Guided Synthetic Data

Jun 13, 2025

Víctor Gallego

Modelos de feedback humano para alinhamento de IA, como aqueles que fundamentam a Otimização Direta de Preferências (Direct Preference Optimization - DPO), frequentemente incorporam um conjunto singular e estático de preferências, limitando a adaptabilidade. Este artigo desafia a suposição de preferências monolíticas ao introduzir o Ajuste Configurável de Preferências (Configurable Preference Tuning - CPT), uma nova estrutura para dotar modelos de linguagem com a capacidade de ajustar dinamicamente seu comportamento com base em diretivas explícitas e interpretáveis por humanos. O CPT aproveita dados de preferência gerados sinteticamente, condicionados a prompts de sistema derivados de rubricas estruturadas e detalhadas que definem atributos desejados, como estilo de escrita. Ao ajustar finamente com essas preferências guiadas por rubricas, o LLM aprende a modular suas saídas no momento da inferência em resposta ao prompt do sistema, sem necessidade de retreinamento. Essa abordagem não apenas oferece controle refinado, mas também fornece um mecanismo para modelar feedback humano mais sutil e dependente do contexto. Vários artefatos experimentais, como código de treinamento, conjuntos de dados gerados e modelos ajustados, são disponibilizados em https://github.com/vicgalle/configurable-preference-tuning.