HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

66 papers found

Tabela-R1: Escalonamento no Tempo de Inferência para Raciocínio em Tabelas
Table-R1: Inference-Time Scaling for Table Reasoning

May 29

ByZheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao

Neste trabalho, apresentamos o primeiro estudo a explorar o dimensionamento em tempo de inferência em tarefas de raciocínio sobre tabelas. Desenvolvemos e avaliamos duas estratégias de pós-treinamento para habilitar o dimensionamento em tempo de inferência: destilação a partir de traços de raciocínio de modelos de fronteira e aprendizado por reforço com recompensas verificáveis (RLVR). Para a destilação, introduzimos um conjunto de dados em larga escala de traços de raciocínio gerados pelo DeepSeek-R1, que utilizamos para ajustar finamente LLMs no modelo Table-R1-SFT. Para o RLVR, propomos funções de recompensa verificáveis específicas para a tarefa e aplicamos o algoritmo GRPO para obter o modelo Table-R1-Zero. Avaliamos nossos modelos da série Table-R1 em diversas tarefas de raciocínio sobre tabelas, incluindo QA de curta duração, verificação de fatos e QA de forma livre. Notavelmente, o modelo Table-R1-Zero iguala ou supera o desempenho do GPT-4.1 e do DeepSeek-R1, utilizando apenas um LLM de 7 bilhões de parâmetros. Ele também demonstra uma forte generalização para conjuntos de dados fora do domínio. Análises extensivas de ablação e qualitativas revelam os benefícios do ajuste de instruções, escolhas de arquitetura do modelo e generalização entre tarefas, bem como o surgimento de habilidades essenciais de raciocínio sobre tabelas durante o treinamento por reforço.

Spatial-MLLM: Aprimorando as Capacidades de MLLM na Inteligência Espacial Baseada em Visão
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

May 29

ByDiankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan

Os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm melhorado significativamente o desempenho em tarefas visuais 2D. No entanto, aprimorar sua inteligência espacial continua sendo um desafio. Os MLLMs 3D existentes sempre dependem de dados adicionais 3D ou 2.5D para incorporar consciência espacial, limitando sua utilidade em cenários com apenas entradas 2D, como imagens ou vídeos. Neste artigo, apresentamos o Spatial-MLLM, uma nova estrutura para raciocínio espacial baseado em observações puramente 2D. Diferente dos MLLMs de vídeo convencionais, que dependem de codificadores visuais baseados em CLIP otimizados para compreensão semântica, nossa principal ideia é liberar o forte prior estrutural do modelo de fundação de geometria visual feed-forward. Especificamente, propomos uma arquitetura de codificador duplo: um codificador visual 2D pré-treinado para extrair características semânticas e um codificador espacial inicializado a partir da estrutura principal do modelo de geometria visual para extrair características de estrutura 3D. Um conector então integra ambas as características em tokens visuais unificados para uma compreensão espacial aprimorada. Além disso, propomos uma estratégia de amostragem de quadros consciente do espaço no momento da inferência, que seleciona os quadros espacialmente informativos de uma sequência de vídeo, garantindo que, mesmo com comprimento limitado de tokens, o modelo se concentre nos quadros críticos para o raciocínio espacial. Além das melhorias na arquitetura, construímos o conjunto de dados Spatial-MLLM-120k e treinamos o modelo nele usando ajuste fino supervisionado e GRPO. Experimentos extensivos em vários conjuntos de dados do mundo real demonstram que nosso Spatial-MLLM alcança desempenho de ponta em uma ampla gama de tarefas de compreensão e raciocínio espacial baseadas em visão. Página do projeto: https://diankun-wu.github.io/Spatial-MLLM/.

VF-Eval: Avaliação de Modelos de Linguagem Multimodais para Geração de Feedback em Vídeos de AIGC
VF-Eval: Evaluating Multimodal LLMs for Generating Feedback on AIGC Videos

May 29

ByTingyu Song, Tongyan Hu, Guo Gan, Yilun Zhao

Os MLLMs (Modelos Multimodais de Linguagem) têm sido amplamente estudados recentemente para a tarefa de resposta a perguntas em vídeos. No entanto, a maioria das avaliações existentes concentra-se em vídeos naturais, negligenciando vídeos sintéticos, como conteúdo gerado por IA (AIGC). Paralelamente, alguns trabalhos em geração de vídeos dependem de MLLMs para avaliar a qualidade dos vídeos gerados, mas as capacidades dos MLLMs na interpretação de vídeos AIGC permanecem amplamente inexploradas. Para abordar essa lacuna, propomos um novo benchmark, o VF-Eval, que introduz quatro tarefas — validação de coerência, consciência de erros, detecção de tipos de erro e avaliação de raciocínio — para avaliar de forma abrangente as habilidades dos MLLMs em vídeos AIGC. Avaliamos 13 MLLMs de ponta no VF-Eval e constatamos que mesmo o modelo com melhor desempenho, o GPT-4.1, enfrenta dificuldades para alcançar um desempenho consistentemente bom em todas as tarefas. Isso destaca a natureza desafiadora do nosso benchmark. Além disso, para investigar as aplicações práticas do VF-Eval na melhoria da geração de vídeos, conduzimos um experimento, o RePrompt, demonstrando que alinhar os MLLMs mais de perto com o feedback humano pode beneficiar a geração de vídeos.

ZeroGUI: Automação do Aprendizado de GUI Online com Custo Humano Zero
ZeroGUI: Automating Online GUI Learning at Zero Human Cost

May 29

ByChenyu Yang, Shiqian Su, Shi Liu, Xuan Dong, Yue Yu, Weijie Su, Xuehui Wang, Zhaoyang Liu, Jinguo Zhu, Hao Li, Wenhai Wang, Yu Qiao, Xizhou Zhu, Jifeng Dai

O rápido avanço dos grandes Modelos Visão-Linguagem (VLMs) impulsionou o desenvolvimento de Agentes de Interface Gráfica do Usuário (GUI) baseados exclusivamente em visão, capazes de perceber e operar Interfaces Gráficas do Usuário (GUI) para cumprir autonomamente as instruções do usuário. No entanto, as abordagens existentes geralmente adotam um framework de aprendizado offline, que enfrenta duas limitações principais: (1) forte dependência de anotações manuais de alta qualidade para a localização de elementos e supervisão de ações, e (2) adaptabilidade limitada a ambientes dinâmicos e interativos. Para abordar essas limitações, propomos o ZeroGUI, um framework escalável de aprendizado online para automatizar o treinamento de Agentes de GUI com custo humano Zero. Especificamente, o ZeroGUI integra (i) geração automática de tarefas baseada em VLM para produzir objetivos de treinamento diversos a partir do estado atual do ambiente, (ii) estimativa automática de recompensa baseada em VLM para avaliar o sucesso da tarefa sem funções de avaliação manuais, e (iii) aprendizado por reforço online em duas etapas para interagir e aprender continuamente com ambientes de GUI. Experimentos em dois Agentes de GUI avançados (UI-TARS e Aguvis) demonstram que o ZeroGUI melhora significativamente o desempenho nos ambientes OSWorld e AndroidLab. O código está disponível em https://github.com/OpenGVLab/ZeroGUI.

Fast-dLLM: Aceleração sem Treinamento de Difusão LLM ao Habilitar Cache KV e Decodificação Paralela
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

May 28

ByChengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie

Modelos de linguagem baseados em difusão (Diffusion LLMs) têm mostrado potencial para geração de texto não autorregressiva com capacidades de decodificação paralela. No entanto, a velocidade prática de inferência dos Diffusion LLMs de código aberto frequentemente fica atrás dos modelos autorregressivos devido à falta de Cache de Chave-Valor (KV Cache) e à degradação de qualidade ao decodificar múltiplos tokens simultaneamente. Para preencher essa lacuna, introduzimos um novo mecanismo de Cache KV aproximado por blocos, projetado especificamente para modelos de difusão bidirecionais, permitindo a reutilização do cache com uma queda de desempenho insignificante. Além disso, identificamos a causa raiz da degradação da qualidade de geração na decodificação paralela como a interrupção das dependências entre tokens sob a suposição de independência condicional. Para resolver isso, propomos uma estratégia de decodificação paralela baseada em confiança que decodifica seletivamente tokens que excedem um limiar de confiança, mitigando violações de dependência e mantendo a qualidade da geração. Resultados experimentais nos modelos LLaDA e Dream em múltiplos benchmarks de LLMs demonstram uma melhoria de até 27,6 vezes na taxa de transferência com perda mínima de precisão, reduzindo a diferença de desempenho em relação aos modelos autorregressivos e abrindo caminho para a implantação prática de Diffusion LLMs.

A escalada esculpe a sabedoria mais profundamente do que o cume: sobre as recompensas ruidosas no aprendizado do raciocínio.
The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

May 28

ByAng Lv, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Rui Yan

Estudos recentes sobre o pós-treinamento de grandes modelos de linguagem (LLMs) para raciocínio por meio de aprendizado por reforço (RL) geralmente se concentram em tarefas que podem ser verificadas e recompensadas com precisão, como a resolução de problemas matemáticos. Em contraste, nossa pesquisa investiga o impacto do ruído nas recompensas, uma consideração mais prática para cenários do mundo real que envolvem o pós-treinamento de LLMs usando modelos de recompensa. Descobrimos que os LLMs demonstram uma forte robustez a ruídos substanciais nas recompensas. Por exemplo, inverter manualmente 40% das saídas da função de recompensa em tarefas matemáticas ainda permite que um modelo Qwen-2.5-7B alcance convergência rápida, melhorando seu desempenho em tarefas matemáticas de 5% para 72%, em comparação com a precisão de 75% alcançada por um modelo treinado com recompensas sem ruído. Surpreendentemente, ao recompensar apenas a aparição de frases-chave de raciocínio (ou seja, recompensa por padrão de raciocínio, RPR), como "primeiro, eu preciso" — sem verificar a correção das respostas — o modelo alcançou o pico de desempenho downstream (mais de 70% de precisão para o Qwen-2.5-7B), comparável a modelos treinados com verificação estrita de correção e recompensas precisas. Reconhecendo a importância do processo de raciocínio sobre os resultados finais, combinamos o RPR com modelos de recompensa ruidosos. O RPR ajudou a calibrar os modelos de recompensa ruidosos, mitigando potenciais falsos negativos e melhorando o desempenho do LLM em tarefas de resposta aberta. Essas descobertas sugerem a importância de melhorar as habilidades fundamentais dos modelos durante a fase de pré-treinamento, ao mesmo tempo que fornecem insights para o avanço das técnicas de pós-treinamento. Nosso código e scripts estão disponíveis em https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.

VideoReasonBench: Os MLLMs Podem Realizar Raciocínio Complexo Centrado em Vídeo?
VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning?

May 29

ByYuanxin Liu, Kun Ouyang, Haoning Wu, Yi Liu, Lin Sui, Xinhao Li, Yan Zhong, Y. Charles, Xinyu Zhou, Xu Sun

Estudos recentes mostraram que o raciocínio em cadeia longa de pensamento (CoT, na sigla em inglês) pode melhorar significativamente o desempenho de grandes modelos de linguagem (LLMs, na sigla em inglês) em tarefas complexas. No entanto, esse benefício ainda não foi demonstrado no domínio de compreensão de vídeos, já que a maioria dos benchmarks existentes carece da profundidade de raciocínio necessária para evidenciar as vantagens de cadeias CoT estendidas. Embora esforços recentes tenham proposto benchmarks voltados para raciocínio em vídeos, as tarefas são frequentemente baseadas em conhecimento e não dependem fortemente do conteúdo visual. Para preencher essa lacuna, introduzimos o VideoReasonBench, um benchmark projetado para avaliar o raciocínio complexo e centrado na visão em vídeos. Para garantir riqueza visual e alta complexidade de raciocínio, cada vídeo no VideoReasonBench retrata uma sequência de operações detalhadas sobre um estado latente que só é visível em parte do vídeo. As perguntas avaliam três níveis crescentes de habilidades de raciocínio em vídeos: recordar informações visuais observadas, inferir o conteúdo de estados latentes e prever informações além do vídeo. Nesse cenário de tarefas, os modelos precisam recordar com precisão múltiplas operações no vídeo e realizar raciocínios passo a passo para obter respostas finais corretas para essas perguntas. Utilizando o VideoReasonBench, avaliamos de forma abrangente 18 modelos multimodais de última geração (MLLMs, na sigla em inglês), constatando que a maioria tem desempenho ruim em raciocínio complexo em vídeos, por exemplo, o GPT-4o alcança apenas 6,9% de precisão, enquanto o Gemini-2.5-Pro, aprimorado com pensamento, supera significativamente os outros com 56,0% de precisão. Nossas investigações sobre "escalonamento em tempo de teste" revelam ainda que um orçamento de pensamento estendido, embora ofereça benefícios nulos ou mínimos em benchmarks de vídeo existentes, é essencial para melhorar o desempenho no VideoReasonBench.

cadrille: Reconstrução Multi-modal de CAD com Aprendizado por Reforço Online
cadrille: Multi-modal CAD Reconstruction with Online Reinforcement Learning

May 28

ByMaksim Kolodiazhnyi, Denis Tarasov, Dmitrii Zhemchuzhnikov, Alexander Nikulin, Ilya Zisman, Anna Vorontsova, Anton Konushin, Vladislav Kurenkov, Danila Rukhovich

O Design Assistido por Computador (CAD) desempenha um papel central na engenharia e na manufatura, possibilitando a criação de modelos 3D precisos e editáveis. Utilizar uma variedade de dados provenientes de sensores ou fornecidos pelo usuário como entradas para a reconstrução CAD pode democratizar o acesso a aplicações de design. No entanto, os métodos existentes geralmente se concentram em uma única modalidade de entrada, como nuvens de pontos, imagens ou texto, o que limita sua generalização e robustez. Aproveitando os avanços recentes em modelos de visão e linguagem (VLM), propomos um modelo de reconstrução CAD multimodal que processa simultaneamente as três modalidades de entrada. Inspirados pelos paradigmas de treinamento de grandes modelos de linguagem (LLM), adotamos um pipeline de duas etapas: ajuste fino supervisionado (SFT) em dados gerados proceduralmente em grande escala, seguido por ajuste fino com aprendizado por reforço (RL) utilizando feedback online, obtido de forma programática. Além disso, somos os primeiros a explorar o ajuste fino com RL de LLMs para tarefas de CAD, demonstrando que algoritmos de RL online, como o Group Relative Preference Optimization (GRPO), superam alternativas offline. No benchmark DeepCAD, nosso modelo SFT supera as abordagens unimodais existentes em todas as três modalidades de entrada simultaneamente. Mais importante ainda, após o ajuste fino com RL, o cadrille estabelece novos recordes de estado da arte em três conjuntos de dados desafiadores, incluindo um do mundo real.

D-AR: Difusão via Modelos Autorregressivos
D-AR: Diffusion via Autoregressive Models

May 29

ByZiteng Gao, Mike Zheng Shou

Este artigo apresenta o Diffusion via Autoregressive models (D-AR), um novo paradigma que reformula o processo de difusão de imagens como um procedimento autoregressivo padrão, seguindo a abordagem convencional de previsão do próximo token. Começamos projetando o tokenizer que converte imagens em sequências de tokens discretos, onde tokens em diferentes posições podem ser decodificados em diferentes etapas de remoção de ruído da difusão no espaço de pixels. Graças às propriedades da difusão, esses tokens seguem naturalmente uma ordem de grosseiro para refinado, o que se adapta diretamente à modelagem autoregressiva. Portanto, aplicamos a previsão padrão do próximo token sobre esses tokens, sem modificar nenhum dos projetos subjacentes (sejam máscaras causais ou estratégias de treinamento/inferência), e essa geração sequencial de tokens autoregressivos reflete diretamente o procedimento de difusão no espaço de imagens. Ou seja, uma vez que o modelo autoregressivo gera um incremento de tokens, podemos decodificar diretamente esses tokens na etapa correspondente de remoção de ruído da difusão de maneira contínua. Nossa pipeline revela naturalmente várias propriedades intrigantes, por exemplo, ela suporta visualizações consistentes ao gerar apenas um subconjunto de tokens e permite síntese controlada por layout zero-shot. No benchmark padrão do ImageNet, nosso método alcança 2.09 FID usando um backbone Llama de 775M com 256 tokens discretos. Esperamos que nosso trabalho possa inspirar pesquisas futuras sobre arquiteturas autoregressivas unificadas para síntese visual, especialmente com grandes modelos de linguagem. Código e modelos estarão disponíveis em https://github.com/showlab/D-AR.

AnySplat: Renderização Feed-forward de Splatting Gaussiano 3D a partir de Visões Não Restritas
AnySplat: Feed-forward 3D Gaussian Splatting from Unconstrained Views

May 29

ByLihan Jiang, Yucheng Mao, Linning Xu, Tao Lu, Kerui Ren, Yichen Jin, Xudong Xu, Mulin Yu, Jiangmiao Pang, Feng Zhao, Dahua Lin, Bo Dai

Apresentamos o AnySplat, uma rede feed forward para síntese de novas visões a partir de coleções de imagens não calibradas. Em contraste com os pipelines tradicionais de renderização neural que exigem poses de câmera conhecidas e otimização por cena, ou métodos feed forward recentes que sucumbem ao peso computacional de visões densas, nosso modelo prevê tudo em uma única passagem. Um único passo forward produz um conjunto de primitivas 3D Gaussianas que codificam tanto a geometria quanto a aparência da cena, além das intrínsecas e extrínsecas da câmera para cada imagem de entrada. Esse design unificado escala facilmente para conjuntos de dados multiview capturados casualmente, sem qualquer anotação de pose. Em extensas avaliações zero shot, o AnySplat iguala a qualidade de baselines que utilizam poses, tanto em cenários de visões esparsas quanto densas, enquanto supera as abordagens existentes que não utilizam poses. Além disso, ele reduz significativamente a latência de renderização em comparação com campos neurais baseados em otimização, trazendo a síntese de novas visões em tempo real ao alcance para configurações de captura sem restrições. Página do projeto: https://city-super.github.io/anysplat/

Os Modelos de Raciocínio São Mais Propensos à Alucinação?
Are Reasoning Models More Prone to Hallucination?

May 29

ByZijun Yao, Yantao Liu, Yanxu Chen, Jianhui Chen, Junfeng Fang, Lei Hou, Juanzi Li, Tat-Seng Chua

Modelos de raciocínio de grande escala (LRMs) recentemente desenvolvidos demonstram um desempenho poderoso na resolução de tarefas complexas com capacidade de raciocínio em cadeia longa (CoT). Como esses LRMs são majoritariamente desenvolvidos por meio de pós-treinamento em tarefas de raciocínio formal, ainda não está claro e é motivo de debate se eles generalizam a capacidade de raciocínio para ajudar a reduzir alucinações em tarefas de busca de fatos. Por exemplo, o DeepSeek-R1 relata um aumento de desempenho no SimpleQA, um benchmark de busca de fatos, enquanto o OpenAI-o3 observa alucinações ainda mais severas. Essa discrepância naturalmente levanta a seguinte questão de pesquisa: Modelos de raciocínio são mais propensos a alucinações? Este artigo aborda a questão a partir de três perspectivas. (1) Primeiro, realizamos uma avaliação holística das alucinações em LRMs. Nossa análise revela que LRMs que passam por um pipeline completo de pós-treinamento com ajuste fino supervisionado (SFT) de início frio e RL de recompensa verificável geralmente reduzem suas alucinações. Em contraste, tanto a destilação isolada quanto o treinamento de RL sem ajuste fino de início frio introduzem alucinações mais sutis. (2) Para explorar por que diferentes pipelines de pós-treinamento alteram o impacto nas alucinações em LRMs, realizamos uma análise comportamental. Caracterizamos dois comportamentos cognitivos críticos que afetam diretamente a factualidade de um LRM: Repetição de Falhas, onde as tentativas de raciocínio superficial seguem repetidamente a mesma lógica subjacente falha, e Incompatibilidade Pensamento-Resposta, onde a resposta final não corresponde fielmente ao processo CoT anterior. (3) Além disso, investigamos o mecanismo por trás das alucinações dos LRMs sob a perspectiva da incerteza do modelo. Descobrimos que o aumento das alucinações dos LRMs geralmente está associado ao desalinhamento entre a incerteza do modelo e a precisão factual. Nosso trabalho fornece uma compreensão inicial das alucinações em LRMs.

Treine Autoencoders Esparsos de Forma Eficiente Utilizando a Correlação de Características
Train Sparse Autoencoders Efficiently by Utilizing Features Correlation

May 28

ByVadim Kurochkin, Yaroslav Aksenov, Daniil Laptev, Daniil Gavrilov, Nikita Balagansky

Os Autoencoders Esparsos (SAEs) têm demonstrado um potencial significativo na interpretação dos estados ocultos de modelos de linguagem, decompondo-os em direções latentes interpretáveis. No entanto, o treinamento de SAEs em grande escala continua sendo um desafio, especialmente quando são usados tamanhos de dicionário grandes. Embora os decodificadores possam aproveitar kernels esparsos para eficiência, os codificadores ainda exigem operações lineares computacionalmente intensivas com grandes dimensões de saída. Para resolver isso, propomos o KronSAE, uma nova arquitetura que fatoriza a representação latente por meio da decomposição do produto de Kronecker, reduzindo drasticamente a sobrecarga de memória e computação. Além disso, introduzimos o mAND, uma função de ativação diferenciável que aproxima a operação binária AND, melhorando a interpretabilidade e o desempenho em nossa estrutura fatorizada.

Satori-SWE: Escalonamento Evolutivo em Tempo de Teste para Engenharia de Software Eficiente em Amostras
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering

May 29

ByGuangtao Zeng, Maohao Shen, Delin Chen, Zhenting Qi, Subhro Das, Dan Gutfreund, David Cox, Gregory Wornell, Wei Lu, Zhang-Wei Hong, Chuang Gan

Modelos de linguagem (LMs) apresentam bom desempenho em benchmarks padronizados de codificação, mas enfrentam dificuldades em tarefas reais de engenharia de software, como resolver problemas no GitHub no SWE-Bench, especialmente quando os parâmetros do modelo são inferiores a 100B. Embora modelos menores sejam preferíveis na prática devido ao seu menor custo computacional, melhorar seu desempenho continua sendo um desafio. As abordagens existentes dependem principalmente de ajuste fino supervisionado (SFT) com dados de alta qualidade, que são caros para serem curados em escala. Uma alternativa é o escalonamento em tempo de teste: gerar múltiplas saídas, pontuá-las usando um verificador e selecionar a melhor. Embora eficaz, essa estratégia geralmente requer amostragem excessiva e pontuação custosa, limitando sua aplicação prática. Propomos o Escalonamento Evolutivo em Tempo de Teste (EvoScale), um método eficiente em amostragem que trata a geração como um processo evolutivo. Ao refinar iterativamente as saídas por meio de seleção e mutação, o EvoScale desloca a distribuição de saída para regiões de maior pontuação, reduzindo o número de amostras necessárias para encontrar soluções corretas. Para reduzir a sobrecarga de amostragem e seleção repetidas, treinamos o modelo para evoluir autonomamente usando aprendizado por reforço (RL). Em vez de depender de verificadores externos no momento da inferência, o modelo aprende a auto-melhorar as pontuações de suas próprias gerações ao longo das iterações. Avaliado no SWE-Bench-Verified, o EvoScale permite que nosso modelo de 32B, Satori-SWE-32B, iguale ou supere o desempenho de modelos com mais de 100B de parâmetros, utilizando poucas amostras. Código, dados e modelos serão totalmente disponibilizados como código aberto.

LoRAShop: Geração e Edição de Imagens Multi-Conceito sem Treinamento com Transformadores de Fluxo Retificado
LoRAShop: Training-Free Multi-Concept Image Generation and Editing with Rectified Flow Transformers

May 29

ByYusuf Dalva, Hidir Yesiltepe, Pinar Yanardag

Apresentamos o LoRAShop, o primeiro framework para edição de imagens com múltiplos conceitos utilizando modelos LoRA. O LoRAShop se baseia em uma observação crucial sobre os padrões de interação de recursos dentro de transformadores de difusão no estilo Flux: os recursos específicos de cada conceito ativam regiões espacialmente coerentes no início do processo de remoção de ruído. Aproveitamos essa observação para derivar uma máscara latente desacoplada para cada conceito em uma passagem direta preliminar e combinamos os pesos LoRA correspondentes apenas nas regiões que delimitam os conceitos a serem personalizados. As edições resultantes integram perfeitamente múltiplos sujeitos ou estilos na cena original, preservando o contexto global, a iluminação e os detalhes finos. Nossos experimentos demonstram que o LoRAShop oferece uma melhor preservação de identidade em comparação com as abordagens de referência. Ao eliminar a necessidade de retreinamento e restrições externas, o LoRAShop transforma modelos de difusão personalizados em uma ferramenta prática de "photoshop-com-LoRAs" e abre novas possibilidades para narrativas visuais composicionais e iteração criativa rápida.

UniRL: Modelos Multimodais Unificados de Autoaprimoramento por meio de Aprendizado Supervisionado e por Reforço
UniRL: Self-Improving Unified Multimodal Models via Supervised and Reinforcement Learning

May 29

ByWeijia Mao, Zhenheng Yang, Mike Zheng Shou

Modelos de linguagem multimodal unificados, como Show-o e Janus, alcançaram um desempenho robusto tanto em tarefas de geração quanto de compreensão. No entanto, esses modelos geralmente dependem de conjuntos de dados em grande escala e exigem um poder computacional substancial durante a etapa de pré-treinamento. Além disso, vários métodos de pós-treinamento foram propostos, mas frequentemente dependem de dados externos ou são limitados à personalização específica de tarefas. Neste trabalho, apresentamos o UniRL, uma abordagem de pós-treinamento de autoaperfeiçoamento. Nossa abordagem permite que o modelo gere imagens a partir de prompts e as utilize como dados de treinamento em cada iteração, sem depender de nenhum dado de imagem externo. Além disso, ela possibilita que as duas tarefas se aprimorem mutuamente: as imagens geradas são usadas para compreensão, e os resultados da compreensão são usados para supervisionar a geração. Exploramos o ajuste fino supervisionado (SFT) e a Otimização de Política Relativa em Grupo (GRPO) para otimizar os modelos. O UniRL oferece três vantagens principais: (1) não requer dados de imagem externos, pois todas as amostras de treinamento são geradas pelo próprio modelo durante o treinamento; (2) não apenas melhora o desempenho individual das tarefas, mas também reduz o desequilíbrio entre geração e compreensão; e (3) requer apenas algumas etapas adicionais de treinamento durante a fase de pós-treinamento. Avaliamos o UniRL sobre os modelos Show-o e Janus, alcançando uma pontuação GenEval de 0,77 para o Show-o e 0,65 para o Janus. O código e os modelos serão disponibilizados em https://github.com/showlab/UniRL.

ATLAS: Aprendendo a Memorizar de Forma Ótima o Contexto no Momento do Teste
ATLAS: Learning to Optimally Memorize the Context at Test Time

May 29

ByAli Behrouz, Zeman Li, Praneeth Kacham, Majid Daliri, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni

Os Transformers foram estabelecidos como as arquiteturas mais populares para modelagem de sequências, principalmente devido à sua eficácia em tarefas de recuperação em contexto e à capacidade de aprendizado em larga escala. No entanto, sua complexidade quadrática em memória e tempo limita sua aplicabilidade em sequências mais longas, o que motivou pesquisadores a explorar arquiteturas alternativas eficazes, como redes neurais recorrentes modernas (também conhecidas como módulos de memória recorrente de longo prazo). Apesar de seu sucesso recente em diversas tarefas subsequentes, elas enfrentam dificuldades em tarefas que exigem compreensão de contexto longo e extrapolação para sequências mais extensas. Observamos que essas limitações decorrem de três aspectos distintos em seu design: (1) capacidade de memória limitada, restrita pela arquitetura da memória e mapeamento de características da entrada; (2) natureza online da atualização, ou seja, otimização da memória apenas em relação à última entrada; e (3) gerenciamento menos expressivo de sua memória de tamanho fixo. Para aprimorar esses três aspectos, apresentamos o ATLAS, um módulo de memória de longo prazo com alta capacidade que aprende a memorizar o contexto otimizando a memória com base nos tokens atuais e passados, superando a natureza online dos modelos de memória de longo prazo. Com base nessa ideia, apresentamos uma nova família de arquiteturas semelhantes aos Transformers, chamada DeepTransformers, que são generalizações estritas da arquitetura Transformer original. Nossos resultados experimentais em tarefas de modelagem de linguagem, raciocínio de senso comum, tarefas intensivas em recuperação e compreensão de contexto longo mostram que o ATLAS supera o desempenho dos Transformers e dos modelos recorrentes lineares recentes. O ATLAS ainda melhora o desempenho de contexto longo dos Titans, alcançando +80% de precisão no benchmark BABILong com comprimento de contexto de 10M.

SWE-bench Está no Ar!
SWE-bench Goes Live!

May 29

ByLinghao Zhang, Shilin He, Chaoyun Zhang, Yu Kang, Bowen Li, Chengxing Xie, Junhao Wang, Maoquan Wang, Yufan Huang, Shengyu Fu, Elsie Nallipogu, Qingwei Lin, Yingnong Dang, Saravan Rajmohan, Dongmei Zhang

A tarefa de resolução de problemas, na qual um modelo gera patches para corrigir bugs do mundo real, emergiu como um benchmark crítico para avaliar as capacidades de modelos de linguagem de grande escala (LLMs). Embora o SWE-bench e suas variantes tenham se tornado padrão nesse domínio, eles sofrem de limitações importantes: não foram atualizados desde seus lançamentos iniciais, cobrem um conjunto restrito de repositórios e dependem fortemente de esforço manual para a construção de instâncias e configuração do ambiente. Esses fatores prejudicam a escalabilidade e introduzem riscos de sobreajuste e contaminação de dados. Neste trabalho, apresentamos o SWE-bench-Live, um benchmark atualizável em tempo real projetado para superar esses desafios. Nossa versão inicial consiste em 1.319 tarefas derivadas de problemas reais do GitHub criados desde 2024, abrangendo 93 repositórios. Cada tarefa é acompanhada por uma imagem Docker dedicada para garantir execução reproduzível. Central ao nosso benchmark é o \method, um pipeline de curadoria automatizado que simplifica todo o processo, desde a criação de instâncias até a configuração do ambiente, eliminando gargalos manuais e permitindo escalabilidade e atualizações contínuas. Avaliamos uma variedade de frameworks de agentes e LLMs de ponta no SWE-bench-Live, revelando uma lacuna substancial de desempenho em comparação com benchmarks estáticos como o SWE-bench, mesmo sob condições de avaliação controladas. Para entender melhor essa discrepância, realizamos análises detalhadas em relação à origem do repositório, à recenticidade do problema e à dificuldade da tarefa. Ao fornecer um benchmark fresco, diversificado e executável, baseado na atividade em tempo real de repositórios, o SWE-bench-Live facilita uma avaliação rigorosa e resistente à contaminação de LLMs e agentes em cenários dinâmicos e reais de desenvolvimento de software.

Explicabilidade de Preferências em Múltiplos Domínios
Multi-Domain Explainability of Preferences

May 26

ByNitay Calderon, Liat Ein-Dor, Roi Reichart

Mecanismos de preferência, como preferência humana, LLM-como-Juiz (LaaJ) e modelos de recompensa, são centrais para alinhar e avaliar modelos de linguagem de grande escala (LLMs). No entanto, os conceitos subjacentes que impulsionam essas preferências permanecem pouco compreendidos. Neste trabalho, propomos um método totalmente automatizado para gerar explicações baseadas em conceitos locais e globais de preferências em múltiplos domínios. Nosso método utiliza um LLM para identificar conceitos que distinguem entre respostas escolhidas e rejeitadas, e para representá-los com vetores baseados em conceitos. Para modelar as relações entre conceitos e preferências, propomos um modelo de Regressão Hierárquica Multi-Domínio de caixa branca que captura tanto efeitos gerais quanto específicos de domínio. Para avaliar nosso método, compilamos um conjunto de dados abrangendo oito domínios desafiadores e diversos e explicamos doze mecanismos. Nosso método alcança um forte desempenho na previsão de preferências, superando as linhas de base enquanto também é explicável. Além disso, avaliamos as explicações em dois cenários orientados por aplicações. Primeiro, guiar as saídas de LLMs com conceitos de explicações LaaJ produz respostas que esses juízes consistentemente preferem. Segundo, solicitar LaaJs com conceitos que explicam humanos melhora suas previsões de preferência. Juntos, nosso trabalho estabelece um novo paradigma para explicabilidade na era dos LLMs.

FAMA: O Primeiro Modelo de Fundamento de Fala em Grande Escala de Ciência Aberta para Inglês e Italiano
FAMA: The First Large-Scale Open-Science Speech Foundation Model for English and Italian

May 28

BySara Papi, Marco Gaido, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri

O desenvolvimento de modelos fundamentais de fala (SFMs, na sigla em inglês), como Whisper e SeamlessM4T, avançou significativamente o campo do processamento de fala. No entanto, sua natureza fechada—com dados e códigos de treinamento inacessíveis—apresenta grandes desafios de reprodutibilidade e avaliação justa. Enquanto outros domínios fizeram progressos substanciais em direção à ciência aberta, desenvolvendo modelos totalmente transparentes treinados com códigos e dados de código aberto (OS, na sigla em inglês), esforços semelhantes no campo da fala ainda são limitados. Para preencher essa lacuna, introduzimos o FAMA, a primeira família de SFMs de ciência aberta para inglês e italiano, treinada com mais de 150 mil horas de dados de fala de código aberto. Além disso, apresentamos um novo conjunto de dados contendo 16 mil horas de fala limpa e pseudo-rotulada para ambos os idiomas. Os resultados mostram que o FAMA alcança desempenho competitivo em comparação com SFMs existentes, sendo até 8 vezes mais rápido. Todos os artefatos, incluindo códigos, conjuntos de dados e modelos, são disponibilizados sob licenças compatíveis com código aberto, promovendo a abertura na pesquisa de tecnologia de fala.

VidText: Rumo a uma Avaliação Abrangente para o Entendimento de Texto em Vídeo
VidText: Towards Comprehensive Evaluation for Video Text Understanding

May 28

ByZhoufaran Yang, Yan Shu, Zhifei Yang, Yan Zhang, Yu Li, Keyang Lu, Gangyan Zeng, Shaohui Liu, Yu Zhou, Nicu Sebe

Textos visuais incorporados em vídeos carregam informações semânticas ricas, que são cruciais tanto para a compreensão holística de vídeos quanto para o raciocínio detalhado sobre ações humanas locais. No entanto, os benchmarks existentes para compreensão de vídeos em grande parte ignoram informações textuais, enquanto benchmarks específicos para OCR (Reconhecimento Óptico de Caracteres) são limitados a imagens estáticas, restringindo sua capacidade de capturar a interação entre texto e contextos visuais dinâmicos. Para abordar essa lacuna, propomos o VidText, um novo benchmark projetado para avaliação abrangente e aprofundada da compreensão de texto em vídeos. O VidText oferece as seguintes características principais: 1) Abrange uma ampla gama de cenários do mundo real e suporta conteúdo multilíngue, englobando diversos contextos onde o texto em vídeo aparece naturalmente. 2) Introduz uma estrutura de avaliação hierárquica com tarefas em nível de vídeo, clipe e instância, permitindo a avaliação tanto de capacidades de sumarização global quanto de recuperação local. 3) O benchmark também apresenta um conjunto de tarefas emparelhadas de percepção e raciocínio, variando desde a percepção de texto visual até o raciocínio multimodal entre informações textuais e visuais. Experimentos extensivos com 18 Modelos Multimodais de Grande Escala (LMMs) de última geração revelam que os modelos atuais enfrentam dificuldades na maioria das tarefas, com espaço significativo para melhoria. Análises adicionais destacam o impacto tanto de fatores intrínsecos aos modelos, como resolução de entrada e capacidade de OCR, quanto de fatores externos, incluindo o uso de informações auxiliares e estratégias de raciocínio em cadeia (Chain-of-Thought). Esperamos que o VidText preencha a lacuna atual nos benchmarks de compreensão de vídeos e sirva como base para pesquisas futuras sobre raciocínio multimodal com texto em vídeos em ambientes dinâmicos.

Em Direção ao Raciocínio de Segurança em LLMs: Deliberação Agente-AI para Criação de Dados CoT Incorporados em Políticas
Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation

May 27

ByTharindu Kumarage, Ninareh Mehrabi, Anil Ramakrishna, Xinyan Zhao, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta, Charith Peris

O raciocínio de segurança é um paradigma recente no qual os LLMs (Large Language Models) raciocinam sobre políticas de segurança antes de gerar respostas, mitigando assim limitações nas medidas de segurança existentes, como a recusa excessiva e vulnerabilidades de jailbreak. No entanto, implementar esse paradigma é desafiador devido ao processo intensivo de recursos necessário para criar conjuntos de dados de cadeia de pensamento (CoT) de alta qualidade embutidos em políticas, garantindo que o raciocínio permaneça preciso e livre de alucinações ou conflitos de políticas. Para enfrentar esse desafio, propomos o AIDSAFE: Deliberação Iterativa Agente para Raciocínio de Segurança, uma nova abordagem de geração de dados que aproveita a deliberação multiagente para expandir iterativamente o raciocínio sobre políticas de segurança. Um estágio de refinamento de dados no AIDSAFE garante saídas de alta qualidade, eliminando pensamentos repetitivos, redundantes e enganosos. Os CoTs gerados pelo AIDSAFE fornecem uma base sólida para o treinamento de segurança baseado em ajuste fino supervisionado (SFT). Além disso, para atender à necessidade de dados de preferência em etapas de alinhamento, como o treinamento DPO, introduzimos uma abordagem complementar que usa a ampliação de crenças para criar amostras distintas de CoTs selecionados e rejeitados. Nossas avaliações demonstram que os CoTs gerados pelo AIDSAFE alcançam aderência superior às políticas e qualidade de raciocínio. Consequentemente, mostramos que o ajuste fino de LLMs de código aberto nesses CoTs pode melhorar significativamente a generalização de segurança e a robustez contra jailbreaks, mantendo uma utilidade aceitável e precisão na recusa excessiva. Os conjuntos de dados de CoTs gerados pelo AIDSAFE podem ser encontrados aqui: https://huggingface.co/datasets/AmazonScience/AIDSAFE.

StressTest: O SEU Modelo de Linguagem de Fala Consegue Lidar com o Estresse?
StressTest: Can YOUR Speech LM Handle the Stress?

May 28

ByIddo Yosha, Gallil Maimon, Yossi Adi

A ênfase da frase refere-se ao destaque colocado em palavras específicas dentro de uma expressão falada para ressaltar ou contrastar uma ideia, ou para introduzir novas informações. Frequentemente, é usada para implicar uma intenção subjacente que não é explicitamente declarada. Avanços recentes em modelos de linguagem com consciência de fala (SLMs, do inglês Speech-aware Language Models) permitiram o processamento direto de áudio, possibilitando que os modelos ignorem a transcrição e acessem toda a riqueza do sinal de fala, além de realizar tarefas de raciocínio em áudio, como a resposta a perguntas faladas. Apesar do papel crucial da ênfase da frase na formação do significado e da intenção do falante, ela permanece amplamente negligenciada na avaliação e no desenvolvimento desses modelos. Neste trabalho, abordamos essa lacuna ao introduzir o StressTest, um benchmark projetado especificamente para avaliar a capacidade de um modelo de distinguir entre interpretações de frases faladas com base no padrão de ênfase. Avaliamos o desempenho de vários SLMs líderes e constatamos que, apesar de suas capacidades gerais, eles têm um desempenho ruim nessas tarefas. Para superar essa limitação, propomos um novo pipeline de geração de dados sintéticos e criamos o Stress17k, um conjunto de treinamento que simula a mudança de significado implícita pela variação de ênfase. Em seguida, mostramos empiricamente que a otimização de modelos com esse conjunto de dados sintéticos se alinha bem com gravações do mundo real e permite um ajuste fino eficaz dos SLMs. Os resultados sugerem que nosso modelo ajustado, o StresSLM, supera significativamente os modelos existentes em tarefas de raciocínio e detecção de ênfase da frase. Código, modelos, dados e amostras de áudio estão disponíveis em: pages.cs.huji.ac.il/adiyoss-lab/stresstest.

DeepTheorem: Avançando o Raciocínio de LLMs para Prova de Teoremas Através de Linguagem Natural e Aprendizado por Reforço
DeepTheorem: Advancing LLM Reasoning for Theorem Proving Through Natural Language and Reinforcement Learning

May 29

ByZiyin Zhang, Jiahao Xu, Zhiwei He, Tian Liang, Qiuzhi Liu, Yansi Li, Linfeng Song, Zhengwen Liang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

A prova de teoremas serve como um importante campo de testes para avaliar habilidades de raciocínio complexo em modelos de linguagem de grande escala (LLMs). No entanto, as abordagens tradicionais de prova automática de teoremas (ATP) dependem fortemente de sistemas formais de prova que se alinham mal com as forças dos LLMs, derivadas do conhecimento informal em linguagem natural adquirido durante o pré-treinamento. Neste trabalho, propomos o DeepTheorem, um framework abrangente de prova informal de teoremas que explora a linguagem natural para aprimorar o raciocínio matemático dos LLMs. O DeepTheorem inclui um conjunto de dados de referência em larga escala, composto por 121 mil teoremas e provas informais de nível IMO, abrangendo diversos domínios matemáticos, rigorosamente anotados quanto à correção, dificuldade e categorias temáticas, acompanhados por variantes de teoremas verificáveis construídas sistematicamente. Desenvolvemos uma nova estratégia de aprendizado por reforço (RL-Zero) especificamente adaptada para a prova informal de teoremas, aproveitando as variantes verificadas para incentivar inferências matemáticas robustas. Além disso, propomos métricas abrangentes de avaliação de resultados e processos, examinando a correção das provas e a qualidade das etapas de raciocínio. Análises experimentais extensivas demonstram que o DeepTheorem melhora significativamente o desempenho dos LLMs na prova de teoremas em comparação com conjuntos de dados existentes e protocolos de ajuste fino supervisionado, alcançando precisão e qualidade de raciocínio de ponta. Nossos resultados destacam o potencial do DeepTheorem para avançar fundamentalmente a prova automática informal de teoremas e a exploração matemática.

Reordenar Patches Melhora Modelos de Visão
REOrdering Patches Improves Vision Models

May 29

ByDeclan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta

Modelos de sequência, como os transformadores, exigem que as entradas sejam representadas como sequências unidimensionais. Na visão computacional, isso geralmente envolve o achatamento de imagens usando uma ordem fixa de varredura por linhas (raster-scan). Embora a auto-atenção completa seja permutação-equivariante, os transformadores modernos para sequências longas dependem cada vez mais de aproximações arquitetônicas que quebram essa invariância e introduzem sensibilidade à ordem dos patches. Mostramos que a ordem dos patches afeta significativamente o desempenho do modelo nesses cenários, com alternativas simples, como a ordem de varredura por colunas ou curvas de Hilbert, resultando em mudanças notáveis na precisão. Motivados por isso, propomos o REOrder, uma estrutura de duas etapas para descobrir ordens de patches otimizadas para a tarefa. Primeiro, derivamos um prior teórico da informação avaliando a compressibilidade de várias sequências de patches. Em seguida, aprendemos uma política sobre permutações otimizando uma política de Plackett-Luce usando REINFORCE. Essa abordagem permite um aprendizado eficiente em um espaço combinatório de permutações. O REOrder melhora a acurácia top-1 em relação à ordem de varredura por linhas no ImageNet-1K em até 3,01% e no Functional Map of the World em 13,35%.

RL On-Policy com Linha de Base de Recompensa Ótima
On-Policy RL with Optimal Reward Baseline

May 29

ByYaru Hao, Li Dong, Xun Wu, Shaohan Huang, Zewen Chi, Furu Wei

Os algoritmos de aprendizado por reforço são fundamentais para alinhar grandes modelos de linguagem com as preferências humanas e aprimorar suas capacidades de raciocínio. No entanto, os algoritmos atuais de aprendizado por reforço frequentemente sofrem com instabilidade no treinamento devido a restrições de política (on-policy) pouco rigorosas e ineficiência computacional causada por modelos auxiliares. Neste trabalho, propomos o On-Policy RL com Linha de Base de Recompensa Ótima (OPO), um algoritmo de aprendizado por reforço novo e simplificado, projetado para abordar esses desafios. O OPO enfatiza a importância do treinamento exato de política, o que empiricamente estabiliza o processo de treinamento e melhora a exploração. Além disso, o OPO introduz a linha de base de recompensa ótima, que teoricamente minimiza a variância do gradiente. Avaliamos o OPO em benchmarks de raciocínio matemático. Os resultados demonstram seu desempenho superior e estabilidade no treinamento sem a necessidade de modelos adicionais ou termos de regularização. Além disso, o OPO alcança menores mudanças de política e maior entropia de saída, incentivando respostas mais diversas e menos repetitivas. Esses resultados destacam o OPO como uma direção promissora para o aprendizado por reforço estável e eficaz no alinhamento de grandes modelos de linguagem e tarefas de raciocínio. A implementação está disponível em https://github.com/microsoft/LMOps/tree/main/opo.

Muddit: Liberando a Geração Além do Texto-para-Imagem com um Modelo Unificado de Difusão Discreta
Muddit: Liberating Generation Beyond Text-to-Image with a Unified Discrete Diffusion Model

May 29

ByQingyu Shi, Jinbin Bai, Zhuoran Zhao, Wenhao Chai, Kaidong Yu, Jianzong Wu, Shuangyong Song, Yunhai Tong, Xiangtai Li, Xuelong Li, Shuicheng Yan

Modelos unificados de geração visam lidar com diversas tarefas entre modalidades -- como geração de texto, geração de imagens e raciocínio visão-linguagem -- dentro de uma única arquitetura e paradigma de decodificação. Modelos unificados autoregressivos sofrem com inferência lenta devido à decodificação sequencial, e modelos unificados não autoregressivos sofrem com generalização fraca devido a backbones pré-treinados limitados. Apresentamos o Muddit, um transformer de difusão discreta unificado que permite geração rápida e paralela em ambas as modalidades de texto e imagem. Diferente de modelos de difusão unificados anteriores treinados do zero, o Muddit integra fortes prioris visuais de um backbone pré-treinado de texto para imagem com um decodificador de texto leve, permitindo geração multimodal flexível e de alta qualidade sob uma arquitetura unificada. Resultados empíricos mostram que o Muddit alcança desempenho competitivo ou superior em comparação a modelos autoregressivos significativamente maiores, tanto em qualidade quanto em eficiência. O trabalho destaca o potencial da difusão puramente discreta, quando equipada com fortes prioris visuais, como um backbone escalável e eficaz para geração unificada.

Busca de Solucionadores Diferenciáveis para Amostragem Rápida em Difusão
Differentiable Solver Search for Fast Diffusion Sampling

May 27

ByShuai Wang, Zexian Li, Qipeng zhang, Tianhui Song, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang

Os modelos de difusão demonstraram uma qualidade de geração notável, mas ao custo de inúmeras avaliações de função. Recentemente, solucionadores avançados baseados em EDOs foram desenvolvidos para mitigar as demandas computacionais substanciais da resolução de difusão reversa com um número limitado de passos de amostragem. No entanto, esses solucionadores, fortemente inspirados em métodos multistep do tipo Adams, dependem exclusivamente da interpolação de Lagrange relacionada a t. Mostramos que a interpolação de Lagrange relacionada a t é subótima para modelos de difusão e revelamos um espaço de busca compacto composto por passos de tempo e coeficientes do solucionador. Com base em nossa análise, propomos um novo algoritmo de busca de solucionador diferenciável para identificar um solucionador mais ótimo. Equipados com o solucionador encontrado, modelos de fluxo retificado, como SiT-XL/2 e FlowDCN-XL/2, alcançam pontuações FID de 2,40 e 2,35, respectivamente, no ImageNet256 com apenas 10 passos. Enquanto isso, o modelo DDPM, DiT-XL/2, atinge uma pontuação FID de 2,33 com apenas 10 passos. Notavelmente, nosso solucionador encontrado supera os solucionadores tradicionais por uma margem significativa. Além disso, nosso solucionador encontrado demonstra generalidade em várias arquiteturas de modelo, resoluções e tamanhos de modelo.

Raciocínio System-1.5: Travessia nos Espaços de Linguagem e Latentes com Atalhos Dinâmicos
System-1.5 Reasoning: Traversal in Language and Latent Spaces with Dynamic Shortcuts

May 25

ByXiaoqiang Wang, Suyuchen Wang, Yun Zhu, Bang Liu

O raciocínio em cadeia de pensamento (Chain-of-thought, CoT) permite que grandes modelos de linguagem (LLMs) vão além das respostas rápidas do Sistema 1 e se envolvam em raciocínios deliberativos do Sistema 2. No entanto, isso ocorre com o custo de uma ineficiência significativa devido à saída intermediária verbosa. Métodos recentes de raciocínio no espaço latente melhoram a eficiência ao operar em estados ocultos sem decodificação em linguagem, mas tratam todas as etapas de forma uniforme, falhando em distinguir deduções críticas de etapas auxiliares, resultando em um uso subótimo de recursos computacionais. Neste artigo, propomos o Raciocínio do Sistema 1.5, um framework de raciocínio adaptativo que aloca dinamicamente a computação entre as etapas de raciocínio por meio de caminhos curtos no espaço latente. Especificamente, o Raciocínio do Sistema 1.5 introduz dois tipos de atalhos dinâmicos. O atalho de profundidade do modelo (DS) raciocina adaptativamente ao longo da profundidade vertical, saindo precocemente de tokens não críticos por meio de ramificações leves de adaptação, enquanto permite que tokens críticos continuem por camadas mais profundas do Transformer. O atalho de etapa (SS) reutiliza estados ocultos entre as etapas de decodificação para pular etapas triviais e raciocinar horizontalmente no espaço latente. O treinamento do Raciocínio do Sistema 1.5 envolve um processo de auto-distilação em duas etapas: primeiro, destilando o CoT em linguagem natural para pensamento contínuo no espaço latente, e depois destilando o raciocínio latente do Sistema 2 de caminho completo em caminhos curtos adaptativos (Raciocínio do Sistema 1.5). Experimentos em tarefas de raciocínio demonstram o desempenho superior do nosso método. Por exemplo, no GSM8K, o Raciocínio do Sistema 1.5 alcança desempenho de raciocínio comparável aos métodos tradicionais de ajuste fino com CoT, enquanto acelera a inferência em mais de 20x e reduz a geração de tokens em 92,31% em média.

KVzip: Compressão de Cache KV Independente de Consulta com Reconstrução de Contexto
KVzip: Query-Agnostic KV Cache Compression with Context Reconstruction

May 29

ByJang-Hyun Kim, Jinuk Kim, Sangwoo Kwon, Jae W. Lee, Sangdoo Yun, Hyun Oh Song

Modelos de linguagem grandes (LLMs) baseados em Transformers armazenam contexto como pares chave-valor (KV) durante a inferência. À medida que o comprimento do contexto aumenta, os tamanhos do cache KV se expandem, resultando em sobrecarga significativa de memória e aumento da latência de atenção. Este artigo apresenta o KVzip, um método de evicção de cache KV agnóstico a consultas que permite a reutilização eficaz de caches KV comprimidos em diversas consultas. O KVzip quantifica a importância de um par KV usando o LLM subjacente para reconstruir contextos originais a partir de pares KV armazenados em cache, subsequentemente removendo pares com menor importância. Avaliações empíricas extensas demonstram que o KVzip reduz o tamanho do cache KV em 3-4 vezes e a latência de decodificação do FlashAttention em aproximadamente 2 vezes, com perda de desempenho insignificante em tarefas de resposta a perguntas, recuperação, raciocínio e compreensão de código. As avaliações incluem vários modelos, como LLaMA3.1-8B, Qwen2.5-14B e Gemma3-12B, com comprimentos de contexto atingindo até 170 mil tokens. O KVzip supera significativamente os métodos existentes de evicção KV cientes de consultas, que sofrem degradação de desempenho mesmo com uma taxa de orçamento de cache de 90% em cenários de múltiplas consultas.

Desvendando os Benchmarks de Video LLMs: Conhecimento, Percepção Espacial ou Verdadeiro Entendimento Temporal?
Breaking Down Video LLM Benchmarks: Knowledge, Spatial Perception, or True Temporal Understanding?

May 20

ByBo Feng, Zhengfeng Lai, Shiyu Li, Zizhen Wang, Simon Wang, Ping Huang, Meng Cao

Os benchmarks existentes para compreensão de vídeo frequentemente misturam perguntas baseadas em conhecimento e perguntas puramente baseadas em imagem, em vez de isolar claramente a capacidade de raciocínio temporal de um modelo, que é o aspecto fundamental que distingue a compreensão de vídeo de outras modalidades. Identificamos duas grandes limitações que obscurecem se pontuações mais altas realmente indicam uma compreensão mais forte do conteúdo dinâmico em vídeos: (1) fortes vieses linguísticos, onde os modelos podem responder perguntas sem assistir ao vídeo; e (2) invariância à permutação, onde os modelos mantêm desempenho semelhante em certas perguntas mesmo quando os frames do vídeo são temporalmente embaralhados. Para mitigar esses problemas, propomos o VBenchComp, um pipeline automatizado que categoriza as perguntas em diferentes domínios: LLM-Answerable (Respondíveis por LLM), Semânticas e Temporais. Especificamente, perguntas LLM-Answerable podem ser respondidas sem visualizar o vídeo; perguntas Semânticas permanecem respondíveis mesmo quando os frames do vídeo são embaralhados; e perguntas Temporais exigem a compreensão da ordem temporal correta dos frames. As demais perguntas são rotuladas como Outras. Isso pode permitir uma avaliação refinada das diferentes capacidades de um LLM de vídeo. Nossa análise revela nuances de fraquezas dos modelos que são ocultadas pelas pontuações gerais tradicionais, e oferecemos insights e recomendações para projetar benchmarks futuros que avaliem com mais precisão os LLMs de vídeo.

SafeScientist: Rumo a Descobertas Científicas Conscientes de Riscos por Agentes de LLM
SafeScientist: Toward Risk-Aware Scientific Discoveries by LLM Agents

May 29

ByKunlun Zhu, Jiaxun Zhang, Ziheng Qi, Nuoxing Shang, Zijia Liu, Peixuan Han, Yue Su, Haofei Yu, Jiaxuan You

Os recentes avanços em agentes de modelos de linguagem de grande escala (LLM) aceleraram significativamente a automação da descoberta científica, mas também levantaram preocupações críticas de ética e segurança. Para abordar sistematicamente esses desafios, apresentamos o SafeScientist, uma estrutura inovadora de cientista de IA projetada explicitamente para aprimorar a segurança e a responsabilidade ética na exploração científica impulsionada por IA. O SafeScientist recusa proativamente tarefas eticamente inadequadas ou de alto risco e enfatiza rigorosamente a segurança ao longo do processo de pesquisa. Para alcançar uma supervisão abrangente de segurança, integramos múltiplos mecanismos defensivos, incluindo monitoramento de prompts, monitoramento de colaboração entre agentes, monitoramento do uso de ferramentas e um componente de revisor ético. Complementando o SafeScientist, propomos o SciSafetyBench, um novo benchmark especificamente projetado para avaliar a segurança de IA em contextos científicos, composto por 240 tarefas científicas de alto risco em 6 domínios, juntamente com 30 ferramentas científicas especialmente projetadas e 120 tarefas de risco relacionadas a ferramentas. Experimentos extensivos demonstram que o SafeScientist melhora significativamente o desempenho de segurança em 35\% em comparação com estruturas tradicionais de cientista de IA, sem comprometer a qualidade da produção científica. Além disso, validamos rigorosamente a robustez de nosso pipeline de segurança contra diversos métodos de ataque adversário, confirmando ainda mais a eficácia de nossa abordagem integrada. O código e os dados estarão disponíveis em https://github.com/ulab-uiuc/SafeScientist. **Aviso: este artigo contém dados de exemplo que podem ser ofensivos ou prejudiciais.**

MAGREF: Orientação Mascarada para Geração de Vídeo com Qualquer Referência
MAGREF: Masked Guidance for Any-Reference Video Generation

May 29

ByYufan Deng, Xun Guo, Yuanyang Yin, Jacob Zhiyuan Fang, Yiding Yang, Yizhi Wang, Shenghai Yuan, Angtian Wang, Bo Liu, Haibin Huang, Chongyang Ma

A geração de vídeos tem feito avanços substanciais com o surgimento de modelos generativos profundos, especialmente abordagens baseadas em difusão. No entanto, a geração de vídeos com base em múltiplos sujeitos de referência ainda enfrenta desafios significativos em manter a consistência de múltiplos sujeitos e garantir alta qualidade de geração. Neste artigo, propomos o MAGREF, um framework unificado para geração de vídeos com qualquer referência, que introduz orientação mascarada para permitir a síntese coerente de vídeos com múltiplos sujeitos condicionada a diversas imagens de referência e um prompt textual. Especificamente, propomos (1) um mecanismo de mascaramento dinâmico consciente da região que permite que um único modelo lide de forma flexível com várias inferências de sujeitos, incluindo humanos, objetos e fundos, sem alterações arquitetônicas, e (2) um mecanismo de concatenação de canais pixel a pixel que opera na dimensão do canal para preservar melhor as características de aparência. Nosso modelo oferece qualidade de geração de vídeos de última geração, generalizando de treinamento com um único sujeito para cenários complexos com múltiplos sujeitos, com síntese coerente e controle preciso sobre os sujeitos individuais, superando as linhas de base de código aberto e comerciais existentes. Para facilitar a avaliação, também introduzimos um benchmark abrangente de vídeos com múltiplos sujeitos. Experimentos extensivos demonstram a eficácia da nossa abordagem, abrindo caminho para a síntese de vídeos com múltiplos sujeitos escalável, controlável e de alta fidelidade. O código e o modelo podem ser encontrados em: https://github.com/MAGREF-Video/MAGREF

GeoDrive: Modelo de Mundo de Condução Informado por Geometria 3D com Controle de Ação Preciso
GeoDrive: 3D Geometry-Informed Driving World Model with Precise Action Control

May 28

ByAnthony Chen, Wenzhao Zheng, Yida Wang, Xueyang Zhang, Kun Zhan, Peng Jia, Kurt Keutzer, Shanghang Zhang

Os recentes avanços em modelos de mundo revolucionaram a simulação de ambientes dinâmicos, permitindo que os sistemas prevejam estados futuros e avaliem ações potenciais. Na condução autônoma, essas capacidades ajudam os veículos a antecipar o comportamento de outros usuários da via, realizar planejamento consciente de riscos, acelerar o treinamento em simulação e se adaptar a cenários novos, aumentando assim a segurança e a confiabilidade. As abordagens atuais apresentam deficiências em manter uma consistência geométrica 3D robusta ou em acumular artefatos durante o tratamento de oclusões, ambos críticos para uma avaliação confiável de segurança em tarefas de navegação autônoma. Para resolver isso, introduzimos o GeoDrive, que integra explicitamente condições robustas de geometria 3D em modelos de mundo de condução para aprimorar a compreensão espacial e a controlabilidade das ações. Especificamente, primeiro extraímos uma representação 3D do quadro de entrada e, em seguida, obtemos sua renderização 2D com base na trajetória especificada pelo usuário para o carro ego. Para habilitar a modelagem dinâmica, propomos um módulo de edição dinâmica durante o treinamento para aprimorar as renderizações editando as posições dos veículos. Experimentos extensivos demonstram que nosso método supera significativamente os modelos existentes tanto na precisão das ações quanto na consciência espacial 3D, resultando em uma modelagem de cena mais realista, adaptável e confiável para uma condução autônoma mais segura. Além disso, nosso modelo pode generalizar para novas trajetórias e oferece capacidades interativas de edição de cena, como edição de objetos e controle de trajetória de objetos.

PatientSim: Um Simulador Baseado em Personas para Interações Realistas entre Médico e Paciente
PatientSim: A Persona-Driven Simulator for Realistic Doctor-Patient Interactions

May 23

ByDaeun Kyung, Hyunseung Chung, Seongsu Bae, Jiho Kim, Jae Ho Sohn, Taerim Kim, Soo Kyung Kim, Edward Choi

Consultas médico-paciente exigem comunicação multi-turn e consciente do contexto, adaptada a diversas personas de pacientes. Treinar ou avaliar LLMs médicos nesses cenários requer sistemas de interação com pacientes realistas. No entanto, simuladores existentes frequentemente falham em refletir a ampla gama de personas observadas na prática clínica. Para abordar isso, introduzimos o PatientSim, um simulador de pacientes que gera personas realistas e diversas para cenários clínicos, fundamentado em expertise médica. O PatientSim opera utilizando: 1) perfis clínicos, incluindo sintomas e histórico médico, derivados de dados do mundo real dos conjuntos MIMIC-ED e MIMIC-IV, e 2) personas definidas por quatro eixos: personalidade, proficiência linguística, nível de recordação do histórico médico e nível de confusão cognitiva, resultando em 37 combinações únicas. Avaliamos oito LLMs quanto à precisão factual e consistência de persona. O modelo de código aberto com melhor desempenho, Llama 3.3, foi validado por quatro clínicos para confirmar a robustez de nossa estrutura. Como uma plataforma de código aberto e personalizável, o PatientSim oferece uma solução reproduzível e escalável que pode ser adaptada para necessidades específicas de treinamento. Proporcionando um ambiente em conformidade com a privacidade, ele serve como um testbed robusto para avaliar sistemas de diálogo médico em diversas apresentações de pacientes e mostra potencial como uma ferramenta educacional para a área da saúde.

ToMAP: Treinando Persuadores de LLM Conscientes do Oponente com Teoria da Mente
ToMAP: Training Opponent-Aware LLM Persuaders with Theory of Mind

May 29

ByPeixuan Han, Zijia Liu, Jiaxuan You

Modelos de linguagem de grande escala (LLMs) têm demonstrado um potencial promissor em persuasão, mas os trabalhos existentes sobre o treinamento de persuasores baseados em LLMs ainda são preliminares. Notavelmente, enquanto os humanos são habilidosos em modelar proativamente e dinamicamente os pensamentos e opiniões de seus oponentes, os LLMs atuais lutam com esse tipo de raciocínio de Teoria da Mente (ToM), resultando em diversidade limitada e consciência do oponente. Para abordar essa limitação, introduzimos o Persuader Aumentado por Teoria da Mente (ToMAP), uma abordagem inovadora para construir agentes persuasores mais flexíveis, incorporando dois módulos de teoria da mente que aprimoram a consciência e a análise do estado mental do oponente. Especificamente, começamos solicitando que o persuasor considere possíveis objeções à afirmação central alvo e, em seguida, usamos um codificador de texto emparelhado com um classificador MLP treinado para prever a posição atual do oponente em relação a essas contra-argumentações. Nosso esquema de aprendizado por reforço cuidadosamente projetado permite que o persuasor aprenda a analisar informações relacionadas ao oponente e as utilize para gerar argumentos mais eficazes. Experimentos mostram que o persuasor ToMAP, embora contenha apenas 3 bilhões de parâmetros, supera baselines muito maiores, como o GPT-4, com um ganho relativo de 39,4% em vários modelos de persuasão e corpora diversos. Notavelmente, o ToMAP exibe cadeias de raciocínio complexas e repetição reduzida durante o treinamento, o que leva a argumentos mais diversos e eficazes. A característica de consciência do oponente do ToMAP também o torna adequado para conversas longas e permite que ele empregue estratégias mais lógicas e conscientes do oponente. Esses resultados destacam a eficácia do nosso método e seu potencial para desenvolver agentes de linguagem mais persuasivos. O código está disponível em: https://github.com/ulab-uiuc/ToMAP.

Afterburner: Aprendizado por Reforço Facilita a Otimização Autônoma da Eficiência de Código
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization

May 29

ByMingzhe Du, Luu Tuan Tuan, Yue Liu, Yuhao Qing, Dong Huang, Xinyi He, Qian Liu, Zejun Ma, See-kiong Ng

Modelos de Linguagem de Grande Escala (LLMs) geram soluções funcionalmente corretas, mas frequentemente ficam aquém em termos de eficiência de código, um gargalo crítico para implantação no mundo real. Neste artigo, introduzimos uma nova estrutura de otimização iterativa em tempo de teste para abordar esse problema, empregando um sistema de circuito fechado onde os LLMs refinam iterativamente o código com base em feedback de desempenho empírico de um ambiente de execução sandbox. Exploramos três estratégias de treinamento: Ajuste Fino Supervisionado (SFT), Otimização de Preferência Direta (DPO) e Otimização de Política Relativa em Grupo (GRPO). Experimentos em nosso conjunto de dados Venus e no benchmark APPS mostram que SFT e DPO rapidamente atingem saturação em ganhos de eficiência. Em contraste, GRPO, usando aprendizado por reforço (RL) com feedback de execução, otimiza continuamente o desempenho do código, aumentando significativamente tanto o pass@1 (de 47% para 62%) quanto a probabilidade de superar submissões humanas em eficiência (de 31% para 45%). Nosso trabalho demonstra uma melhoria eficaz na eficiência de código em tempo de teste e revela criticamente o poder do RL em ensinar LLMs a verdadeiramente auto-aprimorar a eficiência do código.

CXReasonBench: Um Benchmark para Avaliação de Raciocínio Diagnóstico Estruturado em Radiografias Torácicas
CXReasonBench: A Benchmark for Evaluating Structured Diagnostic Reasoning in Chest X-rays

May 23

ByHyungyung Lee, Geon Choi, Jung-Oh Lee, Hangyul Yoon, Hyuk Gi Hong, Edward Choi

Os avanços recentes em Modelos de Grande Escala de Visão e Linguagem (LVLMs, na sigla em inglês) têm possibilitado aplicações promissoras em tarefas médicas, como a geração de relatórios e a resposta a perguntas visuais. No entanto, os benchmarks existentes focam principalmente na resposta diagnóstica final, oferecendo insights limitados sobre se os modelos realizam raciocínios clinicamente significativos. Para abordar essa lacuna, apresentamos o CheXStruct e o CXReasonBench, um pipeline estruturado e um benchmark construídos com base no conjunto de dados MIMIC-CXR-JPG, disponível publicamente. O CheXStruct deriva automaticamente uma sequência de etapas intermediárias de raciocínio diretamente a partir de radiografias de tórax, como a segmentação de regiões anatômicas, a identificação de marcos anatômicos e medições diagnósticas, o cálculo de índices diagnósticos e a aplicação de limiares clínicos. O CXReasonBench utiliza esse pipeline para avaliar se os modelos são capazes de realizar etapas de raciocínio clinicamente válidas e até que ponto podem aprender com orientações estruturadas, permitindo uma avaliação detalhada e transparente do raciocínio diagnóstico. O benchmark compreende 18.988 pares de perguntas e respostas em 12 tarefas diagnósticas e 1.200 casos, cada um associado a até 4 entradas visuais, e suporta avaliações multipasso e multietapa, incluindo o enraizamento visual por meio da seleção de regiões anatômicas e medições diagnósticas. Mesmo os mais robustos entre os 10 LVLMs avaliados enfrentam dificuldades com o raciocínio estruturado e a generalização, frequentemente falhando em conectar conhecimento abstrato com interpretações visualmente fundamentadas na anatomia. O código está disponível em https://github.com/ttumyche/CXReasonBench.

Uni-Instruct: Modelo de Difusão em Uma Etapa através de Instrução Unificada de Divergência de Difusão
Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

May 27

ByYifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun

Neste artigo, unificamos mais de 10 abordagens existentes de destilação de difusão em uma única etapa, como Diff-Instruct, DMD, SIM, SiD, f-distill, etc., dentro de uma estrutura teórica que denominamos \emph{Uni-Instruct}. O Uni-Instruct é motivado pela nossa teoria proposta de expansão de difusão da família de divergência f. Em seguida, introduzimos teorias-chave que superam o problema de intratabilidade da divergência f expandida original, resultando em uma função de perda equivalente e tratável que treina efetivamente modelos de difusão em uma única etapa, minimizando a família de divergência f expandida. A nova unificação introduzida pelo Uni-Instruct não apenas oferece contribuições teóricas que ajudam a entender as abordagens existentes de uma perspectiva de alto nível, mas também leva a desempenhos de geração de difusão em uma única etapa de última geração. No benchmark de geração CIFAR10, o Uni-Instruct alcança valores recordes de Distância de Fréchet Inception (FID) de \emph{1,46} para geração incondicional e \emph{1,38} para geração condicional. No benchmark de geração ImageNet-64x64, o Uni-Instruct alcança um novo FID de geração em uma única etapa de \emph{1,02}, superando seu modelo de difusão professor de 79 etapas com uma margem de melhoria significativa de 1,33 (1,02 vs 2,35). Também aplicamos o Uni-Instruct em tarefas mais amplas, como geração de texto para 3D. Para geração de texto para 3D, o Uni-Instruct produz resultados decentes, que superam ligeiramente métodos anteriores, como SDS e VSD, em termos de qualidade e diversidade de geração. Tanto as contribuições teóricas quanto as empíricas sólidas do Uni-Instruct potencialmente ajudarão estudos futuros sobre destilação de difusão em uma única etapa e transferência de conhecimento de modelos de difusão.

ATI: Instrução de Trajetória Arbitrária para Geração de Vídeo Controlável
ATI: Any Trajectory Instruction for Controllable Video Generation

May 28

ByAngtian Wang, Haibin Huang, Jacob Zhiyuan Fang, Yiding Yang, Chongyang Ma

Propomos um framework unificado para controle de movimento na geração de vídeos que integra de forma contínua o movimento da câmera, a translação em nível de objeto e o movimento local refinado utilizando entradas baseadas em trajetórias. Diferentemente de métodos anteriores que abordam esses tipos de movimento através de módulos separados ou designs específicos para cada tarefa, nossa abordagem oferece uma solução coesa ao projetar trajetórias definidas pelo usuário no espaço latente de modelos pré-treinados de geração de imagem para vídeo por meio de um injetor de movimento leve. Os usuários podem especificar pontos-chave e seus caminhos de movimento para controlar deformações localizadas, o movimento de objetos inteiros, dinâmicas de câmera virtual ou combinações desses elementos. Os sinais de trajetória injetados guiam o processo generativo para produzir sequências de movimento temporalmente consistentes e semanticamente alinhadas. Nosso framework demonstra desempenho superior em diversas tarefas de controle de movimento em vídeo, incluindo efeitos de movimento estilizados (por exemplo, pincéis de movimento), mudanças dinâmicas de perspectiva e manipulação precisa de movimento local. Experimentos mostram que nosso método oferece uma controlabilidade e qualidade visual significativamente melhores em comparação com abordagens anteriores e soluções comerciais, mantendo ampla compatibilidade com diversos backbones de geração de vídeo state-of-the-art. Página do projeto: https://anytraj.github.io/.

ZeroSep: Separe Qualquer Coisa em Áudio sem Treinamento
ZeroSep: Separate Anything in Audio with Zero Training

May 29

ByChao Huang, Yuesheng Ma, Junxuan Huang, Susan Liang, Yunlong Tang, Jing Bi, Wenqiang Liu, Nima Mesgarani, Chenliang Xu

A separação de fontes de áudio é fundamental para que as máquinas compreendam ambientes acústicos complexos e sustenta inúmeras aplicações de áudio. As abordagens atuais de aprendizado profundo supervisionado, embora poderosas, são limitadas pela necessidade de dados rotulados extensos e específicos para cada tarefa, além de enfrentarem dificuldades para generalizar a imensa variabilidade e natureza de conjunto aberto das cenas acústicas do mundo real. Inspirados pelo sucesso dos modelos generativos de base, investigamos se modelos de difusão de áudio guiados por texto pré-treinados podem superar essas limitações. Fizemos uma descoberta surpreendente: a separação de fontes zero-shot pode ser alcançada puramente por meio de um modelo de difusão de áudio guiado por texto pré-treinado, sob a configuração correta. Nosso método, denominado ZeroSep, funciona invertendo o áudio misturado no espaço latente do modelo de difusão e, em seguida, usando o condicionamento textual para guiar o processo de remoção de ruído e recuperar as fontes individuais. Sem qualquer treinamento ou ajuste específico para a tarefa, o ZeroSep reaproveita o modelo generativo de difusão para uma tarefa discriminativa de separação e suporta inerentemente cenários de conjunto aberto por meio de seus ricos prévios textuais. O ZeroSep é compatível com uma variedade de backbones de modelos de difusão de áudio guiados por texto pré-treinados e oferece um forte desempenho de separação em vários benchmarks de separação, superando até mesmo métodos supervisionados.

Minimização de Entropia em Uma Única Tentativa
One-shot Entropy Minimization

May 26

ByZitian Gao, Lynx Chen, Joey Zhou, Bryan Dai

Treinamos 13.440 modelos de linguagem de grande porte e descobrimos que a minimização de entropia requer apenas um único dado não rotulado e 10 etapas de otimização para alcançar melhorias de desempenho comparáveis ou até maiores do que as obtidas usando milhares de dados e recompensas cuidadosamente projetadas em aprendizado por reforço baseado em regras. Esse resultado impressionante pode levar a uma reconsideração dos paradigmas de pós-treinamento para modelos de linguagem de grande porte. Nosso código está disponível em https://github.com/zitian-gao/one-shot-em.

Re-ttention: Geração Visual Ultra Esparsa via Remodelagem Estatística da Atenção
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

May 28

ByRuichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu

Os Transformadores de Difusão (DiT) tornaram-se o modelo de facto para a geração de conteúdo visual de alta qualidade, como vídeos e imagens. Um grande gargalo é o mecanismo de atenção, cuja complexidade escala quadraticamente com a resolução e a duração do vídeo. Uma maneira lógica de reduzir esse ônus é a atenção esparsa, onde apenas um subconjunto de tokens ou patches é incluído no cálculo. No entanto, as técnicas existentes falham em preservar a qualidade visual em níveis extremamente altos de esparsidade e podem até incorrer em sobrecargas computacionais não negligenciáveis. % Para abordar essa preocupação, propomos o Re-ttention, que implementa atenção esparsa muito alta para modelos de geração visual, aproveitando a redundância temporal dos Modelos de Difusão para superar a mudança de normalização probabilística dentro do mecanismo de atenção. Especificamente, o Re-ttention remodela as pontuações de atenção com base no histórico de distribuição softmax anterior, a fim de preservar a qualidade visual da atenção quadrática completa em níveis muito altos de esparsidade. % Resultados experimentais em modelos T2V/T2I, como o CogVideoX e os DiTs PixArt, demonstram que o Re-ttention requer apenas 3,1\% dos tokens durante a inferência, superando métodos contemporâneos como FastDiTAttn, Sparse VideoGen e MInference. Além disso, medimos a latência para mostrar que nosso método pode atingir uma redução de mais de 45\% de ponta a ponta % e mais de 92\% na latência de auto-atenção em uma GPU H100 com custo de sobrecarga insignificante. Código disponível online aqui: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}

Perplexos com Quebra-Cabeças: Quando Modelos de Visão e Linguagem Não Conseguem Captar a Dica
Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint

May 29

ByHeekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan

Os enigmas rebus, charadas visuais que codificam a linguagem por meio de imagens, arranjos espaciais e substituições simbólicas, representam um desafio único para os modelos visão-linguagem (VLMs) atuais. Diferentemente de tarefas tradicionais como descrição de imagens ou respostas a perguntas, a resolução de rebus exige abstração multimodal, raciocínio simbólico e compreensão de trocadilhos culturais, fonéticos e linguísticos. Neste artigo, investigamos a capacidade dos VLMs contemporâneos de interpretar e resolver enigmas rebus, construindo um benchmark gerado e anotado manualmente com uma variedade de rebus em inglês, desde substituições pictográficas simples até pistas dependentes de arranjos espaciais (como "cabeça" sobre "calcanhares"). Analisamos o desempenho de diferentes VLMs, e nossos resultados revelam que, embora esses modelos demonstrem algumas capacidades surpreendentes na decodificação de pistas visuais simples, eles enfrentam dificuldades significativas em tarefas que exigem raciocínio abstrato, pensamento lateral e compreensão de metáforas visuais.

Quando os Modelos Raciocinam em Sua Linguagem: Controlar o Idioma do Rastro de Pensamento Tem um Custo em Precisão
When Models Reason in Your Language: Controlling Thinking Trace Language Comes at the Cost of Accuracy

May 28

ByJirui Qi, Shan Chen, Zidi Xiong, Raquel Fernández, Danielle S. Bitterman, Arianna Bisazza

Modelos de Raciocínio de Grande Escala (LRMs) recentes com traços de pensamento têm demonstrado um forte desempenho em tarefas de raciocínio em inglês. No entanto, sua capacidade de pensar em outros idiomas é menos estudada. Essa habilidade é tão importante quanto a precisão das respostas para aplicações do mundo real, pois os usuários podem considerar o traço de raciocínio útil para supervisão apenas quando ele é expresso em seu próprio idioma. Avaliamos de forma abrangente duas famílias líderes de LRMs em nosso benchmark XReasoning e descobrimos que mesmo os modelos mais avançados frequentemente retornam ao inglês ou produzem raciocínios fragmentados em outros idiomas, revelando uma lacuna substancial no raciocínio multilíngue. Intervenções baseadas em prompts que forçam os modelos a raciocinar no idioma do usuário melhoram a legibilidade e a supervisão, mas reduzem a precisão das respostas, expondo uma importante compensação. Mostramos ainda que um treinamento pós-direcionado com apenas 100 exemplos mitiga essa incompatibilidade, embora alguma perda de precisão permaneça. Nossos resultados destacam as capacidades limitadas de raciocínio multilíngue dos LRMs atuais e delineiam direções para trabalhos futuros. O código e os dados estão disponíveis em https://github.com/Betswish/mCoT-XReasoning.

Raciocínio Conciso, Grandes Ganhos: Podagem de Traços de Raciocínio Longos com Prompting Consciente da Dificuldade
Concise Reasoning, Big Gains: Pruning Long Reasoning Trace with Difficulty-Aware Prompting

May 26

ByYifan Wu, Jingze Shi, Bingheng Wu, Jiayi Zhang, Xiaotian Lin, Nan Tang, Yuyu Luo

Os métodos existentes de destilação de cadeia de pensamento (CoT) podem transferir efetivamente habilidades de raciocínio para modelos base, mas sofrem com duas grandes limitações: verbosidade excessiva dos traços de raciocínio e adaptabilidade inadequada à dificuldade do problema. Traços de raciocínio longos aumentam significativamente os custos de inferência, e soluções de comprimento uniforme impedem que os modelos base aprendam estratégias de raciocínio adaptativas. Para resolver esses problemas, propomos um método de prompting consciente da dificuldade (DAP) para encurtar dinamicamente os traços de raciocínio sem perda de desempenho. Em nossa abordagem, um grande modelo professor primeiro avalia a dificuldade de cada problema e, em seguida, reescreve seus traços de raciocínio para um comprimento mais curto e apropriado, gerando traços de raciocínio concisos, mas completos. Aproveitando o pipeline DAP, criamos um conjunto de dados destilado chamado LiteCoT, composto por 100K exemplos de raciocínio concisos, com soluções que têm em média apenas 720 tokens (uma ordem de magnitude menor do que os CoTs típicos). Usando o LiteCoT, destilamos uma nova família de modelos de raciocínio chamada Liter (1.5B, 7B e 32B) baseada na arquitetura Qwen2.5. Experimentos mostram que um modelo estudante ajustado com apenas 100K dessas amostras de CoT podadas por dificuldade supera um modelo destilado em 800K amostras originais de Long CoT, enquanto reduz significativamente os custos de treinamento e inferência. Nosso método também generaliza bem: em 11 benchmarks diversos, os CoTs mais curtos e conscientes da dificuldade alcançam precisão igual ou melhor do que as cadeias longas, usando muito menos tokens. Por exemplo, no desafiador exame AIME24, nossa abordagem atinge 74,2% de Pass@1 usando apenas cerca de 5K tokens de inferência, superando outros métodos que consomem muito mais tokens. Nosso código e dados estão disponíveis em https://github.com/Evanwu1125/LiteCoT.

UniTEX: Geração Universal de Texturas de Alta Fidelidade para Formas 3D
UniTEX: Universal High Fidelity Generative Texturing for 3D Shapes

May 29

ByYixun Liang, Kunming Luo, Xiao Chen, Rui Chen, Hongyu Yan, Weiyu Li, Jiarui Liu, Ping Tan

Apresentamos o UniTEX, uma nova estrutura de geração de texturas 3D em dois estágios para criar texturas de alta qualidade e consistentes para ativos 3D. As abordagens existentes dependem predominantemente de inpainting baseado em UV para refinar as texturas após reprojetar as imagens geradas de múltiplas visões nas formas 3D, o que introduz desafios relacionados à ambiguidade topológica. Para resolver isso, propomos contornar as limitações do mapeamento UV operando diretamente em um espaço funcional 3D unificado. Especificamente, primeiro propomos elevar a geração de texturas para o espaço 3D por meio de Funções de Textura (TFs)—uma representação volumétrica contínua que mapeia qualquer ponto 3D para um valor de textura com base apenas na proximidade da superfície, independente da topologia da malha. Em seguida, propomos prever essas TFs diretamente a partir de entradas de imagens e geometria usando um Modelo de Texturização em Grande Escala (LTM) baseado em transformers. Para aprimorar ainda mais a qualidade das texturas e aproveitar poderosos priors 2D, desenvolvemos uma estratégia avançada baseada em LoRA para adaptar eficientemente Transformers de Difusão em Grande Escala (DiTs) para a síntese de texturas de múltiplas visões de alta qualidade como nosso primeiro estágio. Experimentos extensivos demonstram que o UniTEX alcança qualidade visual superior e integridade de textura em comparação com as abordagens existentes, oferecendo uma solução generalizável e escalável para a geração automatizada de texturas 3D. O código estará disponível em: https://github.com/YixunLiang/UniTEX.

Lunguage: Um Benchmark para Interpretação Estruturada e Sequencial de Radiografias Torácicas
Lunguage: A Benchmark for Structured and Sequential Chest X-ray Interpretation

May 27

ByJong Hak Moon, Geon Choi, Paloma Rabaey, Min Gwan Kim, Hyuk Gi Hong, Jung-Oh Lee, Hangyul Yoon, Eun Woo Doe, Jiyoun Kim, Harshita Sharma, Daniel C. Castro, Javier Alvarez-Valle, Edward Choi

Relatórios de radiologia transmitem observações clínicas detalhadas e capturam o raciocínio diagnóstico que evolui ao longo do tempo. No entanto, os métodos de avaliação existentes são limitados a configurações de relatório único e dependem de métricas grosseiras que não conseguem capturar a semântica clínica refinada e as dependências temporais. Apresentamos o LUNGUAGE, um conjunto de dados de referência para a geração estruturada de relatórios de radiologia que suporta tanto a avaliação de relatório único quanto a avaliação longitudinal em nível de paciente em múltiplos estudos. Ele contém 1.473 relatórios de raio-X de tórax anotados, cada um revisado por especialistas, e 80 deles contêm anotações longitudinais para capturar a progressão da doença e os intervalos entre estudos, também revisados por especialistas. Usando esse benchmark, desenvolvemos uma estrutura de duas etapas que transforma relatórios gerados em representações estruturadas alinhadas a esquemas refinados, permitindo interpretação longitudinal. Também propomos o LUNGUAGESCORE, uma métrica interpretável que compara saídas estruturadas no nível de entidade, relação e atributo, enquanto modela a consistência temporal ao longo das linhas do tempo do paciente. Essas contribuições estabelecem o primeiro conjunto de dados de referência, estrutura de organização e métrica de avaliação para relatórios de radiologia sequencial, com resultados empíricos demonstrando que o LUNGUAGESCORE suporta efetivamente a avaliação de relatórios estruturados. O código está disponível em: https://github.com/SuperSupermoon/Lunguage

ZPressor: Compressão Consciente de Gargalos para 3DGS Feed-Forward Escalável
ZPressor: Bottleneck-Aware Compression for Scalable Feed-Forward 3DGS

May 29

ByWeijie Wang, Donny Y. Chen, Zeyu Zhang, Duochao Shi, Akide Liu, Bohan Zhuang

Modelos de Splatting Gaussiano 3D Feed-forward (3DGS) surgiram recentemente como uma solução promissora para a síntese de novas visões, permitindo inferência em uma única passagem sem a necessidade de otimização 3DGS por cena. No entanto, sua escalabilidade é fundamentalmente limitada pela capacidade restrita de seus codificadores, resultando em desempenho degradado ou consumo excessivo de memória à medida que o número de visões de entrada aumenta. Neste trabalho, analisamos frameworks 3DGS feed-forward através da lente do princípio do Gargalo de Informação e introduzimos ZPressor, um módulo leve e independente de arquitetura que permite a compressão eficiente de entradas multi-visão em um estado latente compacto Z, que retém informações essenciais da cena enquanto descarta redundâncias. Concretamente, o ZPressor permite que modelos 3DGS feed-forward existentes escalem para mais de 100 visões de entrada em resolução 480P em uma GPU de 80GB, particionando as visões em conjuntos âncora e de suporte e usando atenção cruzada para comprimir as informações das visões de suporte nas visões âncora, formando o estado latente comprimido Z. Mostramos que a integração do ZPressor em vários modelos 3DGS feed-forward state-of-the-art melhora consistentemente o desempenho sob visões de entrada moderadas e aumenta a robustez em configurações de visões densas em dois benchmarks de grande escala, DL3DV-10K e RealEstate10K. Os resultados em vídeo, código e modelos treinados estão disponíveis em nossa página do projeto: https://lhmd.top/zpressor.

CLIPGaussian: Transferência de Estilo Universal e Multimodal Baseada em Espalhamento Gaussiano
CLIPGaussian: Universal and Multimodal Style Transfer Based on Gaussian Splatting

May 28

ByKornel Howil, Joanna Waczyńska, Piotr Borycki, Tadeusz Dziarmaga, Marcin Mazur, Przemysław Spurek

O Gaussian Splatting (GS) surgiu recentemente como uma representação eficiente para renderização de cenas 3D a partir de imagens 2D e foi estendido para imagens, vídeos e conteúdo dinâmico 4D. No entanto, aplicar transferência de estilo a representações baseadas em GS, especialmente além de simples mudanças de cor, continua sendo um desafio. Neste trabalho, apresentamos o CLIPGaussians, o primeiro framework unificado de transferência de estilo que suporta estilização guiada por texto e imagem em múltiplas modalidades: imagens 2D, vídeos, objetos 3D e cenas 4D. Nosso método opera diretamente em primitivas Gaussianas e se integra aos pipelines existentes de GS como um módulo plug-in, sem a necessidade de grandes modelos generativos ou retreinamento do zero. A abordagem CLIPGaussians permite a otimização conjunta de cor e geometria em ambientes 3D e 4D, e alcança coerência temporal em vídeos, mantendo o tamanho do modelo. Demonstramos fidelidade e consistência de estilo superiores em todas as tarefas, validando o CLIPGaussians como uma solução universal e eficiente para transferência de estilo multimodal.

Confiar ou Não Confiar na Previsão do Seu Modelo de Visão e Linguagem
To Trust Or Not To Trust Your Vision-Language Model's Prediction

May 29

ByHao Dong, Moru Liu, Jian Liang, Eleni Chatzi, Olga Fink

Modelos Visão-Linguagem (VLMs) têm demonstrado capacidades robustas em alinhar modalidades visuais e textuais, possibilitando uma ampla gama de aplicações em compreensão e geração multimodal. Embora se destaquem em cenários de aprendizado zero-shot e transferência, os VLMs permanecem suscetíveis a erros de classificação, frequentemente gerando previsões confiantes, porém incorretas. Essa limitação representa um risco significativo em domínios críticos para a segurança, onde previsões errôneas podem levar a consequências graves. Neste trabalho, apresentamos o TrustVLM, uma estrutura livre de treinamento projetada para abordar o desafio crítico de estimar quando as previsões de um VLM podem ser confiáveis. Motivados pela lacuna de modalidade observada em VLMs e pela percepção de que certos conceitos são mais distintamente representados no espaço de incorporação de imagens, propomos uma nova função de pontuação de confiança que aproveita esse espaço para melhorar a detecção de erros de classificação. Avaliamos rigorosamente nossa abordagem em 17 conjuntos de dados diversos, empregando 4 arquiteturas e 2 VLMs, e demonstramos desempenho de ponta, com melhorias de até 51,87% em AURC, 9,14% em AUROC e 32,42% em FPR95 em comparação com as linhas de base existentes. Ao melhorar a confiabilidade do modelo sem exigir retreinamento, o TrustVLM abre caminho para uma implantação mais segura de VLMs em aplicações do mundo real. O código estará disponível em https://github.com/EPFL-IMOS/TrustVLM.

Os LLMs Podem Enganar o CLIP? Avaliando a Composicionalidade Adversarial de Representações Multimodais Pré-treinadas por meio de Atualizações de Texto
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates

May 28

ByJaewoo Ahn, Heeseung Yun, Dayoon Ko, Gunhee Kim

Embora as representações multimodais pré-treinadas (por exemplo, CLIP) tenham demonstrado capacidades impressionantes, elas exibem vulnerabilidades composicionais significativas que levam a julgamentos contra-intuitivos. Introduzimos a Composicionalidade Adversarial Multimodal (MAC), um benchmark que aproveita modelos de linguagem de grande escala (LLMs) para gerar amostras de texto enganosas que exploram essas vulnerabilidades em diferentes modalidades e as avalia tanto pela taxa de sucesso de ataque por amostra quanto pela diversidade baseada em entropia por grupo. Para aprimorar métodos de zero-shot, propomos uma abordagem de auto-treinamento que utiliza ajuste fino por rejeição de amostras com filtragem que promove a diversidade, melhorando tanto a taxa de sucesso de ataque quanto a diversidade das amostras. Utilizando modelos de linguagem menores, como o Llama-3.1-8B, nossa abordagem demonstra desempenho superior em revelar vulnerabilidades composicionais em várias representações multimodais, incluindo imagens, vídeos e áudios.

SridBench: Benchmark de Ilustração de Pesquisa Científica para Modelos de Geração de Imagens
SridBench: Benchmark of Scientific Research Illustration Drawing of Image Generation Model

May 28

ByYifan Chang, Yukang Feng, Jianwen Sun, Jiaxin Ai, Chuanhao Li, S. Kevin Zhou, Kaipeng Zhang

Nos últimos anos, observamos avanços rápidos na geração de imagens impulsionada pela IA. Os primeiros modelos de difusão enfatizavam a qualidade perceptual, enquanto modelos multimodais mais recentes, como o GPT-4o-image, integram raciocínio de alto nível, melhorando a compreensão semântica e a composição estrutural. A geração de ilustrações científicas exemplifica essa evolução: ao contrário da síntese geral de imagens, ela exige uma interpretação precisa de conteúdo técnico e a transformação de ideias abstratas em visuais claros e padronizados. Essa tarefa é significativamente mais intensiva em conhecimento e trabalhosa, frequentemente exigindo horas de trabalho manual e ferramentas especializadas. Automatizá-la de maneira controlável e inteligente traria um valor prático substancial. No entanto, atualmente não existe um benchmark para avaliar a IA nesse aspecto. Para preencher essa lacuna, introduzimos o SridBench, o primeiro benchmark para geração de figuras científicas. Ele compreende 1.120 instâncias curadas de artigos científicos líderes em 13 disciplinas das ciências naturais e da computação, coletadas por meio de especialistas humanos e MLLMs. Cada amostra é avaliada em seis dimensões, incluindo fidelidade semântica e precisão estrutural. Os resultados experimentais revelam que até mesmo modelos de ponta, como o GPT-4o-image, ficam aquém do desempenho humano, com problemas comuns em clareza textual/visual e correção científica. Essas descobertas destacam a necessidade de capacidades mais avançadas de geração visual orientada por raciocínio.

Como os Animais Dançam (Quando Você Não Está Olhando)
How Animals Dance (When You're Not Looking)

May 29

ByXiaojuan Wang, Aleksander Holynski, Brian Curless, Ira Kemelmacher, Steve Seitz

Apresentamos uma estrutura baseada em keyframes para a geração de vídeos de dança de animais sincronizados com música e cientes da coreografia. A partir de alguns keyframes que representam poses distintas de animais — gerados por meio de prompts de texto para imagem ou GPT-4o — formulamos a síntese de dança como um problema de otimização de grafos: encontrar a estrutura de keyframes ideal que satisfaça um padrão coreográfico específico de batidas, que pode ser estimado automaticamente a partir de um vídeo de dança de referência. Também introduzimos uma abordagem para a geração de imagens de poses espelhadas, essencial para capturar a simetria na dança. Os frames intermediários são sintetizados usando um modelo de difusão de vídeo. Com apenas seis keyframes de entrada, nosso método pode produzir vídeos de dança de até 30 segundos para uma ampla variedade de animais e faixas musicais.

MMSI-Bench: Um Benchmark para Inteligência Espacial em Múltiplas Imagens
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence

May 29

BySihan Yang, Runsen Xu, Yiman Xie, Sizhe Yang, Mo Li, Jingli Lin, Chenming Zhu, Xiaochen Chen, Haodong Duan, Xiangyu Yue, Dahua Lin, Tai Wang, Jiangmiao Pang

A inteligência espacial é essencial para modelos de linguagem multimodal de grande escala (MLLMs) que operam no mundo físico complexo. No entanto, os benchmarks existentes avaliam apenas relações em imagens únicas, falhando em testar o raciocínio espacial multi-imagem exigido por aplicações do mundo real. Apresentamos o MMSI-Bench, um benchmark de VQA (Visual Question Answering) dedicado à inteligência espacial multi-imagem. Seis pesquisadores em visão 3D dedicaram mais de 300 horas para criar meticulosamente 1.000 perguntas desafiadoras e inequívocas de múltipla escolha, a partir de mais de 120.000 imagens, cada uma acompanhada de distratores cuidadosamente projetados e um processo de raciocínio passo a passo. Realizamos experimentos extensivos e avaliamos minuciosamente 34 MLLMs de código aberto e proprietários, observando uma grande lacuna: o modelo de código aberto mais forte atinge aproximadamente 30% de precisão, enquanto o modelo de raciocínio o3 da OpenAI alcança 40%, em contraste com a pontuação humana de 97%. Esses resultados destacam a natureza desafiadora do MMSI-Bench e o amplo espaço para pesquisas futuras. Aproveitando os processos de raciocínio anotados, também fornecemos um pipeline automatizado de análise de erros que diagnostica quatro modos de falha predominantes, incluindo (1) erros de fundamentação, (2) erros de correspondência de sobreposição e reconstrução de cena, (3) erros de raciocínio em transformação de situação e (4) erros de lógica espacial, oferecendo insights valiosos para o avanço da inteligência espacial multi-imagem. Página do projeto: https://runsenxu.com/projects/MMSI_Bench.

Arredondamento Adaptativo de Preservação de Modelo
Model-Preserving Adaptive Rounding

May 29

ByAlbert Tseng, Zhaofeng Sun, Christopher De Sa

O principal objetivo da quantização pós-treinamento (PTQ) é produzir um modelo comprimido cuja distribuição de saída seja o mais próxima possível da do modelo original. Para fazer isso de forma viável, quase todos os algoritmos de PTQ para LLMs quantizam as camadas lineares minimizando independentemente o erro de ativação imediata. No entanto, esse objetivo localizado ignora o efeito das camadas subsequentes, portanto, reduzi-lo não necessariamente resulta em um modelo mais próximo. Neste trabalho, apresentamos o Yet Another Quantization Algorithm (YAQA), um algoritmo de arredondamento adaptativo que utiliza aproximações fatoradas de Kronecker da Hessiana de cada camada linear em relação à divergência KL do modelo completo. O YAQA consiste em dois componentes: esboços fatorados de Kronecker da Hessiana completa por camada, que podem ser calculados de forma viável para LLMs com centenas de bilhões de parâmetros, e um algoritmo de arredondamento independente do quantizador que utiliza esses esboços e vem com garantias teóricas. Em uma ampla gama de modelos e quantizadores, o YAQA reduz empiricamente a divergência KL em relação ao modelo original em aproximadamente 30%, ao mesmo tempo que alcança desempenho de ponta em tarefas subsequentes.

Avaliação da Criatividade Textual em Diferentes Domínios: Um Conjunto de Dados e um Avaliador Baseado em Modelos de Linguagem de Grande Escala
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator

May 25

ByQian Cao, Xiting Wang, Yuzhuo Yuan, Yahui Liu, Fang Luo, Ruihua Song

A avaliação da criatividade continua sendo uma fronteira desafiadora para os modelos de linguagem de grande escala (LLMs). As avaliações atuais dependem fortemente de julgamentos humanos ineficientes e custosos, o que dificulta o progresso no aprimoramento da criatividade das máquinas. Embora existam métodos automatizados, variando de testes psicológicos a abordagens baseadas em heurísticas ou prompts, eles frequentemente carecem de generalização ou alinhamento com o julgamento humano. Para abordar essas questões, neste artigo, propomos uma nova estrutura de comparação pareada para avaliar a criatividade textual, aproveitando instruções contextuais compartilhadas para melhorar a consistência da avaliação. Introduzimos o CreataSet, um conjunto de dados em larga escala com mais de 100 mil pares de instrução-resposta criativos de nível humano e mais de 1 milhão de pares sintéticos, abrangendo diversas tarefas de domínio aberto. Ao treinar no CreataSet, desenvolvemos um avaliador baseado em LLM chamado CrEval. O CrEval demonstra uma superioridade notável em relação aos métodos existentes no alinhamento com os julgamentos humanos. Os resultados experimentais destacam a importância indispensável de integrar dados gerados por humanos e sintéticos no treinamento de avaliadores altamente robustos, e mostram a utilidade prática do CrEval em impulsionar a criatividade dos LLMs. Liberaremos todos os dados, códigos e modelos publicamente em breve para apoiar pesquisas futuras.

ChartLens: Atribuição Visual de Alta Precisão em Gráficos
ChartLens: Fine-grained Visual Attribution in Charts

May 25

ByManan Suri, Puneet Mathur, Nedim Lipka, Franck Dernoncourt, Ryan A. Rossi, Dinesh Manocha

As capacidades crescentes dos modelos de linguagem multimodal de grande escala (MLLMs) têm avançado tarefas como a compreensão de gráficos. No entanto, esses modelos frequentemente sofrem com alucinações, onde sequências de texto geradas entram em conflito com os dados visuais fornecidos. Para abordar esse problema, introduzimos a Atribuição Visual Post-Hoc para Gráficos, que identifica elementos detalhados do gráfico que validam uma resposta associada ao gráfico. Propomos o ChartLens, um novo algoritmo de atribuição de gráficos que utiliza técnicas baseadas em segmentação para identificar objetos do gráfico e emprega o prompting de conjunto de marcas com MLLMs para atribuição visual detalhada. Além disso, apresentamos o ChartVA-Eval, um benchmark com gráficos sintéticos e do mundo real de diversos domínios, como finanças, políticas e economia, contendo anotações detalhadas de atribuição. Nossas avaliações mostram que o ChartLens melhora as atribuições detalhadas em 26-66%.

GSO: Tarefas Desafiadoras de Otimização de Software para Avaliação de Agentes de Engenharia de Software
GSO: Challenging Software Optimization Tasks for Evaluating SWE-Agents

May 29

ByManish Shetty, Naman Jain, Jinjian Liu, Vijay Kethanaboyina, Koushik Sen, Ion Stoica

Desenvolver software de alto desempenho é uma tarefa complexa que requer expertise especializada. Apresentamos o GSO, um benchmark para avaliar as capacidades de modelos de linguagem no desenvolvimento de software de alto desempenho. Desenvolvemos um pipeline automatizado que gera e executa testes de desempenho para analisar históricos de commits em repositórios, identificando 102 tarefas desafiadoras de otimização em 10 bases de código, abrangendo diversos domínios e linguagens de programação. Um agente recebe uma base de código e um teste de desempenho como especificação precisa, e é incumbido de melhorar a eficiência de execução, que é medida em comparação com a otimização realizada por desenvolvedores especialistas. Nossa avaliação quantitativa revela que os principais SWE-Agents enfrentam dificuldades significativas, alcançando uma taxa de sucesso inferior a 5%, com melhorias limitadas mesmo com escalonamento no tempo de inferência. Nossa análise qualitativa identifica modos de falha principais, incluindo dificuldades com linguagens de baixo nível, prática de estratégias de otimização preguiçosa e desafios na localização precisa de gargalos. Disponibilizamos o código e os artefatos do nosso benchmark, juntamente com trajetórias dos agentes, para permitir pesquisas futuras.

Uma Perspectiva de Grafos para Investigar Padrões Estruturais de Conhecimento em Modelos de Linguagem de Grande Escala
A Graph Perspective to Probe Structural Patterns of Knowledge in Large Language Models

May 25

ByUtkarsh Sahu, Zhisheng Qi, Yongjia Lei, Ryan A. Rossi, Franck Dernoncourt, Nesreen K. Ahmed, Mahantesh M Halappanavar, Yao Ma, Yu Wang

Modelos de linguagem de grande escala têm sido extensivamente estudados como bases de conhecimento neural, com foco em seu acesso ao conhecimento, editabilidade, raciocínio e explicabilidade. No entanto, poucos trabalhos se concentram nos padrões estruturais de seu conhecimento. Motivados por essa lacuna, investigamos esses padrões estruturais a partir de uma perspectiva de grafos. Quantificamos o conhecimento dos LLMs tanto no nível de triplas quanto no nível de entidades, e analisamos como ele se relaciona com propriedades estruturais de grafos, como o grau dos nós. Além disso, descobrimos a homofilia de conhecimento, onde entidades topologicamente próximas exibem níveis semelhantes de conhecimento, o que nos motiva ainda mais a desenvolver modelos de aprendizado de máquina baseados em grafos para estimar o conhecimento de uma entidade com base em seus vizinhos locais. Esse modelo também permite uma valiosa verificação de conhecimento ao selecionar triplas menos conhecidas pelos LLMs. Resultados empíricos mostram que o uso de triplas selecionadas para ajuste fino leva a um desempenho superior.

TokBench: Avaliando Seu Tokenizador Visual antes da Geração Visual
TokBench: Evaluating Your Visual Tokenizer before Visual Generation

May 23

ByJunfeng Wu, Dongliang Luo, Weizhi Zhao, Zhihao Xie, Yuanhao Wang, Junyi Li, Xudong Xie, Yuliang Liu, Xiang Bai

Neste trabalho, revelamos as limitações dos tokenizadores visuais e VAEs na preservação de características de alta granularidade, e propomos um benchmark para avaliar o desempenho de reconstrução para dois tipos de conteúdo visual desafiadores: texto e rosto. Tokenizadores visuais e VAEs avançaram significativamente a geração visual e a modelagem multimodal ao fornecer representações de imagem comprimidas ou quantizadas mais eficientes. No entanto, embora ajudem os modelos de produção a reduzir a carga computacional, a perda de informação decorrente da compressão de imagem limita fundamentalmente o limite superior da qualidade de geração visual. Para avaliar esse limite superior, focamos na avaliação de características reconstruídas de texto e rosto, pois elas geralmente: 1) existem em escalas menores, 2) contêm texturas densas e ricas, 3) são propensas a colapsar, e 4) são altamente sensíveis à visão humana. Primeiro, coletamos e organizamos um conjunto diversificado de imagens claras de texto e rosto a partir de conjuntos de dados existentes. Diferente de abordagens que utilizam modelos VLM, empregamos modelos estabelecidos de OCR e reconhecimento facial para avaliação, garantindo precisão enquanto mantemos um processo de avaliação extremamente leve <span style="font-weight: bold; color: rgb(214, 21, 21);">que requer apenas 2GB de memória e 4 minutos</span> para ser concluído. Usando nosso benchmark, analisamos a qualidade de reconstrução de texto e rosto em várias escalas para diferentes tokenizadores de imagem e VAEs. Nossos resultados mostram que os tokenizadores visuais modernos ainda têm dificuldade em preservar características de alta granularidade, especialmente em escalas menores. Estendemos ainda mais esse framework de avaliação para vídeo, realizando uma análise abrangente de tokenizadores de vídeo. Além disso, demonstramos que métricas tradicionais falham em refletir com precisão o desempenho de reconstrução para rostos e texto, enquanto as métricas que propomos servem como um complemento eficaz.

Modelos de Linguagem de Grande Escala Encontram Grafos de Conhecimento para Resposta a Perguntas: Síntese e Oportunidades
Large Language Models Meet Knowledge Graphs for Question Answering: Synthesis and Opportunities

May 26

ByChuangtao Ma, Yongrui Chen, Tianxing Wu, Arijit Khan, Haofen Wang

Modelos de linguagem de grande escala (LLMs, na sigla em inglês) demonstraram desempenho notável em tarefas de questionamento e resposta (QA, na sigla em inglês) devido às suas capacidades superiores em compreensão e geração de linguagem natural. No entanto, sistemas de QA baseados em LLMs enfrentam dificuldades em tarefas complexas de QA devido à capacidade limitada de raciocínio, conhecimento desatualizado e alucinações. Vários trabalhos recentes propõem a síntese de LLMs e grafos de conhecimento (KGs, na sigla em inglês) para QA a fim de abordar esses desafios. Nesta revisão, propomos uma nova taxonomia estruturada que categoriza a metodologia de síntese de LLMs e KGs para QA de acordo com os tipos de QA e o papel do KG ao ser integrado com LLMs. Revisamos sistematicamente os avanços mais recentes na síntese de LLMs e KGs para QA, comparando e analisando essas abordagens em termos de pontos fortes, limitações e requisitos dos KGs. Em seguida, alinhamos as abordagens com os tipos de QA e discutimos como elas abordam os principais desafios de diferentes QA complexos. Por fim, resumimos os avanços, métricas de avaliação e conjuntos de dados de referência, destacando desafios em aberto e oportunidades futuras.

Em Direção à Geração Confiável de Hipóteses Biomédicas: Avaliando Veracidade e Alucinação em Modelos de Linguagem de Grande Escala
Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

May 20

ByGuangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang

Modelos de linguagem de grande escala (LLMs) têm demonstrado um potencial significativo em disciplinas científicas como a biomedicina, particularmente na geração de hipóteses, onde podem analisar vastas literaturas, identificar padrões e sugerir direções de pesquisa. No entanto, um desafio crucial reside na avaliação da veracidade das hipóteses geradas, uma vez que verificar sua precisão frequentemente requer tempo e recursos substanciais. Além disso, o problema de alucinação em LLMs pode levar à geração de hipóteses que parecem plausíveis, mas que são, em última análise, incorretas, comprometendo sua confiabilidade. Para facilitar o estudo sistemático desses desafios, introduzimos o TruthHypo, um benchmark para avaliar as capacidades dos LLMs na geração de hipóteses biomédicas verdadeiras, e o KnowHD, um detector de alucinações baseado em conhecimento para avaliar o quão bem as hipóteses estão fundamentadas no conhecimento existente. Nossos resultados mostram que os LLMs têm dificuldade em gerar hipóteses verdadeiras. Ao analisar alucinações nas etapas de raciocínio, demonstramos que as pontuações de fundamentação fornecidas pelo KnowHD servem como uma métrica eficaz para filtrar hipóteses verdadeiras a partir das diversas saídas dos LLMs. Avaliações humanas validam ainda mais a utilidade do KnowHD na identificação de hipóteses verdadeiras e na aceleração da descoberta científica. Nossos dados e código-fonte estão disponíveis em https://github.com/Teddy-XiongGZ/TruthHypo.

Aprendizado por Reforço Fundamentado para Raciocínio Visual
Grounded Reinforcement Learning for Visual Reasoning

May 29

ByGabriel Sarch, Snigdha Saha, Naitik Khandelwal, Ayush Jain, Michael J. Tarr, Aviral Kumar, Katerina Fragkiadaki

Embora o aprendizado por reforço (RL) sobre cadeias de pensamento tenha avançado significativamente os modelos de linguagem em tarefas como matemática e codificação, o raciocínio visual introduz uma complexidade adicional ao exigir que os modelos direcionem a atenção visual, interpretem entradas perceptivas e fundamentem o raciocínio abstrato em evidências espaciais. Apresentamos o ViGoRL (Visually Grounded Reinforcement Learning), um modelo de visão e linguagem treinado com RL para ancorar explicitamente cada etapa de raciocínio a coordenadas visuais específicas. Inspirado pela tomada de decisão visual humana, o ViGoRL aprende a produzir traços de raciocínio espacialmente fundamentados, guiando a atenção visual para regiões relevantes para a tarefa em cada etapa. Quando uma exploração detalhada é necessária, nossa nova estrutura de RL multi-turn permite que o modelo amplie dinamicamente as coordenadas previstas à medida que o raciocínio se desenrola. Em um conjunto diversificado de benchmarks de raciocínio visual—incluindo SAT-2 e BLINK para raciocínio espacial, V*bench para busca visual, e ScreenSpot e VisualWebArena para fundamentação baseada na web—o ViGoRL supera consistentemente tanto o ajuste fino supervisionado quanto as linhas de base convencionais de RL que carecem de mecanismos explícitos de fundamentação. A incorporação do RL multi-turn com feedback visual ampliado melhora significativamente o desempenho do ViGoRL na localização de pequenos elementos de GUI e na busca visual, alcançando 86,4% no V*Bench. Além disso, descobrimos que a fundamentação amplifica outros comportamentos visuais, como a exploração de regiões, a definição de subobjetivos fundamentados e a verificação visual. Por fim, avaliações humanas mostram que as referências visuais do modelo não são apenas espacialmente precisas, mas também úteis para entender as etapas de raciocínio do modelo. Nossos resultados mostram que o RL visualmente fundamentado é um paradigma forte para dotar os modelos de raciocínio visual de propósito geral.

Informação Diferencial: Uma Perspectiva da Teoria da Informação sobre Otimização de Preferências
Differential Information: An Information-Theoretic Perspective on Preference Optimization

May 29

ByYunjae Won, Hyunji Lee, Hyeonbin Hwang, Minjoon Seo

A Otimização Direta de Preferências (DPO, na sigla em inglês) tornou-se uma técnica padrão para alinhar modelos de linguagem com preferências humanas de maneira supervisionada. Apesar de seu sucesso empírico, a justificativa teórica por trás de sua parametrização de recompensa logarítmica permanece incompleta. Neste trabalho, abordamos essa lacuna utilizando a Distribuição de Informação Diferencial (DID, na sigla em inglês): uma distribuição sobre sequências de tokens que captura a informação obtida durante atualizações de política. Primeiro, mostramos que, quando os rótulos de preferência codificam a informação diferencial necessária para transformar uma política de referência em uma política alvo, a recompensa logarítmica na DPO surge como a forma unicamente ótima para aprender a política alvo por meio da otimização de preferências. Esse resultado naturalmente produz uma expressão em forma fechada para a distribuição ótima de amostragem sobre respostas rejeitadas. Segundo, descobrimos que a condição para que as preferências codifiquem informação diferencial está fundamentalmente ligada a uma suposição implícita sobre políticas ordenadas por margem logarítmica — um viés indutivo amplamente utilizado na otimização de preferências, mas anteriormente não reconhecido. Por fim, ao analisar a entropia da DID, caracterizamos como o aprendizado de informação diferencial de baixa entropia reforça a distribuição da política, enquanto a informação diferencial de alta entropia induz um efeito de suavização, o que explica o fenômeno de deslocamento da log-verossimilhança. Validamos nossas descobertas teóricas em experimentos sintéticos e as estendemos para conjuntos de dados reais de seguimento de instruções. Nossos resultados sugerem que o aprendizado de informação diferencial de alta entropia é crucial para o seguimento geral de instruções, enquanto o aprendizado de informação diferencial de baixa entropia beneficia a resposta a perguntas intensivas em conhecimento. No geral, nosso trabalho apresenta uma perspectiva unificadora sobre o objetivo da DPO, a estrutura dos dados de preferência e os comportamentos resultantes das políticas, através da lente da informação diferencial.

Orientação Adaptativa sem Classificador via Mascaramento Dinâmico de Baixa Confiança
Adaptive Classifier-Free Guidance via Dynamic Low-Confidence Masking

May 26

ByPengxiang Li, Shilin Yan, Joey Tsai, Renrui Zhang, Ruichuan An, Ziyu Guo, Xiaowei Gao

O Classifier-Free Guidance (CFG) melhora significativamente a controlabilidade em modelos generativos ao interpolar previsões condicionais e incondicionais. No entanto, o CFG padrão frequentemente emprega uma entrada incondicional estática, o que pode ser subótimo para processos de geração iterativa onde a incerteza do modelo varia dinamicamente. Introduzimos o Adaptive Classifier-Free Guidance (A-CFG), um método inovador que personaliza a entrada incondicional ao aproveitar a confiança preditiva instantânea do modelo. A cada passo de um modelo de linguagem de difusão mascarada iterativa, o A-CFG identifica tokens na sequência gerada atualmente para os quais o modelo exibe baixa confiança. Esses tokens são temporariamente remascarados para criar uma entrada incondicional dinâmica e localizada. Isso concentra a influência corretiva do CFG precisamente nas áreas de ambiguidade, levando a uma orientação mais eficaz. Integramos o A-CFG em um modelo de linguagem de difusão mascarada de última geração e demonstramos sua eficácia. Experimentos em diversos benchmarks de geração de linguagem mostram que o A-CFG produz melhorias substanciais em relação ao CFG padrão, alcançando, por exemplo, um ganho de 3,9 pontos no GPQA. Nosso trabalho destaca o benefício de adaptar dinamicamente mecanismos de orientação à incerteza do modelo em gerações iterativas.

Estimativa de Qualidade Não Supervisionada em Nível de Palavra para Tradução Automática Através da Perspectiva de (Des)acordo entre Anotadores
Unsupervised Word-level Quality Estimation for Machine Translation Through the Lens of Annotators (Dis)agreement

May 29

ByGabriele Sarti, Vilém Zouhar, Malvina Nissim, Arianna Bisazza

A estimativa de qualidade em nível de palavra (WQE, na sigla em inglês) tem como objetivo identificar automaticamente erros detalhados em saídas de tradução automática e tem encontrado diversas aplicações, incluindo a assistência a tradutores durante a pós-edição. As técnicas modernas de WQE costumam ser dispendiosas, envolvendo o uso de grandes modelos de linguagem ou treinamento específico com grandes quantidades de dados rotulados manualmente. Neste trabalho, investigamos alternativas eficientes que exploram avanços recentes em interpretabilidade de modelos de linguagem e quantificação de incerteza para identificar erros de tradução a partir do funcionamento interno dos modelos de tradução. Em nossa avaliação, que abrange 14 métricas em 12 direções de tradução, quantificamos o impacto da variação de rótulos humanos no desempenho das métricas utilizando múltiplos conjuntos de rótulos humanos. Nossos resultados destacam o potencial ainda não explorado de métricas não supervisionadas, as limitações de métodos supervisionados diante da incerteza nos rótulos e a fragilidade de práticas de avaliação baseadas em um único anotador.