Artigos de pesquisa em IA selecionados diariamente com traduções
Neste trabalho, apresentamos o primeiro estudo a explorar o dimensionamento em tempo de inferência em tarefas de raciocínio sobre tabelas. Desenvolvemos e avaliamos duas estratégias de pós-treinamento para habilitar o dimensionamento em tempo de inferência: destilação a partir de traços de raciocínio de modelos de fronteira e aprendizado por reforço com recompensas verificáveis (RLVR). Para a destilação, introduzimos um conjunto de dados em larga escala de traços de raciocínio gerados pelo DeepSeek-R1, que utilizamos para ajustar finamente LLMs no modelo Table-R1-SFT. Para o RLVR, propomos funções de recompensa verificáveis específicas para a tarefa e aplicamos o algoritmo GRPO para obter o modelo Table-R1-Zero. Avaliamos nossos modelos da série Table-R1 em diversas tarefas de raciocínio sobre tabelas, incluindo QA de curta duração, verificação de fatos e QA de forma livre. Notavelmente, o modelo Table-R1-Zero iguala ou supera o desempenho do GPT-4.1 e do DeepSeek-R1, utilizando apenas um LLM de 7 bilhões de parâmetros. Ele também demonstra uma forte generalização para conjuntos de dados fora do domínio. Análises extensivas de ablação e qualitativas revelam os benefícios do ajuste de instruções, escolhas de arquitetura do modelo e generalização entre tarefas, bem como o surgimento de habilidades essenciais de raciocínio sobre tabelas durante o treinamento por reforço.
Os avanços recentes em Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm melhorado significativamente o desempenho em tarefas visuais 2D. No entanto, aprimorar sua inteligência espacial continua sendo um desafio. Os MLLMs 3D existentes sempre dependem de dados adicionais 3D ou 2.5D para incorporar consciência espacial, limitando sua utilidade em cenários com apenas entradas 2D, como imagens ou vídeos. Neste artigo, apresentamos o Spatial-MLLM, uma nova estrutura para raciocínio espacial baseado em observações puramente 2D. Diferente dos MLLMs de vídeo convencionais, que dependem de codificadores visuais baseados em CLIP otimizados para compreensão semântica, nossa principal ideia é liberar o forte prior estrutural do modelo de fundação de geometria visual feed-forward. Especificamente, propomos uma arquitetura de codificador duplo: um codificador visual 2D pré-treinado para extrair características semânticas e um codificador espacial inicializado a partir da estrutura principal do modelo de geometria visual para extrair características de estrutura 3D. Um conector então integra ambas as características em tokens visuais unificados para uma compreensão espacial aprimorada. Além disso, propomos uma estratégia de amostragem de quadros consciente do espaço no momento da inferência, que seleciona os quadros espacialmente informativos de uma sequência de vídeo, garantindo que, mesmo com comprimento limitado de tokens, o modelo se concentre nos quadros críticos para o raciocínio espacial. Além das melhorias na arquitetura, construímos o conjunto de dados Spatial-MLLM-120k e treinamos o modelo nele usando ajuste fino supervisionado e GRPO. Experimentos extensivos em vários conjuntos de dados do mundo real demonstram que nosso Spatial-MLLM alcança desempenho de ponta em uma ampla gama de tarefas de compreensão e raciocínio espacial baseadas em visão. Página do projeto: https://diankun-wu.github.io/Spatial-MLLM/.
Estudos recentes sobre o pós-treinamento de grandes modelos de linguagem (LLMs) para raciocínio por meio de aprendizado por reforço (RL) geralmente se concentram em tarefas que podem ser verificadas e recompensadas com precisão, como a resolução de problemas matemáticos. Em contraste, nossa pesquisa investiga o impacto do ruído nas recompensas, uma consideração mais prática para cenários do mundo real que envolvem o pós-treinamento de LLMs usando modelos de recompensa. Descobrimos que os LLMs demonstram uma forte robustez a ruídos substanciais nas recompensas. Por exemplo, inverter manualmente 40% das saídas da função de recompensa em tarefas matemáticas ainda permite que um modelo Qwen-2.5-7B alcance convergência rápida, melhorando seu desempenho em tarefas matemáticas de 5% para 72%, em comparação com a precisão de 75% alcançada por um modelo treinado com recompensas sem ruído. Surpreendentemente, ao recompensar apenas a aparição de frases-chave de raciocínio (ou seja, recompensa por padrão de raciocínio, RPR), como "primeiro, eu preciso" — sem verificar a correção das respostas — o modelo alcançou o pico de desempenho downstream (mais de 70% de precisão para o Qwen-2.5-7B), comparável a modelos treinados com verificação estrita de correção e recompensas precisas. Reconhecendo a importância do processo de raciocínio sobre os resultados finais, combinamos o RPR com modelos de recompensa ruidosos. O RPR ajudou a calibrar os modelos de recompensa ruidosos, mitigando potenciais falsos negativos e melhorando o desempenho do LLM em tarefas de resposta aberta. Essas descobertas sugerem a importância de melhorar as habilidades fundamentais dos modelos durante a fase de pré-treinamento, ao mesmo tempo que fornecem insights para o avanço das técnicas de pós-treinamento. Nosso código e scripts estão disponíveis em https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.
Os MLLMs (Modelos Multimodais de Linguagem) têm sido amplamente estudados recentemente para a tarefa de resposta a perguntas em vídeos. No entanto, a maioria das avaliações existentes concentra-se em vídeos naturais, negligenciando vídeos sintéticos, como conteúdo gerado por IA (AIGC). Paralelamente, alguns trabalhos em geração de vídeos dependem de MLLMs para avaliar a qualidade dos vídeos gerados, mas as capacidades dos MLLMs na interpretação de vídeos AIGC permanecem amplamente inexploradas. Para abordar essa lacuna, propomos um novo benchmark, o VF-Eval, que introduz quatro tarefas — validação de coerência, consciência de erros, detecção de tipos de erro e avaliação de raciocínio — para avaliar de forma abrangente as habilidades dos MLLMs em vídeos AIGC. Avaliamos 13 MLLMs de ponta no VF-Eval e constatamos que mesmo o modelo com melhor desempenho, o GPT-4.1, enfrenta dificuldades para alcançar um desempenho consistentemente bom em todas as tarefas. Isso destaca a natureza desafiadora do nosso benchmark. Além disso, para investigar as aplicações práticas do VF-Eval na melhoria da geração de vídeos, conduzimos um experimento, o RePrompt, demonstrando que alinhar os MLLMs mais de perto com o feedback humano pode beneficiar a geração de vídeos.
O rápido avanço dos grandes Modelos Visão-Linguagem (VLMs) impulsionou o desenvolvimento de Agentes de Interface Gráfica do Usuário (GUI) baseados exclusivamente em visão, capazes de perceber e operar Interfaces Gráficas do Usuário (GUI) para cumprir autonomamente as instruções do usuário. No entanto, as abordagens existentes geralmente adotam um framework de aprendizado offline, que enfrenta duas limitações principais: (1) forte dependência de anotações manuais de alta qualidade para a localização de elementos e supervisão de ações, e (2) adaptabilidade limitada a ambientes dinâmicos e interativos. Para abordar essas limitações, propomos o ZeroGUI, um framework escalável de aprendizado online para automatizar o treinamento de Agentes de GUI com custo humano Zero. Especificamente, o ZeroGUI integra (i) geração automática de tarefas baseada em VLM para produzir objetivos de treinamento diversos a partir do estado atual do ambiente, (ii) estimativa automática de recompensa baseada em VLM para avaliar o sucesso da tarefa sem funções de avaliação manuais, e (iii) aprendizado por reforço online em duas etapas para interagir e aprender continuamente com ambientes de GUI. Experimentos em dois Agentes de GUI avançados (UI-TARS e Aguvis) demonstram que o ZeroGUI melhora significativamente o desempenho nos ambientes OSWorld e AndroidLab. O código está disponível em https://github.com/OpenGVLab/ZeroGUI.
Modelos de linguagem baseados em difusão (Diffusion LLMs) têm mostrado potencial para geração de texto não autorregressiva com capacidades de decodificação paralela. No entanto, a velocidade prática de inferência dos Diffusion LLMs de código aberto frequentemente fica atrás dos modelos autorregressivos devido à falta de Cache de Chave-Valor (KV Cache) e à degradação de qualidade ao decodificar múltiplos tokens simultaneamente. Para preencher essa lacuna, introduzimos um novo mecanismo de Cache KV aproximado por blocos, projetado especificamente para modelos de difusão bidirecionais, permitindo a reutilização do cache com uma queda de desempenho insignificante. Além disso, identificamos a causa raiz da degradação da qualidade de geração na decodificação paralela como a interrupção das dependências entre tokens sob a suposição de independência condicional. Para resolver isso, propomos uma estratégia de decodificação paralela baseada em confiança que decodifica seletivamente tokens que excedem um limiar de confiança, mitigando violações de dependência e mantendo a qualidade da geração. Resultados experimentais nos modelos LLaDA e Dream em múltiplos benchmarks de LLMs demonstram uma melhoria de até 27,6 vezes na taxa de transferência com perda mínima de precisão, reduzindo a diferença de desempenho em relação aos modelos autorregressivos e abrindo caminho para a implantação prática de Diffusion LLMs.
Estudos recentes mostraram que o raciocínio em cadeia longa de pensamento (CoT, na sigla em inglês) pode melhorar significativamente o desempenho de grandes modelos de linguagem (LLMs, na sigla em inglês) em tarefas complexas. No entanto, esse benefício ainda não foi demonstrado no domínio de compreensão de vídeos, já que a maioria dos benchmarks existentes carece da profundidade de raciocínio necessária para evidenciar as vantagens de cadeias CoT estendidas. Embora esforços recentes tenham proposto benchmarks voltados para raciocínio em vídeos, as tarefas são frequentemente baseadas em conhecimento e não dependem fortemente do conteúdo visual. Para preencher essa lacuna, introduzimos o VideoReasonBench, um benchmark projetado para avaliar o raciocínio complexo e centrado na visão em vídeos. Para garantir riqueza visual e alta complexidade de raciocínio, cada vídeo no VideoReasonBench retrata uma sequência de operações detalhadas sobre um estado latente que só é visível em parte do vídeo. As perguntas avaliam três níveis crescentes de habilidades de raciocínio em vídeos: recordar informações visuais observadas, inferir o conteúdo de estados latentes e prever informações além do vídeo. Nesse cenário de tarefas, os modelos precisam recordar com precisão múltiplas operações no vídeo e realizar raciocínios passo a passo para obter respostas finais corretas para essas perguntas. Utilizando o VideoReasonBench, avaliamos de forma abrangente 18 modelos multimodais de última geração (MLLMs, na sigla em inglês), constatando que a maioria tem desempenho ruim em raciocínio complexo em vídeos, por exemplo, o GPT-4o alcança apenas 6,9% de precisão, enquanto o Gemini-2.5-Pro, aprimorado com pensamento, supera significativamente os outros com 56,0% de precisão. Nossas investigações sobre "escalonamento em tempo de teste" revelam ainda que um orçamento de pensamento estendido, embora ofereça benefícios nulos ou mínimos em benchmarks de vídeo existentes, é essencial para melhorar o desempenho no VideoReasonBench.
O Design Assistido por Computador (CAD) desempenha um papel central na engenharia e na manufatura, possibilitando a criação de modelos 3D precisos e editáveis. Utilizar uma variedade de dados provenientes de sensores ou fornecidos pelo usuário como entradas para a reconstrução CAD pode democratizar o acesso a aplicações de design. No entanto, os métodos existentes geralmente se concentram em uma única modalidade de entrada, como nuvens de pontos, imagens ou texto, o que limita sua generalização e robustez. Aproveitando os avanços recentes em modelos de visão e linguagem (VLM), propomos um modelo de reconstrução CAD multimodal que processa simultaneamente as três modalidades de entrada. Inspirados pelos paradigmas de treinamento de grandes modelos de linguagem (LLM), adotamos um pipeline de duas etapas: ajuste fino supervisionado (SFT) em dados gerados proceduralmente em grande escala, seguido por ajuste fino com aprendizado por reforço (RL) utilizando feedback online, obtido de forma programática. Além disso, somos os primeiros a explorar o ajuste fino com RL de LLMs para tarefas de CAD, demonstrando que algoritmos de RL online, como o Group Relative Preference Optimization (GRPO), superam alternativas offline. No benchmark DeepCAD, nosso modelo SFT supera as abordagens unimodais existentes em todas as três modalidades de entrada simultaneamente. Mais importante ainda, após o ajuste fino com RL, o cadrille estabelece novos recordes de estado da arte em três conjuntos de dados desafiadores, incluindo um do mundo real.
Este artigo apresenta o Diffusion via Autoregressive models (D-AR), um novo paradigma que reformula o processo de difusão de imagens como um procedimento autoregressivo padrão, seguindo a abordagem convencional de previsão do próximo token. Começamos projetando o tokenizer que converte imagens em sequências de tokens discretos, onde tokens em diferentes posições podem ser decodificados em diferentes etapas de remoção de ruído da difusão no espaço de pixels. Graças às propriedades da difusão, esses tokens seguem naturalmente uma ordem de grosseiro para refinado, o que se adapta diretamente à modelagem autoregressiva. Portanto, aplicamos a previsão padrão do próximo token sobre esses tokens, sem modificar nenhum dos projetos subjacentes (sejam máscaras causais ou estratégias de treinamento/inferência), e essa geração sequencial de tokens autoregressivos reflete diretamente o procedimento de difusão no espaço de imagens. Ou seja, uma vez que o modelo autoregressivo gera um incremento de tokens, podemos decodificar diretamente esses tokens na etapa correspondente de remoção de ruído da difusão de maneira contínua. Nossa pipeline revela naturalmente várias propriedades intrigantes, por exemplo, ela suporta visualizações consistentes ao gerar apenas um subconjunto de tokens e permite síntese controlada por layout zero-shot. No benchmark padrão do ImageNet, nosso método alcança 2.09 FID usando um backbone Llama de 775M com 256 tokens discretos. Esperamos que nosso trabalho possa inspirar pesquisas futuras sobre arquiteturas autoregressivas unificadas para síntese visual, especialmente com grandes modelos de linguagem. Código e modelos estarão disponíveis em https://github.com/showlab/D-AR.
Apresentamos o AnySplat, uma rede feed forward para síntese de novas visões a partir de coleções de imagens não calibradas. Em contraste com os pipelines tradicionais de renderização neural que exigem poses de câmera conhecidas e otimização por cena, ou métodos feed forward recentes que sucumbem ao peso computacional de visões densas, nosso modelo prevê tudo em uma única passagem. Um único passo forward produz um conjunto de primitivas 3D Gaussianas que codificam tanto a geometria quanto a aparência da cena, além das intrínsecas e extrínsecas da câmera para cada imagem de entrada. Esse design unificado escala facilmente para conjuntos de dados multiview capturados casualmente, sem qualquer anotação de pose. Em extensas avaliações zero shot, o AnySplat iguala a qualidade de baselines que utilizam poses, tanto em cenários de visões esparsas quanto densas, enquanto supera as abordagens existentes que não utilizam poses. Além disso, ele reduz significativamente a latência de renderização em comparação com campos neurais baseados em otimização, trazendo a síntese de novas visões em tempo real ao alcance para configurações de captura sem restrições. Página do projeto: https://city-super.github.io/anysplat/
Modelos de raciocínio de grande escala (LRMs) recentemente desenvolvidos demonstram um desempenho poderoso na resolução de tarefas complexas com capacidade de raciocínio em cadeia longa (CoT). Como esses LRMs são majoritariamente desenvolvidos por meio de pós-treinamento em tarefas de raciocínio formal, ainda não está claro e é motivo de debate se eles generalizam a capacidade de raciocínio para ajudar a reduzir alucinações em tarefas de busca de fatos. Por exemplo, o DeepSeek-R1 relata um aumento de desempenho no SimpleQA, um benchmark de busca de fatos, enquanto o OpenAI-o3 observa alucinações ainda mais severas. Essa discrepância naturalmente levanta a seguinte questão de pesquisa: Modelos de raciocínio são mais propensos a alucinações? Este artigo aborda a questão a partir de três perspectivas. (1) Primeiro, realizamos uma avaliação holística das alucinações em LRMs. Nossa análise revela que LRMs que passam por um pipeline completo de pós-treinamento com ajuste fino supervisionado (SFT) de início frio e RL de recompensa verificável geralmente reduzem suas alucinações. Em contraste, tanto a destilação isolada quanto o treinamento de RL sem ajuste fino de início frio introduzem alucinações mais sutis. (2) Para explorar por que diferentes pipelines de pós-treinamento alteram o impacto nas alucinações em LRMs, realizamos uma análise comportamental. Caracterizamos dois comportamentos cognitivos críticos que afetam diretamente a factualidade de um LRM: Repetição de Falhas, onde as tentativas de raciocínio superficial seguem repetidamente a mesma lógica subjacente falha, e Incompatibilidade Pensamento-Resposta, onde a resposta final não corresponde fielmente ao processo CoT anterior. (3) Além disso, investigamos o mecanismo por trás das alucinações dos LRMs sob a perspectiva da incerteza do modelo. Descobrimos que o aumento das alucinações dos LRMs geralmente está associado ao desalinhamento entre a incerteza do modelo e a precisão factual. Nosso trabalho fornece uma compreensão inicial das alucinações em LRMs.
Os Autoencoders Esparsos (SAEs) têm demonstrado um potencial significativo na interpretação dos estados ocultos de modelos de linguagem, decompondo-os em direções latentes interpretáveis. No entanto, o treinamento de SAEs em grande escala continua sendo um desafio, especialmente quando são usados tamanhos de dicionário grandes. Embora os decodificadores possam aproveitar kernels esparsos para eficiência, os codificadores ainda exigem operações lineares computacionalmente intensivas com grandes dimensões de saída. Para resolver isso, propomos o KronSAE, uma nova arquitetura que fatoriza a representação latente por meio da decomposição do produto de Kronecker, reduzindo drasticamente a sobrecarga de memória e computação. Além disso, introduzimos o mAND, uma função de ativação diferenciável que aproxima a operação binária AND, melhorando a interpretabilidade e o desempenho em nossa estrutura fatorizada.
Modelos de linguagem (LMs) apresentam bom desempenho em benchmarks padronizados de codificação, mas enfrentam dificuldades em tarefas reais de engenharia de software, como resolver problemas no GitHub no SWE-Bench, especialmente quando os parâmetros do modelo são inferiores a 100B. Embora modelos menores sejam preferíveis na prática devido ao seu menor custo computacional, melhorar seu desempenho continua sendo um desafio. As abordagens existentes dependem principalmente de ajuste fino supervisionado (SFT) com dados de alta qualidade, que são caros para serem curados em escala. Uma alternativa é o escalonamento em tempo de teste: gerar múltiplas saídas, pontuá-las usando um verificador e selecionar a melhor. Embora eficaz, essa estratégia geralmente requer amostragem excessiva e pontuação custosa, limitando sua aplicação prática. Propomos o Escalonamento Evolutivo em Tempo de Teste (EvoScale), um método eficiente em amostragem que trata a geração como um processo evolutivo. Ao refinar iterativamente as saídas por meio de seleção e mutação, o EvoScale desloca a distribuição de saída para regiões de maior pontuação, reduzindo o número de amostras necessárias para encontrar soluções corretas. Para reduzir a sobrecarga de amostragem e seleção repetidas, treinamos o modelo para evoluir autonomamente usando aprendizado por reforço (RL). Em vez de depender de verificadores externos no momento da inferência, o modelo aprende a auto-melhorar as pontuações de suas próprias gerações ao longo das iterações. Avaliado no SWE-Bench-Verified, o EvoScale permite que nosso modelo de 32B, Satori-SWE-32B, iguale ou supere o desempenho de modelos com mais de 100B de parâmetros, utilizando poucas amostras. Código, dados e modelos serão totalmente disponibilizados como código aberto.
Os Transformers foram estabelecidos como as arquiteturas mais populares para modelagem de sequências, principalmente devido à sua eficácia em tarefas de recuperação em contexto e à capacidade de aprendizado em larga escala. No entanto, sua complexidade quadrática em memória e tempo limita sua aplicabilidade em sequências mais longas, o que motivou pesquisadores a explorar arquiteturas alternativas eficazes, como redes neurais recorrentes modernas (também conhecidas como módulos de memória recorrente de longo prazo). Apesar de seu sucesso recente em diversas tarefas subsequentes, elas enfrentam dificuldades em tarefas que exigem compreensão de contexto longo e extrapolação para sequências mais extensas. Observamos que essas limitações decorrem de três aspectos distintos em seu design: (1) capacidade de memória limitada, restrita pela arquitetura da memória e mapeamento de características da entrada; (2) natureza online da atualização, ou seja, otimização da memória apenas em relação à última entrada; e (3) gerenciamento menos expressivo de sua memória de tamanho fixo. Para aprimorar esses três aspectos, apresentamos o ATLAS, um módulo de memória de longo prazo com alta capacidade que aprende a memorizar o contexto otimizando a memória com base nos tokens atuais e passados, superando a natureza online dos modelos de memória de longo prazo. Com base nessa ideia, apresentamos uma nova família de arquiteturas semelhantes aos Transformers, chamada DeepTransformers, que são generalizações estritas da arquitetura Transformer original. Nossos resultados experimentais em tarefas de modelagem de linguagem, raciocínio de senso comum, tarefas intensivas em recuperação e compreensão de contexto longo mostram que o ATLAS supera o desempenho dos Transformers e dos modelos recorrentes lineares recentes. O ATLAS ainda melhora o desempenho de contexto longo dos Titans, alcançando +80% de precisão no benchmark BABILong com comprimento de contexto de 10M.
Modelos de linguagem multimodal unificados, como Show-o e Janus, alcançaram um desempenho robusto tanto em tarefas de geração quanto de compreensão. No entanto, esses modelos geralmente dependem de conjuntos de dados em grande escala e exigem um poder computacional substancial durante a etapa de pré-treinamento. Além disso, vários métodos de pós-treinamento foram propostos, mas frequentemente dependem de dados externos ou são limitados à personalização específica de tarefas. Neste trabalho, apresentamos o UniRL, uma abordagem de pós-treinamento de autoaperfeiçoamento. Nossa abordagem permite que o modelo gere imagens a partir de prompts e as utilize como dados de treinamento em cada iteração, sem depender de nenhum dado de imagem externo. Além disso, ela possibilita que as duas tarefas se aprimorem mutuamente: as imagens geradas são usadas para compreensão, e os resultados da compreensão são usados para supervisionar a geração. Exploramos o ajuste fino supervisionado (SFT) e a Otimização de Política Relativa em Grupo (GRPO) para otimizar os modelos. O UniRL oferece três vantagens principais: (1) não requer dados de imagem externos, pois todas as amostras de treinamento são geradas pelo próprio modelo durante o treinamento; (2) não apenas melhora o desempenho individual das tarefas, mas também reduz o desequilíbrio entre geração e compreensão; e (3) requer apenas algumas etapas adicionais de treinamento durante a fase de pós-treinamento. Avaliamos o UniRL sobre os modelos Show-o e Janus, alcançando uma pontuação GenEval de 0,77 para o Show-o e 0,65 para o Janus. O código e os modelos serão disponibilizados em https://github.com/showlab/UniRL.
Apresentamos o LoRAShop, o primeiro framework para edição de imagens com múltiplos conceitos utilizando modelos LoRA. O LoRAShop se baseia em uma observação crucial sobre os padrões de interação de recursos dentro de transformadores de difusão no estilo Flux: os recursos específicos de cada conceito ativam regiões espacialmente coerentes no início do processo de remoção de ruído. Aproveitamos essa observação para derivar uma máscara latente desacoplada para cada conceito em uma passagem direta preliminar e combinamos os pesos LoRA correspondentes apenas nas regiões que delimitam os conceitos a serem personalizados. As edições resultantes integram perfeitamente múltiplos sujeitos ou estilos na cena original, preservando o contexto global, a iluminação e os detalhes finos. Nossos experimentos demonstram que o LoRAShop oferece uma melhor preservação de identidade em comparação com as abordagens de referência. Ao eliminar a necessidade de retreinamento e restrições externas, o LoRAShop transforma modelos de difusão personalizados em uma ferramenta prática de "photoshop-com-LoRAs" e abre novas possibilidades para narrativas visuais composicionais e iteração criativa rápida.
A tarefa de resolução de problemas, na qual um modelo gera patches para corrigir bugs do mundo real, emergiu como um benchmark crítico para avaliar as capacidades de modelos de linguagem de grande escala (LLMs). Embora o SWE-bench e suas variantes tenham se tornado padrão nesse domínio, eles sofrem de limitações importantes: não foram atualizados desde seus lançamentos iniciais, cobrem um conjunto restrito de repositórios e dependem fortemente de esforço manual para a construção de instâncias e configuração do ambiente. Esses fatores prejudicam a escalabilidade e introduzem riscos de sobreajuste e contaminação de dados. Neste trabalho, apresentamos o SWE-bench-Live, um benchmark atualizável em tempo real projetado para superar esses desafios. Nossa versão inicial consiste em 1.319 tarefas derivadas de problemas reais do GitHub criados desde 2024, abrangendo 93 repositórios. Cada tarefa é acompanhada por uma imagem Docker dedicada para garantir execução reproduzível. Central ao nosso benchmark é o \method, um pipeline de curadoria automatizado que simplifica todo o processo, desde a criação de instâncias até a configuração do ambiente, eliminando gargalos manuais e permitindo escalabilidade e atualizações contínuas. Avaliamos uma variedade de frameworks de agentes e LLMs de ponta no SWE-bench-Live, revelando uma lacuna substancial de desempenho em comparação com benchmarks estáticos como o SWE-bench, mesmo sob condições de avaliação controladas. Para entender melhor essa discrepância, realizamos análises detalhadas em relação à origem do repositório, à recenticidade do problema e à dificuldade da tarefa. Ao fornecer um benchmark fresco, diversificado e executável, baseado na atividade em tempo real de repositórios, o SWE-bench-Live facilita uma avaliação rigorosa e resistente à contaminação de LLMs e agentes em cenários dinâmicos e reais de desenvolvimento de software.
Mecanismos de preferência, como preferência humana, LLM-como-Juiz (LaaJ) e modelos de recompensa, são centrais para alinhar e avaliar modelos de linguagem de grande escala (LLMs). No entanto, os conceitos subjacentes que impulsionam essas preferências permanecem pouco compreendidos. Neste trabalho, propomos um método totalmente automatizado para gerar explicações baseadas em conceitos locais e globais de preferências em múltiplos domínios. Nosso método utiliza um LLM para identificar conceitos que distinguem entre respostas escolhidas e rejeitadas, e para representá-los com vetores baseados em conceitos. Para modelar as relações entre conceitos e preferências, propomos um modelo de Regressão Hierárquica Multi-Domínio de caixa branca que captura tanto efeitos gerais quanto específicos de domínio. Para avaliar nosso método, compilamos um conjunto de dados abrangendo oito domínios desafiadores e diversos e explicamos doze mecanismos. Nosso método alcança um forte desempenho na previsão de preferências, superando as linhas de base enquanto também é explicável. Além disso, avaliamos as explicações em dois cenários orientados por aplicações. Primeiro, guiar as saídas de LLMs com conceitos de explicações LaaJ produz respostas que esses juízes consistentemente preferem. Segundo, solicitar LaaJs com conceitos que explicam humanos melhora suas previsões de preferência. Juntos, nosso trabalho estabelece um novo paradigma para explicabilidade na era dos LLMs.
Textos visuais incorporados em vídeos carregam informações semânticas ricas, que são cruciais tanto para a compreensão holística de vídeos quanto para o raciocínio detalhado sobre ações humanas locais. No entanto, os benchmarks existentes para compreensão de vídeos em grande parte ignoram informações textuais, enquanto benchmarks específicos para OCR (Reconhecimento Óptico de Caracteres) são limitados a imagens estáticas, restringindo sua capacidade de capturar a interação entre texto e contextos visuais dinâmicos. Para abordar essa lacuna, propomos o VidText, um novo benchmark projetado para avaliação abrangente e aprofundada da compreensão de texto em vídeos. O VidText oferece as seguintes características principais: 1) Abrange uma ampla gama de cenários do mundo real e suporta conteúdo multilíngue, englobando diversos contextos onde o texto em vídeo aparece naturalmente. 2) Introduz uma estrutura de avaliação hierárquica com tarefas em nível de vídeo, clipe e instância, permitindo a avaliação tanto de capacidades de sumarização global quanto de recuperação local. 3) O benchmark também apresenta um conjunto de tarefas emparelhadas de percepção e raciocínio, variando desde a percepção de texto visual até o raciocínio multimodal entre informações textuais e visuais. Experimentos extensivos com 18 Modelos Multimodais de Grande Escala (LMMs) de última geração revelam que os modelos atuais enfrentam dificuldades na maioria das tarefas, com espaço significativo para melhoria. Análises adicionais destacam o impacto tanto de fatores intrínsecos aos modelos, como resolução de entrada e capacidade de OCR, quanto de fatores externos, incluindo o uso de informações auxiliares e estratégias de raciocínio em cadeia (Chain-of-Thought). Esperamos que o VidText preencha a lacuna atual nos benchmarks de compreensão de vídeos e sirva como base para pesquisas futuras sobre raciocínio multimodal com texto em vídeos em ambientes dinâmicos.
O desenvolvimento de modelos fundamentais de fala (SFMs, na sigla em inglês), como Whisper e SeamlessM4T, avançou significativamente o campo do processamento de fala. No entanto, sua natureza fechada—com dados e códigos de treinamento inacessíveis—apresenta grandes desafios de reprodutibilidade e avaliação justa. Enquanto outros domínios fizeram progressos substanciais em direção à ciência aberta, desenvolvendo modelos totalmente transparentes treinados com códigos e dados de código aberto (OS, na sigla em inglês), esforços semelhantes no campo da fala ainda são limitados. Para preencher essa lacuna, introduzimos o FAMA, a primeira família de SFMs de ciência aberta para inglês e italiano, treinada com mais de 150 mil horas de dados de fala de código aberto. Além disso, apresentamos um novo conjunto de dados contendo 16 mil horas de fala limpa e pseudo-rotulada para ambos os idiomas. Os resultados mostram que o FAMA alcança desempenho competitivo em comparação com SFMs existentes, sendo até 8 vezes mais rápido. Todos os artefatos, incluindo códigos, conjuntos de dados e modelos, são disponibilizados sob licenças compatíveis com código aberto, promovendo a abertura na pesquisa de tecnologia de fala.
O raciocínio de segurança é um paradigma recente no qual os LLMs (Large Language Models) raciocinam sobre políticas de segurança antes de gerar respostas, mitigando assim limitações nas medidas de segurança existentes, como a recusa excessiva e vulnerabilidades de jailbreak. No entanto, implementar esse paradigma é desafiador devido ao processo intensivo de recursos necessário para criar conjuntos de dados de cadeia de pensamento (CoT) de alta qualidade embutidos em políticas, garantindo que o raciocínio permaneça preciso e livre de alucinações ou conflitos de políticas. Para enfrentar esse desafio, propomos o AIDSAFE: Deliberação Iterativa Agente para Raciocínio de Segurança, uma nova abordagem de geração de dados que aproveita a deliberação multiagente para expandir iterativamente o raciocínio sobre políticas de segurança. Um estágio de refinamento de dados no AIDSAFE garante saídas de alta qualidade, eliminando pensamentos repetitivos, redundantes e enganosos. Os CoTs gerados pelo AIDSAFE fornecem uma base sólida para o treinamento de segurança baseado em ajuste fino supervisionado (SFT). Além disso, para atender à necessidade de dados de preferência em etapas de alinhamento, como o treinamento DPO, introduzimos uma abordagem complementar que usa a ampliação de crenças para criar amostras distintas de CoTs selecionados e rejeitados. Nossas avaliações demonstram que os CoTs gerados pelo AIDSAFE alcançam aderência superior às políticas e qualidade de raciocínio. Consequentemente, mostramos que o ajuste fino de LLMs de código aberto nesses CoTs pode melhorar significativamente a generalização de segurança e a robustez contra jailbreaks, mantendo uma utilidade aceitável e precisão na recusa excessiva. Os conjuntos de dados de CoTs gerados pelo AIDSAFE podem ser encontrados aqui: https://huggingface.co/datasets/AmazonScience/AIDSAFE.
A ênfase da frase refere-se ao destaque colocado em palavras específicas dentro de uma expressão falada para ressaltar ou contrastar uma ideia, ou para introduzir novas informações. Frequentemente, é usada para implicar uma intenção subjacente que não é explicitamente declarada. Avanços recentes em modelos de linguagem com consciência de fala (SLMs, do inglês Speech-aware Language Models) permitiram o processamento direto de áudio, possibilitando que os modelos ignorem a transcrição e acessem toda a riqueza do sinal de fala, além de realizar tarefas de raciocínio em áudio, como a resposta a perguntas faladas. Apesar do papel crucial da ênfase da frase na formação do significado e da intenção do falante, ela permanece amplamente negligenciada na avaliação e no desenvolvimento desses modelos. Neste trabalho, abordamos essa lacuna ao introduzir o StressTest, um benchmark projetado especificamente para avaliar a capacidade de um modelo de distinguir entre interpretações de frases faladas com base no padrão de ênfase. Avaliamos o desempenho de vários SLMs líderes e constatamos que, apesar de suas capacidades gerais, eles têm um desempenho ruim nessas tarefas. Para superar essa limitação, propomos um novo pipeline de geração de dados sintéticos e criamos o Stress17k, um conjunto de treinamento que simula a mudança de significado implícita pela variação de ênfase. Em seguida, mostramos empiricamente que a otimização de modelos com esse conjunto de dados sintéticos se alinha bem com gravações do mundo real e permite um ajuste fino eficaz dos SLMs. Os resultados sugerem que nosso modelo ajustado, o StresSLM, supera significativamente os modelos existentes em tarefas de raciocínio e detecção de ênfase da frase. Código, modelos, dados e amostras de áudio estão disponíveis em: pages.cs.huji.ac.il/adiyoss-lab/stresstest.
Modelos de sequência, como os transformadores, exigem que as entradas sejam representadas como sequências unidimensionais. Na visão computacional, isso geralmente envolve o achatamento de imagens usando uma ordem fixa de varredura por linhas (raster-scan). Embora a auto-atenção completa seja permutação-equivariante, os transformadores modernos para sequências longas dependem cada vez mais de aproximações arquitetônicas que quebram essa invariância e introduzem sensibilidade à ordem dos patches. Mostramos que a ordem dos patches afeta significativamente o desempenho do modelo nesses cenários, com alternativas simples, como a ordem de varredura por colunas ou curvas de Hilbert, resultando em mudanças notáveis na precisão. Motivados por isso, propomos o REOrder, uma estrutura de duas etapas para descobrir ordens de patches otimizadas para a tarefa. Primeiro, derivamos um prior teórico da informação avaliando a compressibilidade de várias sequências de patches. Em seguida, aprendemos uma política sobre permutações otimizando uma política de Plackett-Luce usando REINFORCE. Essa abordagem permite um aprendizado eficiente em um espaço combinatório de permutações. O REOrder melhora a acurácia top-1 em relação à ordem de varredura por linhas no ImageNet-1K em até 3,01% e no Functional Map of the World em 13,35%.
A prova de teoremas serve como um importante campo de testes para avaliar habilidades de raciocínio complexo em modelos de linguagem de grande escala (LLMs). No entanto, as abordagens tradicionais de prova automática de teoremas (ATP) dependem fortemente de sistemas formais de prova que se alinham mal com as forças dos LLMs, derivadas do conhecimento informal em linguagem natural adquirido durante o pré-treinamento. Neste trabalho, propomos o DeepTheorem, um framework abrangente de prova informal de teoremas que explora a linguagem natural para aprimorar o raciocínio matemático dos LLMs. O DeepTheorem inclui um conjunto de dados de referência em larga escala, composto por 121 mil teoremas e provas informais de nível IMO, abrangendo diversos domínios matemáticos, rigorosamente anotados quanto à correção, dificuldade e categorias temáticas, acompanhados por variantes de teoremas verificáveis construídas sistematicamente. Desenvolvemos uma nova estratégia de aprendizado por reforço (RL-Zero) especificamente adaptada para a prova informal de teoremas, aproveitando as variantes verificadas para incentivar inferências matemáticas robustas. Além disso, propomos métricas abrangentes de avaliação de resultados e processos, examinando a correção das provas e a qualidade das etapas de raciocínio. Análises experimentais extensivas demonstram que o DeepTheorem melhora significativamente o desempenho dos LLMs na prova de teoremas em comparação com conjuntos de dados existentes e protocolos de ajuste fino supervisionado, alcançando precisão e qualidade de raciocínio de ponta. Nossos resultados destacam o potencial do DeepTheorem para avançar fundamentalmente a prova automática informal de teoremas e a exploração matemática.
Modelos unificados de geração visam lidar com diversas tarefas entre modalidades -- como geração de texto, geração de imagens e raciocínio visão-linguagem -- dentro de uma única arquitetura e paradigma de decodificação. Modelos unificados autoregressivos sofrem com inferência lenta devido à decodificação sequencial, e modelos unificados não autoregressivos sofrem com generalização fraca devido a backbones pré-treinados limitados. Apresentamos o Muddit, um transformer de difusão discreta unificado que permite geração rápida e paralela em ambas as modalidades de texto e imagem. Diferente de modelos de difusão unificados anteriores treinados do zero, o Muddit integra fortes prioris visuais de um backbone pré-treinado de texto para imagem com um decodificador de texto leve, permitindo geração multimodal flexível e de alta qualidade sob uma arquitetura unificada. Resultados empíricos mostram que o Muddit alcança desempenho competitivo ou superior em comparação a modelos autoregressivos significativamente maiores, tanto em qualidade quanto em eficiência. O trabalho destaca o potencial da difusão puramente discreta, quando equipada com fortes prioris visuais, como um backbone escalável e eficaz para geração unificada.
Os algoritmos de aprendizado por reforço são fundamentais para alinhar grandes modelos de linguagem com as preferências humanas e aprimorar suas capacidades de raciocínio. No entanto, os algoritmos atuais de aprendizado por reforço frequentemente sofrem com instabilidade no treinamento devido a restrições de política (on-policy) pouco rigorosas e ineficiência computacional causada por modelos auxiliares. Neste trabalho, propomos o On-Policy RL com Linha de Base de Recompensa Ótima (OPO), um algoritmo de aprendizado por reforço novo e simplificado, projetado para abordar esses desafios. O OPO enfatiza a importância do treinamento exato de política, o que empiricamente estabiliza o processo de treinamento e melhora a exploração. Além disso, o OPO introduz a linha de base de recompensa ótima, que teoricamente minimiza a variância do gradiente. Avaliamos o OPO em benchmarks de raciocínio matemático. Os resultados demonstram seu desempenho superior e estabilidade no treinamento sem a necessidade de modelos adicionais ou termos de regularização. Além disso, o OPO alcança menores mudanças de política e maior entropia de saída, incentivando respostas mais diversas e menos repetitivas. Esses resultados destacam o OPO como uma direção promissora para o aprendizado por reforço estável e eficaz no alinhamento de grandes modelos de linguagem e tarefas de raciocínio. A implementação está disponível em https://github.com/microsoft/LMOps/tree/main/opo.
Os modelos de difusão demonstraram uma qualidade de geração notável, mas ao custo de inúmeras avaliações de função. Recentemente, solucionadores avançados baseados em EDOs foram desenvolvidos para mitigar as demandas computacionais substanciais da resolução de difusão reversa com um número limitado de passos de amostragem. No entanto, esses solucionadores, fortemente inspirados em métodos multistep do tipo Adams, dependem exclusivamente da interpolação de Lagrange relacionada a t. Mostramos que a interpolação de Lagrange relacionada a t é subótima para modelos de difusão e revelamos um espaço de busca compacto composto por passos de tempo e coeficientes do solucionador. Com base em nossa análise, propomos um novo algoritmo de busca de solucionador diferenciável para identificar um solucionador mais ótimo. Equipados com o solucionador encontrado, modelos de fluxo retificado, como SiT-XL/2 e FlowDCN-XL/2, alcançam pontuações FID de 2,40 e 2,35, respectivamente, no ImageNet256 com apenas 10 passos. Enquanto isso, o modelo DDPM, DiT-XL/2, atinge uma pontuação FID de 2,33 com apenas 10 passos. Notavelmente, nosso solucionador encontrado supera os solucionadores tradicionais por uma margem significativa. Além disso, nosso solucionador encontrado demonstra generalidade em várias arquiteturas de modelo, resoluções e tamanhos de modelo.
O raciocínio em cadeia de pensamento (Chain-of-thought, CoT) permite que grandes modelos de linguagem (LLMs) vão além das respostas rápidas do Sistema 1 e se envolvam em raciocínios deliberativos do Sistema 2. No entanto, isso ocorre com o custo de uma ineficiência significativa devido à saída intermediária verbosa. Métodos recentes de raciocínio no espaço latente melhoram a eficiência ao operar em estados ocultos sem decodificação em linguagem, mas tratam todas as etapas de forma uniforme, falhando em distinguir deduções críticas de etapas auxiliares, resultando em um uso subótimo de recursos computacionais. Neste artigo, propomos o Raciocínio do Sistema 1.5, um framework de raciocínio adaptativo que aloca dinamicamente a computação entre as etapas de raciocínio por meio de caminhos curtos no espaço latente. Especificamente, o Raciocínio do Sistema 1.5 introduz dois tipos de atalhos dinâmicos. O atalho de profundidade do modelo (DS) raciocina adaptativamente ao longo da profundidade vertical, saindo precocemente de tokens não críticos por meio de ramificações leves de adaptação, enquanto permite que tokens críticos continuem por camadas mais profundas do Transformer. O atalho de etapa (SS) reutiliza estados ocultos entre as etapas de decodificação para pular etapas triviais e raciocinar horizontalmente no espaço latente. O treinamento do Raciocínio do Sistema 1.5 envolve um processo de auto-distilação em duas etapas: primeiro, destilando o CoT em linguagem natural para pensamento contínuo no espaço latente, e depois destilando o raciocínio latente do Sistema 2 de caminho completo em caminhos curtos adaptativos (Raciocínio do Sistema 1.5). Experimentos em tarefas de raciocínio demonstram o desempenho superior do nosso método. Por exemplo, no GSM8K, o Raciocínio do Sistema 1.5 alcança desempenho de raciocínio comparável aos métodos tradicionais de ajuste fino com CoT, enquanto acelera a inferência em mais de 20x e reduz a geração de tokens em 92,31% em média.
Modelos de linguagem grandes (LLMs) baseados em Transformers armazenam contexto como pares chave-valor (KV) durante a inferência. À medida que o comprimento do contexto aumenta, os tamanhos do cache KV se expandem, resultando em sobrecarga significativa de memória e aumento da latência de atenção. Este artigo apresenta o KVzip, um método de evicção de cache KV agnóstico a consultas que permite a reutilização eficaz de caches KV comprimidos em diversas consultas. O KVzip quantifica a importância de um par KV usando o LLM subjacente para reconstruir contextos originais a partir de pares KV armazenados em cache, subsequentemente removendo pares com menor importância. Avaliações empíricas extensas demonstram que o KVzip reduz o tamanho do cache KV em 3-4 vezes e a latência de decodificação do FlashAttention em aproximadamente 2 vezes, com perda de desempenho insignificante em tarefas de resposta a perguntas, recuperação, raciocínio e compreensão de código. As avaliações incluem vários modelos, como LLaMA3.1-8B, Qwen2.5-14B e Gemma3-12B, com comprimentos de contexto atingindo até 170 mil tokens. O KVzip supera significativamente os métodos existentes de evicção KV cientes de consultas, que sofrem degradação de desempenho mesmo com uma taxa de orçamento de cache de 90% em cenários de múltiplas consultas.
Os recentes avanços em agentes de modelos de linguagem de grande escala (LLM) aceleraram significativamente a automação da descoberta científica, mas também levantaram preocupações críticas de ética e segurança. Para abordar sistematicamente esses desafios, apresentamos o SafeScientist, uma estrutura inovadora de cientista de IA projetada explicitamente para aprimorar a segurança e a responsabilidade ética na exploração científica impulsionada por IA. O SafeScientist recusa proativamente tarefas eticamente inadequadas ou de alto risco e enfatiza rigorosamente a segurança ao longo do processo de pesquisa. Para alcançar uma supervisão abrangente de segurança, integramos múltiplos mecanismos defensivos, incluindo monitoramento de prompts, monitoramento de colaboração entre agentes, monitoramento do uso de ferramentas e um componente de revisor ético. Complementando o SafeScientist, propomos o SciSafetyBench, um novo benchmark especificamente projetado para avaliar a segurança de IA em contextos científicos, composto por 240 tarefas científicas de alto risco em 6 domínios, juntamente com 30 ferramentas científicas especialmente projetadas e 120 tarefas de risco relacionadas a ferramentas. Experimentos extensivos demonstram que o SafeScientist melhora significativamente o desempenho de segurança em 35\% em comparação com estruturas tradicionais de cientista de IA, sem comprometer a qualidade da produção científica. Além disso, validamos rigorosamente a robustez de nosso pipeline de segurança contra diversos métodos de ataque adversário, confirmando ainda mais a eficácia de nossa abordagem integrada. O código e os dados estarão disponíveis em https://github.com/ulab-uiuc/SafeScientist. **Aviso: este artigo contém dados de exemplo que podem ser ofensivos ou prejudiciais.**
Os benchmarks existentes para compreensão de vídeo frequentemente misturam perguntas baseadas em conhecimento e perguntas puramente baseadas em imagem, em vez de isolar claramente a capacidade de raciocínio temporal de um modelo, que é o aspecto fundamental que distingue a compreensão de vídeo de outras modalidades. Identificamos duas grandes limitações que obscurecem se pontuações mais altas realmente indicam uma compreensão mais forte do conteúdo dinâmico em vídeos: (1) fortes vieses linguísticos, onde os modelos podem responder perguntas sem assistir ao vídeo; e (2) invariância à permutação, onde os modelos mantêm desempenho semelhante em certas perguntas mesmo quando os frames do vídeo são temporalmente embaralhados. Para mitigar esses problemas, propomos o VBenchComp, um pipeline automatizado que categoriza as perguntas em diferentes domínios: LLM-Answerable (Respondíveis por LLM), Semânticas e Temporais. Especificamente, perguntas LLM-Answerable podem ser respondidas sem visualizar o vídeo; perguntas Semânticas permanecem respondíveis mesmo quando os frames do vídeo são embaralhados; e perguntas Temporais exigem a compreensão da ordem temporal correta dos frames. As demais perguntas são rotuladas como Outras. Isso pode permitir uma avaliação refinada das diferentes capacidades de um LLM de vídeo. Nossa análise revela nuances de fraquezas dos modelos que são ocultadas pelas pontuações gerais tradicionais, e oferecemos insights e recomendações para projetar benchmarks futuros que avaliem com mais precisão os LLMs de vídeo.
Os recentes avanços em modelos de mundo revolucionaram a simulação de ambientes dinâmicos, permitindo que os sistemas prevejam estados futuros e avaliem ações potenciais. Na condução autônoma, essas capacidades ajudam os veículos a antecipar o comportamento de outros usuários da via, realizar planejamento consciente de riscos, acelerar o treinamento em simulação e se adaptar a cenários novos, aumentando assim a segurança e a confiabilidade. As abordagens atuais apresentam deficiências em manter uma consistência geométrica 3D robusta ou em acumular artefatos durante o tratamento de oclusões, ambos críticos para uma avaliação confiável de segurança em tarefas de navegação autônoma. Para resolver isso, introduzimos o GeoDrive, que integra explicitamente condições robustas de geometria 3D em modelos de mundo de condução para aprimorar a compreensão espacial e a controlabilidade das ações. Especificamente, primeiro extraímos uma representação 3D do quadro de entrada e, em seguida, obtemos sua renderização 2D com base na trajetória especificada pelo usuário para o carro ego. Para habilitar a modelagem dinâmica, propomos um módulo de edição dinâmica durante o treinamento para aprimorar as renderizações editando as posições dos veículos. Experimentos extensivos demonstram que nosso método supera significativamente os modelos existentes tanto na precisão das ações quanto na consciência espacial 3D, resultando em uma modelagem de cena mais realista, adaptável e confiável para uma condução autônoma mais segura. Além disso, nosso modelo pode generalizar para novas trajetórias e oferece capacidades interativas de edição de cena, como edição de objetos e controle de trajetória de objetos.
Consultas médico-paciente exigem comunicação multi-turn e consciente do contexto, adaptada a diversas personas de pacientes. Treinar ou avaliar LLMs médicos nesses cenários requer sistemas de interação com pacientes realistas. No entanto, simuladores existentes frequentemente falham em refletir a ampla gama de personas observadas na prática clínica. Para abordar isso, introduzimos o PatientSim, um simulador de pacientes que gera personas realistas e diversas para cenários clínicos, fundamentado em expertise médica. O PatientSim opera utilizando: 1) perfis clínicos, incluindo sintomas e histórico médico, derivados de dados do mundo real dos conjuntos MIMIC-ED e MIMIC-IV, e 2) personas definidas por quatro eixos: personalidade, proficiência linguística, nível de recordação do histórico médico e nível de confusão cognitiva, resultando em 37 combinações únicas. Avaliamos oito LLMs quanto à precisão factual e consistência de persona. O modelo de código aberto com melhor desempenho, Llama 3.3, foi validado por quatro clínicos para confirmar a robustez de nossa estrutura. Como uma plataforma de código aberto e personalizável, o PatientSim oferece uma solução reproduzível e escalável que pode ser adaptada para necessidades específicas de treinamento. Proporcionando um ambiente em conformidade com a privacidade, ele serve como um testbed robusto para avaliar sistemas de diálogo médico em diversas apresentações de pacientes e mostra potencial como uma ferramenta educacional para a área da saúde.
A geração de vídeos tem feito avanços substanciais com o surgimento de modelos generativos profundos, especialmente abordagens baseadas em difusão. No entanto, a geração de vídeos com base em múltiplos sujeitos de referência ainda enfrenta desafios significativos em manter a consistência de múltiplos sujeitos e garantir alta qualidade de geração. Neste artigo, propomos o MAGREF, um framework unificado para geração de vídeos com qualquer referência, que introduz orientação mascarada para permitir a síntese coerente de vídeos com múltiplos sujeitos condicionada a diversas imagens de referência e um prompt textual. Especificamente, propomos (1) um mecanismo de mascaramento dinâmico consciente da região que permite que um único modelo lide de forma flexível com várias inferências de sujeitos, incluindo humanos, objetos e fundos, sem alterações arquitetônicas, e (2) um mecanismo de concatenação de canais pixel a pixel que opera na dimensão do canal para preservar melhor as características de aparência. Nosso modelo oferece qualidade de geração de vídeos de última geração, generalizando de treinamento com um único sujeito para cenários complexos com múltiplos sujeitos, com síntese coerente e controle preciso sobre os sujeitos individuais, superando as linhas de base de código aberto e comerciais existentes. Para facilitar a avaliação, também introduzimos um benchmark abrangente de vídeos com múltiplos sujeitos. Experimentos extensivos demonstram a eficácia da nossa abordagem, abrindo caminho para a síntese de vídeos com múltiplos sujeitos escalável, controlável e de alta fidelidade. O código e o modelo podem ser encontrados em: https://github.com/MAGREF-Video/MAGREF
Modelos de linguagem de grande escala (LLMs) têm demonstrado um potencial promissor em persuasão, mas os trabalhos existentes sobre o treinamento de persuasores baseados em LLMs ainda são preliminares. Notavelmente, enquanto os humanos são habilidosos em modelar proativamente e dinamicamente os pensamentos e opiniões de seus oponentes, os LLMs atuais lutam com esse tipo de raciocínio de Teoria da Mente (ToM), resultando em diversidade limitada e consciência do oponente. Para abordar essa limitação, introduzimos o Persuader Aumentado por Teoria da Mente (ToMAP), uma abordagem inovadora para construir agentes persuasores mais flexíveis, incorporando dois módulos de teoria da mente que aprimoram a consciência e a análise do estado mental do oponente. Especificamente, começamos solicitando que o persuasor considere possíveis objeções à afirmação central alvo e, em seguida, usamos um codificador de texto emparelhado com um classificador MLP treinado para prever a posição atual do oponente em relação a essas contra-argumentações. Nosso esquema de aprendizado por reforço cuidadosamente projetado permite que o persuasor aprenda a analisar informações relacionadas ao oponente e as utilize para gerar argumentos mais eficazes. Experimentos mostram que o persuasor ToMAP, embora contenha apenas 3 bilhões de parâmetros, supera baselines muito maiores, como o GPT-4, com um ganho relativo de 39,4% em vários modelos de persuasão e corpora diversos. Notavelmente, o ToMAP exibe cadeias de raciocínio complexas e repetição reduzida durante o treinamento, o que leva a argumentos mais diversos e eficazes. A característica de consciência do oponente do ToMAP também o torna adequado para conversas longas e permite que ele empregue estratégias mais lógicas e conscientes do oponente. Esses resultados destacam a eficácia do nosso método e seu potencial para desenvolver agentes de linguagem mais persuasivos. O código está disponível em: https://github.com/ulab-uiuc/ToMAP.
Modelos de Linguagem de Grande Escala (LLMs) geram soluções funcionalmente corretas, mas frequentemente ficam aquém em termos de eficiência de código, um gargalo crítico para implantação no mundo real. Neste artigo, introduzimos uma nova estrutura de otimização iterativa em tempo de teste para abordar esse problema, empregando um sistema de circuito fechado onde os LLMs refinam iterativamente o código com base em feedback de desempenho empírico de um ambiente de execução sandbox. Exploramos três estratégias de treinamento: Ajuste Fino Supervisionado (SFT), Otimização de Preferência Direta (DPO) e Otimização de Política Relativa em Grupo (GRPO). Experimentos em nosso conjunto de dados Venus e no benchmark APPS mostram que SFT e DPO rapidamente atingem saturação em ganhos de eficiência. Em contraste, GRPO, usando aprendizado por reforço (RL) com feedback de execução, otimiza continuamente o desempenho do código, aumentando significativamente tanto o pass@1 (de 47% para 62%) quanto a probabilidade de superar submissões humanas em eficiência (de 31% para 45%). Nosso trabalho demonstra uma melhoria eficaz na eficiência de código em tempo de teste e revela criticamente o poder do RL em ensinar LLMs a verdadeiramente auto-aprimorar a eficiência do código.
Os avanços recentes em Modelos de Grande Escala de Visão e Linguagem (LVLMs, na sigla em inglês) têm possibilitado aplicações promissoras em tarefas médicas, como a geração de relatórios e a resposta a perguntas visuais. No entanto, os benchmarks existentes focam principalmente na resposta diagnóstica final, oferecendo insights limitados sobre se os modelos realizam raciocínios clinicamente significativos. Para abordar essa lacuna, apresentamos o CheXStruct e o CXReasonBench, um pipeline estruturado e um benchmark construídos com base no conjunto de dados MIMIC-CXR-JPG, disponível publicamente. O CheXStruct deriva automaticamente uma sequência de etapas intermediárias de raciocínio diretamente a partir de radiografias de tórax, como a segmentação de regiões anatômicas, a identificação de marcos anatômicos e medições diagnósticas, o cálculo de índices diagnósticos e a aplicação de limiares clínicos. O CXReasonBench utiliza esse pipeline para avaliar se os modelos são capazes de realizar etapas de raciocínio clinicamente válidas e até que ponto podem aprender com orientações estruturadas, permitindo uma avaliação detalhada e transparente do raciocínio diagnóstico. O benchmark compreende 18.988 pares de perguntas e respostas em 12 tarefas diagnósticas e 1.200 casos, cada um associado a até 4 entradas visuais, e suporta avaliações multipasso e multietapa, incluindo o enraizamento visual por meio da seleção de regiões anatômicas e medições diagnósticas. Mesmo os mais robustos entre os 10 LVLMs avaliados enfrentam dificuldades com o raciocínio estruturado e a generalização, frequentemente falhando em conectar conhecimento abstrato com interpretações visualmente fundamentadas na anatomia. O código está disponível em https://github.com/ttumyche/CXReasonBench.
Neste artigo, unificamos mais de 10 abordagens existentes de destilação de difusão em uma única etapa, como Diff-Instruct, DMD, SIM, SiD, f-distill, etc., dentro de uma estrutura teórica que denominamos \emph{Uni-Instruct}. O Uni-Instruct é motivado pela nossa teoria proposta de expansão de difusão da família de divergência f. Em seguida, introduzimos teorias-chave que superam o problema de intratabilidade da divergência f expandida original, resultando em uma função de perda equivalente e tratável que treina efetivamente modelos de difusão em uma única etapa, minimizando a família de divergência f expandida. A nova unificação introduzida pelo Uni-Instruct não apenas oferece contribuições teóricas que ajudam a entender as abordagens existentes de uma perspectiva de alto nível, mas também leva a desempenhos de geração de difusão em uma única etapa de última geração. No benchmark de geração CIFAR10, o Uni-Instruct alcança valores recordes de Distância de Fréchet Inception (FID) de \emph{1,46} para geração incondicional e \emph{1,38} para geração condicional. No benchmark de geração ImageNet-64x64, o Uni-Instruct alcança um novo FID de geração em uma única etapa de \emph{1,02}, superando seu modelo de difusão professor de 79 etapas com uma margem de melhoria significativa de 1,33 (1,02 vs 2,35). Também aplicamos o Uni-Instruct em tarefas mais amplas, como geração de texto para 3D. Para geração de texto para 3D, o Uni-Instruct produz resultados decentes, que superam ligeiramente métodos anteriores, como SDS e VSD, em termos de qualidade e diversidade de geração. Tanto as contribuições teóricas quanto as empíricas sólidas do Uni-Instruct potencialmente ajudarão estudos futuros sobre destilação de difusão em uma única etapa e transferência de conhecimento de modelos de difusão.
Propomos um framework unificado para controle de movimento na geração de vídeos que integra de forma contínua o movimento da câmera, a translação em nível de objeto e o movimento local refinado utilizando entradas baseadas em trajetórias. Diferentemente de métodos anteriores que abordam esses tipos de movimento através de módulos separados ou designs específicos para cada tarefa, nossa abordagem oferece uma solução coesa ao projetar trajetórias definidas pelo usuário no espaço latente de modelos pré-treinados de geração de imagem para vídeo por meio de um injetor de movimento leve. Os usuários podem especificar pontos-chave e seus caminhos de movimento para controlar deformações localizadas, o movimento de objetos inteiros, dinâmicas de câmera virtual ou combinações desses elementos. Os sinais de trajetória injetados guiam o processo generativo para produzir sequências de movimento temporalmente consistentes e semanticamente alinhadas. Nosso framework demonstra desempenho superior em diversas tarefas de controle de movimento em vídeo, incluindo efeitos de movimento estilizados (por exemplo, pincéis de movimento), mudanças dinâmicas de perspectiva e manipulação precisa de movimento local. Experimentos mostram que nosso método oferece uma controlabilidade e qualidade visual significativamente melhores em comparação com abordagens anteriores e soluções comerciais, mantendo ampla compatibilidade com diversos backbones de geração de vídeo state-of-the-art. Página do projeto: https://anytraj.github.io/.
Treinamos 13.440 modelos de linguagem de grande porte e descobrimos que a minimização de entropia requer apenas um único dado não rotulado e 10 etapas de otimização para alcançar melhorias de desempenho comparáveis ou até maiores do que as obtidas usando milhares de dados e recompensas cuidadosamente projetadas em aprendizado por reforço baseado em regras. Esse resultado impressionante pode levar a uma reconsideração dos paradigmas de pós-treinamento para modelos de linguagem de grande porte. Nosso código está disponível em https://github.com/zitian-gao/one-shot-em.
A separação de fontes de áudio é fundamental para que as máquinas compreendam ambientes acústicos complexos e sustenta inúmeras aplicações de áudio. As abordagens atuais de aprendizado profundo supervisionado, embora poderosas, são limitadas pela necessidade de dados rotulados extensos e específicos para cada tarefa, além de enfrentarem dificuldades para generalizar a imensa variabilidade e natureza de conjunto aberto das cenas acústicas do mundo real. Inspirados pelo sucesso dos modelos generativos de base, investigamos se modelos de difusão de áudio guiados por texto pré-treinados podem superar essas limitações. Fizemos uma descoberta surpreendente: a separação de fontes zero-shot pode ser alcançada puramente por meio de um modelo de difusão de áudio guiado por texto pré-treinado, sob a configuração correta. Nosso método, denominado ZeroSep, funciona invertendo o áudio misturado no espaço latente do modelo de difusão e, em seguida, usando o condicionamento textual para guiar o processo de remoção de ruído e recuperar as fontes individuais. Sem qualquer treinamento ou ajuste específico para a tarefa, o ZeroSep reaproveita o modelo generativo de difusão para uma tarefa discriminativa de separação e suporta inerentemente cenários de conjunto aberto por meio de seus ricos prévios textuais. O ZeroSep é compatível com uma variedade de backbones de modelos de difusão de áudio guiados por texto pré-treinados e oferece um forte desempenho de separação em vários benchmarks de separação, superando até mesmo métodos supervisionados.
Os Transformadores de Difusão (DiT) tornaram-se o modelo de facto para a geração de conteúdo visual de alta qualidade, como vídeos e imagens. Um grande gargalo é o mecanismo de atenção, cuja complexidade escala quadraticamente com a resolução e a duração do vídeo. Uma maneira lógica de reduzir esse ônus é a atenção esparsa, onde apenas um subconjunto de tokens ou patches é incluído no cálculo. No entanto, as técnicas existentes falham em preservar a qualidade visual em níveis extremamente altos de esparsidade e podem até incorrer em sobrecargas computacionais não negligenciáveis. % Para abordar essa preocupação, propomos o Re-ttention, que implementa atenção esparsa muito alta para modelos de geração visual, aproveitando a redundância temporal dos Modelos de Difusão para superar a mudança de normalização probabilística dentro do mecanismo de atenção. Especificamente, o Re-ttention remodela as pontuações de atenção com base no histórico de distribuição softmax anterior, a fim de preservar a qualidade visual da atenção quadrática completa em níveis muito altos de esparsidade. % Resultados experimentais em modelos T2V/T2I, como o CogVideoX e os DiTs PixArt, demonstram que o Re-ttention requer apenas 3,1\% dos tokens durante a inferência, superando métodos contemporâneos como FastDiTAttn, Sparse VideoGen e MInference. Além disso, medimos a latência para mostrar que nosso método pode atingir uma redução de mais de 45\% de ponta a ponta % e mais de 92\% na latência de auto-atenção em uma GPU H100 com custo de sobrecarga insignificante. Código disponível online aqui: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
O crescimento notável nas capacidades dos modelos de linguagem de grande escala (LLMs) tem impulsionado a exploração de sistemas multiagentes, com estruturas de debate emergindo como uma abordagem promissora para a resolução aprimorada de problemas. Essas abordagens de debate multiagente (MAD), nas quais os agentes colaboram para apresentar, criticar e refinar argumentos, potencialmente oferecem raciocínio aprimorado, robustez e perspectivas diversas em comparação com modelos monolíticos. Apesar de estudos anteriores terem utilizado MAD, uma compreensão sistemática de sua eficácia em relação a métodos de agente único, particularmente sob condições variadas, ainda é escassa. Este artigo busca preencher essa lacuna ao conceituar MAD como uma técnica de escalonamento computacional em tempo de teste, distinguida por capacidades de refinamento colaborativo e exploração diversificada. Realizamos uma investigação empírica abrangente comparando MAD com fortes baselines de escalonamento em tempo de teste de agente único em tarefas de raciocínio matemático e relacionadas à segurança. Nosso estudo examina sistematicamente a influência da dificuldade da tarefa, da escala do modelo e da diversidade de agentes no desempenho do MAD. Principais descobertas revelam que, para o raciocínio matemático, o MAD oferece vantagens limitadas em relação ao escalonamento de agente único, mas se torna mais eficaz com o aumento da dificuldade do problema e a diminuição da capacidade do modelo, enquanto a diversidade de agentes mostra pouco benefício. Por outro lado, para tarefas de segurança, o refinamento colaborativo do MAD pode aumentar a vulnerabilidade, mas a incorporação de configurações diversas de agentes facilita uma redução gradual no sucesso de ataques por meio do processo de refinamento colaborativo. Acreditamos que nossas descobertas fornecem orientações críticas para o desenvolvimento futuro de sistemas MAD mais eficazes e estrategicamente implantados.
Modelos de Raciocínio de Grande Escala (LRMs) recentes com traços de pensamento têm demonstrado um forte desempenho em tarefas de raciocínio em inglês. No entanto, sua capacidade de pensar em outros idiomas é menos estudada. Essa habilidade é tão importante quanto a precisão das respostas para aplicações do mundo real, pois os usuários podem considerar o traço de raciocínio útil para supervisão apenas quando ele é expresso em seu próprio idioma. Avaliamos de forma abrangente duas famílias líderes de LRMs em nosso benchmark XReasoning e descobrimos que mesmo os modelos mais avançados frequentemente retornam ao inglês ou produzem raciocínios fragmentados em outros idiomas, revelando uma lacuna substancial no raciocínio multilíngue. Intervenções baseadas em prompts que forçam os modelos a raciocinar no idioma do usuário melhoram a legibilidade e a supervisão, mas reduzem a precisão das respostas, expondo uma importante compensação. Mostramos ainda que um treinamento pós-direcionado com apenas 100 exemplos mitiga essa incompatibilidade, embora alguma perda de precisão permaneça. Nossos resultados destacam as capacidades limitadas de raciocínio multilíngue dos LRMs atuais e delineiam direções para trabalhos futuros. O código e os dados estão disponíveis em https://github.com/Betswish/mCoT-XReasoning.
Os enigmas rebus, charadas visuais que codificam a linguagem por meio de imagens, arranjos espaciais e substituições simbólicas, representam um desafio único para os modelos visão-linguagem (VLMs) atuais. Diferentemente de tarefas tradicionais como descrição de imagens ou respostas a perguntas, a resolução de rebus exige abstração multimodal, raciocínio simbólico e compreensão de trocadilhos culturais, fonéticos e linguísticos. Neste artigo, investigamos a capacidade dos VLMs contemporâneos de interpretar e resolver enigmas rebus, construindo um benchmark gerado e anotado manualmente com uma variedade de rebus em inglês, desde substituições pictográficas simples até pistas dependentes de arranjos espaciais (como "cabeça" sobre "calcanhares"). Analisamos o desempenho de diferentes VLMs, e nossos resultados revelam que, embora esses modelos demonstrem algumas capacidades surpreendentes na decodificação de pistas visuais simples, eles enfrentam dificuldades significativas em tarefas que exigem raciocínio abstrato, pensamento lateral e compreensão de metáforas visuais.
Relatórios de radiologia transmitem observações clínicas detalhadas e capturam o raciocínio diagnóstico que evolui ao longo do tempo. No entanto, os métodos de avaliação existentes são limitados a configurações de relatório único e dependem de métricas grosseiras que não conseguem capturar a semântica clínica refinada e as dependências temporais. Apresentamos o LUNGUAGE, um conjunto de dados de referência para a geração estruturada de relatórios de radiologia que suporta tanto a avaliação de relatório único quanto a avaliação longitudinal em nível de paciente em múltiplos estudos. Ele contém 1.473 relatórios de raio-X de tórax anotados, cada um revisado por especialistas, e 80 deles contêm anotações longitudinais para capturar a progressão da doença e os intervalos entre estudos, também revisados por especialistas. Usando esse benchmark, desenvolvemos uma estrutura de duas etapas que transforma relatórios gerados em representações estruturadas alinhadas a esquemas refinados, permitindo interpretação longitudinal. Também propomos o LUNGUAGESCORE, uma métrica interpretável que compara saídas estruturadas no nível de entidade, relação e atributo, enquanto modela a consistência temporal ao longo das linhas do tempo do paciente. Essas contribuições estabelecem o primeiro conjunto de dados de referência, estrutura de organização e métrica de avaliação para relatórios de radiologia sequencial, com resultados empíricos demonstrando que o LUNGUAGESCORE suporta efetivamente a avaliação de relatórios estruturados. O código está disponível em: https://github.com/SuperSupermoon/Lunguage
Os métodos existentes de destilação de cadeia de pensamento (CoT) podem transferir efetivamente habilidades de raciocínio para modelos base, mas sofrem com duas grandes limitações: verbosidade excessiva dos traços de raciocínio e adaptabilidade inadequada à dificuldade do problema. Traços de raciocínio longos aumentam significativamente os custos de inferência, e soluções de comprimento uniforme impedem que os modelos base aprendam estratégias de raciocínio adaptativas. Para resolver esses problemas, propomos um método de prompting consciente da dificuldade (DAP) para encurtar dinamicamente os traços de raciocínio sem perda de desempenho. Em nossa abordagem, um grande modelo professor primeiro avalia a dificuldade de cada problema e, em seguida, reescreve seus traços de raciocínio para um comprimento mais curto e apropriado, gerando traços de raciocínio concisos, mas completos. Aproveitando o pipeline DAP, criamos um conjunto de dados destilado chamado LiteCoT, composto por 100K exemplos de raciocínio concisos, com soluções que têm em média apenas 720 tokens (uma ordem de magnitude menor do que os CoTs típicos). Usando o LiteCoT, destilamos uma nova família de modelos de raciocínio chamada Liter (1.5B, 7B e 32B) baseada na arquitetura Qwen2.5. Experimentos mostram que um modelo estudante ajustado com apenas 100K dessas amostras de CoT podadas por dificuldade supera um modelo destilado em 800K amostras originais de Long CoT, enquanto reduz significativamente os custos de treinamento e inferência. Nosso método também generaliza bem: em 11 benchmarks diversos, os CoTs mais curtos e conscientes da dificuldade alcançam precisão igual ou melhor do que as cadeias longas, usando muito menos tokens. Por exemplo, no desafiador exame AIME24, nossa abordagem atinge 74,2% de Pass@1 usando apenas cerca de 5K tokens de inferência, superando outros métodos que consomem muito mais tokens. Nosso código e dados estão disponíveis em https://github.com/Evanwu1125/LiteCoT.
Modelos Visão-Linguagem (VLMs) têm demonstrado capacidades robustas em alinhar modalidades visuais e textuais, possibilitando uma ampla gama de aplicações em compreensão e geração multimodal. Embora se destaquem em cenários de aprendizado zero-shot e transferência, os VLMs permanecem suscetíveis a erros de classificação, frequentemente gerando previsões confiantes, porém incorretas. Essa limitação representa um risco significativo em domínios críticos para a segurança, onde previsões errôneas podem levar a consequências graves. Neste trabalho, apresentamos o TrustVLM, uma estrutura livre de treinamento projetada para abordar o desafio crítico de estimar quando as previsões de um VLM podem ser confiáveis. Motivados pela lacuna de modalidade observada em VLMs e pela percepção de que certos conceitos são mais distintamente representados no espaço de incorporação de imagens, propomos uma nova função de pontuação de confiança que aproveita esse espaço para melhorar a detecção de erros de classificação. Avaliamos rigorosamente nossa abordagem em 17 conjuntos de dados diversos, empregando 4 arquiteturas e 2 VLMs, e demonstramos desempenho de ponta, com melhorias de até 51,87% em AURC, 9,14% em AUROC e 32,42% em FPR95 em comparação com as linhas de base existentes. Ao melhorar a confiabilidade do modelo sem exigir retreinamento, o TrustVLM abre caminho para uma implantação mais segura de VLMs em aplicações do mundo real. O código estará disponível em https://github.com/EPFL-IMOS/TrustVLM.
Modelos de Splatting Gaussiano 3D Feed-forward (3DGS) surgiram recentemente como uma solução promissora para a síntese de novas visões, permitindo inferência em uma única passagem sem a necessidade de otimização 3DGS por cena. No entanto, sua escalabilidade é fundamentalmente limitada pela capacidade restrita de seus codificadores, resultando em desempenho degradado ou consumo excessivo de memória à medida que o número de visões de entrada aumenta. Neste trabalho, analisamos frameworks 3DGS feed-forward através da lente do princípio do Gargalo de Informação e introduzimos ZPressor, um módulo leve e independente de arquitetura que permite a compressão eficiente de entradas multi-visão em um estado latente compacto Z, que retém informações essenciais da cena enquanto descarta redundâncias. Concretamente, o ZPressor permite que modelos 3DGS feed-forward existentes escalem para mais de 100 visões de entrada em resolução 480P em uma GPU de 80GB, particionando as visões em conjuntos âncora e de suporte e usando atenção cruzada para comprimir as informações das visões de suporte nas visões âncora, formando o estado latente comprimido Z. Mostramos que a integração do ZPressor em vários modelos 3DGS feed-forward state-of-the-art melhora consistentemente o desempenho sob visões de entrada moderadas e aumenta a robustez em configurações de visões densas em dois benchmarks de grande escala, DL3DV-10K e RealEstate10K. Os resultados em vídeo, código e modelos treinados estão disponíveis em nossa página do projeto: https://lhmd.top/zpressor.
O Gaussian Splatting (GS) surgiu recentemente como uma representação eficiente para renderização de cenas 3D a partir de imagens 2D e foi estendido para imagens, vídeos e conteúdo dinâmico 4D. No entanto, aplicar transferência de estilo a representações baseadas em GS, especialmente além de simples mudanças de cor, continua sendo um desafio. Neste trabalho, apresentamos o CLIPGaussians, o primeiro framework unificado de transferência de estilo que suporta estilização guiada por texto e imagem em múltiplas modalidades: imagens 2D, vídeos, objetos 3D e cenas 4D. Nosso método opera diretamente em primitivas Gaussianas e se integra aos pipelines existentes de GS como um módulo plug-in, sem a necessidade de grandes modelos generativos ou retreinamento do zero. A abordagem CLIPGaussians permite a otimização conjunta de cor e geometria em ambientes 3D e 4D, e alcança coerência temporal em vídeos, mantendo o tamanho do modelo. Demonstramos fidelidade e consistência de estilo superiores em todas as tarefas, validando o CLIPGaussians como uma solução universal e eficiente para transferência de estilo multimodal.
Apresentamos o UniTEX, uma nova estrutura de geração de texturas 3D em dois estágios para criar texturas de alta qualidade e consistentes para ativos 3D. As abordagens existentes dependem predominantemente de inpainting baseado em UV para refinar as texturas após reprojetar as imagens geradas de múltiplas visões nas formas 3D, o que introduz desafios relacionados à ambiguidade topológica. Para resolver isso, propomos contornar as limitações do mapeamento UV operando diretamente em um espaço funcional 3D unificado. Especificamente, primeiro propomos elevar a geração de texturas para o espaço 3D por meio de Funções de Textura (TFs)—uma representação volumétrica contínua que mapeia qualquer ponto 3D para um valor de textura com base apenas na proximidade da superfície, independente da topologia da malha. Em seguida, propomos prever essas TFs diretamente a partir de entradas de imagens e geometria usando um Modelo de Texturização em Grande Escala (LTM) baseado em transformers. Para aprimorar ainda mais a qualidade das texturas e aproveitar poderosos priors 2D, desenvolvemos uma estratégia avançada baseada em LoRA para adaptar eficientemente Transformers de Difusão em Grande Escala (DiTs) para a síntese de texturas de múltiplas visões de alta qualidade como nosso primeiro estágio. Experimentos extensivos demonstram que o UniTEX alcança qualidade visual superior e integridade de textura em comparação com as abordagens existentes, oferecendo uma solução generalizável e escalável para a geração automatizada de texturas 3D. O código estará disponível em: https://github.com/YixunLiang/UniTEX.
Embora as representações multimodais pré-treinadas (por exemplo, CLIP) tenham demonstrado capacidades impressionantes, elas exibem vulnerabilidades composicionais significativas que levam a julgamentos contra-intuitivos. Introduzimos a Composicionalidade Adversarial Multimodal (MAC), um benchmark que aproveita modelos de linguagem de grande escala (LLMs) para gerar amostras de texto enganosas que exploram essas vulnerabilidades em diferentes modalidades e as avalia tanto pela taxa de sucesso de ataque por amostra quanto pela diversidade baseada em entropia por grupo. Para aprimorar métodos de zero-shot, propomos uma abordagem de auto-treinamento que utiliza ajuste fino por rejeição de amostras com filtragem que promove a diversidade, melhorando tanto a taxa de sucesso de ataque quanto a diversidade das amostras. Utilizando modelos de linguagem menores, como o Llama-3.1-8B, nossa abordagem demonstra desempenho superior em revelar vulnerabilidades composicionais em várias representações multimodais, incluindo imagens, vídeos e áudios.
Modelos de linguagem de grande escala têm sido extensivamente estudados como bases de conhecimento neural, com foco em seu acesso ao conhecimento, editabilidade, raciocínio e explicabilidade. No entanto, poucos trabalhos se concentram nos padrões estruturais de seu conhecimento. Motivados por essa lacuna, investigamos esses padrões estruturais a partir de uma perspectiva de grafos. Quantificamos o conhecimento dos LLMs tanto no nível de triplas quanto no nível de entidades, e analisamos como ele se relaciona com propriedades estruturais de grafos, como o grau dos nós. Além disso, descobrimos a homofilia de conhecimento, onde entidades topologicamente próximas exibem níveis semelhantes de conhecimento, o que nos motiva ainda mais a desenvolver modelos de aprendizado de máquina baseados em grafos para estimar o conhecimento de uma entidade com base em seus vizinhos locais. Esse modelo também permite uma valiosa verificação de conhecimento ao selecionar triplas menos conhecidas pelos LLMs. Resultados empíricos mostram que o uso de triplas selecionadas para ajuste fino leva a um desempenho superior.
Nos últimos anos, observamos avanços rápidos na geração de imagens impulsionada pela IA. Os primeiros modelos de difusão enfatizavam a qualidade perceptual, enquanto modelos multimodais mais recentes, como o GPT-4o-image, integram raciocínio de alto nível, melhorando a compreensão semântica e a composição estrutural. A geração de ilustrações científicas exemplifica essa evolução: ao contrário da síntese geral de imagens, ela exige uma interpretação precisa de conteúdo técnico e a transformação de ideias abstratas em visuais claros e padronizados. Essa tarefa é significativamente mais intensiva em conhecimento e trabalhosa, frequentemente exigindo horas de trabalho manual e ferramentas especializadas. Automatizá-la de maneira controlável e inteligente traria um valor prático substancial. No entanto, atualmente não existe um benchmark para avaliar a IA nesse aspecto. Para preencher essa lacuna, introduzimos o SridBench, o primeiro benchmark para geração de figuras científicas. Ele compreende 1.120 instâncias curadas de artigos científicos líderes em 13 disciplinas das ciências naturais e da computação, coletadas por meio de especialistas humanos e MLLMs. Cada amostra é avaliada em seis dimensões, incluindo fidelidade semântica e precisão estrutural. Os resultados experimentais revelam que até mesmo modelos de ponta, como o GPT-4o-image, ficam aquém do desempenho humano, com problemas comuns em clareza textual/visual e correção científica. Essas descobertas destacam a necessidade de capacidades mais avançadas de geração visual orientada por raciocínio.
As capacidades crescentes dos modelos de linguagem multimodal de grande escala (MLLMs) têm avançado tarefas como a compreensão de gráficos. No entanto, esses modelos frequentemente sofrem com alucinações, onde sequências de texto geradas entram em conflito com os dados visuais fornecidos. Para abordar esse problema, introduzimos a Atribuição Visual Post-Hoc para Gráficos, que identifica elementos detalhados do gráfico que validam uma resposta associada ao gráfico. Propomos o ChartLens, um novo algoritmo de atribuição de gráficos que utiliza técnicas baseadas em segmentação para identificar objetos do gráfico e emprega o prompting de conjunto de marcas com MLLMs para atribuição visual detalhada. Além disso, apresentamos o ChartVA-Eval, um benchmark com gráficos sintéticos e do mundo real de diversos domínios, como finanças, políticas e economia, contendo anotações detalhadas de atribuição. Nossas avaliações mostram que o ChartLens melhora as atribuições detalhadas em 26-66%.
A inteligência espacial é essencial para modelos de linguagem multimodal de grande escala (MLLMs) que operam no mundo físico complexo. No entanto, os benchmarks existentes avaliam apenas relações em imagens únicas, falhando em testar o raciocínio espacial multi-imagem exigido por aplicações do mundo real. Apresentamos o MMSI-Bench, um benchmark de VQA (Visual Question Answering) dedicado à inteligência espacial multi-imagem. Seis pesquisadores em visão 3D dedicaram mais de 300 horas para criar meticulosamente 1.000 perguntas desafiadoras e inequívocas de múltipla escolha, a partir de mais de 120.000 imagens, cada uma acompanhada de distratores cuidadosamente projetados e um processo de raciocínio passo a passo. Realizamos experimentos extensivos e avaliamos minuciosamente 34 MLLMs de código aberto e proprietários, observando uma grande lacuna: o modelo de código aberto mais forte atinge aproximadamente 30% de precisão, enquanto o modelo de raciocínio o3 da OpenAI alcança 40%, em contraste com a pontuação humana de 97%. Esses resultados destacam a natureza desafiadora do MMSI-Bench e o amplo espaço para pesquisas futuras. Aproveitando os processos de raciocínio anotados, também fornecemos um pipeline automatizado de análise de erros que diagnostica quatro modos de falha predominantes, incluindo (1) erros de fundamentação, (2) erros de correspondência de sobreposição e reconstrução de cena, (3) erros de raciocínio em transformação de situação e (4) erros de lógica espacial, oferecendo insights valiosos para o avanço da inteligência espacial multi-imagem. Página do projeto: https://runsenxu.com/projects/MMSI_Bench.
Desenvolver software de alto desempenho é uma tarefa complexa que requer expertise especializada. Apresentamos o GSO, um benchmark para avaliar as capacidades de modelos de linguagem no desenvolvimento de software de alto desempenho. Desenvolvemos um pipeline automatizado que gera e executa testes de desempenho para analisar históricos de commits em repositórios, identificando 102 tarefas desafiadoras de otimização em 10 bases de código, abrangendo diversos domínios e linguagens de programação. Um agente recebe uma base de código e um teste de desempenho como especificação precisa, e é incumbido de melhorar a eficiência de execução, que é medida em comparação com a otimização realizada por desenvolvedores especialistas. Nossa avaliação quantitativa revela que os principais SWE-Agents enfrentam dificuldades significativas, alcançando uma taxa de sucesso inferior a 5%, com melhorias limitadas mesmo com escalonamento no tempo de inferência. Nossa análise qualitativa identifica modos de falha principais, incluindo dificuldades com linguagens de baixo nível, prática de estratégias de otimização preguiçosa e desafios na localização precisa de gargalos. Disponibilizamos o código e os artefatos do nosso benchmark, juntamente com trajetórias dos agentes, para permitir pesquisas futuras.
O principal objetivo da quantização pós-treinamento (PTQ) é produzir um modelo comprimido cuja distribuição de saída seja o mais próxima possível da do modelo original. Para fazer isso de forma viável, quase todos os algoritmos de PTQ para LLMs quantizam as camadas lineares minimizando independentemente o erro de ativação imediata. No entanto, esse objetivo localizado ignora o efeito das camadas subsequentes, portanto, reduzi-lo não necessariamente resulta em um modelo mais próximo. Neste trabalho, apresentamos o Yet Another Quantization Algorithm (YAQA), um algoritmo de arredondamento adaptativo que utiliza aproximações fatoradas de Kronecker da Hessiana de cada camada linear em relação à divergência KL do modelo completo. O YAQA consiste em dois componentes: esboços fatorados de Kronecker da Hessiana completa por camada, que podem ser calculados de forma viável para LLMs com centenas de bilhões de parâmetros, e um algoritmo de arredondamento independente do quantizador que utiliza esses esboços e vem com garantias teóricas. Em uma ampla gama de modelos e quantizadores, o YAQA reduz empiricamente a divergência KL em relação ao modelo original em aproximadamente 30%, ao mesmo tempo que alcança desempenho de ponta em tarefas subsequentes.
A avaliação da criatividade continua sendo uma fronteira desafiadora para os modelos de linguagem de grande escala (LLMs). As avaliações atuais dependem fortemente de julgamentos humanos ineficientes e custosos, o que dificulta o progresso no aprimoramento da criatividade das máquinas. Embora existam métodos automatizados, variando de testes psicológicos a abordagens baseadas em heurísticas ou prompts, eles frequentemente carecem de generalização ou alinhamento com o julgamento humano. Para abordar essas questões, neste artigo, propomos uma nova estrutura de comparação pareada para avaliar a criatividade textual, aproveitando instruções contextuais compartilhadas para melhorar a consistência da avaliação. Introduzimos o CreataSet, um conjunto de dados em larga escala com mais de 100 mil pares de instrução-resposta criativos de nível humano e mais de 1 milhão de pares sintéticos, abrangendo diversas tarefas de domínio aberto. Ao treinar no CreataSet, desenvolvemos um avaliador baseado em LLM chamado CrEval. O CrEval demonstra uma superioridade notável em relação aos métodos existentes no alinhamento com os julgamentos humanos. Os resultados experimentais destacam a importância indispensável de integrar dados gerados por humanos e sintéticos no treinamento de avaliadores altamente robustos, e mostram a utilidade prática do CrEval em impulsionar a criatividade dos LLMs. Liberaremos todos os dados, códigos e modelos publicamente em breve para apoiar pesquisas futuras.
Apresentamos uma estrutura baseada em keyframes para a geração de vídeos de dança de animais sincronizados com música e cientes da coreografia. A partir de alguns keyframes que representam poses distintas de animais — gerados por meio de prompts de texto para imagem ou GPT-4o — formulamos a síntese de dança como um problema de otimização de grafos: encontrar a estrutura de keyframes ideal que satisfaça um padrão coreográfico específico de batidas, que pode ser estimado automaticamente a partir de um vídeo de dança de referência. Também introduzimos uma abordagem para a geração de imagens de poses espelhadas, essencial para capturar a simetria na dança. Os frames intermediários são sintetizados usando um modelo de difusão de vídeo. Com apenas seis keyframes de entrada, nosso método pode produzir vídeos de dança de até 30 segundos para uma ampla variedade de animais e faixas musicais.
Modelos de linguagem de grande escala (LLMs, na sigla em inglês) demonstraram desempenho notável em tarefas de questionamento e resposta (QA, na sigla em inglês) devido às suas capacidades superiores em compreensão e geração de linguagem natural. No entanto, sistemas de QA baseados em LLMs enfrentam dificuldades em tarefas complexas de QA devido à capacidade limitada de raciocínio, conhecimento desatualizado e alucinações. Vários trabalhos recentes propõem a síntese de LLMs e grafos de conhecimento (KGs, na sigla em inglês) para QA a fim de abordar esses desafios. Nesta revisão, propomos uma nova taxonomia estruturada que categoriza a metodologia de síntese de LLMs e KGs para QA de acordo com os tipos de QA e o papel do KG ao ser integrado com LLMs. Revisamos sistematicamente os avanços mais recentes na síntese de LLMs e KGs para QA, comparando e analisando essas abordagens em termos de pontos fortes, limitações e requisitos dos KGs. Em seguida, alinhamos as abordagens com os tipos de QA e discutimos como elas abordam os principais desafios de diferentes QA complexos. Por fim, resumimos os avanços, métricas de avaliação e conjuntos de dados de referência, destacando desafios em aberto e oportunidades futuras.
Neste trabalho, revelamos as limitações dos tokenizadores visuais e VAEs na preservação de características de alta granularidade, e propomos um benchmark para avaliar o desempenho de reconstrução para dois tipos de conteúdo visual desafiadores: texto e rosto. Tokenizadores visuais e VAEs avançaram significativamente a geração visual e a modelagem multimodal ao fornecer representações de imagem comprimidas ou quantizadas mais eficientes. No entanto, embora ajudem os modelos de produção a reduzir a carga computacional, a perda de informação decorrente da compressão de imagem limita fundamentalmente o limite superior da qualidade de geração visual. Para avaliar esse limite superior, focamos na avaliação de características reconstruídas de texto e rosto, pois elas geralmente: 1) existem em escalas menores, 2) contêm texturas densas e ricas, 3) são propensas a colapsar, e 4) são altamente sensíveis à visão humana. Primeiro, coletamos e organizamos um conjunto diversificado de imagens claras de texto e rosto a partir de conjuntos de dados existentes. Diferente de abordagens que utilizam modelos VLM, empregamos modelos estabelecidos de OCR e reconhecimento facial para avaliação, garantindo precisão enquanto mantemos um processo de avaliação extremamente leve <span style="font-weight: bold; color: rgb(214, 21, 21);">que requer apenas 2GB de memória e 4 minutos</span> para ser concluído. Usando nosso benchmark, analisamos a qualidade de reconstrução de texto e rosto em várias escalas para diferentes tokenizadores de imagem e VAEs. Nossos resultados mostram que os tokenizadores visuais modernos ainda têm dificuldade em preservar características de alta granularidade, especialmente em escalas menores. Estendemos ainda mais esse framework de avaliação para vídeo, realizando uma análise abrangente de tokenizadores de vídeo. Além disso, demonstramos que métricas tradicionais falham em refletir com precisão o desempenho de reconstrução para rostos e texto, enquanto as métricas que propomos servem como um complemento eficaz.
Modelos de linguagem de grande escala (LLMs) têm demonstrado um potencial significativo em disciplinas científicas como a biomedicina, particularmente na geração de hipóteses, onde podem analisar vastas literaturas, identificar padrões e sugerir direções de pesquisa. No entanto, um desafio crucial reside na avaliação da veracidade das hipóteses geradas, uma vez que verificar sua precisão frequentemente requer tempo e recursos substanciais. Além disso, o problema de alucinação em LLMs pode levar à geração de hipóteses que parecem plausíveis, mas que são, em última análise, incorretas, comprometendo sua confiabilidade. Para facilitar o estudo sistemático desses desafios, introduzimos o TruthHypo, um benchmark para avaliar as capacidades dos LLMs na geração de hipóteses biomédicas verdadeiras, e o KnowHD, um detector de alucinações baseado em conhecimento para avaliar o quão bem as hipóteses estão fundamentadas no conhecimento existente. Nossos resultados mostram que os LLMs têm dificuldade em gerar hipóteses verdadeiras. Ao analisar alucinações nas etapas de raciocínio, demonstramos que as pontuações de fundamentação fornecidas pelo KnowHD servem como uma métrica eficaz para filtrar hipóteses verdadeiras a partir das diversas saídas dos LLMs. Avaliações humanas validam ainda mais a utilidade do KnowHD na identificação de hipóteses verdadeiras e na aceleração da descoberta científica. Nossos dados e código-fonte estão disponíveis em https://github.com/Teddy-XiongGZ/TruthHypo.
A Otimização Direta de Preferências (DPO, na sigla em inglês) tornou-se uma técnica padrão para alinhar modelos de linguagem com preferências humanas de maneira supervisionada. Apesar de seu sucesso empírico, a justificativa teórica por trás de sua parametrização de recompensa logarítmica permanece incompleta. Neste trabalho, abordamos essa lacuna utilizando a Distribuição de Informação Diferencial (DID, na sigla em inglês): uma distribuição sobre sequências de tokens que captura a informação obtida durante atualizações de política. Primeiro, mostramos que, quando os rótulos de preferência codificam a informação diferencial necessária para transformar uma política de referência em uma política alvo, a recompensa logarítmica na DPO surge como a forma unicamente ótima para aprender a política alvo por meio da otimização de preferências. Esse resultado naturalmente produz uma expressão em forma fechada para a distribuição ótima de amostragem sobre respostas rejeitadas. Segundo, descobrimos que a condição para que as preferências codifiquem informação diferencial está fundamentalmente ligada a uma suposição implícita sobre políticas ordenadas por margem logarítmica — um viés indutivo amplamente utilizado na otimização de preferências, mas anteriormente não reconhecido. Por fim, ao analisar a entropia da DID, caracterizamos como o aprendizado de informação diferencial de baixa entropia reforça a distribuição da política, enquanto a informação diferencial de alta entropia induz um efeito de suavização, o que explica o fenômeno de deslocamento da log-verossimilhança. Validamos nossas descobertas teóricas em experimentos sintéticos e as estendemos para conjuntos de dados reais de seguimento de instruções. Nossos resultados sugerem que o aprendizado de informação diferencial de alta entropia é crucial para o seguimento geral de instruções, enquanto o aprendizado de informação diferencial de baixa entropia beneficia a resposta a perguntas intensivas em conhecimento. No geral, nosso trabalho apresenta uma perspectiva unificadora sobre o objetivo da DPO, a estrutura dos dados de preferência e os comportamentos resultantes das políticas, através da lente da informação diferencial.
Embora o aprendizado por reforço (RL) sobre cadeias de pensamento tenha avançado significativamente os modelos de linguagem em tarefas como matemática e codificação, o raciocínio visual introduz uma complexidade adicional ao exigir que os modelos direcionem a atenção visual, interpretem entradas perceptivas e fundamentem o raciocínio abstrato em evidências espaciais. Apresentamos o ViGoRL (Visually Grounded Reinforcement Learning), um modelo de visão e linguagem treinado com RL para ancorar explicitamente cada etapa de raciocínio a coordenadas visuais específicas. Inspirado pela tomada de decisão visual humana, o ViGoRL aprende a produzir traços de raciocínio espacialmente fundamentados, guiando a atenção visual para regiões relevantes para a tarefa em cada etapa. Quando uma exploração detalhada é necessária, nossa nova estrutura de RL multi-turn permite que o modelo amplie dinamicamente as coordenadas previstas à medida que o raciocínio se desenrola. Em um conjunto diversificado de benchmarks de raciocínio visual—incluindo SAT-2 e BLINK para raciocínio espacial, V*bench para busca visual, e ScreenSpot e VisualWebArena para fundamentação baseada na web—o ViGoRL supera consistentemente tanto o ajuste fino supervisionado quanto as linhas de base convencionais de RL que carecem de mecanismos explícitos de fundamentação. A incorporação do RL multi-turn com feedback visual ampliado melhora significativamente o desempenho do ViGoRL na localização de pequenos elementos de GUI e na busca visual, alcançando 86,4% no V*Bench. Além disso, descobrimos que a fundamentação amplifica outros comportamentos visuais, como a exploração de regiões, a definição de subobjetivos fundamentados e a verificação visual. Por fim, avaliações humanas mostram que as referências visuais do modelo não são apenas espacialmente precisas, mas também úteis para entender as etapas de raciocínio do modelo. Nossos resultados mostram que o RL visualmente fundamentado é um paradigma forte para dotar os modelos de raciocínio visual de propósito geral.
As abordagens existentes de segmentação por raciocínio geralmente ajustam modelos de linguagem multimodal de grande escala (MLLMs) utilizando pares imagem-texto e rótulos de máscara correspondentes. No entanto, elas apresentam generalização limitada para cenários fora da distribuição, sem um processo explícito de raciocínio. Embora esforços recentes tenham aproveitado o aprendizado por reforço através da otimização de política relativa ao grupo (GRPO) para aprimorar a capacidade de raciocínio, elas frequentemente sofrem com o excesso de pensamento - produzindo cadeias de raciocínio uniformemente verbosas, independentemente da complexidade da tarefa. Isso resulta em custos computacionais elevados e controle limitado sobre a qualidade do raciocínio. Para resolver esse problema, propomos o PixelThink, um esquema simples, porém eficaz, que integra a dificuldade da tarefa estimada externamente e a incerteza do modelo medida internamente para regular a geração de raciocínio dentro de um paradigma de aprendizado por reforço. O modelo aprende a comprimir o comprimento do raciocínio de acordo com a complexidade da cena e a confiança preditiva. Para apoiar uma avaliação abrangente, introduzimos o ReasonSeg-Diff, um benchmark estendido com referências de raciocínio anotadas e pontuações de dificuldade, juntamente com um conjunto de métricas projetadas para avaliar conjuntamente a precisão da segmentação, a qualidade do raciocínio e a eficiência. Os resultados experimentais demonstram que a abordagem proposta melhora tanto a eficiência do raciocínio quanto o desempenho geral da segmentação. Nosso trabalho contribui com novas perspectivas para a compreensão multimodal eficiente e interpretável. O código e o modelo estarão publicamente disponíveis.
O Classifier-Free Guidance (CFG) melhora significativamente a controlabilidade em modelos generativos ao interpolar previsões condicionais e incondicionais. No entanto, o CFG padrão frequentemente emprega uma entrada incondicional estática, o que pode ser subótimo para processos de geração iterativa onde a incerteza do modelo varia dinamicamente. Introduzimos o Adaptive Classifier-Free Guidance (A-CFG), um método inovador que personaliza a entrada incondicional ao aproveitar a confiança preditiva instantânea do modelo. A cada passo de um modelo de linguagem de difusão mascarada iterativa, o A-CFG identifica tokens na sequência gerada atualmente para os quais o modelo exibe baixa confiança. Esses tokens são temporariamente remascarados para criar uma entrada incondicional dinâmica e localizada. Isso concentra a influência corretiva do CFG precisamente nas áreas de ambiguidade, levando a uma orientação mais eficaz. Integramos o A-CFG em um modelo de linguagem de difusão mascarada de última geração e demonstramos sua eficácia. Experimentos em diversos benchmarks de geração de linguagem mostram que o A-CFG produz melhorias substanciais em relação ao CFG padrão, alcançando, por exemplo, um ganho de 3,9 pontos no GPQA. Nosso trabalho destaca o benefício de adaptar dinamicamente mecanismos de orientação à incerteza do modelo em gerações iterativas.
A estimativa de qualidade em nível de palavra (WQE, na sigla em inglês) tem como objetivo identificar automaticamente erros detalhados em saídas de tradução automática e tem encontrado diversas aplicações, incluindo a assistência a tradutores durante a pós-edição. As técnicas modernas de WQE costumam ser dispendiosas, envolvendo o uso de grandes modelos de linguagem ou treinamento específico com grandes quantidades de dados rotulados manualmente. Neste trabalho, investigamos alternativas eficientes que exploram avanços recentes em interpretabilidade de modelos de linguagem e quantificação de incerteza para identificar erros de tradução a partir do funcionamento interno dos modelos de tradução. Em nossa avaliação, que abrange 14 métricas em 12 direções de tradução, quantificamos o impacto da variação de rótulos humanos no desempenho das métricas utilizando múltiplos conjuntos de rótulos humanos. Nossos resultados destacam o potencial ainda não explorado de métricas não supervisionadas, as limitações de métodos supervisionados diante da incerteza nos rótulos e a fragilidade de práticas de avaliação baseadas em um único anotador.