Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de difusão para super-resolução (SR) produzem resultados visuais de alta qualidade, mas exigem custos computacionais elevados. Apesar do desenvolvimento de vários métodos para acelerar modelos de SR baseados em difusão, alguns (por exemplo, SinSR) falham em produzir detalhes perceptuais realistas, enquanto outros (por exemplo, OSEDiff) podem alucinar estruturas inexistentes. Para superar esses problemas, apresentamos RSD, um novo método de destilação para o ResShift, um dos principais modelos de SR baseados em difusão. Nosso método é baseado no treinamento da rede estudante para produzir imagens que, quando usadas para treinar um novo modelo falso de ResShift, resultarão em um modelo que coincide com o modelo professor. O RSD alcança restauração em um único passo e supera o modelo professor por uma grande margem. Mostramos que nosso método de destilação pode superar o outro método de destilação para ResShift - o SinSR - colocando-o em pé de igualdade com os métodos de destilação de SR baseados em difusão mais avançados. Comparado a métodos de SR baseados em modelos pré-treinados de texto para imagem, o RSD produz qualidade perceptual competitiva, fornece imagens com melhor alinhamento às imagens de entrada degradadas e requer menos parâmetros e memória GPU. Fornecemos resultados experimentais em vários conjuntos de dados do mundo real e sintéticos, incluindo RealSR, RealSet65, DRealSR, ImageNet e DIV2K.
O surgimento de agentes baseados em LLMs (Large Language Models) representa uma mudança de paradigma na IA, permitindo que sistemas autônomos planejem, raciocinem, utilizem ferramentas e mantenham memória enquanto interagem com ambientes dinâmicos. Este artigo apresenta o primeiro levantamento abrangente das metodologias de avaliação para esses agentes cada vez mais capazes. Analisamos sistematicamente benchmarks e frameworks de avaliação em quatro dimensões críticas: (1) capacidades fundamentais dos agentes, incluindo planejamento, uso de ferramentas, autorreflexão e memória; (2) benchmarks específicos para aplicações em agentes web, engenharia de software, científicos e conversacionais; (3) benchmarks para agentes generalistas; e (4) frameworks para avaliação de agentes. Nossa análise revela tendências emergentes, incluindo uma mudança em direção a avaliações mais realistas e desafiadoras, com benchmarks continuamente atualizados. Também identificamos lacunas críticas que pesquisas futuras devem abordar — particularmente na avaliação de custo-eficiência, segurança e robustez, e no desenvolvimento de métodos de avaliação refinados e escaláveis. Este levantamento mapeia o cenário em rápida evolução da avaliação de agentes, revela as tendências emergentes no campo, identifica as limitações atuais e propõe direções para pesquisas futuras.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em tarefas complexas. Avanços recentes em Modelos de Raciocínio de Grande Escala (LRMs), como o OpenAI o1 e o DeepSeek-R1, melhoraram ainda mais o desempenho em domínios de raciocínio do Sistema 2, como matemática e programação, ao empregar técnicas de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) para aprimorar o raciocínio em Cadeia de Pensamento (CoT). No entanto, embora sequências mais longas de raciocínio CoT melhorem o desempenho, elas também introduzem uma sobrecarga computacional significativa devido a saídas verbosas e redundantes, conhecidas como o "fenômeno de superpensamento". Neste artigo, apresentamos o primeiro levantamento estruturado para investigar e explorar sistematicamente o progresso atual no sentido de alcançar um raciocínio eficiente em LLMs. De modo geral, com base no mecanismo inerente dos LLMs, categorizamos os trabalhos existentes em várias direções principais: (1) raciocínio eficiente baseado em modelo, que considera a otimização de modelos de raciocínio de comprimento total em modelos de raciocínio mais concisos ou o treinamento direto de modelos de raciocínio eficientes; (2) raciocínio eficiente baseado na saída de raciocínio, que visa reduzir dinamicamente os passos e o comprimento do raciocínio durante a inferência; (3) raciocínio eficiente baseado em prompts de entrada, que busca melhorar a eficiência do raciocínio com base em propriedades do prompt de entrada, como dificuldade ou controle de comprimento. Além disso, introduzimos o uso de dados eficientes para o treinamento de modelos de raciocínio, exploramos as capacidades de raciocínio de modelos de linguagem pequenos e discutimos métodos de avaliação e benchmarking.
Este trabalho apresenta um framework para avaliar se os grandes modelos de linguagem (LLMs) codificam mais conhecimento factual em seus parâmetros do que expressam em suas saídas. Embora alguns estudos sugiram essa possibilidade, nenhum definiu ou demonstrou claramente esse fenômeno. Primeiro, propomos uma definição formal de conhecimento, quantificando-o para uma determinada questão como a fração de pares de respostas corretas-incorretas em que a correta é classificada mais alta. Isso dá origem ao conhecimento externo e interno, dependendo das informações usadas para pontuar os candidatos a resposta: seja as probabilidades observáveis no nível de token do modelo ou seus cálculos intermediários. O conhecimento oculto surge quando o conhecimento interno excede o conhecimento externo. Em seguida, apresentamos um estudo de caso, aplicando esse framework a três LLMs populares de pesos abertos em uma configuração de perguntas e respostas (QA) de livro fechado. Nossos resultados indicam que: (1) LLMs codificam consistentemente mais conhecimento factual internamente do que expressam externamente, com uma lacuna média de 40%. (2) Surpreendentemente, algum conhecimento está tão profundamente oculto que um modelo pode saber internamente uma resposta perfeitamente, mas falhar em gerá-la mesmo uma vez, apesar de uma amostragem repetida em larga escala de 1.000 respostas. Isso revela limitações fundamentais nas capacidades de geração dos LLMs, o que (3) impõe uma restrição prática ao escalonamento do cálculo no tempo de teste por meio de amostragem repetida de respostas em QA de livro fechado: melhorias significativas de desempenho permanecem inacessíveis porque algumas respostas praticamente nunca são amostradas, mas, se fossem, teríamos a garantia de classificá-las em primeiro lugar.
Melhorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) geralmente depende de recursos computacionais massivos e conjuntos de dados extensos, limitando a acessibilidade em ambientes com recursos restritos. Nosso estudo investiga o potencial do aprendizado por reforço (RL) para aprimorar o raciocínio em LLMs menores, com foco em um modelo de 1,5 bilhão de parâmetros, o DeepSeek-R1-Distill-Qwen-1.5B, sob restrições rigorosas: treinamento em 4 GPUs NVIDIA A40 (48 GB de VRAM cada) dentro de 24 horas. Adaptando o algoritmo Group Relative Policy Optimization (GRPO) e criando um conjunto de dados compacto e de alta qualidade para raciocínio matemático, conduzimos três experimentos para explorar o comportamento e o desempenho do modelo. Nossos resultados demonstram ganhos rápidos de raciocínio - por exemplo, a precisão no AMC23 aumentando de 63% para 80% e o AIME24 atingindo 46,7%, superando o o1-preview - utilizando apenas 7.000 amostras e um custo de treinamento de $42, em comparação com milhares de dólares para modelos de referência. No entanto, desafios como instabilidade de otimização e restrições de comprimento surgiram com o treinamento prolongado. Essas descobertas destacam a eficácia do ajuste fino baseado em RL para LLMs menores, oferecendo uma alternativa econômica às abordagens em grande escala. Disponibilizamos nosso código e conjuntos de dados como recursos de código aberto, fornecendo insights sobre compensações e estabelecendo uma base para LLMs escaláveis e capazes de raciocínio em ambientes com recursos limitados. Todos estão disponíveis em https://github.com/knoveleng/open-rs.
Sistemas de IA física precisam perceber, compreender e realizar ações complexas no mundo físico. Neste artigo, apresentamos os modelos Cosmos-Reason1, que podem entender o mundo físico e gerar decisões corporificadas apropriadas (por exemplo, a próxima ação) em linguagem natural por meio de longos processos de raciocínio em cadeia de pensamento. Começamos definindo capacidades-chave para o raciocínio de IA física, com foco no senso comum físico e no raciocínio corporificado. Para representar o senso comum físico, usamos uma ontologia hierárquica que captura conhecimento fundamental sobre espaço, tempo e física. Para o raciocínio corporificado, contamos com uma ontologia bidimensional que generaliza diferentes formas de corporificação física. Com base nessas capacidades, desenvolvemos dois modelos de linguagem multimodal de grande escala, Cosmos-Reason1-8B e Cosmos-Reason1-56B. Curamos dados e treinamos nossos modelos em quatro estágios: pré-treinamento visual, ajuste fino supervisionado geral (SFT), SFT de IA física e aprendizado por reforço (RL) de IA física como pós-treinamento. Para avaliar nossos modelos, construímos benchmarks abrangentes para senso comum físico e raciocínio corporificado de acordo com nossas ontologias. Os resultados da avaliação mostram que o SFT de IA física e o aprendizado por reforço trazem melhorias significativas. Para facilitar o desenvolvimento da IA física, disponibilizaremos nosso código e modelos pré-treinados sob a Licença de Modelo Aberto da NVIDIA em https://github.com/nvidia-cosmos/cosmos-reason1.
Apesar do crescente entusiasmo pelos Sistemas Multiagentes (MAS), onde múltiplos agentes de LLM colaboram para realizar tarefas, seus ganhos de desempenho em benchmarks populares permanecem mínimos em comparação com frameworks de agente único. Essa lacuna destaca a necessidade de analisar os desafios que impedem a eficácia dos MAS. Neste artigo, apresentamos o primeiro estudo abrangente dos desafios dos MAS. Analisamos cinco frameworks populares de MAS em mais de 150 tarefas, envolvendo seis anotadores humanos especialistas. Identificamos 14 modos de falha únicos e propomos uma taxonomia abrangente aplicável a vários frameworks de MAS. Essa taxonomia emerge iterativamente a partir de consensos entre três anotadores especialistas por estudo, alcançando um escore de Kappa de Cohen de 0,88. Esses modos de falha detalhados são organizados em três categorias: (i) falhas de especificação e design do sistema, (ii) desalinhamento entre agentes, e (iii) verificação e término da tarefa. Para apoiar uma avaliação escalável, integramos o MASFT com LLM-as-a-Judge. Também exploramos se as falhas identificadas poderiam ser facilmente prevenidas propondo duas intervenções: especificação aprimorada dos papéis dos agentes e estratégias de orquestração melhoradas. Nossas descobertas revelam que as falhas identificadas exigem soluções mais complexas, destacando um roteiro claro para pesquisas futuras. Disponibilizamos nosso conjunto de dados e anotador de LLM como código aberto.
A geração de formas 3D tem prosperado significativamente com o desenvolvimento da chamada difusão 3D "nativa", particularmente através do Modelo de Difusão Vecset (VDM). Embora avanços recentes tenham mostrado resultados promissores na geração de formas 3D de alta resolução, o VDM ainda enfrenta dificuldades com a geração em alta velocidade. Os desafios existem devido a dificuldades não apenas na aceleração da amostragem de difusão, mas também na decodificação VAE no VDM, áreas pouco exploradas em trabalhos anteriores. Para enfrentar esses desafios, apresentamos o FlashVDM, um framework sistemático para acelerar tanto o VAE quanto o DiT no VDM. Para o DiT, o FlashVDM permite uma amostragem de difusão flexível com apenas 5 passos de inferência e qualidade comparável, possibilitada pela estabilização da destilação de consistência com nossa nova técnica de Destilação de Fluxo Progressivo. Para o VAE, introduzimos um decodificador vecset ultrarrápido equipado com Seleção Adaptativa de KV, Decodificação Hierárquica de Volume e Design Eficiente de Rede. Ao explorar a localidade do vecset e a esparsidade da superfície da forma no volume, nosso decodificador reduz drasticamente os FLOPs, minimizando a sobrecarga geral de decodificação. Aplicamos o FlashVDM ao Hunyuan3D-2 para obter o Hunyuan3D-2 Turbo. Por meio de avaliação sistemática, mostramos que nosso modelo supera significativamente os métodos existentes de geração rápida de 3D, alcançando desempenho comparável ao estado da arte enquanto reduz o tempo de inferência em mais de 45x para reconstrução e 32x para geração. Código e modelos estão disponíveis em https://github.com/Tencent/FlashVDM.
Apresentamos o SwD, uma estrutura de destilação em escala para modelos de difusão (DMs), que emprega efetivamente ideias de predição da próxima escala para geradores baseados em difusão com poucos passos. Em detalhes, o SwD é inspirado por insights recentes que relacionam processos de difusão à autoregressão espectral implícita. Supomos que os DMs podem iniciar a geração em resoluções de dados mais baixas e gradualmente aumentar a escala das amostras em cada etapa de remoção de ruído sem perda de desempenho, enquanto reduzem significativamente os custos computacionais. O SwD integra naturalmente essa ideia aos métodos existentes de destilação de difusão baseados em correspondência de distribuição. Além disso, enriquecemos a família de abordagens de correspondência de distribuição ao introduzir uma nova função de perda por patch que reforça uma similaridade mais refinada com a distribuição alvo. Quando aplicado aos modelos de difusão state-of-the-art para geração de texto em imagem, o SwD aproxima-se dos tempos de inferência de dois passos em resolução total e supera significativamente as contrapartes sob o mesmo orçamento computacional, conforme evidenciado por métricas automatizadas e estudos de preferência humana.
Recentemente, a tomada de decisão baseada em ações em ambientes de mundo aberto tem recebido atenção significativa. Modelos de Linguagem Visual e Ação (VLA), pré-treinados em grandes conjuntos de dados da web, têm mostrado potencial em tarefas de tomada de decisão. No entanto, trabalhos anteriores focaram principalmente na pós-treinamento de ações, muitas vezes negligenciando melhorias no modelo base. Em resposta, introduzimos uma nova abordagem, chamada "Agir a partir de Pós-Treinamento de Linguagem Visual", que refina Modelos de Linguagem Visual (VLMs) por meio de orientação visual e linguística de forma auto-supervisionada. Esse aprimoramento melhora as capacidades dos modelos em conhecimento do mundo, reconhecimento visual e fundamentação espacial em ambientes de mundo aberto. Seguindo os paradigmas de pós-treinamento mencionados, obtivemos os primeiros modelos VLA no Minecraft capazes de seguir instruções humanas em mais de 1.000 tarefas atômicas diferentes, incluindo criação, fundição, cozimento, mineração e combate. Nossos experimentos demonstram que o pós-treinamento em tarefas não relacionadas a trajetórias resulta em uma melhoria significativa de 40% em relação à melhor linha de base de agentes em um conjunto diversificado de tarefas atômicas. Além disso, mostramos que nossa abordagem supera políticas baseadas em aprendizado por imitação tradicionais no Minecraft, alcançando desempenho de ponta. Disponibilizamos o código, modelos e conjuntos de dados para promover pesquisas futuras. A página do projeto pode ser encontrada em https://craftjarvis.github.io/JarvisVLA.
A obtenção de geração de imagens flexível e de alta fidelidade que preservem a identidade continua sendo um desafio significativo, especialmente com modelos avançados de Transformers de Difusão (DiTs) como o FLUX. Apresentamos o InfiniteYou (InfU), um dos primeiros frameworks robustos a utilizar DiTs para essa tarefa. O InfU aborda problemas críticos dos métodos existentes, como similaridade insuficiente de identidade, alinhamento inadequado entre texto e imagem, e baixa qualidade e estética na geração. O componente central do InfU é o InfuseNet, que injeta características de identidade no modelo base DiT por meio de conexões residuais, aprimorando a similaridade de identidade enquanto mantém as capacidades de geração. Uma estratégia de treinamento em múltiplos estágios, incluindo pré-treinamento e ajuste fino supervisionado (SFT) com dados sintéticos de múltiplas amostras de uma única pessoa (SPMS), melhora ainda mais o alinhamento texto-imagem, aprimora a qualidade da imagem e reduz o efeito de "copiar e colar" de rostos. Experimentos extensivos demonstram que o InfU alcança desempenho de ponta, superando as abordagens existentes. Além disso, o design plug-and-play do InfU garante compatibilidade com diversos métodos já estabelecidos, oferecendo uma contribuição valiosa para a comunidade em geral.
A reconstrução animável de humanos 3D a partir de uma única imagem é um problema desafiador devido à ambiguidade na separação de geometria, aparência e deformação. Avanços recentes na reconstrução 3D de humanos concentram-se principalmente na modelagem estática, e a dependência de usar varreduras 3D sintéticas para treinamento limita sua capacidade de generalização. Por outro lado, métodos baseados em otimização para vídeos alcançam maior fidelidade, mas exigem condições controladas de captura e processos de refinamento computacionalmente intensivos. Motivados pelo surgimento de grandes modelos de reconstrução para reconstrução estática eficiente, propomos o LHM (Large Animatable Human Reconstruction Model) para inferir avatares de alta fidelidade representados como splatting de Gaussianas 3D em uma passagem direta. Nosso modelo aproveita uma arquitetura de transformer multimodal para codificar efetivamente as características posicionais do corpo humano e as características da imagem com mecanismo de atenção, permitindo a preservação detalhada da geometria e textura das roupas. Para aprimorar ainda mais a preservação da identidade facial e a recuperação de detalhes finos, propomos um esquema de codificação de pirâmide de características da cabeça para agregar características multiescala das regiões da cabeça. Experimentos extensivos demonstram que nosso LHM gera humanos animáveis plausíveis em segundos sem pós-processamento para rosto e mãos, superando métodos existentes tanto em precisão de reconstrução quanto em capacidade de generalização.
Os modelos de linguagem de grande escala com capacidade de raciocínio estão evoluindo rapidamente em diversos domínios. No entanto, suas habilidades no tratamento de tarefas financeiras complexas ainda requerem uma exploração aprofundada. Neste artigo, apresentamos o Fin-R1, um modelo de linguagem de grande escala com capacidade de raciocínio especificamente projetado para o setor financeiro. O Fin-R1 é construído usando uma arquitetura de dois estágios, aproveitando um conjunto de dados de raciocínio financeiro destilado e processado com base no DeepSeek-R1. Por meio de ajuste fino supervisionado (SFT) e treinamento com aprendizado por reforço (RL), ele demonstra um desempenho próximo ao do DeepSeek-R1, com um tamanho de parâmetros de 7 bilhões, em uma variedade de tarefas de raciocínio financeiro. Ele alcança o estado da arte (SOTA) nas tarefas FinQA e ConvFinQA entre os modelos de linguagem de grande escala avaliados, superando modelos maiores em outras tarefas também. O Fin-R1 exibe fortes capacidades de raciocínio e tomada de decisão, fornecendo soluções para diversos problemas encontrados no domínio financeiro. Nosso código está disponível em https://github.com/SUFE-AIFLM-Lab/Fin-R1.
Os modelos de difusão têm demonstrado um sucesso notável em várias tarefas de geração de imagens, mas seu desempenho é frequentemente limitado pelo processamento uniforme das entradas em diferentes condições e níveis de ruído. Para abordar essa limitação, propomos uma abordagem inovadora que aproveita a heterogeneidade inerente do processo de difusão. Nosso método, DiffMoE, introduz um pool global de tokens em nível de lote que permite que especialistas acessem distribuições globais de tokens durante o treinamento, promovendo comportamentos especializados. Para liberar todo o potencial do processo de difusão, o DiffMoE incorpora um preditor de capacidade que aloca dinamicamente recursos computacionais com base nos níveis de ruído e na complexidade das amostras. Por meio de uma avaliação abrangente, o DiffMoE alcança desempenho de ponta entre os modelos de difusão no benchmark do ImageNet, superando substancialmente tanto arquiteturas densas com 3x parâmetros ativados quanto abordagens MoE existentes, mantendo 1x parâmetros ativados. A eficácia de nossa abordagem vai além da geração condicionada por classe para tarefas mais desafiadoras, como a geração de texto para imagem, demonstrando sua ampla aplicabilidade em diferentes aplicações de modelos de difusão. Página do Projeto: https://shiml20.github.io/DiffMoE/
Abordamos o desafio de gerar mundos 3D a partir de descrições textuais. Propomos o SynCity, uma abordagem livre de treinamento e otimização, que aproveita a precisão geométrica de modelos generativos 3D pré-treinados e a versatilidade artística de geradores de imagens 2D para criar espaços 3D amplos e de alta qualidade. Enquanto a maioria dos modelos generativos 3D é centrada em objetos e incapaz de gerar mundos em grande escala, mostramos como geradores 3D e 2D podem ser combinados para criar cenas em constante expansão. Por meio de uma abordagem baseada em blocos, permitimos controle refinado sobre o layout e a aparência das cenas. O mundo é gerado bloco por bloco, e cada novo bloco é gerado dentro de seu contexto global e então fundido à cena. O SynCity gera cenas envolventes e imersivas, ricas em detalhes e diversidade.
Modelos de linguagem de grande escala para vídeo (VideoLLMs) demonstraram a capacidade de processar entradas de vídeo mais longas e permitir raciocínio e análise complexos. No entanto, devido aos milhares de tokens visuais provenientes dos quadros de vídeo, o cache de chave-valor (KV) pode aumentar significativamente os requisitos de memória, tornando-se um gargalo para a velocidade de inferência e o uso de memória. A quantização do cache KV é uma abordagem amplamente utilizada para resolver esse problema. Neste artigo, descobrimos que a quantização de 2 bits do cache KV em VideoLLMs dificilmente prejudica o desempenho do modelo, enquanto o limite da quantização do cache KV em bits ainda mais baixos não foi investigado. Para preencher essa lacuna, introduzimos o VidKV, um método de quantização do cache KV plug-and-play para comprimir o cache KV para menos de 2 bits. Especificamente, (1) para a chave, propomos uma estratégia de quantização de precisão mista na dimensão do canal, onde realizamos quantização de 2 bits para canais anômalos e quantização de 1 bit combinada com FFT para canais normais; (2) para o valor, implementamos quantização de 1,58 bits enquanto filtramos seletivamente tokens visuais semanticamente salientes para preservação direcionada, visando um melhor equilíbrio entre precisão e desempenho do modelo. Importante, nossas descobertas sugerem que o cache de valor dos VideoLLMs deve ser quantizado de forma por canal, em vez da forma por token proposta por trabalhos anteriores de quantização do cache KV para LLMs. Empiricamente, resultados extensivos com LLaVA-OV-7B e Qwen2.5-VL-7B em seis benchmarks mostram que o VidKV comprime efetivamente o cache KV para precisões de 1,5 bit e 1,58 bit com quase nenhuma queda de desempenho em comparação com as contrapartes FP16.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado progressos impressionantes no raciocínio matemático. Embora a ampliação de dados seja promissora para aprimorar a capacidade de resolução de problemas matemáticos, as abordagens atuais estão predominantemente limitadas a modificações no nível de instância — como reformulações ou geração de variações sintáticas — que não conseguem capturar e aproveitar as estruturas relacionais intrínsecas inerentes ao conhecimento matemático. Inspirados pelos processos de aprendizagem humana, onde a proficiência matemática se desenvolve por meio da exposição sistemática a conceitos interconectados, introduzimos o MathFusion, um novo framework que aprimora o raciocínio matemático por meio da síntese de instruções entre problemas. O MathFusion implementa isso através de três estratégias de fusão: (1) fusão sequencial, que encadeia problemas relacionados para modelar dependências de soluções; (2) fusão paralela, que combina problemas análogos para reforçar a compreensão conceitual; e (3) fusão condicional, que cria problemas seletivos contextualizados para aumentar a flexibilidade do raciocínio. Ao aplicar essas estratégias, geramos um novo conjunto de dados, o MathFusionQA, seguido pelo ajuste fino de modelos (DeepSeekMath-7B, Mistral-7B, Llama3-8B) nele. Os resultados experimentais demonstram que o MathFusion alcança melhorias substanciais no raciocínio matemático, mantendo alta eficiência de dados, aumentando o desempenho em 18,0 pontos de precisão em diversos benchmarks, enquanto requer apenas 45K instruções sintéticas adicionais, representando uma melhoria significativa em relação às abordagens tradicionais de instrução única. Nossos conjuntos de dados, modelos e código estão disponíveis publicamente em https://github.com/QizhiPei/mathfusion.
Este artigo propõe um paradigma fundamentalmente novo para geração de imagens por meio de tokenização baseada em conjuntos e modelagem de distribuição. Diferente dos métodos convencionais que serializam imagens em códigos latentes de posição fixa com uma taxa de compressão uniforme, introduzimos uma representação de conjunto de tokens não ordenada para alocar dinamicamente a capacidade de codificação com base na complexidade semântica regional. Esse TokenSet aprimora a agregação de contexto global e melhora a robustez contra perturbações locais. Para abordar o desafio crítico de modelar conjuntos discretos, elaboramos um mecanismo de transformação dual que converte conjuntos de forma bijetiva em sequências de inteiros de comprimento fixo com restrições de soma. Além disso, propomos o Fixed-Sum Discrete Diffusion--o primeiro framework a lidar simultaneamente com valores discretos, comprimento fixo de sequência e invariância de soma--possibilitando uma modelagem eficaz da distribuição de conjuntos. Experimentos demonstram a superioridade do nosso método em representação semântica e qualidade de geração. Nossas inovações, abrangendo novas estratégias de representação e modelagem, avançam a geração visual além dos paradigmas tradicionais de tokens sequenciais. Nosso código e modelos estão publicamente disponíveis em https://github.com/Gengzigang/TokenSet.
Este artigo aborda o desafio da geração de movimento em fluxo condicionado por texto, que exige a previsão da próxima pose humana com base em movimentos históricos de comprimento variável e textos recebidos. Os métodos existentes enfrentam dificuldades para alcançar a geração de movimento em fluxo, por exemplo, modelos de difusão são limitados por comprimentos de movimento predefinidos, enquanto métodos baseados em GPT sofrem com resposta atrasada e acúmulo de erros devido à tokenização não causal discretizada. Para resolver esses problemas, propomos o MotionStreamer, uma nova estrutura que incorpora um espaço latente causal contínuo em um modelo autoregressivo probabilístico. Os latentes contínuos mitigam a perda de informação causada pela discretização e reduzem efetivamente o acúmulo de erros durante a geração autoregressiva de longo prazo. Além disso, ao estabelecer dependências causais temporais entre os latentes de movimento atuais e históricos, nosso modelo utiliza plenamente as informações disponíveis para alcançar uma decodificação de movimento online precisa. Experimentos mostram que nosso método supera as abordagens existentes, oferecendo mais aplicações, incluindo geração de múltiplas rodadas, geração de longo prazo e composição dinâmica de movimento. Página do Projeto: https://zju3dv.github.io/MotionStreamer/
Apresentamos o 3D Spatial MultiModal Memory (M3), um sistema de memória multimodal projetado para reter informações sobre cenas estáticas de médio porte por meio de fontes de vídeo para percepção visual. Ao integrar técnicas de 3D Gaussian Splatting com modelos de base, o M3 constrói uma memória multimodal capaz de renderizar representações de características em diferentes granularidades, abrangendo uma ampla gama de conhecimentos. Em nossa exploração, identificamos dois desafios principais em trabalhos anteriores sobre splatting de características: (1) restrições computacionais no armazenamento de características de alta dimensionalidade para cada primitiva Gaussiana, e (2) desalinhamento ou perda de informação entre características destiladas e características de modelos de base. Para abordar esses desafios, propomos o M3 com componentes-chave de componentes principais da cena e atenção de memória Gaussiana, permitindo treinamento e inferência eficientes. Para validar o M3, realizamos avaliações quantitativas abrangentes de similaridade de características e tarefas subsequentes, além de visualizações qualitativas para destacar o rastreamento de pixels da atenção de memória Gaussiana. Nossa abordagem abrange uma variedade de modelos de base, incluindo modelos de visão e linguagem (VLMs), modelos de percepção e grandes modelos multimodais e de linguagem (LMMs/LLMs). Além disso, para demonstrar a aplicabilidade no mundo real, implantamos o campo de características do M3 em cenas internas em um robô quadrúpede. Notavelmente, afirmamos que o M3 é o primeiro trabalho a abordar os principais desafios de compressão na destilação de características 3D.
A Edição de Conhecimento (Knowledge Editing, KE) permite a modificação de informações desatualizadas ou incorretas em modelos de linguagem de grande escala (Large Language Models, LLMs). Embora os métodos existentes de KE possam atualizar fatos isolados, eles têm dificuldade em generalizar essas atualizações para tarefas de raciocínio multi-hop que dependem do conhecimento modificado. Através de uma análise dos circuitos de raciocínio — os caminhos neurais que os LLMs utilizam para inferências baseadas em conhecimento —, observamos que as abordagens atuais de KE localizadas em camadas, como MEMIT e WISE, que editam apenas uma ou poucas camadas do modelo, têm dificuldade em incorporar efetivamente as informações atualizadas nesses circuitos de raciocínio. Para superar essa limitação, propomos o CaKE (Circuit-aware Knowledge Editing), um método inovador que permite uma integração mais eficaz do conhecimento atualizado em LLMs. O CaKE utiliza dados estrategicamente selecionados, guiados por nossa análise baseada em circuitos, que forçam o modelo a utilizar o conhecimento modificado, estimulando-o a desenvolver circuitos de raciocínio apropriados para o novo conhecimento integrado. Resultados experimentais mostram que o CaKE permite um uso mais preciso e consistente do conhecimento atualizado em tarefas de raciocínio relacionadas, levando a uma melhoria média de 20% na precisão de raciocínio multi-hop no conjunto de dados MQuAKE em comparação com os métodos existentes de KE. Disponibilizamos o código e os dados em https://github.com/zjunlp/CaKE.
Modelos de Transformers de Contexto Longo (LCTMs) são essenciais para aplicações do mundo real, mas sofrem com altos custos computacionais devido à complexidade quadrática do mecanismo de atenção. A atenção esparsa por blocos mitiga isso ao focar a computação em regiões críticas, mas os métodos existentes lutam para equilibrar precisão e eficiência devido às medições custosas da importância dos blocos. Neste artigo, introduzimos o XAttention, uma estrutura plug-and-play que acelera drasticamente a inferência de contexto longo em modelos Transformers usando atenção esparsa. A inovação-chave do XAttention é a percepção de que a soma dos valores antidiagonais (ou seja, do canto inferior esquerdo ao superior direito) na matriz de atenção fornece um poderoso indicador da importância dos blocos. Isso permite a identificação precisa e a poda de blocos não essenciais, resultando em alta esparsidade e inferência drasticamente acelerada. Em avaliações abrangentes em benchmarks exigentes de contexto longo — incluindo RULER e LongBench para linguagem, VideoMME para compreensão de vídeo e VBench para geração de vídeo — o XAttention alcança precisão comparável à atenção completa enquanto oferece ganhos computacionais substanciais. Demonstramos uma aceleração de até 13,5x no cálculo da atenção. Esses resultados destacam a capacidade do XAttention de desbloquear o potencial prático da atenção esparsa por blocos, pavimentando o caminho para a implantação escalável e eficiente de LCTMs em aplicações do mundo real. O código está disponível em https://github.com/mit-han-lab/x-attention.
O 4D Gaussian Splatting (4DGS) tem ganhado considerável atenção recentemente como um método para reconstrução de cenas dinâmicas. Apesar de alcançar qualidade superior, o 4DGS geralmente requer armazenamento substancial e sofre com velocidade de renderização lenta. Neste trabalho, investigamos esses problemas e identificamos duas fontes principais de redundância temporal. (Q1) Gaussianas de Curta Duração: o 4DGS utiliza uma grande porção de Gaussianas com curto intervalo temporal para representar a dinâmica da cena, resultando em um número excessivo de Gaussianas. (Q2) Gaussianas Inativas: durante a renderização, apenas um pequeno subconjunto de Gaussianas contribui para cada quadro. Apesar disso, todas as Gaussianas são processadas durante a rasterização, gerando sobrecarga computacional redundante. Para abordar essas redundâncias, apresentamos o 4DGS-1K, que opera a mais de 1000 FPS em GPUs modernas. Para Q1, introduzimos o Spatial-Temporal Variation Score, um novo critério de poda que remove efetivamente Gaussianas de curta duração, incentivando o 4DGS a capturar a dinâmica da cena usando Gaussianas com intervalos temporais mais longos. Para Q2, armazenamos uma máscara para Gaussianas ativas em quadros consecutivos, reduzindo significativamente os cálculos redundantes na renderização. Em comparação com o 4DGS tradicional, nosso método alcança uma redução de 41 vezes no armazenamento e uma velocidade de rasterização 9 vezes mais rápida em cenas dinâmicas complexas, mantendo qualidade visual comparável. Consulte nossa página do projeto em https://4DGS-1K.github.io.
Os modelos de difusão emergiram como um framework predominante na geração visual. Com base nesse sucesso, a integração de métodos de Mistura de Especialistas (MoE) tem mostrado potencial para melhorar a escalabilidade e o desempenho dos modelos. Neste artigo, apresentamos o Race-DiT, um novo modelo MoE para transformadores de difusão com uma estratégia de roteamento flexível, chamada Expert Race. Ao permitir que tokens e especialistas compitam juntos e selecionem os melhores candidatos, o modelo aprende a atribuir dinamicamente especialistas aos tokens críticos. Além disso, propomos uma regularização por camada para abordar desafios no aprendizado de camadas superficiais e uma perda de similaridade do roteador para evitar o colapso de modos, garantindo uma melhor utilização dos especialistas. Experimentos extensivos no ImageNet validam a eficácia da nossa abordagem, demonstrando ganhos significativos de desempenho e prometendo propriedades de escalabilidade.
Modelos de difusão texto-imagem têm alcançado progressos notáveis nos últimos anos. No entanto, treinar modelos para geração de imagens de alta resolução continua sendo um desafio, especialmente quando os dados de treinamento e os recursos computacionais são limitados. Neste artigo, exploramos esse problema prático a partir de duas perspectivas principais: eficiência de dados e de parâmetros, e propomos um conjunto de diretrizes-chave para adaptação de ultra-resolução, denominado URAE. Para eficiência de dados, demonstramos teórica e empiricamente que dados sintéticos gerados por alguns modelos professores podem promover significativamente a convergência do treinamento. Para eficiência de parâmetros, descobrimos que ajustar componentes menores das matrizes de peso supera adaptadores de baixa classificação amplamente utilizados quando dados sintéticos não estão disponíveis, oferecendo ganhos substanciais de desempenho enquanto mantém a eficiência. Além disso, para modelos que utilizam destilação de orientação, como o FLUX, mostramos que desabilitar a orientação livre de classificador, ou seja, definir a escala de orientação para 1 durante a adaptação, é crucial para um desempenho satisfatório. Experimentos extensivos validam que o URAE alcança desempenho comparável na geração de 2K aos modelos de última geração de código fechado, como o FLUX1.1 [Pro] Ultra, com apenas 3K amostras e 2K iterações, enquanto estabelece novos benchmarks para geração de resolução 4K. Os códigos estão disponíveis {aqui}.
Neste artigo, questionamos se temos um modelo confiável de nuvem de pontos auto-supervisionado que pode ser usado para diversas tarefas 3D por meio de uma simples sondagem linear, mesmo com dados limitados e computação mínima. Descobrimos que as abordagens existentes de aprendizado auto-supervisionado 3D ficam aquém quando avaliadas pela qualidade da representação através de sondagem linear. Nossa hipótese é que isso se deve ao que chamamos de "atalho geométrico", que faz com que as representações colapsem em características espaciais de baixo nível. Esse desafio é exclusivo do 3D e surge da natureza esparsa dos dados de nuvem de pontos. Nós o abordamos por meio de duas estratégias principais: obscurecer informações espaciais e aumentar a dependência das características de entrada, compondo, por fim, uma Sonata de 140 mil nuvens de pontos através de auto-distilação. A Sonata é simples e intuitiva, mas suas representações aprendidas são robustas e confiáveis: visualizações zero-shot demonstram agrupamento semântico, juntamente com um forte raciocínio espacial por meio de relações de vizinhos mais próximos. A Sonata demonstra uma eficiência excepcional em termos de parâmetros e dados, triplicando a precisão da sondagem linear (de 21,8% para 72,5%) no ScanNet e quase dobrando o desempenho com apenas 1% dos dados em comparação com abordagens anteriores. O ajuste fino completo avança ainda mais o estado da arte (SOTA) em tarefas de percepção 3D tanto internas quanto externas.
A classificação é uma tarefa fundamental no aprendizado de máquina. Pesquisas recentes mostraram que, embora os Modelos de Linguagem Multimodal de Grande Escala (MLLMs) inicialmente tenham desempenho ruim em classificação de imagens, o ajuste fino com uma quantidade adequada de dados pode melhorar significativamente seu desempenho, tornando-os comparáveis aos modelos de classificação state-of-the-art (SOTA). No entanto, a aquisição de dados em grande escala rotulados é custosa. Neste artigo, exploramos o ajuste fino de classificação em MLLMs com poucos exemplos. Descobrimos que o ajuste fino supervisionado (SFT) pode causar graves problemas de sobreajuste e até mesmo degradar o desempenho em relação à abordagem zero-shot. Para enfrentar esse desafio, inspirados pelos recentes sucessos no aprendizado por reforço baseado em regras, propomos o CLS-RL, que utiliza sinais verificáveis como recompensa para ajustar MLLMs. Descobrimos que o CLS-RL supera o SFT na maioria dos conjuntos de dados e apresenta uma precisão média muito maior tanto em cenários de aprendizado base-para-novo quanto de poucos exemplos. Além disso, observamos um fenômeno de "almoço grátis" para o CLS-RL; quando os modelos são ajustados em um conjunto de dados específico, seu desempenho em outros conjuntos de dados distintos também pode melhorar em relação aos modelos zero-shot, mesmo que esses conjuntos de dados difiram em distribuição e nomes de classes. Isso sugere que métodos baseados em aprendizado por reforço ensinam efetivamente os fundamentos da classificação aos modelos. Por fim, inspirados por trabalhos recentes sobre o processo de pensamento durante a inferência, reexaminamos o "processo de pensamento" durante o ajuste fino, um aspecto crítico dos métodos baseados em aprendizado por reforço, no contexto da classificação visual. Questionamos se tais tarefas exigem um extenso processo de pensamento durante o ajuste fino, propondo que isso pode, na verdade, prejudicar o desempenho. Com base nessa premissa, introduzimos o método No-Thinking-CLS-RL, que minimiza os processos de pensamento durante o treinamento ao definir uma recompensa de precisão igualitária. Nossos resultados indicam que, com um tempo de ajuste fino muito menor, o método No-Thinking-CLS-RL alcança desempenho superior no domínio e capacidades de generalização em relação ao CLS-RL.
Os avanços recentes na geração de vídeos levaram a melhorias notáveis na qualidade visual e na coerência temporal. Com base nisso, surgiu a geração de vídeos com controle de trajetória, permitindo o controle preciso do movimento de objetos por meio de caminhos espaciais explicitamente definidos. No entanto, os métodos existentes enfrentam dificuldades com movimentos complexos de objetos e o controle de movimento de múltiplos objetos, resultando em adesão imprecisa à trajetória, consistência deficiente dos objetos e qualidade visual comprometida. Além disso, esses métodos suportam apenas o controle de trajetória em um único formato, limitando sua aplicabilidade em cenários diversos. Adicionalmente, não há um conjunto de dados ou benchmark publicamente disponível especificamente projetado para geração de vídeos com controle de trajetória, o que dificulta o treinamento robusto e a avaliação sistemática. Para enfrentar esses desafios, apresentamos o MagicMotion, um novo framework de geração de imagem para vídeo que permite o controle de trajetória através de três níveis de condições, de densas a esparsas: máscaras, caixas delimitadoras e caixas esparsas. Dada uma imagem de entrada e trajetórias, o MagicMotion anima objetos de forma contínua ao longo das trajetórias definidas, mantendo a consistência dos objetos e a qualidade visual. Além disso, apresentamos o MagicData, um grande conjunto de dados de vídeos com controle de trajetória, juntamente com um pipeline automatizado para anotação e filtragem. Também introduzimos o MagicBench, um benchmark abrangente que avalia tanto a qualidade do vídeo quanto a precisão do controle de trajetória em diferentes números de objetos. Experimentos extensivos demonstram que o MagicMotion supera os métodos anteriores em várias métricas. Nossa página do projeto está publicamente disponível em https://quanhaol.github.io/magicmotion-site.
Neste artigo, exploramos a tarefa de gerar cenas externas expansivas, variando de castelos a arranha-céus. Diferente da geração de cenas internas, que tem sido o foco principal de trabalhos anteriores, a geração de cenas externas apresenta desafios únicos, incluindo grandes variações nas alturas das cenas e a necessidade de um método capaz de produzir rapidamente grandes paisagens. Para abordar isso, propomos uma abordagem eficiente que codifica partes da cena como conjuntos de vetores uniformes, oferecendo melhor compressão e desempenho do que os latentes espacialmente estruturados usados em métodos anteriores. Além disso, treinamos um modelo explícito de outpainting para geração ilimitada, que melhora a coerência em comparação com esquemas anteriores de inpainting baseados em reamostragem, ao mesmo tempo em que acelera a geração ao eliminar etapas extras de difusão. Para facilitar essa tarefa, criamos o NuiScene43, um conjunto pequeno, mas de alta qualidade, de cenas pré-processadas para treinamento conjunto. Notavelmente, quando treinado em cenas de estilos variados, nosso modelo pode combinar diferentes ambientes, como casas rurais e arranha-céus urbanos, dentro da mesma cena, destacando o potencial do nosso processo de curadoria para aproveitar cenas heterogêneas para treinamento conjunto.
A geração de avatares animáveis de cabeça normalmente requer dados extensos para treinamento. Para reduzir os requisitos de dados, uma solução natural é aproveitar métodos existentes de geração de avatares estáticos sem dados, como modelos de difusão pré-treinados com amostragem de destilação de pontuação (SDS), que alinham avatares com saídas pseudo ground-truth do modelo de difusão. No entanto, destilar diretamente avatares 4D a partir de vídeos de difusão frequentemente resulta em resultados excessivamente suavizados devido a inconsistências espaciais e temporais no vídeo gerado. Para resolver esse problema, propomos o Zero-1-to-A, um método robusto que sintetiza um conjunto de dados de consistência espacial e temporal para reconstrução de avatares 4D usando o modelo de difusão de vídeo. Especificamente, o Zero-1-to-A constrói iterativamente conjuntos de dados de vídeo e otimiza avatares animáveis de maneira progressiva, garantindo que a qualidade do avatar aumente de forma suave e consistente ao longo do processo de aprendizado. Esse aprendizado progressivo envolve duas etapas: (1) Aprendizado de Consistência Espacial, que fixa expressões e aprende de vistas frontais para laterais, e (2) Aprendizado de Consistência Temporal, que fixa as vistas e aprende de expressões relaxadas para exageradas, gerando avatares 4D de maneira simples para complexa. Experimentos extensivos demonstram que o Zero-1-to-A melhora a fidelidade, a qualidade da animação e a velocidade de renderização em comparação com métodos baseados em difusão existentes, fornecendo uma solução para a criação de avatares realistas. O código está disponível publicamente em: https://github.com/ZhenglinZhou/Zero-1-to-A.
Apresentamos o BigO(Bench), um novo benchmark de codificação projetado para avaliar as capacidades de modelos de linguagem generativa na compreensão e geração de código com complexidades de tempo e espaço especificadas. Este benchmark aborda a lacuna nas avaliações atuais que frequentemente negligenciam a capacidade dos modelos de compreender e produzir código restrito por complexidade computacional. O BigO(Bench) inclui ferramentas para inferir a complexidade algorítmica de qualquer função Python a partir de medições de perfilamento, incluindo soluções geradas por humanos ou LLMs. O BigO(Bench) também inclui um conjunto de 3.105 problemas de codificação e 1.190.250 soluções de Competições de Código anotadas com rótulos de complexidade de tempo e espaço inferidos (sintéticos) a partir do framework de complexidade, bem como valores correspondentes de tempo de execução e uso de memória para um grande conjunto de tamanhos de entrada. Apresentamos os resultados da avaliação de vários modelos de linguagem state-of-the-art neste benchmark, destacando seus pontos fortes e fracos no tratamento de requisitos de complexidade. Em particular, modelos de raciocínio no espaço de tokens são imbatíveis na geração de código, mas não na compreensão de complexidade, sugerindo que eles podem não generalizar bem para tarefas para as quais nenhuma recompensa foi dada durante o treinamento.
Apresentamos o PORTAL, uma estrutura inovadora para o desenvolvimento de agentes de inteligência artificial capazes de jogar milhares de videogames 3D por meio da geração de políticas guiadas por linguagem. Ao transformar problemas de tomada de decisão em tarefas de modelagem de linguagem, nossa abordagem aproveita modelos de linguagem de grande escala (LLMs) para gerar árvores de comportamento representadas em uma linguagem específica de domínio (DSL). Esse método elimina o custo computacional associado às abordagens tradicionais de aprendizado por reforço, preservando a profundidade estratégica e a rápida adaptabilidade. Nossa estrutura introduz uma estrutura de política híbrida que combina nós baseados em regras com componentes de redes neurais, permitindo tanto o raciocínio estratégico de alto nível quanto o controle preciso de baixo nível. Um mecanismo de feedback duplo, que incorpora métricas quantitativas do jogo e análises de modelos de visão-linguagem, facilita a melhoria iterativa das políticas em níveis táticos e estratégicos. As políticas resultantes são instantaneamente implantáveis, interpretáveis por humanos e capazes de generalizar em diversos ambientes de jogo. Resultados experimentais demonstram a eficácia do PORTAL em milhares de jogos de tiro em primeira pessoa (FPS), mostrando melhorias significativas na eficiência de desenvolvimento, generalização de políticas e diversidade de comportamentos em comparação com abordagens tradicionais. O PORTAL representa um avanço significativo no desenvolvimento de IA para jogos, oferecendo uma solução prática para a criação de agentes sofisticados que podem operar em milhares de videogames comerciais com um custo mínimo de desenvolvimento. Os resultados dos experimentos em videogames 3D podem ser visualizados em https://zhongwen.one/projects/portal.
Modelos autoregressivos têm demonstrado sucesso notável na geração de imagens ao adaptar técnicas de previsão sequencial da modelagem de linguagem. No entanto, aplicar essas abordagens a imagens requer a discretização de dados de pixels contínuos por meio de métodos de quantização vetorial, como o VQ-VAE. Para mitigar os erros de quantização presentes no VQ-VAE, trabalhos recentes tendem a usar codebooks maiores. Entretanto, isso expande proporcionalmente o tamanho do vocabulário, complicando a tarefa de modelagem autoregressiva. Este artigo tem como objetivo encontrar uma maneira de aproveitar os benefícios de codebooks grandes sem tornar a modelagem autoregressiva mais difícil. Por meio de investigação empírica, descobrimos que tokens com representações de palavras-código semelhantes produzem efeitos similares na imagem final gerada, revelando uma redundância significativa em codebooks grandes. Com base nessa percepção, propomos prever tokens de forma grossa para fina (CTF), realizada ao atribuir o mesmo rótulo grosso para tokens semelhantes. Nosso framework consiste em duas etapas: (1) um modelo autoregressivo que prevê sequencialmente rótulos grossos para cada token na sequência, e (2) um modelo auxiliar que prevê simultaneamente rótulos refinados para todos os tokens condicionados aos seus rótulos grossos. Experimentos no ImageNet demonstram o desempenho superior do nosso método, alcançando uma melhoria média de 59 pontos no Inception Score em comparação com as baselines. Notavelmente, apesar de adicionar uma etapa de inferência, nossa abordagem alcança velocidades de amostragem mais rápidas.
A natureza complexa da segmentação de imagens médicas exige modelos que sejam especificamente projetados para capturar características detalhadas e específicas do domínio. Modelos de base grandes oferecem considerável flexibilidade, mas o custo de ajuste fino desses modelos continua sendo uma barreira significativa. Métodos de Ajuste Fino Eficiente em Parâmetros (PEFT), como a Adaptação de Baixa Classificação (LoRA), atualizam eficientemente os pesos do modelo com matrizes de baixa classificação, mas podem sofrer de subajuste quando a classificação escolhida é insuficiente para capturar nuances específicas do domínio. Por outro lado, métodos baseados em Decomposição em Valores Singulares (SVD) de classificação completa fornecem atualizações abrangentes modificando todos os valores singulares, mas muitas vezes carecem de flexibilidade e apresentam desempenho variável entre conjuntos de dados. Propomos o SALT (Adaptação de Valores Singulares com Transformação de Baixa Classificação), um método que adapta seletivamente os valores singulares mais influentes usando parâmetros de escala e deslocamento treináveis, enquanto complementa isso com uma atualização de baixa classificação para o subespaço restante. Essa abordagem híbrida aproveita as vantagens tanto do LoRA quanto do SVD, permitindo uma adaptação eficaz sem depender do aumento do tamanho ou da profundidade do modelo. Avaliado em 5 conjuntos de dados médicos desafiadores, variando de apenas 20 amostras a 1000, o SALT supera os PEFT de última geração (LoRA e SVD) em 2% a 5% no índice Dice com apenas 3,9% dos parâmetros treináveis, demonstrando uma adaptação robusta mesmo em cenários de baixos recursos. O código do SALT está disponível em: https://github.com/BioMedIA-MBZUAI/SALT
Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) têm demonstrado desempenho promissor em tarefas de compreensão e raciocínio visuo-linguístico. No entanto, seus comportamentos de compreensão visual permanecem pouco explorados. Surge uma questão fundamental: até que ponto os LVLMs dependem da entrada visual e quais regiões da imagem contribuem para suas respostas? É não trivial interpretar a geração de forma livre dos LVLMs devido à sua arquitetura visual complexa (por exemplo, múltiplos codificadores e multi-resolução) e saídas de comprimento variável. Neste artigo, estendemos métodos existentes de visualização de mapas de calor (por exemplo, iGOS++) para suportar LVLMs em tarefas de resposta visual aberta. Propomos um método para selecionar tokens visualmente relevantes que refletem a relação entre as respostas geradas e a imagem de entrada. Além disso, realizamos uma análise abrangente de LVLMs de última geração em benchmarks projetados para exigir informações visuais para responder. Nossas descobertas oferecem várias percepções sobre o comportamento dos LVLMs, incluindo a relação entre a região de foco e a correção da resposta, diferenças na atenção visual entre arquiteturas e o impacto da escala do modelo de linguagem (LLM) na compreensão visual. O código e os dados estão disponíveis em https://github.com/bytedance/LVLM_Interpretation.
Os avanços recentes em modelos de linguagem de grande escala e suas extensões multimodais demonstraram a eficácia de unificar geração e compreensão por meio da previsão autoregressiva do próximo token. No entanto, apesar do papel crítico da geração e compreensão de estruturas 3D ({3D GU}) na IA para ciência, essas tarefas evoluíram em grande parte de forma independente, com métodos autoregressivos permanecendo pouco explorados. Para preencher essa lacuna, introduzimos o Uni-3DAR, um framework unificado que integra de forma contínua tarefas de {3D GU} por meio de previsão autoregressiva. No seu núcleo, o Uni-3DAR emprega uma nova tokenização hierárquica que comprime o espaço 3D usando uma octree, aproveitando a esparsidade inerente das estruturas 3D. Em seguida, aplica uma tokenização adicional para detalhes estruturais refinados, capturando atributos-chave como tipos de átomos e coordenadas espaciais precisas em estruturas 3D microscópicas. Propomos ainda duas otimizações para melhorar a eficiência e a eficácia. A primeira é uma estratégia de compressão de subárvore em dois níveis, que reduz a sequência de tokens da octree em até 8x. A segunda é um mecanismo de previsão mascarada do próximo token, adaptado para posições de tokens que variam dinamicamente, aumentando significativamente o desempenho do modelo. Ao combinar essas estratégias, o Uni-3DAR unifica com sucesso diversas tarefas de {3D GU} em um único framework autoregressivo. Experimentos extensos em múltiplas tarefas de {3D GU} microscópicas, incluindo moléculas, proteínas, polímeros e cristais, validam sua eficácia e versatilidade. Notavelmente, o Uni-3DAR supera os modelos de difusão anteriores de última geração por uma margem substancial, alcançando uma melhoria relativa de até 256\% enquanto oferece velocidades de inferência até 21,8x mais rápidas. O código está disponível publicamente em https://github.com/dptech-corp/Uni-3DAR.
A geração de moléculas 3D é crucial para a descoberta de medicamentos e a ciência dos materiais, exigindo que os modelos processem complexas multi-modalidades, incluindo tipos de átomos, ligações químicas e coordenadas 3D. Um desafio fundamental é integrar essas modalidades de diferentes formas, mantendo a equivariância SE(3) para as coordenadas 3D. Para alcançar isso, as abordagens existentes geralmente mantêm espaços latentes separados para modalidades invariantes e equivariantes, reduzindo a eficiência tanto no treinamento quanto na amostragem. Neste trabalho, propomos o **Unified Variational Auto-Encoder for 3D Molecular Latent Diffusion Modeling (UAE-3D)**, um VAE multi-modal que comprime moléculas 3D em sequências latentes a partir de um espaço latente unificado, mantendo um erro de reconstrução próximo de zero. Esse espaço latente unificado elimina as complexidades de lidar com multi-modalidade e equivariância ao realizar a modelagem de difusão latente. Demonstramos isso empregando o **Diffusion Transformer**—um modelo de difusão de propósito geral sem qualquer viés indutivo molecular—para a geração latente. Experimentos extensivos nos conjuntos de dados GEOM-Drugs e QM9 demonstram que nosso método estabelece novos benchmarks significativos tanto na geração de moléculas 3D de novo quanto condicional, alcançando eficiência e qualidade líderes.
Os métodos populares de treinamento de vídeo operam principalmente em um número fixo de tokens amostrados a partir de uma grade espaço-temporal predeterminada, resultando em trade-offs de precisão-computação subótimos devido à redundância inerente dos vídeos. Eles também carecem de adaptabilidade a orçamentos computacionais variáveis para tarefas subsequentes, dificultando a aplicação do modelo mais competitivo em cenários do mundo real. Assim, propomos um novo cenário de teste, chamado Otimização de Tokens, para maximizar a informação de entrada em diferentes orçamentos, o que otimiza o conjunto limitado de tokens de entrada por meio da seleção de tokens a partir de vídeos amostrados de forma mais adequada. Para isso, propomos uma nova ferramenta de aumento chamada Flux. Ao tornar a grade de amostragem flexível e aproveitar a seleção de tokens, ela é facilmente adotada na maioria dos frameworks populares de treinamento de vídeo, aumentando a robustez do modelo com quase nenhum custo adicional. Integramos o Flux no pré-treinamento de vídeo em larga escala, e o resultado, o FluxViT, estabelece novos resultados state-of-the-art em uma ampla gama de tarefas a custos padrão. Notavelmente, com apenas 1/4 dos tokens, ele ainda pode igualar o desempenho dos modelos state-of-the-art anteriores com Otimização de Tokens, gerando uma economia de quase 90%. Todos os modelos e dados estão disponíveis em https://github.com/OpenGVLab/FluxViT.
Modelos de visão e linguagem (VL) têm demonstrado um forte desempenho em diversas tarefas. No entanto, esses modelos frequentemente dependem de uma modalidade específica para fazer previsões, levando ao "viés de modalidade dominante". Esse viés prejudica significativamente o desempenho, especialmente quando uma modalidade está comprometida. Neste estudo, analisamos o comportamento do modelo sob o viés de modalidade dominante e mostramos teoricamente que gradientes desalinhados ou diferenças nas magnitudes dos gradientes impedem a convergência equilibrada da perda. Com base nessas descobertas, propomos uma nova estrutura, o BalGrad, para mitigar o viés de modalidade dominante. Nossa abordagem inclui o reajuste de gradientes intermodais, ajustando o gradiente da divergência KL com base na contribuição de cada modalidade, e a projeção de gradientes intertarefas para alinhar as direções das tarefas de forma não conflitante. Experimentos nos conjuntos de dados UPMC Food-101, Hateful Memes e MM-IMDb confirmam que o BalGrad efetivamente reduz a dependência excessiva de modalidades específicas ao fazer previsões.
A personalização de identidade em vídeo busca produzir vídeos de alta fidelidade que mantenham uma identidade consistente e exibam dinâmicas significativas com base em imagens de referência dos usuários. No entanto, as abordagens existentes enfrentam dois desafios principais: a degradação da identidade ao longo de vídeos extensos e a redução das dinâmicas durante o treinamento, principalmente devido à dependência da tradicional reconstrução automática com imagens estáticas. Para resolver esses problemas, introduzimos o MagicID, uma nova estrutura projetada para promover diretamente a geração de vídeos com identidade consistente e dinâmicas ricas, adaptados às preferências do usuário. Especificamente, propomos a construção de dados de vídeo com preferências pareadas, contendo recompensas explícitas de identidade e dinâmica para o aprendizado de preferências, em vez de nos limitarmos à reconstrução automática tradicional. Para lidar com as limitações dos dados personalizados de preferência, introduzimos uma estratégia de amostragem híbrida. Essa abordagem prioriza primeiro a preservação da identidade ao aproveitar vídeos estáticos derivados de imagens de referência e, em seguida, melhora a qualidade do movimento dinâmico nos vídeos gerados usando um método de amostragem baseado em Fronteira. Ao utilizar esses pares de preferências híbridas, otimizamos o modelo para alinhar-se às diferenças de recompensa entre os pares de preferências personalizadas. Experimentos extensivos mostram que o MagicID alcança com sucesso uma identidade consistente e dinâmicas naturais, superando os métodos existentes em várias métricas.
Com o rápido crescimento dos modelos generativos de vídeo (VGMs), é essencial desenvolver métricas automáticas confiáveis e abrangentes para vídeos gerados por IA (AIGVs). Os métodos existentes ou utilizam modelos prontos otimizados para outras tarefas ou dependem de dados de avaliação humana para treinar avaliadores especializados. Essas abordagens são limitadas a aspectos específicos de avaliação e são difíceis de escalar com as demandas crescentes por avaliações mais detalhadas e abrangentes. Para resolver esse problema, este trabalho investiga a viabilidade de usar modelos de linguagem multimodal de grande escala (MLLMs) como avaliadores unificados para AIGVs, aproveitando suas fortes capacidades de percepção visual e compreensão de linguagem. Para avaliar o desempenho das métricas automáticas na avaliação unificada de AIGVs, introduzimos um benchmark chamado UVE-Bench. O UVE-Bench coleta vídeos gerados por VGMs de última geração e fornece anotações de preferência humana em pares em 15 aspectos de avaliação. Usando o UVE-Bench, avaliamos extensivamente 16 MLLMs. Nossos resultados empíricos sugerem que, embora MLLMs avançados (por exemplo, Qwen2VL-72B e InternVL2.5-78B) ainda estejam atrás dos avaliadores humanos, eles demonstram uma capacidade promissora na avaliação unificada de AIGVs, superando significativamente os métodos de avaliação especializados existentes. Além disso, realizamos uma análise aprofundada das principais escolhas de design que impactam o desempenho dos avaliadores baseados em MLLMs, oferecendo insights valiosos para pesquisas futuras sobre avaliação de AIGVs. O código está disponível em https://github.com/bytedance/UVE.
Propomos o VideoRFSplat, um modelo direto de texto-para-3D que utiliza um modelo de geração de vídeo para criar representações realistas de 3D Gaussian Splatting (3DGS) para cenas do mundo real sem limites. Para gerar poses de câmera diversas e extensão espacial ilimitada de cenas do mundo real, garantindo generalização para prompts de texto arbitrários, métodos anteriores ajustam modelos generativos 2D para modelar conjuntamente poses de câmera e imagens de múltiplas vistas. No entanto, esses métodos enfrentam instabilidade ao estender modelos generativos 2D para modelagem conjunta devido à lacuna de modalidade, o que exige modelos adicionais para estabilizar o treinamento e a inferência. Neste trabalho, propomos uma arquitetura e uma estratégia de amostragem para modelar conjuntamente imagens de múltiplas vistas e poses de câmera ao ajustar um modelo de geração de vídeo. Nossa ideia central é uma arquitetura de fluxo duplo que acopla um modelo dedicado de geração de poses a um modelo de geração de vídeo pré-treinado por meio de blocos de comunicação, gerando imagens de múltiplas vistas e poses de câmera através de fluxos separados. Esse design reduz a interferência entre as modalidades de pose e imagem. Além disso, propomos uma estratégia de amostragem assíncrona que remove ruídos das poses de câmera mais rapidamente do que das imagens de múltiplas vistas, permitindo que poses rapidamente limpas condicionem a geração de múltiplas vistas, reduzindo ambiguidade mútua e melhorando a consistência cross-modal. Treinado em múltiplos conjuntos de dados de grande escala do mundo real (RealEstate10K, MVImgNet, DL3DV-10K, ACID), o VideoRFSplat supera os métodos existentes de geração direta de texto-para-3D que dependem fortemente de refinamento pós-processo via amostragem de destilação de pontuação, alcançando resultados superiores sem tal refinamento.
Ferramentas de conclusão de código baseadas em deep learning (DL) transformaram o desenvolvimento de software ao permitir a geração avançada de código. Essas ferramentas utilizam modelos treinados em grandes quantidades de código de diversos repositórios, capturando padrões gerais de codificação. No entanto, o impacto do ajuste fino desses modelos para organizações ou desenvolvedores específicos, a fim de melhorar seu desempenho nesses contextos, permanece inexplorado. Neste trabalho, preenchemos essa lacuna apresentando evidências empíricas sólidas que respondem a essa questão. Mais especificamente, consideramos 136 desenvolvedores de duas organizações (Apache e Spring), duas arquiteturas de modelos (T5 e Code Llama) e três tamanhos de modelos (60M, 750M e 7B parâmetros treináveis). Os modelos T5 (60M, 750M) foram pré-treinados e ajustados em mais de 2.000 projetos de código aberto, excluindo os dados das organizações em estudo, e comparados com versões ajustadas em conjuntos de dados específicos das organizações e dos desenvolvedores. Para o modelo Code Llama (7B), comparamos o desempenho do modelo já pré-treinado disponível publicamente online com o mesmo modelo ajustado via ajuste fino eficiente em parâmetros em conjuntos de dados específicos das organizações e dos desenvolvedores. Nossos resultados mostram que há um aumento nas capacidades de previsão proporcionado tanto por um ajuste fino adicional específico da organização quanto por um ajuste fino específico do desenvolvedor, com o primeiro sendo particularmente eficiente. Tal descoberta se generaliza para (i) as duas organizações em estudo (ou seja, Apache e Spring) e (ii) modelos de magnitudes completamente diferentes (de 60M a 7B parâmetros treináveis). Por fim, mostramos que modelos DL ajustados em um conjunto de dados específico da organização alcançam o mesmo desempenho de conclusão de modelos de código pré-treinados usados diretamente e que são aproximadamente 10 vezes maiores, com consequente economia em termos de custos de implantação e inferência (por exemplo, GPUs menores necessárias).
A geração de legendas para imagens tem sido uma tarefa fundamental no entendimento visual, com os recentes avanços em modelos de visão e linguagem (VLMs) aprimorando significativamente a capacidade de gerar legendas detalhadas para imagens. No entanto, a avaliação de legendas detalhadas ainda é pouco explorada devido a métricas de avaliação desatualizadas e anotações pouco refinadas. Neste artigo, apresentamos o DeCapBench juntamente com uma nova métrica, o DCScore, especificamente projetada para tarefas de legendagem detalhada. O DCScore avalia alucinações e a abrangência em nível granular ao desconstruir as respostas nas menores unidades autossuficientes, denominadas unidades primitivas de informação, e avaliá-las individualmente. Nossa avaliação mostra que o DCScore está mais alinhado com o julgamento humano do que outras métricas baseadas em regras ou modelos. Paralelamente, o DeCapBench exibe uma alta correlação com os resultados da arena de VLMs em tarefas descritivas, superando os benchmarks existentes para modelos de visão e linguagem. Além disso, apresentamos um método automático de coleta de feedback granular, o FeedQuill, para otimização de preferências com base em nossa métrica avançada, demonstrando capacidades robustas de generalização em dados de preferência gerados automaticamente. Experimentos extensivos em múltiplos VLMs mostram que nosso método não apenas reduz significativamente as alucinações, mas também melhora o desempenho em vários benchmarks, alcançando uma performance superior na geração de legendas detalhadas e superando o GPT-4o.
Este artigo apresenta o Deceptive Humor Dataset (DHD), um recurso inovador para o estudo do humor derivado de alegações fabricadas e desinformação. Em uma era de desinformação desenfreada, compreender como o humor se entrelaça com o engano é essencial. O DHD consiste em comentários infundidos de humor gerados a partir de narrativas falsas, incorporando alegações fabricadas e informações manipuladas utilizando o modelo ChatGPT-4o. Cada instância é rotulada com um Nível de Sátira, variando de 1 para sátira sutil a 3 para sátira de alto nível, e classificada em cinco Categorias de Humor distintas: Humor Negro, Ironia, Comentário Social, Jogo de Palavras e Absurdo. O conjunto de dados abrange vários idiomas, incluindo inglês, telugu, hindi, kannada, tâmil e suas variantes mistas (Te-En, Hi-En, Ka-En, Ta-En), tornando-o um benchmark multilingue valioso. Ao introduzir o DHD, estabelecemos uma base estruturada para analisar o humor em contextos enganosos, abrindo caminho para uma nova direção de pesquisa que explora como o humor não apenas interage com a desinformação, mas também influencia sua percepção e disseminação. Estabelecemos bases sólidas para o conjunto de dados proposto, fornecendo uma fundação para pesquisas futuras que possam avaliar e avançar modelos de detecção de humor enganoso.
O pré-treinamento auto-supervisionado baseado na previsão do próximo token permitiu que grandes modelos de linguagem capturassem a estrutura subjacente do texto, levando a um desempenho sem precedentes em uma ampla gama de tarefas quando aplicado em escala. Da mesma forma, a condução autônoma gera grandes quantidades de dados espaço-temporais, sugerindo a possibilidade de aproveitar a escala para aprender a estrutura geométrica e semântica subjacente do ambiente e sua evolução ao longo do tempo. Nessa direção, propomos um método de pré-treinamento auto-supervisionado geométrico e semântico, GASP, que aprende uma representação unificada prevendo, em qualquer ponto futuro consultado no espaço-tempo, (1) a ocupação geral, capturando a estrutura evolutiva da cena 3D; (2) a ocupação do ego, modelando o trajeto do veículo ego pelo ambiente; e (3) características de alto nível destiladas de um modelo de fundação de visão. Ao modelar campos de ocupação geométrica e semântica 4D em vez de medições brutas de sensores, o modelo aprende uma representação estruturada e generalizável do ambiente e sua evolução ao longo do tempo. Validamos o GASP em vários benchmarks de condução autônoma, demonstrando melhorias significativas na previsão de ocupação semântica, mapeamento online e previsão da trajetória do ego. Nossos resultados mostram que a previsão contínua de ocupação geométrica e semântica 4D fornece um paradigma de pré-treinamento escalável e eficaz para a condução autônoma. Para código e visualizações adicionais, consulte \href{https://research.zenseact.com/publications/gasp/.
Com o surgimento da IA generativa, a síntese de figuras a partir de legendas de texto tornou-se uma aplicação atraente. No entanto, alcançar alta precisão geométrica e editabilidade requer representar figuras como programas gráficos em linguagens como TikZ, e dados de treinamento alinhados (ou seja, programas gráficos com legendas) ainda são escassos. Enquanto isso, grandes quantidades de programas gráficos não alinhados e imagens rasterizadas legendadas estão mais facilmente disponíveis. Nós reconciliamos essas fontes de dados distintas apresentando o TikZero, que desacopla a geração de programas gráficos da compreensão de texto ao usar representações de imagem como uma ponte intermediária. Ele permite o treinamento independente em programas gráficos e imagens legendadas e possibilita a síntese de programas gráficos guiada por texto em zero-shot durante a inferência. Mostramos que nosso método supera substancialmente as abordagens baselines que só podem operar com programas gráficos alinhados a legendas. Além disso, ao aproveitar programas gráficos alinhados a legendas como um sinal de treinamento complementar, o TikZero iguala ou supera o desempenho de modelos muito maiores, incluindo sistemas comerciais como o GPT-4o. Nosso código, conjuntos de dados e modelos selecionados estão publicamente disponíveis.
A adesão aos tratamentos prescritos é crucial para indivíduos com condições crônicas, a fim de evitar resultados de saúde dispendiosos ou adversos. Para certos grupos de pacientes, intervenções intensivas no estilo de vida são vitais para melhorar a adesão à medicação. A previsão precisa da adesão ao tratamento pode abrir caminhos para o desenvolvimento de uma ferramenta de intervenção sob demanda, permitindo suporte oportuno e personalizado. Com a crescente popularidade de smartphones e wearables, agora é mais fácil do que nunca desenvolver e implantar sistemas inteligentes de monitoramento de atividades. No entanto, sistemas eficazes de previsão de adesão ao tratamento baseados em sensores vestíveis ainda não estão amplamente disponíveis. Nós preenchemos essa lacuna propondo o Adherence Forecasting and Intervention with Machine Intelligence (AIMI). O AIMI é um sistema de previsão de adesão guiado por conhecimento que aproveita os sensores de smartphones e o histórico anterior de medicação para estimar a probabilidade de esquecer de tomar um medicamento prescrito. Um estudo de usuário foi conduzido com 27 participantes que tomavam medicamentos diários para gerenciar suas doenças cardiovasculares. Projetamos e desenvolvemos modelos de previsão baseados em CNN e LSTM com várias combinações de características de entrada e descobrimos que os modelos LSTM podem prever a adesão à medicação com uma precisão de 0,932 e um F-1 score de 0,936. Além disso, por meio de uma série de estudos de ablação envolvendo arquiteturas de redes neurais convolucionais e recorrentes, demonstramos que o aproveitamento de conhecimentos conhecidos sobre o futuro e o treinamento personalizado aumenta a precisão da previsão de adesão à medicação. Código disponível: https://github.com/ab9mamun/AIMI.