Artigos de pesquisa em IA selecionados diariamente com traduções
Modelos de Linguagem de Grande Escala (LLMs) alcançaram sucesso notável no processamento de linguagem natural. Avanços recentes levaram ao desenvolvimento de uma nova classe de LLMs de raciocínio; por exemplo, o modelo de código aberto DeepSeek-R1 atingiu desempenho de ponta ao integrar pensamento profundo e raciocínio complexo. Apesar dessas capacidades impressionantes, os mecanismos internos de raciocínio desses modelos permanecem inexplorados. Neste trabalho, empregamos Autoencoders Esparsos (SAEs), um método para aprender uma decomposição esparsa das representações latentes de uma rede neural em características interpretáveis, para identificar as características que impulsionam o raciocínio na série de modelos DeepSeek-R1. Primeiro, propomos uma abordagem para extrair candidatos a "características de raciocínio" das representações dos SAEs. Validamos essas características por meio de análise empírica e métodos de interpretabilidade, demonstrando sua correlação direta com as habilidades de raciocínio do modelo. Crucialmente, mostramos que a manipulação sistemática dessas características melhora o desempenho do raciocínio, oferecendo a primeira explicação mecanicista do raciocínio em LLMs. Código disponível em https://github.com/AIRI-Institute/SAE-Reasoning.
Com a capacidade de escalar dados de treinamento, tamanho do modelo e custo computacional, a geração de vídeo tem alcançado resultados impressionantes na criação digital, permitindo que os usuários expressem sua criatividade em diversos domínios. Recentemente, pesquisadores em Modelos de Linguagem de Grande Escala (LLMs) expandiram a escalabilidade para o tempo de teste, o que pode melhorar significativamente o desempenho dos LLMs ao utilizar mais computação durante a inferência. Em vez de escalar modelos de base de vídeo por meio de custos de treinamento elevados, exploramos o poder da Escalabilidade em Tempo de Teste (TTS) na geração de vídeo, com o objetivo de responder à pergunta: se um modelo de geração de vídeo puder usar uma quantidade não trivial de computação durante a inferência, quanto ele pode melhorar a qualidade da geração diante de um prompt de texto desafiador? Neste trabalho, reinterpretamos a escalabilidade em tempo de teste da geração de vídeo como um problema de busca para amostrar trajetórias melhores do espaço de ruído gaussiano para a distribuição de vídeo alvo. Especificamente, construímos o espaço de busca com verificadores em tempo de teste para fornecer feedback e algoritmos heurísticos para guiar o processo de busca. Dado um prompt de texto, primeiro exploramos uma estratégia de busca linear intuitiva, aumentando os candidatos de ruído durante a inferência. Como a remoção de ruído em todos os quadros simultaneamente exige um custo computacional pesado em tempo de teste, projetamos um método TTS mais eficiente para geração de vídeo, chamado Árvore de Quadros (ToF), que expande e poda ramificações de vídeo de forma autorregressiva. Experimentos extensivos em benchmarks de geração de vídeo condicionada por texto demonstram que o aumento da computação em tempo de teste leva consistentemente a melhorias significativas na qualidade dos vídeos. Página do projeto: https://liuff19.github.io/Video-T1
O desenvolvimento moderno de jogos enfrenta desafios significativos em criatividade e custo devido ao conteúdo predeterminado nas engines de jogos tradicionais. Avanços recentes em modelos de geração de vídeo, capazes de sintetizar ambientes virtuais realistas e interativos, apresentam uma oportunidade para revolucionar a criação de jogos. Neste artigo de posicionamento, propomos o Vídeo Generativo Interativo (VGI) como a base para Engines de Jogos Generativos (EJG), permitindo a geração ilimitada de conteúdo novo na próxima geração de jogos. A EJG aproveita os pontos fortes únicos do VGI na síntese de conteúdo de alta qualidade ilimitado, modelagem de mundos com consciência física, interatividade controlada pelo usuário, capacidades de memória de longo prazo e raciocínio causal. Apresentamos um framework abrangente detalhando os módulos centrais da EJG e um roteiro de maturidade hierárquico (L0-L4) para orientar sua evolução. Nosso trabalho traça um novo rumo para o desenvolvimento de jogos na era da IA, vislumbrando um futuro onde sistemas generativos alimentados por IA remodelam fundamentalmente a forma como os jogos são criados e experienciados.
O DeepSeek-R1 demonstrou que o raciocínio de cadeia longa de pensamento (CoT, na sigla em inglês) pode emergir naturalmente por meio de uma estrutura simples de aprendizado por reforço (RL, na sigla em inglês) com recompensas baseadas em regras, onde o treinamento pode começar diretamente a partir dos modelos base — um paradigma referido como treinamento zero RL. A maioria dos esforços recentes para reproduzir o treinamento zero RL tem se concentrado principalmente na série de modelos Qwen2.5, que pode não ser representativa, pois descobrimos que os modelos base já exibem fortes habilidades de seguir instruções e de autorreflexão. Neste trabalho, investigamos o treinamento zero RL em 10 modelos base diversos, abrangendo diferentes famílias e tamanhos, incluindo LLama3-8B, Mistral-7B/24B, DeepSeek-Math-7B, Qwen2.5-math-7B e todos os modelos Qwen2.5 de 0.5B a 32B. Aproveitando várias estratégias de design-chave — como ajustar a recompensa de formato e controlar a dificuldade das consultas — alcançamos melhorias substanciais tanto na precisão do raciocínio quanto no comprimento das respostas na maioria das configurações. No entanto, ao monitorar cuidadosamente a dinâmica do treinamento, observamos que diferentes modelos base exibem padrões distintos durante o treinamento. Por exemplo, o aumento no comprimento da resposta nem sempre está correlacionado com o surgimento de certos comportamentos cognitivos, como a verificação (ou seja, o "momento eureka"). Notavelmente, observamos o "momento eureka" pela primeira vez em modelos pequenos que não pertencem à família Qwen. Compartilhamos os designs-chave que permitem o sucesso do treinamento zero RL, juntamente com nossas descobertas e práticas. Para facilitar pesquisas futuras, disponibilizamos o código, os modelos e as ferramentas de análise como código aberto.
A integração entre reconstrução geométrica e modelagem generativa continua sendo um desafio crítico no desenvolvimento de sistemas de IA capazes de raciocínio espacial semelhante ao humano. Este artigo propõe o Aether, um framework unificado que permite raciocínio consciente da geometria em modelos de mundo, otimizando conjuntamente três capacidades principais: (1) reconstrução dinâmica 4D, (2) previsão de vídeo condicionada por ações e (3) planejamento visual condicionado por objetivos. Por meio do aprendizado de características intercaladas por tarefas, o Aether alcança compartilhamento sinérgico de conhecimento entre objetivos de reconstrução, previsão e planejamento. Baseando-se em modelos de geração de vídeo, nosso framework demonstra generalização sintético-real sem precedentes, apesar de nunca ter observado dados do mundo real durante o treinamento. Além disso, nossa abordagem alcança generalização zero-shot tanto em tarefas de seguimento de ações quanto de reconstrução, graças à sua modelagem geométrica intrínseca. Notavelmente, mesmo sem dados do mundo real, seu desempenho de reconstrução supera amplamente o de modelos específicos de domínio. Adicionalmente, o Aether aproveita um espaço de ação informado pela geometria para traduzir previsões em ações de forma contínua, permitindo planejamento autônomo eficaz de trajetórias. Esperamos que nosso trabalho inspire a comunidade a explorar novas fronteiras na modelagem de mundo fisicamente plausível e suas aplicações.
O Omnimatte tem como objetivo decompor um vídeo dado em camadas semanticamente significativas, incluindo o plano de fundo e objetos individuais, juntamente com seus efeitos associados, como sombras e reflexos. Os métodos existentes frequentemente exigem treinamento extensivo ou otimização auto-supervisionada custosa. Neste artigo, apresentamos o OmnimatteZero, uma abordagem sem necessidade de treinamento que aproveita modelos de difusão de vídeo pré-treinados prontos para uso para o Omnimatte. Ele pode remover objetos de vídeos, extrair camadas de objetos individuais junto com seus efeitos e compor esses objetos em novos vídeos. Conseguimos isso adaptando técnicas de inpainting de imagem zero-shot para a remoção de objetos em vídeos, uma tarefa que elas não conseguem lidar efetivamente de forma direta. Em seguida, mostramos que mapas de auto-atenção capturam informações sobre o objeto e suas pegadas e os utilizamos para inpaintar os efeitos do objeto, deixando um fundo limpo. Além disso, por meio de uma simples aritmética latente, as camadas de objetos podem ser isoladas e recombinadas de forma contínua com novas camadas de vídeo para produzir novos vídeos. As avaliações mostram que o OmnimatteZero não apenas alcança um desempenho superior em termos de reconstrução de fundo, mas também estabelece um novo recorde para a abordagem mais rápida do Omnimatte, atingindo desempenho em tempo real com tempo mínimo de execução por quadro.
O progresso na descoberta científica raramente é o resultado de um único momento de "Eureka", mas sim o produto de centenas de cientistas trabalhando incrementalmente em conjunto em direção a um objetivo comum. Embora os fluxos de trabalho existentes de agentes sejam capazes de produzir pesquisas de forma autônoma, eles o fazem isoladamente, sem a capacidade de melhorar continuamente os resultados de pesquisas anteriores. Para enfrentar esses desafios, apresentamos o AgentRxiv - uma estrutura que permite que laboratórios de agentes de LLM enviem e recuperem relatórios de um servidor de pré-publicações compartilhado, a fim de colaborar, compartilhar insights e construir iterativamente sobre as pesquisas uns dos outros. Atribuímos a laboratórios de agentes a tarefa de desenvolver novas técnicas de raciocínio e de prompt, e descobrimos que agentes com acesso às suas pesquisas anteriores alcançam melhorias de desempenho maiores em comparação com agentes operando isoladamente (melhoria relativa de 11,4% sobre a linha de base no MATH-500). Descobrimos que a estratégia de melhor desempenho se generaliza para benchmarks em outros domínios (melhorando em média 3,3%). Múltiplos laboratórios de agentes compartilhando pesquisas através do AgentRxiv são capazes de trabalhar juntos em direção a um objetivo comum, progredindo mais rapidamente do que laboratórios isolados, alcançando uma precisão geral maior (melhoria relativa de 13,7% sobre a linha de base no MATH-500). Esses achados sugerem que agentes autônomos podem desempenhar um papel no design de futuros sistemas de IA ao lado de humanos. Esperamos que o AgentRxiv permita que agentes colaborem para alcançar objetivos de pesquisa e que os pesquisadores acelerem a descoberta.
O Classifier-Free Guidance (CFG) é uma técnica amplamente adotada em modelos de difusão/fluxo para melhorar a fidelidade e a controlabilidade das imagens. Neste trabalho, primeiro estudamos analiticamente o efeito do CFG em modelos de correspondência de fluxo treinados em misturas gaussianas, onde o fluxo verdadeiro pode ser derivado. Observamos que, nos estágios iniciais do treinamento, quando a estimativa do fluxo é imprecisa, o CFG direciona as amostras para trajetórias incorretas. Com base nessa observação, propomos o CFG-Zero*, uma versão aprimorada do CFG com duas contribuições: (a) escala otimizada, onde um escalar é otimizado para corrigir as imprecisões na velocidade estimada, daí o * no nome; e (b) zero-init, que envolve zerar os primeiros passos do solucionador de EDOs. Experimentos em geração de texto para imagem (Lumina-Next, Stable Diffusion 3 e Flux) e texto para vídeo (Wan-2.1) demonstram que o CFG-Zero* supera consistentemente o CFG, destacando sua eficácia na orientação de modelos de correspondência de fluxo. (O código está disponível em github.com/WeichenFan/CFG-Zero-star)
Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais implantados em sistemas agentes que interagem com um ambiente externo. No entanto, os agentes baseados em LLMs são vulneráveis a ataques de injeção de prompt ao lidar com dados não confiáveis. Neste artigo, propomos o CaMeL, uma defesa robusta que cria uma camada de proteção ao redor do LLM, protegendo-o mesmo quando os modelos subjacentes podem ser suscetíveis a ataques. Para operar, o CaMeL extrai explicitamente os fluxos de controle e de dados da consulta (confiável); portanto, os dados não confiáveis recuperados pelo LLM nunca podem impactar o fluxo do programa. Para melhorar ainda mais a segurança, o CaMeL se baseia em uma noção de capacidade para prevenir a exfiltração de dados privados por meio de fluxos de dados não autorizados. Demonstramos a eficácia do CaMeL ao resolver 67% das tarefas com segurança comprovada no AgentDojo [NeurIPS 2024], um recente benchmark de segurança para agentes.
Avaliar modelos fundamentais generativos em tarefas de compreensão multimodal aberta (MMU) e geração multimodal (MMG) em diversas modalidades (por exemplo, imagens, áudio, vídeo) apresenta desafios significativos devido à complexidade das interações entre modalidades. Para isso, surgiu a ideia de utilizar Modelos de Linguagem Multimodal (MLLMs) como juízes automatizados, com resultados encorajadores na avaliação de tarefas de compreensão visão-linguagem. Indo além, este artigo estende o conceito de MLLM-como-Juiz para múltiplas modalidades de maneira unificada, introduzindo dois benchmarks, TaskAnything e JudgeAnything, para avaliar, respectivamente, o desempenho geral e as capacidades de julgamento dos MLLMs em tarefas de qualquer-para-qualquer modalidade. Especificamente, o TaskAnything avalia as capacidades de MMU e MMG em 15 categorias de qualquer-para-qualquer modalidade, empregando 1.500 consultas curadas a partir de benchmarks bem estabelecidos. Além disso, o JudgeAnything avalia as capacidades de julgamento de 5 modelos avançados (por exemplo, GPT-4o e Gemini-2.0-Flash) sob as perspectivas de Comparação de Pares e Avaliação de Pontuação, fornecendo um ambiente de teste padronizado que incorpora julgamentos humanos e rubricas detalhadas. Nossos experimentos extensivos revelam que, embora esses MLLMs mostrem promessa na avaliação de MMU (ou seja, alcançando uma média de 66,55% na configuração de Comparação de Pares e 42,79% na configuração de Avaliação de Pontuação), eles enfrentam desafios significativos com tarefas de MMG (ou seja, com média de apenas 53,37% na configuração de Comparação de Pares e 30,05% na configuração de Avaliação de Pontuação), expondo vieses entre modalidades e problemas de alucinação. Para abordar isso, apresentamos o OmniArena, uma plataforma automatizada para avaliar omni-modelos e modelos de recompensa multimodal. Nosso trabalho destaca a necessidade de protocolos de avaliação mais justos e de um alinhamento mais forte com as preferências humanas. O código-fonte e o conjunto de dados estão disponíveis publicamente em: https://urrealhero.github.io/judgeanythingweb/.
Apresentamos o FFN Fusion, uma técnica de otimização arquitetônica que reduz a computação sequencial em modelos de linguagem de grande escala ao identificar e explorar oportunidades naturais de paralelização. Nossa principal percepção é que sequências de camadas de Feed-Forward Network (FFN), particularmente aquelas que permanecem após a remoção de camadas de atenção específicas, podem frequentemente ser paralelizadas com impacto mínimo na precisão. Desenvolvemos uma metodologia fundamentada para identificar e fundir tais sequências, transformando-as em operações paralelas que reduzem significativamente a latência de inferência enquanto preservam o comportamento do modelo. Aplicando essas técnicas ao Llama-3.1-405B-Instruct, criamos o Llama-Nemotron-Ultra-253B-Base (Ultra-253B-Base), um modelo eficiente e em breve disponível publicamente que alcança um aumento de velocidade de 1,71X na latência de inferência e um custo 35X menor por token, mantendo um desempenho forte em benchmarks. Por meio de extensos experimentos em modelos com parâmetros variando de 49B a 253B, demonstramos que o FFN Fusion se torna cada vez mais eficaz em escalas maiores e pode complementar técnicas de otimização existentes, como quantização e poda. Mais intrigantemente, descobrimos que até blocos completos de transformadores contendo tanto camadas de atenção quanto FFN podem às vezes ser paralelizados, sugerindo novas direções para o design de arquiteturas neurais.
Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) geralmente seguem um paradigma de treinamento em duas etapas: pré-treinamento e ajuste fino supervisionado. Recentemente, a otimização de preferências, derivada do domínio da linguagem, surgiu como uma estratégia eficaz de reforço pós-treinamento para aprimorar as capacidades dos LVLMs. No entanto, a construção de dados de preferência anotados manualmente de alta qualidade e o desenvolvimento de modelos de recompensa robustos para imitar essas preferências são processos caros e desafiadores. Motivados por essa observação, propomos o Vision-R1, um novo algoritmo de aprendizado por reforço semelhante ao R1, guiado por visão, para LVLMs que recompensa os modelos com feedback visual definitivo. Ele utiliza apenas dados de instrução curados, eliminando a necessidade de modelos de recompensa especializados e conjuntos de dados de preferência elaborados manualmente. Incorporamos uma função de recompensa baseada em critérios que integra ainda mais feedback multidimensional para avaliar as conclusões do modelo de forma abrangente com base na lógica da tarefa visual. Além disso, introduzimos uma estratégia de refinamento progressivo de regras que ajusta dinamicamente os critérios de recompensa durante o treinamento, permitindo a melhoria contínua do modelo e mitigando o "hacking de recompensa". Experimentos extensivos em benchmarks de distribuição interna e externa demonstram que o ajuste fino de LVLMs de 7B com o Vision-R1 alcança ganhos consistentes de desempenho, com melhorias de até 50%, superando até mesmo o modelo de última geração com 10 vezes o tamanho.
Os modelos generativos atuais, como abordagens autoregressivas e de difusão, decompõem o aprendizado de distribuição de dados de alta dimensionalidade em uma série de subtarefas mais simples. No entanto, conflitos inerentes surgem durante a otimização conjunta dessas subtarefas, e as soluções existentes não conseguem resolver tais conflitos sem sacrificar eficiência ou escalabilidade. Propomos uma nova estrutura de modelagem de imagens equivariante que alinha intrinsecamente os objetivos de otimização entre as subtarefas, aproveitando a invariância à translação dos sinais visuais naturais. Nosso método introduz (1) tokenização por coluna, que melhora a simetria translacional ao longo do eixo horizontal, e (2) atenção causal em janelas, que impõe relações contextuais consistentes entre posições. Avaliado na geração de imagens condicionadas por classe do ImageNet com resolução de 256x256, nossa abordagem alcança desempenho comparável aos modelos AR state-of-the-art, utilizando menos recursos computacionais. Análises sistemáticas demonstram que a equivariância aprimorada reduz os conflitos entre tarefas, melhorando significativamente a generalização zero-shot e permitindo a síntese de imagens ultra-longas. Este trabalho estabelece a primeira estrutura para decomposição alinhada por tarefas em modelagem generativa, oferecendo insights sobre compartilhamento eficiente de parâmetros e otimização livre de conflitos. O código e os modelos estão disponíveis publicamente em https://github.com/drx-code/EquivariantModeling.
Modelos de linguagem de grande escala (LLMs) têm demonstrado uma capacidade notável de raciocínio na resolução de problemas matemáticos. No entanto, as abordagens existentes concentram-se principalmente em melhorar a qualidade dos dados de treinamento corretos, por exemplo, destilando soluções corretas de alta qualidade a partir de modelos avançados, negligenciando o valor contido nos dados de erro, o que pode prejudicar a capacidade reflexiva do modelo. Embora alguns estudos tentem aproveitar os dados de erro, eles frequentemente envolvem mecanismos complexos, como a Busca em Árvore de Monte Carlo (MCTS) para explorar nós de erro. Neste trabalho, propomos aprimorar a capacidade de raciocínio dos LLMs por meio do Aprendizado a partir de Erros para Avanço Matemático (LEMMA). O LEMMA constrói dados que consistem em uma solução incorreta com uma etapa errônea e uma conexão reflexiva para uma solução correta, visando o ajuste fino. Especificamente, analisamos sistematicamente os tipos de erro gerados pelo modelo e introduzimos um método de aumento de erros baseado em tipos de erro para coletar erros diversos e representativos. As soluções corretas são obtidas tanto corrigindo os erros quanto gerando uma nova solução do zero. Por meio de uma conexão reflexiva suave e consciente do modelo, a solução errônea é transferida para a correta. Ao ajustar o modelo no conjunto de dados construído, ele é capaz de autocorrigir erros de forma autônoma durante o processo de geração, sem depender de modelos de crítica externos. Os resultados experimentais demonstram que o LEMMA alcança melhorias significativas de desempenho em comparação com outras linhas de base robustas.
Os avanços recentes em Grandes Modelos de Linguagem para Vídeo (LVLMs) destacaram seu potencial para compreensão multimodal, mas a avaliação de sua fundamentação factual em contextos de vídeo continua sendo um desafio crítico e não resolvido. Para abordar essa lacuna, introduzimos o Video SimpleQA, o primeiro benchmark abrangente projetado especificamente para a avaliação da factualidade de LVLMs. Nosso trabalho se diferencia dos benchmarks de vídeo existentes através das seguintes características principais: 1) Conhecimento necessário: exige a integração de conhecimento externo além da narrativa explícita; 2) Perguntas factuais: direcionadas a eventos ou relações objetivas e incontestáveis, evitando interpretações subjetivas; 3) Respostas definitivas e curtas: as respostas são elaboradas de forma inequívoca e correta em um formato curto, permitindo avaliação automatizada por meio de frameworks LLM-como-juiz com variação mínima de pontuação; 4) Verificação por fontes externas: todas as anotações passam por validação rigorosa com referências externas autorizadas para garantir confiabilidade; 5) Raciocínio temporal necessário: os tipos de perguntas anotadas abrangem tanto a compreensão estática de um único quadro quanto o raciocínio temporal dinâmico, avaliando explicitamente a factualidade dos LVLMs sob dependências de contexto longo. Avaliamos extensivamente 41 LVLMs de última geração e resumimos as principais descobertas da seguinte forma: 1) Os LVLMs atuais apresentam deficiências notáveis na aderência factual, especialmente para modelos de código aberto. O modelo com melhor desempenho, Gemini-1.5-Pro, alcança apenas um F-score de 54,4%; 2) Paradigmas de computação em tempo de teste mostram ganhos de desempenho insignificantes, revelando limitações fundamentais para melhorar a factualidade por meio de computação pós-hoc; 3) Geração Aumentada por Recuperação demonstra melhorias consistentes ao custo de sobrecarga adicional no tempo de inferência, apresentando uma troca crítica entre eficiência e desempenho.
O dimensionamento computacional para o pré-treinamento de modelos de linguagem (LM) tem superado o crescimento de textos escritos por humanos, levando a preocupações de que os dados se tornem o gargalo para o dimensionamento dos LMs. Para continuar escalando o pré-treinamento neste regime limitado por dados, propomos que a modelagem e inferência explícitas dos pensamentos latentes que fundamentam o processo de geração de texto podem melhorar significativamente a eficiência dos dados de pré-treinamento. Intuitivamente, nossa abordagem vê o texto da web como o resultado final compactado de um processo de pensamento humano detalhado e que os pensamentos latentes contêm conhecimento contextual e etapas de raciocínio importantes que são críticos para o aprendizado eficiente em termos de dados. Demonstramos empiricamente a eficácia de nossa abordagem por meio do pré-treinamento contínuo limitado por dados para matemática. Primeiro, mostramos que abordagens de dados sintéticos para inferir pensamentos latentes melhoram significativamente a eficiência dos dados, superando o treinamento com a mesma quantidade de dados brutos (5,7\% \rightarrow 25,4\% no MATH). Além disso, demonstramos a inferência de pensamentos latentes sem um professor forte, onde um LM impulsiona seu próprio desempenho usando um algoritmo EM para melhorar iterativamente a capacidade do LM treinado e a qualidade dos dados de pré-treinamento aumentados com pensamentos. Mostramos que um LM de 1B pode impulsionar seu desempenho em pelo menos três iterações e superar significativamente as baselines treinadas com dados brutos, com ganhos crescentes de computação adicional de inferência ao realizar a etapa E. Os ganhos do dimensionamento de inferência e iterações EM sugerem novas oportunidades para escalar o pré-treinamento limitado por dados.
A conversão de Linguagem Natural para SQL (NL2SQL) tem apresentado avanços significativos com os grandes modelos de linguagem (LLMs). No entanto, esses modelos frequentemente dependem de sistemas de código fechado e de altos recursos computacionais, o que gera desafios em termos de privacidade de dados e implantação. Em contraste, os pequenos modelos de linguagem (SLMs) enfrentam dificuldades em tarefas de NL2SQL, exibindo desempenho insatisfatório e incompatibilidade com os frameworks existentes. Para resolver esses problemas, apresentamos o Feather-SQL, um novo framework leve projetado especificamente para SLMs. O Feather-SQL melhora a executabilidade e a precisão do SQL por meio de 1) poda e vinculação de esquemas, e 2) geração de múltiplos caminhos e múltiplos candidatos. Além disso, introduzimos o Paradigma de Colaboração de Modelos 1+1, que combina um modelo de chat de propósito geral robusto com um especialista em SQL ajustado, unindo raciocínio analítico forte com geração de SQL de alta precisão. Resultados experimentais no BIRD demonstram que o Feather-SQL melhora o desempenho de NL2SQL em SLMs, com um aumento de aproximadamente 10% para modelos sem ajuste fino. O paradigma proposto eleva o limite de precisão dos SLMs para 54,76%, destacando sua eficácia.
O 3D Gaussian Splatting (3DGS) surgiu como uma representação poderosa para renderização em tempo real e de alto desempenho, permitindo uma ampla gama de aplicações. No entanto, representar cenas 3D com numerosos primitivos Gaussianos explícitos impõe um custo significativo de armazenamento e memória. Estudos recentes mostraram que renderizações de alta qualidade podem ser alcançadas com um número substancialmente reduzido de Gaussianos quando representados com atributos de alta precisão. Ainda assim, os métodos de compressão de 3DGS existentes ainda dependem de um número relativamente grande de Gaussianos, focando principalmente na compressão de atributos. Isso ocorre porque um conjunto menor de Gaussianos se torna cada vez mais sensível à compressão de atributos com perdas, levando a uma degradação severa da qualidade. Como o número de Gaussianos está diretamente ligado aos custos computacionais, é essencial reduzir efetivamente o número de Gaussianos, em vez de apenas otimizar o armazenamento. Neste artigo, propomos a representação Optimized Minimal Gaussians (OMG), que reduz significativamente o armazenamento ao utilizar um número mínimo de primitivos. Primeiro, determinamos o Gaussiano distinto dos próximos, minimizando a redundância sem sacrificar a qualidade. Segundo, propomos uma representação de atributos compacta e precisa que captura eficientemente tanto a continuidade quanto a irregularidade entre os primitivos. Além disso, propomos uma técnica de quantização de sub-vetores para melhorar a representação da irregularidade, mantendo um treinamento rápido com um tamanho de codebook insignificante. Experimentos extensivos demonstram que o OMG reduz os requisitos de armazenamento em quase 50% em comparação com o estado da arte anterior e permite renderizações de mais de 600 FPS, mantendo uma alta qualidade de renderização. Nosso código-fonte está disponível em https://maincold2.github.io/omg/.
Os modelos de difusão têm demonstrado capacidades notáveis na geração de conteúdo visual, mas continuam desafiadores de implantar devido ao seu alto custo computacional durante a inferência. Esse ônus computacional surge principalmente da complexidade quadrática da auto-atenção em relação à resolução de imagens ou vídeos. Embora os métodos existentes de aceleração frequentemente comprometam a qualidade da saída ou exijam um retreinamento custoso, observamos que a maioria dos modelos de difusão é pré-treinada em resoluções mais baixas, apresentando uma oportunidade para explorar esses priors de baixa resolução para uma inferência mais eficiente sem degradar o desempenho. Neste trabalho, introduzimos o Bottleneck Sampling, uma estrutura livre de treinamento que aproveita os priors de baixa resolução para reduzir a sobrecarga computacional enquanto preserva a fidelidade da saída. O Bottleneck Sampling segue um fluxo de trabalho de desruído alto-baixo-alto: ele realiza o desruído em alta resolução nos estágios inicial e final, enquanto opera em resoluções mais baixas nos passos intermediários. Para mitigar artefatos de aliasing e desfoque, refinamos ainda mais os pontos de transição de resolução e adaptamos a mudança dos passos de desruído em cada estágio. Avaliamos o Bottleneck Sampling em tarefas de geração de imagens e vídeos, onde extensos experimentos demonstram que ele acelera a inferência em até 3 vezes para geração de imagens e 2,5 vezes para geração de vídeos, tudo isso mantendo a qualidade da saída comparável ao processo padrão de amostragem em resolução total em várias métricas de avaliação. O código está disponível em: https://github.com/tyfeld/Bottleneck-Sampling.
Este artigo apresenta o AlphaSpace, uma nova metodologia projetada para aprimorar as capacidades de raciocínio espacial de modelos de linguagem de grande escala (LLMs) para navegação em espaço cartesiano 3D. O AlphaSpace emprega uma estratégia de tokenização baseada em semântica, codificando informações de altura por meio de tokens semânticos especializados, e integra principalmente dados sintéticos de raciocínio simbólico. Essa abordagem permite que os LLMs manipulem objetos com precisão, posicionando-os em coordenadas específicas [x, y, z]. Os resultados experimentais demonstram que o AlphaSpace supera significativamente os modelos existentes em subtarefas de manipulação, alcançando uma precisão total de 66,67%, em comparação com 37,5% do GPT-4o e 29,17% do Claude 3.5 Sonnet.
A geração de texto para vídeo (T2V) tem feito avanços significativos com modelos de difusão. No entanto, os métodos existentes ainda enfrentam dificuldades em vincular atributos com precisão, determinar relações espaciais e capturar interações complexas de ações entre múltiplos sujeitos. Para abordar essas limitações, propomos o MagicComp, um método sem treinamento que aprimora a geração composicional de T2V por meio de refinamento em duas fases. Especificamente, (1) Durante a Fase de Condicionamento: Introduzimos a Desambiguação de Âncoras Semânticas, que reforça a semântica específica do sujeito e resolve ambiguidades entre sujeitos ao injetar progressivamente vetores direcionais de âncoras semânticas no embedding de texto original; (2) Durante a Fase de Desruído: Propomos a Atenção de Fusão de Layout Dinâmico, que integra prioridades de ancoragem e percepção espacial adaptativa ao modelo para vincular flexivelmente os sujeitos às suas regiões espaço-temporais por meio de modulação de atenção mascarada. Além disso, o MagicComp é uma abordagem versátil e independente de modelo, podendo ser integrado de forma contínua em arquiteturas T2V existentes. Experimentos extensivos no T2V-CompBench e VBench demonstram que o MagicComp supera os métodos state-of-the-art, destacando seu potencial para aplicações como geração de vídeo baseada em prompts complexos e controlável por trajetórias. Página do projeto: https://hong-yu-zhang.github.io/MagicComp-Page/.
Neste artigo, apresentamos o Diffusion-4K, uma nova estrutura para a síntese direta de imagens em ultra-alta resolução utilizando modelos de difusão texto-imagem. Os principais avanços incluem: (1) Benchmark Aesthetic-4K: para suprir a ausência de um conjunto de dados publicamente disponível para síntese de imagens em 4K, construímos o Aesthetic-4K, um benchmark abrangente para geração de imagens em ultra-alta resolução. Curamos um conjunto de dados de alta qualidade em 4K com imagens e legendas cuidadosamente selecionadas, geradas pelo GPT-4o. Além disso, introduzimos as métricas GLCM Score e Taxa de Compressão para avaliar detalhes finos, combinadas com medidas holísticas como FID, Aesthetics e CLIPScore para uma avaliação abrangente de imagens em ultra-alta resolução. (2) Ajuste fino baseado em wavelets: propomos uma abordagem de ajuste fino baseada em wavelets para treinamento direto com imagens fotorealísticas em 4K, aplicável a diversos modelos de difusão latente, demonstrando sua eficácia na síntese de imagens em 4K altamente detalhadas. Consequentemente, o Diffusion-4K alcança um desempenho impressionante na síntese de imagens de alta qualidade e na aderência a prompts de texto, especialmente quando impulsionado por modelos de difusão em larga escala modernos (por exemplo, SD3-2B e Flux-12B). Resultados experimentais extensivos de nosso benchmark demonstram a superioridade do Diffusion-4K na síntese de imagens em ultra-alta resolução.
Os Modelos de Linguagem de Grande Escala (LLMs) avançaram significativamente em vários campos, particularmente em codificação, raciocínio matemático e resolução de problemas lógicos. No entanto, uma questão crítica permanece: Essas habilidades de raciocínio matemático persistem quando os LLMs são apresentados a problemas matemáticos adaptados culturalmente? Especificamente, como os LLMs se desempenham quando confrontados com problemas matemáticos inseridos em contextos culturais que não têm representação significativa nos dados de treinamento em larga escala da IA? Para explorar isso, geramos seis conjuntos de dados culturais sintéticos a partir do GSM8K, um benchmark amplamente utilizado para avaliar as habilidades de raciocínio matemático dos LLMs. Preservando a lógica matemática e os valores numéricos do conjunto de testes original do GSM8K, modificamos elementos culturais como nomes pessoais, itens alimentares, nomes de lugares, etc. Esses conjuntos de dados adaptados culturalmente fornecem uma estrutura mais confiável para avaliar o raciocínio matemático dos LLMs em contextos culturais variáveis. Nossas descobertas revelam que os LLMs têm dificuldades com problemas matemáticos quando as referências culturais mudam, mesmo que a estrutura matemática subjacente permaneça constante. Modelos menores apresentam quedas de desempenho maiores em comparação com modelos maiores. Curiosamente, nossos resultados também sugerem que a familiaridade cultural pode aprimorar o raciocínio matemático. Até mesmo modelos sem treinamento matemático explícito, mas com exposição a contextos culturais relevantes, às vezes superam modelos maiores e matematicamente proficientes em problemas matemáticos culturalmente embutidos. Este estudo destaca o impacto do contexto cultural nas habilidades de raciocínio matemático dos LLMs, enfatizando a necessidade de dados de treinamento mais diversos e representativos para melhorar a robustez em aplicações do mundo real. Os conjuntos de dados de benchmark e o script para reproduzir os resultados estão disponíveis em https://github.com/akarim23131/Lost_in_Cultural_Translation.
O crescimento exponencial recente dos Modelos de Linguagem de Grande Escala (LLMs) tem dependido de sistemas baseados em GPU. No entanto, as CPUs estão surgindo como uma alternativa flexível e de menor custo, especialmente quando o foco está em cargas de trabalho de inferência e raciocínio. O RISC-V está rapidamente ganhando tração nessa área, dada sua ISA aberta e neutra em relação a fornecedores. No entanto, o hardware RISC-V para cargas de trabalho de LLMs e o ecossistema de software correspondente ainda não estão totalmente maduros e otimizados, considerando a necessidade de ajustes específicos para o domínio. Este artigo visa preencher essa lacuna, focando na otimização da inferência de LLMs no Sophon SG2042, o primeiro CPU comercialmente disponível com múltiplos núcleos RISC-V e capacidades de processamento vetorial. Em dois LLMs recentes e de ponta otimizados para raciocínio, o DeepSeek R1 Distill Llama 8B e o DeepSeek R1 Distill QWEN 14B, alcançamos 4,32/2,29 tokens/s para geração de tokens e 6,54/3,68 tokens/s para processamento de prompts, com uma aceleração de até 2,9x/3,0x em comparação com nossa linha de base.
A resposta a perguntas não factuais (NFQA, do inglês Non-factoid Question-Answering) representa um desafio significativo devido à sua natureza aberta, intenções diversas e à necessidade de raciocínio multiaspectual, o que torna inadequadas as abordagens convencionais de QA factuais, incluindo a geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation). Diferentemente das perguntas factuais, as perguntas não factuais (NFQs, do inglês Non-factoid Questions) não possuem respostas definitivas e exigem a síntese de informações de múltiplas fontes em diversas dimensões de raciocínio. Para superar essas limitações, introduzimos o Typed-RAG, um framework de decomposição multiaspectual com consciência de tipos dentro do paradigma RAG para NFQA. O Typed-RAG classifica as NFQs em tipos distintos — como debate, experiência e comparação — e aplica a decomposição baseada em aspectos para refinar as estratégias de recuperação e geração. Ao decompor NFQs multiaspectuais em subconsultas de aspecto único e agregar os resultados, o Typed-RAG gera respostas mais informativas e contextualmente relevantes. Para avaliar o Typed-RAG, introduzimos o Wiki-NFQA, um conjunto de dados de referência que abrange diversos tipos de NFQs. Os resultados experimentais demonstram que o Typed-RAG supera as abordagens baselines, destacando a importância da decomposição com consciência de tipos para uma recuperação e geração eficazes em NFQA. Nosso código e conjunto de dados estão disponíveis em https://github.com/TeamNLP/Typed-RAG{https://github.com/TeamNLP/Typed-RAG}.
A geração de Texto para Vídeo (T2V) tem atraído atenção significativa por sua capacidade de sintetizar vídeos realistas a partir de descrições textuais. No entanto, os modelos existentes lutam para equilibrar eficiência computacional e alta qualidade visual, especialmente em dispositivos com recursos limitados, como iGPUs e smartphones. A maioria dos trabalhos anteriores prioriza a fidelidade visual, negligenciando a necessidade de modelos menores e mais eficientes, adequados para implantação no mundo real. Para enfrentar esse desafio, propomos um framework leve de T2V, denominado Hummingbird, que poda modelos existentes e melhora a qualidade visual por meio de aprendizado com feedback visual. Nossa abordagem reduz o tamanho da U-Net de 1,4 bilhão para 0,7 bilhão de parâmetros, melhorando significativamente a eficiência enquanto mantém a geração de vídeos de alta qualidade. Além disso, introduzimos um novo pipeline de processamento de dados que aproveita Modelos de Linguagem de Grande Escala (LLMs) e Modelos de Avaliação de Qualidade de Vídeo (VQA) para aprimorar a qualidade tanto dos prompts textuais quanto dos dados de vídeo. Para apoiar o treinamento orientado pelo usuário e a personalização de estilo, disponibilizamos publicamente o código completo de treinamento, incluindo processamento de dados e treinamento do modelo. Experimentos extensivos mostram que nosso método alcança uma aceleração de 31X em comparação com modelos state-of-the-art, como o VideoCrafter2, além de obter a pontuação geral mais alta no VBench. Além disso, nosso método suporta a geração de vídeos com até 26 quadros, abordando as limitações dos métodos baseados em U-Net na geração de vídeos longos. Notavelmente, todo o processo de treinamento requer apenas quatro GPUs, mas oferece desempenho competitivo com os principais métodos existentes. O Hummingbird apresenta uma solução prática e eficiente para geração de T2V, combinando alto desempenho, escalabilidade e flexibilidade para aplicações no mundo real.
O resultado do pré-treinamento de Modelos de Linguagem de Grande Escala (LLMs) depende fortemente da inicialização dos pesos e das estratégias de controle de variância. Embora a importância do controle inicial da variância esteja bem documentada em redes neurais em geral, a literatura sobre a inicialização e o gerenciamento de seu crescimento durante o pré-treinamento de LLMs, especificamente, é um tanto escassa. Neste artigo, introduzimos o esquema de inicialização de pesos chamado Reescaling por Índice de Camada (Layer Index Rescaling - LIR) e a estratégia de controle de variância denominada Reescaling de Variância Alvo (Target Variance Rescaling - TVR). Experimentos realizados em um modelo LLaMA com 1 bilhão de parâmetros demonstram que um melhor gerenciamento da variância por meio dessas técnicas resulta em melhorias substanciais no desempenho em tarefas subsequentes (até 4,6% em benchmarks comuns de pré-treinamento) e reduz valores extremos de ativação, mitigando assim os desafios associados à quantização e ao treinamento em baixa precisão. Nosso código está disponível em: https://github.com/bluorion-com/weight_rescaling.
Apresentamos o MetaSpatial, o primeiro framework baseado em aprendizado por reforço (RL) projetado para aprimorar o raciocínio espacial 3D em modelos de visão e linguagem (VLMs), permitindo a geração de cenas 3D em tempo real sem a necessidade de otimizações pré-definidas. O MetaSpatial aborda dois desafios principais: (i) a falta de raciocínio espacial 3D internalizado em VLMs, o que limita sua capacidade de gerar layouts realistas, e (ii) a ineficiência do ajuste fino supervisionado tradicional (SFT) para tarefas de geração de layouts, já que anotações de verdade absoluta não estão disponíveis. Nossa principal inovação é um mecanismo de otimização baseado em RL de múltiplas etapas que integra restrições conscientes da física e avaliações de imagens renderizadas, garantindo que os layouts 3D gerados sejam coerentes, fisicamente plausíveis e esteticamente consistentes. Metodologicamente, o MetaSpatial introduz um processo de raciocínio iterativo e adaptativo, no qual o VLM refina arranjos espaciais ao longo de múltiplas etapas ao analisar saídas renderizadas, melhorando progressivamente a coerência da cena. Avaliações empíricas demonstram que o MetaSpatial aprimora significativamente a consistência espacial e a estabilidade de formatação de vários modelos em escala. Após o treinamento, o posicionamento de objetos é mais realista, alinhado e funcionalmente coerente, validando a eficácia do RL para raciocínio espacial 3D em aplicações de metaverso, AR/VR, gêmeos digitais e desenvolvimento de jogos. Nosso código, dados e pipeline de treinamento estão publicamente disponíveis em https://github.com/PzySeere/MetaSpatial.
Embora as instruções em linguagem natural ofereçam uma maneira intuitiva de guiar a edição automatizada de imagens, os modelos de aprendizado profundo frequentemente enfrentam dificuldades para alcançar resultados de alta qualidade, principalmente devido aos desafios na criação de grandes conjuntos de dados de treinamento de alta qualidade. Trabalhos anteriores geralmente dependiam de modelos generativos de texto para imagem (T2I) para produzir pares de imagens originais e editadas que simulam a entrada/saída de um modelo de edição de imagens guiado por instruções. No entanto, esses pares de imagens muitas vezes não se alinham com as instruções de edição especificadas devido às limitações dos modelos T2I, o que impacta negativamente os modelos treinados com esses conjuntos de dados. Para resolver isso, apresentamos o Instruct-CLIP, um método auto-supervisionado que aprende as mudanças semânticas entre imagens originais e editadas para refinar e melhor alinhar as instruções em conjuntos de dados existentes. Além disso, adaptamos o Instruct-CLIP para lidar com imagens latentes ruidosas e etapas de difusão, permitindo que ele seja usado para treinar modelos de difusão latente (LDMs) [19] e impor eficientemente o alinhamento entre a instrução de edição e as mudanças na imagem no espaço latente em qualquer etapa do pipeline de difusão. Utilizamos o Instruct-CLIP para corrigir o conjunto de dados InstructPix2Pix e obtivemos mais de 120 mil amostras refinadas, que então usamos para ajustar o modelo, guiados por nossa nova função de perda baseada no Instruct-CLIP. O modelo resultante é capaz de produzir edições mais alinhadas com as instruções fornecidas. Nosso código e conjunto de dados estão disponíveis em https://github.com/SherryXTChen/Instruct-CLIP.git.
Os modelos de linguagem avançaram recentemente para o domínio do raciocínio, mas é por meio do raciocínio multimodal que podemos desbloquear plenamente o potencial para alcançar capacidades cognitivas mais abrangentes e semelhantes às humanas. Esta pesquisa oferece uma visão sistemática das abordagens recentes de raciocínio multimodal, categorizando-as em dois níveis: raciocínio multimodal centrado na linguagem e raciocínio multimodal colaborativo. O primeiro abrange percepção visual de uma única passagem e percepção visual ativa, onde a visão desempenha principalmente um papel de suporte no raciocínio linguístico. O último envolve a geração de ações e a atualização de estado dentro do processo de raciocínio, permitindo uma interação mais dinâmica entre as modalidades. Além disso, analisamos a evolução técnica desses métodos, discutimos seus desafios inerentes e apresentamos tarefas de referência e métricas de avaliação essenciais para avaliar o desempenho do raciocínio multimodal. Por fim, oferecemos insights sobre direções futuras de pesquisa a partir das seguintes perspectivas: (i) do raciocínio visuo-linguístico para o raciocínio omnimodal e (ii) do raciocínio multimodal para agentes multimodais. Esta pesquisa visa fornecer uma visão estruturada que inspire avanços adicionais na pesquisa de raciocínio multimodal.
Tokenizadores visuais discretos transformam imagens em uma sequência de tokens, permitindo a geração visual baseada em tokens, semelhante aos modelos de linguagem. No entanto, esse processo é intrinsecamente desafiador, pois requer tanto a compressão de sinais visuais em uma representação compacta quanto sua discretização em um conjunto fixo de códigos. Tokenizadores discretos tradicionais geralmente aprendem as duas tarefas em conjunto, o que frequentemente leva a treinamento instável, baixa utilização do codebook e qualidade limitada de reconstrução. Neste artigo, apresentamos o CODA (COntinuous-to-Discrete Adaptation), um framework que desacopla compressão e discretização. Em vez de treinar tokenizadores discretos do zero, o CODA adapta VAEs contínuos pré-treinados — já otimizados para compressão perceptual — em tokenizadores discretos por meio de um processo de discretização cuidadosamente projetado. Ao focar principalmente na discretização, o CODA garante um treinamento estável e eficiente, mantendo a alta fidelidade visual dos VAEs contínuos. Empiricamente, com um orçamento de treinamento 6 vezes menor que o VQGAN padrão, nossa abordagem alcança uma utilização notável de 100% do codebook e FID de reconstrução (rFID) de 0,43 e 1,34 para compressões de 8 vezes e 16 vezes no benchmark ImageNet 256×256.
Recentemente, grandes avanços foram alcançados na tecnologia de geração de vídeos, atraindo a atenção generalizada de estudiosos. Para aplicar essa tecnologia em aplicações downstream sob condições de recursos limitados, os pesquisadores geralmente ajustam os modelos pré-treinados com base em métodos de ajuste eficiente de parâmetros, como Adapter ou Lora. Embora esses métodos possam transferir o conhecimento do domínio de origem para o domínio de destino, um número menor de parâmetros de treinamento leva a uma capacidade de ajuste deficiente, e o conhecimento do domínio de origem pode fazer com que o processo de inferência se desvie do domínio de destino. Neste artigo, argumentamos que, sob recursos limitados, treinar um modelo menor de geração de vídeos do zero, utilizando apenas amostras em escala de milhões, pode superar o ajuste eficiente de parâmetros em modelos maiores em aplicações downstream: o segredo está na utilização eficaz dos dados e na estratégia de currículo. Tomando a geração de adesivos animados (ASG) como estudo de caso, primeiro construímos uma rede de geração de quadros discretos para adesivos com baixa taxa de quadros, garantindo que seus parâmetros atendam aos requisitos de treinamento do modelo sob recursos limitados. Para fornecer suporte de dados para modelos treinados do zero, propomos uma estratégia de utilização de dados baseada em dupla máscara, que consegue melhorar a disponibilidade e expandir a diversidade dos dados limitados. Para facilitar a convergência sob a situação de dupla máscara, propomos um método de aprendizado de currículo adaptativo à dificuldade, que decompõe a entropia da amostra em componentes estáticos e adaptativos, de modo a obter amostras do fácil para o difícil. O experimento demonstra que nossa estrutura de treinamento de dupla máscara eficiente em recursos é quantitativa e qualitativamente superior a métodos de ajuste eficiente de parâmetros, como I2V-Adapter e SimDA, verificando a viabilidade de nosso método em tarefas downstream sob recursos limitados. O código estará disponível.
O surgimento de grandes modelos de linguagem e suas aplicações como agentes de IA avançaram significativamente os benchmarks de geração de código de última geração, transformando as tarefas modernas de engenharia de software. No entanto, mesmo com modelos de raciocínio computados em tempo de teste, esses sistemas ainda enfrentam dificuldades com desafios complexos de engenharia de software. Este trabalho introduz o CURA, um sistema de agente de compreensão e raciocínio de código aprimorado com supervisão de processo verbal (VPS), alcançando uma melhoria de 3,65% em relação aos modelos de base em benchmarks desafiadores como o BigCodeBench. Além disso, o CURA, quando combinado com o modelo o3-mini e técnicas de VPS, atinge desempenho de última geração. Este trabalho representa um avanço na integração de arquiteturas orientadas por raciocínio com geração de código baseada em LLM, permitindo que modelos de linguagem realizem raciocínio agentivo para resolver tarefas complexas de engenharia de software.
Apresentamos a tarefa de desaprendizagem de movimento humano para impedir a síntese de animações tóxicas, mantendo o desempenho geral de geração de texto para movimento. A desaprendizagem de movimentos tóxicos é desafiadora, pois esses podem ser gerados a partir de prompts de texto explícitos e de combinações implícitas de movimentos seguros que se tornam tóxicos (por exemplo, "chutar" é "carregar e balançar uma perna"). Propomos o primeiro benchmark de desaprendizagem de movimento ao filtrar movimentos tóxicos dos grandes e recentes conjuntos de dados de texto para movimento HumanML3D e Motion-X. Propomos baselines, adaptando técnicas de desaprendizagem de imagens de última geração para processar sinais espaço-temporais. Por fim, propomos um novo modelo de desaprendizagem de movimento baseado em Substituição de Código Latente, que denominamos LCR. O LCR é livre de treinamento e adequado aos espaços latentes discretos dos modelos de difusão de texto para movimento mais avançados. O LCR é simples e consistentemente supera as baselines qualitativa e quantitativamente. Página do projeto: https://www.pinlab.org/hmu{https://www.pinlab.org/hmu}.
A correção do balanço de brancos (WB) em cenas com múltiplas fontes de iluminação continua sendo um desafio persistente na visão computacional. Métodos recentes exploraram abordagens baseadas em fusão, onde uma rede neural combina linearmente múltiplas versões sRGB de uma imagem de entrada, cada uma processada com predefinições de WB estabelecidas. No entanto, demonstramos que esses métodos são subótimos para cenários comuns de múltiplas iluminações. Além disso, os métodos existentes baseados em fusão dependem de conjuntos de dados sRGB de WB que carecem de imagens dedicadas a múltiplas iluminações, limitando tanto o treinamento quanto a avaliação. Para enfrentar esses desafios, introduzimos duas contribuições principais. Primeiro, propomos um modelo eficiente baseado em transformers que captura efetivamente as dependências espaciais entre as predefinições de WB sRGB, melhorando substancialmente as técnicas de fusão linear. Segundo, apresentamos um conjunto de dados em larga escala de múltiplas iluminações, composto por mais de 16.000 imagens sRGB renderizadas com cinco configurações diferentes de WB, juntamente com imagens corrigidas de WB. Nosso método alcança uma melhoria de até 100% em relação às técnicas existentes em nosso novo conjunto de dados de fusão de imagens com múltiplas iluminações.
Embora as técnicas recentes de super-resolução de imagens (SR) estejam continuamente aprimorando a qualidade perceptual de suas saídas, elas frequentemente podem falhar em avaliações quantitativas. Essa inconsistência leva a uma crescente desconfiança nas métricas de imagem existentes para avaliações de SR. Embora a avaliação de imagens dependa tanto da métrica quanto da verdade de referência (GT), os pesquisadores geralmente não inspecionam o papel das GTs, pois elas são amplamente aceitas como referências "perfeitas". No entanto, devido aos dados terem sido coletados nos primeiros anos e à falta de controle sobre outros tipos de distorções, apontamos que as GTs nos conjuntos de dados de SR existentes podem apresentar qualidade relativamente baixa, o que leva a avaliações tendenciosas. Seguindo essa observação, neste artigo, estamos interessados nas seguintes questões: As imagens GT nos conjuntos de dados de SR existentes são 100% confiáveis para avaliações de modelos? Como a qualidade da GT afeta essa avaliação? E como fazer avaliações justas se existirem GTs imperfeitas? Para responder a essas perguntas, este artigo apresenta duas contribuições principais. Primeiro, ao analisar sistematicamente sete modelos de SR de última geração em três conjuntos de dados de SR do mundo real, mostramos que o desempenho de SR pode ser consistentemente afetado por GTs de baixa qualidade, e os modelos podem ter desempenhos bastante diferentes quando a qualidade da GT é controlada. Segundo, propomos uma nova métrica de qualidade perceptual, o Índice de Qualidade Relativa (RQI), que mede a discrepância de qualidade relativa de pares de imagens, assim corrigindo as avaliações tendenciosas causadas por GTs não confiáveis. Nosso modelo proposto alcança uma consistência significativamente melhor com as opiniões humanas. Esperamos que nosso trabalho forneça insights para a comunidade de SR sobre como futuros conjuntos de dados, modelos e métricas devem ser desenvolvidos.
Grandes Modelos de Visão e Linguagem (VLMs), como o GPT-4, alcançaram sucesso notável em diversos campos. No entanto, existem poucos estudos sobre a geração de cenas 3D internas com VLMs. Este artigo aborda essa tarefa como um problema de planejamento sujeito a restrições de senso comum espacial e de layout. Para resolver o problema com um VLM, propomos um novo algoritmo de busca em árvore global-local. Globalmente, o método posiciona cada objeto sequencialmente e explora múltiplas posições durante cada processo de colocação, onde o espaço do problema é representado como uma árvore. Para reduzir a profundidade da árvore, decompomos a estrutura da cena hierarquicamente, ou seja, em nível de sala, nível de região, nível de objetos de piso e nível de objetos suportados. O algoritmo gera independentemente os objetos de piso em diferentes regiões e os objetos suportados colocados em diferentes objetos de piso. Localmente, também decompomos a subtarefa, a colocação de cada objeto, em múltiplos passos. O algoritmo busca na árvore do espaço do problema. Para aproveitar o modelo VLM para produzir as posições dos objetos, discretizamos o espaço de visão de cima para baixo como uma grade densa e preenchemos cada célula com diversos emojis para tornar as células distintas. Solicitamos ao VLM a grade de emojis, e o VLM produz uma localização razoável para o objeto descrevendo a posição com o nome dos emojis. Os resultados experimentais quantitativos e qualitativos ilustram que nossa abordagem gera cenas 3D mais plausíveis do que as abordagens state-of-the-art. Nosso código-fonte está disponível em https://github.com/dw-dengwei/TreeSearchGen.
A Estimação de Profundidade Monocular (MDE, do inglês Monocular Depth Estimation) emergiu como uma tarefa fundamental na visão computacional, suportando inúmeras aplicações do mundo real. No entanto, a implantação de modelos precisos de estimação de profundidade em dispositivos de borda com recursos limitados, especialmente Circuitos Integrados de Aplicação Específica (ASICs, do inglês Application-Specific Integrated Circuits), é desafiadora devido às altas demandas computacionais e de memória. Avanços recentes em estimação de profundidade fundamental entregam resultados impressionantes, mas amplificam ainda mais a dificuldade de implantação em ASICs. Para abordar isso, propomos o QuartDepth, que adota quantização pós-treinamento para quantizar modelos MDE com acelerações de hardware para ASICs. Nossa abordagem envolve a quantização de pesos e ativações para precisão de 4 bits, reduzindo o tamanho do modelo e o custo computacional. Para mitigar a degradação de desempenho, introduzimos um algoritmo de polimento e compensação de ativações aplicado antes e depois da quantização de ativações, bem como um método de reconstrução de pesos para minimizar erros na quantização de pesos. Além disso, projetamos um acelerador de hardware flexível e programável, suportando fusão de kernels e programabilidade de instruções personalizadas, aumentando a taxa de transferência e a eficiência. Resultados experimentais demonstram que nosso framework alcança precisão competitiva enquanto permite inferência rápida e maior eficiência energética em ASICs, reduzindo a lacuna entre a estimação de profundidade de alto desempenho e a aplicabilidade prática em dispositivos de borda. Código: https://github.com/shawnricecake/quart-depth
O avanço da tecnologia de sensoriamento remoto melhorou a resolução espacial das imagens de satélite, facilitando representações visuais mais detalhadas para diversas interpretações. No entanto, os métodos existentes apresentam capacidades limitadas de generalização em aplicações variadas. Embora alguns modelos fundamentais contemporâneos demonstrem potencial, eles são prejudicados pela adaptabilidade insuficiente entre tarefas e processam principalmente imagens de baixa resolução com tamanhos restritos, falhando em explorar plenamente dados de alta resolução ou aproveitar a semântica abrangente de cenas amplas. Crucialmente, as imagens de sensoriamento remoto diferem fundamentalmente das imagens naturais, pois os principais alvos em primeiro plano (por exemplo, objetos marítimos, estruturas artificiais) frequentemente ocupam proporções espaciais mínimas (~1%) e exibem distribuições esparsas. Modelar eficientemente o conhecimento generalizável entre tarefas a partir de tokens 2D extensos (~100.000) representa um desafio significativo, mas permanece crítico para a compreensão de imagens de sensoriamento remoto. Motivados pelos mecanismos de atenção seletiva inerentes ao sistema visual humano, propomos o DynamicVis, um modelo fundamental de percepção visual dinâmica para imagens de sensoriamento remoto. O framework integra uma nova estrutura de percepção de região dinâmica baseada no modelo de espaço de estados seletivo, que equilibra estrategicamente a extração de detalhes localizados com a integração contextual global, permitindo a codificação computacionalmente eficiente de dados em larga escala enquanto mantém a escalabilidade arquitetônica. Para aprimorar a transferência de conhecimento entre tarefas, introduzimos um paradigma de aprendizado multi-instância utilizando representações de meta-embeddings, treinadas em anotações em nível de região em escala de milhões. Avaliações em nove tarefas subsequentes demonstram a versatilidade do modelo. O DynamicVis alcança a modelagem de características em múltiplos níveis com eficiência excepcional, processando pixels (2048x2048) com latência de 97 ms (6% do ViT) e uso de memória GPU de 833 MB (3% do ViT).