Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o GLM-4.1V-Thinking, um modelo de linguagem-visão (VLM) projetado para avançar o raciocínio multimodal de propósito geral. Neste relatório, compartilhamos nossas principais descobertas no desenvolvimento da estrutura de treinamento centrada no raciocínio. Primeiro, desenvolvemos um modelo de base visual capaz com potencial significativo por meio de pré-treinamento em larga escala, o que, sem dúvida, estabelece o limite superior para o desempenho final. O Aprendizado por Reforço com Amostragem de Currículo (RLCS) então desbloqueia todo o potencial do modelo, levando a um aprimoramento abrangente de capacidades em uma ampla gama de tarefas, incluindo resolução de problemas STEM, compreensão de vídeo, reconhecimento de conteúdo, codificação, fundamentação, agentes baseados em GUI e compreensão de documentos longos, entre outros. Para facilitar a pesquisa nessa área, disponibilizamos o GLM-4.1V-9B-Thinking como código aberto, que alcança desempenho de ponta entre modelos de tamanho comparável. Em uma avaliação abrangente em 28 benchmarks públicos, nosso modelo supera o Qwen2.5-VL-7B em quase todas as tarefas e alcança desempenho comparável ou até superior em 18 benchmarks em relação ao significativamente maior Qwen2.5-VL-72B. Notavelmente, o GLM-4.1V-9B-Thinking também demonstra desempenho competitivo ou superior em comparação com modelos de código fechado, como o GPT-4o, em tarefas desafiadoras, incluindo compreensão de documentos longos e raciocínio STEM, destacando ainda mais suas fortes capacidades. Código, modelos e mais informações estão disponíveis em https://github.com/THUDM/GLM-4.1V-Thinking.
O raciocínio matemático tornou-se o exemplo emblemático do progresso em modelos de linguagem de grande escala (LLMs), com novos modelos superando rapidamente o desempenho humano em benchmarks como MATH e AIME. Mas, à medida que os rankings de matemática melhoram semana após semana, vale a pena perguntar: esses ganhos refletem uma capacidade mais ampla de resolução de problemas ou apenas um overfitting específico? Para responder a essa pergunta, avaliamos mais de 20 modelos de raciocínio ajustados e de pesos abertos em uma ampla gama de tarefas, incluindo matemática, questionamento científico, planejamento de agentes, codificação e seguimento de instruções padrão. Surpreendentemente, descobrimos que a maioria dos modelos que têm sucesso em matemática não consegue transferir seus ganhos para outros domínios. Para estudar rigorosamente esse fenômeno, conduzimos experimentos controlados em modelos Qwen3-14B usando apenas dados matemáticos, mas com diferentes métodos de ajuste. Descobrimos que os modelos ajustados com aprendizado por reforço (RL) generalizam bem entre domínios, enquanto os modelos ajustados com fine-tuning supervisionado (SFT) frequentemente esquecem capacidades gerais. Análises de representação no espaço latente e de deslocamento de distribuição no espaço de tokens revelam que o SFT induz um desvio substancial na representação e na saída, enquanto o RL preserva a estrutura do domínio geral. Nossos resultados sugerem a necessidade de repensar as abordagens padrão de pós-treinamento, particularmente a dependência de dados destilados por SFT para avançar modelos de raciocínio.
Apresentamos o SciArena, uma plataforma aberta e colaborativa para avaliar modelos de base em tarefas relacionadas à literatura científica. Diferente dos benchmarks tradicionais para compreensão e síntese de literatura científica, o SciArena envolve diretamente a comunidade de pesquisa, seguindo a abordagem de avaliação do Chatbot Arena, que utiliza votação da comunidade em comparações de modelos. Ao aproveitar a inteligência coletiva, o SciArena oferece uma avaliação comunitária do desempenho dos modelos em tarefas científicas abertas que exigem respostas longas e fundamentadas na literatura. Atualmente, a plataforma suporta 23 modelos de base, tanto de código aberto quanto proprietários, e coletou mais de 13.000 votos de pesquisadores confiáveis em diversas áreas científicas. Analisamos os dados coletados até o momento e confirmamos que as perguntas submetidas são diversas, alinhadas com as necessidades reais da literatura, e que os pesquisadores participantes demonstram forte consistência interna e concordância entre avaliadores em suas avaliações. Discutimos os resultados e insights com base no ranking de modelos. Para promover ainda mais a pesquisa na construção de sistemas automatizados de avaliação baseados em modelos para tarefas de literatura, lançamos o SciArena-Eval, um benchmark de meta-avaliação baseado em nossos dados de preferência coletados. O benchmark mede a precisão dos modelos em julgar a qualidade das respostas, comparando suas avaliações pareadas com os votos humanos. Nossos experimentos destacam os desafios do benchmark e enfatizam a necessidade de métodos automatizados de avaliação mais confiáveis.
Avanços recentes em modelos de difusão permitiram a geração de vídeos de alta qualidade, mas a dimensão temporal adicional aumenta significativamente os custos computacionais, tornando o treinamento e a inferência em vídeos longos proibitivamente caros. Neste artigo, identificamos um fenômeno que denominamos Decaimento de Energia Espaço-Temporal em modelos de difusão de vídeo: as pontuações de atenção pós-softmax diminuem à medida que a distância espacial e temporal entre os tokens aumenta, semelhante ao decaimento físico de sinais ou ondas no espaço e no tempo na natureza. Motivados por isso, propomos a Atenção Radial, um mecanismo de atenção esparsa escalável com complexidade O(n log n) que traduz o decaimento de energia em uma densidade de computação que decai exponencialmente, sendo significativamente mais eficiente do que a atenção densa padrão O(n^2) e mais expressiva do que a atenção linear. Especificamente, a Atenção Radial emprega uma máscara de atenção estática e simples, onde cada token atende a tokens espacialmente próximos, com o tamanho da janela de atenção diminuindo com a distância temporal. Além disso, ela permite que modelos de difusão de vídeo pré-treinados estendam seu comprimento de geração com um ajuste fino eficiente baseado em LoRA. Experimentos extensivos mostram que a Atenção Radial mantém a qualidade do vídeo em Wan2.1-14B, HunyuanVideo e Mochi 1, alcançando uma aceleração de até 1,9 vezes em relação à atenção densa original. Com ajustes mínimos, ela possibilita a geração de vídeos até 4 vezes mais longos, reduzindo os custos de treinamento em até 4,4 vezes em comparação com o ajuste fino direto e acelerando a inferência em até 3,7 vezes em relação à inferência com atenção densa.
Modelos de incorporação multimodal, construídos sobre Modelos de Visão e Linguagem (VLMs) causais, têm mostrado potencial em diversas tarefas. No entanto, as abordagens atuais enfrentam três limitações principais: o uso de atenção causal em backbones de VLMs é subótimo para tarefas de incorporação; problemas de escalabilidade devido à dependência de dados pareados de alta qualidade rotulados para aprendizado contrastivo; e diversidade limitada nos objetivos e dados de treinamento. Para abordar essas questões, propomos o MoCa, uma estrutura de duas etapas para transformar VLMs pré-treinados em modelos eficazes de incorporação multimodal bidirecional. A primeira etapa, Pré-treinamento Contínuo com Consciência de Modalidade, introduz um objetivo de reconstrução conjunta que simultaneamente remove ruídos de entradas intercaladas de texto e imagem, aprimorando o raciocínio contextual bidirecional. A segunda etapa, Ajuste Fino Contrastivo Heterogêneo, aproveita dados multimodais diversos e semanticamente ricos, além de pares simples de imagem-legenda, para melhorar a generalização e o alinhamento. Nosso método aborda as limitações mencionadas ao introduzir atenção bidirecional por meio de pré-treinamento contínuo, escalando efetivamente com grandes conjuntos de dados não rotulados via objetivos de reconstrução conjunta, e utilizando dados multimodais diversos para aprimorar a robustez das representações. Experimentos demonstram que o MoCa melhora consistentemente o desempenho nos benchmarks MMEB e ViDoRe-v2, alcançando novos resultados state-of-the-art, e exibe forte escalabilidade tanto com o tamanho do modelo quanto com os dados de treinamento no MMEB.
Modelos de linguagem de grande escala baseados em difusão (dLLMs) são alternativas atraentes aos modelos autorregressivos (AR) porque seus modelos de remoção de ruído operam sobre toda a sequência. As características de planejamento global e refinamento iterativo dos dLLMs são particularmente úteis para geração de código. No entanto, os mecanismos atuais de treinamento e inferência para dLLMs em codificação ainda são pouco explorados. Para desvendar o comportamento de decodificação dos dLLMs e liberar seu potencial para codificação, investigamos sistematicamente seus processos de remoção de ruído e métodos de aprendizado por reforço (RL). Treinamos um dLLM de 7B, o DiffuCoder, com 130B tokens de código. Usando esse modelo como plataforma de testes, analisamos seu comportamento de decodificação, revelando como ele difere dos modelos AR: (1) dLLMs podem decidir o quão causal sua geração deve ser sem depender de decodificação semi-AR, e (2) aumentar a temperatura de amostragem diversifica não apenas as escolhas de tokens, mas também sua ordem de geração. Essa diversidade cria um espaço de busca rico para rollouts de RL. Para o treinamento de RL, a fim de reduzir a variância das estimativas de log-verossimilhança dos tokens e manter a eficiência do treinamento, propomos o coupled-GRPO, um esquema de amostragem inovador que constrói ruído de máscara complementar para as conclusões usadas no treinamento. Em nossos experimentos, o coupled-GRPO melhora significativamente o desempenho do DiffuCoder em benchmarks de geração de código (+4,4% no EvalPlus) e reduz a dependência da causalidade AR durante a decodificação. Nosso trabalho fornece uma visão mais profunda sobre o mecanismo de geração dos dLLMs e oferece uma estrutura de treinamento de RL eficaz e nativa para difusão. https://github.com/apple/ml-diffucoder.
As máquinas podem realmente pensar, raciocinar e agir em domínios como os humanos? Essa questão perene continua a moldar a busca pela Inteligência Artificial Geral (AGI). Apesar das capacidades crescentes de modelos como GPT-4.5, DeepSeek, Claude 3.5 Sonnet, Phi-4 e Grok 3, que exibem fluência multimodal e raciocínio parcial, esses sistemas permanecem fundamentalmente limitados por sua dependência de previsão em nível de token e pela falta de agência fundamentada. Este artigo oferece uma síntese interdisciplinar do desenvolvimento da AGI, abrangendo inteligência artificial, neurociência cognitiva, psicologia, modelos generativos e sistemas baseados em agentes. Analisamos as fundações arquitetônicas e cognitivas da inteligência geral, destacando o papel do raciocínio modular, da memória persistente e da coordenação multiagente. Em particular, enfatizamos o surgimento de frameworks Agentic RAG que combinam recuperação, planejamento e uso dinâmico de ferramentas para permitir comportamentos mais adaptativos. Discutimos estratégias de generalização, incluindo compressão de informação, adaptação em tempo de teste e métodos sem treinamento, como caminhos críticos para uma inteligência flexível e independente de domínio. Os Modelos de Visão e Linguagem (VLMs) são reexaminados não apenas como módulos de percepção, mas como interfaces em evolução para compreensão incorporada e conclusão colaborativa de tarefas. Também argumentamos que a verdadeira inteligência surge não apenas da escala, mas da integração de memória e raciocínio: uma orquestração de componentes modulares, interativos e autoaperfeiçoadores, onde a compressão possibilita comportamentos adaptativos. Com base em avanços em sistemas neurosimbólicos, aprendizado por reforço e suporte cognitivo, exploramos como arquiteturas recentes começam a preencher a lacuna entre aprendizado estatístico e cognição orientada a objetivos. Por fim, identificamos os principais desafios científicos, técnicos e éticos no caminho para a AGI.
Com a rápida evolução dos modelos de linguagem multimodal de grande escala, a capacidade de compreender e interpretar profundamente as intenções humanas emergiu como uma habilidade crítica, exigindo raciocínio detalhado e ponderado. Em estudos recentes, o Aprendizado por Reforço (RL) demonstrou potencial para aprimorar as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, os desafios associados à adaptação do RL a dados e formatos multimodais permanecem em grande parte não resolvidos. Neste artigo, identificamos dois problemas nos modelos de raciocínio multimodal existentes: compreensão insuficiente do contexto global e problemas de atalho. A compreensão insuficiente do contexto pode ocorrer quando um modelo interpreta mal o contexto multimodal, resultando em respostas incorretas. O problema de atalho ocorre quando o modelo ignora pistas cruciais nas entradas multimodais, abordando diretamente a consulta sem considerar as informações multimodais. Para enfrentar esses problemas, enfatizamos a necessidade de o modelo raciocinar com uma compreensão clara do contexto global dentro das entradas multimodais. Essa compreensão do contexto global pode efetivamente impedir que o modelo ignore pistas multimodais importantes e garantir um processo de raciocínio completo. Para garantir a interpretação precisa das informações de contexto multimodal, implementamos uma recompensa de contexto julgada por um modelo de linguagem de grande escala, juntamente com recompensas de formato e precisão. Além disso, para melhorar a capacidade de raciocínio complexo, utilizamos o LLM para avaliar a recompensa lógica, determinando se o processo de raciocínio integra com sucesso as informações multimodais com métodos lógicos. Também introduzimos um benchmark omni-modal de raciocínio, o IntentBench, destinado a avaliar modelos na compreensão de intenções e emoções humanas complexas. Nosso método proposto demonstra desempenho avançado em vários benchmarks omni-modais em comparação com outros modelos omni-modais de código aberto.
A segmentação amodal e a conclusão de conteúdo amodal exigem o uso de conhecimentos prévios sobre objetos para estimar máscaras ocluídas e características de objetos em cenas complexas. Até o momento, nenhum conjunto de dados forneceu uma dimensão adicional para o contexto dos objetos: a possibilidade de múltiplas câmeras compartilharem a visão de uma cena. Apresentamos o MOVi-MC-AC: Multiple Object Video with Multi-Cameras and Amodal Content, o maior conjunto de dados de segmentação amodal e o primeiro de conteúdo amodal até hoje. Cenas desordenadas de objetos domésticos genéricos são simuladas em vídeos com múltiplas câmeras. O MOVi-MC-AC contribui para a crescente literatura sobre detecção, rastreamento e segmentação de objetos ao incluir duas novas contribuições para o mundo do aprendizado profundo aplicado à visão computacional. Configurações com Múltiplas Câmeras (MC), onde objetos podem ser identificados e rastreados entre diversas perspectivas únicas de câmeras, são raras tanto em vídeos sintéticos quanto no mundo real. Introduzimos uma nova complexidade aos vídeos sintéticos ao fornecer IDs consistentes de objetos para detecções e segmentações entre quadros e múltiplas câmeras, cada uma com características e padrões de movimento únicos em uma única cena. Conteúdo Amodal (AC) é uma tarefa reconstrutiva na qual os modelos preveem a aparência de objetos alvo através de oclusões. Na literatura de segmentação amodal, alguns conjuntos de dados foram lançados com rótulos de detecção, rastreamento e segmentação amodal. Enquanto outros métodos dependem de esquemas lentos de "recortar e colar" para gerar pseudo-rótulos de conteúdo amodal, eles não consideram as oclusões naturais presentes nas máscaras modais. O MOVi-MC-AC fornece rótulos para aproximadamente 5,8 milhões de instâncias de objetos, estabelecendo um novo máximo na literatura de conjuntos de dados amodais, além de ser o primeiro a fornecer conteúdo amodal de verdade absoluta. O conjunto de dados completo está disponível em https://huggingface.co/datasets/Amar-S/MOVi-MC-AC.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm alcançado habilidades notáveis de raciocínio visual em imagens naturais, documentos ricos em texto e designs gráficos. No entanto, sua capacidade de interpretar partituras musicais permanece pouco explorada. Para preencher essa lacuna, apresentamos o MusiXQA, o primeiro conjunto de dados abrangente para avaliar e avançar os MLLMs na compreensão de partituras musicais. O MusiXQA apresenta partituras sintéticas de alta qualidade geradas via MusiXTeX, com anotações estruturadas cobrindo altura e duração das notas, acordes, claves, assinaturas de clave e compasso, e texto, permitindo diversas tarefas de questionamento visual. Por meio de avaliações extensivas, revelamos limitações significativas dos MLLMs state-of-the-art atuais nesse domínio. Além de benchmarking, desenvolvemos o Phi-3-MusiX, um MLLM ajustado em nosso conjunto de dados, alcançando ganhos significativos de desempenho em relação a métodos baseados em GPT. O conjunto de dados e o modelo propostos estabelecem uma base para avanços futuros em MLLMs para a compreensão de partituras musicais. Código, dados e modelo serão liberados após a aceitação.
Os dados são fundamentais para o treinamento de modelos de linguagem (LM). Pesquisas recentes têm se dedicado à eficiência de dados, que visa maximizar o desempenho ao selecionar um subconjunto mínimo ou ideal de dados de treinamento. Técnicas como filtragem, amostragem e seleção de dados desempenham um papel crucial nessa área. Para complementar, definimos Eficácia dos Dados, que se concentra em maximizar o desempenho ao otimizar a organização dos dados de treinamento e permanece relativamente pouco explorada. Este trabalho introduz um paradigma geral, DELT, para considerar a eficácia dos dados no treinamento de LM, destacando a importância da organização dos dados de treinamento. O DELT compreende três componentes: Pontuação de Dados, Seleção de Dados e Ordenação de Dados. Entre esses componentes, projetamos a Pontuação de Aprendizagem-Qualidade (LQS), como uma nova instância de Pontuação de Dados, que considera tanto a capacidade de aprendizado quanto a qualidade de cada amostra de dados a partir da perspectiva da consistência do gradiente. Também desenvolvemos a Ordenação por Dobramento (FO), como uma nova instância de Ordenação de Dados, que aborda questões como o esquecimento do modelo e o viés na distribuição de dados. Experimentos abrangentes validam a eficácia dos dados no treinamento de LM, demonstrando o seguinte: Em primeiro lugar, várias instâncias do DELT proposto melhoram o desempenho do LM em diferentes graus sem aumentar a escala de dados e o tamanho do modelo. Em segundo lugar, entre essas instâncias, a combinação do LQS proposto para pontuação de dados e o Dobramento para ordenação de dados alcança a melhoria mais significativa. Por fim, a eficácia dos dados pode ser alcançada juntamente com a eficiência de dados ao aplicar a seleção de dados. Portanto, acreditamos que a eficácia dos dados é uma área fundamental promissora no treinamento de LM.
Os recentes avanços em modelos de geração de vídeo permitiram a criação de vídeos curtos de alta qualidade a partir de prompts de texto. No entanto, estender esses modelos para vídeos mais longos continua sendo um desafio significativo, principalmente devido à degradação da consistência temporal e da fidelidade visual. Nossas observações preliminares mostram que a aplicação direta de modelos de geração de vídeos curtos a sequências mais longas resulta em uma degradação perceptível da qualidade. Uma análise mais aprofundada identifica uma tendência sistemática em que os componentes de alta frequência se tornam cada vez mais distorcidos à medida que o comprimento do vídeo aumenta, um problema que denominamos distorção de alta frequência. Para abordar isso, propomos o FreeLong, uma estrutura sem necessidade de treinamento projetada para equilibrar a distribuição de frequência das características de vídeos longos durante o processo de remoção de ruído. O FreeLong alcança isso combinando características globais de baixa frequência, que capturam a semântica holística de todo o vídeo, com características locais de alta frequência extraídas de janelas temporais curtas para preservar detalhes finos. Com base nisso, o FreeLong++ estende o design de duplo ramo do FreeLong para uma arquitetura de múltiplos ramos, com vários ramos de atenção, cada um operando em uma escala temporal distinta. Ao organizar múltiplos tamanhos de janela, do global ao local, o FreeLong++ permite a fusão de frequências múltiplas, de baixa a alta frequência, garantindo tanto a continuidade semântica quanto a dinâmica de movimento detalhada em sequências de vídeo mais longas. Sem qualquer treinamento adicional, o FreeLong++ pode ser integrado a modelos existentes de geração de vídeo (por exemplo, Wan2.1 e LTX-Video) para produzir vídeos mais longos com consistência temporal e fidelidade visual substancialmente melhoradas. Demonstramos que nossa abordagem supera métodos anteriores em tarefas de geração de vídeos mais longos (por exemplo, 4x e 8x do comprimento nativo). Ela também suporta a geração coerente de vídeos com múltiplos prompts, com transições suaves de cena, e permite a geração controlada de vídeos usando sequências longas de profundidade ou pose.
Modelos visão-linguagem (VLMs) se destacam em tarefas descritivas, mas ainda é incerto se eles realmente compreendem cenas a partir de observações visuais. Apresentamos o IR3D-Bench, um benchmark que desafia os VLMs a demonstrar compreensão por meio da criação ativa, em vez do reconhecimento passivo. Baseado no paradigma de análise por síntese, o IR3D-Bench atribui aos Agentes Visão-Linguagem (VLAs) a tarefa de usar ativamente ferramentas de programação e renderização para recriar a estrutura 3D subjacente de uma imagem de entrada, alcançando a renderização inversa agentiva por meio do uso de ferramentas. Essa abordagem de "compreensão por criação" investiga a capacidade gerativa de uso de ferramentas dos VLAs, indo além da capacidade descritiva ou conversacional medida pelos benchmarks tradicionais de compreensão de cenas. Fornecemos um conjunto abrangente de métricas para avaliar a precisão geométrica, relações espaciais, atributos de aparência e plausibilidade geral. Experimentos iniciais sobre renderização inversa agentiva, impulsionada por diversos VLMs state-of-the-art, destacam limitações atuais, particularmente na precisão visual em vez do uso básico de ferramentas. O IR3D-Bench, incluindo dados e protocolos de avaliação, é disponibilizado para facilitar o estudo sistemático e o desenvolvimento de VLAs que utilizam ferramentas, visando uma genuína compreensão de cenas por meio da criação.
Um relatório da Agência de Aplicação da Lei da União Europeia prevê que, até 2026, até 90% do conteúdo online poderá ser gerado sinteticamente, levantando preocupações entre os formuladores de políticas, que alertaram que "a IA generativa pode atuar como um multiplicador de força para a desinformação política. O efeito combinado de texto, imagens, vídeos e áudio gerados pode superar a influência de qualquer modalidade única." Em resposta, o Projeto de Lei AB 3211 da Califórnia exige a marcação d'água de imagens, vídeos e áudios gerados por IA. No entanto, persistem preocupações sobre a vulnerabilidade das técnicas de marcação d'água invisível à manipulação e a possibilidade de atores maliciosos contorná-las completamente. Ataques de remoção de marcação d'água impulsionados por IA generativa, especialmente o recém-introduzido ataque de paráfrase visual, demonstraram a capacidade de remover completamente as marcas d'água, resultando em uma paráfrase da imagem original. Este artigo apresenta o PECCAVI, a primeira técnica de marcação d'água de imagens segura contra ataques de paráfrase visual e livre de distorções. Em ataques de paráfrase visual, uma imagem é alterada enquanto preserva suas regiões semânticas centrais, denominadas Pontos Não Derretíveis (NMPs, na sigla em inglês). O PECCAVI embarca estrategicamente as marcas d'água dentro desses NMPs e emprega marcação d'água no domínio de frequência multicanal. Ele também incorpora o polimento ruidoso para contrapor esforços de engenharia reversa destinados a localizar NMPs para perturbar a marca d'água embutida, aumentando assim a durabilidade. O PECCAVI é independente de modelo. Todos os recursos e códigos relevantes serão disponibilizados como código aberto.
Modelos de linguagem de grande escala (LLMs) se destacam em tarefas complexas por meio de técnicas avançadas de prompting, como Chain-of-Thought (CoT) e Tree-of-Thought (ToT), mas sua dependência de prompts específicos para cada tarefa, criados manualmente, limita a adaptabilidade e a eficiência. Apresentamos o Mixture of Reasoning (MoR), um framework de treinamento que incorpora diversas estratégias de raciocínio em LLMs para um raciocínio autônomo e adaptativo a tarefas, sem a necessidade de engenharia de prompts externa. O MoR possui duas fases: Geração de Pensamento, que cria templates de cadeias de raciocínio com modelos como o GPT-4o, e Construção do Conjunto de Dados SFT, que emparelha esses templates com conjuntos de dados de referência para ajuste fino supervisionado. Nossos experimentos mostram que o MoR melhora significativamente o desempenho, com o MoR150 alcançando 0,730 (melhoria de 2,2%) usando prompting CoT e 0,734 (melhoria de 13,5%) em comparação com as baselines. O MoR elimina a necessidade de prompts específicos para cada tarefa, oferecendo uma solução generalizável para um raciocínio robusto em diversas tarefas.
O 3D Gaussian Splatting permite renderização em tempo real de alta qualidade, mas frequentemente produz milhões de splats, resultando em sobrecarga excessiva de armazenamento e computação. Propomos um novo método de compressão com perdas baseado em escores de confiança aprendíveis, modelados como distribuições Beta. A confiança de cada splat é otimizada por meio de perdas conscientes da reconstrução, permitindo a poda de splats de baixa confiança enquanto preserva a fidelidade visual. A abordagem proposta é independente de arquitetura e pode ser aplicada a qualquer variante do Gaussian Splatting. Além disso, os valores médios de confiança servem como uma nova métrica para avaliar a qualidade da cena. Experimentos extensivos demonstram compensações favoráveis entre compressão e fidelidade em comparação com trabalhos anteriores. Nosso código e dados estão publicamente disponíveis em https://github.com/amirhossein-razlighi/Confident-Splatting.
A modelagem precisa de materiais é crucial para alcançar renderizações fotorrealistas, reduzindo a lacuna entre imagens geradas por computador e fotografias do mundo real. Embora abordagens tradicionais dependam de dados tabulados de BRDF, trabalhos recentes têm migrado para representações neurais implícitas, que oferecem estruturas compactas e flexíveis para uma variedade de tarefas. No entanto, seu comportamento no domínio da frequência ainda é pouco compreendido. Para abordar isso, introduzimos o FreNBRDF, uma representação neural de materiais com retificação de frequência. Ao aproveitar harmônicos esféricos, integramos considerações do domínio da frequência na modelagem neural de BRDF. Propomos uma nova função de perda com retificação de frequência, derivada de uma análise de frequência de materiais neurais, e a incorporamos em um pipeline generalizável e adaptativo de reconstrução e edição. Essa estrutura aprimora fidelidade, adaptabilidade e eficiência. Experimentos extensivos demonstram que o \ours melhora a precisão e a robustez da reconstrução e edição da aparência de materiais em comparação com baselines state-of-the-art, permitindo tarefas e aplicações subsequentes mais estruturadas e interpretáveis.
Apresentamos Ella, um agente social corporificado capaz de aprendizado contínuo dentro de uma comunidade em um mundo aberto 3D, onde os agentes acumulam experiências e adquirem conhecimento por meio de observações visuais e interações sociais cotidianas. No cerne das capacidades de Ella está um sistema de memória multimodal estruturado e de longo prazo que armazena, atualiza e recupera informações de forma eficaz. Ele consiste em uma memória semântica centrada em nomes para organizar o conhecimento adquirido e uma memória episódica espaço-temporal para capturar experiências multimodais. Ao integrar esse sistema de memória contínua com modelos de base, Ella recupera informações relevantes para a tomada de decisões, planeja atividades diárias, constrói relacionamentos sociais e evolui de forma autônoma enquanto coexiste com outros seres inteligentes no mundo aberto. Realizamos avaliações orientadas por capacidades em um mundo aberto 3D dinâmico, onde 15 agentes participam de atividades sociais por dias e são avaliados com uma série de testes controlados inéditos. Os resultados experimentais mostram que Ella pode influenciar, liderar e cooperar bem com outros agentes para alcançar objetivos, demonstrando sua capacidade de aprender efetivamente por meio de observação e interação social. Nossas descobertas destacam o potencial transformador de combinar sistemas de memória estruturados com modelos de base para avançar a inteligência corporificada. Mais vídeos podem ser encontrados em https://umass-embodied-agi.github.io/Ella/.