Artigos de pesquisa em IA selecionados diariamente com traduções
A aprendizagem por reforço multiagente (MARL) demonstra progresso significativo na resolução de problemas multiagente cooperativos e competitivos em diversos ambientes. Um dos principais desafios em MARL é a necessidade de prever explicitamente o comportamento dos agentes para alcançar a cooperação. Para resolver essa questão, propomos o Transformador de Memória Recorrente Compartilhada (SRMT), que estende os transformadores de memória para configurações multiagente por meio da agregação e transmissão global das memórias de trabalho individuais, permitindo que os agentes troquem informações implicitamente e coordenem suas ações. Avaliamos o SRMT no problema de Caminho de Multiagente Parcialmente Observável em uma tarefa de navegação em gargalo de brinquedo que exige que os agentes passem por um corredor estreito e em um conjunto de tarefas de referência POGEMA. Na tarefa de Gargalo, o SRMT supera consistentemente uma variedade de baselines de aprendizagem por reforço, especialmente sob recompensas esparsas, e generaliza efetivamente para corredores mais longos do que os vistos durante o treinamento. Nos mapas POGEMA, incluindo Labirintos, Aleatórios e MovingAI, o SRMT é competitivo com algoritmos recentes de MARL, híbridos e baseados em planejamento. Esses resultados sugerem que a incorporação de memória recorrente compartilhada nas arquiteturas baseadas em transformadores pode aprimorar a coordenação em sistemas multiagente descentralizados. O código-fonte para treinamento e avaliação está disponível no GitHub: https://github.com/Aloriosa/srmt.
A geração de vídeos alcançou avanços significativos por meio de técnicas de fluxo retificado, mas problemas como movimentos não suaves e desalinhamento entre vídeos e instruções persistem. Neste trabalho, desenvolvemos um pipeline sistemático que utiliza feedback humano para mitigar esses problemas e refinar o modelo de geração de vídeos. Especificamente, começamos construindo um grande conjunto de dados de preferência humana focado em modelos modernos de geração de vídeos, incorporando anotações em pares em várias dimensões. Em seguida, introduzimos o VideoReward, um modelo de recompensa de vídeo multidimensional, e examinamos como as anotações e várias escolhas de design impactam sua eficácia recompensadora. De uma perspectiva unificada de aprendizado por reforço com o objetivo de maximizar a recompensa com regularização KL, introduzimos três algoritmos de alinhamento para modelos baseados em fluxo, estendendo aqueles dos modelos de difusão. Estes incluem duas estratégias durante o treinamento: otimização direta de preferência para fluxo (Flow-DPO) e regressão ponderada por recompensa para fluxo (Flow-RWR), e uma técnica durante a inferência, Flow-NRG, que aplica orientação de recompensa diretamente a vídeos ruidosos. Resultados experimentais indicam que o VideoReward supera significativamente os modelos de recompensa existentes, e o Flow-DPO demonstra desempenho superior em comparação com o Flow-RWR e métodos padrão de ajuste fino supervisionado. Além disso, o Flow-NRG permite que os usuários atribuam pesos personalizados a múltiplos objetivos durante a inferência, atendendo às necessidades de qualidade de vídeo personalizadas. Página do projeto: https://gongyeliu.github.io/videoalign.
Apresentamos Sigma, um modelo de linguagem grande eficiente especializado para o domínio do sistema, potencializado por uma arquitetura inovadora que inclui atenção DiffQKV e pré-treinado em nossos dados meticulosamente coletados no domínio do sistema. A atenção DiffQKV melhora significativamente a eficiência de inferência do Sigma otimizando os componentes de Consulta (Q), Chave (K) e Valor (V) no mecanismo de atenção de forma diferencial, com base em seus diferentes impactos no desempenho do modelo e nos indicadores de eficiência. Especificamente, realizamos experimentos extensivos que demonstram a sensibilidade variável do modelo à compressão dos componentes K e V, resultando no desenvolvimento de KV comprimidos de forma diferencial, e propomos um Q aumentado para expandir a dimensão da cabeça Q, o que melhora a capacidade de representação do modelo com impactos mínimos na velocidade de inferência. Análises teóricas e empíricas rigorosas revelam que a atenção DiffQKV melhora significativamente a eficiência, alcançando uma melhoria de até 33,36% na velocidade de inferência em comparação com a atenção de consulta agrupada convencional (GQA) em cenários de contexto longo. Pré-treinamos o Sigma em 6T tokens de várias fontes, incluindo 19,5B de dados no domínio do sistema que coletamos cuidadosamente e 1T de tokens de dados sintetizados e reescritos. Em domínios gerais, o Sigma alcança desempenho comparável a outros modelos de ponta. No domínio do sistema, introduzimos o primeiro benchmark abrangente AIMicius, onde o Sigma demonstra um desempenho notável em todas as tarefas, superando significativamente o GPT-4 com uma melhoria absoluta de até 52,5%.
O raciocínio Encadeado de Pensamento (CoT) tem sido extensivamente explorado em grandes modelos para lidar com tarefas complexas de compreensão. No entanto, ainda permanece uma questão em aberto se tais estratégias podem ser aplicadas para verificar e reforçar cenários de geração de imagens. Neste artigo, fornecemos a primeira investigação abrangente do potencial do raciocínio CoT para aprimorar a geração de imagens autoregressivas. Focamos em três técnicas: escalonamento da computação em tempo de teste para verificação, alinhamento das preferências do modelo com a Otimização de Preferência Direta (DPO) e integração dessas técnicas para efeitos complementares. Nossos resultados demonstram que essas abordagens podem ser adaptadas e combinadas de forma eficaz para melhorar significativamente o desempenho na geração de imagens. Além disso, dada a função crucial dos modelos de recompensa em nossas descobertas, propomos o Modelo de Recompensa de Avaliação de Potencial (PARM) e PARM++, especializados para geração de imagens autoregressivas. O PARM avalia adaptativamente cada passo de geração por meio de uma abordagem de avaliação de potencial, fundindo os pontos fortes dos modelos de recompensa existentes, e o PARM++ introduz ainda um mecanismo de reflexão para autocorrigir a imagem gerada insatisfatória. Utilizando nossas estratégias de raciocínio investigadas, aprimoramos um modelo de referência, Show-o, para obter resultados superiores, com uma melhoria significativa de +24% no benchmark GenEval, superando o Stable Diffusion 3 em +15%. Esperamos que nosso estudo forneça insights únicos e abra um novo caminho para integrar o raciocínio CoT com a geração de imagens autoregressivas. O código e os modelos estão disponíveis em https://github.com/ZiyuGuo99/Image-Generation-CoT
Os humanos adquirem conhecimento por meio de três estágios cognitivos: perceber informações, compreender conhecimento e adaptar conhecimento para resolver problemas novos. Vídeos servem como um meio eficaz para esse processo de aprendizado, facilitando a progressão por esses estágios cognitivos. No entanto, os benchmarks de vídeo existentes falham em avaliar sistematicamente as capacidades de aquisição de conhecimento em Modelos Multimodais Grandes (LMMs). Para abordar essa lacuna, apresentamos o Video-MMMU, um benchmark multi-modal, multidisciplinar projetado para avaliar a capacidade dos LMMs de adquirir e utilizar conhecimento de vídeos. O Video-MMMU apresenta uma coleção selecionada de 300 vídeos de nível especializado e 900 perguntas humanamente anotadas em seis disciplinas, avaliando a aquisição de conhecimento por meio de pares de perguntas e respostas alinhadas com os estágios: Percepção, Compreensão e Adaptação. Uma métrica proposta de ganho de conhecimento, Δconhecimento, quantifica a melhoria no desempenho após a visualização do vídeo. A avaliação dos LMMs revela uma queda acentuada no desempenho à medida que as demandas cognitivas aumentam e destaca uma lacuna significativa entre a aquisição de conhecimento humana e do modelo, ressaltando a necessidade de métodos para aprimorar a capacidade dos LMMs de aprender e se adaptar a partir de vídeos.
Apesar dos avanços significativos em modelos multimodais grandes de vídeo (video-LMMs), alcançar um enquadramento temporal eficaz em vídeos de longa duração continua sendo um desafio para os modelos existentes. Para lidar com essa limitação, propomos a Otimização de Preferência Temporal (TPO), um novo framework pós-treinamento projetado para aprimorar as capacidades de enquadramento temporal dos video-LMMs por meio de aprendizado de preferência. O TPO adota uma abordagem de autoaprendizagem que permite aos modelos diferenciar entre respostas temporais bem fundamentadas e menos precisas, utilizando conjuntos de dados de preferência curados em duas granularidades: enquadramento temporal localizado, que se concentra em segmentos de vídeo específicos, e enquadramento temporal abrangente, que captura dependências temporais estendidas em sequências de vídeo inteiras. Ao otimizar nesses conjuntos de dados de preferência, o TPO aprimora significativamente a compreensão temporal, reduzindo a dependência de dados anotados manualmente. Experimentos extensivos em três benchmarks de compreensão de vídeo de longa duração - LongVideoBench, MLVU e Video-MME - demonstram a eficácia do TPO em dois modelos de video-LMMs de última geração. Notavelmente, o LLaVA-Video-TPO se estabelece como o principal modelo 7B no benchmark Video-MME, destacando o potencial do TPO como uma solução escalável e eficiente para avançar no raciocínio temporal na compreensão de vídeo de longa duração. Página do projeto: https://ruili33.github.io/tpo_website.
Com o rápido desenvolvimento de modelos de difusão, os modelos de texto-para-imagem (T2I) avançaram significativamente, demonstrando habilidades impressionantes em seguir instruções e gerar imagens. Modelos recentemente lançados como FLUX.1 e Ideogram2.0, juntamente com outros como Dall-E3 e Stable Diffusion 3, têm apresentado desempenho excepcional em diversas tarefas complexas, levantando questões sobre se os modelos T2I estão caminhando em direção a uma aplicabilidade de propósito geral. Além da geração tradicional de imagens, esses modelos exibem capacidades em uma variedade de campos, incluindo geração controlável, edição de imagens, vídeo, áudio, 3D e geração de movimento, bem como tarefas de visão computacional como segmentação semântica e estimativa de profundidade. No entanto, os frameworks de avaliação atuais são insuficientes para avaliar de forma abrangente o desempenho desses modelos em domínios em expansão. Para avaliar minuciosamente esses modelos, desenvolvemos o IMAGINE-E e testamos seis modelos proeminentes: FLUX.1, Ideogram2.0, Midjourney, Dall-E3, Stable Diffusion 3 e Jimeng. Nossa avaliação é dividida em cinco domínios-chave: geração de saída estruturada, realismo e consistência física, geração em domínio específico, geração de cenários desafiadores e tarefas de criação multiestilo. Esta avaliação abrangente destaca os pontos fortes e limitações de cada modelo, especialmente o desempenho excepcional de FLUX.1 e Ideogram2.0 em tarefas estruturadas e em domínio específico, enfatizando as aplicações em expansão e o potencial dos modelos T2I como ferramentas fundamentais de IA. Este estudo fornece insights valiosos sobre o estado atual e a trajetória futura dos modelos T2I à medida que evoluem em direção à usabilidade de propósito geral. Os scripts de avaliação serão disponibilizados em https://github.com/jylei16/Imagine-e.
Grandes modelos de linguagem (LLMs) demonstraram recentemente um sucesso notável em raciocínio matemático. Apesar do progresso em métodos como a indução de pensamento em cadeia e amostragem de autoconsistência, esses avanços frequentemente se concentram na correção final sem garantir que o processo de raciocínio subjacente seja coerente e confiável. Este artigo apresenta o Step-KTO, um framework de treinamento que combina feedback binário em nível de processo e em nível de resultado para orientar os LLMs em direção a trajetórias de raciocínio mais confiáveis. Ao fornecer avaliações binárias tanto para os passos de raciocínio intermediários quanto para a resposta final, o Step-KTO incentiva o modelo a aderir a progressões lógicas em vez de depender de atalhos superficiais. Nossos experimentos em benchmarks matemáticos desafiadores mostram que o Step-KTO melhora significativamente tanto a precisão da resposta final quanto a qualidade dos passos de raciocínio intermediários. Por exemplo, no conjunto de dados MATH-500, o Step-KTO alcança uma melhoria notável na precisão Pass@1 em relação a baselines fortes. Esses resultados destacam a promessa de integrar feedback de processo passo a passo no treinamento de LLMs, abrindo caminho para capacidades de raciocínio mais interpretáveis e confiáveis.
Algoritmos recentes de inpainting de vídeos integram propagação de pixels baseada em fluxo com geração baseada em transformadores para aproveitar o fluxo óptico na restauração de texturas e objetos usando informações de quadros vizinhos, ao mesmo tempo que completam regiões mascaradas por meio de Transformadores visuais. No entanto, essas abordagens frequentemente encontram desfoque e inconsistências temporais ao lidar com máscaras grandes, destacando a necessidade de modelos com capacidades generativas aprimoradas. Recentemente, modelos de difusão surgiram como uma técnica proeminente na geração de imagens e vídeos devido ao seu desempenho impressionante. Neste artigo, apresentamos o DiffuEraser, um modelo de inpainting de vídeo baseado em difusão estável, projetado para preencher regiões mascaradas com mais detalhes e estruturas mais coerentes. Incorporamos informações prévias para fornecer inicialização e condicionamento fraco, o que ajuda a mitigar artefatos ruidosos e suprimir alucinações. Além disso, para melhorar a consistência temporal durante inferências de sequências longas, expandimos os campos receptivos temporais tanto do modelo prévio quanto do DiffuEraser, e aprimoramos ainda mais a consistência aproveitando a propriedade de suavização temporal dos Modelos de Difusão de Vídeo. Resultados experimentais demonstram que nosso método proposto supera as técnicas de ponta tanto em completude de conteúdo quanto em consistência temporal, mantendo uma eficiência aceitável.
Preocupações sobre alucinações em Modelos de Linguagem de Grande Escala (LLMs) têm sido levantadas por pesquisadores, no entanto, seu potencial em áreas onde a criatividade é vital, como a descoberta de medicamentos, merece exploração. Neste artigo, formulamos a hipótese de que alucinações podem melhorar os LLMs na descoberta de medicamentos. Para verificar essa hipótese, utilizamos LLMs para descrever a sequência SMILES de moléculas em linguagem natural e depois incorporamos essas descrições como parte do estímulo para abordar tarefas específicas na descoberta de medicamentos. Avaliados em sete LLMs e cinco tarefas de classificação, nossas descobertas confirmam a hipótese: LLMs podem alcançar melhor desempenho com texto contendo alucinações. Notavelmente, o Llama-3.1-8B alcança um aumento de 18,35% no ROC-AUC em comparação com a linha de base sem alucinação. Além disso, alucinações geradas pelo GPT-4o proporcionam as melhorias mais consistentes entre os modelos. Adicionalmente, conduzimos análises empíricas e um estudo de caso para investigar os principais fatores que afetam o desempenho e as razões subjacentes. Nossa pesquisa lança luz sobre o uso potencial de alucinações para LLMs e oferece novas perspectivas para futuras pesquisas aproveitando LLMs na descoberta de medicamentos.
Modelos de geração de texto para imagem podem criar imagens de alta qualidade a partir de sugestões de entrada. No entanto, eles têm dificuldade em manter a geração consistente de requisitos de preservação de identidade para contar histórias. As abordagens existentes para esse problema geralmente exigem treinamento extensivo em grandes conjuntos de dados ou modificações adicionais nas arquiteturas originais dos modelos. Isso limita sua aplicabilidade em diferentes domínios e configurações de modelos de difusão diversos. Neste artigo, observamos inicialmente a capacidade inerente dos modelos de linguagem, denominada consistência de contexto, para compreender a identidade por meio do contexto com uma única sugestão. Inspirados pela consistência de contexto inerente, propomos um método inovador, sem necessidade de treinamento, para geração consistente de texto para imagem (T2I), denominado "Um-Prompt-Uma-História" (1Prompt1Story). Nosso método 1Prompt1Story concatena todas as sugestões em uma única entrada para modelos de difusão T2I, preservando inicialmente as identidades dos personagens. Em seguida, refinamos o processo de geração usando duas técnicas inovadoras: Reponderação de Valor Singular e Atenção Cruzada Preservadora de Identidade, garantindo uma melhor alinhamento com a descrição de entrada para cada quadro. Em nossos experimentos, comparamos nosso método com várias abordagens existentes de geração consistente T2I para demonstrar sua eficácia por meio de métricas quantitativas e avaliações qualitativas. O código está disponível em https://github.com/byliutao/1Prompt1Story.
Os avanços recentes na geração de vídeos têm impactado significativamente diversas aplicações subsequentes, especialmente na geração de vídeos preservando identidade (IPT2V). No entanto, os métodos existentes enfrentam dificuldades com artefatos de "copiar e colar" e problemas de baixa similaridade, principalmente devido à sua dependência de informações de imagem facial em baixo nível. Essa dependência pode resultar em aparências faciais rígidas e artefatos que refletem detalhes irrelevantes. Para lidar com esses desafios, propomos o EchoVideo, que emprega duas estratégias-chave: (1) um Módulo de Fusão de Imagem-Texto de Identidade (IITF) que integra características semânticas de alto nível do texto, capturando representações de identidade facial limpas enquanto descarta oclusões, poses e variações de iluminação para evitar a introdução de artefatos; (2) uma estratégia de treinamento em duas etapas, incorporando um método estocástico na segunda fase para utilizar aleatoriamente informações faciais rasas. O objetivo é equilibrar as melhorias na fidelidade fornecidas por características rasas enquanto mitiga a dependência excessiva delas. Essa estratégia incentiva o modelo a utilizar características de alto nível durante o treinamento, promovendo, em última instância, uma representação mais robusta das identidades faciais. O EchoVideo preserva efetivamente identidades faciais e mantém a integridade do corpo inteiro. Experimentos extensivos demonstram que ele alcança excelentes resultados na geração de vídeos de alta qualidade, controlabilidade e fidelidade.
Métodos comuns para alinhar modelos já capazes com o comportamento desejado dependem da capacidade dos humanos em fornecer supervisão. No entanto, modelos super-humanos futuros irão ultrapassar a capacidade dos humanos. Portanto, os humanos só serão capazes de supervisionar fracamente os modelos super-humanos. Essa deficiência esperada na avaliação humana enfraqueceria a segurança dos futuros sistemas de IA. A supervisão escalável e a generalização fraca a forte são duas abordagens complementares para lidar com esse problema. Neste artigo, tentamos combinar os pontos fortes dessas duas abordagens para melhorar ainda mais o alinhamento. Especificamente, investigamos maneiras de melhorar a supervisão humana com um modelo pré-treinado forte e então supervisionar o modelo forte com uma supervisão humana fraca aprimorada. Para fazer progressos empíricos iterativos, consideramos uma analogia: podemos usar um modelo forte para melhorar a supervisão de um modelo fraco e então usá-lo para supervisionar o modelo forte? Testamos empiricamente isso refinando um pequeno modelo fraco em rótulos de verdade absoluta com a ajuda adicional de um grande modelo forte e, em seguida, refinando o modelo forte em rótulos gerados pelo modelo fraco. Descobrimos que o debate pode auxiliar um modelo fraco a extrair informações confiáveis de um modelo forte não confiável, o que fornece alavancagem como contexto em amostras durante o treinamento de um modelo fraco. Também mostramos que um conjunto de modelos fracos ajuda a explorar argumentos longos gerados por debatedores de modelos fortes e obter uma estimativa de supervisão mais robusta. Experimentos extensivos nos benchmarks de NLP fraco a forte da OpenAI mostram que a abordagem combinada leva a um melhor alinhamento, o que indica que o debate tem o potencial de ajudar na generalização fraca a forte.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado avanços significativos, oferecendo um futuro promissor para agentes incorporados. Os benchmarks existentes para avaliar MLLMs utilizam principalmente imagens estáticas ou vídeos, limitando as avaliações a cenários não interativos. Enquanto isso, os benchmarks de IA incorporada existentes são específicos de tarefas e não são suficientemente diversos, o que não avalia adequadamente as capacidades incorporadas dos MLLMs. Para lidar com isso, propomos o EmbodiedEval, um benchmark abrangente e interativo de avaliação para MLLMs com tarefas incorporadas. O EmbodiedEval apresenta 328 tarefas distintas em 125 cenas 3D variadas, cada uma rigorosamente selecionada e anotada. Ele abrange um amplo espectro de tarefas de IA incorporada existentes com diversidade significativamente aprimorada, tudo dentro de um framework unificado de simulação e avaliação adaptado para MLLMs. As tarefas são organizadas em cinco categorias: navegação, interação com objetos, interação social, resposta a perguntas de atributos e resposta a perguntas espaciais para avaliar diferentes capacidades dos agentes. Avaliamos os MLLMs de ponta no EmbodiedEval e descobrimos que eles têm uma deficiência significativa em comparação com o nível humano em tarefas incorporadas. Nossa análise demonstra as limitações dos MLLMs existentes em capacidades incorporadas, fornecendo insights para o desenvolvimento futuro. Disponibilizamos todos os dados de avaliação e o framework de simulação em código aberto em https://github.com/thunlp/EmbodiedEval.
Este artigo afirma que a aprendizagem de máquina (AM) em grande parte negligencia um aspecto importante da inteligência geral: a robustez a um futuro qualitativamente desconhecido em um mundo aberto. Essa robustez está relacionada à incerteza Knightiana (KU) na economia, ou seja, uma incerteza que não pode ser quantificada, a qual é excluída da consideração nos formalismos-chave da AM. Este artigo tem como objetivo identificar esse ponto cego, argumentar sua importância e catalisar a pesquisa para abordá-lo, o que acreditamos ser necessário para criar uma inteligência artificial verdadeiramente robusta em um mundo aberto. Para ajudar a iluminar o ponto cego, contrastamos uma área da AM, o aprendizado por reforço (RL), com o processo de evolução biológica. Apesar do impressionante progresso contínuo, o RL ainda enfrenta dificuldades em situações de mundo aberto, frequentemente falhando em situações imprevistas. Por exemplo, a ideia de transferir sem treinamento uma política de direção autônoma treinada apenas nos EUA para o Reino Unido atualmente parece excessivamente ambiciosa. Em dramático contraste, a evolução biológica rotineiramente produz agentes que prosperam em um mundo aberto, às vezes até em situações que são notavelmente fora da distribuição (por exemplo, espécies invasoras; ou humanos, que realizam tal direção internacional sem treinamento). Interessantemente, a evolução alcança essa robustez sem teoria explícita, formalismos ou gradientes matemáticos. Exploramos as suposições subjacentes aos formalismos típicos do RL, mostrando como eles limitam o envolvimento do RL com os desconhecidos desconhecidos característicos de um mundo complexo em constante mudança. Além disso, identificamos mecanismos pelos quais os processos evolutivos promovem a robustez a desafios novos e imprevisíveis, e discutimos possíveis caminhos para incorporá-los algoritmicamente. A conclusão é que a intrigante fragilidade restante da AM pode resultar de pontos cegos em seus formalismos, e que ganhos significativos podem resultar de um confronto direto com o desafio da KU.
Modelos de Linguagem de Grande Escala (LLMs) demandam recursos computacionais significativos, tornando essencial aprimorar suas capacidades sem a necessidade de reentrenamento do zero. Um desafio chave nesse domínio é o esquecimento catastrófico (CF), que prejudica o desempenho durante o Pré-treinamento Contínuo (CPT) e o Ajuste Fino Supervisionado Contínuo (CSFT). Propomos o Control LLM, uma abordagem inovadora que aproveita blocos de transformadores pré-treinados e expandidos em paralelo, alinhando seus estados ocultos por meio de estratégias de interpolação. Este método preserva efetivamente o desempenho em tarefas existentes enquanto integra novos conhecimentos de forma contínua. Experimentos extensivos demonstram a eficácia do Control LLM tanto no CPT quanto no CSFT. No Llama3.1-8B-Instruct, ele alcança melhorias significativas em raciocínio matemático (+14,4% em Math-Hard) e desempenho de codificação (+10% em MBPP-PLUS). No Llama3.1-8B, ele aprimora as capacidades multilíngues (+10,6% em C-Eval, +6,8% em CMMLU e +30,2% em CMMLU-0shot-CoT). Supera métodos existentes e atinge o estado da arte entre modelos de código aberto ajustados a partir do mesmo modelo base, utilizando substancialmente menos dados e recursos computacionais. Crucialmente, esses ganhos são alcançados preservando fortes capacidades originais, com degradação mínima (<4,3% em MMLU) em comparação com >35% em modelos de matemática e codificação de código aberto. Essa abordagem foi implementada com sucesso nos produtos GenAI da LinkedIn para busca de emprego e unidades de anúncios. Para apoiar pesquisas adicionais, disponibilizamos o código de treinamento e avaliação (https://github.com/linkedin/ControlLLM) juntamente com modelos treinados em conjuntos de dados públicos (https://huggingface.co/ControlLLM) para a comunidade.
As técnicas de Splatting Gaussiano 3D têm possibilitado a renderização eficiente e fotorrealista de cenas estáticas. Trabalhos recentes têm estendido essas abordagens para suportar a reconstrução e rastreamento de superfícies. No entanto, o rastreamento de superfícies dinâmicas com Gaussianas 3D ainda é desafiador devido a mudanças de topologia complexas, como superfícies que aparecem, desaparecem ou se dividem. Para lidar com esses desafios, propomos o GSTAR, um método inovador que alcança renderização fotorrealista, reconstrução precisa de superfícies e rastreamento 3D confiável para cenas dinâmicas gerais com topologia variável. Dadas capturas de múltiplas vistas como entrada, o GSTAR associa Gaussianas às faces da malha para representar objetos dinâmicos. Para superfícies com topologia consistente, o GSTAR mantém a topologia da malha e rastreia as malhas usando Gaussianas. Em regiões onde a topologia muda, o GSTAR desvincula adaptativamente as Gaussianas da malha, possibilitando um registro preciso e a geração de novas superfícies com base nessas Gaussianas otimizadas. Além disso, introduzimos um método de fluxo de cena baseado em superfície que fornece uma inicialização robusta para o rastreamento entre quadros. Experimentos demonstram que nosso método rastreia e reconstrói efetivamente superfícies dinâmicas, possibilitando uma variedade de aplicações. Nossa página do projeto com o código disponível está disponível em https://eth-ait.github.io/GSTAR/.