Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Byte Latent Transformer (BLT), uma nova arquitetura de Modelo de Linguagem a nível de byte que, pela primeira vez, alcança o desempenho de modelos baseados em tokenização em escala, com melhorias significativas na eficiência e robustez da inferência. O BLT codifica bytes em patches de tamanhos dinâmicos, que funcionam como as principais unidades de computação. Os patches são segmentados com base na entropia do próximo byte, alocando mais capacidade de computação e do modelo onde a complexidade dos dados aumenta. Apresentamos o primeiro estudo de escalonamento controlado por FLOP de modelos a nível de byte com até 8B de parâmetros e 4T de bytes de treinamento. Nossos resultados demonstram a viabilidade de escalar modelos treinados em bytes brutos sem um vocabulário fixo. Tanto a eficiência de treinamento quanto a de inferência melhoram devido à seleção dinâmica de patches longos quando os dados são previsíveis, juntamente com melhorias qualitativas no raciocínio e generalização de longo alcance. No geral, para custos de inferência fixos, o BLT mostra um escalonamento significativamente melhor do que os modelos baseados em tokenização, ao mesmo tempo em que aumenta tanto o tamanho do patch quanto do modelo.
Grandes modelos de linguagem (LLMs) exibem notáveis capacidades generativas, mas frequentemente sofrem de alucinações. A geração aumentada por recuperação (RAG) oferece uma solução eficaz ao incorporar conhecimento externo, porém os métodos existentes ainda enfrentam várias limitações: custos adicionais de implantação de recuperadores separados, tokens de entrada redundantes de trechos de texto recuperados e a falta de otimização conjunta de recuperação e geração. Para lidar com essas questões, propomos o RetroLLM, um framework unificado que integra recuperação e geração em um único processo coeso, permitindo que LLMs gerem diretamente evidências detalhadas do corpus com decodificação restrita. Além disso, para mitigar a poda falsa no processo de geração de evidências restritas, introduzimos (1) restrições hierárquicas do índice FM, que geram pistas restritas ao corpus para identificar um subconjunto de documentos relevantes antes da geração de evidências, reduzindo o espaço de decodificação irrelevante; e (2) uma estratégia de decodificação restrita prospectiva, que considera a relevância de sequências futuras para melhorar a precisão das evidências. Experimentos extensivos em cinco conjuntos de dados de perguntas e respostas de domínio aberto demonstram o desempenho superior do RetroLLM em tarefas tanto dentro quanto fora do domínio. O código está disponível em https://github.com/sunnynexus/RetroLLM.
Os avanços recentes em modelos generativos visuais possibilitaram a geração de imagens e vídeos de alta qualidade, abrindo diversas aplicações. No entanto, avaliar esses modelos frequentemente exige a amostragem de centenas ou milhares de imagens ou vídeos, tornando o processo computacionalmente caro, especialmente para modelos baseados em difusão com amostragem naturalmente lenta. Além disso, os métodos de avaliação existentes dependem de pipelines rígidos que ignoram necessidades específicas do usuário e fornecem resultados numéricos sem explicações claras. Em contraste, os humanos podem rapidamente formar impressões sobre as capacidades de um modelo observando apenas algumas amostras. Para imitar isso, propomos o framework Agente de Avaliação, que emprega estratégias semelhantes às humanas para avaliações eficientes, dinâmicas e multi-rodadas usando apenas algumas amostras por rodada, ao mesmo tempo que oferece análises detalhadas e personalizadas para o usuário. Ele oferece quatro principais vantagens: 1) eficiência, 2) avaliação adaptável às diversas necessidades do usuário, 3) explicabilidade além de pontuações numéricas únicas e 4) escalabilidade entre vários modelos e ferramentas. Experimentos mostram que o Agente de Avaliação reduz o tempo de avaliação para 10% dos métodos tradicionais, entregando resultados comparáveis. O framework Agente de Avaliação é totalmente de código aberto para avançar a pesquisa em modelos generativos visuais e sua avaliação eficiente.
A edição de imagens avançou significativamente com o desenvolvimento de modelos de difusão que utilizam métodos baseados em inversão e baseados em instruções. No entanto, as abordagens atuais baseadas em inversão enfrentam dificuldades com grandes modificações (por exemplo, adicionar ou remover objetos) devido à natureza estruturada do ruído de inversão, o que dificulta mudanças substanciais. Enquanto isso, os métodos baseados em instruções frequentemente restringem os usuários a operações de caixa-preta, limitando a interação direta para especificar regiões de edição e intensidade. Para lidar com essas limitações, propomos o BrushEdit, um novo paradigma de edição de imagens guiado por instruções baseado em inpainting, que aproveita modelos de linguagem multimodais grandes (MLLMs) e modelos de inpainting de imagens para permitir edição autônoma, amigável ao usuário e interativa com instruções de forma livre. Especificamente, desenvolvemos um sistema que permite a edição de instruções de forma livre integrando MLLMs e um modelo de inpainting de imagens de duplo ramo em um framework cooperativo de agentes para realizar classificação de categoria de edição, identificação do objeto principal, aquisição de máscara e inpainting da área de edição. Experimentos extensivos mostram que nosso framework combina efetivamente MLLMs e modelos de inpainting, alcançando desempenho superior em sete métricas, incluindo preservação da região da máscara e coerência do efeito de edição.
A afinação de instruções tem sido amplamente utilizada para liberar o potencial completo de grandes modelos de linguagem. Notavelmente, instruções complexas e diversas são de grande importância, pois podem alinhar efetivamente os modelos com várias tarefas subsequentes. No entanto, abordagens atuais para a construção de instruções em larga escala predominantemente favorecem modelos poderosos como o GPT-4 ou aqueles com mais de 70 bilhões de parâmetros, sob a presunção empírica de que tais modelos de linguagem maiores (LLMs) possuem inerentemente capacidades aprimoradas. Neste estudo, questionamos essa suposição prevalente e realizamos uma exploração aprofundada do potencial de modelos de linguagem menores (SLMs) no contexto da evolução de instruções. Experimentos extensivos em três cenários de evolução de instruções revelam que os modelos de linguagem menores (SLMs) podem sintetizar instruções mais eficazes do que os LLMs. Uma análise adicional demonstra que os SLMs possuem um espaço de saída mais amplo durante a evolução de instruções, resultando em variantes mais complexas e diversas. Também observamos que as métricas existentes falham em focar no impacto das instruções. Portanto, propomos o Complexo de Instrução Consciente IFD (IC-IFD), que introduz a complexidade da instrução no escore IFD original para avaliar a eficácia dos dados de instrução de forma mais precisa. Nosso código-fonte está disponível em: https://github.com/HypherX/Evolution-Analysis.
A colorização automática de sequências de imagens em preto e branco, preservando a identidade de personagens e objetos, é uma tarefa complexa com uma demanda significativa no mercado, como na colorização de séries de desenhos animados ou quadrinhos. Apesar dos avanços na colorização visual usando modelos generativos em larga escala, como os modelos de difusão, desafios relacionados à controlabilidade e consistência de identidade persistem, tornando as soluções atuais inadequadas para aplicação industrial. Para lidar com isso, propomos o ColorFlow, um framework baseado em difusão em três estágios, adaptado para colorização de sequências de imagens em aplicações industriais. Ao contrário de métodos existentes que exigem ajustes finos por ID ou extração explícita de incorporação de ID, propomos um novo pipeline de Colorização Aprimorado por Recuperação, robusto e generalizável, para colorizar imagens com referências de cor relevantes. Nosso pipeline também apresenta um design de duplo ramo: um ramo para extração de identidade de cor e outro para colorização, aproveitando os pontos fortes dos modelos de difusão. Utilizamos o mecanismo de autoatenção em modelos de difusão para um aprendizado forte em contexto e correspondência de identidade de cor. Para avaliar nosso modelo, introduzimos o ColorFlow-Bench, um benchmark abrangente para colorização baseada em referência. Os resultados mostram que o ColorFlow supera os modelos existentes em várias métricas, estabelecendo um novo padrão na colorização de imagens sequenciais e potencialmente beneficiando a indústria artística. Disponibilizamos nossos códigos e modelos em nossa página do projeto: https://zhuang2002.github.io/ColorFlow/.
Apresentamos a Difusão Causal como o equivalente autoregressivo (AR) dos modelos de Difusão. É um framework de previsão do próximo token que é amigável tanto para modalidades discretas quanto contínuas e compatível com modelos existentes de previsão do próximo token como LLaMA e GPT. Enquanto trabalhos recentes tentam combinar difusão com modelos AR, mostramos que a introdução da fatorização sequencial a um modelo de difusão pode melhorar substancialmente seu desempenho e permite uma transição suave entre os modos de geração AR e de difusão. Portanto, propomos o CausalFusion - um transformador apenas decodificador que fatoriza duplamente os dados em tokens sequenciais e níveis de ruído de difusão, resultando em resultados de ponta no benchmark de geração do ImageNet, ao mesmo tempo em que desfruta da vantagem AR de gerar um número arbitrário de tokens para raciocínio contextual. Demonstramos ainda as capacidades multimodais do CausalFusion por meio de um modelo conjunto de geração de imagem e legenda, e exibimos a capacidade do CausalFusion para manipulações de imagem em contexto sem necessidade de treinamento. Esperamos que este trabalho possa fornecer à comunidade uma nova perspectiva sobre o treinamento de modelos multimodais em dados discretos e contínuos.
Seguir instruções é uma capacidade fundamental dos modelos de linguagem, exigindo que o modelo reconheça até mesmo os requisitos mais sutis nas instruções e os reflita com precisão em sua saída. Tal habilidade é adequada e frequentemente otimizada pelo aprendizado de preferências. No entanto, os métodos existentes frequentemente amostram diretamente múltiplas respostas independentes do modelo ao criar pares de preferência. Essa prática pode introduzir variações de conteúdo irrelevantes para determinar se a instrução foi seguida precisamente (por exemplo, diferentes expressões sobre o mesmo significado), interferindo no objetivo de ensinar aos modelos o reconhecimento das diferenças-chave que levam a uma melhor execução das instruções. Diante disso, apresentamos o SPaR, um framework de autojogo que integra refinamento automático de busca em árvore para produzir pares de preferência válidos e comparáveis livres de distrações. Ao jogar consigo mesmo, um LLM emprega uma estratégia de busca em árvore para refinar suas respostas anteriores com relação à instrução, minimizando variações desnecessárias. Nossos experimentos mostram que um modelo LLaMA3-8B, treinado ao longo de três iterações guiadas pelo SPaR, supera o GPT-4-Turbo no benchmark IFEval sem perder capacidades gerais. Além disso, o SPaR demonstra escalabilidade e transferibilidade promissoras, aprimorando significativamente modelos como o GLM-4-9B e o LLaMA3-70B. Também identificamos como a escalabilidade de inferência na busca em árvore afetaria o desempenho do modelo. Nosso código e dados estão disponíveis publicamente em https://github.com/thu-coai/SPaR.
Este artigo aborda uma questão desafiadora: Como podemos criar de forma eficiente cenas 3D de alta qualidade e amplo alcance a partir de uma única imagem arbitrária? Métodos existentes enfrentam várias restrições, como a necessidade de dados de múltiplas visualizações, otimização demorada por cena, baixa qualidade visual em fundos e reconstruções distorcidas em áreas não vistas. Propomos um novo pipeline para superar essas limitações. Especificamente, introduzimos um modelo de reconstrução em grande escala que utiliza latentes de um modelo de difusão de vídeo para prever Splatting Gaussiano 3D para as cenas de forma direta. O modelo de difusão de vídeo é projetado para criar vídeos precisamente seguindo trajetórias de câmera especificadas, permitindo gerar latentes de vídeo comprimidos que contêm informações de múltiplas visualizações mantendo a consistência 3D. Treinamos o modelo de reconstrução 3D para operar no espaço latente de vídeo com uma estratégia de treinamento progressiva, possibilitando a geração eficiente de cenas 3D de alta qualidade, amplo alcance e genéricas. Avaliações extensivas em vários conjuntos de dados demonstram que nosso modelo supera significativamente os métodos existentes para geração de cenas 3D de única visualização, especialmente com imagens fora do domínio. Pela primeira vez, demonstramos que um modelo de reconstrução 3D pode ser construído de forma eficaz com base no espaço latente de um modelo de difusão para realizar a geração eficiente de cenas 3D.
Estimar propriedades físicas para dados visuais é uma tarefa crucial em visão computacional, gráficos e robótica, sustentando aplicações como realidade aumentada, simulação física e agarre robótico. No entanto, esta área permanece pouco explorada devido às ambiguidades inerentes na estimativa de propriedades físicas. Para enfrentar esses desafios, apresentamos o GaussianProperty, um framework sem treinamento que atribui propriedades físicas de materiais a Gaussianas 3D. Especificamente, integramos a capacidade de segmentação do SAM com a capacidade de reconhecimento do GPT-4V(ision) para formular um módulo de raciocínio de propriedade física global-local para imagens 2D. Em seguida, projetamos as propriedades físicas de imagens 2D de múltiplas vistas para Gaussianas 3D usando uma estratégia de votação. Demonstramos que Gaussianas 3D com anotações de propriedades físicas possibilitam aplicações em simulação dinâmica baseada em física e agarre robótico. Para simulação dinâmica baseada em física, aproveitamos o Método de Pontos de Material (MPM) para simulação dinâmica realista. Para o agarre de robôs, desenvolvemos uma estratégia de previsão de força de agarre que estima uma faixa de força segura necessária para o agarre de objetos com base nas propriedades físicas estimadas. Experimentos extensivos em segmentação de materiais, simulação dinâmica baseada em física e agarre robótico validam a eficácia de nosso método proposto, destacando seu papel crucial na compreensão de propriedades físicas a partir de dados visuais. Demonstração online, código, mais casos e conjuntos de dados anotados estão disponíveis em https://Gaussian-Property.github.io.
Capturar informações geométricas e de material a partir de imagens continua sendo um desafio fundamental em visão computacional e gráficos. Métodos tradicionais baseados em otimização frequentemente exigem horas de tempo computacional para reconstruir geometria, propriedades de material e iluminação ambiental a partir de entradas densas de múltiplas vistas, enquanto ainda lidam com ambiguidades inerentes entre iluminação e material. Por outro lado, abordagens baseadas em aprendizado aproveitam priors de material ricos de conjuntos de dados de objetos 3D existentes, mas enfrentam desafios para manter a consistência entre múltiplas vistas. Neste artigo, apresentamos o IDArb, um modelo baseado em difusão projetado para realizar decomposição intrínseca em um número arbitrário de imagens sob iluminações variadas. Nosso método alcança uma estimativa precisa e consistente entre múltiplas vistas de normais de superfície e propriedades de material. Isso é possível por meio de um módulo de atenção cruzada entre vistas e domínios e uma estratégia de treinamento adaptativa à visualização, aumentada pela iluminação. Além disso, introduzimos o ARB-Objaverse, um novo conjunto de dados que fornece dados intrínsecos em grande escala de múltiplas vistas e renderizações sob condições de iluminação diversas, apoiando um treinamento robusto. Experimentos extensivos demonstram que o IDArb supera os métodos de ponta tanto qualitativa quanto quantitativamente. Além disso, nossa abordagem facilita uma variedade de tarefas subsequentes, incluindo reluzimento de imagem única, estéreo fotométrico e reconstrução 3D, destacando suas amplas aplicações na criação de conteúdo 3D realista.
A troca de rostos em vídeos está se tornando cada vez mais popular em diversas aplicações, no entanto, os métodos existentes geralmente se concentram em imagens estáticas e enfrentam dificuldades na troca de rostos em vídeos devido à consistência temporal e cenários complexos. Neste artigo, apresentamos o primeiro framework baseado em difusão especificamente projetado para troca de rostos em vídeos. Nossa abordagem introduz um novo framework de treinamento híbrido de imagem-vídeo que aproveita tanto dados abundantes de imagens estáticas quanto sequências temporais de vídeo, abordando as limitações inerentes do treinamento apenas com vídeos. O framework incorpora um modelo de difusão especialmente projetado acoplado a um VidFaceVAE que processa efetivamente ambos os tipos de dados para manter melhor a coerência temporal dos vídeos gerados. Para desvencilhar ainda mais as características de identidade e pose, construímos o Conjunto de Dados de Triplas de Desvencilhamento de Atributo-Identidade (AIDT), onde cada tripla possui três imagens faciais, com duas imagens compartilhando a mesma pose e duas compartilhando a mesma identidade. Aprimorado com uma ampla gama de oclusões, este conjunto de dados também melhora a robustez contra oclusões. Além disso, integramos técnicas de reconstrução 3D como condicionamento de entrada para nossa rede lidar com grandes variações de pose. Experimentos extensivos demonstram que nosso framework alcança desempenho superior na preservação de identidade, consistência temporal e qualidade visual em comparação com os métodos existentes, exigindo menos passos de inferência. Nossa abordagem mitiga efetivamente desafios-chave na troca de rostos em vídeos, incluindo cintilação temporal, preservação de identidade e robustez a oclusões e variações de pose.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um desempenho excepcional em uma variedade de tarefas de processamento de linguagem natural. No entanto, seus tamanhos substanciais apresentam desafios consideráveis, especialmente em termos de demandas computacionais e velocidade de inferência, devido à sua complexidade quadrática. Neste trabalho, identificamos um padrão-chave: certos tokens especiais aparentemente sem significado (ou seja, separadores) contribuem de forma desproporcional para os escores de atenção em comparação com tokens semanticamente significativos. Essa observação sugere que as informações dos segmentos entre esses tokens separadores podem ser efetivamente condensadas nos próprios tokens separadores sem perda significativa de informações. Orientados por essa percepção, apresentamos o SepLLM, um framework plug-and-play que acelera a inferência comprimindo esses segmentos e eliminando tokens redundantes. Além disso, implementamos kernels eficientes para acelerar o treinamento. Resultados experimentais em configurações sem treinamento, treinamento do zero e pós-treinamento demonstram a eficácia do SepLLM. Notavelmente, utilizando a espinha dorsal Llama-3-8B, o SepLLM alcança mais de 50% de redução no cache KV no benchmark GSM8K-CoT mantendo um desempenho comparável. Além disso, em configurações de streaming, o SepLLM processa efetivamente sequências de até 4 milhões de tokens ou mais mantendo capacidades consistentes de modelagem de linguagem.
Enquanto o corte de cabelo indica uma personalidade distinta, os métodos existentes de geração de avatares falham em modelar cabelos práticos devido à representação geral ou emaranhada. Propomos StrandHead, um novo método de geração de avatares de cabeça 3D a partir de texto capaz de gerar cabelos 3D desembaraçados com representação de fios. Sem utilizar dados 3D para supervisão, demonstramos que fios de cabelo realistas podem ser gerados a partir de sugestões por meio da destilação de modelos de difusão generativa 2D. Para isso, propomos uma série de prioridades confiáveis na inicialização de forma, primitivos geométricos e características estatísticas de corte de cabelo, resultando em uma otimização estável e desempenho alinhado ao texto. Experimentos extensivos mostram que o StrandHead alcança o estado da arte em realismo e diversidade de cabeça e cabelo 3D gerados. O cabelo 3D gerado também pode ser facilmente implementado no Unreal Engine para simulação física e outras aplicações. O código estará disponível em https://xiaokunsun.github.io/StrandHead.github.io.
Grandes modelos de linguagem (LLMs) representam uma mudança fundamental no processamento de linguagem natural (NLP), tendo avançado na geração de texto, tradução e raciocínio específico de domínio. Modelos de código fechado como o GPT-4, alimentados por conjuntos de dados proprietários e recursos computacionais extensivos, lideram com desempenho de ponta atualmente. No entanto, eles enfrentam críticas por sua natureza de "caixa preta" e por limitar a acessibilidade de uma forma que prejudica a reprodutibilidade e o desenvolvimento equitativo de IA. Em contraste, iniciativas de código aberto como LLaMA e BLOOM priorizam a democratização por meio do desenvolvimento impulsionado pela comunidade e eficiência computacional. Esses modelos reduziram significativamente as lacunas de desempenho, especialmente em diversidade linguística e aplicações específicas de domínio, ao mesmo tempo em que fornecem ferramentas acessíveis para pesquisadores e desenvolvedores globais. Notavelmente, ambos os paradigmas dependem de inovações arquiteturais fundamentais, como o framework Transformer de Vaswani et al. (2017). Modelos de código fechado se destacam pela escalabilidade eficaz, enquanto modelos de código aberto se adaptam a aplicações do mundo real em idiomas e domínios sub-representados. Técnicas como Adaptação de Baixa Ordem (LoRA) e conjuntos de dados de ajuste de instruções permitem que modelos de código aberto alcancem resultados competitivos apesar de recursos limitados. Com certeza, a tensão entre abordagens de código fechado e de código aberto destaca um debate mais amplo sobre transparência versus controle proprietário em IA. Considerações éticas destacam ainda mais essa divisão. Sistemas de código fechado restringem a escrutínio externo, enquanto modelos de código aberto promovem a reprodutibilidade e a colaboração, mas carecem de estruturas padronizadas de documentação de auditoria para mitigar viés. Abordagens híbridas que aproveitam as vantagens de ambos os paradigmas provavelmente moldarão o futuro da inovação em LLM, garantindo acessibilidade, desempenho técnico competitivo e implementação ética.
Métodos tradicionais de controle robótico baseados em aprendizado por reforço são frequentemente específicos para tarefas e falham em generalizar em ambientes diversos ou objetos e instruções não vistos. Modelos Visuais de Linguagem (VLMs) demonstram forte compreensão de cena e capacidades de planejamento, mas carecem da habilidade de gerar políticas acionáveis adaptadas a encarnações robóticas específicas. Para lidar com isso, surgiram modelos Visual-Linguagem-Ação (VLA), no entanto, enfrentam desafios em raciocínio espacial de longo horizonte e planejamento de tarefas fundamentado. Neste trabalho, propomos o Modelo de Ação Multimodal Encarnado com Cadeia de Pensamento Fundamentada e Raciocínio Espacial de Antecipação, Emma-X. Emma-X aproveita nosso conjunto de dados de encarnação hierárquica construído com base no BridgeV2, contendo 60.000 trajetórias de manipulação de robôs autoanotadas com raciocínio de tarefas fundamentado e orientação espacial. Adicionalmente, introduzimos uma estratégia de segmentação de trajetória com base em estados de garra e trajetórias de movimento, que pode ajudar a mitigar a alucinação na geração de raciocínio de subtarefas fundamentadas. Resultados experimentais demonstram que Emma-X alcança desempenho superior em relação a baselines competitivos, especialmente em tarefas robóticas do mundo real que requerem raciocínio espacial.
Para tornar o modelo base mais eficiente e eficaz, nossa ideia é combinar a transformação de sequência e a transformação de estado. Primeiramente, demonstramos a viabilidade da inserção de posição rotativa no algoritmo de dualidade de espaço de estado, o que reduz a perplexidade da autoatenção causal híbrida quadrática e da dualidade de espaço de estado em mais de 4%, garantindo que a transformação de sequência combinada unifique a codificação de posição. Em segundo lugar, propomos a atenção de máscara dinâmica, que mantém uma precisão de 100% na tarefa mais desafiadora de recordação associativa de múltiplas consultas, melhorando em mais de 150% em comparação com a autoatenção causal quadrática e a dualidade de espaço de estado, garantindo que a transformação de sequência combinada filtre seletivamente informações relevantes. Em terceiro lugar, projetamos a mistura de especialistas de domínios cruzados, que torna a velocidade computacional da recuperação de especialistas com mais de 1024 especialistas de 8 a 10 vezes mais rápida do que a mistura de especialistas, garantindo que a transformação de estado combinada recupere rapidamente a mistura. Por fim, resumimos esses algoritmos de matriz que podem formar o modelo base: Matrizes Maravilhosas, que podem competir com arquiteturas de modelo populares.
A crescente demanda por aplicações imersivas de RA/RV e inteligência espacial tem aumentado a necessidade de gerar vídeos panorâmicos de alta qualidade em nível de cena e 360 graus. No entanto, a maioria dos modelos de difusão de vídeo são limitados pela resolução e proporção de aspecto, o que restringe sua aplicabilidade à síntese de conteúdo dinâmico em nível de cena. Neste trabalho, propomos o DynamicScaler, que aborda esses desafios ao permitir a síntese de cenas dinâmicas espacialmente escaláveis e panorâmicas que preservam a coerência em cenas panorâmicas de tamanho arbitrário. Especificamente, introduzimos um Denoiser de Deslocamento de Offset, facilitando a denoização eficiente, síncrona e coerente de cenas dinâmicas panorâmicas por meio de um modelo de difusão com resolução fixa por meio de uma Janela rotativa contínua, que garante transições de fronteira contínuas e consistência em todo o espaço panorâmico, acomodando diferentes resoluções e proporções de aspecto. Além disso, empregamos um mecanismo de Orientação de Movimento Global para garantir tanto a fidelidade de detalhes locais quanto a continuidade de movimento global. Experimentos extensivos demonstram que nosso método alcança qualidade superior de conteúdo e movimento na geração de vídeos em nível de cena panorâmica, oferecendo uma solução eficiente, escalável e sem necessidade de treinamento para a criação imersiva de cenas dinâmicas com consumo constante de VRAM, independentemente da resolução do vídeo de saída. Nossa página do projeto está disponível em https://dynamic-scaler.pages.dev/.
Sintetizar novas visualizações a partir de vídeos monoculares em ambientes naturais é desafiador devido à dinâmica da cena e à falta de pistas de múltiplas visualizações. Para lidar com isso, propomos o SplineGS, um framework dinâmico de Splatting Gaussiano 3D (3DGS) sem COLMAP para reconstrução de alta qualidade e renderização rápida a partir de vídeos monoculares. Em seu núcleo, há um novo método Spline Adaptativo ao Movimento (MAS), que representa trajetórias gaussianas 3D dinâmicas contínuas usando splines cúbicas de Hermite com um pequeno número de pontos de controle. Para o MAS, introduzimos um método de Poda de Pontos de Controle Adaptativo ao Movimento (MACP) para modelar a deformação de cada gaussiana 3D dinâmica em diferentes movimentos, podando progressivamente os pontos de controle enquanto mantemos a integridade da modelagem dinâmica. Além disso, apresentamos uma estratégia de otimização conjunta para estimativa de parâmetros da câmera e atributos gaussianos 3D, aproveitando a consistência fotométrica e geométrica. Isso elimina a necessidade de pré-processamento de Estrutura a Partir do Movimento e aprimora a robustez do SplineGS em condições do mundo real. Experimentos mostram que o SplineGS supera significativamente os métodos de ponta na qualidade de síntese de novas visualizações para cenas dinâmicas de vídeos monoculares, alcançando uma velocidade de renderização milhares de vezes mais rápida.
Reutilizar modelos de difusão pré-treinados tem se mostrado eficaz para NVS. No entanto, esses métodos são principalmente limitados a um único objeto; aplicar diretamente tais métodos a cenários compostos por múltiplos objetos resulta em resultados inferiores, especialmente em relação ao posicionamento incorreto de objetos e à inconsistência de forma e aparência sob novas visualizações. Como aprimorar e avaliar sistematicamente a consistência entre visualizações desses modelos permanece pouco explorado. Para abordar essa questão, propomos o MOVIS para aprimorar a consciência estrutural do modelo de difusão condicionado à visualização para NVS de múltiplos objetos em termos de entradas do modelo, tarefas auxiliares e estratégia de treinamento. Primeiramente, injetamos características conscientes da estrutura, incluindo profundidade e máscara de objeto, no U-Net de remoção de ruído para aprimorar a compreensão do modelo das instâncias de objetos e suas relações espaciais. Em segundo lugar, introduzimos uma tarefa auxiliar que requer que o modelo preveja simultaneamente máscaras de objetos de novas visualizações, melhorando ainda mais a capacidade do modelo de diferenciar e posicionar objetos. Por fim, realizamos uma análise aprofundada do processo de amostragem de difusão e elaboramos cuidadosamente um agendador de amostragem de passos orientado por estrutura durante o treinamento, que equilibra a aprendizagem do posicionamento global de objetos e a recuperação de detalhes refinados. Para avaliar sistematicamente a plausibilidade de imagens sintetizadas, propomos avaliar a consistência entre visualizações e o posicionamento de objetos de novas visualizações juntamente com métricas de NVS em nível de imagem existentes. Experimentos extensivos em conjuntos de dados desafiadores sintéticos e realistas demonstram que nosso método exibe fortes capacidades de generalização e produz uma síntese consistente de novas visualizações, destacando seu potencial para orientar futuras tarefas de NVS de múltiplos objetos conscientes de 3D.
Algoritmos de aprendizado por reforço (RL) têm como objetivo equilibrar a exploração da estratégia atualmente melhor com a busca por novas opções que possam resultar em recompensas mais altas. A maioria dos algoritmos de RL comuns utiliza exploração não direcionada, ou seja, seleciona sequências aleatórias de ações. A exploração também pode ser direcionada usando recompensas intrínsecas, como curiosidade ou incerteza epistêmica do modelo. No entanto, equilibrar efetivamente as recompensas da tarefa e intrínsecas é desafiador e frequentemente depende da tarefa. Neste trabalho, introduzimos um framework, MaxInfoRL, para equilibrar a exploração intrínseca e extrínseca. O MaxInfoRL direciona a exploração para transições informativas, maximizando recompensas intrínsecas, como o ganho de informação sobre a tarefa subjacente. Quando combinado com a exploração de Boltzmann, essa abordagem naturalmente equilibra a maximização da função de valor com a da entropia sobre estados, recompensas e ações. Mostramos que nossa abordagem alcança arrependimento sublinear no cenário simplificado de bandits multi-armados. Em seguida, aplicamos essa formulação geral a uma variedade de métodos de RL sem modelo e fora de política para espaços de estado-ação contínuos, resultando em algoritmos inovadores que alcançam desempenho superior em problemas de exploração difícil e cenários complexos, como tarefas de controle visual.
Explorar a promessa dos avanços recentes em aprendizado por imitação para manipulação móvel exigirá a coleta de um grande número de demonstrações guiadas por humanos. Este artigo propõe um design de código aberto para um manipulador móvel barato, robusto e flexível que pode suportar braços arbitrários, permitindo uma ampla gama de tarefas de manipulação móvel doméstica do mundo real. Crucialmente, nosso design utiliza rodízios motorizados para permitir que a base móvel seja totalmente holonômica, capaz de controlar todos os graus de liberdade planares de forma independente e simultânea. Essa característica torna a base mais manobrável e simplifica muitas tarefas de manipulação móvel, eliminando as restrições cinemáticas que criam movimentos complexos e demorados em bases não holonômicas. Equipamos nosso robô com uma interface intuitiva de teleoperação de celular para facilitar a aquisição de dados para aprendizado por imitação. Em nossos experimentos, utilizamos essa interface para coletar dados e demonstrar que as políticas aprendidas resultantes podem executar com sucesso uma variedade de tarefas comuns de manipulação móvel doméstica.
Apesar de sua proficiência em tarefas gerais, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) enfrentam dificuldades com a Resolução Automática de Problemas de Geometria (GPS), que exige compreensão de diagramas, interpretação de símbolos e realização de raciocínio complexo. Essa limitação decorre de seu pré-treinamento em imagens naturais e textos, juntamente com a falta de verificação automatizada no processo de resolução de problemas. Além disso, os especialistas geométricos atuais são limitados por seus designs específicos de tarefa, tornando-os menos eficazes para problemas geométricos mais amplos. Para isso, apresentamos o GeoX, um modelo grande multimodal focado em tarefas de compreensão e raciocínio geométrico. Dadas as diferenças significativas entre diagrama-símbolo geométrico e imagem-texto natural, introduzimos o pré-treinamento unimodal para desenvolver um codificador de diagrama e um decodificador de símbolos, aprimorando a compreensão de imagens geométricas e corpora. Além disso, introduzimos o alinhamento geometria-linguagem, um paradigma eficaz de pré-treinamento que preenche a lacuna de modalidade entre especialistas geométricos unimodais. Propomos um Transformador Gerador e Amostrador (GS-Former) para gerar consultas discriminativas e eliminar representações não informativas de sinais geométricos distribuídos de forma desigual. Por fim, o GeoX se beneficia do ajuste de instruções visuais, capacitando-o a receber imagens geométricas e perguntas como entrada e gerar soluções verificáveis. Experimentos mostram que o GeoX supera tanto os generalistas quanto os especialistas geométricos em benchmarks reconhecidos publicamente, como GeoQA, UniGeo, Geometry3K e PGPS9k.
Propomos o WHISPER-GPT: Um modelo de linguagem grande generativo (LLM) para fala e música que nos permite trabalhar com representações de áudio contínuas e tokens discretos simultaneamente como parte de uma única arquitetura. Houve um grande aumento em modelos generativos de áudio, fala e música que utilizam tokens de áudio discretos derivados de algoritmos de compressão neural, por exemplo, ENCODEC. No entanto, uma das principais desvantagens desse abordagem é lidar com o comprimento do contexto. Isso se torna um problema para arquiteturas generativas de alta fidelidade se for necessário considerar todo o conteúdo de áudio em várias frequências para a previsão do próximo token. Ao combinar a representação contínua de áudio, como o espectrograma, e tokens acústicos discretos, mantemos o melhor dos dois mundos: temos todas as informações necessárias do áudio em um instante específico em um único token, mas permitimos que o LLM preveja o token futuro para permitir a amostragem e outros benefícios que o espaço discreto proporciona. Mostramos como nossa arquitetura melhora a perplexidade e os escores de probabilidade logarítmica negativa para a previsão do próximo token em comparação com um LLM baseado em tokens para fala e música.
A Aprendizagem Federada Vertical (AFV) tem como objetivo possibilitar o treinamento colaborativo de modelos de aprendizado profundo mantendo a proteção da privacidade. No entanto, o procedimento de AFV ainda possui componentes vulneráveis a ataques por partes maliciosas. Em nosso trabalho, consideramos ataques de reconstrução de características, um risco comum que visa comprometer os dados de entrada. Teoricamente, afirmamos que os ataques de reconstrução de características não podem ter sucesso sem o conhecimento da distribuição prévia dos dados. Consequentemente, demonstramos que até mesmo transformações simples na arquitetura do modelo podem impactar significativamente a proteção dos dados de entrada durante a AFV. Confirmamos essas descobertas com resultados experimentais, mostrando que os modelos baseados em MLP são resistentes a ataques de reconstrução de características de ponta.
Os avanços recentes em modelos de difusão revolucionam a geração de imagens, mas apresentam riscos de uso indevido, como replicar obras de arte ou gerar deepfakes. Métodos existentes de proteção de imagens, embora eficazes, têm dificuldade em equilibrar a eficácia da proteção, invisibilidade e latência, limitando assim o uso prático. Introduzimos o pré-treinamento por perturbação para reduzir a latência e propomos uma abordagem de mistura de perturbações que se adapta dinamicamente às imagens de entrada para minimizar a degradação de desempenho. Nossa estratégia de treinamento inovadora calcula a perda de proteção em vários espaços de características VAE, enquanto a proteção direcionada adaptativa na inferência melhora a robustez e a invisibilidade. Experimentos mostram desempenho de proteção comparável com melhor invisibilidade e tempo de inferência drasticamente reduzido. O código e a demonstração estão disponíveis em https://webtoon.github.io/impasto
O rápido avanço das tecnologias de processamento de linguagem natural (PLN), como modelos de linguagem grandes (LLMs) ajustados para instrução, exige o desenvolvimento de protocolos de avaliação modernos com feedback humano e de máquina. Apresentamos o Evalica, um conjunto de ferramentas de código aberto que facilita a criação de classificações de modelos confiáveis e reproduzíveis. Este artigo apresenta seu design, avalia seu desempenho e demonstra sua usabilidade por meio de sua interface web, interface de linha de comando e API em Python.
Avanços recentes em modelos fundamentais de robótica têm possibilitado o desenvolvimento de políticas generalistas que podem se adaptar a diversas tarefas. Embora esses modelos demonstrem uma flexibilidade impressionante, seu desempenho depende fortemente da qualidade dos dados de treinamento. Neste trabalho, propomos Generalistas Destilados por Aprendizado por Reforço (RLDG), um método que utiliza aprendizado por reforço para gerar dados de treinamento de alta qualidade para ajustar políticas generalistas. Através de experimentos extensivos no mundo real em tarefas de manipulação precisa, como inserção de conectores e montagem, demonstramos que políticas generalistas treinadas com dados gerados por RL superam consistentemente aquelas treinadas com demonstrações humanas, alcançando taxas de sucesso até 40% mais altas, enquanto generalizam melhor para novas tarefas. Também fornecemos uma análise detalhada que revela que esse ganho de desempenho decorre tanto de distribuições de ação otimizadas quanto de uma cobertura de estados aprimorada. Nossos resultados sugerem que a combinação de RL específico para tarefas com destilação de políticas generalistas oferece uma abordagem promissora para o desenvolvimento de sistemas de manipulação robótica mais capazes e eficientes, que mantêm a flexibilidade dos modelos fundamentais ao mesmo tempo em que alcançam o desempenho de controladores especializados. Vídeos e código podem ser encontrados em nosso site do projeto https://generalist-distillation.github.io