Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, investigamos os fatores subjacentes que potencialmente aprimoram as capacidades de raciocínio matemático de grandes modelos de linguagem (LLMs). Argumentamos que a lei de escalonamento de dados para capacidades de raciocínio matemático em LLMs modernos está longe de estar saturada, destacando como a qualidade do modelo melhora com o aumento da quantidade de dados. Para apoiar essa afirmação, introduzimos a série de modelos Skywork-Math, ajustados finamente supervisionados (SFT) em LLMs comuns de 7B usando nosso conjunto de dados Skywork-MathQA de 2,5 milhões de instâncias proposto. O Skywork-Math 7B alcançou precisões impressionantes de 51,2% no benchmark matemático de nível de competição e 83,9% no benchmark GSM8K usando apenas dados SFT, superando uma versão anterior do GPT-4 em matemática. O desempenho superior dos modelos Skywork-Math contribui para nossos novos pipelines de síntese de dados em duas etapas e ajuste fino do modelo, que incluem três métodos diferentes de aumento e um conjunto diversificado de problemas iniciais, garantindo tanto a quantidade quanto a qualidade do conjunto de dados Skywork-MathQA em diferentes níveis de dificuldade. Mais importante ainda, fornecemos várias lições práticas para aprimorar as habilidades de raciocínio matemático em LLMs para aplicações de pesquisa e indústria.
Fizemos progressos significativos na construção de modelos fundamentais de difusão de vídeo. Como esses modelos são treinados usando dados não supervisionados em grande escala, tornou-se crucial adaptá-los a tarefas específicas. Adaptar esses modelos por meio de ajuste fino supervisionado requer a coleta de conjuntos de dados-alvo de vídeos, o que é desafiador e tedioso. Neste trabalho, utilizamos modelos de recompensa pré-treinados, aprendidos por preferências sobre modelos discriminativos de visão poderosos, para adaptar modelos de difusão de vídeo. Esses modelos contêm informações de gradiente densas em relação aos pixels RGB gerados, o que é crítico para a aprendizagem eficiente em espaços de busca complexos, como vídeos. Mostramos que retropropagar gradientes desses modelos de recompensa para um modelo de difusão de vídeo pode permitir o alinhamento eficiente em termos de cálculo e amostragem do modelo de difusão de vídeo. Apresentamos resultados com uma variedade de modelos de recompensa e modelos de difusão de vídeo, demonstrando que nossa abordagem pode aprender de forma muito mais eficiente em termos de consultas de recompensa e computação do que abordagens anteriores sem gradientes. Nosso código, pesos do modelo e mais visualizações estão disponíveis em https://vader-vid.github.io.
Embora a maioria dos atuais modelos multimodais grandes (LMMs) já consiga entender fotos de cenas naturais e retratos, sua compreensão de imagens abstratas, como gráficos, mapas ou layouts, e suas capacidades de raciocínio visual ainda são bastante rudimentares. Eles frequentemente enfrentam dificuldades com tarefas simples do cotidiano, como ler a hora em um relógio, entender um fluxograma ou planejar uma rota usando um mapa rodoviário. Diante disso, projetamos um autoinstrutor multimodal, utilizando grandes modelos de linguagem e suas capacidades de codificação para sintetizar imagens abstratas massivas e instruções de raciocínio visual em cenários diários. Nossa estratégia cria facilmente um benchmark multimodal com 11.193 instruções para oito cenários visuais: gráficos, tabelas, mapas simulados, painéis, fluxogramas, grafos de relação, plantas baixas e quebra-cabeças visuais. Este benchmark, construído com linhas simples e elementos geométricos, expõe as deficiências da maioria dos LMMs avançados, como o Claude-3.5-Sonnet e o GPT-4o, na compreensão de imagens abstratas, raciocínio de relações espaciais e indução de elementos visuais. Além disso, para verificar a qualidade de nossos dados sintéticos, ajustamos finamente um LMM usando 62.476 instruções sintéticas de gráficos, tabelas e mapas rodoviários. Os resultados demonstram uma melhoria na compreensão de gráficos e no desempenho de navegação em mapas, e também mostram benefícios potenciais para outras tarefas de raciocínio visual. Nosso código está disponível em: https://github.com/zwq2018/Multi-modal-Self-instruct.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) surgiram recentemente como um foco significativo na academia e na indústria. Apesar de sua proficiência em cenários multimodais gerais, as capacidades de resolução de problemas matemáticos em contextos visuais permanecem insuficientemente exploradas. Identificamos três áreas-chave dentro dos MLLMs que precisam ser aprimoradas: codificação visual de diagramas matemáticos, alinhamento diagrama-linguagem e habilidades de raciocínio matemático. Isso traz uma demanda urgente por dados em larga escala e pipelines de treinamento de alta qualidade em matemática visual. Neste artigo, propomos o MAVIS, o primeiro paradigma de ajuste de instrução visual matemática para MLLMs, envolvendo uma série de conjuntos de dados visuais matemáticos e MLLMs especializados. Visando os três problemas, o MAVIS contém três estágios progressivos de treinamento do zero. Primeiramente, curamos o MAVIS-Caption, composto por 558 mil pares de diagramas e legendas, para ajustar finamente um codificador de visão específico para matemática (CLIP-Math) por meio de aprendizado contrastivo, adaptado para uma melhor codificação visual de diagramas. Em segundo lugar, utilizamos o MAVIS-Caption para alinhar o CLIP-Math com um grande modelo de linguagem (LLM) por meio de uma camada de projeção, aprimorando o alinhamento visão-linguagem em domínios matemáticos. Em terceiro lugar, introduzimos o MAVIS-Instruct, incluindo 900 mil problemas matemáticos visuais meticulosamente coletados e anotados, que é adotado para ajustar finalmente o MLLM para habilidades robustas de raciocínio matemático. No MAVIS-Instruct, incorporamos raciocínios completos (CoT) para cada problema e minimizamos a redundância textual, concentrando assim o modelo nos elementos visuais. Os Dados e Modelos estão disponíveis em https://github.com/ZrrSkywalker/MAVIS
O treinamento de Modelos de Linguagem Grandes (LLMs) é intensivo em memória devido ao grande número de parâmetros e estados de otimização associados. O GaLore, um método recente, reduz o uso de memória projetando gradientes de peso em um subespaço de baixa classificação sem comprometer o desempenho. No entanto, o GaLore depende de operações demoradas de Decomposição em Valores Singulares (SVD) para identificar o subespaço, e as frequentes atualizações do subespaço resultam em um significativo overhead de tempo de treinamento. Além disso, o GaLore oferece melhorias mínimas em precisão e eficiência em comparação com o LoRA em cenários de ajuste fino mais acessíveis. Para lidar com essas limitações, introduzimos o Q-Galore, uma abordagem inovadora que reduz substancialmente o uso de memória combinando quantização e projeção de baixa classificação, superando os benefícios do GaLore. Nosso método é baseado em duas observações-chave: (i) o subespaço de gradiente apresenta propriedades diversas, com algumas camadas convergindo cedo no treinamento, enquanto outras estão sujeitas a mudanças frequentes; (ii) as matrizes de projeção são altamente resilientes à quantização de baixo bit. Aproveitando essas percepções, o Q-GaLore atualiza adaptativamente o subespaço de gradiente com base em suas estatísticas de convergência, alcançando desempenho comparável enquanto reduz significativamente o número de operações de SVD. Mantemos as matrizes de projeção no formato INT4 e os pesos no formato INT8, incorporando arredondamento estocástico para capturar informações de gradiente acumuladas. Essa abordagem possibilita uma trajetória de treinamento de alta precisão usando apenas pesos de baixa precisão. Demonstramos que o Q-GaLore alcança um desempenho altamente competitivo com uma eficiência de memória excepcional. No pré-treinamento, o Q-GaLore facilita o treinamento de um modelo LLaMA-7B do zero em uma única NVIDIA RTX 4060 Ti com apenas 16 GB de memória. No ajuste fino, ele reduz o consumo de memória em até 50% em comparação com o LoRA e GaLore, enquanto supera consistentemente o QLoRA com o mesmo custo de memória.
Propomos uma nova espinha dorsal híbrida Mamba-Transformer, denominada MambaVision, especialmente desenvolvida para aplicações de visão. Nossa contribuição principal inclui o redesenho da formulação Mamba para aprimorar sua capacidade de modelagem eficiente de características visuais. Além disso, realizamos um estudo abrangente de ablação sobre a viabilidade de integrar Transformadores de Visão (ViT) com o Mamba. Nossos resultados demonstram que equipar a arquitetura Mamba com vários blocos de autoatenção nas camadas finais melhora significativamente a capacidade de modelagem para capturar dependências espaciais de longo alcance. Com base em nossas descobertas, introduzimos uma família de modelos MambaVision com uma arquitetura hierárquica para atender a vários critérios de design. Para classificação de imagens no conjunto de dados ImageNet-1K, as variantes do modelo MambaVision alcançam um novo desempenho de Estado da Arte (SOTA) em termos de precisão Top-1 e throughput de imagem. Em tarefas subsequentes, como detecção de objetos, segmentação de instâncias e segmentação semântica nos conjuntos de dados MS COCO e ADE20K, o MambaVision supera espinhas dorsais de tamanho comparável e demonstra um desempenho mais favorável. Código: https://github.com/NVlabs/MambaVision.
Um número crescente de aplicações depende de um pequeno conjunto de modelos de linguagem (LMs) de código fechado. Essa dependência pode introduzir novos riscos de segurança caso os LMs desenvolvam capacidades de auto-reconhecimento. Inspirados em métodos de verificação de identidade humana, propomos uma abordagem inovadora para avaliar o auto-reconhecimento em LMs usando "perguntas de segurança" geradas pelo modelo. Nosso teste pode ser administrado externamente para acompanhar os modelos de ponta, pois não requer acesso aos parâmetros internos do modelo ou probabilidades de saída. Utilizamos nosso teste para examinar o auto-reconhecimento em dez dos LMs de código aberto e fechado mais capazes atualmente disponíveis publicamente. Nossos experimentos extensivos não encontraram evidências empíricas de auto-reconhecimento geral ou consistente em nenhum dos LMs examinados. Em vez disso, nossos resultados sugerem que, diante de um conjunto de alternativas, os LMs buscam selecionar a resposta "melhor", independentemente de sua origem. Além disso, encontramos indicações de que as preferências sobre quais modelos produzem as melhores respostas são consistentes entre os LMs. Adicionalmente, descobrimos novas percepções sobre considerações de viés de posição para LMs em configurações de múltipla escolha.
Com os notáveis avanços na geração de imagens e na geração de texto de formato aberto, a criação de conteúdo multimodal de imagem-texto entrelaçado tornou-se um campo cada vez mais intrigante. A geração de histórias multimodais, caracterizada pela produção de textos narrativos e imagens vívidas de maneira entrelaçada, emergiu como uma tarefa valiosa e prática com amplas aplicações. No entanto, essa tarefa apresenta desafios significativos, pois exige a compreensão da complexa interação entre textos e imagens, e a capacidade de gerar sequências longas de textos e visuais coerentes e contextualmente relevantes. Neste trabalho, propomos o SEED-Story, um método inovador que aproveita um Modelo de Linguagem Multimodal Grande (MLLM) para gerar histórias multimodais estendidas. Nosso modelo, construído com base na poderosa capacidade de compreensão do MLLM, prevê tokens de texto e também tokens visuais, que são posteriormente processados com um detokenizador visual adaptado para produzir imagens com personagens e estilos consistentes. Além disso, propomos um mecanismo de atenção multimodal para possibilitar a geração de histórias com até 25 sequências (apenas 10 para treinamento) de maneira autoregressiva altamente eficiente. Adicionalmente, apresentamos um conjunto de dados em grande escala e alta resolução chamado StoryStream para treinar nosso modelo e avaliar quantitativamente a tarefa de geração de histórias multimodais em diversos aspectos.
A excepcional capacidade de raciocínio matemático é uma das principais características que demonstram o poder dos grandes modelos de linguagem (LLMs). Como definir e avaliar de forma abrangente as habilidades matemáticas dos LLMs, e até mesmo refletir a experiência do usuário em cenários do mundo real, emergiu como uma questão crítica. Os benchmarks atuais concentram predominantemente nas capacidades de resolução de problemas, o que apresenta um risco substancial de sobreajuste do modelo e falha em representar com precisão as verdadeiras habilidades de raciocínio matemático. Neste artigo, argumentamos que se um modelo realmente compreende um problema, ele deve ser aplicado de forma robusta e prontamente em uma ampla variedade de tarefas. Motivados por isso, introduzimos o MATHCHECK, uma lista de verificação bem projetada para testar a generalização de tarefas e a robustez de raciocínio, bem como uma ferramenta automática para gerar listas de verificação de forma eficiente. O MATHCHECK inclui várias tarefas de raciocínio matemático e tipos de teste de robustez para facilitar uma avaliação abrangente tanto da capacidade de raciocínio matemático quanto dos testes de comportamento. Utilizando o MATHCHECK, desenvolvemos o MATHCHECK-GSM e o MATHCHECK-GEO para avaliar o raciocínio textual matemático e as capacidades de raciocínio multimodal, respectivamente, servindo como versões aprimoradas de benchmarks incluindo GSM8k, GeoQA, UniGeo e Geometry3K. Adotamos o MATHCHECK-GSM e o MATHCHECK-GEO para avaliar mais de 20 LLMs e 11 MLLMs, avaliando suas abrangentes habilidades de raciocínio matemático. Nossos resultados demonstram que, enquanto os LLMs de ponta como o GPT-4o continuam a se destacar em várias habilidades da lista de verificação, muitas outras famílias de modelos exibem uma queda significativa. Experimentos adicionais indicam que, em comparação com benchmarks matemáticos tradicionais, o MATHCHECK reflete melhor as verdadeiras habilidades matemáticas e representa a inteligência matemática de forma mais linear, apoiando assim nosso design. Com o nosso MATHCHECK, podemos facilmente conduzir uma análise de comportamento detalhada para investigar profundamente os modelos.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) existentes enfatizam cada vez mais a compreensão complexa de vários elementos visuais, incluindo múltiplos objetos, informações de texto e relações espaciais. O desenvolvimento desses modelos para percepção visual abrangente depende da disponibilidade de conjuntos de dados imagem-texto de alta qualidade que ofereçam elementos visuais diversos e descrições de imagem abrangentes. No entanto, a escassez desses conjuntos de dados hiperdetalhados atualmente dificulta o progresso dentro da comunidade MLLM. O gargalo decorre das capacidades perceptuais limitadas das atuais engines de legenda, que não conseguem fornecer anotações completas e precisas. Para facilitar a pesquisa de ponta dos MLLMs sobre percepção visual abrangente, propomos a Fusão Perceptual, utilizando uma engine de legenda de baixo custo, porém altamente eficaz, para descrições completas e precisas de imagens. Especificamente, a Fusão Perceptual integra diversos especialistas em percepção como priores de imagem para fornecer informações explícitas sobre elementos visuais e adota um MLLM eficiente como pivô central para imitar as habilidades de percepção avançadas dos MLLMs. Selecionamos cuidadosamente 1 milhão de imagens altamente representativas do conjunto de dados LAION não curado e geramos descrições densas usando nossa engine, denominada DenseFusion-1M. Experimentos extensivos validam que nossa engine supera seus concorrentes, em que o conjunto de dados resultante melhora significativamente as habilidades de percepção e cognição dos MLLMs existentes em diversos benchmarks de visão-linguagem, especialmente com imagens de alta resolução como entradas. O conjunto de dados e o código estão disponíveis publicamente em https://github.com/baaivision/DenseFusion.
Um foco significativo tem sido colocado na integração de grandes modelos de linguagem (LLMs) com várias ferramentas no desenvolvimento de agentes de propósito geral. Isso representa um desafio para as capacidades de uso de ferramentas dos LLMs. No entanto, existem lacunas evidentes entre as avaliações de uso de ferramentas existentes e cenários do mundo real. As avaliações atuais frequentemente utilizam consultas geradas por IA, tarefas de um único passo, ferramentas fictícias e interações apenas de texto, falhando em revelar efetivamente as habilidades dos agentes na resolução de problemas do mundo real. Para lidar com isso, propomos GTA, um benchmark para Agentes de Ferramentas Gerais, apresentando três aspectos principais: (i) Consultas de usuários reais: consultas escritas por humanos com objetivos simples do mundo real, mas com uso implícito de ferramentas, exigindo que o LLM raciocine sobre as ferramentas adequadas e planeje as etapas da solução. (ii) Ferramentas reais implantadas: uma plataforma de avaliação equipada com ferramentas nas categorias de percepção, operação, lógica e criatividade para avaliar o desempenho real da execução de tarefas dos agentes. (iii) Entradas multimodais reais: arquivos de imagem autênticos, como cenas espaciais, capturas de tela de páginas da web, tabelas, trechos de código e materiais impressos/manuscritos, usados como contextos de consulta para se alinhar de perto com cenários do mundo real. Projetamos 229 tarefas do mundo real e cadeias de ferramentas executáveis para avaliar os LLMs mais comuns. Nossas descobertas mostram que as consultas de usuários do mundo real são desafiadoras para os LLMs existentes, com o GPT-4 completando menos de 50% das tarefas e a maioria dos LLMs alcançando menos de 25%. Essa avaliação revela os gargalos nas capacidades de uso de ferramentas dos LLMs atuais em cenários do mundo real, o que fornece direções futuras para o avanço de agentes de ferramentas de propósito geral. O código e o conjunto de dados estão disponíveis em https://github.com/open-compass/GTA.
Apresentamos o MELLE, uma abordagem inovadora de modelagem de linguagem baseada em tokens de valores contínuos para síntese de fala a partir de texto (TTS). O MELLE gera autoregressivamente quadros contínuos de espectrogramas mel diretamente a partir da condição de texto, evitando a necessidade de quantização vetorial, originalmente projetada para compressão de áudio e que sacrifica a fidelidade em comparação com espectrogramas mel. Especificamente, (i) em vez de perda de entropia cruzada, aplicamos perda de regressão com uma função de perda de fluxo de espectrograma proposta para modelar a distribuição de probabilidade dos tokens de valores contínuos. (ii) incorporamos inferência variacional ao MELLE para facilitar mecanismos de amostragem, melhorando assim a diversidade de saída e a robustez do modelo. Experimentos demonstram que, em comparação com os modelos de linguagem de codec de duas etapas VALL-E e suas variantes, o MELLE de estágio único mitiga problemas de robustez ao evitar as falhas inerentes da amostragem de códigos discretos, alcança desempenho superior em várias métricas e, mais importante, oferece um paradigma mais simplificado. Consulte https://aka.ms/melle para demonstrações do nosso trabalho.
O rápido desenvolvimento de grandes modelos de linguagem (LLMs) tem sido testemunhado nos últimos anos. Com base nos poderosos LLMs, os modelos de linguagem multimodais (MLLMs) estendem a modalidade do texto para um espectro mais amplo de domínios, atraindo ampla atenção devido à variedade mais ampla de cenários de aplicação. Como os LLMs e MLLMs dependem de vastas quantidades de parâmetros de modelo e dados para alcançar capacidades emergentes, a importância dos dados está recebendo uma atenção e reconhecimento cada vez maiores. Ao rastrear e analisar trabalhos recentes orientados a dados para MLLMs, descobrimos que o desenvolvimento de modelos e dados não são dois caminhos separados, mas sim interconectados. Por um lado, dados mais amplos e de alta qualidade contribuem para um melhor desempenho dos MLLMs, por outro lado, os MLLMs podem facilitar o desenvolvimento de dados. O co-desenvolvimento de dados multimodais e MLLMs requer uma visão clara de 1) em qual estágio de desenvolvimento dos MLLMs abordagens específicas centradas em dados podem ser empregadas para aprimorar quais capacidades e 2) utilizando quais capacidades e desempenhando quais papéis os modelos podem contribuir para dados multimodais. Para promover o co-desenvolvimento de dados e modelos para a comunidade MLLM, revisamos sistematicamente trabalhos existentes relacionados aos MLLMs a partir da perspectiva de co-desenvolvimento de dados e modelos. Um projeto regularmente mantido associado a esta pesquisa está acessível em https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.
As redes neurais (NN) alcançam resultados notáveis em várias tarefas, mas carecem de características-chave: interpretabilidade, suporte para características categóricas e implementações leves adequadas para dispositivos de borda. Enquanto esforços em andamento visam enfrentar esses desafios, as Árvores de Impulso de Gradiente (GBT) atendem inerentemente a esses requisitos. Como resultado, as GBTs se tornaram o método preferido para tarefas de aprendizado supervisionado em muitas aplicações do mundo real e competições. No entanto, sua aplicação em cenários de aprendizado online, especialmente em aprendizado por reforço (RL), tem sido limitada. Neste trabalho, superamos essa lacuna ao introduzir o Aprendizado por Reforço com Impulso de Gradiente (GBRL), um framework que estende as vantagens das GBTs para o domínio do RL. Usando o framework GBRL, implementamos vários algoritmos ator-crítico e comparamos seu desempenho com seus equivalentes em NN. Inspirados nos backbones compartilhados em NN, introduzimos uma abordagem de compartilhamento de árvores para funções de política e valor com taxas de aprendizado distintas, aprimorando a eficiência de aprendizado ao longo de milhões de interações. O GBRL alcança desempenho competitivo em uma ampla variedade de tarefas, destacando-se em domínios com características estruturadas ou categóricas. Além disso, apresentamos uma implementação de alto desempenho acelerada por GPU que se integra perfeitamente a bibliotecas de RL amplamente utilizadas (disponível em https://github.com/NVlabs/gbrl). O GBRL expande o conjunto de ferramentas para praticantes de RL, demonstrando a viabilidade e promessa das GBTs dentro do paradigma do RL, especialmente em domínios caracterizados por características estruturadas ou categóricas.
Os Modelos de Linguagem de Grande Escala têm demonstrado uma eficácia notável na geração de dados em tempo real, como texto e áudio, graças ao seu mecanismo de atenção temporal unidirecional, que modela as correlações entre o token atual e os tokens anteriores. No entanto, a transmissão de vídeo ainda é muito menos explorada, apesar da crescente necessidade de processamento de vídeo ao vivo. Os modelos de difusão de vídeo de última geração aproveitam a atenção temporal bidirecional para modelar as correlações entre o quadro atual e todos os quadros circundantes (ou seja, incluindo os futuros), o que os impede de processar vídeos em tempo real. Para abordar esse problema, apresentamos o Live2Diff, a primeira tentativa de projetar um modelo de difusão de vídeo com atenção temporal unidirecional, direcionado especificamente para a tradução de vídeos de transmissão ao vivo. Comparado aos trabalhos anteriores, nossa abordagem garante consistência e suavidade temporais correlacionando o quadro atual com seus predecessores e alguns quadros iniciais de aquecimento, sem incluir quaisquer quadros futuros. Além disso, utilizamos um esquema de remoção de ruído altamente eficiente com um mecanismo de cache KV e pipeline, para facilitar a tradução de vídeos de transmissão em taxas de quadros interativas. Experimentos extensivos demonstram a eficácia do mecanismo de atenção e do pipeline propostos, superando os métodos anteriores em termos de suavidade temporal e/ou eficiência.
A modelagem de movimento é crucial na Interpolação de Quadros de Vídeo baseada em Fluxo (VFI). Os paradigmas existentes consideram combinações lineares de fluxos bidirecionais ou preveem diretamente fluxos bilaterais para marcas de tempo específicas sem explorar prioridades de movimento favoráveis, faltando assim a capacidade de modelar efetivamente a dinâmica espaço-temporal em vídeos do mundo real. Para lidar com essa limitação, neste estudo, introduzimos a Modelagem de Movimento Implícita Generalizável (GIMM), uma abordagem inovadora e eficaz para a modelagem de movimento para VFI. Especificamente, para habilitar o GIMM como um paradigma eficaz de modelagem de movimento, projetamos um pipeline de codificação de movimento para modelar o movimento espaço-temporal latente a partir de fluxos bidirecionais extraídos de estimadores de fluxo pré-treinados, representando efetivamente prioridades de movimento específicas de entrada. Em seguida, prevemos implicitamente fluxos ópticos de passo de tempo arbitrário entre dois quadros de entrada adjacentes por meio de uma rede neural adaptativa baseada em coordenadas, com coordenadas espaço-temporais e movimento latente como entradas. Nosso GIMM pode ser integrado suavemente com trabalhos existentes de VFI baseados em fluxo sem necessidade de modificações adicionais. Mostramos que o GIMM tem um desempenho melhor do que o estado da arte atual nos benchmarks de VFI.
Mapas de Visão de Pássaro (BEV) de cima para baixo são uma representação popular para a navegação de robôs terrestres devido à sua riqueza e flexibilidade para tarefas subsequentes. Embora métodos recentes tenham mostrado promessa para prever mapas BEV a partir de imagens de Visão em Primeira Pessoa (FPV), sua generalizabilidade é limitada a pequenas regiões capturadas pelos conjuntos de dados atuais baseados em veículos autônomos. Neste contexto, demonstramos que uma abordagem mais escalável para a previsão de mapas generalizáveis pode ser viabilizada pelo uso de duas plataformas de mapeamento de crowdsourcing em larga escala, Mapillary para imagens FPV e OpenStreetMap para mapas semânticos BEV. Apresentamos o Map It Anywhere (MIA), um mecanismo de dados que possibilita a curadoria e modelagem contínuas de dados de previsão de mapas rotulados a partir de plataformas de mapas de código aberto existentes. Utilizando nosso mecanismo de dados MIA, demonstramos a facilidade de coletar automaticamente um conjunto de dados de 1,2 milhão de pares de imagens FPV e mapas BEV abrangendo diversas geografias, paisagens, fatores ambientais, modelos de câmera e cenários de captura. Além disso, treinamos um modelo simples de mapa agnóstico de modelo de câmera com base nesses dados para a previsão de mapas BEV. Avaliações extensivas utilizando benchmarks estabelecidos e nosso conjunto de dados mostram que os dados curados pelo MIA possibilitam o pré-treinamento eficaz para a previsão de mapas BEV generalizáveis, com um desempenho de zero-shot superando significativamente as baselines treinadas em conjuntos de dados existentes em 35%. Nossa análise destaca a promessa do uso de mapas públicos em larga escala para o desenvolvimento e teste de percepção BEV generalizável, abrindo caminho para uma navegação autônoma mais robusta.
Neste artigo de perspectiva, introduzimos o conceito de Inteligência Artificial Generalista Especializada (SGAI ou simplesmente SGI) como um marco crucial em direção à Inteligência Artificial Geral (AGI). Em comparação com a escalabilidade direta das habilidades gerais, a SGI é definida como IA que se especializa em pelo menos uma tarefa, superando especialistas humanos, enquanto mantém habilidades gerais. Esse caminho de fusão permite que a SGI alcance rapidamente áreas de alto valor. Categorizamos a SGI em três estágios com base no nível de domínio das habilidades profissionais e desempenho geral. Além disso, discutimos a necessidade da SGI em lidar com questões associadas a grandes modelos de linguagem, como a falta de generalidade, capacidades especializadas, incerteza na inovação e aplicações práticas. Além disso, propomos um framework conceitual para o desenvolvimento da SGI que integra as forças do processamento cognitivo dos Sistemas 1 e 2. Esse framework é composto por três camadas e quatro componentes-chave, que se concentram em aprimorar habilidades individuais e facilitar a evolução colaborativa. Concluímos resumindo os desafios potenciais e sugerindo direções futuras. Esperamos que a SGI proposta forneça insights para pesquisas e aplicações adicionais em direção à conquista da AGI.
Embora o campo da reconstrução de cenas 3D seja dominado pelos NeRFs devido à sua qualidade fotorrealística, o Splatting Gaussiano 3D (3DGS) surgiu recentemente, oferecendo qualidade semelhante com velocidades de renderização em tempo real. No entanto, ambos os métodos se destacam principalmente em cenas 3D bem controladas, enquanto dados em ambientes naturais - caracterizados por oclusões, objetos dinâmicos e iluminação variável - continuam sendo um desafio. Os NeRFs podem se adaptar facilmente a essas condições por meio de vetores de incorporação por imagem, mas o 3DGS enfrenta dificuldades devido à sua representação explícita e falta de parâmetros compartilhados. Para lidar com isso, introduzimos os WildGaussians, uma abordagem inovadora para lidar com oclusões e mudanças de aparência com o 3DGS. Ao alavancar recursos robustos do DINO e integrar um módulo de modelagem de aparência dentro do 3DGS, nosso método alcança resultados de ponta. Demonstramos que os WildGaussians igualam a velocidade de renderização em tempo real do 3DGS, enquanto superam tanto o 3DGS quanto os NeRFs em lidar com dados em ambientes naturais, tudo dentro de uma estrutura arquitetônica simples.
Propomos o OmniNOCS, um conjunto de dados monocular em larga escala com mapas de Espaço de Coordenadas Normalizadas de Objetos 3D (NOCS), máscaras de objetos e anotações de caixas delimitadoras 3D para cenas internas e externas. O OmniNOCS possui 20 vezes mais classes de objetos e 200 vezes mais instâncias do que os conjuntos de dados NOCS existentes (NOCS-Real275, Wild6D). Utilizamos o OmniNOCS para treinar um modelo de previsão NOCS monocular baseado em transformadores (NOCSformer) que pode prever NOCS precisos, máscaras de instância e poses a partir de detecções de objetos 2D em diversas classes. É o primeiro modelo NOCS que consegue generalizar para uma ampla gama de classes quando solicitado com caixas 2D. Avaliamos nosso modelo na tarefa de previsão de caixa delimitadora orientada 3D, onde ele alcança resultados comparáveis aos métodos de detecção 3D de ponta, como o Cube R-CNN. Ao contrário de outros métodos de detecção 3D, nosso modelo também fornece formas de objetos 3D e segmentação detalhadas e precisas. Propomos um novo benchmark para a tarefa de previsão NOCS com base no OmniNOCS, que esperamos que sirva como uma linha de base útil para trabalhos futuros nesta área. Nosso conjunto de dados e código estarão disponíveis no site do projeto: https://omninocs.github.io.
A tarefa de avaliação estética de imagem personalizada busca adaptar modelos de previsão de pontuação estética para corresponder às preferências individuais com apenas algumas entradas fornecidas pelo usuário. No entanto, a escalabilidade e capacidades de generalização das abordagens atuais são consideravelmente restritas pela dependência de um banco de dados curado caro. Para superar esse desafio de escalabilidade de longa data, apresentamos uma abordagem única que aproveita bancos de dados prontamente disponíveis para avaliação estética de imagem geral e avaliação de qualidade de imagem. Especificamente, consideramos cada banco de dados como uma tarefa de regressão de pontuação de imagem distinta que exibe diferentes graus de potencial de personalização. Ao determinar combinações ótimas de vetores de tarefa, conhecidos por representar traços específicos de cada banco de dados, criamos com sucesso modelos personalizados para indivíduos. Esta abordagem de integração de múltiplos modelos nos permite aproveitar uma quantidade substancial de dados. Nossos experimentos extensivos demonstram a eficácia de nossa abordagem na generalização para domínios previamente não vistos - um desafio que abordagens anteriores têm lutado para alcançar - tornando-a altamente aplicável a cenários do mundo real. Nossa abordagem inovadora avança significativamente o campo ao oferecer soluções escaláveis para avaliação estética personalizada e estabelecer altos padrões para pesquisas futuras.