Artigos de pesquisa em IA selecionados diariamente com traduções
O desenvolvimento e avaliação de Modelos de Linguagem Grandes (LLMs) têm se concentrado principalmente em capacidades individuais. No entanto, isso negligencia a interseção de múltiplas habilidades em diferentes tipos de expertise frequentemente necessárias para tarefas do mundo real, que denominamos de capacidades cruzadas. Para explorar sistematicamente esse conceito, primeiro definimos sete capacidades individuais centrais e então as emparelhamos para formar sete capacidades cruzadas comuns, cada uma apoiada por uma taxonomia construída manualmente. Com base nessas definições, introduzimos o CrossEval, um benchmark composto por 1.400 prompts anotados por humanos, com 100 prompts para cada capacidade individual e cruzada. Para garantir uma avaliação confiável, envolvemos anotadores especializados para avaliar 4.200 respostas do modelo, reunindo 8.400 avaliações humanas com explicações detalhadas para servir como exemplos de referência. Nossas descobertas revelam que, tanto em avaliações estáticas quanto em tentativas de aprimorar habilidades específicas, os LLMs atuais consistentemente exibem a "Lei do Elo Mais Fraco", onde o desempenho de capacidades cruzadas é significativamente limitado pelo componente mais fraco. Especificamente, em 58 pontuações de capacidades cruzadas de 17 modelos, 38 pontuações são mais baixas do que todas as capacidades individuais, enquanto 20 ficam entre forte e fraco, mas mais próximas da habilidade mais fraca. Esses resultados destacam o desempenho aquém dos LLMs em tarefas de capacidades cruzadas, tornando a identificação e melhoria das capacidades mais fracas uma prioridade crítica para pesquisas futuras visando otimizar o desempenho em cenários complexos e multidimensionais.
A inferência de modelos grandes está migrando do cloud para a borda devido a preocupações com a privacidade dos dados de interação do usuário. No entanto, os dispositivos de borda frequentemente enfrentam desafios com limitações de potência computacional, memória e largura de banda, exigindo colaboração entre vários dispositivos para executar e acelerar a inferência de modelos grandes. O paralelismo de pipeline, a solução convencional, é ineficiente para cenários de usuário único, enquanto o paralelismo de tensor enfrenta dificuldades com comunicações frequentes. Neste artigo, argumentamos que o paralelismo de tensor pode ser mais eficaz do que o pipeline em dispositivos com recursos limitados, e apresentamos um sistema de inferência de paralelismo de tensor eficiente em computação e memória, chamado TPI-LLM, para atender modelos em escala de 70 bilhões. O TPI-LLM mantém dados brutos sensíveis localmente nos dispositivos dos usuários e introduz um agendador de memória de janela deslizante para gerenciar dinamicamente os pesos das camadas durante a inferência, com sobreposição da latência de E/S de disco com a computação e comunicação. Isso permite que modelos maiores sejam executados suavemente em dispositivos com limitações de memória. Analisamos o gargalo de comunicação e descobrimos que a latência de link, não a largura de banda, surge como o principal problema, então um algoritmo de allreduce baseado em estrela é implementado. Através de experimentos extensivos em bancadas de teste emuladas e reais, o TPI-LLM demonstrou mais de 80% menos tempo para o primeiro token e latência de token em comparação com o Accelerate, e mais de 90% em comparação com Transformers e Galaxy, enquanto reduz a pegada de memória de pico do Llama 2-70B em 90%, exigindo apenas 3,1 GB de memória para modelos em escala de 70 bilhões.
Apresentamos o Atlas-Chat, a primeira coleção de grandes modelos de linguagem desenvolvidos especificamente para o árabe dialetal. Concentrando-nos no árabe marroquino, também conhecido como Darija, construímos nosso conjunto de dados de instruções consolidando recursos linguísticos existentes em Darija, criando conjuntos de dados novos manualmente e de forma sintética, e traduzindo instruções em inglês com controle de qualidade rigoroso. Os modelos Atlas-Chat-9B e 2B, ajustados com base no conjunto de dados, demonstram habilidades superiores em seguir instruções em Darija e realizar tarefas padrão de PNL. Notavelmente, nossos modelos superam tanto os modelos de última geração quanto os LLMs especializados em árabe, como LLaMa, Jais e AceGPT, por exemplo, alcançando um aumento de desempenho de 13% em relação a um modelo maior de 13B no DarijaMMLU, em nossa nova suíte de avaliação para Darija, abrangendo tarefas discriminativas e generativas. Além disso, realizamos uma análise experimental de várias estratégias de ajuste fino e escolhas de modelos base para determinar configurações ótimas. Todos os nossos recursos são de acesso público, e acreditamos que nosso trabalho oferece metodologias de design abrangentes para ajuste de instruções em variantes de idiomas com poucos recursos, que frequentemente são negligenciadas em favor de idiomas ricos em dados pelos LLMs contemporâneos.
Gerar conteúdo 3D de alta qualidade a partir de texto, imagens individuais ou imagens de visualização esparsas continua sendo uma tarefa desafiadora com amplas aplicações. Métodos existentes geralmente empregam modelos de difusão multi-visual para sintetizar imagens multi-visual, seguidos por um processo feed-forward para reconstrução 3D. No entanto, essas abordagens são frequentemente limitadas por um número pequeno e fixo de visualizações de entrada, restringindo sua capacidade de capturar pontos de vista diversos e, pior ainda, resultando em resultados de geração subótimos se as visualizações sintetizadas forem de baixa qualidade. Para lidar com essas limitações, propomos o Flex3D, um novo framework em duas etapas capaz de aproveitar um número arbitrário de visualizações de entrada de alta qualidade. A primeira etapa consiste em um pipeline de geração e curadoria de visualizações candidatas. Empregamos um modelo de difusão de imagens multi-visual ajustado e um modelo de difusão de vídeo para gerar um conjunto de visualizações candidatas, possibilitando uma representação rica do objeto 3D alvo. Posteriormente, um pipeline de seleção de visualizações filtra essas visualizações com base na qualidade e consistência, garantindo que apenas as visualizações de alta qualidade e confiáveis sejam usadas para a reconstrução. Na segunda etapa, as visualizações curadas são alimentadas em um Modelo de Reconstrução Flexível (FlexRM), construído com base em uma arquitetura de transformer que pode processar efetivamente um número arbitrário de entradas. O FlexRM produz diretamente pontos Gaussianos 3D utilizando uma representação tri-planar, possibilitando uma geração 3D eficiente e detalhada. Através de uma extensa exploração de estratégias de design e treinamento, otimizamos o FlexRM para alcançar um desempenho superior em tarefas de reconstrução e geração. Nossos resultados demonstram que o Flex3D alcança um desempenho de ponta, com uma taxa de sucesso em estudos de usuários de mais de 92% em tarefas de geração 3D quando comparado com vários dos mais recentes modelos generativos 3D feed-forward.
Apresentamos o VideoLISA, um grande modelo de linguagem multimodal baseado em vídeo projetado para lidar com o problema da segmentação de raciocínio instruída por linguagem em vídeos. Aproveitando as capacidades de raciocínio e conhecimento do mundo de grandes modelos de linguagem, e complementado pelo Modelo Segment Anything, o VideoLISA gera máscaras de segmentação temporalmente consistentes em vídeos com base em instruções de linguagem. Métodos existentes baseados em imagem, como o LISA, enfrentam desafios em tarefas de vídeo devido à dimensão temporal adicional, que requer compreensão dinâmica temporal e segmentação consistente em todos os quadros. O VideoLISA aborda esses desafios integrando uma estratégia de Amostragem Esparsa Densa no video-LLM, que equilibra o contexto temporal e o detalhe espacial dentro de limitações computacionais. Além disso, propomos uma abordagem One-Token-Seg-All usando um token especialmente projetado <TRK>, permitindo que o modelo segmente e rastreie objetos em vários quadros. Avaliações extensas em diversos benchmarks, incluindo nosso novo benchmark ReasonVOS, demonstram o desempenho superior do VideoLISA em tarefas de segmentação de objetos em vídeo envolvendo raciocínio complexo, compreensão temporal e rastreamento de objetos. Embora otimizado para vídeos, o VideoLISA também mostra uma generalização promissora para segmentação de imagem, revelando seu potencial como um modelo de base unificado para segmentação de objetos instruída por linguagem. O código e o modelo estarão disponíveis em: https://github.com/showlab/VideoLISA.
Neste trabalho, compartilhamos as ideias para alcançar qualidade de ponta em nosso modelo generativo de imagens de anime texto-imagem, chamado Illustrious. Para atingir alta resolução, ampla gama de cores dinâmicas e alta capacidade de restauração, focamos em três abordagens críticas para a melhoria do modelo. Primeiramente, exploramos a importância do tamanho do lote e controle de abandono, o que permite um aprendizado mais rápido de ativações de conceitos baseados em tokens controláveis. Em segundo lugar, aumentamos a resolução de treinamento das imagens, afetando a representação precisa da anatomia dos personagens em resoluções muito mais altas, estendendo sua capacidade de geração para mais de 20MP com métodos apropriados. Por fim, propomos legendas refinadas em vários níveis, abrangendo todas as tags e várias legendas em linguagem natural como um fator crítico para o desenvolvimento do modelo. Através de análises extensivas e experimentos, Illustrious demonstra desempenho de ponta em termos de estilo de animação, superando modelos amplamente utilizados em domínios de ilustração, impulsionando uma personalização e customização mais fáceis devido à natureza de código aberto. Planejamos lançar publicamente séries atualizadas do modelo Illustrious sequencialmente, bem como planos sustentáveis para melhorias.
Os modelos de difusão surgiram como uma tecnologia generativa poderosa e têm se mostrado aplicáveis em vários cenários. A maioria dos modelos de difusão fundamentais existentes são principalmente projetados para geração visual guiada por texto e não suportam condições multimodais, essenciais para muitas tarefas de edição visual. Essa limitação impede que esses modelos fundamentais de difusão atuem como um modelo unificado no campo da geração visual, como o GPT-4 no campo de processamento de linguagem natural. Neste trabalho, propomos o ACE, um Criador e Editor Completo, que alcança desempenho comparável aos desses modelos especializados em uma ampla gama de tarefas de geração visual. Para alcançar esse objetivo, primeiro introduzimos um formato de condição unificada denominado Unidade de Condição de Contexto Longo (LCU) e propomos um novo modelo de difusão baseado em Transformer que utiliza LCU como entrada, visando treinamento conjunto em várias tarefas de geração e edição. Além disso, propomos uma abordagem eficiente de coleta de dados para lidar com a ausência de dados de treinamento disponíveis. Isso envolve a aquisição de imagens em pares com pipelines baseados em síntese ou clusterização e fornecimento desses pares com instruções textuais precisas, aproveitando um modelo de linguagem grande multimodal ajustado. Para avaliar abrangentemente o desempenho de nosso modelo, estabelecemos um benchmark de dados de pares anotados manualmente em uma variedade de tarefas de geração visual. Os extensos resultados experimentais demonstram a superioridade de nosso modelo nos campos de geração visual. Graças às capacidades tudo-em-um de nosso modelo, podemos facilmente construir um sistema de chat multimodal que responde a qualquer solicitação interativa de criação de imagem usando um único modelo como backend, evitando o complicado pipeline normalmente empregado em agentes visuais. O código e os modelos estarão disponíveis na página do projeto: https://ali-vilab.github.io/ace-page/.
O avanço da condução autônoma depende cada vez mais de conjuntos de dados anotados de alta qualidade, especialmente na tarefa de previsão de ocupação 3D, onde os rótulos de ocupação exigem uma anotação 3D densa com significativo esforço humano. Neste artigo, propomos o SyntheOcc, que denota um modelo de difusão que sintetiza imagens fotorrealistas e geometricamente controladas condicionando rótulos de ocupação em cenários de condução. Isso resulta em uma quantidade ilimitada de conjuntos de dados diversos, anotados e controláveis para aplicações como treinamento de modelos de percepção e simulação. O SyntheOcc aborda o desafio crítico de como codificar eficientemente informações geométricas 3D como entrada condicional para um modelo de difusão 2D. Nossa abordagem incorpora de forma inovadora imagens 3D semânticas de múltiplos planos (MPIs) para fornecer descrições abrangentes e espacialmente alinhadas de cenas 3D para condicionamento. Como resultado, o SyntheOcc pode gerar imagens e vídeos fotorrealistas de múltiplas vistas que se alinham fielmente com os rótulos geométricos fornecidos (semântica no espaço de voxels 3D). Avaliações qualitativas e quantitativas extensas do SyntheOcc no conjunto de dados nuScenes comprovam sua eficácia na geração de conjuntos de dados de ocupação controláveis que servem como uma eficaz ampliação de dados para modelos de percepção.
Os Grandes Modelos Multimodais (LMMs) têm demonstrado um desempenho impressionante em tarefas de compreensão de vídeos curtos, mas enfrentam grandes desafios quando aplicados à compreensão de vídeos longos. Em contraste, os Grandes Modelos de Linguagem (LLMs) exibem capacidades excepcionais na modelagem de textos longos. Trabalhos existentes tentam abordar essa questão introduzindo pares de vídeo-texto longos durante o treinamento. No entanto, essas abordagens requerem recursos computacionais e de dados substanciais. Neste artigo, enfrentamos o desafio da compreensão de vídeos longos a partir da perspectiva de janelas de contexto, com o objetivo de aplicar LMMs a tarefas de vídeo longo sem retrabalho em conjuntos de dados de vídeo longo. Primeiramente, realizamos uma análise aprofundada sobre por que os LMMs pré-treinados têm dificuldade em compreender conteúdo de vídeo extenso, identificando que discrepâncias entre as modalidades visual e linguística levam a diferentes janelas de contexto para tokens visuais e de linguagem, tornando difícil estender diretamente os tokens visuais para corresponder à janela de contexto de linguagem. Com base nisso, propomos adaptar os LMMs para tarefas de compreensão de vídeo longo estendendo a janela de contexto visual, eliminando a necessidade de retrabalho em conjuntos de dados de vídeo longo em grande escala. Para mitigar ainda mais o consumo significativo de memória causado por sequências longas, introduzimos uma estratégia progressiva de inferência de pooling que ajusta seletivamente a resolução espacial das incorporações de quadros, reduzindo o número de tokens visuais enquanto mantém informações espaciais importantes. Em diversos benchmarks de compreensão de vídeo longo, nosso método melhora consistentemente o desempenho à medida que o número de quadros de vídeo aumenta. No benchmark MLVU, nosso método supera o GPT-4o, mesmo que o tamanho do nosso modelo seja apenas 7B. Além disso, na configuração de 256 quadros, nosso método reduz o uso de memória em aproximadamente 45% em comparação com o modelo de referência, sem introduzir perda de desempenho.
Algoritmos de restauração de imagens fotorrealistas são tipicamente avaliados por medidas de distorção (por exemplo, PSNR, SSIM) e por medidas de qualidade perceptual (por exemplo, FID, NIQE), onde o objetivo é alcançar a menor distorção possível sem comprometer a qualidade perceptual. Para atingir esse objetivo, os métodos atuais normalmente tentam amostrar da distribuição posterior, ou otimizar a soma ponderada de uma perda de distorção (por exemplo, MSE) e uma perda de qualidade perceptual (por exemplo, GAN). Ao contrário de trabalhos anteriores, este artigo trata especificamente do estimador ótimo que minimiza o MSE sob uma restrição de índice perceptual perfeito, ou seja, onde a distribuição das imagens reconstruídas é igual à das imagens verdadeiras. Um resultado teórico recente mostra que tal estimador pode ser construído transportando de forma ótima a previsão da média posterior (estimativa MMSE) para a distribuição das imagens verdadeiras. Inspirados por esse resultado, introduzimos o Fluxo Retificado da Média Posterior (PMRF), um algoritmo simples, porém altamente eficaz, que aproxima esse estimador ótimo. Em particular, o PMRF primeiro prevê a média posterior e, em seguida, transporta o resultado para uma imagem de alta qualidade usando um modelo de fluxo retificado que aproxima o mapa de transporte ótimo desejado. Investigamos a utilidade teórica do PMRF e demonstramos que ele supera consistentemente métodos anteriores em uma variedade de tarefas de restauração de imagens.
Apresentamos um método para reconstruir modelos de corpo humano temporalmente consistentes a partir de vídeos monoculares, com foco em roupas extremamente folgadas ou interações com objetos manuais. Trabalhos anteriores em reconstrução humana estão limitados a roupas justas sem interações com objetos, ou exigem capturas multi-visão calibradas ou varreduras de modelo personalizadas, o que é caro de obter em grande escala. Nossa principal contribuição para uma reconstrução flexível e de alta qualidade é a combinação cuidadosa de conhecimentos prévios genéricos sobre a forma do corpo humano articulado (aprendidos a partir de dados de treinamento em larga escala) com deformações articuladas específicas de vídeo em um "saco de ossos" (ajustadas a um único vídeo por meio de otimização em tempo de teste). Conseguimos isso ao aprender um modelo neural implícito que separa as deformações do corpo e das roupas em camadas de modelo de movimento distintas. Para capturar a geometria sutil das roupas, aproveitamos conhecimentos prévios baseados em imagens, como pose do corpo humano, normais de superfície e fluxo óptico durante a otimização. Os campos neurais resultantes podem ser extraídos em malhas temporalmente consistentes, ou ainda otimizados como gaussianas 3D explícitas para renderização interativa de alta fidelidade. Em conjuntos de dados com deformações de roupas altamente desafiadoras e interações com objetos, o DressRecon produz reconstruções 3D de maior fidelidade do que a arte anterior. Página do projeto: https://jefftan969.github.io/dressrecon/
Métodos baseados em aprendizado têm alcançado alto desempenho para locomoção quadrúpede. No entanto, vários desafios impedem que quadrúpedes aprendam habilidades úteis em ambientes internos que requerem interação com ambientes e humanos: falta de efetuadores finais para manipulação, entendimento semântico limitado usando apenas dados de simulação, e baixa capacidade de travessia e alcance em ambientes internos. Apresentamos um sistema para manipulação móvel quadrúpede em ambientes internos. Ele utiliza um agarrador montado na frente para manipulação de objetos, um controlador de baixo nível treinado em simulação usando profundidade egocêntrica para habilidades ágeis como escalada e inclinação de corpo inteiro, e modelos de visão-linguagem pré-treinados (VLMs) com uma câmera de terceira pessoa olho de peixe e uma câmera RGB egocêntrica para entendimento semântico e geração de comandos. Avaliamos nosso sistema em dois ambientes não vistos sem coleta ou treinamento de dados do mundo real. Nosso sistema pode generalizar de forma zero-shot para esses ambientes e completar tarefas, como seguir comandos do usuário para buscar um brinquedo aleatoriamente colocado após escalar uma cama tamanho queen, com uma taxa de sucesso de 60%. Website do projeto: https://helpful-doggybot.github.io/
O viés de gênero na tradução automática (TA) é reconhecido como um problema que pode prejudicar as pessoas e a sociedade. No entanto, os avanços nesse campo raramente envolvem as pessoas, os usuários finais da TA, ou informam como eles podem ser impactados por tecnologias enviesadas. As avaliações atuais frequentemente se restringem a métodos automáticos, que oferecem uma estimativa opaca de qual poderia ser o impacto downstream das disparidades de gênero. Realizamos um extenso estudo centrado no ser humano para examinar se e em que medida o viés na TA traz prejuízos com custos tangíveis, como lacunas na qualidade do serviço entre mulheres e homens. Para esse fim, coletamos dados comportamentais de 90 participantes, que editaram as saídas da TA para garantir a tradução correta de gênero. Através de múltiplos conjuntos de dados, idiomas e tipos de usuários, nosso estudo mostra que a edição pós-tradução feminina demanda significativamente mais esforço técnico e temporal, correspondendo também a custos financeiros mais elevados. No entanto, as medidas de viés existentes falham em refletir as disparidades encontradas. Nossas descobertas defendem abordagens centradas no ser humano que possam informar o impacto societal do viés.
Não há limite para o quanto um robô pode explorar e aprender, mas todo esse conhecimento precisa ser pesquisável e acionável. Dentro da pesquisa de linguagem, a recuperação aumentada pela geração (RAG) se tornou a principal ferramenta de conhecimento não paramétrico em larga escala, no entanto, as técnicas existentes não são diretamente transferíveis para o domínio incorporado, que é multimodal, os dados são altamente correlacionados e a percepção requer abstração. Para enfrentar esses desafios, introduzimos o Embodied-RAG, um framework que aprimora o modelo fundamental de um agente incorporado com um sistema de memória não paramétrico capaz de construir autonomamente conhecimento hierárquico para navegação e geração de linguagem. O Embodied-RAG lida com uma ampla gama de resoluções espaciais e semânticas em diversos ambientes e tipos de consulta, seja para um objeto específico ou uma descrição holística do ambiente. Em sua essência, a memória do Embodied-RAG é estruturada como uma floresta semântica, armazenando descrições de linguagem em diferentes níveis de detalhe. Essa organização hierárquica permite que o sistema gere eficientemente saídas sensíveis ao contexto em diferentes plataformas robóticas. Demonstramos que o Embodied-RAG conecta efetivamente o RAG ao domínio da robótica, lidando com mais de 200 consultas de explicação e navegação em 19 ambientes, destacando sua promessa como sistema não paramétrico de propósito geral para agentes incorporados.