Artigos de pesquisa em IA selecionados diariamente com traduções
As notáveis capacidades multimodais e a experiência interativa do GPT-4o destacam a sua necessidade em aplicações práticas, no entanto, modelos de código aberto raramente se destacam em ambas as áreas. Neste artigo, apresentamos o VITA, o primeiro Modelo de Linguagem Grande Multimodal (MLLM) de código aberto capaz de processar e analisar simultaneamente modalidades de Vídeo, Imagem, Texto e Áudio, e ao mesmo tempo oferece uma experiência interativa multimodal avançada. Partindo do Mixtral 8x7B como base linguística, expandimos seu vocabulário chinês seguido de ajustes de instrução bilíngue. Além disso, dotamos o modelo de linguagem com capacidades visuais e de áudio por meio de aprendizado multitarefa em duas etapas de alinhamento multimodal e ajuste de instrução. O VITA demonstra capacidades fundamentais robustas de compreensão multilíngue, visual e de áudio, conforme evidenciado por seu desempenho sólido em uma variedade de benchmarks unimodais e multimodais. Além das capacidades fundamentais, fizemos considerável progresso na melhoria da experiência natural de interação humano-computador multimodal. Até onde sabemos, somos os primeiros a explorar a interação não despertadora e a interrupção de áudio em MLLM. O VITA é o primeiro passo para a comunidade de código aberto explorar a integração perfeita de compreensão e interação multimodais. Embora ainda haja muito trabalho a ser feito no VITA para se equiparar aos equivalentes de código fechado, esperamos que seu papel como pioneiro possa servir de base para pesquisas subsequentes. Página do Projeto: https://vita-home.github.io.
Os autoencoders esparsos (SAEs) são um método não supervisionado para aprender uma decomposição esparsa das representações latentes de uma rede neural em características aparentemente interpretáveis. Apesar do entusiasmo recente sobre seu potencial, as aplicações de pesquisa fora da indústria são limitadas pelo alto custo de treinar uma ampla gama de SAEs. Neste trabalho, apresentamos o Gemma Scope, uma suíte aberta de SAEs JumpReLU treinados em todas as camadas e subcamadas dos modelos base Gemma 2 2B e 9B e em camadas selecionadas dos modelos base Gemma 2 27B. Treinamos principalmente os SAEs nos modelos pré-treinados Gemma 2, mas também disponibilizamos SAEs treinados no Gemma 2 9B ajustado por instruções para comparação. Avaliamos a qualidade de cada SAE em métricas padrão e divulgamos esses resultados. Esperamos que, ao disponibilizar esses pesos dos SAEs, possamos ajudar a tornar a pesquisa de segurança e interpretabilidade mais ambiciosa mais fácil para a comunidade. Os pesos e um tutorial podem ser encontrados em https://huggingface.co/google/gemma-scope e uma demonstração interativa pode ser encontrada em https://www.neuronpedia.org/gemma-scope
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades notáveis na execução de instruções para uma variedade de tarefas de imagem única. Apesar desse progresso, desafios significativos permanecem na modelagem de sequências longas de imagens. Neste trabalho, introduzimos o versátil modelo de linguagem multimodal de grande escala, mPLUG-Owl3, que aprimora a capacidade de compreensão de sequências longas de imagens em cenários que incorporam conhecimento de texto e imagem recuperados, texto e imagem entrelaçados, e vídeos extensos. Especificamente, propomos blocos de hiperatenção inovadores para integrar eficientemente visão e linguagem em um espaço semântico comum guiado por linguagem, facilitando assim o processamento de cenários multi-imagem estendidos. Resultados experimentais extensivos sugerem que o mPLUG-Owl3 alcança desempenho de ponta entre modelos de tamanho similar em benchmarks de imagem única, multi-imagem e vídeo. Além disso, propomos uma avaliação desafiadora de sequência visual longa chamada Resistência a Distratores para avaliar a capacidade dos modelos de manter o foco em meio a distrações. Por fim, com a arquitetura proposta, o mPLUG-Owl3 demonstra um desempenho excepcional em entradas de sequência visual ultra-longas. Esperamos que o mPLUG-Owl3 possa contribuir para o desenvolvimento de modelos de linguagem multimodais de grande escala mais eficientes e poderosos.
Significativos esforços de pesquisa têm sido feitos para escalar e melhorar abordagens de treinamento de modelos de visão e linguagem (VLM). No entanto, com um número cada vez maior de referências, os pesquisadores têm a tarefa árdua de implementar cada protocolo, suportando um custo computacional não trivial, e compreender como todas essas referências se traduzem em eixos significativos de progresso. Para facilitar uma avaliação sistemática do progresso do VLM, apresentamos o UniBench: uma implementação unificada de mais de 50 referências de VLM abrangendo uma ampla gama de capacidades cuidadosamente categorizadas, desde reconhecimento de objetos até consciência espacial, contagem e muito mais. Demonstramos a utilidade do UniBench para medir o progresso avaliando quase 60 modelos de visão e linguagem disponíveis publicamente, treinados em escalas de até 12,8 bilhões de amostras. Descobrimos que, embora escalar os dados de treinamento ou o tamanho do modelo possa impulsionar muitas capacidades do modelo de visão e linguagem, o escalonamento oferece pouco benefício para raciocínio ou relações. Surpreendentemente, também descobrimos que os melhores VLMs de hoje enfrentam dificuldades em tarefas simples de reconhecimento e contagem de dígitos, como o MNIST, que redes muito mais simples conseguem resolver. Onde a escala fica aquém, descobrimos que intervenções mais precisas, como qualidade dos dados ou objetivos de aprendizado personalizados, oferecem mais promessas. Para os profissionais, também oferecemos orientações sobre a seleção de um VLM adequado para uma determinada aplicação. Por fim, disponibilizamos uma base de código UniBench fácil de executar com o conjunto completo de mais de 50 referências e comparações entre 59 modelos, bem como um conjunto destilado e representativo de referências que roda em 5 minutos em uma única GPU.
Os recentes avanços em grandes modelos de linguagem (LLMs) despertaram um crescente interesse de pesquisa em LLMs assistidos por ferramentas para resolver desafios do mundo real, o que demanda uma avaliação abrangente das capacidades de uso de ferramentas. Enquanto trabalhos anteriores focaram na avaliação de serviços da web sem estado (API RESTful), com base em uma única interação do usuário, ou em uma trajetória de diálogo fora de política, o ToolSandbox inclui a execução de ferramentas com estado, dependências de estado implícitas entre ferramentas, um simulador de usuário integrado que suporta avaliação conversacional sob política e uma estratégia de avaliação dinâmica para marcos intermediários e finais ao longo de uma trajetória arbitrária. Mostramos que modelos de código aberto e proprietários têm uma diferença significativa de desempenho, e tarefas complexas como Dependência de Estado, Canonicização e Informação Insuficiente definidas no ToolSandbox estão desafiando até mesmo os LLMs SOTA mais capazes, fornecendo novas perspectivas sobre as capacidades de uso de ferramentas dos LLMs. O framework de avaliação do ToolSandbox foi disponibilizado em https://github.com/apple/ToolSandbox
Apesar do progresso promissor na super resolução de imagens faciais, a super resolução de vídeos de rostos ainda é relativamente pouco explorada. As abordagens existentes geralmente adaptam redes gerais de super resolução de vídeos para conjuntos de dados de rostos ou aplicam modelos estabelecidos de super resolução de imagens faciais de forma independente em quadros de vídeo individuais. Esses paradigmas enfrentam desafios na reconstrução de detalhes faciais ou na manutenção da consistência temporal. Para lidar com essas questões, apresentamos um novo framework chamado Propagação de Características Inspirada em Kalman (KEEP), projetado para manter uma prioridade facial estável ao longo do tempo. Os princípios de filtragem de Kalman oferecem ao nosso método uma capacidade recorrente de utilizar as informações de quadros previamente restaurados para orientar e regular o processo de restauração do quadro atual. Experimentos extensos demonstram a eficácia do nosso método em capturar detalhes faciais de forma consistente em quadros de vídeo. O código e a demonstração em vídeo estão disponíveis em https://jnjaby.github.io/projects/KEEP.
A inversão textual continua a ser um método popular para personalizar modelos de difusão, a fim de ensinar aos modelos novos temas e estilos. Observamos que a inversão textual tem sido pouco explorada utilizando alternativas ao UNet e experimentamos a inversão textual com um transformador de visão. Também buscamos otimizar a inversão textual utilizando uma estratégia que não exija o uso explícito do UNet e suas camadas idiossincráticas, então adicionamos tokens de bônus e aplicamos ortogonalidade. Verificamos que o uso do token de bônus melhora a aderência às imagens de origem e o uso do transformador de visão melhora a aderência ao estímulo. O código está disponível em https://github.com/jamesBaker361/tex_inv_plus.
Neste artigo, apresentamos o MooER, um modelo de reconhecimento automático de fala (ASR) / tradução automática de fala (AST) em larga escala baseado em LLM da Moore Threads. Um conjunto de dados pseudo-rotulado de 5000 horas contendo dados de fala de código aberto e coletados internamente é utilizado para o treinamento. Alcançamos desempenho comparável a outros modelos de código aberto treinados com centenas de milhares de horas de dados de fala rotulados. Enquanto isso, experimentos realizados no conjunto de testes Covost2 Zh2en sugerem que nosso modelo supera outros LLMs de Fala de código aberto. Um escore BLEU de 25.2 pode ser obtido. As principais contribuições deste artigo são resumidas da seguinte forma. Primeiramente, este artigo apresenta uma estratégia de treinamento para codificadores e LLMs em tarefas relacionadas à fala (incluindo ASR e AST) usando um pequeno conjunto de dados pseudo-rotulados sem nenhuma anotação manual ou seleção extra. Em segundo lugar, disponibilizamos nossos modelos ASR e AST e planejamos tornar nosso código e estratégia de treinamento de código aberto em um futuro próximo. Além disso, um modelo treinado em uma escala de treinamento de 8wh está planejado para ser disponibilizado posteriormente.
A conversão de voz tem como objetivo modificar a voz do locutor de origem para se assemelhar ao locutor de destino, preservando o conteúdo original do discurso. Apesar dos avanços notáveis na conversão de voz nos dias de hoje, a conversão de voz multilíngue (incluindo cenários monolíngues e cruzados) ainda não foi extensivamente estudada. Enfrenta dois desafios principais: 1) a considerável variabilidade na prosódia e nos hábitos de articulação entre idiomas; e 2) a raridade de conjuntos de dados multilíngues emparelhados do mesmo locutor. Neste artigo, propomos o MulliVC, um novo sistema de conversão de voz que apenas converte o timbre e mantém o conteúdo original e a prosódia do idioma de origem sem dados emparelhados multilíngues. Especificamente, cada etapa de treinamento do MulliVC contém três subetapas: Na primeira etapa, o modelo é treinado com dados de fala monolíngues; em seguida, as etapas dois e três se inspiram na tradução reversa, construindo um processo cíclico para desvendar o timbre e outras informações (conteúdo, prosódia e outras informações relacionadas ao idioma) na ausência de dados multilíngues do mesmo locutor. Tanto os resultados objetivos quanto subjetivos indicam que o MulliVC supera significativamente outros métodos em contextos monolíngues e multilíngues, demonstrando a eficácia do sistema e a viabilidade da abordagem de três etapas com consistência cíclica. Amostras de áudio podem ser encontradas em nossa página de demonstração (mullivc.github.io).
Os modelos de linguagem de redes neurais (LMs) têm demonstrado capturar com sucesso conhecimento linguístico complexo. No entanto, sua utilidade para compreender a aquisição de linguagem ainda é objeto de debate. Contribuímos para esse debate apresentando um estudo de caso no qual utilizamos LMs como aprendizes simulados para derivar novas hipóteses experimentais a serem testadas com humanos. Aplicamos esse paradigma para estudar a generalização dativa cruzada (CDG): generalização produtiva de verbos novos em construções dativas (ela me passou a bola/ela passou a bola para mim) - cuja aquisição se sabe envolver um grande espaço de características contextuais - utilizando LMs treinadas em fala direcionada a crianças. Especificamente perguntamos: "quais propriedades da exposição ao treinamento facilitam a generalização de um verbo novo para a construção dativa alternativa (não modelada)?" Para responder a isso, variamos sistematicamente o contexto de exposição no qual um verbo dativo novo ocorre em termos das propriedades do tema e do destinatário, e então analisamos o uso dos LMs do verbo novo na construção dativa não modelada. Descobrimos que os LMs replicam padrões conhecidos da CDG em crianças, como uma condição prévia para explorar novas hipóteses. Simulações subsequentes revelam um papel sutil das características do contexto de exposição dos verbos novos na CDG dos LMs. Descobrimos que a CDG é facilitada quando o primeiro argumento pós-verbal do contexto de exposição é pronominal, definido, curto e está de acordo com as expectativas prototípicas de animacidade do dativo de exposição. Esses padrões são característicos do alinhamento harmônico em dativos, onde o argumento com características classificadas mais altas na escala de proeminência do discurso tende a preceder o outro. Isso dá origem a uma nova hipótese de que a CDG é facilitada na medida em que as características do contexto de exposição - em particular, seu primeiro argumento pós-verbal - estão harmonicamente alinhadas. Concluímos propondo futuros experimentos que possam testar essa hipótese em crianças.