Artigos de pesquisa em IA selecionados diariamente com traduções
Os grandes modelos de linguagem estão se tornando cada vez mais uma tecnologia fundamental em inteligência artificial, nas ciências e na sociedade como um todo, no entanto, as estratégias ideais para a composição e filtragem de conjuntos de dados ainda são amplamente desconhecidas. Muitos dos modelos de melhor desempenho carecem de transparência em seus processos de curadoria de dados e desenvolvimento de modelos, representando um obstáculo para o desenvolvimento de modelos de linguagem totalmente abertos. Neste artigo, identificamos três desafios principais relacionados a dados que devem ser abordados para avançar nos modelos de linguagem de código aberto. Estes incluem (1) transparência no desenvolvimento do modelo, incluindo o processo de curadoria de dados, (2) acesso a grandes quantidades de dados de alta qualidade e (3) disponibilidade de artefatos e metadados para curadoria e análise de conjuntos de dados. Para enfrentar esses desafios, lançamos o RedPajama-V1, uma reprodução aberta do conjunto de dados de treinamento LLaMA. Além disso, lançamos o RedPajama-V2, um conjunto de dados maciço exclusivamente da web, composto por dados de texto brutos e não filtrados, juntamente com sinais de qualidade e metadados. Juntos, os conjuntos de dados RedPajama abrangem mais de 100 trilhões de tokens em vários domínios e, com seus sinais de qualidade, facilitam a filtragem de dados, com o objetivo de inspirar o desenvolvimento de inúmeros novos conjuntos de dados. Até o momento, esses conjuntos de dados já foram utilizados no treinamento de modelos de linguagem robustos usados em produção, como Snowflake Arctic, XGen da Salesforce e OLMo da AI2. Para fornecer insights sobre a qualidade do RedPajama, apresentamos uma série de análises e estudos de ablação com modelos de linguagem somente decodificadores com até 1,6 bilhão de parâmetros. Nossas descobertas demonstram como os sinais de qualidade para dados da web podem ser efetivamente aproveitados para curar subconjuntos de alta qualidade do conjunto de dados, destacando o potencial do RedPajama para avançar no desenvolvimento de modelos de linguagem transparentes e de alto desempenho em escala.
Animações em esboço oferecem um meio poderoso para contar histórias visuais, desde simples rabiscos de flip-book até produções de estúdio profissionais. Enquanto a animação tradicional requer equipes de artistas habilidosos para desenhar quadros-chave e quadros intermediários, as tentativas de automação existentes ainda exigem um esforço artístico significativo por meio de caminhos de movimento precisos ou especificação de quadros-chave. Apresentamos o FlipSketch, um sistema que traz de volta a magia da animação de flip-book -- basta desenhar sua ideia e descrever como deseja que ela se mova! Nossa abordagem aproveita precursores de movimento de modelos de difusão de texto para vídeo, adaptando-os para gerar animações em esboço por meio de três inovações-chave: (i) ajuste fino para geração de quadros no estilo de esboço, (ii) um mecanismo de quadro de referência que preserva a integridade visual do esboço de entrada por meio de refinamento de ruído, e (iii) uma composição de dupla atenção que permite um movimento fluido sem perder consistência visual. Ao contrário das animações vetoriais restritas, nossos quadros rasterizados suportam transformações de esboço dinâmicas, capturando a liberdade expressiva da animação tradicional. O resultado é um sistema intuitivo que torna a animação em esboço tão simples quanto rabiscar e descrever, mantendo a essência artística da animação feita à mão.
Modelos de geração de imagens autoregressivos de valores contínuos (AR) têm demonstrado notável superioridade sobre seus equivalentes de tokens discretos, exibindo considerável qualidade de reconstrução e maior fidelidade na geração. No entanto, as demandas computacionais do framework autoregressivo resultam em significativa sobrecarga de inferência. Enquanto a decodificação especulativa tem se mostrado eficaz na aceleração de Modelos de Linguagem Grandes (LLMs), sua adaptação para modelos visuais autoregressivos de valores contínuos permanece inexplorada. Este trabalho generaliza o algoritmo de decodificação especulativa de tokens discretos para o espaço contínuo. Ao analisar as propriedades intrínsecas da distribuição de saída, estabelecemos um critério de aceitação adaptado para as distribuições de difusão prevalentes nesses modelos. Para superar a inconsistência que ocorreu nas distribuições de saída da decodificação especulativa, introduzimos métodos de alinhamento de trajetória de denoização e pré-preenchimento de tokens. Além disso, identificamos a distribuição difícil de amostrar na fase de rejeição. Para mitigar esse problema, propomos um meticuloso método de amostragem de aceitação-rejeição com um limite superior apropriado, contornando assim integrações complexas. Resultados experimentais mostram que nossa decodificação especulativa contínua alcança uma notável aceleração de 2,33 vezes em modelos prontos para uso, mantendo a distribuição de saída. Os códigos estarão disponíveis em https://github.com/MarkXCloud/CSpD
Os avanços recentes em Modelos de Linguagem Visual (VLMs) fundamentais têm remodelado o paradigma de avaliação em tarefas de visão computacional. Esses modelos fundamentais, especialmente o CLIP, têm acelerado a pesquisa em tarefas de visão computacional de vocabulário aberto, incluindo a Segmentação Semântica de Vocabulário Aberto (OVSS). Embora os resultados iniciais sejam promissores, as capacidades de previsão densa dos VLMs ainda requerem melhorias adicionais. Neste estudo, aprimoramos o desempenho de segmentação semântica do CLIP introduzindo novos módulos e modificações: 1) mudanças arquiteturais na última camada do ViT e a incorporação de mapas de atenção das camadas intermediárias com a última camada, 2) Engenharia de Imagem: aplicando aumentos de dados para enriquecer as representações de imagem de entrada, e 3) utilizando Modelos de Linguagem Grandes (LLMs) para gerar definições e sinônimos para cada nome de classe para alavancar as capacidades de vocabulário aberto do CLIP. Nosso método de treinamento livre, ITACLIP, supera as abordagens atuais de ponta em benchmarks de segmentação como COCO-Stuff, COCO-Object, Pascal Context e Pascal VOC. Nosso código está disponível em https://github.com/m-arda-aydn/ITACLIP.
Este artigo explora o ecossistema em rápida evolução de modelos de IA disponíveis publicamente e suas potenciais implicações na segurança e no cenário de segurança. À medida que os modelos de IA se tornam cada vez mais prevalentes, compreender seus riscos e vulnerabilidades potenciais é crucial. Revisamos os cenários atuais de segurança e segurança, destacando desafios como problemas de rastreamento, remediação e a aparente ausência de processos de ciclo de vida e propriedade de modelos de IA. Estratégias abrangentes para aprimorar a segurança e a segurança tanto para os desenvolvedores de modelos quanto para os usuários finais são propostas. Este artigo tem como objetivo fornecer algumas das peças fundamentais para uma segurança, segurança e transparência mais padronizadas no desenvolvimento e operação de modelos de IA e nos ecossistemas abertos e comunidades maiores que se formam ao seu redor.
A manipulação dinâmica na mão continua sendo uma tarefa desafiadora para sistemas robóticos flexíveis que demonstraram vantagens em interações seguras e complacentes, mas enfrentam dificuldades em tarefas dinâmicas de alta velocidade. Neste trabalho, apresentamos o SWIFT, um sistema para aprendizado de tarefas dinâmicas usando uma mão robótica flexível e complacente. Ao contrário de trabalhos anteriores que dependem de simulação, ações quase estáticas e modelos precisos de objetos, o sistema proposto aprende a girar uma caneta por tentativa e erro usando apenas dados do mundo real, sem exigir conhecimento prévio explícito dos atributos físicos da caneta. Com tentativas autoetiquetadas amostradas do mundo real, o sistema descobre o conjunto de parâmetros primitivos de agarre e rotação de caneta que permite a uma mão flexível girar uma caneta de forma robusta e confiável. Após 130 ações amostradas por objeto, o SWIFT atinge uma taxa de sucesso de 100% em três canetas com pesos e distribuições de peso diferentes, demonstrando a generalização e robustez do sistema a mudanças nas propriedades do objeto. Os resultados destacam o potencial dos efetuadores finais robóticos flexíveis para realizar tarefas dinâmicas, incluindo manipulação rápida na mão. Também demonstramos que o SWIFT generaliza para girar itens com diferentes formas e pesos, como um pincel e uma chave de fenda, que giramos com taxas de sucesso de 10/10 e 5/10, respectivamente. Vídeos, dados e código estão disponíveis em https://soft-spin.github.io.
Os métodos existentes de Avaliação de Qualidade de Imagem (IQA) alcançam um sucesso notável na análise da qualidade da imagem como um todo, mas poucos trabalhos exploram a análise de qualidade para Regiões de Interesse (ROIs). A análise de qualidade das ROIs pode fornecer orientação detalhada para a melhoria da qualidade da imagem e é crucial para cenários que se concentram na qualidade ao nível da região. Este artigo propõe uma rede inovadora, SEAGULL, que pode Ver e Avaliar a qualidade das ROIs com Orientação de um grande modelo de visão e linguagem. SEAGULL incorpora um modelo de visão e linguagem (VLM), máscaras geradas pelo Modelo Segment Anything (SAM) para especificar ROIs, e um Extrator de Recursos baseado em Máscara (MFE) meticulosamente projetado para extrair tokens globais e locais para ROIs especificadas, permitindo uma avaliação precisa e detalhada da qualidade das ROIs. Além disso, este artigo constrói dois conjuntos de dados de IQA baseados em ROI, SEAGULL-100w e SEAGULL-3k, para treinar e avaliar a IQA baseada em ROI. SEAGULL-100w é composto por cerca de 100 mil imagens de distorção sintéticas com 33 milhões de ROIs para pré-treinamento a fim de melhorar a capacidade do modelo de perceção de qualidade regional, e SEAGULL-3k contém cerca de 3 mil ROIs de distorção autênticas para aprimorar a capacidade do modelo de perceber distorções do mundo real. Após o pré-treinamento em SEAGULL-100w e o ajuste fino em SEAGULL-3k, SEAGULL demonstra um desempenho notável na avaliação da qualidade detalhada das ROIs. O código e os conjuntos de dados estão disponíveis publicamente em https://github.com/chencn2020/Seagull.
Os Modelos de Linguagem de Grande Escala (LLMs) baseados em arquiteturas de transformadores revolucionaram uma variedade de domínios, com a tokenização desempenhando um papel fundamental em suas etapas de pré-processamento e ajuste fino. Em modelos multilíngues, especialmente aqueles adaptados para línguas indígenas, a tokenização eficaz é crucial para otimizar o desempenho. Este artigo apresenta uma avaliação abrangente dos tokenizadores usados por 12 LLMs em todas as 22 línguas oficiais da Índia, com foco na comparação da eficiência de seus processos de tokenização. Empregamos o Comprimento Normalizado da Sequência (NSL) como uma métrica chave em nossa análise. Nossas descobertas revelam que o tokenizador SUTRA supera todos os outros modelos, incluindo vários modelos específicos para línguas indígenas, destacando-se em 14 idiomas. Insights notáveis incluem o manuseio superior de línguas indígenas pelo tokenizador SUTRA, o avanço do GPT-4o sobre seu antecessor GPT-4 no processamento de línguas indianas e o desempenho limitado do Projeto Indus em certos idiomas. Este estudo destaca a importância crítica do desenvolvimento de estratégias de tokenização direcionadas para modelos multilíngues e indígenas, lançando as bases para futuras melhorias no design de tokenizadores para aprimorar a cobertura linguística e a eficiência do modelo.