Artigos de pesquisa em IA selecionados diariamente com traduções
Recentemente, tem havido um crescente interesse em estudar como construir dados de ajuste de instruções de código melhores. No entanto, observamos que os modelos de código treinados com esses conjuntos de dados apresentam alto desempenho no HumanEval, mas têm um desempenho inferior em outros benchmarks, como o LiveCodeBench. Após uma investigação mais aprofundada, descobrimos que muitos conjuntos de dados sofrem de vazamento de dados severo. Após limpar a maior parte dos dados vazados, alguns conjuntos de dados de alta qualidade bem conhecidos têm um desempenho ruim. Essa descoberta revela um novo desafio: identificar quais conjuntos de dados realmente se qualificam como dados de instrução de código de alta qualidade. Para abordar isso, propomos uma estratégia eficiente de poda de dados de código para selecionar boas amostras. Nossa abordagem é baseada em três dimensões: complexidade da instrução, qualidade da resposta e diversidade da instrução. Com base em nossos dados selecionados, apresentamos o XCoder, uma família de modelos ajustados a partir do LLaMA3. Nossos experimentos mostram que o XCoder alcança um novo desempenho de ponta usando menos dados de treinamento, o que verifica a eficácia de nossa estratégia de dados. Além disso, realizamos uma análise abrangente sobre a composição dos dados e descobrimos que os conjuntos de dados de código existentes têm características diferentes de acordo com seus métodos de construção, o que fornece novos insights para futuros modelos de linguagem de modelo de código. Nossos modelos e conjunto de dados estão disponíveis em https://github.com/banksy23/XCoder
Os avanços em LLMs recentemente revelaram desafios ligados à eficiência computacional e escalabilidade contínua devido aos seus requisitos de enormes parâmetros, tornando as aplicações e evolução desses modelos em dispositivos com recursos de computação limitados e cenários que exigem diversas habilidades cada vez mais complicados. Inspirados na modularidade dentro do cérebro humano, há uma crescente tendência de decompor LLMs em vários módulos funcionais, permitindo inferência com parte dos módulos e montagem dinâmica de módulos para lidar com tarefas complexas, como mistura de especialistas. Para destacar a eficiência inerente e a componibilidade da abordagem modular, cunhamos o termo bloco para representar cada módulo funcional, designando a estrutura modularizada como modelos de fundação configuráveis. Neste artigo, oferecemos uma visão abrangente e investigação da construção, utilização e limitação de modelos de fundação configuráveis. Primeiramente, formalizamos os módulos em blocos emergentes - partições funcionais de neurônios que emergem durante a fase de pré-treinamento, e blocos personalizados - blocos construídos por meio de treinamento adicional para melhorar as capacidades e conhecimento dos LLMs. Com base em diversos blocos funcionais, apresentamos ainda quatro operações orientadas a blocos: recuperação e roteamento, fusão, atualização e crescimento. Essas operações permitem a configuração dinâmica de LLMs com base em instruções para lidar com tarefas complexas. Para verificar nossa perspectiva, realizamos uma análise empírica em LLMs amplamente utilizados. Descobrimos que as camadas FFN seguem padrões modulares com especialização funcional de neurônios e partições funcionais de neurônios. Por fim, destacamos várias questões em aberto e direções para pesquisas futuras. No geral, este artigo tem como objetivo oferecer uma nova perspectiva modular sobre a pesquisa existente em LLMs e inspirar a criação futura de modelos fundamentais mais eficientes e escaláveis.
Apresentamos o Open-MAGVIT2, uma família de modelos de geração de imagens auto-regressivos variando de 300M a 1.5B. O projeto Open-MAGVIT2 produz uma replicação de código aberto do tokenizador MAGVIT-v2 do Google, um tokenizador com um codebook super grande (ou seja, 2^{18} códigos), e alcança o desempenho de reconstrução de última geração (1.17 rFID) no ImageNet 256 vezes 256. Além disso, exploramos sua aplicação em modelos auto-regressivos simples e validamos propriedades de escalabilidade. Para auxiliar modelos auto-regressivos na previsão com um vocabulário super grande, o dividimos em duas subvocabulários de tamanhos diferentes por meio de uma fatorização de token assimétrica, e introduzimos ainda a "próxima previsão de sub-token" para aprimorar a interação de sub-tokens para uma melhor qualidade de geração. Disponibilizamos todos os modelos e códigos para fomentar a inovação e criatividade no campo da geração visual auto-regressiva.
O mecanismo global de autoatenção nos transformadores de difusão envolve computação redundante devido à natureza esparsa e redundante das informações visuais, e o mapa de atenção dos tokens dentro de uma janela espacial mostra uma similaridade significativa. Para lidar com essa redundância, propomos o Transformador de Difusão de Token de Proxy (PT-DiT), que emprega atenção a tokens representativos esparsos (onde o número de tokens representativos é muito menor que o número total de tokens) para modelar informações visuais globais de forma eficiente. Especificamente, em cada bloco do transformador, amostramos aleatoriamente um token de cada janela espaço-temporal para servir como um token de proxy para aquela região. A semântica global é capturada por meio da autoatenção desses tokens de proxy e então injetada em todos os tokens latentes via interatenção. Simultaneamente, introduzimos atenção de janela e atenção de deslocamento de janela para lidar com as limitações no modelamento detalhado causadas pelo mecanismo de atenção esparsa. Com base no bem projetado PT-DiT, desenvolvemos ainda a família Qihoo-T2X, que inclui uma variedade de modelos para tarefas T2I, T2V e T2MV. Resultados experimentais mostram que o PT-DiT alcança desempenho competitivo ao reduzir a complexidade computacional em tarefas de geração de imagens e vídeos (por exemplo, uma redução de 48% em comparação com o DiT e uma redução de 35% em comparação com o Pixart-alpha). Nosso código-fonte está disponível em https://github.com/360CVGroup/Qihoo-T2X.
A reconstrução de modelos humanos 3D realistas a partir de imagens monoculares tem aplicações significativas nas indústrias criativas, interfaces humano-computador e saúde. Baseamos nosso trabalho em Splatting Gaussiano 3D (3DGS), uma representação de cena composta por uma mistura de gaussianas. Prever tais misturas para um humano a partir de uma única imagem de entrada é desafiador, pois trata-se de uma densidade não uniforme (com uma relação de muitos para um com pixels de entrada) com rigorosas restrições físicas. Ao mesmo tempo, precisa ser flexível para acomodar uma variedade de roupas e poses. Nossa observação chave é que os vértices de malhas humanas padronizadas (como SMPL) podem fornecer uma densidade adequada e posição inicial aproximada para as gaussianas. Podemos então treinar um modelo transformador para prever conjuntamente ajustes comparativamente pequenos a essas posições, bem como os atributos das outras gaussianas e os parâmetros do SMPL. Mostramos empiricamente que essa combinação (usando apenas supervisão multi-visão) pode alcançar uma inferência rápida de modelos humanos 3D a partir de uma única imagem sem otimização em tempo de teste, modelos de difusão caros ou supervisão de pontos 3D. Também demonstramos que pode melhorar a estimativa de pose 3D ao ajustar melhor modelos humanos que consideram roupas e outras variações. O código está disponível no site do projeto https://abdullahamdi.com/gst/.
As habilidades dos modelos de linguagem de longo contexto (LMs) são frequentemente avaliadas usando o teste "Agulha no Palheiro" (NIAH), que compreende tarefas projetadas para avaliar a capacidade de um modelo de identificar informações específicas ("agulha") dentro de sequências de texto extensas ("palheiro"). Enquanto essas referências medem o quão bem os modelos entendem sequências de entrada de longo contexto, elas não avaliam efetivamente a qualidade da geração de texto de longo formato - um aspecto crítico para aplicações como propostas de design e escrita criativa. Para abordar essa lacuna, introduzimos um novo referencial de avaliação de texto de longo formato, Girando o Fio de Ouro (SGT), que testa a capacidade dos modelos de identificar eventos específicos dentro de sequências longas de texto geradas. Neste referencial, solicitamos que LMs de longo contexto criem textos de longo formato que devem incluir eventos ou restrições específicas e avaliamos sua capacidade de incorporar esses elementos. Avaliamos dez LMs de longo contexto em quatro cenários distintos, três tipos de instruções de prompt e duas configurações diferentes de comprimento de geração (16K e 32K). Embora esses modelos tenham um bom desempenho nos testes NIAH, nenhum demonstrou um desempenho satisfatório no Girando o Fio de Ouro, levantando preocupações sobre sua capacidade de gerar textos de longo formato coerentes que sigam as instruções. Além disso, à medida que o comprimento do texto gerado aumenta, todos os modelos apresentam uma queda significativa no desempenho.