Artigos de pesquisa em IA selecionados diariamente com traduções
O ajuste fino supervisionado (AFS) e o aprendizado por reforço (AR) são técnicas amplamente utilizadas como técnicas pós-treinamento para modelos fundamentais. No entanto, seus papéis em aprimorar as capacidades de generalização do modelo permanecem incertos. Este artigo estuda a diferença entre AFS e AR na generalização e memorização, com foco em variantes de regras baseadas em texto e variantes visuais. Apresentamos o GeneralPoints, um jogo de cartas de raciocínio aritmético, e adotamos o V-IRL, um ambiente de navegação do mundo real, para avaliar como os modelos treinados com AFS e AR generalizam para variantes não vistas em ambos os domínios textual e visual. Mostramos que o AR, especialmente quando treinado com uma recompensa baseada em resultados, generaliza em variantes baseadas em regras tanto textuais quanto visuais. Por outro lado, o AFS tende a memorizar os dados de treinamento e tem dificuldade em generalizar cenários fora da distribuição. Uma análise adicional revela que o AR melhora as capacidades de reconhecimento visual subjacentes do modelo, contribuindo para sua melhor generalização no domínio visual. Apesar da superioridade na generalização do AR, mostramos que o AFS continua sendo essencial para o treinamento eficaz de AR; o AFS estabiliza o formato de saída do modelo, permitindo que o AR subsequente alcance seus ganhos de desempenho. Essas descobertas demonstram a capacidade do AR de adquirir conhecimento generalizável em tarefas complexas e multimodais.
As crescentes demandas computacionais para treinar grandes modelos de linguagem (LLMs) exigem métodos mais eficientes. O treinamento quantizado apresenta uma solução promissora ao permitir operações aritméticas de baixo bit para reduzir esses custos. Embora a precisão FP8 tenha demonstrado viabilidade, aproveitar o FP4 ainda é um desafio devido a erros significativos de quantização e capacidade representacional limitada. Este trabalho apresenta o primeiro framework de treinamento FP4 para LLMs, abordando esses desafios com duas inovações-chave: um estimador de quantização diferenciável para atualizações precisas de pesos e uma estratégia de fixação e compensação de outliers para evitar a redução de ativação. Para garantir estabilidade, o framework integra um esquema de treinamento de precisão mista e quantização por vetor. Resultados experimentais demonstram que nosso framework FP4 alcança precisão comparável a BF16 e FP8, com degradação mínima, escalando efetivamente para LLMs de 13 bilhões de parâmetros treinados com até 100 bilhões de tokens. Com o surgimento de hardware de próxima geração que suporta FP4, nosso framework estabelece uma base para treinamento eficiente de ultra baixa precisão.
A tokenização é um componente fundamental de grandes modelos de linguagem (LLMs), no entanto, sua influência na escalabilidade e desempenho do modelo não está totalmente explorada. Neste artigo, apresentamos os Transformadores Super-Tokenizados, um novo framework que desacopla os vocabulários de entrada e saída para melhorar o desempenho da modelagem de linguagem. Especificamente, nossa abordagem amplia os vocabulários de entrada para aproveitar tokens de vários gramas. Através de experimentos extensivos, descobrimos uma relação log-linear entre o tamanho do vocabulário de entrada e a perda de treinamento, demonstrando que vocabulários de entrada maiores melhoram consistentemente o desempenho do modelo, independentemente do tamanho do modelo. Usando um vocabulário de entrada grande, alcançamos desempenho comparável a baselines de tamanho dobrado sem custo adicional. Nossas descobertas destacam a importância da tokenização nas leis de escalabilidade e fornecem insights práticos para o design de tokenizers, abrindo caminho para LLMs mais eficientes e poderosos.
Os avanços recentes na geração de conteúdo 3D a partir de texto ou de uma única imagem enfrentam desafios com conjuntos de dados 3D de alta qualidade limitados e inconsistências na geração de múltiplas visualizações 2D. Apresentamos o DiffSplat, um novo framework generativo 3D que gera nativamente splats gaussianos 3D ao domar modelos de difusão texto-imagem em larga escala. Ele se diferencia de modelos generativos 3D anteriores ao utilizar efetivamente priors 2D em escala web, mantendo a consistência 3D em um modelo unificado. Para inicializar o treinamento, um modelo de reconstrução leve é proposto para produzir instantaneamente grades de splats gaussianos de múltiplas visualizações para curadoria escalável de conjuntos de dados. Em conjunto com a perda de difusão regular nessas grades, é introduzida uma perda de renderização 3D para facilitar a coerência 3D em visualizações arbitrárias. A compatibilidade com modelos de difusão de imagem permite adaptações perfeitas de inúmeras técnicas de geração de imagem para o domínio 3D. Experimentos extensivos revelam a superioridade do DiffSplat em tarefas de geração condicionadas a texto e imagem, bem como em aplicações subsequentes. Estudos abrangentes de ablação validam a eficácia de cada escolha de design crítica e fornecem insights sobre o mecanismo subjacente.
A interpretabilidade mecanicista tem como objetivo compreender os mecanismos computacionais subjacentes às capacidades das redes neurais, a fim de alcançar objetivos científicos e de engenharia concretos. O progresso nesse campo promete proporcionar maior segurança sobre o comportamento de sistemas de IA e lançar luz sobre questões científicas empolgantes sobre a natureza da inteligência. Apesar do progresso recente em direção a esses objetivos, existem muitos problemas em aberto no campo que exigem soluções antes que muitos benefícios científicos e práticos possam ser realizados: Nossos métodos requerem melhorias conceituais e práticas para revelar insights mais profundos; devemos descobrir a melhor forma de aplicar nossos métodos em busca de objetivos específicos; e o campo deve lidar com desafios sociotécnicos que influenciam e são influenciados por nosso trabalho. Esta revisão prospectiva discute a fronteira atual da interpretabilidade mecanicista e os problemas em aberto dos quais o campo pode se beneficiar ao priorizar.
A rápida expansão dos Modelos de Linguagem Grandes (LLMs) tem apresentado desafios significativos em relação aos recursos computacionais necessários para ajuste fino e implantação. Avanços recentes em adaptadores de baixa ordem demonstraram sua eficácia no ajuste fino eficiente de parâmetros (PEFT) desses modelos. Este artigo retrospectivo discute de forma abrangente abordagens inovadoras que sinergizam representações de baixa ordem com técnicas de Busca de Arquitetura Neural (NAS), particularmente super-redes de compartilhamento de pesos. Soluções robustas para compressão e ajuste fino de grandes modelos pré-treinados são desenvolvidas ao integrar essas metodologias. Nossa análise destaca o potencial dessas estratégias combinadas para democratizar o uso de LLMs, tornando-os mais acessíveis para implantação em ambientes com recursos limitados. Os modelos resultantes apresentam pegadas de memória reduzidas e tempos de inferência mais rápidos, abrindo caminho para aplicações mais práticas e escaláveis de LLMs. Modelos e código estão disponíveis em https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
Os modelos de linguagem causais têm demonstrado capacidades notáveis, mas seu tamanho apresenta desafios significativos para implantação em ambientes com recursos limitados. A destilação de conhecimento, uma técnica amplamente utilizada para transferir conhecimento de um modelo professor grande para um modelo aluno pequeno, apresenta uma abordagem promissora para compressão de modelos. Um problema significativo remanescente reside nas grandes diferenças entre os modelos professor e aluno, nomeadamente a grande diferença de capacidade, a média de modo e o colapso de modo, que representam barreiras durante a destilação. Para abordar essas questões, introduzimos a Destilação Interpolada Adaptativa Temporal (TAID), uma abordagem de destilação de conhecimento inovadora que interpola dinamicamente as distribuições do aluno e do professor por meio de uma distribuição intermediária adaptativa, deslocando gradualmente da distribuição inicial do aluno para a distribuição do professor. Fornecemos uma análise teórica demonstrando a capacidade do TAID de evitar o colapso de modo e mostramos empiricamente sua eficácia em lidar com a diferença de capacidade, equilibrando a média de modo e o colapso de modo. Nossos experimentos abrangentes demonstram o desempenho superior do TAID em vários tamanhos e arquiteturas de modelos, tanto em ajuste de instrução quanto em cenários de pré-treinamento. Além disso, demonstramos o impacto prático do TAID ao desenvolver dois modelos fundamentais compactos de última geração: TAID-LLM-1.5B para tarefas de linguagem e TAID-VLM-2B para tarefas de visão e linguagem. Esses resultados demonstram a eficácia do TAID na criação de modelos eficientes e de alto desempenho, avançando o desenvolvimento de tecnologias de IA mais acessíveis.
Conhecidas por mais de 1,5 bilhão de pessoas no subcontinente indiano, as línguas indígenas apresentam desafios e oportunidades únicas para a pesquisa em processamento de linguagem natural (PLN) devido ao seu rico patrimônio cultural, diversidade linguística e estruturas complexas. IndicMMLU-Pro é um benchmark abrangente projetado para avaliar Modelos de Linguagem Grandes (LLMs) em línguas indígenas, construído sobre o framework MMLU Pro (Compreensão de Linguagem Multitarefa Massiva). Abrangendo principais línguas como Hindi, Bengali, Gujarati, Marathi, Kannada, Punjabi, Tamil, Telugu e Urdu, nosso benchmark aborda os desafios e oportunidades únicas apresentadas pela diversidade linguística do subcontinente indiano. Este benchmark engloba uma ampla gama de tarefas em compreensão de linguagem, raciocínio e geração, meticulosamente elaboradas para capturar as complexidades das línguas indianas. IndicMMLU-Pro fornece um framework de avaliação padronizado para impulsionar os limites da pesquisa em IA de línguas indígenas, facilitando o desenvolvimento de modelos mais precisos, eficientes e culturalmente sensíveis. Este artigo descreve os princípios de design dos benchmarks, a taxonomia de tarefas e a metodologia de coleta de dados, e apresenta resultados basais de modelos multilíngues de ponta.
Alinhar modelos de linguagem com os valores humanos é crucial, especialmente à medida que se tornam mais integrados à vida cotidiana. Embora os modelos sejam frequentemente adaptados às preferências do usuário, é igualmente importante garantir que estejam alinhados com normas morais e comportamentos em situações sociais do mundo real. Apesar do progresso significativo em idiomas como inglês e chinês, o francês tem recebido pouca atenção nessa área, deixando uma lacuna na compreensão de como os LLMs lidam com o raciocínio moral nesse idioma. Para abordar essa lacuna, apresentamos o Histoires Morales, um conjunto de dados em francês derivado de Histórias Morais, criado por meio de tradução e posteriormente refinado com a ajuda de falantes nativos para garantir precisão gramatical e adaptação ao contexto cultural francês. Também contamos com anotações dos valores morais dentro do conjunto de dados para garantir seu alinhamento com as normas francesas. Histoires Morales abrange uma ampla gama de situações sociais, incluindo diferenças nas práticas de gorjeta, expressões de honestidade em relacionamentos e responsabilidades para com os animais. Para promover pesquisas futuras, também realizamos experimentos preliminares sobre o alinhamento de modelos multilíngues em dados em francês e inglês e a robustez desse alinhamento. Constatamos que, embora os LLMs geralmente estejam alinhados com normas morais humanas por padrão, eles podem ser facilmente influenciados com a otimização de preferências do usuário para dados tanto morais quanto imorais.
Este artigo apresenta o DeepFlow, uma plataforma de IA escalável e serverless projetada para servir eficientemente modelos de linguagem de grande escala (LLMs) em ambientes de nuvem. O DeepFlow aborda desafios-chave como alocação de recursos, eficiência de serviço e latências de inicialização a frio por meio de quatro componentes principais de design. Primeiramente, ele utiliza uma abstração serverless simples chamada de modelo de requisição-trabalho-tarefa, que ajuda a gerenciar cargas de trabalho de IA em tarefas pós-treinamento e de serviço de modelo. Em segundo lugar, constrói um mecanismo de serviço interno chamado FlowServe usando um design inspirado em microkernel, execução centrada em NPU e paralelismo baseado em SPMD para otimizar o serviço de LLM. O sistema também inclui políticas de agendamento inovadoras adaptadas para configurações tanto de PD-desagregadas quanto de PD-colocadas. Com otimizações como pods pré-aquecidos, pré-carregamento de DRAM e NPU-fork, o DeepFlow pode escalar até 64 instâncias em segundos. O DeepFlow está em produção há mais de um ano, operando em um grande cluster de NPU Ascend e fornecendo APIs padrão do setor para ajuste fino, serviço de agente e serviço de modelo aos nossos clientes.