Artigos de pesquisa em IA selecionados diariamente com traduções
O recente lançamento do DeepSeek-R1 demonstrou o imenso potencial do aprendizado por reforço (RL) para aprimorar as capacidades de raciocínio geral de modelos de linguagem de grande escala (LLMs). Embora o DeepSeek-R1 e outros trabalhos subsequentes se concentrem principalmente na aplicação do RL em problemas de programação competitiva e matemática, este artigo introduz o SWE-RL, a primeira abordagem para escalar o raciocínio baseado em RL de LLMs para engenharia de software do mundo real. Utilizando uma recompensa leve baseada em regras (por exemplo, a pontuação de similaridade entre a solução verdadeira e a gerada pelo LLM), o SWE-RL permite que os LLMs recuperem autonomamente os processos de raciocínio e as soluções de um desenvolvedor, aprendendo a partir de extensos dados de evolução de software de código aberto — o registro de todo o ciclo de vida de um software, incluindo seus snapshots de código, alterações de código e eventos como issues e pull requests. Treinado sobre o Llama 3, nosso modelo de raciocínio resultante, o Llama3-SWE-RL-70B, alcança uma taxa de resolução de 41,0% no SWE-bench Verified — uma coleção verificada por humanos de issues reais do GitHub. Até onde sabemos, este é o melhor desempenho relatado para LLMs de médio porte (<100B) até o momento, comparável até mesmo a LLMs proprietários líderes como o GPT-4o. Surpreendentemente, apesar de realizar RL apenas em dados de evolução de software, o Llama3-SWE-RL demonstrou habilidades generalizadas de raciocínio. Por exemplo, ele mostra resultados aprimorados em cinco tarefas fora do domínio, nomeadamente, codificação de funções, uso de bibliotecas, raciocínio sobre código, matemática e compreensão geral de linguagem, enquanto uma linha de base de ajuste fino supervisionado até leva a uma degradação média no desempenho. No geral, o SWE-RL abre uma nova direção para melhorar as capacidades de raciocínio de LLMs por meio do aprendizado por reforço em dados massivos de engenharia de software.
Os avanços recentes em modelos de linguagem multimodal de código aberto (MLLMs) têm se concentrado principalmente no aprimoramento de capacidades fundamentais, deixando uma lacuna significativa no alinhamento com as preferências humanas. Este artigo apresenta o OmniAlign-V, um conjunto de dados abrangente de 200 mil amostras de treinamento de alta qualidade, caracterizadas por imagens diversas, perguntas complexas e formatos variados de respostas, para melhorar o alinhamento dos MLLMs com as preferências humanas. Também apresentamos o MM-AlignBench, um benchmark anotado por humanos projetado especificamente para avaliar o alinhamento dos MLLMs com os valores humanos. Os resultados experimentais mostram que o ajuste fino de MLLMs com o OmniAlign-V, utilizando Ajuste Fino Supervisionado (SFT) ou Otimização de Preferência Direta (DPO), melhora significativamente o alinhamento com as preferências humanas, mantendo ou aprimorando o desempenho em benchmarks padrão de VQA, preservando suas capacidades fundamentais. Nossos conjuntos de dados, benchmark, código e checkpoints foram disponibilizados em https://github.com/PhoenixZ810/OmniAlign-V.
Uma implementação eficiente de atenção é essencial para modelos grandes devido à sua complexidade de tempo quadrática. Felizmente, a atenção comumente exibe esparsidade, ou seja, muitos valores no mapa de atenção estão próximos de zero, permitindo a omissão de cálculos correspondentes. Muitos estudos têm utilizado o padrão esparso para acelerar a atenção. No entanto, a maioria dos trabalhos existentes se concentra em otimizar a atenção dentro de modelos específicos, explorando certos padrões esparsos do mapa de atenção. Uma atenção esparsa universal que garanta tanto a aceleração quanto o desempenho de ponta a ponta de diversos modelos ainda é um desafio. Neste artigo, propomos o SpargeAttn, uma atenção esparsa e quantizada universal para qualquer modelo. Nosso método utiliza um filtro online de dois estágios: no primeiro estágio, prevemos rapidamente e com precisão o mapa de atenção, permitindo a omissão de algumas multiplicações de matrizes na atenção. No segundo estágio, projetamos um filtro online consciente do softmax que não gera sobrecarga adicional e omite ainda mais algumas multiplicações de matrizes. Experimentos mostram que nosso método acelera significativamente diversos modelos, incluindo geração de linguagem, imagem e vídeo, sem sacrificar métricas de ponta a ponta. Os códigos estão disponíveis em https://github.com/thu-ml/SpargeAttn.
A consistência do fundo continua sendo um desafio significativo em tarefas de edição de imagens. Apesar dos extensos desenvolvimentos, os trabalhos existentes ainda enfrentam uma troca entre manter a semelhança com a imagem original e gerar conteúdo que se alinhe com o alvo. Aqui, propomos o KV-Edit, uma abordagem sem treinamento que utiliza o cache KV em DiTs para manter a consistência do fundo, onde os tokens de fundo são preservados em vez de regenerados, eliminando a necessidade de mecanismos complexos ou treinamento dispendioso, gerando, por fim, novo conteúdo que se integra perfeitamente ao fundo dentro das regiões fornecidas pelo usuário. Exploramos ainda o consumo de memória do cache KV durante a edição e otimizamos a complexidade de espaço para O(1) usando um método livre de inversão. Nossa abordagem é compatível com qualquer modelo generativo baseado em DiT sem treinamento adicional. Experimentos demonstram que o KV-Edit supera significativamente as abordagens existentes em termos de qualidade de fundo e de imagem, superando até mesmo métodos baseados em treinamento. A página do projeto está disponível em https://xilluill.github.io/projectpages/KV-Edit.
A geração de imagens multicamadas é uma tarefa fundamental que permite aos usuários isolar, selecionar e editar camadas específicas de imagens, revolucionando assim as interações com modelos generativos. Neste artigo, apresentamos o Anonymous Region Transformer (ART), que facilita a geração direta de imagens transparentes multicamadas variáveis com base em um prompt de texto global e um layout de regiões anônimas. Inspirado pela Teoria dos Esquemas, que sugere que o conhecimento é organizado em estruturas (esquemas) que permitem às pessoas interpretar e aprender novas informações vinculando-as a conhecimentos prévios, esse layout de regiões anônimas permite que o modelo generativo determine autonomamente qual conjunto de tokens visuais deve se alinhar com quais tokens de texto, em contraste com o layout semântico previamente dominante para a tarefa de geração de imagens. Além disso, o mecanismo de recorte de regiões por camada, que seleciona apenas os tokens visuais pertencentes a cada região anônima, reduz significativamente os custos de computação de atenção e possibilita a geração eficiente de imagens com numerosas camadas distintas (por exemplo, 50+). Em comparação com a abordagem de atenção completa, nosso método é mais de 12 vezes mais rápido e exibe menos conflitos entre camadas. Adicionalmente, propomos um autoencoder de alta qualidade para imagens transparentes multicamadas que suporta a codificação e decodificação direta da transparência de imagens multicamadas variáveis de forma conjunta. Ao permitir controle preciso e geração escalável de camadas, o ART estabelece um novo paradigma para a criação interativa de conteúdo.
Os rápidos avanços na computação aumentam drasticamente a escala e o custo de treinamento de Modelos de Linguagem de Grande Escala (LLMs). Prever com precisão o desempenho em tarefas subsequentes antes do treinamento do modelo é crucial para uma alocação eficiente de recursos, mas continua sendo um desafio devido a duas restrições principais: (1) o "fenômeno de emergência", no qual as métricas de desempenho em tarefas subsequentes só se tornam significativas após um treinamento extensivo, o que limita a capacidade de usar modelos menores para previsão; (2) Distribuições desiguais de dificuldade das tarefas e a ausência de leis de escalonamento consistentes, resultando em uma variabilidade substancial das métricas. Os métodos existentes de previsão de desempenho sofrem com precisão e confiabilidade limitadas, dificultando a avaliação das capacidades potenciais dos LLMs. Para enfrentar esses desafios, propomos um framework de previsão de desempenho subsequente chamado Clustering-On-Difficulty (COD). O COD primeiro constrói um subconjunto de suporte previsível agrupando tarefas com base em características de dificuldade, excluindo estrategicamente clusters não emergentes e não escaláveis. As pontuações no subconjunto selecionado servem como preditores intermediários eficazes do desempenho subsequente no conjunto completo de avaliação. Com suporte teórico, derivamos uma função de mapeamento que transforma as métricas de desempenho do subconjunto previsível para o conjunto completo de avaliação, garantindo assim uma extrapolação precisa do desempenho subsequente do LLM. O método proposto foi aplicado para prever o escalonamento de desempenho de um LLM de 70B, fornecendo insights acionáveis para a alocação de recursos de treinamento e auxiliando no monitoramento do processo de treinamento. Notavelmente, o COD alcança uma precisão preditiva notável no LLM de 70B ao aproveitar um conjunto de modelos pequenos, demonstrando um desvio médio absoluto de 1,36% em oito benchmarks importantes de avaliação de LLMs.
A experimentação científica, um pilar fundamental do progresso humano, exige rigor em confiabilidade, controle metodológico e interpretabilidade para gerar resultados significativos. Apesar do crescente potencial dos grandes modelos de linguagem (LLMs) em automatizar diferentes aspectos do processo científico, a automação de experimentos rigorosos continua sendo um desafio significativo. Para abordar essa lacuna, propomos o Curie, um framework de agente de IA projetado para incorporar rigor ao processo de experimentação por meio de três componentes principais: um módulo de rigor intra-agente para aprimorar a confiabilidade, um módulo de rigor inter-agente para manter o controle metodológico e um módulo de conhecimento experimental para melhorar a interpretabilidade. Para avaliar o Curie, desenvolvemos um novo benchmark experimental composto por 46 questões em quatro domínios da ciência da computação, derivadas de artigos de pesquisa influentes e projetos de código aberto amplamente adotados. Em comparação com a linha de base mais forte testada, alcançamos uma melhoria de 3,4 vezes na resposta correta às questões experimentais. O Curie está disponível como código aberto em https://github.com/Just-Curieous/Curie.
Estudos recentes exploraram a combinação de diferentes LoRAs para gerar conjuntamente estilo e conteúdo aprendidos. No entanto, os métodos existentes ou falham em preservar efetivamente tanto o sujeito original quanto o estilo simultaneamente ou exigem treinamento adicional. Neste artigo, argumentamos que as propriedades intrínsecas do LoRA podem guiar efetivamente os modelos de difusão na fusão de sujeito e estilo aprendidos. Com base nessa percepção, propomos o K-LoRA, uma abordagem simples, porém eficaz, de fusão de LoRA sem necessidade de treinamento. Em cada camada de atenção, o K-LoRA compara os elementos Top-K em cada LoRA a ser fundido, determinando qual LoRA selecionar para uma fusão ideal. Esse mecanismo de seleção garante que as características mais representativas tanto do sujeito quanto do estilo sejam retidas durante o processo de fusão, equilibrando efetivamente suas contribuições. Resultados experimentais demonstram que o método proposto integra efetivamente as informações de sujeito e estilo aprendidas pelos LoRAs originais, superando abordagens baseadas em treinamento de última geração tanto em resultados qualitativos quanto quantitativos.
Para utilizar informações visuais, o Modelo de Linguagem Multimodal de Grande Escala (MLLM) depende do processo de percepção de seu codificador visual. A completude e a precisão da percepção visual influenciam significativamente a exatidão do raciocínio espacial, da compreensão detalhada e de outras tarefas. No entanto, o MLLM ainda carece da capacidade autônoma de controlar seus próprios processos de percepção visual, por exemplo, revisar seletivamente regiões específicas de uma imagem ou focar em informações relacionadas a categorias específicas de objetos. Neste trabalho, propomos o conceito de Token de Percepção Visual, com o objetivo de capacitar o MLLM com um mecanismo para controlar seus processos de percepção visual. Projetamos dois tipos de Tokens de Percepção Visual, denominados Token de Seleção de Região e Token de Recodificação Visual. Os MLLMs geram esses tokens de forma autônoma, assim como geram texto, e os utilizam para acionar ações adicionais de percepção visual. O Token de Seleção de Região identifica explicitamente regiões específicas em uma imagem que requerem uma percepção adicional, enquanto o Token de Recodificação Visual utiliza seus estados ocultos como sinais de controle para orientar processos adicionais de percepção visual. Experimentos extensivos demonstram as vantagens desses tokens no tratamento do raciocínio espacial, na melhoria da compreensão detalhada e em outras tarefas. Em média, a introdução dos Tokens de Percepção Visual melhora o desempenho de um modelo de 2B em 23,6%, aumentando sua pontuação de 0,572 para 0,708, e até supera um modelo de 7B parâmetros em 13,4% (de 0,624). Confira nosso repositório em https://github.com/yu-rp/VisualPerceptionToken.
A estabilidade do treinamento é um desafio persistente no pré-treinamento de grandes modelos de linguagem (LLMs), especialmente para arquiteturas como Transformers com normalização posterior (Post-Norm), que são propensas a explosão e dissipação de gradientes. Neste artigo, propomos o Desacoplamento Escala-Distribuição (SDD), uma abordagem inovadora que estabiliza o treinamento ao desacoplar explicitamente a escala e a distribuição da matriz de pesos em camadas totalmente conectadas. O SDD aplica um mecanismo de normalização para regular as ativações e um vetor de escala aprendível para manter gradientes bem condicionados, prevenindo efetivamente a explosão e dissipação de gradientes. Essa separação melhora a eficiência da otimização, principalmente em redes profundas, ao garantir a propagação estável de gradientes. Resultados experimentais demonstram que nosso método estabiliza o treinamento em várias arquiteturas de LLMs e supera técnicas existentes em diferentes configurações de normalização. Além disso, o método proposto é leve e compatível com frameworks existentes, tornando-o uma solução prática para estabilizar o treinamento de LLMs. O código está disponível em https://github.com/kaihemo/SDD.
Apresentamos o WebGames, um conjunto abrangente de benchmarks projetado para avaliar agentes de IA de navegação na web de propósito geral por meio de uma coleção de mais de 50 desafios interativos. Esses desafios foram especificamente elaborados para serem simples para humanos, enquanto testam sistematicamente as limitações dos sistemas de IA atuais em interações fundamentais de navegador, processamento avançado de entrada, tarefas cognitivas, automação de fluxos de trabalho e entretenimento interativo. Nosso framework elimina dependências externas por meio de um ambiente de teste hermético, garantindo avaliação reproduzível com soluções de verdade absoluta verificáveis. Avaliamos modelos líderes de visão e linguagem, incluindo GPT-4o, Claude Computer-Use, Gemini-1.5-Pro e Qwen2-VL, em comparação com o desempenho humano. Os resultados revelam uma lacuna substancial de capacidade, com o melhor sistema de IA alcançando apenas 43,1% de taxa de sucesso em comparação com o desempenho humano de 95,7%, destacando limitações fundamentais na capacidade dos sistemas de IA atuais de lidar com padrões comuns de interação na web que os humanos consideram intuitivos. O benchmark está publicamente disponível em webgames.convergence.ai, oferecendo uma implementação leve no lado do cliente que facilita ciclos rápidos de avaliação. Por meio de sua arquitetura modular e especificações padronizadas de desafios, o WebGames fornece uma base robusta para medir o progresso no desenvolvimento de agentes de navegação na web mais capazes.
Motivados pela redução dos custos computacionais e de armazenamento dos LLMs, a compressão de modelos e a compressão do cache KV têm atraído muita atenção dos pesquisadores. No entanto, os métodos atuais enfatizam predominantemente a manutenção do desempenho dos LLMs comprimidos, medido por perplexidade ou precisão simples em tarefas de questionamento de conhecimento de senso comum e raciocínio aritmético básico. Neste blog, apresentamos uma breve revisão dos avanços recentes em LLMs relacionados à geração aumentada por recuperação, raciocínio em múltiplas etapas, ferramentas externas e expressividade computacional, todos os quais aprimoram substancialmente o desempenho dos LLMs. Em seguida, propomos uma hipótese de LLM loteria, sugerindo que, para um determinado LLM e tarefa, existe um LLM loteria menor capaz de produzir o mesmo desempenho do LLM original com a assistência de raciocínio em múltiplas etapas e ferramentas externas. Com base na revisão do progresso atual em LLMs, discutimos e resumimos as capacidades essenciais que o LLM loteria e a compressão do cache KV devem possuir, as quais são atualmente negligenciadas nos métodos existentes.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm experimentado progresso rápido em tarefas de reconhecimento visual nos últimos anos. Dada sua potencial integração em muitas aplicações críticas, é importante compreender as limitações de sua percepção visual. Neste trabalho, investigamos se os MLLMs podem perceber detalhes visuais pequenos com a mesma eficácia que detalhes grandes ao responder perguntas sobre imagens. Observamos que seu desempenho é muito sensível ao tamanho do objeto visual da pergunta e, além disso, mostramos que esse efeito é de fato causal por meio de um estudo de intervenção. Em seguida, estudamos os padrões de atenção dos MLLMs ao responder perguntas visuais e, de forma intrigante, descobrimos que eles consistentemente sabem para onde olhar, mesmo quando fornecem a resposta errada. Com base nessas descobertas, propomos métodos de intervenção visual sem treinamento que aproveitam o conhecimento interno de qualquer MLLM, na forma de mapas de atenção e gradientes, para aprimorar sua percepção de detalhes visuais pequenos. Avaliamos nossos métodos propostos em dois MLLMs amplamente utilizados e sete benchmarks de resposta a perguntas visuais, demonstrando que eles podem melhorar significativamente a precisão dos MLLMs sem exigir nenhum treinamento. Nossos resultados elucidam o risco de aplicar MLLMs a tarefas de reconhecimento visual que envolvem detalhes pequenos e indicam que a intervenção visual usando o estado interno do modelo é uma direção promissora para mitigar esse risco.
A geração iterativa de dados e o retreinamento de modelos são amplamente utilizados para alinhar grandes modelos de linguagem (LLMs). Esse processo geralmente envolve um modelo de política para gerar respostas alinhadas à política e um modelo de recompensa para orientar a seleção dos dados de treinamento. A Otimização Direta de Preferências (Direct Preference Optimization - DPO) aprimora ainda mais esse processo ao construir pares de preferências entre respostas escolhidas e rejeitadas. Neste trabalho, buscamos escalar o número de amostras alinhadas à política por meio de amostragem aleatória repetida para melhorar o desempenho de alinhamento. A prática convencional seleciona a amostra com a maior recompensa como escolhida e a com a menor como rejeitada para o DPO. No entanto, nossos experimentos revelam que essa estratégia leva a uma queda no desempenho à medida que o tamanho da amostra aumenta. Para resolver isso, investigamos a construção de dados de preferência sob a perspectiva da distribuição normal subjacente das recompensas das amostras. Categorizamos o espaço de recompensas em sete pontos representativos e exploramos sistematicamente todas as 21 combinações pareadas (C_7^2). Por meio de avaliações em quatro modelos utilizando o AlpacaEval 2, descobrimos que selecionar a resposta rejeitada na posição de recompensa mu - 2sigma, em vez da recompensa mínima, é crucial para o desempenho ideal. Por fim, introduzimos uma estratégia escalável de construção de dados de preferência que melhora consistentemente o desempenho do modelo à medida que a escala de amostras aumenta.
Avaliações de modelos de linguagem de grande escala (LLMs) geralmente dependem de métricas agregadas, como precisão ou preferência humana, calculando médias entre usuários e prompts. Essa média obscurece variações específicas de usuários e prompts no desempenho do modelo. Para abordar isso, propomos o Prompt-to-Leaderboard (P2L), um método que produz rankings específicos para um prompt. A ideia central é treinar um LLM que recebe prompts em linguagem natural como entrada e gera um vetor de coeficientes de Bradley-Terry, que são então usados para prever a votação de preferência humana. Os rankings dependentes de prompt resultantes permitem avaliação específica de tarefas sem supervisão, roteamento ideal de consultas para modelos, personalização e avaliação automatizada de pontos fortes e fracos dos modelos. Dados do Chatbot Arena sugerem que o P2L captura melhor o cenário detalhado do desempenho de modelos de linguagem do que o ranking médio. Além disso, nossos achados indicam que a capacidade do P2L de produzir avaliações específicas para prompts segue uma escala de lei de potência semelhante à observada nos próprios LLMs. Em janeiro de 2025, o roteador que treinamos com base nessa metodologia alcançou o primeiro lugar no ranking do Chatbot Arena. Nosso código está disponível neste link do GitHub: https://github.com/lmarena/p2l.
Neste artigo, apresentamos o LDGen, um método inovador para integrar modelos de linguagem de grande escala (LLMs) em modelos de difusão texto-imagem existentes, minimizando as demandas computacionais. Codificadores de texto tradicionais, como CLIP e T5, apresentam limitações no processamento multilíngue, dificultando a geração de imagens em diversos idiomas. Abordamos esses desafios aproveitando as capacidades avançadas dos LLMs. Nossa abordagem emprega uma estratégia de representação de linguagem que aplica otimização hierárquica de legendas e técnicas de instrução humana para extrair informações semânticas precisas. Posteriormente, incorporamos um adaptador leve e um refinador cross-modal para facilitar o alinhamento eficiente de características e a interação entre LLMs e características de imagem. O LDGen reduz o tempo de treinamento e permite a geração de imagens multilíngue zero-shot. Resultados experimentais indicam que nosso método supera os modelos de referência tanto na aderência ao prompt quanto na qualidade estética da imagem, enquanto suporta perfeitamente múltiplos idiomas. Página do projeto: https://zrealli.github.io/LDGen.
Modelos de fundação auditiva, incluindo grandes modelos de linguagem auditivos (LLMs), processam todas as entradas sonoras de forma igual, independentemente da percepção do ouvinte. No entanto, a percepção auditiva humana é inerentemente seletiva: os ouvintes se concentram em falantes específicos enquanto ignoram outros em cenas auditivas complexas. Os modelos existentes não incorporam essa seletividade, limitando sua capacidade de gerar respostas alinhadas com a percepção. Para abordar isso, introduzimos o Entendimento de Cena Auditiva Informado por Intenção (II-ASU) e apresentamos o Auditory Attention-Driven LLM (AAD-LLM), um sistema protótipo que integra sinais cerebrais para inferir a atenção do ouvinte. O AAD-LLM estende um LLM auditivo ao incorporar gravações de eletroencefalografia intracraniana (iEEG) para decodificar qual falante o ouvinte está atendendo e refinar as respostas de acordo. O modelo primeiro prevê o falante atendido a partir da atividade neural, em seguida, condiciona a geração de respostas com base nesse estado atencional inferido. Avaliamos o AAD-LLM em descrição de falantes, transcrição e extração de fala, e resposta a perguntas em cenários com múltiplos falantes, com avaliações objetivas e subjetivas mostrando uma melhoria no alinhamento com a intenção do ouvinte. Ao dar um primeiro passo em direção à IA auditiva consciente da intenção, este trabalho explora um novo paradigma em que a percepção do ouvinte informa a escuta da máquina, abrindo caminho para futuros sistemas auditivos centrados no ouvinte. Demonstração e código disponíveis em: https://aad-llm.github.io.
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) surgiram como ferramentas transformadoras na inteligência artificial (IA), exibindo capacidades notáveis em diversas tarefas, como geração de texto, raciocínio e tomada de decisões. Embora seu sucesso tenha sido impulsionado principalmente por avanços no poder computacional e nas arquiteturas de aprendizado profundo, problemas emergentes — em áreas como quantificação de incerteza, tomada de decisões, inferência causal e mudanças de distribuição — exigem um engajamento mais profundo com o campo da estatística. Este artigo explora áreas potenciais onde estatísticos podem fazer contribuições importantes para o desenvolvimento de LLMs, especialmente aqueles que visam promover confiabilidade e transparência para usuários humanos. Assim, focamos em questões como quantificação de incerteza, interpretabilidade, justiça, privacidade, marcação d'água e adaptação de modelos. Também consideramos possíveis papéis para LLMs na análise estatística. Ao unir IA e estatística, buscamos promover uma colaboração mais profunda que avance tanto os fundamentos teóricos quanto as aplicações práticas dos LLMs, moldando, em última instância, seu papel na abordagem de desafios sociais complexos.
Modelos de espaço de estados (SSMs), como o Mamba, surgiram como uma alternativa eficiente aos transformers para a modelagem de sequências de contexto longo. No entanto, apesar de sua crescente adoção, os SSMs carecem das ferramentas de interpretabilidade que têm sido cruciais para a compreensão e melhoria das arquiteturas baseadas em atenção. Embora esforços recentes forneçam insights sobre os mecanismos internos do Mamba, eles não decompõem explicitamente as contribuições em nível de token, deixando lacunas na compreensão de como o Mamba processa seletivamente as sequências através das camadas. Neste trabalho, apresentamos o LaTIM, um novo método de decomposição em nível de token para o Mamba-1 e Mamba-2 que permite uma interpretabilidade refinada. Avaliamos extensivamente nosso método em diversas tarefas, incluindo tradução automática, cópia e geração baseada em recuperação, demonstrando sua eficácia em revelar os padrões de interação token-a-token do Mamba.
Apresentamos o Shakti VLM, uma família de modelos de visão e linguagem com capacidades de 1B e 4B de parâmetros, projetados para enfrentar os desafios de eficiência de dados no aprendizado multimodal. Embora os VLMs recentes alcancem um desempenho robusto por meio de grandes volumes de dados de treinamento, os modelos Shakti aproveitam inovações arquitetônicas para obter resultados competitivos com menos tokens. Avanços-chave incluem a QK-Normalização para estabilidade da atenção, técnicas híbridas de normalização e codificação posicional aprimorada. Uma estratégia de treinamento em três etapas otimiza ainda mais a eficiência do aprendizado. As avaliações mostram que o Shakti-VLM-1B e o Shakti-VLM-4B se destacam em compreensão de documentos, raciocínio visual, extração de OCR e raciocínio multimodal geral. Nossos resultados destacam que alto desempenho pode ser alcançado por meio de design de modelo e estratégia de treinamento, em vez de volume massivo de dados, tornando o Shakti uma solução eficiente para tarefas multimodais em escala empresarial.
Apresentamos o WiCkeD, um método simples para aumentar a complexidade de benchmarks de múltipla escolha existentes, substituindo aleatoriamente uma das opções por "Nenhuma das alternativas acima", uma técnica frequentemente utilizada em testes educacionais. Demonstramos que o WiCkeD pode ser aplicado automaticamente a qualquer benchmark existente, tornando-o mais desafiador. Aplicamos o WiCkeD a 6 benchmarks populares e o utilizamos para avaliar 18 LLMs de peso aberto. O desempenho dos modelos cai, em média, 12,1 pontos em relação às versões originais dos conjuntos de dados. Ao utilizar chain-of-thought em 3 conjuntos de dados do MMLU, a queda de desempenho para a variante WiCkeD é semelhante à observada quando os LLMs são usados diretamente, mostrando que o WiCkeD também é desafiador para modelos com habilidades de raciocínio aprimoradas. O WiCkeD também revela que alguns modelos são mais sensíveis ao raciocínio adicional exigido, fornecendo informações complementares em relação aos benchmarks originais. Disponibilizamos nosso código e dados em https://github.com/ahmedselhady/wicked-benchmarks.
Modelos de linguagem modernos dependem de vocabulários estáticos, definidos antes do pré-treinamento, em contraste com a aquisição adaptativa de vocabulário observada no aprendizado de linguagem humana. Para preencher essa lacuna, introduzimos o aprendizado de currículo de vocabulário, uma abordagem que melhora a eficiência do pré-treinamento com ganhos de escala log-linear em relação ao tamanho do vocabulário. Nosso método alterna entre a expansão de vocabulário guiada por entropia e a otimização do modelo, permitindo que os modelos aprendam representações transferíveis em diversas granularidades de tokenização. Essa abordagem naturalmente dá origem a um padrão ótimo de alocação de computação: tokens mais longos capturam conteúdo previsível, enquanto tokens mais curtos se concentram em contextos mais complexos e difíceis de prever. Experimentos com modelos GPT em pequena escala demonstram uma eficiência de escala aprimorada, reforçando a eficácia da tokenização dinâmica. Disponibilizamos nosso código para apoiar pesquisas futuras e planejamos estender nossos experimentos para modelos maiores e diversos domínios.