Artigos de pesquisa em IA selecionados diariamente com traduções
Grandes Modelos de Visão e Linguagem (VLMs) oferecem desempenho excepcional, mas exigem recursos computacionais significativos, limitando sua implantação em dispositivos móveis e de borda. VLMs menores geralmente replicam escolhas de design de modelos maiores, como a extensa tokenização de imagens, resultando em uso ineficiente de memória GPU e praticidade limitada para aplicações em dispositivos. Apresentamos o SmolVLM, uma série de modelos multimodais compactos especificamente projetados para inferência com eficiência de recursos. Exploramos sistematicamente configurações arquitetônicas, estratégias de tokenização e curadoria de dados otimizadas para baixa sobrecarga computacional. Com isso, identificamos escolhas de design fundamentais que proporcionam ganhos substanciais de desempenho em tarefas de imagem e vídeo com pegadas de memória mínimas. Nosso menor modelo, o SmolVLM-256M, utiliza menos de 1GB de memória GPU durante a inferência e supera o modelo Idefics-80B, que é 300 vezes maior, apesar de uma diferença de desenvolvimento de 18 meses. Nosso maior modelo, com 2,2 bilhões de parâmetros, rivaliza com VLMs de última geração que consomem o dobro da memória GPU. Os modelos SmolVLM vão além de imagens estáticas, demonstrando capacidades robustas de compreensão de vídeo. Nossos resultados enfatizam que otimizações arquitetônicas estratégicas, tokenização agressiva porém eficiente e dados de treinamento cuidadosamente curados melhoram significativamente o desempenho multimodal, facilitando implantações práticas e energeticamente eficientes em escalas significativamente menores.
Os Transformers atuais ainda enfrentam dificuldades para gerar vídeos de um minuto porque as camadas de self-attention são ineficientes para contextos longos. Alternativas como as camadas Mamba lutam com histórias complexas de múltiplas cenas porque seus estados ocultos são menos expressivos. Nós experimentamos com camadas de Test-Time Training (TTT), cujos estados ocultos podem ser redes neurais, tornando-os mais expressivos. A adição de camadas TTT a um Transformer pré-treinado permite que ele gere vídeos de um minuto a partir de storyboards de texto. Para prova de conceito, criamos um conjunto de dados baseado em desenhos animados de Tom e Jerry. Em comparação com baselines como Mamba~2, Gated DeltaNet e camadas de atenção com janela deslizante, as camadas TTT geram vídeos muito mais coerentes que contam histórias complexas, liderando por 34 pontos Elo em uma avaliação humana de 100 vídeos por método. Embora promissores, os resultados ainda contêm artefatos, provavelmente devido à capacidade limitada do modelo pré-treinado de 5B. A eficiência de nossa implementação também pode ser melhorada. Experimentamos apenas com vídeos de um minuto devido a restrições de recursos, mas a abordagem pode ser estendida para vídeos mais longos e histórias mais complexas. Vídeos de exemplo, código e anotações estão disponíveis em: https://test-time-training.github.io/video-dit
A capacidade de um modelo de linguagem refletir sobre seu próprio raciocínio oferece uma vantagem crucial para resolver problemas complexos. Embora a maioria das pesquisas recentes tenha se concentrado em como essa habilidade se desenvolve durante o aprendizado por reforço, demonstramos que ela começa a surgir muito antes - durante o pré-treinamento do modelo. Para estudar isso, introduzimos erros deliberados em cadeias de pensamento e testamos se o modelo ainda consegue chegar à resposta correta reconhecendo e corrigindo esses erros. Ao acompanhar o desempenho em diferentes estágios de pré-treinamento, observamos que essa capacidade de autocorreção aparece cedo e melhora de forma constante ao longo do tempo. Por exemplo, um modelo OLMo2-7B pré-treinado com 4 trilhões de tokens exibe autocorreção em nossas seis tarefas de autorreflexão.
Estudos recentes demonstraram que o escalonamento de computação em tempo de teste melhora efetivamente o desempenho de modelos de linguagem pequenos (sLMs). No entanto, pesquisas anteriores examinaram principalmente o escalonamento de computação em tempo de teste com um modelo maior adicional como verificador, deixando a autoverificação por sLMs pouco explorada. Neste trabalho, investigamos se sLMs podem confiavelmente autoverificar suas saídas sob escalonamento em tempo de teste. Descobrimos que, mesmo com a destilação de conhecimento de verificadores maiores, os sLMs enfrentam dificuldades em tarefas de verificação que exigem memorização, como cálculos numéricos e verificação de fatos. Para abordar essa limitação, propomos a autoverificação integrada com ferramentas (T1), que delega etapas de verificação que demandam muita memorização para ferramentas externas, como um interpretador de código. Nossa análise teórica mostra que a integração de ferramentas reduz as demandas de memorização e melhora o desempenho do escalonamento em tempo de teste. Experimentos no benchmark MATH demonstram que, com T1, um modelo Llama-3.2 1B sob escalonamento em tempo de teste supera o modelo significativamente maior Llama-3.1 8B. Além disso, T1 generaliza efetivamente tanto para tarefas matemáticas (MATH500) quanto para tarefas intensivas em conhecimento de múltiplos domínios (MMLU-Pro). Nossas descobertas destacam o potencial da integração de ferramentas para melhorar substancialmente as habilidades de autoverificação dos sLMs.
A descrição em nível de região tem como objetivo gerar descrições em linguagem natural para regiões específicas de imagens, destacando suas características distintivas. No entanto, os métodos existentes têm dificuldade em produzir legendas únicas em múltiplas granularidades, limitando sua aplicabilidade no mundo real. Para atender à necessidade de compreensão detalhada em nível de região, introduzimos o conjunto de dados URECA, um conjunto de dados em larga escala projetado para descrição de regiões em múltiplas granularidades. Diferentemente de conjuntos de dados anteriores que se concentram principalmente em objetos salientes, o URECA garante um mapeamento único e consistente entre regiões e legendas, incorporando uma diversidade de objetos, partes e elementos de fundo. Central a isso é um pipeline de curadoria de dados em etapas, onde cada etapa refina progressivamente a seleção de regiões e a geração de legendas. Ao aproveitar Modelos de Linguagem Multimodais de Grande Escala (MLLMs) em cada etapa, nosso pipeline produz legendas distintas e contextualmente fundamentadas, com maior precisão e diversidade semântica. Com base nesse conjunto de dados, apresentamos o URECA, um novo modelo de descrição projetado para codificar efetivamente regiões em múltiplas granularidades. O URECA mantém propriedades espaciais essenciais, como posição e forma, por meio de modificações simples, mas impactantes, nos MLLMs existentes, permitindo descrições de regiões refinadas e semanticamente ricas. Nossa abordagem introduz a modelagem dinâmica de máscaras e um codificador de máscaras de alta resolução para aumentar a singularidade das legendas. Experimentos mostram que o URECA alcança desempenho de ponta no conjunto de dados URECA e generaliza bem para benchmarks existentes de descrição em nível de região.
Os avanços recentes em modelos de linguagem de raciocínio demonstraram desempenho notável em tarefas complexas, mas seus processos extensos de raciocínio em cadeia aumentam a sobrecarga de inferência. Embora a quantização tenha sido amplamente adotada para reduzir o custo de inferência de grandes modelos de linguagem, seu impacto em modelos de raciocínio permanece pouco estudado. Neste estudo, realizamos a primeira investigação sistemática sobre modelos de raciocínio quantizados, avaliando as famílias DeepSeek-R1-Distilled Qwen e LLaMA, que variam de 1,5B a 70B parâmetros, e o QwQ-32B. Nossa investigação abrange quantização de pesos, cache KV e ativações usando algoritmos state-of-the-art em diferentes larguras de bits, com avaliação extensa em benchmarks de raciocínio matemático (AIME, MATH-500), científico (GPQA) e de programação (LiveCodeBench). Nossos resultados revelam que, embora a quantização sem perdas possa ser alcançada com quantização W8A8 ou W4A16, larguras de bits menores introduzem riscos significativos de precisão. Identificamos ainda que o tamanho do modelo, sua origem e a dificuldade da tarefa são determinantes críticos do desempenho. Contrariamente às expectativas, modelos quantizados não exibem aumento no comprimento das saídas. Além disso, o dimensionamento estratégico dos tamanhos dos modelos ou dos passos de raciocínio pode efetivamente melhorar o desempenho. Todos os modelos quantizados e códigos serão disponibilizados em https://github.com/ruikangliu/Quantized-Reasoning-Models.
Apresentamos o VAPO, um framework de Otimização de Políticas Proximais Aumentadas Baseadas em Valor, projetado especificamente para modelos de raciocínio dentro do paradigma baseado em valor. Avaliado no conjunto de dados AIME 2024, o VAPO, construído sobre o modelo pré-treinado Qwen 32B, alcança uma pontuação de ponta de 60,4. Em comparação direta sob configurações experimentais idênticas, o VAPO supera os resultados anteriormente reportados do DeepSeek-R1-Zero-Qwen-32B e do DAPO por mais de 10 pontos. O processo de treinamento do VAPO destaca-se por sua estabilidade e eficiência, atingindo desempenho de ponta em apenas 5.000 passos. Além disso, em múltiplas execuções independentes, nenhuma falha de treinamento ocorre, reforçando sua confiabilidade. Esta pesquisa explora o raciocínio de cadeia de pensamento longa (long-CoT) utilizando um framework de aprendizado por reforço baseado em valor. Identificamos três desafios principais que afetam métodos baseados em valor: viés do modelo de valor, a presença de comprimentos de sequência heterogêneos e a esparsidade dos sinais de recompensa. Por meio de um design sistemático, o VAPO oferece uma solução integrada que efetivamente mitiga esses desafios, permitindo um desempenho aprimorado em tarefas de raciocínio long-CoT.
Modelos de difusão são amplamente utilizados para tarefas de edição de imagens. Os métodos de edição existentes frequentemente projetam um procedimento de manipulação de representação ao curar uma direção de edição no espaço de incorporação de texto ou de pontuação. No entanto, tal procedimento enfrenta um desafio crucial: superestimar a força da edição prejudica a consistência visual, enquanto subestimá-la falha na tarefa de edição. Notavelmente, cada imagem de origem pode exigir uma força de edição diferente, e é custoso buscar uma força apropriada por meio de tentativa e erro. Para abordar esse desafio, propomos o Concept Lancet (CoLan), uma estrutura plug-and-play de princípios zero-shot para manipulação de representação em edição de imagens baseada em difusão. No momento da inferência, decompomos a entrada de origem no espaço latente (incorporação de texto ou pontuação de difusão) como uma combinação linear esparsa das representações dos conceitos visuais coletados. Isso nos permite estimar com precisão a presença de conceitos em cada imagem, o que informa a edição. Com base na tarefa de edição (substituir/adicionar/remover), realizamos um processo personalizado de transplante de conceito para impor a direção de edição correspondente. Para modelar suficientemente o espaço de conceitos, curamos um conjunto de dados de representação conceitual, o CoLan-150K, que contém descrições e cenários diversos de termos e frases visuais para o dicionário latente. Experimentos em múltiplas linhas de base de edição de imagens baseadas em difusão mostram que os métodos equipados com CoLan alcançam desempenho de ponta em eficácia de edição e preservação de consistência.
Apresentamos o LiveVQA, um conjunto de dados coletado automaticamente com o conhecimento visual mais recente da Internet, acompanhado de problemas de VQA sintetizados. O LiveVQA consiste em 3.602 questões visuais de salto único e múltiplos, extraídas de 6 sites de notícias abrangendo 14 categorias, caracterizadas por uma alta coerência entre imagem e texto e informações autênticas. Nossa avaliação em 15 MLLMs (por exemplo, GPT-4o, Gemma-3 e a família Qwen-2.5-VL) demonstra que modelos mais robustos apresentam um desempenho geral superior, com capacidades avançadas de raciocínio visual sendo cruciais para questões complexas de múltiplos saltos. Apesar do excelente desempenho em problemas textuais, modelos equipados com ferramentas como motores de busca ainda mostram lacunas significativas ao lidar com questões visuais que exigem conhecimento visual atualizado, destacando áreas importantes para pesquisas futuras.
O raciocínio é central para a inteligência humana, permitindo a resolução estruturada de problemas em diversas tarefas. Avanços recentes em modelos de linguagem de grande escala (LLMs) têm aprimorado significativamente suas habilidades de raciocínio em domínios aritméticos, de senso comum e simbólicos. No entanto, estender efetivamente essas capacidades para contextos multimodais — onde os modelos devem integrar entradas visuais e textuais — continua sendo um desafio significativo. O raciocínio multimodal introduz complexidades, como lidar com informações conflitantes entre modalidades, o que exige que os modelos adotem estratégias interpretativas avançadas. Abordar esses desafios envolve não apenas algoritmos sofisticados, mas também metodologias robustas para avaliar a precisão e a coerência do raciocínio. Este artigo oferece uma visão geral concisa, porém perspicaz, das técnicas de raciocínio em LLMs textuais e multimodais. Por meio de uma comparação abrangente e atualizada, formulamos claramente os principais desafios e oportunidades de raciocínio, destacando métodos práticos para otimização pós-treinamento e inferência em tempo de teste. Nosso trabalho fornece insights e orientações valiosos, conectando frameworks teóricos e implementações práticas, e estabelece direções claras para pesquisas futuras.
A proliferação de Modelos de Linguagem de Grande Escala (LLMs) acessados por meio de APIs de caixa preta introduz um desafio significativo de confiança: os usuários pagam por serviços com base nas capacidades anunciadas dos modelos (por exemplo, tamanho, desempenho), mas os provedores podem substituir secretamente o modelo especificado por uma alternativa mais barata e de qualidade inferior para reduzir custos operacionais. Essa falta de transparência prejudica a justiça, corrói a confiança e complica a avaliação confiável. Detectar tais substituições é difícil devido à natureza de caixa preta, que normalmente limita a interação a consultas de entrada e saída. Este artigo formaliza o problema de detecção de substituição de modelos em APIs de LLMs. Avaliamos sistematicamente técnicas de verificação existentes, incluindo testes estatísticos baseados em saída, avaliações de benchmarks e análise de probabilidade logarítmica, sob vários cenários realistas de ataque, como quantização de modelos, substituição aleatória e evasão de benchmarks. Nossas descobertas revelam as limitações dos métodos que dependem exclusivamente de saídas de texto, especialmente contra ataques sutis ou adaptativos. Embora a análise de probabilidade logarítmica ofereça garantias mais fortes quando disponível, sua acessibilidade é frequentemente limitada. Concluímos discutindo o potencial de soluções baseadas em hardware, como Ambientes de Execução Confiável (TEEs), como um caminho para a integridade comprovável do modelo, destacando os trade-offs entre segurança, desempenho e adoção por parte dos provedores. O código está disponível em https://github.com/sunblaze-ucb/llm-api-audit.
Os modelos de difusão aproximam a distribuição de remoção de ruído como uma Gaussiana e preveem sua média, enquanto os modelos de correspondência de fluxo reparametrizam a média Gaussiana como velocidade de fluxo. No entanto, eles apresentam desempenho inferior na amostragem com poucos passos devido ao erro de discretização e tendem a produzir cores super-saturadas sob orientação sem classificador (CFG). Para abordar essas limitações, propomos um novo modelo de correspondência de fluxo com mistura Gaussiana (GMFlow): em vez de prever a média, o GMFlow prevê parâmetros dinâmicos de mistura Gaussiana (GM) para capturar uma distribuição de velocidade de fluxo multimodal, que pode ser aprendida com uma perda de divergência KL. Demonstramos que o GMFlow generaliza modelos anteriores de difusão e correspondência de fluxo, onde uma única Gaussiana é aprendida com uma perda de remoção de ruído L_2. Para inferência, derivamos solucionadores GM-SDE/ODE que aproveitam distribuições analíticas de remoção de ruído e campos de velocidade para uma amostragem precisa com poucos passos. Além disso, introduzimos um novo esquema de orientação probabilística que mitiga os problemas de super-saturação da CFG e melhora a qualidade da geração de imagens. Experimentos extensivos demonstram que o GMFlow supera consistentemente as linhas de base de correspondência de fluxo em qualidade de geração, alcançando uma Precisão de 0,942 com apenas 6 passos de amostragem no ImageNet 256x256.
Modelos de Linguagem de Grande Escala Aumentados por Ferramentas (TA-LLMs) têm mostrado potencial em aplicações do mundo real, mas enfrentam desafios ao lidar com consultas incompletas e solicitações fora do escopo. Enquanto as abordagens existentes dependem principalmente de Ajuste Fino Supervisionado com trajetórias de especialistas, propomos o DiaTool-DPO, um método inovador que aprimora as capacidades de diálogo dos TA-LLMs por meio de Otimização Direta de Preferências. Modelamos as interações dos TA-LLMs como um Processo de Decisão de Markov com 5 estados de diálogo distintos e categorizamos as consultas dos usuários em 3 tipos com base em suas trajetórias de transição de estado. Construímos automaticamente conjuntos de dados pareados de trajetórias corretas e incorretas de fluxos de diálogo e introduzimos uma função de perda especializada para controle de diálogo. Nossa avaliação abrangente demonstra que o DiaTool-DPO se aproxima do desempenho do GPT-4 (94,8% na coleta de informações, 91% na rejeição de chamadas de ferramentas) com melhorias substanciais em relação à linha de base (44% e 9,6%, respectivamente), mantendo a funcionalidade principal. Nossa abordagem abre novas possibilidades para o desenvolvimento de TA-LLMs capazes de lidar com diversos cenários do mundo real sem a necessidade de demonstrações adicionais de especialistas ou rotulagem humana.
Apresentamos a metodologia de avaliação, os conjuntos de dados e os resultados do BOP Challenge 2024, a sexta edição de uma série de competições públicas organizadas para capturar o estado da arte na estimativa de pose 6D de objetos e tarefas relacionadas. Em 2024, nosso objetivo foi transicionar o BOP de configurações laboratoriais para cenários do mundo real. Primeiro, introduzimos novas tarefas sem modelo, onde nenhum modelo 3D de objeto está disponível e os métodos precisam integrar objetos apenas a partir de vídeos de referência fornecidos. Segundo, definimos uma nova e mais prática tarefa de detecção de objetos 6D, onde as identidades dos objetos visíveis em uma imagem de teste não são fornecidas como entrada. Terceiro, introduzimos novos conjuntos de dados BOP-H3, gravados com sensores de alta resolução e headsets de AR/VR, que se assemelham de perto a cenários do mundo real. O BOP-H3 inclui modelos 3D e vídeos de integração para suportar tanto tarefas baseadas em modelo quanto sem modelo. Os participantes competiram em sete trilhas de desafio, cada uma definida por uma tarefa, configuração de integração de objetos e grupo de conjuntos de dados. Notavelmente, o melhor método de 2024 para localização 6D baseada em modelo de objetos não vistos (FreeZeV2.1) alcança 22% mais precisão no BOP-Classic-Core do que o melhor método de 2023 (GenFlow), e está apenas 4% atrás do melhor método de 2023 para objetos vistos (GPose2023), embora seja significativamente mais lento (24,9 vs 2,7s por imagem). Um método mais prático de 2024 para essa tarefa é o Co-op, que leva apenas 0,8s por imagem e é 25 vezes mais rápido e 13% mais preciso que o GenFlow. Os métodos têm uma classificação semelhante na detecção 6D e na localização 6D, mas com tempo de execução maior. Na detecção 2D baseada em modelo de objetos não vistos, o melhor método de 2024 (MUSE) alcança uma melhoria relativa de 21% em comparação com o melhor método de 2023 (CNOS). No entanto, a precisão da detecção 2D para objetos não vistos ainda está notavelmente (-53%) atrás da precisão para objetos vistos (GDet2023). O sistema de avaliação online permanece aberto e está disponível em http://bop.felk.cvut.cz/.
Apresentamos o Clinical ModernBERT, um codificador baseado em transformers pré-treinado em larga escala com literatura biomédica, notas clínicas e ontologias médicas, incorporando resumos do PubMed, dados clínicos do MIMIC IV e códigos médicos com suas descrições textuais. Construído sobre o ModernBERT, o atual estado da arte em codificação de texto em linguagem natural, que apresenta melhorias arquitetônicas como embeddings posicionais rotativos (RoPE), Flash Attention e extensão do contexto para até 8.192 tokens, nosso modelo adapta essas inovações especificamente para os domínios biomédico e clínico. O Clinical ModernBERT se destaca na produção de representações semanticamente ricas, especialmente projetadas para tarefas de contexto longo. Validamos isso tanto pela análise de seus pesos pré-treinados quanto por avaliação empírica em um conjunto abrangente de benchmarks de NLP clínico.
A compreensão de cenas 3D a partir de imagens únicas é um problema fundamental na visão computacional, com diversas aplicações subsequentes em gráficos, realidade aumentada e robótica. Embora abordagens baseadas em difusão tenham mostrado potencial, elas frequentemente enfrentam dificuldades em manter a consistência de objetos e cenas, especialmente em cenários complexos do mundo real. Para superar essas limitações, propomos uma abordagem generativa autoregressiva chamada Modelagem de Sequência de Acesso Aleatório Local (LRAS), que utiliza quantização de patches locais e geração de sequências ordenadas aleatoriamente. Ao empregar o fluxo óptico como uma representação intermediária para edição de cenas 3D, nossos experimentos demonstram que o LRAS alcança capacidades de síntese de novas vistas e manipulação de objetos 3D de última geração. Além disso, mostramos que nosso framework se estende naturalmente à estimativa de profundidade auto-supervisionada por meio de uma simples modificação no design da sequência. Ao obter um desempenho robusto em múltiplas tarefas de compreensão de cenas 3D, o LRAS fornece um framework unificado e eficaz para a construção da próxima geração de modelos de visão 3D.
Apresentamos uma abordagem inovadora para treinar modelos de linguagem pequenos para tarefas intensivas de raciocínio em classificação de documentos, que combina destilação de conhecimento com otimização por aprendizado por reforço. Enquanto os métodos existentes frequentemente dependem de anotações humanas dispendiosas ou de grandes modelos de linguagem de caixa preta, nossa metodologia aproveita dados da web e um modelo de linguagem professor (LLM) para gerar automaticamente exemplos de treinamento de alta qualidade com explicações de relevância. Ao enquadrar a classificação de documentos como um problema de aprendizado por reforço e incentivar capacidades explícitas de raciocínio, treinamos um modelo de linguagem compacto com 3 bilhões de parâmetros que alcança desempenho de ponta no benchmark BRIGHT. Nosso modelo ocupa a terceira posição no ranking, utilizando significativamente menos parâmetros do que outras abordagens, superando modelos que são mais de 20 vezes maiores. Por meio de experimentos extensivos, demonstramos que gerar explicações durante a inferência, em vez de prever diretamente os escores de relevância, permite um raciocínio mais eficaz com modelos de linguagem menores. A natureza auto-supervisionada do nosso método oferece uma solução escalável e interpretável para sistemas modernos de recuperação de informação.
Modelos de Fundação Visual (VFMs) e Modelos Visão-Linguagem (VLMs) têm ganhado destaque na Segmentação Semântica Generalizada de Domínio (DGSS) devido às suas fortes capacidades de generalização. No entanto, os métodos existentes de DGSS frequentemente dependem exclusivamente de VFMs ou VLMs, negligenciando seus pontos fortes complementares. VFMs (por exemplo, DINOv2) se destacam na captura de características de alta granularidade, enquanto VLMs (por exemplo, CLIP) oferecem um alinhamento robusto com texto, mas enfrentam dificuldades com granularidade grossa. Apesar de seus pontos fortes complementares, integrar efetivamente VFMs e VLMs com mecanismos de atenção é desafiador, pois o aumento de tokens de patch complica a modelagem de sequências longas. Para resolver isso, propomos o MFuser, uma nova estrutura de fusão baseada em Mamba que combina eficientemente os pontos fortes de VFMs e VLMs, mantendo uma escalabilidade linear no comprimento da sequência. O MFuser consiste em dois componentes principais: o MVFuser, que atua como um co-adaptador para ajustar conjuntamente os dois modelos, capturando tanto dinâmicas sequenciais quanto espaciais; e o MTEnhancer, um módulo híbrido de atenção-Mamba que refina embeddings de texto incorporando prioridades de imagem. Nossa abordagem alcança uma localidade precisa de características e um forte alinhamento de texto sem incorrer em sobrecarga computacional significativa. Experimentos extensivos demonstram que o MFuser supera significativamente os métodos state-of-the-art em DGSS, alcançando 68,20 mIoU em benchmarks sintético-para-real e 71,87 mIoU em real-para-real. O código está disponível em https://github.com/devinxzhang/MFuser.
O aumento da computação durante o teste tem surgido como uma direção promissora para melhorar o desempenho dos modelos de linguagem, especialmente em cenários onde o ajuste fino do modelo é impraticável ou impossível devido a restrições computacionais ou a pesos de modelos privados. No entanto, os métodos existentes de busca durante o teste que utilizam um modelo de recompensa (RM) frequentemente apresentam degradação na qualidade à medida que a computação escala, devido à superotimização de proxies de recompensa que são inerentemente imperfeitos. Introduzimos o QAlign, uma nova abordagem de alinhamento durante o teste. À medida que escalamos a computação durante o teste, o QAlign converge para a amostragem da distribuição alinhada ótima para cada prompt individual. Ao adotar avanços recentes em cadeias de Markov Monte Carlo para geração de texto, nosso método permite saídas melhor alinhadas sem modificar o modelo subjacente ou mesmo exigir acesso aos logits. Demonstramos a eficácia do QAlign em benchmarks de raciocínio matemático (GSM8K e GSM-Symbolic) usando um RM específico para a tarefa, mostrando melhorias consistentes em relação a métodos existentes de computação durante o teste, como best-of-n e votação majoritária. Além disso, quando aplicado com RMs mais realistas treinados no conjunto de dados de preferências Tulu 3, o QAlign supera a otimização direta de preferências (DPO), best-of-n, votação majoritária e votação majoritária ponderada em uma variedade de conjuntos de dados (GSM8K, MATH500, IFEval, MMLU-Redux e TruthfulQA). Uma solução prática para alinhar modelos de linguagem durante o teste usando computação adicional sem degradação, nossa abordagem expande os limites da capacidade que pode ser obtida de modelos de linguagem prontos para uso sem treinamento adicional.
Modelos de linguagem multimodal de grande escala (MLLMs) se destacam em tarefas de visão e linguagem, mas também apresentam riscos significativos de gerar conteúdo prejudicial, especialmente por meio de ataques de jailbreak. Ataques de jailbreak referem-se a manipulações intencionais que contornam os mecanismos de segurança dos modelos, levando à geração de conteúdo inadequado ou inseguro. Detectar esses ataques é crucial para garantir a implantação responsável de MLLMs. Os métodos existentes de detecção de jailbreak enfrentam três desafios principais: (1) Muitos dependem de estados ocultos ou gradientes do modelo, limitando sua aplicabilidade a modelos de caixa branca, onde o funcionamento interno do modelo é acessível; (2) Envolvem alto custo computacional devido à análise baseada em incerteza, o que limita a detecção em tempo real, e (3) Requerem conjuntos de dados prejudiciais totalmente rotulados, que muitas vezes são escassos em cenários do mundo real. Para abordar esses problemas, introduzimos um framework adaptativo em tempo de teste chamado JAILDAM. Nosso método utiliza uma abordagem baseada em memória guiada por representações de conhecimento inseguro orientadas por políticas, eliminando a necessidade de exposição explícita a dados prejudiciais. Ao atualizar dinamicamente o conhecimento inseguro durante o tempo de teste, nosso framework melhora a generalização para estratégias de jailbreak não vistas, mantendo a eficiência. Experimentos em vários benchmarks de jailbreak de VLM demonstram que o JAILDAM oferece desempenho de ponta na detecção de conteúdo prejudicial, melhorando tanto a precisão quanto a velocidade.
Os grandes modelos de linguagem (LLMs) estão avançando em um ritmo sem precedentes globalmente, com regiões adotando cada vez mais esses modelos para aplicações em seus idiomas primários. A avaliação desses modelos em diversos ambientes linguísticos, especialmente em idiomas de baixo recurso, tornou-se um grande desafio para a academia e a indústria. Os frameworks de avaliação existentes estão desproporcionalmente focados no inglês e em um punhado de idiomas de alto recurso, negligenciando assim o desempenho realista dos LLMs em cenários multilíngues e de menor recurso. Para abordar essa lacuna, apresentamos o GlotEval, um framework leve projetado para avaliação massivamente multilíngue. Suportando sete tarefas principais (tradução automática, classificação de texto, sumarização, geração aberta, compreensão de leitura, rotulagem de sequência e avaliação intrínseca), abrangendo dezenas a centenas de idiomas, o GlotEval destaca o benchmarking multilíngue consistente, modelos de prompt específicos para cada idioma e tradução automática não centrada no inglês. Isso permite um diagnóstico preciso dos pontos fortes e fracos dos modelos em diversos contextos linguísticos. Um estudo de caso de tradução multilíngue demonstra a aplicabilidade do GlotEval para avaliações multilíngues e específicas por idioma.
Modelos de Linguagem de Grande Escala (LLMs) exibem disparidades significativas de desempenho entre idiomas, beneficiando principalmente línguas de alta disponibilidade de recursos enquanto marginalizam aquelas sub-representadas. O Pré-treinamento Contínuo (CPT) surgiu como uma abordagem promissora para lidar com esse desequilíbrio, embora a eficácia relativa de estratégias de dados monolíngues, bilíngues e aumentados com código ainda não esteja clara. Este estudo avalia sistematicamente 36 configurações de CPT envolvendo três modelos base multilingues, abrangendo mais de 30 idiomas categorizados como altruístas, egoístas e estagnados, em diversos níveis de recursos. Nossas descobertas revelam três principais insights: (1) O CPT bilíngue melhora a classificação multilingue, mas frequentemente causa problemas de mistura de idiomas durante a geração. (2) A inclusão de dados de código de programação durante o CPT consistentemente aumenta a precisão da classificação multilingue, beneficiando particularmente idiomas de baixa disponibilidade de recursos, mas introduz uma compensação ao degradar levemente a qualidade da geração. (3) Contrariamente a trabalhos anteriores, observamos desvios substanciais das classificações de idiomas de acordo com seu impacto na transferência interlínguas: idiomas classificados como altruístas frequentemente afetam negativamente idiomas relacionados, idiomas egoístas apresentam comportamento condicional e dependente da configuração, e idiomas estagnados demonstram uma surpreendente adaptabilidade sob certas condições de CPT. Essas interações sutis enfatizam a complexidade do aprendizado de representações multilingues, destacando a importância de estudos sistemáticos sobre classificação de idiomas generalizáveis para orientar futuras estratégias de CPT multilingue.