Artigos de pesquisa em IA selecionados diariamente com traduções
A unificação da compreensão e geração multimodal tem demonstrado capacidades impressionantes em sistemas proprietários de ponta. Neste trabalho, apresentamos o BAGEL, um modelo fundamental de código aberto que suporta nativamente a compreensão e geração multimodal. O BAGEL é um modelo unificado, exclusivamente de decodificação, pré-treinado em trilhões de tokens curados a partir de dados intercalados em grande escala de texto, imagens, vídeos e da web. Quando dimensionado com dados intercalados multimodais tão diversos, o BAGEL exibe capacidades emergentes em raciocínio multimodal complexo. Como resultado, ele supera significativamente os modelos unificados de código aberto tanto na geração quanto na compreensão multimodal em benchmarks padrão, ao mesmo tempo que demonstra habilidades avançadas de raciocínio multimodal, como manipulação livre de imagens, previsão de quadros futuros, manipulação 3D e navegação no mundo. Na esperança de facilitar novas oportunidades para pesquisas multimodais, compartilhamos as principais descobertas, detalhes do pré-treinamento, protocolo de criação de dados, e disponibilizamos nosso código e checkpoints para a comunidade. A página do projeto está em https://bagel-ai.org/.
A eficiência do mecanismo de atenção é crucial devido à sua complexidade de tempo quadrática. Melhoramos a eficiência da atenção por meio de duas contribuições principais: Primeiro, aproveitamos os novos Tensor Cores FP4 nas GPUs Blackwell para acelerar o cálculo da atenção. Nossa implementação alcança 1038 TOPS na RTX5090, o que representa uma aceleração de 5x em relação ao FlashAttention mais rápido na RTX5090. Experimentos mostram que nossa atenção FP4 pode acelerar a inferência de vários modelos de forma plug-and-play. Segundo, somos pioneiros na aplicação de atenção de baixa precisão em tarefas de treinamento. Trabalhos existentes com atenção de baixa precisão, como FlashAttention3 e SageAttention, focam apenas na inferência. No entanto, a eficiência no treinamento de modelos grandes também é importante. Para explorar se a atenção de baixa precisão pode ser efetivamente aplicada a tarefas de treinamento, projetamos uma atenção de 8 bits precisa e eficiente tanto para a propagação direta quanto para a retropropagação. Experimentos indicam que a atenção de 8 bits alcança desempenho sem perdas em tarefas de ajuste fino, mas apresenta convergência mais lenta em tarefas de pré-treinamento. O código estará disponível em https://github.com/thu-ml/SageAttention.
Modelos de recompensa desempenham um papel crucial na orientação de grandes modelos de linguagem para gerar saídas que estejam alinhadas com as expectativas humanas. No entanto, um desafio em aberto permanece na utilização eficaz do poder de computação durante o teste para melhorar o desempenho dos modelos de recompensa. Neste trabalho, introduzimos os Modelos de Raciocínio de Recompensa (RRMs, na sigla em inglês), que são projetados especificamente para executar um processo de raciocínio deliberado antes de gerar recompensas finais. Por meio do raciocínio em cadeia de pensamento, os RRMs aproveitam poder de computação adicional durante o teste para consultas complexas onde as recompensas apropriadas não são imediatamente aparentes. Para desenvolver os RRMs, implementamos uma estrutura de aprendizado por reforço que promove capacidades de raciocínio de recompensa auto-evoluídas, sem exigir traços explícitos de raciocínio como dados de treinamento. Resultados experimentais demonstram que os RRMs alcançam desempenho superior em benchmarks de modelagem de recompensa em diversos domínios. Notavelmente, mostramos que os RRMs podem explorar adaptativamente o poder de computação durante o teste para melhorar ainda mais a precisão das recompensas. Os modelos pré-treinados de raciocínio de recompensa estão disponíveis em https://huggingface.co/Reward-Reasoning.
Os preditores neurosimbólicos (NeSy) combinam percepção neural com raciocínio simbólico para resolver tarefas como raciocínio visual. No entanto, os preditores NeSy padrão assumem independência condicional entre os símbolos que extraem, limitando assim sua capacidade de modelar interações e incertezas - o que frequentemente leva a previsões excessivamente confiantes e a uma generalização deficiente fora da distribuição. Para superar as limitações da suposição de independência, introduzimos os modelos de difusão neurosimbólicos (NeSyDMs), uma nova classe de preditores NeSy que utilizam difusão discreta para modelar dependências entre símbolos. Nossa abordagem reutiliza a suposição de independência dos preditores NeSy em cada etapa do processo de difusão, permitindo aprendizado escalável enquanto captura dependências simbólicas e quantificação de incertezas. Em benchmarks tanto sintéticos quanto do mundo real - incluindo planejamento de trajetória visual de alta dimensionalidade e direção autônoma baseada em regras - os NeSyDMs alcançam precisão de ponta entre os preditores NeSy e demonstram forte calibração.
A escalabilidade do cálculo em tempo de teste é crucial para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs). As abordagens existentes geralmente empregam aprendizado por reforço (RL) para maximizar uma recompensa verificável obtida ao final de trajetórias de raciocínio. No entanto, tais métodos otimizam apenas o desempenho final sob um orçamento grande e fixo de tokens, o que prejudica a eficiência tanto no treinamento quanto na implantação. Neste trabalho, apresentamos uma nova estrutura, o AnytimeReasoner, para otimizar o desempenho de raciocínio em qualquer momento, visando melhorar a eficiência de tokens e a flexibilidade do raciocínio sob restrições variáveis de orçamento de tokens. Para alcançar isso, truncamos o processo completo de pensamento para se ajustar a orçamentos de tokens amostrados de uma distribuição prévia, compelindo o modelo a resumir a resposta ideal para cada pensamento truncado para verificação. Isso introduz recompensas densas verificáveis no processo de raciocínio, facilitando uma atribuição de crédito mais eficaz na otimização de RL. Em seguida, otimizamos as políticas de pensamento e resumo de maneira desacoplada para maximizar a recompensa cumulativa. Além disso, introduzimos uma nova técnica de redução de variância, a Otimização de Política Relativa ao Orçamento (BRPO), para aumentar a robustez e eficiência do processo de aprendizado ao reforçar a política de pensamento. Resultados empíricos em tarefas de raciocínio matemático demonstram que nosso método supera consistentemente o GRPO em todos os orçamentos de pensamento sob várias distribuições prévias, aprimorando tanto o treinamento quanto a eficiência de tokens.
O DeepSeek-R1 demonstrou eficácia notável ao incentivar capacidades de raciocínio e generalização em grandes modelos de linguagem (LLMs) por meio de aprendizado por reforço. No entanto, o potencial da modelagem computacional induzida por raciocínio ainda não foi explorado de forma abrangente no contexto da avaliação de qualidade de imagem (IQA), uma tarefa que depende criticamente de raciocínio visual. Neste artigo, apresentamos o VisualQuality-R1, um modelo de IQA sem referência (NR-IQA) induzido por raciocínio, e o treinamos com aprendizado por reforço para classificação, um algoritmo de aprendizado adaptado à natureza intrinsecamente relativa da qualidade visual. Especificamente, para um par de imagens, empregamos a otimização de política relativa em grupo para gerar múltiplas pontuações de qualidade para cada imagem. Essas estimativas são então usadas para calcular probabilidades comparativas de uma imagem ter qualidade superior à outra sob o modelo de Thurstone. As recompensas para cada estimativa de qualidade são definidas usando medidas contínuas de fidelidade, em vez de rótulos binários discretizados. Experimentos extensivos mostram que o VisualQuality-R1 proposto supera consistentemente modelos NR-IQA baseados em aprendizado profundo discriminativo, bem como um método recente de regressão de qualidade induzido por raciocínio. Além disso, o VisualQuality-R1 é capaz de gerar descrições de qualidade contextualmente ricas e alinhadas com a percepção humana, e suporta treinamento com múltiplos conjuntos de dados sem exigir realinhamento de escala perceptual. Essas características tornam o VisualQuality-R1 especialmente adequado para medir de forma confiável o progresso em uma ampla gama de tarefas de processamento de imagem, como super-resolução e geração de imagens.
Uma tendência importante nos Modelos de Raciocínio de Grande Escala (por exemplo, o o3 da OpenAI) é a capacidade agentiva nativa de utilizar ferramentas externas, como navegadores da web para pesquisa e escrita/execução de código para manipulação de imagens, permitindo pensar com imagens. Na comunidade de pesquisa de código aberto, embora progressos significativos tenham sido feitos em habilidades agentivas exclusivamente baseadas em linguagem, como chamadas de função e integração de ferramentas, o desenvolvimento de capacidades agentivas multimodais que envolvem verdadeiramente pensar com imagens, e seus benchmarks correspondentes, ainda são menos explorados. Este trabalho destaca a eficácia do Ajuste Fino por Reforço Agentivo Visual (Visual-ARFT) para habilitar habilidades de raciocínio flexíveis e adaptativas em Modelos de Linguagem e Visão de Grande Escala (LVLMs). Com o Visual-ARFT, LVLMs de código aberto ganham a capacidade de navegar em sites para atualizações de informações em tempo real e escrever código para manipular e analisar imagens de entrada por meio de técnicas como recorte, rotação e outros métodos de processamento de imagens. Também apresentamos um Banco de Ferramentas Agentivas Multimodais (MAT) com duas configurações (MAT-Search e MAT-Coding) projetadas para avaliar as habilidades agentivas de pesquisa e codificação dos LVLMs. Nossos resultados experimentais demonstram que o Visual-ARFT supera sua linha de base em +18,6% F1 / +13,0% EM no MAT-Coding e +10,3% F1 / +8,7% EM no MAT-Search, ultrapassando o GPT-4o. O Visual-ARFT também alcança ganhos de +29,3% F1 / +25,9% EM em benchmarks existentes de QA multihop, como 2Wiki e HotpotQA, demonstrando fortes capacidades de generalização. Nossas descobertas sugerem que o Visual-ARFT oferece um caminho promissor para a construção de agentes multimodais robustos e generalizáveis.
Transformers, a implementação padrão para modelos de linguagem de grande escala (LLMs), geralmente consistem em dezenas a centenas de camadas discretas. Embora mais camadas possam levar a um melhor desempenho, essa abordagem tem sido questionada como pouco eficiente, especialmente considerando a superioridade das camadas contínuas demonstrada por modelos baseados em difusão e fluxo para geração de imagens. Propomos o Latent Flow Transformer (LFT), que substitui um bloco de camadas por um único operador de transporte aprendido, treinado via correspondência de fluxo, oferecendo uma compressão significativa enquanto mantém a compatibilidade com a arquitetura original. Além disso, abordamos as limitações dos métodos baseados em fluxo existentes na preservação do acoplamento, introduzindo o algoritmo Flow Walking (FW). No modelo Pythia-410M, o LFT treinado com correspondência de fluxo comprime 6 de 24 camadas e supera a omissão direta de 2 camadas (Divergência KL dos logits do LM em 0,407 vs. 0,529), demonstrando a viabilidade desse design. Quando treinado com FW, o LFT destila ainda mais 12 camadas em uma, reduzindo a KL para 0,736, superando a omissão de 3 camadas (0,932), estreitando significativamente a lacuna entre os paradigmas de geração autoregressiva e baseada em fluxo.
Propósito: Com os avanços nos Modelos de Linguagem de Grande Escala (LLMs) para a área da saúde, surge a necessidade de modelos open-source competitivos para proteger o interesse público. Este trabalho contribui para o campo dos LLMs médicos open-source ao otimizar etapas-chave de pré-processamento de dados e treinamento, ao mesmo tempo em que demonstra como melhorar a segurança do modelo (através do DPO) e a eficácia (através do RAG). A metodologia de avaliação utilizada, que inclui quatro tipos diferentes de testes, define um novo padrão para o campo. Os modelos resultantes, que se mostraram competitivos com as melhores alternativas privadas, são disponibilizados com uma licença permissiva. Métodos: Com base em modelos base robustos como Llama 3.1 e Qwen 2.5, o Aloe Beta utiliza um conjunto de dados personalizado para aprimorar dados públicos com exemplos sintéticos de Chain of Thought. Os modelos passam por alinhamento com Otimização de Preferência Direta (DPO), enfatizando desempenho ético e alinhado a políticas na presença de ataques de jailbreaking. A avaliação inclui testes de resposta fechada, aberta, de segurança e avaliações humanas, para maximizar a confiabilidade dos resultados. Resultados: Recomendações são feitas em todo o pipeline, respaldadas pelo sólido desempenho da Família Aloe. Esses modelos apresentam desempenho competitivo em benchmarks de saúde e áreas médicas, sendo frequentemente preferidos por profissionais da área. Em relação a viés e toxicidade, os modelos Aloe Beta melhoram significativamente a segurança, mostrando resiliência a ataques de jailbreaking não vistos anteriormente. Para uma liberação responsável, uma avaliação de risco detalhada específica para a área da saúde é anexada aos modelos da Família Aloe. Conclusão: Os modelos Aloe Beta, e a receita que os gera, representam uma contribuição significativa para o campo dos LLMs médicos open-source, oferecendo desempenho de ponta enquanto mantêm altos requisitos éticos. Este trabalho estabelece um novo padrão para o desenvolvimento e relato de LLMs alinhados na área da saúde.
O aprendizado por reforço (RL) demonstrou recentemente um forte potencial para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs). Especificamente, o RL "Zero" introduzido pelo Deepseek-R1-Zero permite o treinamento direto de LLMs base sem depender de uma etapa intermediária de ajuste fino supervisionado. Apesar desses avanços, os trabalhos atuais sobre raciocínio em LLMs concentram-se principalmente em domínios matemáticos e de codificação, em grande parte devido à abundância de dados e à facilidade de verificação de respostas. Isso limita a aplicabilidade e a generalização desses modelos para domínios mais amplos, onde as perguntas frequentemente têm representações de respostas diversas e os dados são mais escassos. Neste artigo, propomos o General-Reasoner, um novo paradigma de treinamento projetado para aprimorar as capacidades de raciocínio de LLMs em diversos domínios. Nossas principais contribuições incluem: (1) a construção de um conjunto de dados em larga escala e de alta qualidade, com perguntas e respostas verificáveis, curadas por meio de web crawling, abrangendo uma ampla gama de disciplinas; e (2) o desenvolvimento de um verificador de respostas baseado em modelo generativo, que substitui a verificação tradicional baseada em regras pela capacidade de cadeia de pensamento e consciência contextual. Treinamos uma série de modelos e os avaliamos em uma variedade de conjuntos de dados que abrangem domínios amplos como física, química, finanças, eletrônica, entre outros. Nossa avaliação abrangente nesses 12 benchmarks (por exemplo, MMLU-Pro, GPQA, SuperGPQA, TheoremQA, BBEH e MATH AMC) demonstra que o General-Reasoner supera os métodos de linha de base existentes, alcançando um desempenho de raciocínio robusto e generalizável, mantendo uma eficácia superior em tarefas de raciocínio matemático.
Modelos de Raciocínio em Grande Escala (LRMs, na sigla em inglês) recentes demonstraram capacidades de raciocínio substancialmente aprimoradas em comparação com os tradicionais Modelos de Linguagem em Grande Escala (LLMs, na sigla em inglês), ao incorporar processos de pensamento estendidos antes de gerar respostas finais. No entanto, pensamentos excessivamente longos introduzem uma sobrecarga significativa em termos de consumo de tokens e latência, o que é particularmente desnecessário para consultas simples. Neste trabalho, apresentamos os Modelos de Raciocínio Híbrido em Grande Escala (LHRMs, na sigla em inglês), o primeiro tipo de modelo capaz de determinar de forma adaptativa se deve realizar o pensamento com base nas informações contextuais das consultas dos usuários. Para alcançar isso, propomos um pipeline de treinamento em duas etapas, composto por Ajuste Fino Híbrido (HFT, na sigla em inglês) como uma inicialização a frio, seguido por aprendizado por reforço online com a otimização de política de grupo híbrida proposta (HGPO, na sigla em inglês) para aprender implicitamente a selecionar o modo de pensamento apropriado. Além disso, introduzimos uma métrica chamada Acurácia Híbrida para avaliar quantitativamente a capacidade do modelo para o pensamento híbrido. Resultados experimentais extensivos mostram que os LHRMs podem realizar de forma adaptativa o pensamento híbrido em consultas de diferentes dificuldades e tipos. Ele supera os LRMs e LLMs existentes em capacidades de raciocínio e gerais, enquanto melhora significativamente a eficiência. Juntos, nosso trabalho defende uma reconsideração do uso apropriado de processos de pensamento estendidos e fornece um ponto de partida sólido para a construção de sistemas de pensamento híbrido.
Apesar de seus pontos fortes, os grandes modelos de linguagem (LLMs, na sigla em inglês) frequentemente falham em comunicar sua confiança com precisão, tornando difícil avaliar quando eles podem estar errados e limitando sua confiabilidade. Neste trabalho, demonstramos que modelos de raciocínio — LLMs que se engajam em cadeias de pensamento (CoT, na sigla em inglês) estendidas — apresentam desempenho superior não apenas na resolução de problemas, mas também na expressão precisa de sua confiança. Especificamente, avaliamos seis modelos de raciocínio em seis conjuntos de dados e descobrimos que eles alcançam uma calibração de confiança estritamente melhor do que suas contrapartes não baseadas em raciocínio em 33 das 36 configurações. Nossa análise detalhada revela que esses ganhos em calibração decorrem dos comportamentos de "pensamento lento" dos modelos de raciocínio — como explorar abordagens alternativas e retroceder —, que permitem que eles ajustem sua confiança dinamicamente ao longo de sua CoT, tornando-a progressivamente mais precisa. Em particular, observamos que os modelos de raciocínio se tornam cada vez melhor calibrados à medida que sua CoT se desenrola, uma tendência não observada em modelos não baseados em raciocínio. Além disso, a remoção dos comportamentos de pensamento lento da CoT leva a uma queda significativa na calibração. Por fim, mostramos que esses ganhos não são exclusivos dos modelos de raciocínio — modelos não baseados em raciocínio também se beneficiam quando orientados a realizar pensamento lento por meio de aprendizado em contexto.
Modelos de linguagem recentes focados em raciocínio alcançam alta precisão ao gerar caminhos intermediários de raciocínio extensos antes de produzir respostas finais. Embora essa abordagem seja eficaz na resolução de problemas que exigem pensamento lógico, caminhos de raciocínio longos aumentam significativamente o uso de memória e a taxa de geração de tokens, limitando a implantação prática desses modelos. Propomos a Compressão de Caminhos de Raciocínio (RPC, na sigla em inglês), um método livre de treinamento que acelera a inferência ao aproveitar a esparsidade semântica dos caminhos de raciocínio. O RPC comprime periodicamente o cache KV ao reter caches KV que recebem uma pontuação de importância alta, a qual é calculada usando uma janela seletora composta por consultas geradas recentemente. Experimentos mostram que o RPC melhora a taxa de geração do QwQ-32B em até 1,60 vezes em comparação com a inferência usando o cache KV completo, com uma queda de precisão de 1,2% no benchmark AIME 2024. Nossos resultados demonstram que a esparsidade semântica em traços de raciocínio pode ser efetivamente explorada para compressão, oferecendo um caminho prático para a implantação eficiente de LLMs de raciocínio. Nosso código está disponível em https://github.com/jiwonsong-dev/ReasoningPathCompression.
Modelos multimodais de grande escala (LMMs) surgiram recentemente como uma ferramenta poderosa para a compreensão de vídeos longos (LVU), impulsionando o desenvolvimento de benchmarks padronizados de LVU para avaliar seu desempenho. No entanto, nossa investigação revela uma lição bastante contundente sobre os benchmarks de LVU existentes. Primeiro, a maioria dos benchmarks atuais depende fortemente de questões de múltipla escolha (MCQs), cujos resultados de avaliação são inflados devido à possibilidade de adivinhar a resposta correta; segundo, uma parcela significativa das questões nesses benchmarks possui fortes vieses que permitem que os modelos respondam diretamente sem sequer assistir ao vídeo de entrada. Por exemplo, o Gemini-1.5-Pro pode alcançar mais de 50% de precisão ao receber um frame aleatório de um vídeo longo no Video-MME. Também observamos que aumentar o número de frames não necessariamente leva a melhorias nos benchmarks existentes, o que é contraintuitivo. Como resultado, a validade e a robustez dos benchmarks de LVU atuais são comprometidas, impedindo uma avaliação fiel da capacidade de compreensão de vídeos longos dos LMMs. Para resolver esse problema, propomos o VideoEval-Pro, um benchmark realista de LVU contendo questões de resposta curta e aberta, que realmente exigem a compreensão de todo o vídeo. O VideoEval-Pro avalia tanto a compreensão em nível de segmento quanto a compreensão do vídeo completo por meio de tarefas de percepção e raciocínio. Ao avaliar 21 LMMs de vídeo proprietários e de código aberto, concluímos as seguintes descobertas: (1) os LMMs de vídeo apresentam quedas drásticas de desempenho (>25%) em questões abertas em comparação com MCQs; (2) surpreendentemente, pontuações mais altas em MCQs não levam a pontuações mais altas em questões abertas no VideoEval-Pro; (3) em comparação com outros benchmarks de MCQ, o VideoEval-Pro se beneficia mais do aumento do número de frames de entrada. Nossos resultados mostram que o VideoEval-Pro oferece uma medida mais realista e confiável da compreensão de vídeos longos, proporcionando uma visão mais clara do progresso nesse domínio.
A criação inteligente de jogos representa um avanço transformador no desenvolvimento de jogos, utilizando inteligência artificial generativa para gerar e aprimorar dinamicamente o conteúdo dos jogos. Apesar dos progressos notáveis nos modelos generativos, a síntese abrangente de ativos de jogos de alta qualidade, incluindo tanto imagens quanto vídeos, continua sendo uma fronteira desafiadora. Para criar conteúdo de jogos de alta fidelidade que, ao mesmo tempo, esteja alinhado com as preferências dos jogadores e aumente significativamente a eficiência dos designers, apresentamos o Hunyuan-Game, um projeto inovador projetado para revolucionar a produção inteligente de jogos. O Hunyuan-Game abrange dois ramos principais: geração de imagens e geração de vídeos. O componente de geração de imagens é construído sobre um vasto conjunto de dados que compreende bilhões de imagens de jogos, levando ao desenvolvimento de um grupo de modelos personalizados de geração de imagens adaptados para cenários de jogos: (1) Geração Geral de Texto para Imagem. (2) Geração de Efeitos Visuais de Jogos, envolvendo geração de efeitos visuais de jogos baseados em texto e em imagens de referência. (3) Geração de Imagens Transparentes para personagens, cenários e efeitos visuais de jogos. (4) Geração de Personagens de Jogos baseada em esboços, imagens em preto e branco e modelos brancos. O componente de geração de vídeos é construído sobre um conjunto abrangente de dados de milhões de vídeos de jogos e animes, levando ao desenvolvimento de cinco modelos algorítmicos principais, cada um visando pontos críticos de dor no desenvolvimento de jogos e tendo uma robusta adaptação a diversos cenários de vídeos de jogos: (1) Geração de Imagem para Vídeo. (2) Síntese de Vídeo de Avatar com Pose 360 A/T. (3) Geração de Ilustrações Dinâmicas. (4) Super-Resolução de Vídeo Generativa. (5) Geração de Vídeo de Jogo Interativo. Esses modelos de geração de imagens e vídeos não apenas exibem uma expressão estética de alto nível, mas também integram profundamente o conhecimento específico do domínio, estabelecendo uma compreensão sistemática de diversos estilos artísticos de jogos e animes.
O desenvolvimento de capacidades de raciocínio de propósito geral tem sido um problema desafiador na IA há muito tempo. Pesquisas recentes em modelos de linguagem de grande escala (LLMs), como o DeepSeek-R1, mostraram que técnicas de aprendizado por reforço, como o GRPO, podem permitir que LLMs pré-treinados desenvolvam capacidades de raciocínio usando pares simples de perguntas e respostas. Neste artigo, buscamos treinar modelos de linguagem visual (VLMs) para realizar raciocínio em dados de imagem por meio de aprendizado por reforço e pares de perguntas e respostas visuais, sem qualquer supervisão explícita de cadeia de pensamento (CoT). Nossas descobertas indicam que simplesmente aplicar aprendizado por reforço a um VLM — solicitando que o modelo produza uma cadeia de raciocínio antes de fornecer uma resposta — pode levar o modelo a desenvolver atalhos a partir de perguntas fáceis, reduzindo assim sua capacidade de generalização em distribuições de dados não vistas. Argumentamos que a chave para mitigar o aprendizado por atalhos é incentivar o modelo a interpretar as imagens antes de raciocinar. Portanto, treinamos o modelo para aderir a um formato de saída de legenda-raciocínio-resposta: inicialmente gerando uma legenda detalhada para uma imagem, seguida pela construção de uma cadeia de raciocínio extensa. Quando treinado em 273K pares de perguntas e respostas visuais sem CoT e usando apenas aprendizado por reforço, nosso modelo, denominado Visionary-R1, supera modelos multimodais robustos, como GPT-4o, Claude3.5-Sonnet e Gemini-1.5-Pro, em vários benchmarks de raciocínio visual.
A poda de LLMs emergiu como uma tecnologia promissora para a compressão de LLMs, permitindo sua implantação em dispositivos com recursos limitados. No entanto, as metodologias atuais geralmente exigem acesso a amostras de calibração públicas, o que pode ser desafiador de obter em domínios sensíveis à privacidade. Para abordar essa questão, introduzimos o FedPrLLM, uma estrutura abrangente de poda federada projetada para a compressão de LLMs com preservação de privacidade. No FedPrLLM, cada cliente precisa apenas calcular uma matriz de máscara de poda com base em seus dados de calibração locais e compartilhá-la com o servidor para podar o modelo global. Essa abordagem permite a poda colaborativa do modelo global com o conhecimento de cada cliente, mantendo a privacidade dos dados locais. Além disso, realizamos experimentos extensivos para explorar várias possibilidades dentro da estrutura FedPrLLM, incluindo diferentes grupos de comparação, estratégias de poda e a decisão de dimensionar os pesos. Nossa avaliação extensiva revela que a poda única com comparação de camadas e sem dimensionamento de pesos é a escolha ideal dentro da estrutura FedPrLLM. Esperamos que nosso trabalho ajude a orientar futuros esforços na poda de LLMs em campos sensíveis à privacidade. Nosso código está disponível em https://github.com/Pengxin-Guo/FedPrLLM.
A alternância de código (CS, do inglês Code-Switching) representa um desafio significativo para os Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models), mas sua compreensibilidade ainda é pouco explorada nesses modelos. Apresentamos o CS-Sum, uma ferramenta para avaliar a compreensibilidade da CS pelos LLMs por meio da sumarização de diálogos em CS para o inglês. O CS-Sum é o primeiro benchmark para sumarização de diálogos em CS abrangendo os pares Mandarim-Inglês (EN-ZH), Tâmil-Inglês (EN-TA) e Malaio-Inglês (EN-MS), com 900 a 1300 diálogos anotados manualmente por par de idiomas. Avaliando dez LLMs, incluindo modelos de código aberto e fechado, analisamos o desempenho em abordagens de few-shot, tradução-summarização e fine-tuning (LoRA, QLoRA em dados sintéticos). Nossos resultados mostram que, embora as pontuações em métricas automatizadas sejam altas, os LLMs cometem erros sutis que alteram o significado completo do diálogo. Para isso, identificamos os 3 tipos mais comuns de erros que os LLMs cometem ao processar entradas em CS. As taxas de erro variam entre os pares de CS e os LLMs, com alguns modelos apresentando erros mais frequentes em determinados pares de idiomas, destacando a necessidade de treinamento especializado em dados com alternância de código.
A marca d'água invisível em imagens pode proteger a propriedade de imagens e prevenir o uso malicioso de modelos generativos visuais. No entanto, os métodos existentes de marca d'água generativa são principalmente projetados para modelos de difusão, enquanto a marca d'água para modelos de geração de imagens autoregressivos permanece amplamente inexplorada. Propomos o IndexMark, uma estrutura de marca d'água sem necessidade de treinamento para modelos de geração de imagens autoregressivos. O IndexMark é inspirado pela propriedade de redundância do codebook: substituir índices gerados autoregressivamente por índices semelhantes produz diferenças visuais insignificantes. O componente central do IndexMark é um método simples, porém eficaz, de correspondência e substituição, que seleciona cuidadosamente tokens de marca d'água do codebook com base na similaridade de tokens e promove o uso de tokens de marca d'água por meio da substituição de tokens, incorporando assim a marca d'água sem afetar a qualidade da imagem. A verificação da marca d'água é realizada calculando a proporção de tokens de marca d'água nas imagens geradas, com a precisão aprimorada por um Index Encoder. Além disso, introduzimos um esquema de validação auxiliar para aumentar a robustez contra ataques de recorte. Experimentos demonstram que o IndexMark alcança desempenho de ponta em termos de qualidade de imagem e precisão de verificação, além de exibir robustez contra várias perturbações, incluindo recorte, ruídos, desfoque gaussiano, apagamento aleatório, variação de cor e compressão JPEG.
À medida que o tamanho dos grandes modelos de linguagem cresce exponencialmente, a memória da GPU tornou-se um gargalo para adaptar esses modelos a tarefas subsequentes. Neste artigo, buscamos expandir os limites do treinamento eficiente em memória, minimizando o uso de memória em pesos do modelo, gradientes e estados do otimizador, dentro de uma estrutura unificada. Nossa ideia é eliminar tanto os gradientes quanto os estados do otimizador usando otimização de ordem zero, que aproxima os gradientes perturbando os pesos durante as passagens diretas para identificar as direções dos gradientes. Para minimizar o uso de memória nos pesos, empregamos quantização de modelos, por exemplo, convertendo de bfloat16 para int4. No entanto, aplicar diretamente a otimização de ordem zero a pesos quantizados é inviável devido à diferença de precisão entre pesos discretos e gradientes contínuos, o que exigiria desquantização e requantização. Para superar esse desafio, propomos a Otimização de Ordem Zero Quantizada (QZO), uma abordagem inovadora que perturba a escala de quantização contínua para estimar gradientes e utiliza um método de corte de derivada direcional para estabilizar o treinamento. O QZO é ortogonal tanto aos métodos de quantização pós-treinamento baseados em escalares quanto em codebooks. Em comparação com o ajuste fino de parâmetros completos em bfloat16, o QZO pode reduzir o custo total de memória em mais de 18 vezes para LLMs de 4 bits, e permite o ajuste fino de Llama-2-13B e Stable Diffusion 3.5 Large em uma única GPU de 24GB.
Apesar da ampla adoção, os modelos de linguagem multimodal de grande escala (MLLMs) sofrem degradação de desempenho ao encontrar consultas desconhecidas sob mudanças de distribuição. Os métodos existentes para melhorar a generalização dos MLLMs geralmente exigem mais dados de instrução ou arquiteturas de modelos mais avançadas, ambos os quais acarretam custos significativos de mão de obra humana ou computacional. Neste trabalho, adotamos uma abordagem alternativa para aumentar a robustez dos MLLMs sob mudanças de distribuição, a partir de uma perspectiva de aprendizado de representação. Inspirados pelo princípio do gargalo de informação (IB), derivamos um limite inferior variacional do IB para MLLMs e desenvolvemos uma implementação prática, o Ajuste de Gargalo de Instrução Visual (Vittle). Em seguida, fornecemos uma justificativa teórica para o Vittle ao revelar sua conexão com uma métrica de robustez baseada em teoria da informação para MLLMs. A validação empírica de três MLLMs em tarefas de resposta a perguntas abertas e fechadas e detecção de alucinação de objetos em 45 conjuntos de dados, incluindo 30 cenários de mudança, demonstra que o Vittle melhora consistentemente a robustez dos MLLMs sob mudanças ao buscar o aprendizado de uma representação mínima suficiente.
Arquiteturas de Mistura de Especialistas (MoE) dentro de Modelos de Raciocínio de Grande Escala (LRMs) alcançaram capacidades impressionantes de raciocínio ao ativar seletivamente especialistas para facilitar processos cognitivos estruturados. Apesar de avanços notáveis, os modelos de raciocínio existentes frequentemente sofrem com ineficiências cognitivas, como "pensar demais" e "pensar de menos". Para abordar essas limitações, introduzimos uma nova metodologia de direcionamento em tempo de inferência chamada Reforço de Especialistas Cognitivos (RICE), projetada para melhorar o desempenho do raciocínio sem treinamento adicional ou heurísticas complexas. Utilizando a Informação Mútua Pontual Normalizada (nPMI), identificamos sistematicamente especialistas específicos, denominados "especialistas cognitivos", que orquestram operações de raciocínio em nível meta, caracterizadas por tokens como "<think>". Avaliações empíricas com LRMs baseados em MoE líderes (DeepSeek-R1 e Qwen3-235B) em benchmarks rigorosos de raciocínio quantitativo e científico demonstram melhorias perceptíveis e consistentes na precisão do raciocínio, eficiência cognitiva e generalização entre domínios. Crucialmente, nossa abordagem leve supera substancialmente técnicas prevalentes de direcionamento de raciocínio, como design de prompts e restrições de decodificação, enquanto preserva as habilidades gerais de seguir instruções do modelo. Esses resultados destacam o reforço de especialistas cognitivos como uma direção promissora, prática e interpretável para melhorar a eficiência cognitiva em modelos avançados de raciocínio.
Apesar dos avanços impressionantes nos Modelos Visuais-Linguísticos (VLMs) para tarefas multimodais, sua dependência de entradas RGB limita a compreensão espacial precisa. Os métodos existentes para integrar pistas espaciais, como nuvens de pontos ou profundidade, exigem sensores especializados ou falham em explorar efetivamente as informações de profundidade para raciocínios de ordem superior. Para isso, propomos um novo método de Senso e Raciocínio Espacial, denominado SSR, uma estrutura inovadora que transforma dados brutos de profundidade em racionais textuais estruturados e interpretáveis. Esses racionais textuais servem como representações intermediárias significativas para aprimorar substancialmente as capacidades de raciocínio espacial. Além disso, utilizamos a destilação de conhecimento para comprimir os racionais gerados em embeddings latentes compactos, que facilitam a integração eficiente em termos de recursos e plug-and-play em VLMs existentes sem necessidade de retreinamento. Para permitir uma avaliação abrangente, introduzimos um novo conjunto de dados chamado SSR-CoT, um conjunto de dados de raciocínio visual-linguístico em escala de milhões enriquecido com anotações intermediárias de raciocínio espacial, e apresentamos o SSRBench, um benchmark abrangente de múltiplas tarefas. Experimentos extensivos em vários benchmarks demonstram que o SSR melhora substancialmente a utilização da profundidade e aprimora o raciocínio espacial, avançando assim os VLMs em direção a uma compreensão multimodal mais semelhante à humana. Nossa página do projeto está em https://yliu-cs.github.io/SSR.
A busca generativa de IA está transformando a recuperação de informações ao oferecer respostas de ponta a ponta para consultas complexas, reduzindo a dependência dos usuários em navegar e resumir manualmente várias páginas da web. No entanto, embora esse paradigma aumente a conveniência, ele interrompe o ciclo de melhoria baseado em feedback que historicamente impulsionou a evolução da busca tradicional na web. A busca na web pode melhorar continuamente seus modelos de classificação ao coletar feedback em larga escala e granularidade fina (por exemplo, cliques, tempo de permanência) no nível do documento. Em contraste, a busca generativa de IA opera por meio de um pipeline de busca muito mais longo, abrangendo decomposição de consultas, recuperação de documentos e geração de respostas, mas normalmente recebe apenas feedback de granularidade grossa sobre a resposta final. Isso introduz uma desconexão no ciclo de feedback, onde o feedback do usuário para a saída final não pode ser efetivamente mapeado de volta para componentes específicos do sistema, dificultando a melhoria de cada estágio intermediário e a sustentação do ciclo de feedback. Neste artigo, vislumbramos o NExT-Search, um paradigma de próxima geração projetado para reintroduzir feedback granular e em nível de processo na busca generativa de IA. O NExT-Search integra dois modos complementares: o Modo de Depuração do Usuário, que permite que usuários engajados interajam em estágios-chave; e o Modo de Usuário Sombra, onde um agente de usuário personalizado simula as preferências do usuário e fornece feedback assistido por IA para usuários menos interativos. Além disso, vislumbramos como esses sinais de feedback podem ser aproveitados por meio de adaptação online, que refina as saídas de busca atuais em tempo real, e atualização offline, que agrega logs de interação para ajustar periodicamente os modelos de decomposição de consultas, recuperação e geração. Ao restaurar o controle humano sobre estágios-chave do pipeline de busca generativa de IA, acreditamos que o NExT-Search oferece uma direção promissora para a construção de sistemas de busca de IA ricos em feedback que podem evoluir continuamente junto com o feedback humano.
A destilação surgiu como uma abordagem prática e eficaz para aprimorar as capacidades de raciocínio de modelos de linguagem de código aberto. Neste trabalho, realizamos um estudo empírico em larga escala sobre a destilação de dados de raciocínio, coletando saídas verificadas de três modelos professores state-of-the-art - AM-Thinking-v1, Qwen3-235B-A22B e DeepSeek-R1 - em um corpus compartilhado de 1,89 milhão de consultas. Construímos três conjuntos de dados paralelos e analisamos suas distribuições, revelando que os dados destilados do AM-Thinking-v1 exibem maior diversidade no comprimento dos tokens e menor perplexidade. Modelos estudantes treinados em cada conjunto de dados são avaliados em benchmarks de raciocínio, incluindo AIME2024, AIME2025, MATH500 e LiveCodeBench. O modelo baseado no AM consistentemente alcança o melhor desempenho (por exemplo, 84,3 no AIME2024, 72,2 no AIME2025, 98,4 no MATH500 e 65,9 no LiveCodeBench) e demonstra comportamento adaptativo na produção de saídas - gerando respostas mais longas para tarefas mais difíceis e mais curtas para tarefas mais simples. Esses achados destacam o valor de traços de raciocínio verificados e de alta qualidade. Disponibilizamos os conjuntos de dados destilados do AM-Thinking-v1 e Qwen3-235B-A22B para apoiar pesquisas futuras sobre modelos de linguagem de código aberto e de alto desempenho orientados ao raciocínio. Os conjuntos de dados estão publicamente disponíveis no Hugging Face: \href{https://huggingface.co/datasets/a-m-team/AM-Thinking-v1-Distilled{AM-Thinking-v1-Distilled}, https://huggingface.co/datasets/a-m-team/AM-Qwen3-Distilled{AM-Qwen3-Distilled}.}.
À medida que os modelos de linguagem se tornam mais poderosos e sofisticados, é crucial que eles permaneçam confiáveis e seguros. Há evidências preliminares preocupantes de que os modelos podem tentar enganar ou manter segredos de seus operadores. Para explorar a capacidade das técnicas atuais de eliciar esse conhecimento oculto, treinamos um modelo Taboo: um modelo de linguagem que descreve uma palavra secreta específica sem explicitamente mencioná-la. É importante destacar que a palavra secreta não é apresentada ao modelo em seus dados de treinamento ou no prompt. Em seguida, investigamos métodos para descobrir esse segredo. Primeiro, avaliamos abordagens não interpretáveis (caixa-preta). Posteriormente, desenvolvemos estratégias amplamente automatizadas baseadas em técnicas de interpretabilidade mecanicista, incluindo logit lens e autoencoders esparsos. A avaliação mostra que ambas as abordagens são eficazes em eliciar a palavra secreta em nosso cenário de prova de conceito. Nossos resultados destacam o potencial dessas abordagens para eliciar conhecimento oculto e sugerem várias direções promissoras para trabalhos futuros, incluindo testar e refinar esses métodos em organismos-modelo mais complexos. Este trabalho visa ser um passo em direção à resolução do problema crucial de eliciar conhecimento secreto de modelos de linguagem, contribuindo assim para sua implantação segura e confiável.
Apresentamos o Vox-Profile, um benchmark abrangente para caracterizar traços ricos de falantes e fala utilizando modelos de base de fala. Diferente de trabalhos existentes que se concentram em uma única dimensão dos traços do falante, o Vox-Profile oferece perfis holísticos e multidimensionais que refletem tanto traços estáticos do falante (por exemplo, idade, sexo, sotaque) quanto propriedades dinâmicas da fala (por exemplo, emoção, fluência da fala). Este benchmark é fundamentado na ciência da fala e na linguística, desenvolvido com especialistas da área para indexar com precisão as características do falante e da fala. Relatamos experimentos de benchmark utilizando mais de 15 conjuntos de dados de fala publicamente disponíveis e vários modelos de base de fala amplamente utilizados que visam diversas propriedades estáticas e dinâmicas do falante e da fala. Além dos experimentos de benchmark, demonstramos várias aplicações subsequentes suportadas pelo Vox-Profile. Primeiro, mostramos que o Vox-Profile pode ampliar conjuntos de dados existentes de reconhecimento de fala para analisar a variabilidade de desempenho do ASR. O Vox-Profile também é utilizado como uma ferramenta para avaliar o desempenho de sistemas de geração de fala. Por fim, avaliamos a qualidade de nossos perfis automatizados por meio da comparação com avaliação humana e mostramos validade convergente. O Vox-Profile está publicamente disponível em: https://github.com/tiantiaf0627/vox-profile-release.
O Gemini está sendo cada vez mais utilizado para executar tarefas em nome dos usuários, onde as capacidades de chamada de funções e uso de ferramentas permitem que o modelo acesse os dados do usuário. Algumas ferramentas, no entanto, exigem acesso a dados não confiáveis, o que introduz riscos. Adversários podem incorporar instruções maliciosas em dados não confiáveis, fazendo com que o modelo se desvie das expectativas do usuário e manipule incorretamente seus dados ou permissões. Neste relatório, apresentamos a abordagem do Google DeepMind para avaliar a robustez adversária dos modelos Gemini e descrevemos as principais lições aprendidas com o processo. Testamos como o Gemini se comporta contra um adversário sofisticado por meio de um framework de avaliação adversária, que emprega um conjunto de técnicas de ataque adaptativas para operar continuamente contra versões passadas, atuais e futuras do Gemini. Descrevemos como essas avaliações contínuas ajudam diretamente a tornar o Gemini mais resistente à manipulação.
Apesar de seu notável sucesso e implantação em diversos fluxos de trabalho, os modelos de linguagem às vezes produzem respostas não verídicas. Nossa compreensão limitada de como a veracidade é codificada mecanicamente nesses modelos compromete sua confiabilidade e segurança. Neste artigo, propomos um método para identificar representações de veracidade no nível neuronal. Demonstramos que os modelos de linguagem contêm neurônios da verdade, que codificam a veracidade de maneira independente do assunto. Experimentos conduzidos em modelos de diferentes escalas validam a existência desses neurônios, confirmando que a codificação da veracidade no nível neuronal é uma propriedade compartilhada por muitos modelos de linguagem. Os padrões de distribuição dos neurônios da verdade ao longo das camadas estão alinhados com descobertas anteriores sobre a geometria da veracidade. A supressão seletiva das ativações dos neurônios da verdade identificados por meio do conjunto de dados TruthfulQA degrada o desempenho tanto no TruthfulQA quanto em outros benchmarks, mostrando que os mecanismos de veracidade não estão vinculados a um conjunto de dados específico. Nossos resultados oferecem novas perspectivas sobre os mecanismos subjacentes à veracidade em modelos de linguagem e destacam direções potenciais para melhorar sua confiabilidade e segurança.
O ajuste fino por reforço (RFT, do inglês Reinforcement Finetuning) tornou-se uma abordagem padrão para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs, do inglês Large Language Models). No entanto, seu impacto na confiabilidade dos modelos ainda é pouco explorado. Neste trabalho, identificamos e estudamos sistematicamente um efeito colateral crítico do RFT, que denominamos de "taxa de alucinação": uma degradação no comportamento de recusa, fazendo com que os modelos produzam respostas alucinadas para perguntas impossíveis de serem respondidas, de forma confiante. Para investigar isso, introduzimos o SUM (Synthetic Unanswerable Math), um conjunto de dados de alta qualidade de problemas matemáticos impossíveis de resolver, projetado para sondar a capacidade dos modelos de reconhecer uma pergunta impossível de ser respondida ao raciocinar a partir de informações insuficientes ou ambíguas. Nossos resultados mostram que o treinamento padrão com RFT pode reduzir as taxas de recusa dos modelos em mais de 80%, o que aumenta significativamente a tendência dos modelos de alucinar. Além disso, demonstramos que a incorporação de apenas 10% do SUM durante o RFT restaura substancialmente o comportamento adequado de recusa, com trocas mínimas de precisão em tarefas solucionáveis. Crucialmente, essa abordagem permite que os LLMs aproveitem o poder computacional no momento da inferência para raciocinar sobre sua própria incerteza e limites de conhecimento, melhorando a generalização não apenas para problemas matemáticos fora do domínio, mas também para tarefas de resposta a perguntas factuais.
Projetar LLMs (Large Language Models) eficazes com capacidade de raciocínio geralmente requer treinamento utilizando Aprendizado por Reforço com Recompensas Verificáveis (RLVR) ou destilação com Cadeias Longas de Pensamento (CoT) cuidadosamente curadas, ambas as quais dependem fortemente de grandes quantidades de dados de treinamento. Isso cria um grande desafio quando a quantidade de dados de treinamento de qualidade é escassa. Propomos uma estratégia de treinamento em duas etapas, eficiente em termos de amostras, para desenvolver LLMs de raciocínio sob supervisão limitada. Na primeira etapa, "aquecermos" o modelo destilando Long CoTs de um domínio de brinquedo, especificamente, quebra-cabeças lógicos de Cavaleiros e Vigaristas (K&K), para adquirir habilidades gerais de raciocínio. Na segunda etapa, aplicamos RLVR ao modelo aquecido usando um conjunto limitado de exemplos do domínio alvo. Nossos experimentos demonstram que essa abordagem em duas fases oferece vários benefícios: (i) a fase de aquecimento por si só facilita o raciocínio generalizado, levando a melhorias de desempenho em uma variedade de tarefas, incluindo MATH, HumanEval⁺ e MMLU-Pro; (ii) Quando tanto o modelo base quanto o modelo aquecido são treinados com RLVR no mesmo pequeno conjunto de dados (≤100 exemplos), o modelo aquecido consistentemente supera o modelo base; (iii) Aquecer o modelo antes do treinamento com RLVR permite que ele mantenha a generalizabilidade entre domínios mesmo após o treinamento em um domínio específico; (iv) Introduzir o aquecimento no pipeline melhora não apenas a precisão, mas também a eficiência geral de amostras durante o treinamento com RLVR. Os resultados deste artigo destacam o potencial do aquecimento para construir LLMs de raciocínio robustos em ambientes com escassez de dados.
Garantir a segurança de modelos de linguagem de grande escala (LLMs) é crucial para uma implantação responsável, mas as avaliações existentes frequentemente priorizam o desempenho em detrimento da identificação de modos de falha. Apresentamos o Phare, uma estrutura de diagnóstico multilíngue para investigar e avaliar o comportamento de LLMs em três dimensões críticas: alucinação e confiabilidade, vieses sociais e geração de conteúdo prejudicial. Nossa avaliação de 17 LLMs de última geração revela padrões de vulnerabilidades sistemáticas em todas as dimensões de segurança, incluindo sifonância, sensibilidade a prompts e reprodução de estereótipos. Ao destacar esses modos específicos de falha em vez de simplesmente classificar os modelos, o Phare oferece aos pesquisadores e profissionais insights acionáveis para construir sistemas de linguagem mais robustos, alinhados e confiáveis.
Com o rápido avanço dos poderosos modelos de linguagem de grande escala (LLMs) nos últimos anos, uma ampla gama de tarefas de engenharia de software pode agora ser abordada usando LLMs, aumentando significativamente a produtividade e a escalabilidade. Numerosos conjuntos de dados de referência foram desenvolvidos para avaliar as capacidades de codificação desses modelos, embora se concentrem principalmente em tarefas de resolução de problemas e questões. Em contraste, introduzimos um novo benchmark de codificação, o MIGRATION-BENCH, com um foco distinto: migração de código. O MIGRATION-BENCH visa servir como um benchmark abrangente para a migração do Java 8 para as versões mais recentes de suporte de longo prazo (LTS) (Java 17, 21). O MIGRATION-BENCH inclui um conjunto de dados completo e seu subconjunto selecionado com 5.102 e 300 repositórios, respectivamente. O subconjunto selecionado é uma amostra representativa curada por complexidade e dificuldade, oferecendo um recurso versátil para apoiar pesquisas no campo da migração de código. Além disso, fornecemos uma estrutura de avaliação abrangente para facilitar uma avaliação rigorosa e padronizada de LLMs nessa tarefa desafiadora. Propomos ainda o SD-Feedback e demonstramos que os LLMs podem efetivamente lidar com a migração de código em nível de repositório para o Java 17. Para o subconjunto selecionado com o Claude-3.5-Sonnet-v2, o SD-Feedback alcança taxas de sucesso de 62,33% e 27,00% (pass@1) para migração mínima e máxima, respectivamente. O conjunto de dados de benchmark e o código-fonte estão disponíveis em: https://huggingface.co/collections/AmazonScience e https://github.com/amazon-science/self_debug, respectivamente.
O rápido avanço das técnicas de detecção de bugs levou à descoberta de mais vulnerabilidades do que os desenvolvedores podem razoavelmente corrigir, criando uma necessidade urgente de métodos eficazes de Reparo Automatizado de Programas (APR). No entanto, a complexidade dos bugs modernos frequentemente torna a análise precisa da causa raiz difícil e pouco confiável. Para enfrentar esse desafio, propomos o reparo no local da falha (crash-site repair) para simplificar a tarefa de reparo, ao mesmo tempo em que mitiga o risco de exploração. Além disso, introduzimos uma abordagem de geração de patches guiada por templates que reduz significativamente o custo de tokens dos Modelos de Linguagem de Grande Escala (LLMs), mantendo tanto a eficiência quanto a eficácia. Implementamos nosso sistema protótipo, WILLIAMT, e o avaliamos em comparação com as ferramentas de APR mais avançadas. Nossos resultados mostram que, quando combinado com o agente de melhor desempenho, CodeRover-S, o WILLIAMT reduz o custo de tokens em 45,9% e aumenta a taxa de correção de bugs para 73,5% (+29,6%) no ARVO, um benchmark de vulnerabilidades de software de código aberto com base em dados reais. Além disso, demonstramos que o WILLIAMT pode funcionar de forma eficaz mesmo sem acesso a LLMs de ponta: até mesmo um modelo local em execução em um Mac M4 Mini alcança uma taxa de reparo razoável. Esses achados destacam a ampla aplicabilidade e escalabilidade do WILLIAMT.
A mistura esparsa de especialistas (SMoE) oferece uma solução atraente para escalar a complexidade do modelo além do método de aumentar a profundidade ou largura da rede. No entanto, argumentamos que o treinamento eficaz de SMoE permanece desafiador devido ao processo de roteamento subótimo, onde os especialistas que realizam a computação não contribuem diretamente para o processo de roteamento. Neste trabalho, propomos a competição, um mecanismo inovador para direcionar tokens aos especialistas com a maior resposta neural. Teoricamente, mostramos que o mecanismo de competição possui uma melhor eficiência amostral em comparação com o roteamento tradicional por softmax. Além disso, desenvolvemos o CompeteSMoE, um algoritmo simples, porém eficaz, para treinar grandes modelos de linguagem ao implantar um roteador para aprender a política de competição, aproveitando assim um forte desempenho com baixo custo de treinamento. Nossas extensas avaliações empíricas em tarefas de ajuste fino visual e pré-treinamento de linguagem demonstram a eficácia, robustez e escalabilidade do CompeteSMoE em comparação com as estratégias SMoE mais avançadas. Disponibilizamos a implementação em: https://github.com/Fsoft-AIC/CompeteSMoE. Este trabalho é uma versão aprimorada do estudo anterior em arXiv:2402.02526.
À medida que as técnicas de pós-treinamento evoluem, os grandes modelos de linguagem (LLMs) estão sendo cada vez mais aprimorados com habilidades estruturadas de raciocínio em múltiplos passos, frequentemente otimizadas por meio de aprendizado por reforço. Esses modelos com raciocínio aprimorado superam os LLMs padrão em tarefas complexas e agora sustentam muitas APIs comerciais de LLMs. No entanto, para proteger comportamentos proprietários e reduzir a verbosidade, os provedores geralmente ocultam os rastros de raciocínio, retornando apenas a resposta final. Essa opacidade introduz uma lacuna crítica de transparência: os usuários são cobrados por tokens de raciocínio invisíveis, que frequentemente representam a maior parte do custo, mas não têm meios de verificar sua autenticidade. Isso abre caminho para a inflação na contagem de tokens, onde os provedores podem superestimar o uso de tokens ou injetar tokens sintéticos de baixo esforço para inflar os custos. Para resolver esse problema, propomos o CoIn, um framework de verificação que audita tanto a quantidade quanto a validade semântica dos tokens ocultos. O CoIn constrói uma árvore de hash verificável a partir de impressões digitais de embeddings de tokens para verificar a contagem de tokens e usa correspondência de relevância baseada em embeddings para detectar conteúdo de raciocínio fabricado. Experimentos demonstram que o CoIn, quando implantado como um auditor terceirizado confiável, pode detectar efetivamente a inflação na contagem de tokens com uma taxa de sucesso de até 94,7%, mostrando uma forte capacidade de restaurar a transparência na cobrança em serviços opacos de LLMs. O conjunto de dados e o código estão disponíveis em https://github.com/CASE-Lab-UMD/LLM-Auditing-CoIn.
O raciocínio de Modelos de Linguagem de Grande Escala (LLMs) para tarefas complexas envolve, por natureza, uma compensação entre a precisão da solução e a eficiência computacional. A etapa subsequente de verificação, embora tenha o objetivo de melhorar o desempenho, complica ainda mais esse cenário ao introduzir sua própria compensação desafiadora: Modelos de Recompensa Generativos (GenRMs) sofisticados podem ser proibitivamente caros computacionalmente se integrados de forma ingênua com LLMs durante o teste, enquanto métodos mais simples e rápidos podem carecer de confiabilidade. Para superar esses desafios, introduzimos o FlexiVe, um verificador generativo inovador que equilibra de forma flexível os recursos computacionais entre o pensamento rápido e confiável e o pensamento lento e meticuloso, utilizando uma Estratégia de Alocação Flexível de Orçamento de Verificação. Além disso, propomos o pipeline Solve-Detect-Verify, uma estrutura de escalonamento eficiente em tempo de inferência que integra inteligentemente o FlexiVe, identificando proativamente pontos de conclusão da solução para acionar a verificação direcionada e fornecer feedback focado ao resolvedor. Experimentos mostram que o FlexiVe alcança uma precisão superior na identificação de erros dentro de traços de raciocínio no ProcessBench. Além disso, em benchmarks desafiadores de raciocínio matemático (AIME 2024, AIME 2025 e CNMO), nossa abordagem completa supera baselines como a autoconsistência em precisão de raciocínio e eficiência de inferência. Nosso sistema oferece uma solução escalável e eficaz para aprimorar o raciocínio de LLMs durante o teste.
A escala em tempo de teste (TTS) tem se mostrado eficaz para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs). A verificação desempenha um papel fundamental no TTS, influenciando simultaneamente (1) o desempenho do raciocínio e (2) a eficiência computacional, devido à qualidade e ao custo computacional da verificação. Neste trabalho, questionamos os paradigmas convencionais de verificação e fazemos a primeira tentativa de investigar sistematicamente o impacto da granularidade da verificação — ou seja, com que frequência o verificador é invocado durante a geração, indo além da verificação apenas da saída final ou de etapas individuais de geração. Para isso, introduzimos a Busca de Granularidade Variável (VG-Search), um algoritmo unificado que generaliza a busca em feixe (beam search) e a amostragem Best-of-N por meio de um parâmetro de granularidade ajustável g. Experimentos extensivos com VG-Search sob diferentes orçamentos computacionais, configurações gerador-verificador e atributos de tarefa revelam que a seleção dinâmica de g pode melhorar a eficiência computacional e o comportamento de escala. Com base nessas descobertas, propomos estratégias adaptativas de VG-Search que alcançam ganhos de precisão de até 3,1% em relação à Busca em Feixe e 3,6% em relação à Best-of-N, enquanto reduzem os FLOPs em mais de 52%. O código será disponibilizado como open-source para apoiar pesquisas futuras.
Apesar dos avanços significativos nos grandes modelos de linguagem (LLMs), suas capacidades de memorização de conhecimento permanecem pouco exploradas, devido à falta de um terreno de teste padronizado e de alta qualidade. Neste artigo, introduzimos um novo benchmark de injeção de conhecimento em larga escala e do mundo real, que evolui continuamente ao longo do tempo sem exigir intervenção humana. Especificamente, propomos o WikiDYK, que aproveita fatos recentemente adicionados e escritos por humanos das entradas "Você Sabia..." da Wikipedia. Essas entradas são cuidadosamente selecionadas por editores especialistas da Wikipedia com base em critérios como verificabilidade e clareza. Cada entrada é convertida em múltiplos pares de perguntas e respostas que abrangem diversos formatos de tarefas, desde prompts de preenchimento de lacunas simples até perguntas complexas de múltiplos saltos. O WikiDYK contém 12.290 fatos e 77.180 perguntas, sendo também perfeitamente extensível com atualizações futuras dos editores da Wikipedia. Experimentos extensivos usando pré-treinamento contínuo revelam uma percepção surpreendente: apesar de sua prevalência nos LLMs modernos, os Modelos de Linguagem Causais (CLMs) demonstram capacidades de memorização de conhecimento significativamente mais fracas em comparação com os Modelos de Linguagem Bidirecionais (BiLMs), exibindo uma precisão 23% menor em termos de confiabilidade. Para compensar as escalas menores dos BiLMs atuais, introduzimos uma estrutura colaborativa modular que utiliza conjuntos de BiLMs como repositórios externos de conhecimento para integração com LLMs. Experimentos mostram que nossa estrutura melhora ainda mais a precisão de confiabilidade em até 29,1%.
Esta pesquisa oferece uma avaliação única de como os sistemas de IA interpretam a linguagem digital da Geração Alpha (Gen Alpha, nascidos entre 2010 e 2024). Como a primeira coorte criada ao lado da IA, a Gen Alpha enfrenta novas formas de risco online devido ao engajamento digital imersivo e a uma crescente incompatibilidade entre sua comunicação em evolução e as ferramentas de segurança existentes. Sua linguagem distinta, moldada por jogos, memes e tendências impulsionadas pela IA, frequentemente oculta interações prejudiciais tanto de moderadores humanos quanto de sistemas automatizados. Avaliamos quatro modelos líderes de IA (GPT-4, Claude, Gemini e Llama 3) em sua capacidade de detectar assédio e manipulação mascarados dentro do discurso da Gen Alpha. Utilizando um conjunto de dados de 100 expressões recentes de plataformas de jogos, mídias sociais e conteúdo de vídeo, o estudo revela falhas críticas de compreensão com implicações diretas para a segurança online. Este trabalho contribui com: (1) um conjunto de dados inédito que captura expressões da Gen Alpha; (2) um framework para melhorar os sistemas de moderação de IA para a proteção de jovens; (3) uma avaliação multiperspectiva incluindo sistemas de IA, moderadores humanos e pais, com contribuições diretas de co-pesquisadores da Gen Alpha; e (4) uma análise de como a divergência linguística aumenta a vulnerabilidade dos jovens. Os resultados destacam a necessidade urgente de redesenhar sistemas de segurança sintonizados com a comunicação dos jovens, especialmente considerando a relutância da Gen Alpha em buscar ajuda quando os adultos não entendem seu mundo digital. Este estudo combina a visão de um pesquisador da Gen Alpha com uma análise acadêmica sistemática para abordar desafios críticos de segurança digital.
A detecção de viés midiático é uma tarefa crucial para garantir a disseminação de informações justas e equilibradas, mas continua sendo desafiadora devido à subjetividade do viés e à escassez de dados anotados de alta qualidade. Neste trabalho, realizamos a classificação de viés em nível de frase ajustando um modelo baseado em RoBERTa no conjunto de dados BABE, anotado por especialistas. Utilizando o teste de McNemar e o teste t pareado de validação cruzada 5x2, mostramos melhorias estatisticamente significativas no desempenho ao comparar nosso modelo com uma linha de base DA-RoBERTa pré-treinada com adaptação de domínio. Além disso, a análise baseada em atenção mostra que nosso modelo evita armadilhas comuns, como a super sensibilidade a termos politicamente carregados, e, em vez disso, se concentra de forma mais significativa em tokens contextualmente relevantes. Para um exame abrangente do viés midiático, apresentamos um pipeline que combina nosso modelo com um classificador de tipo de viés já existente. Nosso método exibe boa generalização e interpretabilidade, apesar de ser limitado pela análise em nível de frase e pelo tamanho do conjunto de dados, devido à falta de corpora de viés maiores e mais avançados. Discutimos a modelagem consciente do contexto, a neutralização de viés e a classificação avançada de tipos de viés como possíveis direções futuras. Nossas descobertas contribuem para a construção de sistemas de PLN mais robustos, explicáveis e socialmente responsáveis para a detecção de viés midiático.
A detecção de riscos de IA torna-se mais desafiadora à medida que modelos mais poderosos surgem e encontram métodos inovadores, como o Falsificação de Alinhamento, para contornar essas tentativas de detecção. Inspirados pela forma como comportamentos de risco em humanos (ou seja, atividades ilegais que podem prejudicar outros) são às vezes guiados por valores fortemente arraigados, acreditamos que identificar valores dentro de modelos de IA pode ser um sistema de alerta precoce para comportamentos de risco da IA. Criamos o LitmusValues, um pipeline de avaliação para revelar as prioridades dos modelos de IA em uma variedade de classes de valores de IA. Em seguida, coletamos o AIRiskDilemmas, uma coleção diversificada de dilemas que colocam valores em conflito em cenários relevantes para riscos de segurança de IA, como a Busca de Poder. Ao medir a priorização de valores de um modelo de IA usando suas escolhas agregadas, obtemos um conjunto autocoerente de prioridades de valores previstas que revelam potenciais riscos. Mostramos que os valores no LitmusValues (incluindo aqueles aparentemente inócuos, como Cuidado) podem prever tanto comportamentos de risco observados no AIRiskDilemmas quanto comportamentos de risco não observados no HarmBench.
A aprendizagem multimodal aprimora as capacidades perceptivas de sistemas cognitivos ao integrar informações de diferentes modalidades sensoriais. No entanto, pesquisas existentes sobre fusão multimodal geralmente assumem uma integração estática, não incorporando plenamente mecanismos dinâmicos essenciais encontrados no cérebro. Especificamente, o cérebro exibe um fenômeno de efetividade inversa, no qual pistas unimodais mais fracas resultam em benefícios mais significativos de integração multissensorial; inversamente, quando as pistas modais individuais são mais fortes, o efeito da fusão é reduzido. Esse mecanismo permite que sistemas biológicos alcancem cognição robusta mesmo com pistas perceptivas escassas ou ruidosas. Inspirados por esse mecanismo biológico, exploramos a relação entre a saída multimodal e as informações de modalidades individuais, propondo uma estratégia de fusão multimodal guiada por efetividade inversa (IEMF, na sigla em inglês). Ao incorporar essa estratégia em redes neurais, alcançamos uma integração mais eficiente com melhoria no desempenho do modelo e na eficiência computacional, demonstrando uma redução de até 50% nos custos computacionais em diversos métodos de fusão. Realizamos experimentos em tarefas de classificação áudio-visual, aprendizado contínuo e resposta a perguntas para validar nosso método. Os resultados demonstram consistentemente que nosso método tem excelente desempenho nessas tarefas. Para verificar a universalidade e a generalização, também conduzimos experimentos em Redes Neurais Artificiais (ANN) e Redes Neurais Espinhais (SNN), com resultados mostrando boa adaptabilidade a ambos os tipos de rede. Nossa pesquisa enfatiza o potencial de incorporar mecanismos inspirados na biologia em redes multimodais e fornece direções promissoras para o desenvolvimento futuro da inteligência artificial multimodal. O código está disponível em https://github.com/Brain-Cog-Lab/IEMF.
Nos últimos anos, houve um aumento significativo na criação e consumo de conteúdo em vídeo. A elaboração de conteúdo envolvente requer a curadoria cuidadosa de elementos visuais e auditivos. Enquanto a curadoria de pistas visuais, por meio de técnicas como seleção de ponto de vista ideal ou pós-edição, tem sido central na produção de mídia, sua contraparte natural, o áudio, não passou por avanços equivalentes. Isso frequentemente resulta em uma desconexão entre a saliência visual e acústica. Para preencher essa lacuna, introduzimos uma nova tarefa: o destaque acústico guiado visualmente, que visa transformar o áudio para fornecer efeitos de destaque apropriados orientados pelo vídeo acompanhante, criando, em última análise, uma experiência audiovisual mais harmoniosa. Propomos uma estrutura multimodal flexível baseada em transformadores para resolver essa tarefa. Para treinar nosso modelo, também introduzimos um novo conjunto de dados — o conjunto de dados "muddy mix", aproveitando a elaboração meticulosa de áudio e vídeo encontrada em filmes, que fornece uma forma de supervisão gratuita. Desenvolvemos um processo de geração de pseudo-dados para simular áudio mal mixado, imitando cenários do mundo real por meio de um processo de três etapas — separação, ajuste e remixagem. Nossa abordagem supera consistentemente várias linhas de base tanto na avaliação quantitativa quanto na subjetiva. Também estudamos sistematicamente o impacto de diferentes tipos de orientação contextual e níveis de dificuldade do conjunto de dados. Nossa página do projeto está aqui: https://wikichao.github.io/VisAH/.
A Resposta a Perguntas de Múltiplos Saltos (MHQA, na sigla em inglês) adiciona camadas de complexidade à tarefa de responder perguntas, tornando-a mais desafiadora. Quando Modelos de Linguagem (LMs) são confrontados com múltiplos resultados de pesquisa, eles não apenas precisam recuperar informações relevantes, mas também empregar raciocínio de múltiplos saltos entre as fontes de informação. Embora os LMs tenham um bom desempenho em tarefas tradicionais de resposta a perguntas, a máscara causal pode prejudicar sua capacidade de raciocinar em contextos complexos. Neste artigo, exploramos como os LMs respondem a perguntas de múltiplos saltos ao permutar os resultados de pesquisa (documentos recuperados) sob várias configurações. Nosso estudo revela descobertas interessantes, conforme segue: 1) Modelos codificador-decodificador, como os da família Flan-T5, geralmente superam LMs decodificadores apenas causais em tarefas de MHQA, apesar de serem significativamente menores em tamanho; 2) alterar a ordem dos documentos relevantes revela tendências distintas tanto nos modelos Flan T5 quanto nos modelos decodificadores apenas causais ajustados, com o melhor desempenho observado quando a ordem dos documentos está alinhada com a ordem da cadeia de raciocínio; 3) aprimorar modelos decodificadores apenas causais com atenção bidirecional, modificando a máscara causal, pode efetivamente impulsionar seu desempenho final. Além disso, realizamos uma investigação detalhada da distribuição dos pesos de atenção dos LMs no contexto de MHQA. Nossos experimentos revelam que os pesos de atenção tendem a atingir valores mais altos quando a resposta resultante está correta. Aproveitamos essa descoberta para melhorar heuristicamente o desempenho dos LMs nessa tarefa. Nosso código está disponível publicamente em https://github.com/hwy9855/MultiHopQA-Reasoning.
A geolocalização global de imagens - a tarefa de prever coordenadas GPS a partir de imagens capturadas em qualquer lugar da Terra - apresenta um desafio fundamental devido à vasta diversidade de conteúdo visual entre as regiões. Embora abordagens recentes adotem um pipeline de duas etapas para recuperar candidatos e selecionar a melhor correspondência, elas geralmente dependem de heurísticas de similaridade simplistas e supervisão pontual, falhando em modelar relações espaciais entre os candidatos. Neste artigo, propomos o GeoRanker, um framework de classificação consciente da distância que aproveita grandes modelos de visão e linguagem para codificar conjuntamente interações entre consultas e candidatos e prever proximidade geográfica. Além disso, introduzimos uma função de perda de distância de múltiplas ordens que classifica tanto distâncias absolutas quanto relativas, permitindo que o modelo raciocine sobre relações espaciais estruturadas. Para apoiar isso, criamos o GeoRanking, o primeiro conjunto de dados explicitamente projetado para tarefas de classificação geográfica com informações multimodais de candidatos. O GeoRanker alcança resultados de ponta em dois benchmarks bem estabelecidos (IM2GPS3K e YFCC4K), superando significativamente os melhores métodos atuais.
Tokenização é a primeira - e frequentemente subestimada - camada de computação em modelos de linguagem. Embora o prompting de Cadeia de Pensamento (CoT, do inglês Chain-of-Thought) permita que modelos transformadores aproximem computações recorrentes ao externalizar etapas intermediárias, mostramos que o sucesso desse raciocínio é fundamentalmente limitado pela estrutura das entradas tokenizadas. Este trabalho apresenta uma investigação teórica e empírica sobre como esquemas de tokenização, particularmente métodos baseados em subpalavras como a codificação byte-pair (BPE), dificultam a computação simbólica ao fundir ou obscurecer unidades atômicas de raciocínio. Introduzimos a noção de Consciência de Token para formalizar como uma granularidade inadequada de tokens perturba o alinhamento lógico e impede que os modelos generalizem procedimentos simbólicos. Por meio de avaliação sistemática em tarefas aritméticas e simbólicas, demonstramos que a estrutura dos tokens afeta drasticamente o desempenho do raciocínio, causando falhas mesmo com CoT, enquanto formatos atomicamente alinhados desbloqueiam uma forte generalização, permitindo que modelos pequenos (por exemplo, GPT-4o-mini) superem sistemas maiores (por exemplo, o1) em raciocínio estruturado. Nossas descobertas revelam que a capacidade de raciocínio simbólico em LLMs não é puramente arquitetônica, mas profundamente condicionada pelas representações em nível de token.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) e a abundância de dados relacionados a alimentos resultaram em estudos para melhorar a compreensão de alimentos utilizando LLMs. Apesar de vários sistemas de recomendação empregarem LLMs e Grafos de Conhecimento (KGs), houve pesquisas limitadas sobre a integração de KGs relacionados a alimentos com LLMs. Apresentamos o KERL, um sistema unificado que aproveita KGs de alimentos e LLMs para fornecer recomendações de alimentos personalizadas e gerar receitas com informações associadas sobre micronutrientes. Dada uma pergunta em linguagem natural, o KERL extrai entidades, recupera subgrafos do KG, que são então alimentados no LLM como contexto para selecionar as receitas que atendem às restrições. Em seguida, nosso sistema gera as etapas de preparo e as informações nutricionais para cada receita. Para avaliar nossa abordagem, também desenvolvemos um conjunto de dados de referência, curando perguntas relacionadas a receitas, combinadas com restrições e preferências pessoais. Por meio de experimentos extensivos, demonstramos que nosso LLM aumentado por KG supera significativamente as abordagens existentes, oferecendo uma solução completa e coerente para recomendação de alimentos, geração de receitas e análise nutricional. Nosso código e conjuntos de dados de referência estão disponíveis publicamente em https://github.com/mohbattharani/KERL.
A decodificação de imagens a partir da atividade cerebral tem sido recentemente impulsionada pelos avanços em modelos generativos de IA e pela disponibilidade de grandes conjuntos de dados de ressonância magnética funcional (fMRI) de campo ultra-alto. No entanto, as abordagens atuais dependem de pipelines multiestágios complexos e etapas de pré-processamento que geralmente colapsam a dimensão temporal dos registros cerebrais, limitando assim os decodificadores cerebrais com resolução temporal. Aqui, apresentamos o Dynadiff (Dynamic Neural Activity Diffusion for Image Reconstruction), um novo modelo de difusão em estágio único projetado para reconstruir imagens a partir de registros de fMRI que evoluem dinamicamente. Nossa abordagem oferece três contribuições principais. Primeiro, o Dynadiff simplifica o treinamento em comparação com as abordagens existentes. Segundo, nosso modelo supera os modelos de última geração em sinais de fMRI com resolução temporal, especialmente em métricas de reconstrução de imagens semânticas de alto nível, mantendo-se competitivo em dados de fMRI pré-processados que colapsam o tempo. Terceiro, essa abordagem permite uma caracterização precisa da evolução das representações de imagens na atividade cerebral. No geral, este trabalho estabelece as bases para a decodificação de imagens a partir da atividade cerebral com resolução temporal.
Um problema bem conhecido no Geração Aumentada por Recuperação (RAG) é que passagens recuperadas irrelevantes para a consulta às vezes distraem o LLM gerador de respostas, fazendo com que ele forneça uma resposta incorreta. Neste artigo, lançamos luz sobre essa questão central e formulamos o efeito distrativo de uma passagem em relação a uma consulta (e a um LLM). Fornecemos uma medida quantificável do efeito distrativo de uma passagem e demonstramos sua robustez entre diferentes LLMs. Nossa pesquisa introduz métodos inovadores para identificar e utilizar passagens fortemente distrativas para melhorar os sistemas RAG. Ao ajustar finamente LLMs com essas passagens distrativas cuidadosamente selecionadas, alcançamos um aumento de até 7,5% na precisão das respostas em comparação com modelos ajustados em conjuntos de dados RAG convencionais. Nossa contribuição é dupla: primeiro, vamos além da simples classificação binária de passagens irrelevantes como completamente não relacionadas versus distrativas, e segundo, desenvolvemos e analisamos múltiplos métodos para encontrar passagens fortemente distrativas. Até onde sabemos, nenhuma outra pesquisa forneceu um framework tão abrangente para identificar e utilizar passagens fortemente distrativas.
Apesar dos avanços nos modelos de linguagem baseados em transformadores (LMs), uma questão fundamental permanece em grande parte sem resposta: Todas as camadas são ativadas durante a inferência? Investigamos essa questão detectando camadas não ativadas (que chamamos de Vazios) usando um método de computação adaptativa não treinável e sem parâmetros chamado L2 Adaptive Computation (LAC). Adaptamos o LAC de sua aplicação original focada em eficiência para rastrear camadas ativadas durante a inferência. Esse método monitora mudanças na norma L2 das ativações para identificar vazios. Analisamos a ativação de camadas em LMs ajustados por instruções em duas fases: Processamento de Prompt (PP), onde rastreamos camadas ativadas para cada token nos prompts de entrada, e Geração de Resposta (RG), onde rastreamos camadas ativadas para cada token gerado. Além disso, demonstramos que camadas distintas são ativadas durante essas duas fases. Para mostrar a eficácia do nosso método, avaliamos três LMs distintos ajustados por instruções das famílias Llama, Mistral e Qwen em três benchmarks: MMLU, GPQA Diamond e BoolQ. Por exemplo, no MMLU com configuração zero-shot, pular os vazios no Qwen2.5-7B-Instruct resultou em uma melhoria de 69,24 para 71,29, enquanto o modelo usa apenas 30% das camadas. Da mesma forma, o Mistral-7B-Instruct-v0.3 no GPQA Diamond melhorou de 13,88 para 18,36 ao usar 70% das camadas durante as fases de PP e RG. Esses resultados mostram que nem todas as camadas contribuem igualmente durante a inferência, e que pular seletivamente a maioria delas pode melhorar o desempenho dos modelos em determinadas tarefas.
Apresentamos um framework conceitual para treinar Modelos de Visão e Linguagem (VLMs) na execução de Tomada de Perspectiva Visual (VPT), uma capacidade fundamental para a cognição incorporada essencial para a Interação Humano-Robô (HRI). Como primeiro passo em direção a esse objetivo, introduzimos um conjunto de dados sintético, gerado no NVIDIA Omniverse, que permite o aprendizado supervisionado para tarefas de raciocínio espacial. Cada instância inclui uma imagem RGB, uma descrição em linguagem natural e uma matriz de transformação 4x4 de verdade fundamental representando a pose do objeto. Focamos na inferência da distância no eixo Z como uma habilidade fundamental, com extensões futuras visando o raciocínio completo em 6 Graus de Liberdade (DOFs). O conjunto de dados está publicamente disponível para apoiar pesquisas adicionais. Este trabalho serve como um passo fundamental para sistemas de IA incorporada capazes de compreensão espacial em cenários interativos de humano-robô.
Representações visuais são fundamentais para as capacidades de aprendizado e generalização de políticas de manipulação robótica. Embora os métodos existentes dependam de características globais ou densas, tais representações frequentemente misturam informações relevantes e irrelevantes para a tarefa, limitando a robustez sob mudanças de distribuição. Neste trabalho, investigamos representações centradas em objetos (OCR) como uma alternativa estruturada que segmenta a entrada visual em um conjunto definido de entidades, introduzindo vieses indutivos que se alinham mais naturalmente com tarefas de manipulação. Avaliamos uma variedade de codificadores visuais - métodos centrados em objetos, globais e densos - em um conjunto de tarefas de manipulação simuladas e do mundo real, variando de simples a complexas, e avaliamos sua generalização sob diversas condições visuais, incluindo mudanças de iluminação, textura e a presença de distratores. Nossos resultados revelam que políticas baseadas em OCR superam representações densas e globais em cenários de generalização, mesmo sem pré-treinamento específico para a tarefa. Esses insights sugerem que OCR é uma direção promissora para projetar sistemas visuais que generalizam efetivamente em ambientes robóticos dinâmicos e do mundo real.