Artigos de pesquisa em IA selecionados diariamente com traduções
Neste trabalho, introduzimos o Pré-Treinamento por Reforço (Reinforcement Pre-Training, RPT) como um novo paradigma de escalonamento para modelos de linguagem de grande escala e aprendizado por reforço (RL). Especificamente, reformulamos a previsão do próximo token como uma tarefa de raciocínio treinada usando RL, na qual o modelo recebe recompensas verificáveis por prever corretamente o próximo token em um determinado contexto. O RPT oferece um método escalável para aproveitar grandes quantidades de dados textuais para RL de propósito geral, em vez de depender de respostas anotadas específicas de domínio. Ao incentivar a capacidade de raciocínio para prever o próximo token, o RPT melhora significativamente a precisão da modelagem de linguagem na previsão dos próximos tokens. Além disso, o RPT fornece uma base pré-treinada robusta para ajustes finos adicionais por reforço. As curvas de escalonamento mostram que o aumento no poder computacional de treinamento melhora consistentemente a precisão da previsão do próximo token. Os resultados posicionam o RPT como um paradigma de escalonamento eficaz e promissor para avançar o pré-treinamento de modelos de linguagem.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes na compreensão de elementos visuais comuns, em grande parte devido aos seus conjuntos de dados em larga escala e estratégias avançadas de treinamento. No entanto, sua eficácia em aplicações médicas permanece limitada devido às discrepâncias inerentes entre os dados e tarefas em cenários médicos e aqueles no domínio geral. Concretamente, os MLLMs médicos existentes enfrentam as seguintes limitações críticas: (1) cobertura limitada de conhecimento médico além de imagens, (2) maior suscetibilidade a alucinações devido a processos de curadoria de dados subótimos, (3) falta de capacidades de raciocínio adaptadas para cenários médicos complexos. Para enfrentar esses desafios, propomos primeiro um procedimento abrangente de curadoria de dados que (1) adquire eficientemente dados ricos em conhecimento médico não apenas de imagens médicas, mas também de textos médicos extensos e dados do domínio geral; e (2) sintetiza legendas médicas precisas, amostras de resposta a perguntas visuais (VQA) e de raciocínio. Como resultado, construímos um conjunto de dados multimodal enriquecido com extenso conhecimento médico. Com base nos dados curados, introduzimos nosso MLLM especializado em medicina: Lingshu. O Lingshu passa por treinamento em múltiplas etapas para incorporar expertise médica e aprimorar progressivamente suas capacidades de resolução de tarefas. Além disso, exploramos preliminarmente o potencial de aplicar o paradigma de aprendizado por reforço com recompensas verificáveis para melhorar a capacidade de raciocínio médico do Lingshu. Adicionalmente, desenvolvemos o MedEvalKit, uma estrutura de avaliação unificada que consolida os principais benchmarks médicos multimodais e textuais para uma avaliação padronizada, justa e eficiente do modelo. Avaliamos o desempenho do Lingshu em três tarefas médicas fundamentais: QA multimodal, QA baseado em texto e geração de relatórios médicos. Os resultados mostram que o Lingshu supera consistentemente os modelos multimodais de código aberto existentes na maioria das tarefas...
Este artigo apresenta o MiniCPM4, um modelo de linguagem de grande escala (LLM) altamente eficiente projetado especificamente para dispositivos de ponta. Alcançamos essa eficiência por meio de inovações sistemáticas em quatro dimensões principais: arquitetura do modelo, dados de treinamento, algoritmos de treinamento e sistemas de inferência. Especificamente, em termos de arquitetura do modelo, propomos o InfLLM v2, um mecanismo de atenção esparsa treinável que acelera tanto a fase de preenchimento quanto a de decodificação para o processamento de contextos longos. Em relação aos dados de treinamento, propomos o UltraClean, uma estratégia eficiente e precisa de filtragem e geração de dados de pré-treinamento, e o UltraChat v2, um conjunto de dados abrangente para ajuste fino supervisionado. Esses conjuntos de dados permitem alcançar um desempenho satisfatório do modelo utilizando apenas 8 trilhões de tokens de treinamento. Quanto aos algoritmos de treinamento, propomos o ModelTunnel v2 para uma busca eficiente de estratégias de pré-treinamento, e melhoramos os métodos de pós-treinamento existentes ao introduzir o rollout em blocos para aprendizado por reforço com balanceamento de carga e o LLM ternário eficiente em dados, BitCPM. Em relação aos sistemas de inferência, propomos o CPM.cu, que integra atenção esparsa, quantização de modelo e amostragem especulativa para alcançar preenchimento e decodificação eficientes. Para atender a diversas necessidades em dispositivos, o MiniCPM4 está disponível em duas versões, com 0,5 bilhão e 8 bilhões de parâmetros, respectivamente. Resultados de avaliação suficientes mostram que o MiniCPM4 supera modelos de código aberto de tamanho similar em vários benchmarks, destacando tanto sua eficiência quanto sua eficácia. Notavelmente, o MiniCPM4-8B demonstra melhorias significativas de velocidade em relação ao Qwen3-8B ao processar sequências longas. Por meio de adaptações adicionais, o MiniCPM4 alimenta com sucesso diversas aplicações, incluindo a geração confiável de pesquisas e o uso de ferramentas com protocolo de contexto de modelo, demonstrando claramente sua ampla usabilidade.
A pesquisa existente em garantia de segurança tem se concentrado principalmente no alinhamento durante a fase de treinamento para incutir comportamentos seguros em LLMs (Modelos de Linguagem de Grande Escala). No entanto, estudos recentes expuseram a suscetibilidade desses métodos a diversos ataques de jailbreak. Simultaneamente, o escalonamento de inferência avançou significativamente as capacidades de raciocínio dos LLMs, mas permanece inexplorado no contexto de garantia de segurança. Abordando essa lacuna, nosso trabalho pioneiro aplica o escalonamento de inferência para garantir a segurança robusta e eficaz dos LLMs contra ameaças emergentes. Revelamos que as técnicas convencionais de escalonamento de inferência, apesar de seu sucesso em tarefas de raciocínio, têm desempenho ruim em contextos de segurança, ficando aquém até mesmo de abordagens básicas como a Amostragem Best-of-N. Atribuímos essa ineficiência a um desafio recém-identificado, o dilema exploração-eficiência, que surge devido ao alto custo computacional associado às frequentes avaliações do modelo de recompensa de processo (PRM). Para superar esse dilema, propomos o SAFFRON, um novo paradigma de escalonamento de inferência projetado explicitamente para garantia de segurança. Central à nossa abordagem é a introdução de um modelo de recompensa multifurcação (MRM) que reduz significativamente o número necessário de avaliações do modelo de recompensa. Para operacionalizar esse paradigma, propomos ainda: (i) um objetivo de treinamento com supervisão parcial para o MRM, (ii) uma restrição de exploração conservadora para evitar explorações fora da distribuição, e (iii) uma estratégia de cache baseada em Trie que facilita o compartilhamento de cache entre sequências durante a busca em árvore. Experimentos extensivos validam a eficácia do nosso método. Além disso, disponibilizamos publicamente nosso modelo de recompensa multifurcação treinado (Saffron-1) e o conjunto de dados de recompensa de segurança em nível de token (Safety4M) para acelerar pesquisas futuras em segurança de LLMs. Nosso código, modelo e dados estão publicamente disponíveis em https://github.com/q-rz/saffron, e nossa página do projeto está em https://q-rz.github.io/p/saffron.
Modelos de texto para imagem (T2I) têm atraído atenção significativa por gerarem imagens de alta qualidade alinhadas com prompts de texto. No entanto, os rápidos avanços nos modelos T2I revelam limitações nos benchmarks iniciais, que carecem de avaliações abrangentes, por exemplo, na avaliação de raciocínio, renderização de texto e estilo. Notavelmente, os modelos state-of-the-art recentes, com suas capacidades avançadas de modelagem de conhecimento, mostram resultados promissores em problemas de geração de imagens que exigem forte capacidade de raciocínio, mas os sistemas de avaliação existentes não abordaram adequadamente essa fronteira. Para abordar sistematicamente essas lacunas, introduzimos o OneIG-Bench, um framework de benchmark meticulosamente projetado para avaliação detalhada de modelos T2I em múltiplas dimensões, incluindo alinhamento prompt-imagem, precisão na renderização de texto, conteúdo gerado por raciocínio, estilização e diversidade. Ao estruturar a avaliação, este benchmark permite uma análise aprofundada do desempenho dos modelos, ajudando pesquisadores e profissionais a identificar pontos fortes e gargalos em todo o pipeline de geração de imagens. Especificamente, o OneIG-Bench permite uma avaliação flexível, permitindo que os usuários se concentrem em um subconjunto específico de avaliação. Em vez de gerar imagens para todo o conjunto de prompts, os usuários podem gerar imagens apenas para os prompts associados à dimensão selecionada e completar a avaliação correspondente de acordo. Nossa base de código e conjunto de dados estão agora publicamente disponíveis para facilitar estudos de avaliação reproduzíveis e comparações entre modelos dentro da comunidade de pesquisa em T2I.
O SpatialLM é um modelo de linguagem de grande escala projetado para processar dados de nuvem de pontos 3D e gerar saídas estruturadas de compreensão de cenas 3D. Essas saídas incluem elementos arquitetônicos como paredes, portas, janelas e caixas de objetos orientados com suas categorias semânticas. Diferente de métodos anteriores que exploram designs de rede específicos para tarefas, nosso modelo adere à arquitetura padrão de LLM multimodal e é ajustado diretamente a partir de LLMs de código aberto. Para treinar o SpatialLM, coletamos um conjunto de dados sintético em larga escala e de alta qualidade, composto por nuvens de pontos de 12.328 cenas internas (54.778 cômodos) com anotações 3D de referência, e conduzimos um estudo cuidadoso sobre várias decisões de modelagem e treinamento. Em benchmarks públicos, nosso modelo apresenta desempenho de ponta em estimativa de layout e resultados competitivos em detecção de objetos 3D. Com isso, mostramos um caminho viável para aprimorar as capacidades de compreensão espacial dos LLMs modernos para aplicações em realidade aumentada, robótica incorporada e mais.
Codificadores visuais estão sendo cada vez mais utilizados em aplicações modernas, desde modelos exclusivamente visuais até sistemas multimodais, como modelos visão-linguagem. Apesar de seu notável sucesso, ainda não está claro como essas arquiteturas representam as características internamente. Aqui, propomos uma nova abordagem para interpretar características visuais por meio de reconstrução de imagens. Comparamos duas famílias de modelos relacionadas, SigLIP e SigLIP2, que diferem apenas em seu objetivo de treinamento, e mostramos que codificadores pré-treinados em tarefas baseadas em imagens retêm significativamente mais informações da imagem do que aqueles treinados em tarefas não visuais, como aprendizado contrastivo. Aplicamos ainda nosso método a uma variedade de codificadores visuais, classificando-os pela informatividade de suas representações de características. Por fim, demonstramos que a manipulação do espaço de características resulta em mudanças previsíveis nas imagens reconstruídas, revelando que rotações ortogonais (em vez de transformações espaciais) controlam a codificação de cores. Nossa abordagem pode ser aplicada a qualquer codificador visual, lançando luz sobre a estrutura interna de seu espaço de características. O código e os pesos dos modelos para reproduzir os experimentos estão disponíveis no GitHub.
Os sistemas modernos de navegação robótica enfrentam dificuldades em ambientes internos diversos e complexos. As abordagens tradicionais dependem de múltiplos módulos com modelos pequenos ou sistemas baseados em regras, carecendo assim de adaptabilidade a novos ambientes. Para resolver isso, desenvolvemos o Astra, uma arquitetura abrangente de modelo duplo, Astra-Global e Astra-Local, para navegação de robôs móveis. O Astra-Global, um modelo de linguagem multimodal (LLM), processa entradas visuais e de linguagem para realizar a localização do robô e do objetivo, utilizando um grafo topológico-semântico híbrido como mapa global, e supera os métodos tradicionais de reconhecimento visual de lugares. O Astra-Local, uma rede multitarefa, lida com o planejamento de trajetórias locais e a estimativa de odometria. Seu codificador espaço-temporal 4D, treinado por meio de aprendizado auto-supervisionado, gera recursos 4D robustos para tarefas subsequentes. O cabeçalho de planejamento utiliza correspondência de fluxo e uma nova função de perda ESDF mascarada para minimizar os riscos de colisão ao gerar trajetórias locais, e o cabeçalho de odometria integra entradas de múltiplos sensores por meio de um codificador transformer para prever a pose relativa do robô. Implantado em robôs móveis reais, o Astra alcança uma alta taxa de sucesso de missão de ponta a ponta em diversos ambientes internos.
Modelos Ocultos de Markov (HMMs) são ferramentas fundamentais para modelar dados sequenciais com estrutura Markoviana latente, mas ajustá-los a dados do mundo real continua sendo um desafio computacional. Neste trabalho, mostramos que grandes modelos de linguagem (LLMs) pré-treinados podem modelar efetivamente dados gerados por HMMs por meio de aprendizado em contexto (ICL)x2013sua capacidade de inferir padrões a partir de exemplos dentro de um prompt. Em um conjunto diversificado de HMMs sintéticos, os LLMs alcançam precisão preditiva próxima ao ótimo teórico. Descobrimos tendências de escalonamento inéditas influenciadas pelas propriedades dos HMMs e oferecemos conjecturas teóricas para essas observações empíricas. Também fornecemos diretrizes práticas para cientistas sobre o uso do ICL como uma ferramenta de diagnóstico para dados complexos. Em tarefas reais de tomada de decisão animal, o ICL alcança desempenho competitivo com modelos projetados por especialistas humanos. Até onde sabemos, esta é a primeira demonstração de que o ICL pode aprender e prever sequências geradas por HMMsx2013um avanço que aprofunda nossa compreensão do aprendizado em contexto em LLMs e estabelece seu potencial como uma ferramenta poderosa para revelar estruturas ocultas em dados científicos complexos.
Os modelos Visão-Linguagem-Ação (VLA) têm demonstrado capacidades impressionantes em uma ampla gama de tarefas de manipulação robótica. No entanto, o crescente tamanho desses modelos apresenta desafios significativos para a implantação em sistemas robóticos com recursos limitados. Embora o pré-treinamento de 1 bit tenha se mostrado eficaz para melhorar a eficiência de inferência de grandes modelos de linguagem com perda mínima de desempenho, sua aplicação a modelos VLA ainda é pouco explorada. Neste trabalho, apresentamos o BitVLA, o primeiro modelo VLA de 1 bit para manipulação robótica, no qual cada parâmetro é ternário, ou seja, {-1, 0, 1}. Para reduzir ainda mais a pegada de memória do codificador de visão, propomos a estratégia de treinamento com consciência de destilação, que comprime o codificador de precisão total para pesos de 1,58 bits. Durante esse processo, um codificador de precisão total atua como modelo professor para melhor alinhar as representações latentes. Apesar da falta de pré-treinamento em larga escala para robótica, o BitVLA alcança desempenho comparável ao modelo state-of-the-art OpenVLA-OFT com quantização pós-treinamento de 4 bits no benchmark LIBERO, enquanto consome apenas 29,8% da memória. Esses resultados destacam o potencial do BitVLA para implantação em dispositivos de borda com memória limitada. Disponibilizamos o código e os pesos do modelo em https://github.com/ustcwhy/BitVLA.
Os Transformadores de Difusão Multimodal (MM-DiTs) alcançaram progressos notáveis na geração visual orientada por texto. No entanto, mesmo modelos MM-DiT de última geração, como o FLUX, enfrentam dificuldades para alcançar um alinhamento preciso entre os prompts de texto e o conteúdo gerado. Identificamos dois problemas principais no mecanismo de atenção dos MM-DiT: 1) a supressão da atenção cruzada entre modalidades devido ao desequilíbrio de tokens entre as modalidades visual e textual, e 2) a falta de ponderação de atenção consciente do passo de tempo, o que prejudica o alinhamento. Para resolver esses problemas, propomos a Atenção Cruzada Multimodal Ajustada por Temperatura (TACA), um método eficiente em parâmetros que reequilibra dinamicamente as interações multimodais por meio de escalonamento de temperatura e ajuste dependente do passo de tempo. Quando combinada com o ajuste fino via LoRA, a TACA melhora significativamente o alinhamento texto-imagem no benchmark T2I-CompBench com um custo computacional mínimo. Testamos a TACA em modelos de última geração, como FLUX e SD3.5, demonstrando sua capacidade de melhorar o alinhamento imagem-texto em termos de aparência de objetos, vinculação de atributos e relações espaciais. Nossas descobertas destacam a importância de equilibrar a atenção cruzada entre modalidades para melhorar a fidelidade semântica em modelos de difusão texto-imagem. Nossos códigos estão disponíveis publicamente em https://github.com/Vchitect/TACA.
A supervisão de longas cadeias de raciocínio (CoT, do inglês Chain-of-Thought) tornou-se uma estratégia comum para aprimorar o raciocínio em modelos de linguagem. Embora eficaz para modelos grandes, identificamos um fenômeno que chamamos de Degradação de Longa CoT, no qual modelos de linguagem pequenos (SLMs; <=3B parâmetros) treinados com dados limitados de longas CoTs sofrem uma deterioração significativa de desempenho. Por meio de extensos experimentos com as famílias Qwen2.5, LLaMA3 e Gemma3, demonstramos que essa degradação é generalizada entre SLMs. Em alguns cenários, modelos treinados com apenas 8 mil exemplos de longas CoTs perdem até 75% de seu desempenho original antes do ajuste fino. Surpreendentemente, observamos ainda que, para alguns modelos particularmente pequenos, mesmo o treinamento com 220 mil exemplos de longas CoTs não consegue recuperar ou superar seu desempenho original antes do ajuste fino. Nossa análise atribui esse efeito ao acúmulo de erros: embora respostas mais longas aumentem a capacidade de raciocínio em múltiplas etapas, elas também amplificam o risco de erros acumulados. Além disso, descobrimos que a Degradação de Longa CoT pode impactar negativamente o aprendizado por reforço (RL, do inglês Reinforcement Learning) em tarefas subsequentes, embora isso possa ser mitigado por um ajuste fino supervisionado (SFT, do inglês Supervised Fine-Tuning) suficientemente escalonado. Nossas descobertas desafiam suposições comuns sobre os benefícios do treinamento com longas CoTs para SLMs e oferecem orientações práticas para a construção de modelos de raciocínio em pequena escala mais eficazes.
Investigamos o mecanismo subjacente a um fenômeno previamente identificado em Vision Transformers — o surgimento de tokens com norma elevada que resultam em mapas de atenção ruidosos. Observamos que, em vários modelos (por exemplo, CLIP, DINOv2), um conjunto esparso de neurônios é responsável por concentrar ativações de alta norma em tokens outliers, levando a padrões de atenção irregulares e degradando o processamento visual subsequente. Embora a solução existente para remover esses outliers envolva retreinar modelos do zero com tokens de registro aprendidos adicionalmente, utilizamos nossas descobertas para criar uma abordagem livre de treinamento que mitiga esses artefatos. Ao deslocar as ativações de alta norma dos neurônios de registro descobertos para um token adicional não treinado, podemos imitar o efeito dos tokens de registro em um modelo já treinado sem eles. Demonstramos que nosso método produz mapas de atenção e de características mais limpos, melhora o desempenho em relação aos modelos base em várias tarefas visuais subsequentes e alcança resultados comparáveis a modelos explicitamente treinados com tokens de registro. Em seguida, estendemos os registros em tempo de teste para modelos visão-linguagem prontos para uso, a fim de melhorar sua interpretabilidade. Nossos resultados sugerem que os registros em tempo de teste efetivamente assumem o papel dos tokens de registro durante o teste, oferecendo uma solução livre de treinamento para qualquer modelo pré-treinado lançado sem eles.
Apresentamos a Avaliação de Discurso de Debate como um novo e desafiador benchmark para avaliar juízes de LLMs. Avaliar discursos de debate requer um profundo entendimento do discurso em múltiplos níveis, incluindo a força e relevância dos argumentos, a coerência e organização do discurso, a adequação de seu estilo e tom, entre outros. Essa tarefa envolve um conjunto único de habilidades cognitivas que até então receberam atenção limitada em benchmarks sistemáticos de LLMs. Para explorar tais habilidades, utilizamos um conjunto de dados com mais de 600 discursos de debate meticulosamente anotados e apresentamos a primeira análise detalhada de como LLMs de última geração se comparam a juízes humanos nessa tarefa. Nossos resultados revelam um cenário complexo: embora modelos maiores possam aproximar-se de julgamentos humanos individuais em alguns aspectos, eles diferem substancialmente em seu comportamento geral de julgamento. Também investigamos a capacidade de LLMs de ponta em gerar discursos persuasivos e opinativos, mostrando que os modelos podem desempenhar essa tarefa em um nível humano.
O desenvolvimento de capacidades de raciocínio generalizáveis em modelos de linguagem multimodal de grande escala (MLLMs) continua sendo um desafio. Motivados pela literatura de ciência cognitiva que sugere que jogos promovem habilidades cognitivas transferíveis, propomos um novo paradigma de pós-treinamento, Aprendizado Visual por Jogos, ou ViGaL, onde os MLLMs desenvolvem generalização fora do domínio do raciocínio multimodal através da prática de jogos estilo arcade. Especificamente, demonstramos que o pós-treinamento de um MLLM com 7 bilhões de parâmetros via aprendizado por reforço (RL) em jogos simples estilo arcade, como Snake, melhora significativamente seu desempenho em benchmarks multimodais de matemática, como o MathVista, e em questões multidisciplinares, como o MMMU, sem que o modelo tenha acesso a soluções, equações ou diagramas durante o RL, sugerindo a captura de habilidades de raciocínio transferíveis. Notavelmente, nosso modelo supera modelos especializados ajustados em dados de raciocínio multimodal em benchmarks de raciocínio multimodal, enquanto mantém o desempenho do modelo base em benchmarks visuais gerais, um desafio onde modelos especializados frequentemente falham. Nossas descobertas sugerem um novo paradigma de pós-treinamento: jogos sintéticos baseados em regras podem servir como tarefas pretexto controláveis e escaláveis que desbloqueiam habilidades generalizáveis de raciocínio multimodal em MLLMs.
O Reconhecimento Óptico de Estruturas Químicas (OCSR) é crucial para a digitalização do conhecimento químico, convertendo imagens moleculares em formatos legíveis por máquinas. Embora modelos visão-linguagem (VLMs) recentes tenham mostrado potencial nessa tarefa, sua abordagem de geração de legendas para imagens frequentemente enfrenta dificuldades com estruturas moleculares complexas e anotações inconsistentes. Para superar esses desafios, introduzimos o GTR-Mol-VLM, uma nova estrutura que apresenta duas inovações principais: (1) o mecanismo de Traversal de Grafos como Cadeia de Pensamento Visual, que emula o raciocínio humano ao analisar incrementalmente grafos moleculares por meio de previsões sequenciais de átomos e ligações, e (2) o princípio centrado em dados de "Reconhecer Fielmente o que Você Viu", que aborda a discrepância entre estruturas abreviadas nas imagens e suas anotações expandidas. Para apoiar o desenvolvimento do modelo, construímos o GTR-CoT-1.3M, um grande conjunto de dados de ajuste de instruções com anotações meticulosamente corrigidas, e introduzimos o MolRec-Bench, o primeiro benchmark projetado para uma avaliação detalhada da precisão na análise de grafos em OCSR. Experimentos abrangentes demonstram que o GTR-Mol-VLM alcança resultados superiores em comparação com modelos especializados, VLMs de domínio químico e VLMs comerciais de propósito geral. Notavelmente, em cenários envolvendo imagens moleculares com abreviações de grupos funcionais, o GTR-Mol-VLM supera o segundo melhor modelo de referência em aproximadamente 14 pontos percentuais, tanto em métricas baseadas em SMILES quanto em grafos. Esperamos que este trabalho impulsione a tecnologia OCSR para atender de forma mais eficaz às necessidades do mundo real, avançando assim os campos da quimioinformática e da IA para Ciência. Disponibilizaremos o GTR-CoT em https://github.com/opendatalab/GTR-CoT.
Até que ponto os modelos de base visão-e-linguagem possuem um modelo de mundo realista (observação vezes ação → observação) e um modelo de dinâmica (observação vezes observação → ação), quando as ações são expressas por meio de linguagem? Enquanto os modelos de base de código aberto enfrentam dificuldades em ambos, descobrimos que ajustá-los para adquirir um modelo de dinâmica por meio de supervisão é significativamente mais fácil do que adquirir um modelo de mundo. Por sua vez, os modelos de dinâmica podem ser usados para impulsionar modelos de mundo por meio de duas estratégias principais: 1) aprendizado fracamente supervisionado a partir de dados sintéticos e 2) verificação no momento da inferência. Primeiramente, o modelo de dinâmica pode anotar ações para pares não rotulados de observações de quadros de vídeo, expandindo os dados de treinamento. Propomos ainda um novo objetivo, onde os tokens de imagem em pares de observações são ponderados por sua importância, conforme previsto por um modelo de reconhecimento. Em segundo lugar, os modelos de dinâmica podem atribuir recompensas a múltiplas amostras do modelo de mundo para pontuá-las, orientando efetivamente a busca no momento da inferência. Avaliamos os modelos de mundo resultantes de ambas as estratégias por meio da tarefa de edição de imagens centrada em ações no Aurora-Bench. Nosso melhor modelo alcança um desempenho competitivo com os modelos de edição de imagens de última geração, superando-os em uma margem de 15% em subconjuntos do mundo real de acordo com o GPT4o como juiz, e obtendo a melhor avaliação humana média em todos os subconjuntos do Aurora-Bench.
As gerações recentes de modelos de linguagem introduziram os Large Reasoning Models (LRMs), que geram processos de pensamento detalhados antes de fornecer respostas. Embora esses modelos demonstrem desempenho aprimorado em benchmarks de raciocínio, suas capacidades fundamentais, propriedades de escalonamento e limitações ainda são insuficientemente compreendidas. As avaliações atuais concentram-se principalmente em benchmarks estabelecidos de matemática e programação, enfatizando a precisão da resposta final. No entanto, esse paradigma de avaliação frequentemente sofre com contaminação e não fornece insights sobre os traços de raciocínio. Neste trabalho, investigamos sistematicamente essas lacunas com o auxílio de ambientes de quebra-cabeças controláveis que permitem a manipulação precisa da complexidade, mantendo estruturas lógicas consistentes. Essa configuração possibilita a análise não apenas das respostas finais, mas também dos traços de raciocínio internos, oferecendo insights sobre como os LRMs pensam. Por meio de experimentos extensivos, mostramos que os LRMs enfrentam um colapso completo de precisão além de certas complexidades. Além disso, eles exibem um limite de escalonamento contraintuitivo: seu esforço de raciocínio aumenta com a complexidade do problema até certo ponto, depois diminui, apesar de ainda haver orçamento de tokens disponível. Ao comparar os LRMs com suas contrapartes LLM padrão sob o mesmo custo computacional de inferência, identificamos três regimes de desempenho: (1) tarefas de baixa complexidade, onde os modelos padrão superam os LRMs, (2) tarefas de média complexidade, onde os LRMs demonstram vantagem, e (3) tarefas de alta complexidade, onde ambos os modelos enfrentam colapso completo. Descobrimos que os LRMs têm limitações em cálculos exatos: eles falham em usar algoritmos explícitos e raciocinam de forma inconsistente em diferentes escalas. Também investigamos os traços de raciocínio com mais profundidade, estudando os padrões de soluções exploradas e analisando o comportamento computacional dos modelos, lançando luz sobre seus pontos fortes, limitações e levantando questões sobre suas capacidades de raciocínio.
Podemos ensinar Modelos de Linguagem de Grande Escala (LLMs) a evitar alucinar afirmações factuais? Neste artigo, apresentamos uma estratégia de ajuste fino que chamamos de ConfQA, que pode reduzir a taxa de alucinação de 20-40% para menos de 5% em vários benchmarks de factualidade. A ideia central é simples: quando o LLM responde corretamente a uma pergunta, ele é treinado para continuar com a resposta; caso contrário, ele é treinado a admitir "Não tenho certeza". Mas há dois fatores-chave que tornam o treinamento altamente eficaz. Primeiro, introduzimos um prompt de atenuação "responda apenas se estiver confiante" para orientar explicitamente o comportamento, sem o qual a alucinação permanece alta, em torno de 15%-25%. Segundo, aproveitamos afirmações factuais simples, especificamente valores de atributos de grafos de conhecimento, para ajudar os LLMs a calibrar a confiança, resultando em uma generalização robusta entre domínios e tipos de perguntas. Com base nessa percepção, propomos o framework Dual Neural Knowledge, que seleciona de forma contínua entre o conhecimento neural parametrizado internamente e o conhecimento simbólico registrado externamente, com base na confiança do ConfQA. O framework permite ganhos potenciais de precisão além de 95%, enquanto reduz as recuperações externas desnecessárias em mais de 30%.
Apresentamos o CCI4.0, um conjunto de dados de pré-treinamento bilíngue em grande escala, projetado para oferecer qualidade de dados superior e trajetórias de raciocínio diversas e humanizadas. O CCI4.0 ocupa aproximadamente 35 TB de espaço em disco e é composto por dois subconjuntos: CCI4.0-M2-Base e CCI4.0-M2-CoT. O CCI4.0-M2-Base combina um corpus chinês da web cuidadosamente curado de 5,2 TB, um subconjunto em inglês de 22,5 TB do Nemotron-CC e diversas fontes de matemática, wiki, arxiv e código. Embora esses dados sejam majoritariamente provenientes de conjuntos de dados bem processados, os padrões de qualidade de vários domínios são dinâmicos e exigem ampla experiência especializada e trabalho manual para serem processados. Portanto, propomos um pipeline inovador que justifica a qualidade dos dados principalmente com base em modelos, por meio de desduplicação em duas etapas, pontuação de qualidade multiclassificador e filtragem de fluência consciente do domínio. Extraímos 4,5 bilhões de modelos de CoT (Chain-of-Thought), denominados CCI4.0-M2-CoT. Diferente da destilação de CoT a partir de modelos maiores, nossa proposta de extração de CoT em etapas exemplifica padrões de raciocínio diversos e reduz significativamente a possibilidade de alucinação. Avaliações empíricas demonstram que LLMs pré-treinados no CCI4.0 se beneficiam de sinais de treinamento mais limpos e confiáveis, resultando em melhorias consistentes em tarefas subsequentes, especialmente em matemática e tarefas de reflexão de código. Nossos resultados destacam o papel crítico da curadoria rigorosa de dados e dos modelos de pensamento humano no avanço do desempenho de LLMs, lançando alguma luz sobre o processamento automático de corpora de pré-treinamento.
Este artigo apresenta o ExpertLongBench, um benchmark de nível especializado contendo 11 tarefas de 9 domínios que refletem fluxos de trabalho e aplicações realistas de especialistas. Além de questionários, as tarefas orientadas por aplicações no ExpertLongBench exigem saídas de longo formato que podem ultrapassar 5.000 tokens e uma adesão rigorosa a requisitos específicos do domínio. Notavelmente, cada tarefa no ExpertLongBench inclui uma rubrica, projetada ou validada por especialistas do domínio, para especificar os requisitos da tarefa e orientar a avaliação das saídas. Além disso, propomos o CLEAR, um framework de avaliação que suporta a avaliação precisa de saídas de longo formato em nosso benchmark. Para alcançar uma avaliação detalhada e alinhada com especialistas, o CLEAR deriva listas de verificação tanto das saídas dos modelos quanto das referências, extraindo informações correspondentes aos itens da rubrica específica da tarefa. Os itens da lista de verificação para as saídas dos modelos são então comparados com os itens correspondentes para as saídas de referência, a fim de avaliar sua correção, permitindo uma avaliação fundamentada. Avaliamos 11 modelos de linguagem de grande escala (LLMs) e analisamos os componentes do CLEAR, mostrando que (1) os LLMs existentes, com o melhor desempenho alcançando apenas 26,8% de pontuação F1, requerem melhorias significativas para tarefas de nível especializado; (2) os modelos podem gerar conteúdo correspondente aos aspectos necessários, embora muitas vezes não com precisão; e (3) a extração e comparação precisas de listas de verificação no CLEAR podem ser alcançadas por modelos de peso aberto para um uso mais escalável e de baixo custo.
A imunização de modelos visa pré-treinar modelos que sejam difíceis de ajustar para tarefas prejudiciais, mantendo sua utilidade em outras tarefas não prejudiciais. Embora trabalhos anteriores tenham mostrado evidências empíricas para a imunização de modelos de texto para imagem, a compreensão fundamental de quando a imunização é possível e uma definição precisa de um modelo imunizado permanecem pouco claras. Neste trabalho, propomos uma estrutura, baseada no número de condição de uma matriz Hessiana, para analisar a imunização de modelos em modelos lineares. Com base nessa estrutura, projetamos um algoritmo com termos de regularização para controlar os números de condição resultantes após o pré-treinamento. Resultados empíricos em modelos lineares e redes profundas não lineares demonstram a eficácia do algoritmo proposto na imunização de modelos. O código está disponível em https://github.com/amberyzheng/model-immunization-cond-num.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado grande potencial para revolucionar a automação de Interfaces Gráficas de Usuário (GUIs). No entanto, os modelos de GUI existentes dependem principalmente do aprendizado a partir de trajetórias offline quase livres de erros, carecendo, assim, de capacidades de reflexão e recuperação de erros. Para preencher essa lacuna, propomos o GUI-Reflection, um novo framework que integra explicitamente capacidades de autorreflexão e correção de erros em modelos multimodais de GUI de ponta a ponta, ao longo de estágios de treinamento dedicados: pré-treinamento específico para GUI, ajuste fino supervisionado offline (SFT) e ajuste de reflexão online. O GUI-Reflection possibilita a emergência de comportamentos de autorreflexão com processos totalmente automatizados de geração de dados e aprendizado, sem exigir qualquer anotação humana. Especificamente, 1) primeiro propomos pipelines de dados escaláveis para construir automaticamente dados de reflexão e correção de erros a partir de trajetórias bem-sucedidas existentes. Enquanto os modelos de GUI existentes focam principalmente na capacidade de fundamentação e compreensão de UI, propomos o Conjunto de Tarefas GUI-Reflection para aprender e avaliar explicitamente habilidades orientadas à reflexão. 2) Além disso, construímos um ambiente diversificado e eficiente para treinamento online e coleta de dados de modelos de GUI em dispositivos móveis. 3) Também apresentamos um algoritmo iterativo de ajuste de reflexão online que aproveita o ambiente proposto, permitindo que o modelo aprimore continuamente suas habilidades de reflexão e correção de erros. Nosso framework equipa agentes de GUI com capacidades de autorreflexão e correção, abrindo caminho para uma automação de GUI mais robusta, adaptável e inteligente, com todos os dados, modelos, ambientes e ferramentas a serem disponibilizados publicamente.
Modelos generativos de vídeo em grande escala podem sintetizar conteúdo visual diversificado e realista para a criação de mundos dinâmicos, mas frequentemente carecem de controlabilidade em nível de elementos, dificultando seu uso na edição de cenas e no treinamento de agentes de IA incorporados. Propomos o Dreamland, um framework híbrido de geração de mundos que combina o controle granular de um simulador baseado em física e a saída de conteúdo fotorrealista de modelos generativos pré-treinados em grande escala. Em particular, projetamos uma abstração de mundo em camadas que codifica tanto a semântica quanto a geometria em nível de pixel e de objeto como uma representação intermediária para conectar o simulador e o modelo generativo. Essa abordagem aumenta a controlabilidade, minimiza o custo de adaptação por meio de um alinhamento precoce com distribuições do mundo real e suporta o uso imediato de modelos generativos pré-treinados existentes e futuros. Além disso, construímos um conjunto de dados D3Sim para facilitar o treinamento e a avaliação de pipelines de geração híbrida. Experimentos demonstram que o Dreamland supera as linhas de base existentes com uma melhoria de 50,8% na qualidade da imagem, 17,9% maior controlabilidade e possui grande potencial para aprimorar o treinamento de agentes incorporados. O código e os dados serão disponibilizados.
Modelos de Linguagem de Grande Escala (LLMs) precisam estar alinhados com as preferências humanas para evitar a geração de conteúdo ofensivo, falso ou sem sentido. Recentemente, métodos de baixo recurso para alinhamento de LLMs têm ganhado popularidade, embora ainda enfrentem desafios para obter conteúdo de alta qualidade e alinhado. Motivados pela observação de que a dificuldade de gerar respostas alinhadas está concentrada no início da decodificação, propomos uma nova estrutura, Decodificação de Fraco para Forte (WSD), para aprimorar a capacidade de alinhamento de modelos base por meio da orientação de um pequeno modelo alinhado. O pequeno modelo primeiro esboça inícios bem alinhados, seguido pelo grande modelo base para continuar o restante, controlado por um mecanismo de auto-mudança bem projetado. Também coletamos um novo conjunto de dados, GenerAlign, para ajustar finamente um Pilot-3B de pequeno porte como modelo de esboço, que efetivamente aprimora diferentes modelos base sob a estrutura WSD para superar todos os métodos de referência, evitando a degradação em tarefas subsequentes, denominada como o imposto de alinhamento. Experimentos extensivos são realizados para examinar o impacto de diferentes configurações e eficiência de tempo, bem como análises aprofundadas sobre os mecanismos intrínsecos do WSD.
Chamadas recentes para o alinhamento pluralístico de Modelos de Linguagem de Grande Escala (LLMs) incentivam a adaptação dos modelos a diversas preferências dos usuários. No entanto, a maior parte do trabalho anterior sobre modelos de recompensa personalizados depende fortemente de informações adicionais de identidade, como detalhes demográficos ou um conjunto predefinido de categorias de preferências. Para isso, introduzimos o SynthesizeMe, uma abordagem para induzir personas sintéticas de usuários a partir de interações do usuário para modelagem de recompensa personalizada. O SynthesizeMe primeiro gera e verifica raciocínios para explicar as preferências do usuário, em seguida, induz personas sintéticas de usuários a partir desse raciocínio e, finalmente, filtra interações anteriores informativas do usuário para construir prompts personalizados para um usuário específico. Mostramos que o uso de prompts induzidos pelo SynthesizeMe melhora a precisão do LLM-como-juiz personalizado em 4,4% no Chatbot Arena. A combinação de prompts derivados do SynthesizeMe com um modelo de recompensa alcança o melhor desempenho no PersonalRewardBench: uma nova curadoria de interações estratificadas por usuário com chatbots coletadas de 854 usuários do Chatbot Arena e do PRISM.
Avanços recentes em LLMs (Large Language Models) permitiram seu uso como agentes autônomos em uma variedade de tarefas, mas eles ainda enfrentam dificuldades para formular e aderir a estratégias de longo prazo coerentes. Neste artigo, investigamos se agentes baseados em LLMs podem se autoaperfeiçoar quando colocados em ambientes que desafiam explicitamente suas habilidades de planejamento estratégico. Utilizando o jogo de tabuleiro Settlers of Catan, acessado por meio da estrutura de código aberto Catanatron, avaliamos uma progressão de agentes baseados em LLMs, desde um agente simples que joga o jogo até sistemas capazes de reescrever autonomamente seus próprios prompts e o código do agente jogador. Introduzimos uma arquitetura multiagente na quais papéis especializados (Analisador, Pesquisador, Programador e Jogador) colaboram para analisar iterativamente o jogo, pesquisar novas estratégias e modificar a lógica ou o prompt do agente. Ao comparar agentes criados manualmente com aqueles evoluídos inteiramente por LLMs, avaliamos quão efetivamente esses sistemas podem diagnosticar falhas e se adaptar ao longo do tempo. Nossos resultados mostram que agentes auto-evolutivos, especialmente quando impulsionados por modelos como Claude 3.7 e GPT-4o, superam baselines estáticos ao adotar autonomamente suas estratégias, repassar comportamentos exemplares para agentes jogadores e demonstrar raciocínio adaptativo ao longo de múltiplas iterações.
Neste trabalho, abordamos a síntese dinâmica de visão a partir de vídeos monoculares como um problema inverso em um cenário livre de treinamento. Ao redesenhar a fase de inicialização de ruído de um modelo de difusão de vídeo pré-treinado, possibilitamos a síntese dinâmica de visão de alta fidelidade sem qualquer atualização de pesos ou módulos auxiliares. Começamos identificando um obstáculo fundamental à inversão determinística decorrente de cronogramas de relação sinal-ruído (SNR) com terminal zero e o resolvemos introduzindo uma nova representação de ruído, denominada Representação de Ruído Recursiva de Ordem K. Derivamos uma expressão em forma fechada para essa representação, permitindo um alinhamento preciso e eficiente entre os latentes codificados pelo VAE e os latentes invertidos pelo DDIM. Para sintetizar regiões recém-visíveis resultantes do movimento da câmera, introduzimos a Modulação Latente Estocástica, que realiza uma amostragem consciente da visibilidade sobre o espaço latente para completar regiões ocluídas. Experimentos abrangentes demonstram que a síntese dinâmica de visão pode ser efetivamente realizada por meio da manipulação estruturada de latentes na fase de inicialização de ruído.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) e modelos de visão e linguagem (VLMs) possibilitaram a criação de agentes autônomos poderosos, capazes de raciocínio complexo e uso de ferramentas multimodais. Apesar de suas capacidades crescentes, os frameworks de agentes atuais permanecem frágeis, carecendo de mecanismos fundamentados para fluxo seguro de informações, confiabilidade e coordenação entre múltiplos agentes. Neste trabalho, apresentamos o SAFEFLOW, um novo framework em nível de protocolo para a construção de agentes confiáveis baseados em LLMs/VLMs. O SAFEFLOW impõe controle de fluxo de informações (IFC) de forma granular, rastreando com precisão a proveniência, integridade e confidencialidade de todos os dados trocados entre agentes, ferramentas, usuários e ambientes. Ao restringir o raciocínio dos LLMs para respeitar esses rótulos de segurança, o SAFEFLOW evita que entradas não confiáveis ou adversárias contaminem decisões de alta integridade. Para garantir robustez em cenários concorrentes com múltiplos agentes, o SAFEFLOW introduz execução transacional, resolução de conflitos e agendamento seguro sobre estados compartilhados, preservando a consistência global entre os agentes. Além disso, introduzimos mecanismos, como logging antecipado, rollback e caches seguros, que aumentam a resiliência contra erros de runtime e violações de políticas. Para validar o desempenho, desenvolvemos o SAFEFLOWBENCH, um conjunto abrangente de benchmarks projetado para avaliar a confiabilidade dos agentes em condições operacionais adversas, ruidosas e concorrentes. Experimentos extensivos demonstram que os agentes construídos com o SAFEFLOW mantêm desempenho impressionante em tarefas e garantias de segurança mesmo em ambientes hostis, superando substancialmente o estado da arte. Juntos, o SAFEFLOW e o SAFEFLOWBENCH estabelecem as bases para ecossistemas de agentes fundamentados, robustos e seguros, avançando a fronteira da autonomia confiável.
Modelos de linguagem de grande escala frequentemente dependem tanto de entrada contextual quanto de conhecimento paramétrico para realizar tarefas. No entanto, essas fontes podem entrar em conflito, especialmente quando documentos recuperados contradizem o conhecimento paramétrico do modelo. Propomos um framework de diagnóstico para avaliar sistematicamente o comportamento de LLMs sob conflito entre contexto e memória, onde a informação contextual diverge de suas crenças paramétricas. Construímos dados de diagnóstico que eliciam esses conflitos e analisamos o desempenho do modelo em vários tipos de tarefas. Nossas descobertas revelam que (1) o conflito de conhecimento tem impacto mínimo em tarefas que não exigem utilização de conhecimento, (2) o desempenho do modelo é consistentemente maior quando o conhecimento contextual e paramétrico estão alinhados, (3) os modelos são incapazes de suprimir completamente seu conhecimento interno, mesmo quando instruídos, e (4) fornecer racionalidades que explicam o conflito aumenta a dependência de contextos. Esses insights levantam preocupações sobre a validade da avaliação baseada em modelos e destacam a necessidade de considerar o conflito de conhecimento na implantação de LLMs.
Modelos de linguagem de grande escala são frequentemente usados para responder a consultas baseadas em grandes corpora de texto (por exemplo, bases de código, documentos jurídicos ou históricos de chat) ao colocar todo o corpus na janela de contexto e aproveitar o aprendizado em contexto (ICL, in-context learning). Embora os modelos atuais suportem contextos de 100K a 1M de tokens, essa configuração é custosa para servir, pois o consumo de memória do cache KV escala com o comprimento da entrada. Exploramos uma alternativa: treinar um cache KV menor offline para cada corpus. No momento da inferência, carregamos esse cache KV treinado, que chamamos de Cartucho, e decodificamos uma resposta. Criticamente, o custo de treinar um Cartucho pode ser amortizado em todas as consultas que referenciam o mesmo corpus. No entanto, descobrimos que a abordagem ingênua de treinar o Cartucho com a previsão do próximo token no corpus não é competitiva com o ICL. Em vez disso, propomos o autoestudo, uma receita de treinamento na qual geramos conversas sintéticas sobre o corpus e treinamos o Cartucho com um objetivo de destilação de contexto. Descobrimos que os Cartuchos treinados com autoestudo replicam a funcionalidade do ICL, sendo significativamente mais baratos de servir. Em benchmarks desafiadores de contexto longo, os Cartuchos treinados com autoestudo igualam o desempenho do ICL, enquanto usam 38,6 vezes menos memória e permitem um throughput 26,4 vezes maior. O autoestudo também estende o comprimento efetivo do contexto do modelo (por exemplo, de 128k para 484k tokens no MTOB) e, surpreendentemente, leva a Cartuchos que podem ser compostos no momento da inferência sem retreinamento.
Os benchmarks existentes para agentes de IA conversacionais simulam ambientes de controle único, onde apenas o agente de IA pode usar ferramentas para interagir com o mundo, enquanto o usuário permanece como um provedor passivo de informações. Isso difere de cenários do mundo real, como suporte técnico, onde os usuários precisam participar ativamente na modificação do estado do mundo (compartilhado). Para abordar essa lacuna, introduzimos o tau^2-bench, com quatro contribuições principais: 1) Um novo domínio de controle duplo em Telecom modelado como um Dec-POMDP, onde tanto o agente quanto o usuário utilizam ferramentas para agir em um ambiente compartilhado e dinâmico que testa tanto a coordenação quanto a comunicação do agente, 2) Um gerador de tarefas composicional que cria programaticamente tarefas diversas e verificáveis a partir de componentes atômicos, garantindo cobertura do domínio e complexidade controlada, 3) Um simulador de usuário confiável, fortemente acoplado ao ambiente, cujo comportamento é limitado por ferramentas e estados observáveis, melhorando a fidelidade da simulação, 4) Análise detalhada do desempenho do agente por meio de múltiplas ablações, incluindo a separação de erros decorrentes de raciocínio versus comunicação/coordenação. Em particular, nossos experimentos mostram quedas significativas de desempenho quando os agentes passam de um cenário sem usuário para um de controle duplo, destacando os desafios de orientar os usuários. No geral, o tau^2-bench fornece um ambiente controlado para testar agentes que devem tanto raciocinar de forma eficaz quanto guiar as ações dos usuários.
Os atuais Modelos de Linguagem Multimodais de Grande Escala (MLLMs) podem enfrentar dificuldades na compreensão de vídeos longos ou complexos devido às demandas computacionais no momento do teste, falta de robustez e precisão limitada, principalmente decorrentes de sua natureza de processamento feed-forward. Essas limitações podem ser mais severas para modelos com menos parâmetros. Para abordar essas limitações, propomos uma nova estrutura inspirada em princípios cibernéticos, redesenhando os MLLMs de vídeo como sistemas adaptativos capazes de auto-monitoramento, auto-correção e alocação dinâmica de recursos durante a inferência. Nossa abordagem, CyberV, introduz um loop cibernético composto por um Sistema de Inferência MLLM, um Sensor e um Controlador. Especificamente, o sensor monitora os processos de avanço do MLLM e coleta interpretações intermediárias, como desvio de atenção, então o controlador determina quando e como acionar a auto-correção e gerar feedback para orientar a próxima rodada. Essa estrutura de escalonamento adaptativo no momento do teste aprimora MLLMs congelados sem a necessidade de retreinamento ou componentes adicionais. Experimentos demonstram melhorias significativas: o CyberV aumenta o Qwen2.5-VL-7B em 8,3% e o InternVL3-8B em 5,5% no VideoMMMU, superando o modelo proprietário competitivo GPT-4o. Quando aplicado ao Qwen2.5-VL-72B, resulta em uma melhoria de 10,0%, alcançando desempenho comparável até mesmo a especialistas humanos. Além disso, nosso método demonstra ganhos consistentes em benchmarks de propósito geral, como VideoMME e WorldSense, destacando sua eficácia e capacidades de generalização em tornar os MLLMs mais robustos e precisos para a compreensão dinâmica de vídeos. O código é disponibilizado em https://github.com/marinero4972/CyberV.
Recentemente, técnicas como o raciocínio estruturado explícito demonstraram um forte comportamento de escalonamento durante o teste ao impor uma separação entre o processo interno de "pensamento" do modelo e a resposta final. Um fator chave que influencia a qualidade da resposta nesse contexto é a duração da etapa de pensamento. Quando o raciocínio é muito curto, o modelo pode falhar em capturar a complexidade da tarefa. Por outro lado, quando é muito longo, o modelo pode pensar demais, levando a computação desnecessária e degradação do desempenho. Este artigo explora e explora os mecanismos subjacentes pelos quais os LLMs compreendem e regulam a duração de seu raciocínio durante processos de pensamento explícitos. Primeiro, mostramos que os LLMs codificam seu progresso através do processo de raciocínio e introduzimos uma visualização interativa de barra de progresso, que é então usada para revelar insights sobre a dinâmica de planejamento do modelo. Segundo, manipulamos a codificação interna do progresso durante a inferência para reduzir etapas desnecessárias e gerar uma cadeia de pensamentos mais concisa e decisiva. Nossos resultados empíricos demonstram que esse método de "overclocking" mitiga o excesso de pensamento, melhora a precisão das respostas e reduz a latência de inferência. Nosso código está publicamente disponível.
Modelos generativos de vídeo treinados em demonstrações de especialistas têm sido utilizados como planejadores visuais condicionados por texto de alto desempenho para resolver tarefas robóticas. No entanto, a generalização para tarefas não vistas anteriormente continua sendo um desafio. Embora uma melhor generalização possa ser facilitada ao aproveitar conhecimentos prévios aprendidos de fontes de dados offline pré-coletados adicionais, como conjuntos de dados de vídeo em escala da web, na era da experiência, nosso objetivo é projetar agentes que possam melhorar continuamente de maneira online a partir de comportamentos auto-coletados. Neste trabalho, propomos, portanto, o *Self-Adapting Improvement Loop* (SAIL), onde um modelo de vídeo em domínio específico se atualiza iterativamente em trajetórias auto-produzidas, coletadas por meio da adaptação com um modelo de vídeo pré-treinado em escala da internet, e melhora consistentemente seu desempenho para uma tarefa de interesse especificada. Aplicamos o SAIL a uma suíte diversificada de tarefas do MetaWorld, bem como a duas tarefas de manipulação em um braço robótico real, e descobrimos que melhorias de desempenho surgem continuamente ao longo de múltiplas iterações para tarefas novas inicialmente não vistas durante o treinamento original do modelo de vídeo em domínio. Além disso, descobrimos que o SAIL é surpreendentemente robusto em relação a se e como a experiência auto-coletada é filtrada, e à qualidade das demonstrações iniciais em domínio. Por meio da adaptação com dados resumidos em escala da internet e do aprendizado por experiência online, demonstramos, assim, uma maneira de inicializar iterativamente um modelo de vídeo de alto desempenho para resolver tarefas robóticas novas por meio da auto-melhoria.
Apesar dos avanços recentes na geração de vídeos, os modelos existentes ainda carecem de controle refinado, especialmente para a personalização de múltiplos sujeitos com identidade e interação consistentes. Neste artigo, propomos o PolyVivid, uma estrutura de personalização de vídeo para múltiplos sujeitos que permite uma geração flexível e consistente em termos de identidade. Para estabelecer correspondências precisas entre imagens de sujeitos e entidades textuais, projetamos um módulo de fusão texto-imagem baseado em VLLM que incorpora identidades visuais no espaço textual para um enraizamento preciso. Para aprimorar ainda mais a preservação da identidade e a interação entre sujeitos, propomos um módulo de aprimoramento baseado em 3D-RoPE que permite uma fusão bidirecional estruturada entre embeddings de texto e imagem. Além disso, desenvolvemos um módulo de injeção de identidade baseado em herança de atenção para injetar efetivamente características de identidade fundidas no processo de geração de vídeo, mitigando o desvio de identidade. Por fim, construímos um pipeline de dados baseado em MLLM que combina enraizamento, segmentação baseada em MLLM e uma estratégia de consolidação de sujeitos baseada em cliques para produzir dados de alta qualidade com múltiplos sujeitos, aprimorando efetivamente a distinção entre sujeitos e reduzindo a ambiguidade na geração de vídeo subsequente. Experimentos extensivos demonstram que o PolyVivid alcança desempenho superior em fidelidade de identidade, realismo de vídeo e alinhamento de sujeitos, superando as bases de código aberto e comerciais existentes.
Os grandes modelos de linguagem (LLMs, na sigla em inglês) tornaram-se a pedra angular da IA moderna. No entanto, o paradigma existente de previsão do próximo token limita fundamentalmente sua capacidade de formar conceitos coerentes e de alto nível, representando uma barreira crítica para a compreensão e o raciocínio semelhantes aos humanos. Tomemos a frase "ácido ribonucleico" como exemplo: um LLM primeiro a decompõe em tokens, ou seja, fragmentos de texto artificiais ("rib", "on", ...), e então aprende cada token sequencialmente, em vez de compreender a frase como uma entidade semântica unificada e coerente. Essa representação fragmentada dificulta a compreensão conceitual mais profunda e, em última análise, o desenvolvimento de sistemas verdadeiramente inteligentes. Em resposta, introduzimos o Ajuste Fino Consciente de Conceitos (CAFT, na sigla em inglês), um novo método de treinamento multitoken que redefine como os LLMs são ajustados. Ao permitir o aprendizado de sequências que abrangem múltiplos tokens, esse método promove um aprendizado mais consciente dos conceitos. Nossos experimentos demonstram melhorias significativas em comparação com os métodos convencionais de ajuste fino baseados na previsão do próximo token em diversas tarefas, incluindo aplicações tradicionais, como resumo de texto, e específicas de domínio, como o design de proteínas de novo. A previsão multitoken anteriormente só era possível na fase de pré-treinamento, que é proibitivamente cara; o CAFT, até onde sabemos, é o primeiro a trazer o cenário multitoken para a fase pós-treinamento, democratizando efetivamente seus benefícios para a comunidade mais ampla de profissionais e pesquisadores. Por fim, a eficácia inesperada do método proposto sugere implicações mais amplas para a comunidade de pesquisa em aprendizado de máquina. Todo o código e dados estão disponíveis em https://github.com/michaelchen-lab/caft-llm.
Avanços recentes no raciocínio de modelos de linguagem de grande escala (LLMs) demonstraram que comportamentos sofisticados, como planejamento e autorreflexão, podem emergir por meio de aprendizado por reforço (RL). No entanto, apesar desses sucessos, o RL em sua forma atual permanece insuficiente para induzir capacidades que superem as limitações do modelo base, uma vez que é otimizado principalmente com base no conhecimento existente do modelo, em vez de facilitar a aquisição de novas informações. Para abordar essa limitação, empregamos ajuste fino supervisionado (SFT) para aprender o que o RL não consegue, o que permite a incorporação de novos conhecimentos e padrões de raciocínio ao aproveitar dados de demonstração de alta qualidade. Analisamos a dinâmica de treinamento do RL e do SFT para o raciocínio de LLMs e descobrimos que o RL se destaca em manter e melhorar o desempenho em questões dentro das capacidades originais do modelo, enquanto o SFT é mais eficaz em permitir progresso em questões além do escopo atual do modelo. Motivados pelos pontos fortes complementares do RL e do SFT, introduzimos uma nova abordagem de treinamento, o ReLIFT (Reinforcement Learning Interleaved with Online Fine-Tuning). No ReLIFT, o modelo é treinado principalmente usando RL, mas, ao encontrar questões desafiadoras, soluções de alta qualidade são coletadas para ajuste fino, e o processo de treinamento alterna entre RL e ajuste fino para aprimorar as habilidades de raciocínio do modelo. O ReLIFT alcança uma melhoria média de mais de +5,2 pontos em cinco benchmarks de nível competitivo e um benchmark fora da distribuição, em comparação com outros modelos sem RL. Além disso, demonstramos que o ReLIFT supera tanto o RL quanto o SFT enquanto utiliza apenas 13% dos dados detalhados de demonstração, destacando sua escalabilidade. Esses resultados fornecem evidências convincentes de que o ReLIFT supera as limitações fundamentais do RL e ressalta seu potencial significativo.
Avanços recentes em modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em diversos domínios, particularmente no raciocínio matemático, no qual a resolução de problemas de geometria permanece uma área desafiadora onde a construção auxiliar desempenha um papel essencial. As abordagens existentes ou alcançam desempenho subótimo ou dependem de LLMs massivos (por exemplo, GPT-4o), incorrendo em custos computacionais elevados. Postulamos que o aprendizado por reforço com recompensa verificável (por exemplo, GRPO) oferece uma direção promissora para treinar modelos menores que combinam efetivamente a construção auxiliar com um raciocínio geométrico robusto. No entanto, a aplicação direta do GRPO ao raciocínio geométrico apresenta limitações fundamentais devido à sua dependência de recompensas incondicionais, o que leva a construções auxiliares indiscriminadas e contraproducentes. Para enfrentar esses desafios, propomos o Group Contrastive Policy Optimization (GCPO), um novo framework de aprendizado por reforço que apresenta duas inovações principais: (1) Group Contrastive Masking, que fornece sinais de recompensa positivos ou negativos para a construção auxiliar com base na utilidade contextual, e (2) uma recompensa de comprimento que promove cadeias de raciocínio mais longas. Com base no GCPO, desenvolvemos o GeometryZero, uma família de modelos de raciocínio geométrico de tamanho acessível que determinam criteriosamente quando empregar a construção auxiliar. Nossa extensa avaliação empírica em benchmarks geométricos populares (Geometry3K, MathVista) demonstra que os modelos GeometryZero superam consistentemente as linhas de base (por exemplo, GRPO), alcançando uma melhoria média de 4,29% em todos os benchmarks.
Apesar do crescente interesse em avaliações específicas de domínio para modelos de linguagem de grande escala (LLMs) e agentes, as avaliações atuais permanecem limitadas a conjuntos de dados estáticos e de pequena escala, especialmente em tarefas de alto impacto, como operações de rede, que exigem confiabilidade para implantações. Apresentamos o NetPress, uma estrutura automatizada de geração de benchmarks para avaliar agentes de LLM em aplicações de rede. O NetPress introduz uma abstração unificada com estado e ação, permitindo a geração dinâmica de conjuntos de consultas diversificados, juntamente com as respostas corretas correspondentes. Durante a execução, os usuários podem especificar configurações de benchmark para gerar milhões de consultas em tempo real. Além da construção dinâmica de benchmarks, o NetPress integra-se a emuladores de rede para fornecer feedback ambiental realista, suportando uma avaliação abrangente em termos de correção, segurança e latência. Instanciamos o NetPress em três aplicações representativas, revelando diferenças interessantes e detalhadas no comportamento dos agentes que benchmarks estáticos, focados apenas em correção, frequentemente deixam passar. O NetPress avança a avaliação de LLMs em direção a testes realistas e escaláveis em domínios centrados em infraestrutura, ajudando a reduzir a lacuna entre o desempenho em benchmarks e a prontidão para implantação no mundo real. O código está disponível em https://github.com/Froot-NetSys/NetPress.
Modelos de linguagem multimodal de grande escala (MLLMs) estão sendo cada vez mais implantados em ambientes abertos e do mundo real, onde as entradas são desorganizadas, subespecificadas e nem sempre confiáveis. Diferentemente de benchmarks curados, esses cenários frequentemente envolvem instruções que se referem a objetos ausentes ou fatos contraditórios, dependem de referências ambíguas ou solicitam ações inviáveis. Nesses casos, o sucesso não depende apenas da execução da tarefa, mas da capacidade do modelo de detectar quando algo está silenciosamente errado. Este artigo apresenta uma análise sistemática de como os MLLMs atuais lidam com esses cenários de raciocínio implícito: casos em que a falha não é explicitamente declarada, mas deve ser inferida a partir do contexto. Utilizando um conjunto diagnóstico curado que abrange quatro categorias de modos de falha do mundo real, avaliamos seis MLLMs, incluindo o3 e GPT-4o, e descobrimos que os modelos frequentemente falham em identificar problemas ocultos, mesmo quando possuem as habilidades perceptivas e de raciocínio necessárias. O prompting explícito revela que as capacidades subjacentes existem, mas muitas vezes são suprimidas em favor da conformidade com o usuário. Mostramos ainda que intervenções simples no momento da inferência, como o prompting de persona cautelosa e, em particular, a exigência de uma pergunta de esclarecimento, podem recuperar dramaticamente o desempenho. Nossas descobertas destacam uma lacuna persistente entre a competência de raciocínio e a conformidade comportamental nos MLLMs atuais e sugerem estratégias práticas para tornar esses modelos mais confiáveis em ambientes subrestritos.
Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades impressionantes em várias tarefas de processamento de linguagem natural (PLN) nos últimos anos. No entanto, sua suscetibilidade a jailbreaks e perturbações exige avaliações adicionais. Muitos LLMs são multilíngues, mas os dados de treinamento relacionados à segurança contêm principalmente idiomas de alta disponibilidade, como o inglês. Isso pode deixá-los vulneráveis a perturbações em idiomas de baixa disponibilidade, como o polonês. Mostramos como ataques surpreendentemente fortes podem ser criados de forma barata alterando apenas alguns caracteres e usando um pequeno modelo proxy para calcular a importância das palavras. Descobrimos que esses ataques em nível de caracteres e palavras alteram drasticamente as previsões de diferentes LLMs, sugerindo uma vulnerabilidade potencial que pode ser usada para contornar seus mecanismos internos de segurança. Validamos nossa metodologia de construção de ataques no polonês, um idioma de baixa disponibilidade, e encontramos vulnerabilidades potenciais dos LLMs nesse idioma. Além disso, mostramos como ela pode ser estendida a outros idiomas. Disponibilizamos os conjuntos de dados e o código criados para pesquisas futuras.
Modelos Multimodais de Grande Escala (LMMs) frequentemente dependem da aprendizagem em contexto (ICL) para realizar novas tarefas com supervisão mínima. No entanto, o desempenho da ICL, especialmente em LMMs menores, é inconsistente e nem sempre melhora de forma monotônica com o aumento de exemplos. Nossa hipótese é que isso ocorre porque o LMM fica sobrecarregado com informações adicionais presentes nos embeddings de imagem, que não são necessárias para a tarefa subsequente. Para abordar esse problema, propomos uma abordagem de meta-aprendizagem que oferece uma alternativa para induzir capacidades de poucos exemplos em LMMs, utilizando um conjunto fixo de prompts suaves que são destilados a partir de características de imagem relevantes para a tarefa e podem ser adaptados no momento do teste usando poucos exemplos. Para facilitar essa destilação, introduzimos um módulo de mapeamento de atenção que pode ser facilmente integrado à popular arquitetura LLaVA v1.5 e é aprendido em conjunto com os prompts suaves, permitindo a adaptação de tarefas em LMMs em regimes de baixo volume de dados com apenas alguns passos de gradiente. A avaliação no VL-ICL Bench mostra que nosso método supera consistentemente a ICL e abordagens relacionadas de ajuste de prompt, mesmo sob perturbações de imagem, melhorando a indução de tarefas e o raciocínio em tarefas de resposta a perguntas visuais.
Apresentamos um método livre de treinamento para transplantar tokenizadores em modelos de linguagem grandes (LLMs) pré-treinados, reconstruindo embeddings de tokens não vistos por meio de Busca Ortogonal de Correspondência (Orthogonal Matching Pursuit - OMP). Especificamente, aproximamos cada token fora do vocabulário como uma combinação linear esparsa de tokens compartilhados, em duas fases: primeiro, calculamos a representação de cada novo token no espaço de embeddings do doador com um pequeno dicionário de tokens âncora compartilhados, depois transferimos esses mesmos coeficientes esparsos de volta para o espaço de embeddings do modelo base. Em duas tarefas desafiadoras de cross-tokenizer—LlamatoMistral NeMo (12B) e QwentoLlama (1B)—mostramos que o OMP alcança a melhor preservação zero-shot do desempenho do modelo base em múltiplos benchmarks, enquanto outras abordagens zero-shot degradam significativamente. Comparado às baselines (zero-init, mean-init e abordagens existentes como WECHSEL, FOCUS, ZETT), o OMP consistentemente alcança o melhor desempenho geral, efetivamente superando grandes discrepâncias de tokenizadores sem atualizações de gradiente. Nossa análise ainda identifica esquemas de tokenização numérica incompatíveis como um desafio crítico para preservar capacidades de raciocínio matemático. Essa técnica permite a reutilização direta de pesos de modelos pré-treinados com novos tokenizadores, facilitando a destilação de conhecimento cross-tokenizer, decodificação especulativa, ensembling, fusão e adaptações de vocabulário específicas de domínio. Integramos nosso método na ferramenta de código aberto mergekit-tokensurgeon para realinhamento de vocabulário pós-hoc.
Os avanços recentes em IA conversacional têm sido significativos, mas o desenvolvimento de sistemas em tempo real para orientação de tarefas perceptuais continua desafiador. Esses sistemas devem fornecer assistência interativa e proativa com base em entradas visuais em fluxo contínuo, mas seu desenvolvimento é limitado pelo processo custoso e trabalhoso de coleta de dados e avaliação do sistema. Para abordar essas limitações, apresentamos um framework abrangente com três contribuições principais. Primeiro, introduzimos um pipeline inovador de curadoria de dados que sintetiza diálogos a partir de vídeos egocêntricos anotados, resultando no \dataset, um conjunto de dados de diálogos sintéticos em larga escala que abrange múltiplos domínios. Segundo, desenvolvemos um conjunto de métricas de avaliação automática, validadas por meio de extensos estudos com humanos. Terceiro, propomos um modelo end-to-end que processa entradas de vídeo em fluxo para gerar respostas contextualmente apropriadas, incorporando técnicas inovadoras para lidar com desequilíbrios de dados e vídeos de longa duração. Este trabalho estabelece as bases para o desenvolvimento de assistentes de IA proativos e em tempo real, capazes de guiar os usuários em diversas tarefas. Página do projeto: https://pro-assist.github.io/
Fundamentais para a língua e cultura chinesas, os caracteres chineses abrangem categorias extraordinariamente extensas e em constante expansão, com o mais recente padrão chinês GB18030-2022 contendo 87.887 categorias. O reconhecimento preciso desse vasto número de caracteres, denominado reconhecimento de megacategorias, apresenta um desafio formidável, porém crucial, para a preservação do patrimônio cultural e aplicações digitais. Apesar dos avanços significativos no Reconhecimento Óptico de Caracteres (OCR), o reconhecimento de megacategorias permanece inexplorado devido à ausência de conjuntos de dados abrangentes, com o maior conjunto de dados existente contendo meramente 16.151 categorias. Para preencher essa lacuna crítica, apresentamos o MegaHan97K, um conjunto de dados em larga escala de megacategorias que abrange um número sem precedentes de 97.455 categorias de caracteres chineses. Nosso trabalho oferece três contribuições principais: (1) O MegaHan97K é o primeiro conjunto de dados a suportar totalmente o mais recente padrão GB18030-2022, fornecendo pelo menos seis vezes mais categorias do que os conjuntos de dados existentes; (2) Ele aborda efetivamente o problema de distribuição de cauda longa, fornecendo amostras equilibradas em todas as categorias por meio de seus três subconjuntos distintos: manuscrito, histórico e sintético; (3) Experimentos abrangentes de benchmarking revelam novos desafios em cenários de megacategorias, incluindo demandas aumentadas de armazenamento, reconhecimento de caracteres morfologicamente semelhantes e dificuldades de aprendizado zero-shot, ao mesmo tempo em que desbloqueiam oportunidades substanciais para pesquisas futuras. Até onde sabemos, o MegaHan97K é provavelmente o conjunto de dados com o maior número de classes não apenas no campo de OCR, mas também no domínio mais amplo de reconhecimento de padrões. O conjunto de dados está disponível em https://github.com/SCUT-DLVCLab/MegaHan97K.
O alinhamento de Modelos de Linguagem de Grande Escala (LLMs) é crucial para garantir sua segurança e confiabilidade em aplicações práticas. A Otimização de Preferência Direta (DPO) surgiu como um método eficiente que otimiza diretamente os modelos usando pares de preferência, reduzindo significativamente as demandas de recursos. No entanto, a eficácia da DPO depende fortemente da qualidade dos dados, que frequentemente é comprometida por ruídos. Neste trabalho, propomos o gamma-PO, um algoritmo de otimização de preferência com margem dinâmica que ajusta as margens de recompensa no nível de pares. Ao introduzir uma calibração de margem específica para cada instância, o gamma-PO prioriza estrategicamente pares de alta confiança (aqueles que demonstram margens de recompensa mais altas) enquanto suprime o ruído potencial de pares ambíguos. Além disso, o gamma-PO é um método plug-and-play, compatível com variantes da DPO que dependem da margem de recompensa entre pares de preferência. Em benchmarks como AlpacaEval2 e Arena-Hard, o gamma-PO alcança uma melhoria média de 4,4% em relação a outras baselines, estabelecendo novos padrões para o desempenho de última geração. Adicionalmente, o gamma-PO requer mudanças mínimas de código e tem um impacto insignificante na eficiência do treinamento, tornando-o uma solução robusta para aprimorar o alinhamento de LLMs. Nossos códigos estão disponíveis em https://github.com/sunjie279/gammaPO{https://github.com/sunjie279/gammaPO}.
Modelos de linguagem de grande escala (LLMs) frequentemente se recusam a responder a instruções pseudo-maliciosas: consultas de entrada semanticamente inofensivas que desencadeiam recusas desnecessárias dos LLMs devido a alinhamentos de segurança conservadores, prejudicando significativamente a experiência do usuário. Coletar tais instruções é crucial para avaliar e mitigar recusas excessivas, mas os métodos existentes de curadoria de instruções, como criação manual ou reescrita de instruções, carecem de escalabilidade ou falham em produzir prompts suficientemente diversos e eficazes para induzir recusas. Para abordar essas limitações, introduzimos o EVOREFUSE, uma abordagem de otimização de prompts que gera instruções pseudo-maliciosas diversas que consistentemente eliciam recusas confiantes em LLMs. O EVOREFUSE emprega um algoritmo evolutivo que explora o espaço de instruções em direções mais diversas do que os métodos existentes, por meio de estratégias de mutação e recombinação, e evolui iterativamente instruções iniciais para maximizar o limite inferior de evidência sobre a probabilidade de recusa dos LLMs. Usando o EVOREFUSE, criamos dois novos conjuntos de dados: EVOREFUSE-TEST, um benchmark de 582 instruções pseudo-maliciosas que supera o próximo melhor benchmark com uma taxa média de desencadeamento de recusas 140,41% maior em 9 LLMs, 34,86% maior diversidade lexical e 40,03% de melhoria nas pontuações de confiança das respostas dos LLMs; e EVOREFUSE-ALIGN, que fornece 3.000 instruções pseudo-maliciosas com respostas para treinamento de alinhamento supervisionado e baseado em preferências. O LLAMA3.1-8B-INSTRUCT ajustado supervisionadamente no EVOREFUSE-ALIGN alcança até 14,31% menos recusas excessivas do que modelos treinados no segundo melhor conjunto de dados de alinhamento, sem comprometer a segurança. Nossa análise com o EVOREFUSE-TEST revela que os modelos desencadeiam recusas excessivas ao focar excessivamente em palavras-chave sensíveis, ignorando o contexto mais amplo.