Artigos de pesquisa em IA selecionados diariamente com traduções
Para superar os limites de contexto dos grandes modelos de linguagem (LLMs) que prejudicam a precisão e eficiência do raciocínio, propomos o Modelo de Inferência em Threads (TIM), uma família de LLMs treinados para resolução recursiva e decomposicional de problemas, e o TIMRUN, um ambiente de execução de inferência que permite raciocínio estruturado de longo horizonte além dos limites de contexto. Juntos, o TIM hospedado no TIMRUN suporta uma memória de trabalho virtualmente ilimitada e chamadas de ferramentas multi-hop dentro de uma única inferência de modelo de linguagem, superando limites de saída, restrições de embeddings posicionais e gargalos de memória da GPU. O desempenho é alcançado ao modelar a linguagem natural como árvores de raciocínio medidas tanto por comprimento quanto por profundidade, em vez de sequências lineares. As árvores de raciocínio consistem em tarefas com pensamentos, subtarefas recursivas e conclusões, baseadas no conceito que propusemos em Schroeder et al, 2025. Durante a geração, mantemos uma memória de trabalho que retém apenas os estados chave-valor dos tokens de contexto mais relevantes, selecionados por um mecanismo de poda de subtarefas baseado em regras, permitindo a reutilização de embeddings posicionais e páginas de memória da GPU ao longo do raciocínio. Resultados experimentais mostram que nosso sistema mantém alta taxa de transferência de inferência, mesmo ao manipular até 90% do cache KV na memória da GPU. Ele também fornece raciocínio preciso em tarefas matemáticas e lida com desafios de recuperação de informação que exigem raciocínio de longo horizonte e uso de ferramentas multi-hop.
Este artigo apresenta o Step-Audio~2, um modelo de linguagem multimodal de ponta a ponta projetado para compreensão de áudio e conversação de fala em nível industrial. Ao integrar um codificador de áudio latente e aprendizado por reforço (RL) centrado em raciocínio, o Step-Audio 2 alcança desempenho promissor em reconhecimento automático de fala (ASR) e compreensão de áudio. Para facilitar uma conversação de fala genuinamente de ponta a ponta, o Step-Audio 2 incorpora a geração de tokens de áudio discretos na modelagem de linguagem, melhorando significativamente sua capacidade de resposta a informações paralinguísticas, como estilos de fala e emoções. Para aproveitar efetivamente o rico conhecimento textual e acústico em dados do mundo real, o Step-Audio 2 integra geração aumentada por recuperação (RAG) e é capaz de chamar ferramentas externas, como busca na web para mitigar alucinações e busca de áudio para alternar timbres. Treinado em milhões de horas de dados de fala e áudio, o Step-Audio 2 oferece inteligência e expressividade em diversos cenários conversacionais. Os resultados de avaliação demonstram que o Step-Audio 2 alcança desempenho de ponta em vários benchmarks de compreensão de áudio e conversação em comparação com outras soluções de código aberto e comerciais. Para mais informações, visite https://github.com/stepfun-ai/Step-Audio2.
O raciocínio científico é crucial para o desenvolvimento de cientistas de IA e para apoiar pesquisadores humanos no avanço das fronteiras da descoberta das ciências naturais. No entanto, a comunidade de código aberto tem se concentrado principalmente em matemática e programação, negligenciando o domínio científico, em grande parte devido à ausência de conjuntos de dados abertos, em larga escala, de alta qualidade e verificáveis para raciocínio científico. Para preencher essa lacuna, apresentamos primeiro o TextbookReasoning, um conjunto de dados aberto que contém respostas de referência confiáveis extraídas de 12 mil livros científicos de nível universitário, compreendendo 650 mil questões de raciocínio que abrangem 7 disciplinas científicas. Além disso, introduzimos o MegaScience, uma mistura em larga escala de conjuntos de dados de código aberto de alta qualidade, totalizando 1,25 milhão de instâncias, desenvolvido por meio de estudos de ablação sistemáticos que avaliam várias metodologias de seleção de dados para identificar o subconjunto ideal para cada conjunto de dados científico disponível publicamente. Paralelamente, construímos um sistema de avaliação abrangente que cobre diversos assuntos e tipos de questões em 15 benchmarks, incorporando estratégias abrangentes de extração de respostas para garantir métricas de avaliação precisas. Nossos experimentos demonstram que nossos conjuntos de dados alcançam desempenho superior e eficiência de treinamento com comprimentos de resposta mais concisos em comparação com os conjuntos de dados científicos de código aberto existentes. Além disso, treinamos os modelos base Llama3.1, Qwen2.5 e Qwen3 no MegaScience, que superam significativamente os modelos instruct oficiais correspondentes em desempenho médio. Adicionalmente, o MegaScience demonstra maior eficácia para modelos maiores e mais robustos, sugerindo um benefício de escalabilidade para ajuste científico. Disponibilizamos nossa pipeline de curadoria de dados, sistema de avaliação, conjuntos de dados e sete modelos treinados para a comunidade, a fim de avançar a pesquisa em raciocínio científico.
Tarefas de raciocínio visão-linguagem-ação (VLA) exigem que agentes interpretem instruções multimodais, realizem planejamento de longo prazo e ajam de forma adaptativa em ambientes dinâmicos. As abordagens existentes geralmente treinam modelos VLA de ponta a ponta, mapeando diretamente entradas para ações sem raciocínio explícito, o que limita sua capacidade de planejar em múltiplos passos ou se adaptar a variações complexas de tarefas. Neste artigo, propomos o ThinkAct, um framework de sistema duplo que conecta o raciocínio de alto nível à execução de ações de baixo nível por meio de planejamento visual latente reforçado. O ThinkAct treina um modelo de linguagem multimodal (LLM) para gerar planos de raciocínio incorporados, guiados por recompensas visuais alinhadas à ação com base na conclusão de objetivos e na consistência da trajetória. Esses planos de raciocínio são comprimidos em um latente visual de plano que condiciona um modelo de ação subsequente para execução robusta de ações em ambientes-alvo. Experimentos extensivos em benchmarks de raciocínio incorporado e manipulação robótica demonstram que o ThinkAct permite adaptação com poucos exemplos, planejamento de longo prazo e comportamentos de autocorreção em tarefas complexas de IA incorporada.
Transformers de difusão surgiram como uma alternativa aos modelos de difusão baseados em U-net para geração de imagens e vídeos de alta fidelidade, oferecendo escalabilidade superior. No entanto, sua pesada computação continua sendo um grande obstáculo para implantação no mundo real. Os métodos de aceleração existentes exploram principalmente a dimensão temporal, como a reutilização de recursos armazenados em cache ao longo das etapas de difusão. Aqui, propomos o *Region-Adaptive Latent Upsampling* (RALU), uma estrutura livre de treinamento que acelera a inferência ao longo da dimensão espacial. O RALU realiza amostragem de resolução mista em três estágios: 1) difusão latente de baixa resolução para capturar eficientemente a estrutura semântica global, 2) upsampling adaptativo por região em áreas específicas propensas a artefatos em resolução total, e 3) upsampling latente completo em resolução total para refinamento de detalhes. Para estabilizar as gerações durante as transições de resolução, utilizamos o reagendamento de níveis de ruído para adaptar o nível de ruído em diferentes resoluções. Nosso método reduz significativamente a computação enquanto preserva a qualidade da imagem, alcançando até 7,0 vezes de aceleração no FLUX e 3,0 vezes no Stable Diffusion 3 com degradação mínima. Além disso, o RALU é complementar a acelerações temporais existentes, como métodos de cache, podendo ser integrado de forma contínua para reduzir ainda mais a latência de inferência sem comprometer a qualidade da geração.
Os seres humanos frequentemente utilizam recursos visuais, como diagramas ou esboços, ao resolver problemas complexos. Treinar modelos multimodais para fazer o mesmo, conhecido como Cadeia de Pensamento Visual (Visual CoT), é desafiador devido a: (1) o fraco desempenho de soluções prontas para uso de Visual CoT, o que dificulta o aprendizado por reforço, e (2) a falta de dados de treinamento de alta qualidade para Visual CoT. Apresentamos o Zebra-CoT, um conjunto de dados diversificado e em larga escala com 182.384 amostras, contendo traços de raciocínio intercalados de texto e imagem logicamente coerentes. Focamos em quatro categorias de tarefas onde esboços ou raciocínio visual são especialmente naturais, abrangendo questões científicas como geometria, física e algoritmos; tarefas de raciocínio visual 2D como busca visual e quebra-cabeças; tarefas de raciocínio 3D incluindo inferência multi-hop em 3D, planejamento embarcado e robótico; problemas de lógica visual e jogos estratégicos como xadrez. O ajuste fino do modelo Anole-7B no corpus de treinamento Zebra-CoT resulta em uma melhoria de +12% na precisão do nosso conjunto de testes e proporciona um ganho de desempenho de até +13% em avaliações padrão de benchmarks de Modelos de Linguagem Visual (VLM). O ajuste fino do Bagel-7B produz um modelo que gera cadeias de raciocínio visual intercaladas de alta qualidade, destacando a eficácia do Zebra-CoT para o desenvolvimento de habilidades de raciocínio multimodal. Disponibilizamos nosso conjunto de dados e modelos em código aberto para apoiar o desenvolvimento e avaliação de Visual CoT.
Aprimorar grandes modelos de visão e linguagem (LVLMs) com raciocínio visual de pensamento lento é crucial para resolver tarefas multimodais complexas. No entanto, como os LVLMs são principalmente treinados com alinhamento visão-linguagem, é difícil adotar aprendizado por reforço (RL) on-policy para desenvolver a capacidade de pensamento lento, pois o espaço de rollouts é restrito por suas habilidades iniciais. O RL off-policy oferece uma maneira de ir além da política atual, mas a destilação direta de trajetórias de modelos externos pode causar alucinações visuais devido a habilidades de percepção visual desalinhadas entre os modelos. Para abordar esses problemas, este artigo propõe o SOPHIA, um RL Semi-Off-Policy simples e escalável para raciocínio de pensamento lento em visão e linguagem. O SOPHIA constrói um modelo de comportamento semi-off-policy combinando a compreensão visual on-policy de um LVLM treinável com o raciocínio de pensamento lento off-policy de um modelo de linguagem, atribui recompensas baseadas em resultados ao raciocínio e propaga recompensas visuais retroativamente. Em seguida, o LVLM aprende a capacidade de raciocínio de pensamento lento a partir das trajetórias de raciocínio obtidas usando recompensas propagadas por meio de algoritmos de RL off-policy. Experimentos extensivos com InternVL2.5 e InternVL3.0 com tamanhos de 8B e 38B mostram a eficácia do SOPHIA. Notavelmente, o SOPHIA melhora o InternVL3.0-38B em 8,50% em média, alcançando desempenho de ponta entre LVLMs de código aberto em vários benchmarks de raciocínio multimodal, e até supera alguns modelos de código fechado (por exemplo, GPT-4.1) nos desafiadores MathVision e OlympiadBench, atingindo 49,08% e 49,95% de precisão pass@1, respectivamente. A análise mostra que o SOPHIA supera o ajuste fino supervisionado e os métodos diretos de RL on-policy, oferecendo uma melhor inicialização de política para treinamento on-policy adicional.
Modelos visão-linguagem (VLMs) têm sido amplamente adotados em robótica para permitir planejamento autônomo. No entanto, ancorar VLMs, originalmente treinados em dados da internet, a diversos robôs do mundo real continua sendo um desafio. Este artigo apresenta o ExpTeach, uma estrutura que ancora VLMs a robôs físicos construindo uma memória autogerada de experiências do mundo real. No ExpTeach, o VLM planeja ações de forma autônoma, verifica resultados, reflete sobre falhas e adapta comportamentos do robô em um ciclo fechado. As experiências autogeradas durante esse processo são então resumidas em uma memória de longo prazo, permitindo a recuperação de conhecimentos aprendidos para orientar tarefas futuras por meio de geração aumentada por recuperação (RAG). Além disso, o ExpTeach aprimora a compreensão espacial dos VLMs com um módulo de anotação de imagens sob demanda. Em experimentos, mostramos que a reflexão melhora as taxas de sucesso de 36% para 84% em quatro tarefas robóticas desafiadoras e observamos o surgimento de interações inteligentes com objetos, incluindo o uso criativo de ferramentas. Em testes extensivos em 12 cenários do mundo real (incluindo oito inéditos), descobrimos que a ancoragem com memória de longo prazo aumenta as taxas de sucesso em tentativas únicas de 22% para 80%, demonstrando a eficácia e a generalizabilidade do ExpTeach.
Com o rápido avanço dos Modelos de Linguagem de Grande Escala (LLMs), o desenvolvimento de módulos críticos eficazes para orientação precisa tornou-se crucial, porém desafiador. Neste artigo, inicialmente demonstramos que o ajuste fino supervisionado para a construção de módulos críticos (amplamente adotado nas soluções atuais) falha em melhorar genuinamente as habilidades de crítica dos modelos, produzindo críticas superficiais com reflexões e verificações insuficientes. Para desbloquear capacidades de crítica sem precedentes, propomos o RefCritic, um módulo crítico de cadeia longa de pensamento baseado em aprendizado por reforço com recompensas duplas baseadas em regras: (1) correção em nível de instância dos julgamentos de solução e (2) precisões de refinamento do modelo de política com base nas críticas, visando gerar avaliações de alta qualidade com feedback acionável que oriente efetivamente o refinamento do modelo. Avaliamos o RefCritic nos modelos Qwen2.5-14B-Instruct e DeepSeek-R1-Distill-Qwen-14B em cinco benchmarks. Nas configurações de crítica e refinamento, o RefCritic demonstra vantagens consistentes em todos os benchmarks, por exemplo, ganhos de 6,8% e 7,2% no AIME25 para os respectivos modelos base. Notavelmente, sob votação majoritária, os modelos de política filtrados pelo RefCritic mostram uma escalabilidade superior com o aumento do número de votos. Além disso, apesar de ser treinado com supervisão em nível de solução, o RefCritic supera abordagens supervisionadas em nível de etapa no ProcessBench, um benchmark projetado para identificar etapas errôneas no raciocínio matemático.
Embora os métodos existentes de composição guiada por imagem possam ajudar a inserir um objeto em primeiro plano em uma região especificada pelo usuário de uma imagem de fundo, alcançando uma mesclagem natural dentro da região enquanto o restante da imagem permanece inalterado, observamos que esses métodos frequentemente enfrentam dificuldades na síntese de composições interação-conscientes e perfeitas quando a tarefa envolve interações humano-objeto. Neste artigo, propomos primeiro o HOComp, uma abordagem inovadora para compor um objeto em primeiro plano em uma imagem de fundo centrada no ser humano, garantindo interações harmoniosas entre o objeto em primeiro plano e a pessoa no fundo, bem como suas aparências consistentes. Nossa abordagem inclui dois designs principais: (1) Orientação de Pose Baseada em Região Dirigida por MLLMs (MRPG), que utiliza MLLMs para identificar a região de interação, bem como o tipo de interação (por exemplo, segurar e levantar), fornecendo restrições de grosseiras a refinadas para a pose gerada para a interação, enquanto incorpora marcos de pose humana para rastrear variações de ação e impor restrições de pose refinadas; e (2) Preservação de Aparência Consistente em Detalhes (DCAP), que unifica um mecanismo de modulação de atenção consciente da forma, uma perda de aparência multi-visão e uma perda de consistência de fundo para garantir formas/texturas consistentes do primeiro plano e reprodução fiel do ser humano no fundo. Em seguida, propomos o primeiro conjunto de dados, denominado Composição Humano-Objeto Consciente de Interação (IHOC), para a tarefa. Resultados experimentais em nosso conjunto de dados mostram que o HOComp gera efetivamente interações harmoniosas entre humanos e objetos com aparências consistentes, superando métodos relevantes qualitativa e quantitativamente.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) abriram novas oportunidades para a recuperação de literatura acadêmica. No entanto, os sistemas existentes frequentemente dependem de pipelines rígidos e exibem capacidades limitadas de raciocínio. Apresentamos o SPAR, uma estrutura multiagente que incorpora a decomposição de consultas baseada em RefChain e a evolução de consultas para permitir uma busca mais flexível e eficaz. Para facilitar a avaliação sistemática, também construímos o SPARBench, um benchmark desafiador com rótulos de relevância anotados por especialistas. Os resultados experimentais demonstram que o SPAR supera substancialmente as linhas de base fortes, alcançando até +56% de F1 no AutoScholar e +23% de F1 no SPARBench em relação à linha de base de melhor desempenho. Juntos, o SPAR e o SPARBench fornecem uma base escalável, interpretável e de alto desempenho para avançar a pesquisa em recuperação acadêmica. O código e os dados estarão disponíveis em: https://github.com/xiaofengShi/SPAR.
A quantização é uma técnica fundamental para reduzir o tamanho da rede e a complexidade computacional, representando os parâmetros da rede com uma precisão inferior. Os métodos tradicionais de quantização dependem do acesso aos dados de treinamento originais, que muitas vezes são restritos devido a preocupações com privacidade ou desafios de segurança. A Quantização Zero-Shot (ZSQ) aborda essa limitação utilizando dados sintéticos gerados a partir de modelos pré-treinados, eliminando a necessidade de dados reais de treinamento. Recentemente, a ZSQ foi estendida para a detecção de objetos. No entanto, os métodos existentes utilizam imagens sintéticas não rotuladas e independentes da tarefa, que carecem das informações específicas necessárias para a detecção de objetos, resultando em desempenho subótimo. Neste artigo, propomos uma nova estrutura ZSQ específica para a tarefa de detecção de objetos, que consiste em duas etapas principais. Primeiro, introduzimos uma estratégia de amostragem de caixas delimitadoras e categorias para sintetizar um conjunto de calibração específico para a tarefa a partir da rede pré-treinada, reconstruindo as localizações, tamanhos e distribuições de categorias dos objetos sem qualquer conhecimento prévio. Segundo, integramos o treinamento específico da tarefa ao processo de destilação de conhecimento para restaurar o desempenho das redes de detecção quantizadas. Experimentos extensivos realizados nos conjuntos de dados MS-COCO e Pascal VOC demonstram a eficiência e o desempenho de ponta do nosso método. Nosso código está disponível publicamente em: https://github.com/DFQ-Dojo/dfq-toolkit.
A personalização de sistemas de IA requer compreender não apenas as preferências dos usuários, mas também as razões subjacentes a essas preferências - no entanto, os modelos de preferência atuais geralmente tratam o julgamento humano como uma caixa preta. Apresentamos o PrefPalette, uma estrutura que decompõe as preferências em dimensões de atributos e adapta sua previsão de preferência aos valores distintos de comunidades sociais de maneira interpretável para humanos. O PrefPalette opera um princípio da ciência cognitiva conhecido como tomada de decisão multi-atributo de duas formas: (1) uma etapa escalável de síntese de atributos contrafactuais que envolve a geração de dados de treinamento sintéticos para isolar os efeitos de atributos individuais (por exemplo, formalidade, humor, valores culturais), e (2) modelagem de preferência baseada em atenção que aprende como diferentes comunidades sociais ponderam dinamicamente esses atributos. Essa abordagem vai além da modelagem agregada de preferências para capturar os diversos frameworks de avaliação que impulsionam o julgamento humano. Quando avaliado em 45 comunidades sociais da plataforma online Reddit, o PrefPalette superou o GPT-4o em 46,6% na precisão média de previsão. Além de melhorias preditivas brutas, o PrefPalette também revelou perfis intuitivos e específicos de cada comunidade: comunidades acadêmicas priorizam verbosidade e estímulo, comunidades orientadas a conflitos valorizam sarcasmo e diretividade, e comunidades de suporte enfatizam empatia. Ao modelar a estrutura mediada por atributos do julgamento humano, o PrefPalette oferece tanto uma modelagem superior de preferências quanto insights transparentes e interpretáveis, servindo como um primeiro passo em direção a aplicações personalizadas mais confiáveis e conscientes de valores.
O 3D Gaussian Splatting é reconhecido por suas reconstruções de alta fidelidade e síntese de novas visões em tempo real, porém sua falta de compreensão semântica limita a percepção em nível de objeto. Neste trabalho, propomos o ObjectGS, um framework consciente de objetos que unifica a reconstrução de cenas 3D com o entendimento semântico. Em vez de tratar a cena como um todo unificado, o ObjectGS modela objetos individuais como âncoras locais que geram Gaussianas neurais e compartilham IDs de objetos, permitindo uma reconstrução precisa em nível de objeto. Durante o treinamento, dinamicamente expandimos ou podamos essas âncoras e otimizamos suas características, enquanto uma codificação one-hot de ID com uma função de perda de classificação impõe restrições semânticas claras. Através de extensos experimentos, demonstramos que o ObjectGS não apenas supera os métodos state-of-the-art em tarefas de segmentação de vocabulário aberto e panóptica, mas também se integra perfeitamente com aplicações como extração de malhas e edição de cenas. Página do projeto: https://ruijiezhu94.github.io/ObjectGS_page
Recentemente, Zaremba et al. demonstraram que aumentar a computação no momento da inferência melhora a robustez em grandes LLMs proprietários de raciocínio. Neste artigo, primeiro mostramos que modelos de menor escala e de código aberto (por exemplo, DeepSeek R1, Qwen3, Phi-reasoning) também podem se beneficiar do escalonamento no momento da inferência usando uma simples estratégia de forçamento de orçamento. Mais importante, revelamos e examinamos criticamente uma suposição implícita em trabalhos anteriores: os passos intermediários de raciocínio estão ocultos dos adversários. Ao relaxar essa suposição, identificamos um importante risco de segurança, intuitivamente motivado e empiricamente verificado como uma lei de escalonamento inverso: se os passos intermediários de raciocínio se tornam explicitamente acessíveis, o aumento da computação no momento da inferência reduz consistentemente a robustez do modelo. Por fim, discutimos cenários práticos em que modelos com cadeias de raciocínio ocultas ainda são vulneráveis a ataques, como modelos com raciocínio integrado a ferramentas e ataques avançados de extração de raciocínio. Nossas descobertas demonstram coletivamente que os benefícios de robustez do escalonamento no momento da inferência dependem fortemente do cenário adversário e do contexto de implantação. Instamos os profissionais a ponderar cuidadosamente essas compensações sutis antes de aplicar o escalonamento no momento da inferência em aplicações do mundo real sensíveis à segurança.
O ajuste fino de grandes modelos de linguagem (LLMs) pode levar a generalizações não intencionais fora da distribuição. Abordagens padrão para esse problema dependem da modificação dos dados de treinamento, por exemplo, adicionando dados que especifiquem melhor a generalização desejada. No entanto, isso nem sempre é prático. Introduzimos o Ajuste Fino por Ablação de Conceitos (CAFT), uma técnica que utiliza ferramentas de interpretabilidade para controlar como os LLMs generalizam a partir do ajuste fino, sem a necessidade de modificar os dados de treinamento ou usar dados da distribuição alvo. Dado um conjunto de direções no espaço latente de um LLM correspondentes a conceitos indesejados, o CAFT funciona ablatando esses conceitos com projeções lineares durante o ajuste fino, direcionando o modelo para longe de generalizações não intencionais. Aplicamos com sucesso o CAFT a três tarefas de ajuste fino, incluindo o desalinhamento emergente, um fenômeno em que LLMs ajustados finamente em uma tarefa específica generalizam para fornecer respostas gravemente desalinhadas a perguntas gerais. Sem qualquer alteração nos dados de ajuste fino, o CAFT reduz as respostas desalinhadas em 10 vezes sem degradar o desempenho na distribuição de treinamento. No geral, o CAFT representa uma abordagem inovadora para direcionar a generalização de LLMs sem modificar os dados de treinamento.