Artigos de pesquisa em IA selecionados diariamente com traduções
Desafiando o consenso predominante de que modelos pequenos inerentemente carecem de raciocínio robusto, este relatório apresenta o VibeThinker-1.5B, um modelo denso de 1,5 bilhão de parâmetros desenvolvido por meio do nosso Princípio Espectro-Sinal (PES). Isso contesta a abordagem predominante de escalar parâmetros do modelo para melhorar capacidades, como visto em modelos como DeepSeek R1 (671B) e Kimi k2 (>1T). A estrutura PES emprega primeiro uma Destilação de Exploração de Diversidade em Duas Etapas (SFT) para gerar um amplo espectro de soluções, seguida por uma Otimização de Política Guiada por Entropia Máxima (RL) para amplificar o sinal correto. Com um custo total de treinamento de apenas US$ 7.800, o VibeThinker-1.5B demonstra capacidades de raciocínio superiores em comparação com modelos de código fechado como Magistral Medium e Claude Opus 4, e tem desempenho equivalente a modelos de código aberto como GPT OSS-20B Medium. Notavelmente, ele supera o DeepSeek R1, que é 400 vezes maior, em três benchmarks de matemática: AIME24 (80,3 vs. 79,8), AIME25 (74,4 vs. 70,0) e HMMT25 (50,4 vs. 41,7). Isso representa uma melhoria substancial em relação ao seu modelo base (6,7; 4,3; e 0,6, respectivamente). No LiveCodeBench V6, ele marca 51,1, superando os 50,3 do Magistral Medium e os 0,0 do seu modelo base. Esses achados demonstram que modelos pequenos podem alcançar capacidades de raciocínio comparáveis a modelos grandes, reduzindo drasticamente os custos de treinamento e inferência e, assim, democratizando a pesquisa avançada em IA.
A construção de agentes confiáveis de uso de computador requer *grounding*: a conexão precisa de instruções em linguagem natural com os elementos corretos na tela. Embora existam grandes conjuntos de dados para interações web e móveis, recursos de alta qualidade para ambientes de desktop são limitados. Para preencher essa lacuna, apresentamos o GroundCUA, um grande conjunto de dados de *grounding* para desktop construído a partir de demonstrações humanas especializadas. Ele abrange 87 aplicativos em 12 categorias e inclui 56 mil capturas de tela, com cada elemento na tela cuidadosamente anotado, totalizando mais de 3,56 milhões de anotações verificadas por humanos. A partir dessas demonstrações, geramos instruções diversas que capturam uma ampla gama de tarefas do mundo real, fornecendo dados de alta qualidade para o treinamento de modelos. Usando o GroundCUA, desenvolvemos a família de modelos GroundNext, que mapeia instruções para seus elementos de interface do usuário (UI) de destino. Tanto na escala de 3B quanto de 7B, o GroundNext alcança resultados de última geração em cinco *benchmarks* usando ajuste fino supervisionado, enquanto requer menos de um décimo dos dados de treinamento de trabalhos anteriores. O pós-treinamento com aprendizado por reforço melhora ainda mais o desempenho, e quando avaliado em um cenário de agente no *benchmark* OSWorld usando o o3 como planejador, o GroundNext atinge resultados comparáveis ou superiores aos modelos treinados com substancialmente mais dados. Esses resultados demonstram o papel crítico de conjuntos de dados de alta qualidade e orientados por especialistas no avanço de agentes de uso de computador de propósito geral.
Os Grandes Modelos de Linguagem (LLMs) demonstraram sucesso notável em sistemas conversacionais ao gerar respostas semelhantes às humanas. No entanto, eles podem apresentar limitações, especialmente quando é necessário considerar a personalização ou conhecimentos específicos. Em ambientes do mundo real, é impraticável depender dos usuários para detectar esses erros e solicitar uma nova resposta. Uma maneira de abordar esse problema é refinar a resposta antes de devolvê-la ao usuário. Embora as abordagens existentes se concentrem em refinar respostas dentro de um único LLM, esse método tem dificuldade em considerar os diversos aspectos necessários para conversas eficazes. Neste trabalho, propomos refinar respostas por meio de uma estrutura multiagente, onde cada agente assume um papel específico para cada aspecto. Focamos em três aspectos-chave cruciais para a qualidade conversacional: factualidade, personalização e coerência. Cada agente é responsável por revisar e refinar um desses aspectos, e seus feedbacks são então combinados para melhorar a resposta geral. Para melhorar a colaboração entre eles, introduzimos uma estratégia de comunicação dinâmica. Em vez de seguir uma sequência fixa de agentes, nossa abordagem seleciona e coordena de forma adaptativa os agentes mais relevantes com base nos requisitos específicos de cada consulta. Validamos nossa estrutura em conjuntos de dados conversacionais desafiadores, demonstrando que nosso método supera significativamente as linhas de base relevantes, particularmente em tarefas que envolvem conhecimento, persona do usuário ou ambos.
Os modelos de difusão mascarada demonstraram resultados competitivos em várias tarefas, incluindo geração de linguagem. No entanto, devido ao seu processo iterativo de refinamento, a inferência é frequentemente limitada por uma velocidade de amostragem lenta e estática. Para superar este problema, introduzimos o "KL-Adaptive Stability Sampling" (KLASS), um método de amostragem rápido e eficaz que explora a divergência KL a nível de token para identificar previsões estáveis e de alta confiança. Ao desmascarar múltiplos tokens em cada iteração sem qualquer treino adicional do modelo, a nossa abordagem acelera significativamente a geração, mantendo a qualidade da amostra. Em benchmarks de raciocínio, o KLASS alcança acelerações de até 2,78× em tempo real, melhorando o desempenho em relação à descodificação greedy padrão e obtendo resultados de última geração entre os amostradores baseados em difusão. Validamos ainda o KLASS em diversos domínios, incluindo geração de texto, imagem e moléculas, demonstrando a sua eficácia como um amostrador amplamente aplicável em diferentes modelos.
Os modelos de linguagem de grande escala avançaram significativamente a Tradução Automática Multilíngue (TAM), mas a ampla cobertura linguística, a qualidade de tradução consistente e o viés centrado no inglês permanecem como desafios em aberto. Para enfrentar esses desafios, apresentamos o LMT, um conjunto de modelos de Tradução Multilíngue de Grande Escala centrado no chinês e no inglês, abrangendo 60 idiomas e 234 direções de tradução. Durante o desenvolvimento, identificamos um fenômeno previamente negligenciado de degeneração direcional, no qual dados de ajuste fino multivia simétricos superenfatizam as direções reversas (X para En/Zh), levando a excessivos mapeamentos muitos-para-um e à degradação da qualidade da tradução. Propomos a Amostragem Estratégica (Strategic Downsampling), um método simples mas eficaz para mitigar essa degeneração. Além disso, projetamos o Prompting Multilíngue Paralelo (PMP), que aproveita línguas auxiliares tipologicamente relacionadas para melhorar a transferência cross-lingual. Por meio de uma curadoria rigorosa de dados e estratégias de adaptação refinadas, o LMT alcança desempenho de estado da arte entre modelos de cobertura linguística comparável, com nosso modelo de 4B (LMT-60-4B) superando os modelos muito maiores Aya-101-13B e NLLB-54B por uma margem substancial. Lançamos o LMT em quatro tamanhos (0.6B/1.7B/4B/8B) para catalisar pesquisas futuras e fornecer bases sólidas para uma TAM inclusiva, escalável e de alta qualidade \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora de forma confiável o desempenho de raciocínio de modelos de linguagem grandes, embora aparente modificar apenas uma pequena fração dos parâmetros. Revisitamos este paradoxo e mostramos que a esparsidade é um artefato superficial de um viés de otimização condicionado pelo modelo: para um modelo pré-treinado fixo, as atualizações se localizam consistentemente em regiões de parâmetros preferenciais, altamente consistentes entre execuções e em grande parte invariantes a conjuntos de dados e receitas de RL. Explicamos mecanicamente essas dinâmicas com uma Teoria dos Três Portões: o Portão I (Âncora de KL) impõe uma atualização com restrição de KL; o Portão II (Geometria do Modelo) direciona o passo para fora das direções principais, em subespaços de baixa curvatura que preservam o espectro; e o Portão III (Precisão) oculta micro-atualizações em regiões não preferenciais, fazendo com que o viés fora das direções principais apareça como esparsidade. Em seguida, validamos esta teoria e, pela primeira vez, fornecemos uma caracterização em nível de parâmetro das dinâmicas de aprendizado do RLVR: o RLVR aprende fora das direções principais no espaço de pesos, alcançando ganhos por meio de desvio espectral mínimo, rotação reduzida do subespaço principal e alinhamento de atualizações fora do principal. Em contraste, o Ajuste Fino Supervisionado (SFT) visa os pesos principais, distorce o espectro e até fica aquém do RLVR. Juntos, esses resultados fornecem o primeiro relato no espaço de parâmetros das dinâmicas de treinamento do RLVR, revelando regularidades claras em como os parâmetros evoluem. Crucialmente, mostramos que o RL opera em um regime de otimização distinto do SFT, portanto, adaptar diretamente métodos de ajuste fino eficiente em parâmetros (PEFT) da era do SFT pode ser falho, como evidenciado por nossos estudos de caso sobre variantes avançadas de ajuste fino esparso e LoRA. Esperamos que este trabalho trace um caminho para uma compreensão de caixa-branca do RLVR e para o projeto de algoritmos de aprendizado nativos do RLVR e conscientes da geometria, em vez de heurísticas reaproveitadas da era do SFT.
O desempenho de grandes modelos de linguagem (LLMs) e grandes modelos multimodais (LMMs) depende fortemente da qualidade e da escala dos seus conjuntos de dados de pré-treinamento. Pesquisas recentes mostram que grandes modelos multimodais treinados em documentos naturais, onde imagens e texto são intercalados, superam aqueles treinados apenas em pares imagem-texto em uma ampla gama de benchmarks, aproveitando modelos de pré-treinamento avançados para impor alinhamento semântico, consistência de sequência de imagens e coerência textual. No entanto, para o árabe, a falta de conjuntos de dados multimodais de alta qualidade que preservem a estrutura do documento tem limitado o progresso. Neste artigo, apresentamos nosso pipeline Wasm para processar o conjunto de dados Common Crawl a fim de criar um novo conjunto de dados multimodal para árabe que oferece, de forma única, saída em formato markdown. Diferente de corpora árabes existentes que se concentram apenas na extração de texto, nossa abordagem preserva a integridade estrutural do conteúdo da web, mantendo a flexibilidade para cenários de pré-treinamento apenas de texto e multimodais. Fornecemos uma análise comparativa abrangente do nosso pipeline de processamento de dados em relação aos utilizados para os principais conjuntos de dados existentes, destacando as convergências nas estratégias de filtragem e justificando nossas escolhas de design específicas. Para apoiar pesquisas futuras, disponibilizamos publicamente um *dump* representativo do conjunto de dados, juntamente com o pipeline de processamento multimodal para árabe.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) avançou substancialmente as capacidades de compreensão de vídeo dos Modelos de Linguagem Multimodais de Grande Porte (MLLMs). No entanto, o rápido progresso dos MLLMs está superando a complexidade dos conjuntos de dados de vídeo existentes, enquanto a anotação manual de novos dados de alta qualidade permanece proibitivamente cara. Este trabalho investiga uma questão fundamental: A rica informação intrínseca contida nos vídeos pode ser aproveitada para auto-gerar dados de treinamento de alta qualidade e verificáveis? Para investigar isso, introduzimos três tarefas de pretexto auto-supervisionadas: Ancoragem de Anomalias, Contagem de Objetos e Quebra-Cabeça Temporal. Construímos o *Benchmark* de Compreensão Intrínseca de Vídeo (VIUBench) para validar sua dificuldade, revelando que os MLLMs estado da arte atuais têm dificuldades significativas nessas tarefas. Com base nessas tarefas de pretexto, desenvolvemos o conjunto de dados VideoSSR-30K e propomos o VideoSSR, uma nova estrutura de aprendizado por reforço auto-supervisionado para vídeo para RLVR. Experimentos extensos em 17 *benchmarks*, abrangendo quatro domínios principais de vídeo (QA de Vídeo Geral, QA de Vídeo Longo, Ancoragem Temporal e Raciocínio Complexo), demonstram que o VideoSSR melhora consistentemente o desempenho do modelo, resultando em uma melhoria média superior a 5%. Esses resultados estabelecem o VideoSSR como uma estrutura fundamental potente para o desenvolvimento de uma compreensão de vídeo mais avançada em MLLMs. O código está disponível em https://github.com/lcqysl/VideoSSR.
Os Modelos de Linguagem de Grande Porte (LLMs) enfrentam desafios fundamentais no raciocínio de contexto longo: muitos documentos excedem suas janelas de contexto finitas, enquanto o desempenho em textos que cabem nelas se degrada com o comprimento da sequência, tornando necessária sua ampliação com estruturas de memória externa. As soluções atuais, que evoluíram da recuperação usando incorporações semânticas para representações mais sofisticadas baseadas em grafos de conhecimento estruturado para melhorar a compreensão e a associatividade, são adaptadas para recuperação baseada em fatos e não conseguem construir as representações narrativas ancoradas no espaço-tempo necessárias para rastrear entidades através de eventos episódicos. Para preencher essa lacuna, propomos o Espaço de Trabalho Semântico Generativo (GSW), uma estrutura de memória generativa de inspiração neurocientífica que constrói representações estruturadas e interpretáveis de situações em evolução, permitindo que os LLMs raciocinem sobre papéis, ações e contextos espaço-temporais dinâmicos. Nossa estrutura compreende um Operador, que mapeia observações recebidas para estruturas semânticas intermediárias, e um Reconcilidador, que as integra em um espaço de trabalho persistente que impõe coerência temporal, espacial e lógica. No Episodic Memory Benchmark (EpBench) huet_episodic_2025, que compreende corpora variando de 100k a 1M de tokens em extensão, o GSW supera as linhas de base existentes baseadas em RAG em até 20%. Além disso, o GSW é altamente eficiente, reduzindo os tokens de contexto no momento da consulta em 51% em comparação com a próxima linha de base mais eficiente em tokens, reduzindo consideravelmente os custos de tempo de inferência. De forma mais ampla, o GSW oferece um projeto concreto para dotar os LLMs de uma memória episódica semelhante à humana, abrindo caminho para agentes mais capazes que podem raciocinar sobre horizontes longos.
As consultas a modelos de linguagem de grande escala (LLMs) são predominantemente processadas por modelos de ponta em infraestruturas de nuvem centralizadas. A demanda em rápido crescimento tensiona este paradigma, e os provedores de nuvem lutam para dimensionar a infraestrutura no mesmo ritmo. Dois avanços permitem-nos repensar este paradigma: modelos de linguagem pequenos (<= 20 mil milhões de parâmetros ativos) alcançam agora um desempenho competitivo com os modelos de ponta em muitas tarefas, e aceleradores locais (por exemplo, Apple M4 Max) executam estes modelos com latências interativas. Isto levanta a questão: pode a inferência local redistribuir viabilmente a demanda da infraestrutura centralizada? Responder a isto requer medir se os LLMs locais podem responder com precisão a consultas do mundo real e se podem fazê-lo com eficiência suficiente para serem práticos em dispositivos com restrições de energia (ou seja, laptops). Propomos *inteligência por watt* (IPW), precisão da tarefa dividida por unidade de potência, como uma métrica para avaliar a capacidade e eficiência da inferência local em pares modelo-acelerador. Realizamos um estudo empírico em larga escala com mais de 20 LLMs locais state-of-the-art, 8 aceleradores e um subconjunto representativo do tráfego de LLM: 1 milhão de consultas reais de chat de turno único e de raciocínio. Para cada consulta, medimos precisão, energia, latência e potência. A nossa análise revela 3 conclusões. Primeiro, os LLMs locais podem responder com precisão a 88,7% das consultas de chat de turno único e de raciocínio, com a precisão a variar conforme o domínio. Segundo, de 2023 a 2025, o IPW melhorou 5,3 vezes e a cobertura de consultas locais aumentou de 23,2% para 71,3%. Terceiro, os aceleradores locais alcançam pelo menos 1,4 vezes menos IPW do que os aceleradores de nuvem a executar modelos idênticos, revelando uma margem significativa para otimização. Estas conclusões demonstram que a inferência local pode redistribuir significativamente a demanda da infraestrutura centralizada, com o IPW a servir como a métrica crítica para acompanhar esta transição. Disponibilizamos a nossa ferramenta de perfilização de IPW para uma avaliação sistemática de inteligência por watt.
Em sistemas modernos de tomada de decisão sequencial, a construção de um espaço de ação candidato ideal é crucial para uma inferência eficiente. Contudo, as abordagens existentes ou dependem de espaços de ação definidos manualmente que carecem de escalabilidade, ou utilizam espaços não estruturados que tornam a busca exaustiva computacionalmente proibitiva. Neste artigo, propomos uma nova estrutura denominada DynaAct para construir automaticamente um espaço de ação compacto que aprimore o raciocínio sequencial em cenários complexos de resolução de problemas. Nosso método primeiro estima um proxy para o espaço de ação completo através da extração de esboços gerais observados em um corpus que abrange diversos problemas complexos de raciocínio, utilizando modelos de linguagem de grande porte. Em seguida, formulamos uma função submodular que avalia conjuntamente as ações candidatas com base na sua utilidade para o estado atual e na sua diversidade, e empregamos um algoritmo guloso para selecionar um conjunto candidato ideal. Experimentos extensos em seis benchmarks padrão diversos demonstram que nossa abordagem melhora significativamente o desempenho geral, mantendo uma inferência eficiente sem introduzir latência substancial. A implementação está disponível em https://github.com/zhaoxlpku/DynaAct.
**Contexto:** Os Modelos de Linguagem de Grande Porte (LLMs) surgiram com o potencial de provocar uma revolução no desenvolvimento de software (por exemplo, automatizando processos, transformando a força de trabalho). Embora estudos tenham começado a investigar o impacto percebido dos LLMs para o desenvolvimento de software, há uma necessidade de estudos empíricos para compreender como equilibrar os efeitos positivos e negativos do uso desses modelos. **Objetivo:** Investigamos como os LLMs impactam o desenvolvimento de software e como gerenciar esse impacto a partir da perspectiva de um desenvolvedor de software. **Método:** Realizamos 22 entrevistas com profissionais de software em três rodadas de coleta e análise de dados, entre outubro de 2024 e setembro de 2025. Empregamos a Teoria Fundamentada Sociotécnica (Socio-Technical Grounded Theory - STGT) para a análise dos dados, a fim de examinar rigorosamente as respostas dos participantes das entrevistas. **Resultados:** Identificamos os benefícios (por exemplo, manter o fluxo de desenvolvimento de software, melhorar o modelo mental dos desenvolvedores e fomentar o empreendedorismo) e as desvantagens (por exemplo, impacto negativo na personalidade dos desenvolvedores e danos à sua reputação) do uso de LLMs nos níveis individual, de equipe, organizacional e social; bem como as melhores práticas sobre como adotar os LLMs. **Conclusão:** De forma crítica, apresentamos os trade-offs que profissionais, equipes e organizações de software enfrentam ao trabalhar com LLMs. Nossas descobertas são particularmente úteis para líderes de equipes de software e gerentes de TI avaliarem a viabilidade dos LLMs em seus contextos específicos.
O alinhamento melhorou significativamente a qualidade da saída dos grandes modelos de linguagem (LLMs) às custas da diversidade, produzindo resultados altamente similares entre gerações. Propomos o Base-Aligned Model Collaboration (BACo), uma estrutura de colaboração entre modelos a nível de token durante a inferência que combina dinamicamente um LLM base com a sua contraparte alinhada para otimizar diversidade e qualidade. Inspirado por trabalhos anteriores (Fei et al., 2025), o BACo emprega estratégias de roteamento que determinam, a cada token, de qual modelo decodificar com base na incerteza da previsão do próximo token e no papel semântico dos conteúdos previstos. Métodos anteriores de promoção da diversidade, como retreinamento, engenharia de prompt e métodos de amostragem múltipla, melhoram a diversidade, mas frequentemente degradam a qualidade ou requerem decodificação ou pós-treinamento dispendiosos. Em contraste, o BACo alcança alta diversidade e qualidade *post hoc* em uma única passagem, ao mesmo tempo que oferece forte controlabilidade. Exploramos uma família de estratégias de roteamento; em três tarefas de geração aberta e 13 métricas cobrindo diversidade e qualidade, o BACo supera consistentemente os métodos de estado da arte durante a inferência. Com o nosso melhor roteador, o BACo alcança uma melhoria conjunta de 21,3% em diversidade e qualidade. Avaliações humanas também refletem essas melhorias. Os resultados sugerem que a colaboração entre modelos base e alinhados pode otimizar e controlar a diversidade e a qualidade.
A busca temporal tem como objetivo identificar um conjunto mínimo de quadros relevantes de dezenas de milhares com base em uma consulta fornecida, servindo como base para uma compreensão precisa de vídeos de longa duração. Trabalhos existentes tentam reduzir progressivamente o espaço de busca. No entanto, essas abordagens geralmente dependem de um processo de busca manualmente elaborado, carecendo de otimização de ponta a ponta para aprender estratégias de busca ótimas. Neste artigo, propomos o TimeSearch-R, que reformula a busca temporal como um pensamento intercalado texto-vídeo, integrando perfeitamente a busca por clipes de vídeo no processo de raciocínio por meio de aprendizagem por reforço (RL). No entanto, a aplicação de métodos de treinamento de RL, como a Otimização de Política Relativa de Grupo (GRPO), ao raciocínio em vídeo pode resultar em decisões de busca intermediárias não supervisionadas. Isso leva a uma exploração insuficiente do conteúdo do vídeo e a um raciocínio lógico inconsistente. Para resolver esses problemas, introduzimos o GRPO com Autoverificação de Completude (GRPO-CSV), que coleta quadros de vídeo buscados no processo de raciocínio intercalado e utiliza o mesmo modelo de política para verificar a adequação dos quadros buscados, melhorando assim a completude do raciocínio em vídeo. Adicionalmente, construímos conjuntos de dados especificamente projetados para o arranque a frio de SFT e o treinamento de RL do GRPO-CSV, filtrando amostras com fracas dependências temporais para aumentar a dificuldade da tarefa e melhorar as capacidades de busca temporal. Experimentos extensivos demonstram que o TimeSearch-R alcança melhorias significativas em benchmarks de busca temporal como Haystack-LVBench e Haystack-Ego4D, bem como em benchmarks de compreensão de vídeos longos como VideoMME e MLVU. Notavelmente, o TimeSearch-R estabelece um novo estado da arte no LongVideoBench com uma melhoria de 4,1% sobre o modelo base Qwen2.5-VL e de 2,0% sobre o modelo avançado de raciocínio em vídeo Video-R1. Nosso código está disponível em https://github.com/Time-Search/TimeSearch-R.
Os negativos difíceis são essenciais para treinar modelos de recuperação eficazes. A mineração de negativos difíceis normalmente depende da classificação de documentos usando *cross-encoders* ou modelos de incorporação estática baseados em métricas de similaridade, como a distância do cosseno. A mineração de negativos difíceis torna-se um desafio para os domínios biomédico e científico devido à dificuldade em distinguir entre o documento fonte e os documentos negativos difíceis. No entanto, os documentos referenciados compartilham naturalmente uma relevância contextual com o documento fonte, mas não são duplicatas, tornando-os bem adequados como negativos difíceis. Neste trabalho, propomos o BiCA: Recuperação Densa Biomédica com Negativos Difíceis Cientes de Citações, uma abordagem para mineração de negativos difíceis que utiliza ligações de citação em 20.000 artigos do PubMed para melhorar um recuperador denso pequeno e específico de domínio. Ajustamos finamente os modelos GTE_small e GTE_Base usando esses negativos informados por citações e observamos melhorias consistentes na recuperação densa *zero-shot* usando nDCG@10 para tarefas dentro e fora do domínio no BEIR, superando as linhas de base em tópicos de cauda longa no LoTTE usando Success@5. Nossos achados destacam o potencial de aproveitar a estrutura de ligação de documentos para gerar negativos altamente informativos, permitindo um desempenho de ponta com ajuste fino mínimo e demonstrando um caminho para uma adaptação de domínio altamente eficiente em termos de dados.