Artigos de pesquisa em IA selecionados diariamente com traduções
O raciocínio está no cerne da inteligência, moldando a capacidade de tomar decisões, tirar conclusões e generalizar entre domínios. Na inteligência artificial, à medida que os sistemas operam cada vez mais em ambientes abertos, incertos e multimodais, o raciocínio torna-se essencial para permitir comportamentos robustos e adaptativos. Os Grandes Modelos de Raciocínio Multimodal (LMRMs, na sigla em inglês) surgiram como um paradigma promissor, integrando modalidades como texto, imagens, áudio e vídeo para apoiar capacidades complexas de raciocínio e visando alcançar percepção abrangente, compreensão precisa e raciocínio profundo. Com o avanço das pesquisas, o raciocínio multimodal evoluiu rapidamente de pipelines modulares e orientados por percepção para frameworks unificados e centrados em linguagem, que oferecem uma compreensão mais coerente entre modalidades. Embora o ajuste por instrução e o aprendizado por reforço tenham aprimorado o raciocínio dos modelos, desafios significativos permanecem em termos de generalização omni-modal, profundidade de raciocínio e comportamento agentivo. Para abordar essas questões, apresentamos uma revisão abrangente e estruturada da pesquisa em raciocínio multimodal, organizada em torno de um roteiro de desenvolvimento em quatro estágios que reflete as mudanças nas filosofias de design e as capacidades emergentes do campo. Primeiro, revisamos os esforços iniciais baseados em módulos específicos para tarefas, onde o raciocínio era implicitamente incorporado em estágios de representação, alinhamento e fusão. Em seguida, examinamos abordagens recentes que unificam o raciocínio em LLMs multimodais, com avanços como o Multimodal Chain-of-Thought (MCoT) e o aprendizado por reforço multimodal, permitindo cadeias de raciocínio mais ricas e estruturadas. Por fim, com base em insights empíricos de benchmarks desafiadores e casos experimentais do OpenAI O3 e O4-mini, discutimos a direção conceitual dos modelos nativos de raciocínio multimodal em larga escala (N-LMRMs), que visam apoiar raciocínio e planejamento escaláveis, agentivos e adaptativos em ambientes complexos do mundo real.
Propomos o Flow-GRPO, o primeiro método que integra aprendizado por reforço online (RL) em modelos de correspondência de fluxo (flow matching). Nossa abordagem utiliza duas estratégias principais: (1) uma conversão de EDO para EDS que transforma uma Equação Diferencial Ordinária (EDO) determinística em uma Equação Diferencial Estocástica (EDS) equivalente, que corresponde à distribuição marginal do modelo original em todos os intervalos de tempo, permitindo amostragem estatística para exploração em RL; e (2) uma estratégia de Redução de Ruído que reduz as etapas de remoção de ruído durante o treinamento, mantendo o número original de intervalos de tempo na inferência, melhorando significativamente a eficiência de amostragem sem degradação de desempenho. Empiricamente, o Flow-GRPO é eficaz em diversas tarefas de texto para imagem. Para composições complexas, o SD3.5 ajustado por RL gera contagens de objetos, relações espaciais e atributos de granularidade fina quase perfeitos, aumentando a precisão do GenEval de 63% para 95%. Na renderização de texto visual, sua precisão melhora de 59% para 92%, aprimorando significativamente a geração de texto. O Flow-GRPO também alcança ganhos substanciais no alinhamento com preferências humanas. Notavelmente, houve pouco ou nenhum "reward hacking", o que significa que as recompensas não aumentaram em detrimento da qualidade ou diversidade das imagens, e ambas permaneceram estáveis em nossos experimentos.
Avaliar o quão bem um modelo de linguagem de grande escala (LLM) compreende os seres humanos, em vez de meramente o texto, continua sendo um desafio em aberto. Para preencher essa lacuna, introduzimos o Agente Senciente como Juiz (SAGE, na sigla em inglês), um framework de avaliação automatizado que mede a cognição social de ordem superior de um LLM. O SAGE instancia um Agente Senciente que simula mudanças emocionais e pensamentos internos semelhantes aos humanos durante a interação, fornecendo uma avaliação mais realista do modelo testado em conversas de múltiplos turnos. A cada turno, o agente raciocina sobre (i) como sua emoção muda, (ii) como se sente e (iii) como deve responder, gerando uma trajetória emocional numérica e pensamentos internos interpretáveis. Experimentos em 100 cenários de diálogo de apoio mostram que a pontuação emocional final do Agente Senciente correlaciona-se fortemente com as avaliações do Inventário de Relacionamento Barrett-Lennard (BLRI) e métricas de empatia no nível do enunciado, validando a fidelidade psicológica. Também construímos um Leaderboard Senciente público que abrange 18 modelos comerciais e de código aberto, revelando lacunas substanciais (até 4x) entre sistemas de fronteira (GPT-4o-Latest, Gemini2.5-Pro) e baselines anteriores, lacunas não refletidas em leaderboards convencionais (por exemplo, Arena). Assim, o SAGE fornece uma ferramenta fundamentada, escalável e interpretável para acompanhar o progresso em direção a agentes de linguagem genuinamente empáticos e socialmente habilidosos.
Apresentamos o LegoGPT, a primeira abordagem para gerar modelos de blocos LEGO fisicamente estáveis a partir de prompts de texto. Para alcançar isso, construímos um conjunto de dados em larga escala de designs LEGO fisicamente estáveis, juntamente com suas legendas associadas, e treinamos um modelo de linguagem autoregressivo de grande escala para prever o próximo bloco a ser adicionado por meio de previsão do próximo token. Para melhorar a estabilidade dos designs resultantes, empregamos uma verificação de validade eficiente e um mecanismo de rollback com consciência física durante a inferência autoregressiva, que elimina previsões de tokens inviáveis usando leis da física e restrições de montagem. Nossos experimentos mostram que o LegoGPT produz designs LEGO estáveis, diversos e esteticamente agradáveis que se alinham de perto com os prompts de texto de entrada. Também desenvolvemos um método de texturização de LEGO baseado em texto para gerar designs coloridos e texturizados. Demonstramos que nossos designs podem ser montados manualmente por humanos e automaticamente por braços robóticos. Além disso, disponibilizamos nosso novo conjunto de dados, StableText2Lego, contendo mais de 47.000 estruturas LEGO de mais de 28.000 objetos 3D únicos acompanhados por legendas detalhadas, juntamente com nosso código e modelos no site do projeto: https://avalovelace1.github.io/LegoGPT/.
Modelos de raciocínio de grande escala (LRMs) alcançaram progressos notáveis em tarefas complexas ao gerar cadeias de pensamento (CoT) estendidas. No entanto, seus comprimentos de saída descontrolados apresentam desafios significativos para a implantação no mundo real, onde orçamentos de inferência em tokens, latência ou computação são estritamente limitados. Propomos o Raciocínio Elástico, uma nova estrutura para cadeias de pensamento escaláveis que separa explicitamente o raciocínio em duas fases—pensamento e solução—com orçamentos alocados de forma independente. No momento do teste, o Raciocínio Elástico prioriza a completude dos segmentos de solução, melhorando significativamente a confiabilidade sob restrições rigorosas de recursos. Para treinar modelos que sejam robustos ao pensamento truncado, introduzimos uma estratégia leve de roll-out com restrição de orçamento, integrada ao GRPO, que ensina o modelo a raciocinar de forma adaptativa quando o processo de pensamento é interrompido e generaliza efetivamente para restrições de orçamento não vistas sem treinamento adicional. Resultados empíricos em benchmarks matemáticos (AIME, MATH500) e de programação (LiveCodeBench, Codeforces) demonstram que o Raciocínio Elástico desempenha-se de forma robusta sob restrições rigorosas de orçamento, enquanto incorre em custos de treinamento significativamente menores do que os métodos de base. Notavelmente, nossa abordagem também produz raciocínios mais concisos e eficientes, mesmo em configurações sem restrições. O Raciocínio Elástico oferece uma solução fundamentada e prática para o desafio premente de raciocínio controlável em escala.
A geração de cenas 3D busca sintetizar ambientes espacialmente estruturados, semanticamente significativos e foto-realistas para aplicações como mídia imersiva, robótica, direção autônoma e IA incorporada. Métodos iniciais baseados em regras procedurais ofereciam escalabilidade, mas com diversidade limitada. Avanços recentes em modelos generativos profundos (por exemplo, GANs, modelos de difusão) e representações 3D (por exemplo, NeRF, Gaussianas 3D) permitiram o aprendizado de distribuições de cenas do mundo real, melhorando fidelidade, diversidade e consistência de visão. Avanços recentes, como modelos de difusão, conectam a síntese de cenas 3D e o foto-realismo ao reformular a geração como problemas de síntese de imagens ou vídeos. Esta pesquisa fornece uma visão sistemática das abordagens de ponta, organizando-as em quatro paradigmas: geração procedural, geração baseada em 3D neural, geração baseada em imagem e geração baseada em vídeo. Analisamos suas bases técnicas, compensações e resultados representativos, e revisamos conjuntos de dados comumente usados, protocolos de avaliação e aplicações subsequentes. Concluímos discutindo os principais desafios em capacidade de geração, representação 3D, dados e anotações, e avaliação, e delineamos direções promissoras, incluindo maior fidelidade, geração física-consciente e interativa, e modelos unificados de percepção-geração. Esta revisão organiza os avanços recentes na geração de cenas 3D e destaca direções promissoras na interseção de IA generativa, visão 3D e inteligência incorporada. Para acompanhar os desenvolvimentos em andamento, mantemos uma página de projeto atualizada: https://github.com/hzxie/Awesome-3D-Scene-Generation.
O Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP) se destaca em tarefas multimodais, como recuperação de imagem-texto e classificação zero-shot, mas enfrenta dificuldades com a compreensão de detalhes finos devido ao seu foco em legendas curtas e de alto nível. Para resolver isso, propomos o CLIP de Detalhes Finos (FG-CLIP), que aprimora a compreensão de detalhes finos por meio de três inovações principais. Primeiro, utilizamos modelos multimodais de grande escala para gerar 1,6 bilhão de pares de imagem-legenda longa, capturando detalhes semânticos em nível global. Segundo, construímos um conjunto de dados de alta qualidade com 12 milhões de imagens e 40 milhões de caixas delimitadoras específicas para regiões, alinhadas com legendas detalhadas, garantindo representações precisas e ricas em contexto. Terceiro, incorporamos 10 milhões de amostras negativas difíceis de detalhes finos para melhorar a capacidade do modelo de distinguir diferenças semânticas sutis. Métodos de treinamento correspondentes foram meticulosamente projetados para esses dados. Experimentos extensivos demonstram que o FG-CLIP supera o CLIP original e outros métodos state-of-the-art em várias tarefas subsequentes, incluindo compreensão de detalhes finos, detecção de objetos de vocabulário aberto, recuperação de imagem-texto e benchmarks multimodais gerais. Esses resultados destacam a eficácia do FG-CLIP em capturar detalhes finos de imagens e melhorar o desempenho geral do modelo. Os dados, códigos e modelos relacionados estão disponíveis em https://github.com/360CVGroup/FG-CLIP.
Modelos proprietários recentes (por exemplo, o3) começaram a demonstrar fortes capacidades de raciocínio multimodal. No entanto, a maioria das pesquisas de código aberto existentes concentra-se no treinamento de modelos de raciocínio apenas para texto, com avaliações limitadas principalmente a tarefas matemáticas e de domínio geral. Portanto, ainda não está claro como estender efetivamente as capacidades de raciocínio além da entrada de texto e de domínios gerais. Este artigo explora uma questão fundamental de pesquisa: O raciocínio é generalizável entre modalidades e domínios? Nossas descobertas apoiam uma resposta afirmativa: O pós-treinamento baseado em texto de domínio geral pode permitir um raciocínio tão fortemente generalizável. Aproveitando essa descoberta, introduzimos o X-Reasoner, um modelo de visão e linguagem pós-treinado apenas em texto de domínio geral para raciocínio generalizável, usando uma abordagem em duas etapas: uma fase inicial de ajuste fino supervisionado com cadeias de pensamento longas destiladas, seguida de aprendizado por reforço com recompensas verificáveis. Experimentos mostram que o X-Reasoner transfere com sucesso as capacidades de raciocínio para configurações multimodais e fora do domínio, superando os modelos state-of-the-art existentes treinados com dados in-domain e multimodais em vários benchmarks gerais e médicos (Figura 1). Além disso, descobrimos que o desempenho do X-Reasoner em domínios especializados pode ser ainda mais aprimorado por meio de treinamento contínuo em dados de texto específicos do domínio. Com base nisso, introduzimos o X-Reasoner-Med, uma variante especializada em medicina que alcança novos patamares state of the art em diversos benchmarks médicos de texto e multimodal.
Apresentamos a nova tarefa de Posicionamento de Objetos Guiado por Linguagem em Cenas 3D Reais. Nosso modelo recebe a nuvem de pontos de uma cena 3D, um ativo 3D e um prompt textual que descreve de forma ampla onde o ativo 3D deve ser posicionado. A tarefa aqui é encontrar um posicionamento válido para o ativo 3D que respeite o prompt. Em comparação com outras tarefas de localização guiada por linguagem em cenas 3D, como o grounding, esta tarefa apresenta desafios específicos: ela é ambígua porque possui múltiplas soluções válidas e requer raciocínio sobre relações geométricas 3D e espaço livre. Inauguramos esta tarefa propondo um novo benchmark e protocolo de avaliação. Também introduzimos um novo conjunto de dados para treinar LLMs 3D nesta tarefa, bem como o primeiro método a servir como uma linha de base não trivial. Acreditamos que esta tarefa desafiadora e nosso novo benchmark podem se tornar parte do conjunto de benchmarks usados para avaliar e comparar modelos gerais de LLMs 3D.
Apresentamos o StreamBridge, uma estrutura simples, porém eficaz, que transforma de forma contínua Video-LLMs offline em modelos capazes de operar em streaming. Ele aborda dois desafios fundamentais na adaptação de modelos existentes para cenários online: (1) capacidade limitada para compreensão em tempo real em múltiplas interações e (2) falta de mecanismos de resposta proativa. Especificamente, o StreamBridge incorpora (1) um buffer de memória combinado com uma estratégia de compressão com decaimento por rodada, suportando interações de múltiplas voltas em contextos longos, e (2) um modelo de ativação leve e desacoplado que pode ser integrado facilmente em Video-LLMs existentes, permitindo respostas proativas contínuas. Para apoiar ainda mais o StreamBridge, construímos o Stream-IT, um conjunto de dados em larga escala projetado para compreensão de vídeo em streaming, com sequências intercaladas de vídeo e texto e diversos formatos de instrução. Experimentos extensivos mostram que o StreamBridge melhora significativamente as capacidades de compreensão em streaming de Video-LLMs offline em várias tarefas, superando até mesmo modelos proprietários como GPT-4o e Gemini 1.5 Pro. Simultaneamente, ele alcança desempenho competitivo ou superior em benchmarks padrão de compreensão de vídeo.
Métodos prevalentes de aprendizado por reforço (RL) para ajuste fino de modelos de linguagem grandes (LLM) que realizam raciocínio, como GRPO ou PPO Leave-one-out, abandonam a função de valor aprendida em favor de retornos estimados empiricamente. Isso dificulta a escalabilidade de computação em tempo de teste que depende do uso da função de valor para verificação. Neste trabalho, propomos o RL^V, que aprimora qualquer método de RL "sem valor" ao treinar conjuntamente o LLM como um raciocínio e um verificador generativo usando dados gerados por RL, adicionando capacidades de verificação sem sobrecarga significativa. Empiricamente, o RL^V aumenta a precisão em MATH em mais de 20% com amostragem paralela e permite uma escalabilidade de computação em tempo de teste 8 a 32 vezes mais eficiente em comparação com o método de RL base. O RL^V também exibe fortes capacidades de generalização tanto para tarefas fáceis-difíceis quanto para tarefas fora do domínio. Além disso, o RL^V alcança um desempenho 1,2 a 1,6 vezes maior ao escalar conjuntamente a computação paralela e sequencial em tempo de teste com um modelo de raciocínio longo R1.
A seleção de dados para ajuste de instruções é essencial para melhorar o desempenho de Modelos de Linguagem de Grande Escala (LLMs) e reduzir os custos de treinamento. No entanto, os métodos automatizados de seleção existentes dependem de medidas baseadas em gradientes computacionalmente caras ou heurísticas projetadas manualmente, que podem falhar em explorar plenamente os atributos intrínsecos dos dados. Neste artigo, propomos o Aprendizado em Contexto para Medição de Contribuição (ICon), um novo método sem gradiente que aproveita a natureza implícita de ajuste fino do aprendizado em contexto (ICL) para medir a contribuição das amostras sem computação de gradiente ou engenharia manual de indicadores. O ICon oferece uma alternativa computacionalmente eficiente aos métodos baseados em gradientes e reduz o viés indutivo humano inerente às abordagens baseadas em heurísticas. O ICon consiste em três componentes e identifica dados de alta contribuição avaliando mudanças de desempenho sob aprendizado implícito por meio do ICL. Experimentos extensos em três LLMs, abrangendo 12 benchmarks e 5 conjuntos de avaliação pareados, demonstram a eficácia do ICon. Notavelmente, no LLaMA3.1-8B, modelos treinados com 15% dos dados selecionados pelo ICon superam os conjuntos de dados completos em 5,42 pontos percentuais e excedem o melhor desempenho dos métodos de seleção amplamente utilizados em 2,06 pontos percentuais. Analisamos ainda as amostras de alta contribuição selecionadas pelo ICon, que mostram tanto tarefas diversas quanto níveis de dificuldade apropriados, em vez de apenas as mais difíceis.
Os modelos Visão-Linguagem-Ação (VLA) representam um avanço transformador na inteligência artificial, visando unificar percepção, compreensão de linguagem natural e ação incorporada em um único framework computacional. Esta revisão fundamental apresenta uma síntese abrangente dos recentes avanços nos modelos Visão-Linguagem-Ação, organizados sistematicamente em cinco pilares temáticos que estruturam o cenário deste campo em rápida evolução. Começamos estabelecendo as bases conceituais dos sistemas VLA, traçando sua evolução desde arquiteturas de aprendizado multimodal até agentes generalistas que integram de forma estreita modelos de visão-linguagem (VLMs), planejadores de ação e controladores hierárquicos. Nossa metodologia adota um framework rigoroso de revisão de literatura, cobrindo mais de 80 modelos VLA publicados nos últimos três anos. Áreas-chave de progresso incluem inovações arquitetônicas, estratégias de treinamento eficientes em parâmetros e acelerações de inferência em tempo real. Exploramos diversos domínios de aplicação, como robótica humanóide, veículos autônomos, robótica médica e industrial, agricultura de precisão e navegação em realidade aumentada. A revisão também aborda os principais desafios em controle em tempo real, representação multimodal de ações, escalabilidade do sistema, generalização para tarefas não vistas e riscos éticos de implantação. Com base no estado da arte, propomos soluções direcionadas, incluindo adaptação de IA agentiva, generalização entre diferentes incorporações e planejamento neuro-simbólico unificado. Em nossa discussão prospectiva, delineamos um roteiro futuro onde modelos VLA, VLMs e IA agentiva convergem para impulsionar agentes incorporados socialmente alinhados, adaptativos e de propósito geral. Este trabalho serve como uma referência fundamental para o avanço da robótica inteligente no mundo real e da inteligência artificial geral. >Visão-linguagem-ação, IA Agentiva, Agentes de IA, Modelos de Visão-Linguagem
A cadeia de pensamentos (Chain-of-Thoughts, CoT) exige que grandes modelos de linguagem (LLMs) gerem etapas intermediárias antes de chegar à resposta final e tem se mostrado eficaz para ajudar LLMs a resolver tarefas complexas de raciocínio. No entanto, o mecanismo interno da CoT ainda permanece amplamente desconhecido. Neste artigo, estudamos empiricamente o papel dos tokens da CoT em LLMs em duas tarefas composicionais: multiplicação de múltiplos dígitos e programação dinâmica. Embora a CoT seja essencial para resolver esses problemas, descobrimos que preservar apenas os tokens que armazenam resultados intermediários alcançaria um desempenho comparável. Além disso, observamos que armazenar resultados intermediários em uma forma latente alternativa não afetará o desempenho do modelo. Também intervimos aleatoriamente em alguns valores da CoT e notamos que os tokens subsequentes da CoT e a resposta final mudariam correspondentemente. Essas descobertas sugerem que os tokens da CoT podem funcionar como variáveis em programas de computador, mas com possíveis desvantagens, como atalhos não intencionais e limites de complexidade computacional entre os tokens. O código e os dados estão disponíveis em https://github.com/solitaryzero/CoTs_are_Variables.
As capacidades de raciocínio de grandes modelos de linguagem são principalmente estudadas para o inglês, mesmo quando os modelos pré-treinados são multilíngues. Neste trabalho, investigamos até que ponto o ajuste fino de raciocínio em inglês com longas cadeias de pensamento (CoTs, do inglês "chain-of-thoughts") pode generalizar entre idiomas. Primeiro, descobrimos que aumentar a capacidade de inferência para modelos de linguagem de raciocínio centrados no inglês (RLMs, do inglês "reasoning language models") melhora o raciocínio matemático multilíngue em muitos idiomas, incluindo idiomas de baixos recursos, a ponto de superarem modelos com o dobro do tamanho. Segundo, revelamos que, embora as CoTs dos RLMs centrados no inglês sejam naturalmente predominantemente em inglês, elas seguem consistentemente um padrão de "citar e pensar" para raciocinar sobre entradas não inglesas citadas. Terceiro, descobrimos uma estratégia eficaz para controlar o idioma do raciocínio de CoTs longas e observamos que os modelos raciocinam melhor e de forma mais eficiente em idiomas de altos recursos. Por fim, observamos uma generalização ruim do raciocínio fora do domínio, em particular de STEM para conhecimento cultural de senso comum, mesmo para o inglês. No geral, demonstramos os potenciais, estudamos os mecanismos e delineamos as limitações da generalização translinguística do escalonamento de raciocínio em inglês no momento do teste. Concluímos que os profissionais devem permitir que os RLMs centrados no inglês raciocinem em idiomas de altos recursos, enquanto mais trabalho é necessário para melhorar o raciocínio em idiomas de baixos recursos e contextos fora do domínio.
A correspondência robusta e eficiente de características locais desempenha um papel crucial em aplicações como SLAM e localização visual para robótica. Apesar dos grandes avanços, ainda é muito desafiador extrair características visuais robustas e discriminativas em cenários com mudanças drásticas de iluminação, áreas de baixa textura ou padrões repetitivos. Neste artigo, propomos uma nova rede leve chamada LiftFeat, que aumenta a robustez do descritor bruto ao agregar características geométricas 3D. Especificamente, primeiro adotamos um modelo pré-treinado de estimativa de profundidade monocular para gerar rótulos pseudo-normais de superfície, supervisionando a extração de características geométricas 3D em termos de normais de superfície previstas. Em seguida, projetamos um módulo de elevação de características consciente da geometria 3D para fundir as características normais da superfície com as características do descritor 2D bruto. A integração dessas características geométricas 3D aumenta a capacidade discriminativa da descrição de características 2D em condições extremas. Resultados experimentais extensivos em tarefas de estimativa de pose relativa, estimativa de homografia e localização visual demonstram que nosso LiftFeat supera alguns métodos leves de última geração. O código será disponibilizado em: https://github.com/lyp-deeplearning/LiftFeat.
O esquecimento em modelos de linguagem de grande escala (LLMs) é crucial em aplicações do mundo real, onde é necessário remover eficientemente a influência de dados privados, protegidos por direitos autorais ou prejudiciais de alguns usuários. No entanto, as métricas de esquecimento existentes, centradas na utilidade do modelo, podem falhar em avaliar com precisão a extensão do esquecimento em cenários realistas, como quando (a) os conjuntos de esquecimento e retenção têm conteúdo semanticamente semelhante, (b) o retreinamento do modelo do zero com o conjunto de retenção é impraticável e/ou (c) o proprietário do modelo pode melhorar a métrica de esquecimento sem realizar diretamente o esquecimento no LLM. Este artigo apresenta a primeira métrica de esquecimento centrada em dados para LLMs, chamada WaterDrum, que explora a marca d'água robusta de texto para superar essas limitações. Também introduzimos novos conjuntos de dados de referência para esquecimento em LLMs que contêm níveis variados de pontos de dados semelhantes e podem ser usados para avaliar rigorosamente algoritmos de esquecimento usando WaterDrum. Nosso código está disponível em https://github.com/lululu008/WaterDrum e nossos novos conjuntos de dados de referência são liberados em https://huggingface.co/datasets/Glow-AI/WaterDrum-Ax.
O alinhamento de modelos de linguagem com as preferências humanas depende de conjuntos de dados de preferências pareadas. Embora alguns estudos sugiram que dados on-policy consistentemente superam dados off-policy para o aprendizado de preferências, outros indicam que as vantagens dos dados on-policy podem ser dependentes da tarefa, destacando a necessidade de uma exploração sistemática de sua interação. Neste trabalho, mostramos que dados on-policy e off-policy oferecem pontos fortes complementares na otimização de preferências: dados on-policy são particularmente eficazes para tarefas de raciocínio, como matemática e codificação, enquanto dados off-policy têm melhor desempenho em tarefas abertas, como escrita criativa e recomendações pessoais. Guiados por essas descobertas, introduzimos o SIMPLEMIX, uma abordagem para combinar os pontos fortes complementares do aprendizado de preferências on-policy e off-policy simplesmente misturando essas duas fontes de dados. Nossos resultados empíricos em diversas tarefas e benchmarks demonstram que o SIMPLEMIX melhora substancialmente o alinhamento de modelos de linguagem. Especificamente, o SIMPLEMIX supera o DPO on-policy e o DPO off-policy em média 6,03% no Alpaca Eval 2.0. Além disso, ele supera abordagens anteriores muito mais complexas na combinação de dados on-policy e off-policy, como HyPO e DPO-Mix-P, em média 3,05%.
À medida que os modelos de linguagem de grande escala (LLMs) evoluem para agentes que utilizam ferramentas, a capacidade de navegar na web em tempo real tornou-se um critério crucial para medir sua competência em raciocínio e recuperação de informações. Benchmarks existentes, como o BrowseComp, concentram-se no inglês e ignoram as complexidades linguísticas, de infraestrutura e relacionadas à censura de outros grandes ecossistemas de informação — mais notavelmente o chinês. Para preencher essa lacuna, apresentamos o BrowseComp-ZH, um benchmark de alta dificuldade projetado especificamente para avaliar de forma abrangente agentes LLM na web chinesa. O BrowseComp-ZH consiste em 289 perguntas de múltiplos saltos, abrangendo 11 domínios diversos. Cada pergunta é engenharia reversa a partir de uma resposta curta, objetiva e facilmente verificável (por exemplo, uma data, número ou nome próprio). Um protocolo de controle de qualidade em duas etapas é aplicado para garantir alta dificuldade das perguntas e unicidade das respostas. Avaliamos mais de 20 modelos de linguagem e sistemas de busca agentes de última geração em nosso BrowseComp-ZH proposto. Apesar de suas fortes capacidades conversacionais e de recuperação, a maioria dos modelos enfrenta dificuldades severas: um grande número atinge taxas de precisão abaixo de 10%, e apenas alguns ultrapassam 20%. Mesmo o sistema de melhor desempenho, o DeepResearch da OpenAI, alcança apenas 42,9%. Esses resultados demonstram a considerável dificuldade do BrowseComp-ZH, onde o sucesso exige não apenas estratégias eficazes de recuperação, mas também raciocínio sofisticado e reconciliação de informações — capacidades que os modelos atuais ainda lutam para dominar. Nosso conjunto de dados, diretrizes de construção e resultados de benchmark foram disponibilizados publicamente em https://github.com/PALIN2018/BrowseComp-ZH.