Artigos de pesquisa em IA selecionados diariamente com traduções
A ciência de dados autônoma, desde fontes de dados brutos até relatórios de pesquisa profunda de nível analítico, tem sido um desafio de longa data e agora está se tornando viável com o surgimento de modelos de linguagem de grande escala (LLMs) poderosos. Agentes de dados baseados em fluxos de trabalho recentes mostraram resultados promissores em tarefas específicas de dados, mas permanecem fundamentalmente limitados na realização de ciência de dados totalmente autônoma devido à sua dependência de fluxos de trabalho predefinidos. Neste artigo, apresentamos o DeepAnalyze-8B, o primeiro LLM agencial projetado para ciência de dados autônoma, capaz de completar automaticamente o pipeline de ponta a ponta, desde fontes de dados até relatórios de pesquisa profunda de nível analítico. Para enfrentar tarefas de ciência de dados de alta complexidade, propomos um paradigma de treinamento agencial baseado em currículo que emula a trajetória de aprendizado de cientistas de dados humanos, permitindo que os LLMs adquiram e integrem progressivamente múltiplas capacidades em ambientes do mundo real. Também introduzimos um framework de síntese de trajetórias fundamentado em dados que constrói dados de treinamento de alta qualidade. Por meio do treinamento agencial, o DeepAnalyze aprende a executar uma ampla gama de tarefas de dados, desde a resposta a perguntas sobre dados e tarefas analíticas especializadas até pesquisas de dados abertas. Experimentos demonstram que, com apenas 8 bilhões de parâmetros, o DeepAnalyze supera os agentes baseados em fluxos de trabalho anteriores construídos sobre os LLMs proprietários mais avançados. O modelo, o código e os dados de treinamento do DeepAnalyze são de código aberto, abrindo caminho para a ciência de dados autônoma.
A edição de imagens alcançou progressos notáveis recentemente. Modelos modernos de edição já são capazes de seguir instruções complexas para manipular o conteúdo original. No entanto, além de concluir as instruções de edição, os efeitos físicos associados são fundamentais para o realismo da geração. Por exemplo, remover um objeto também deve remover sua sombra, reflexos e interações com objetos próximos. Infelizmente, os modelos e benchmarks existentes focam principalmente na conclusão das instruções, mas negligenciam esses efeitos físicos. Então, neste momento, quão longe estamos da edição de imagens fisicamente realista? Para responder a isso, introduzimos o PICABench, que avalia sistematicamente o realismo físico em oito subdimensões (abrangendo óptica, mecânica e transições de estado) para a maioria das operações de edição comuns (adição, remoção, mudança de atributos, etc.). Além disso, propomos o PICAEval, um protocolo de avaliação confiável que utiliza VLM-como-juiz com anotações humanas e perguntas em nível de região por caso. Além de benchmarking, também exploramos soluções eficazes ao aprender física a partir de vídeos e construímos um conjunto de dados de treinamento, o PICA-100K. Após avaliar a maioria dos modelos mainstream, observamos que o realismo físico continua sendo um problema desafiador, com amplo espaço para exploração. Esperamos que nosso benchmark e as soluções propostas possam servir como base para trabalhos futuros, evoluindo da edição ingênua de conteúdo para o realismo fisicamente consistente.
Modelos de linguagem de grande escala (LLMs) dependem cada vez mais da modelagem de contexto longo para tarefas como compreensão de documentos, análise de código e raciocínio em múltiplas etapas. No entanto, escalar janelas de contexto para o nível de milhões de tokens traz custos computacionais e de memória proibitivos, limitando a praticidade dos LLMs de contexto longo. Neste trabalho, adotamos uma perspectiva diferente - escalonamento de contexto visual - para enfrentar esse desafio. Em vez de estender sequências baseadas em tokens, propomos Glyph, uma estrutura que renderiza textos longos em imagens e os processa com modelos de visão e linguagem (VLMs). Essa abordagem comprime substancialmente a entrada textual enquanto preserva as informações semânticas, e ainda projetamos uma busca genética guiada por LLM para identificar configurações ótimas de renderização visual que equilibram precisão e compressão. Por meio de extensos experimentos, demonstramos que nosso método alcança uma compressão de 3-4x em tokens enquanto mantém uma precisão comparável a LLMs líderes, como o Qwen3-8B, em vários benchmarks de contexto longo. Essa compressão também resulta em um preenchimento e decodificação cerca de 4x mais rápidos, e um treinamento SFT aproximadamente 2x mais rápido. Além disso, sob compressão extrema, um VLM de contexto de 128K poderia escalar para lidar com tarefas de texto no nível de 1M de tokens. Adicionalmente, os dados de texto renderizados beneficiam tarefas multimodais do mundo real, como a compreensão de documentos. Nosso código e modelo estão disponíveis em https://github.com/thu-coai/Glyph.
O avanço dos modelos de visão e linguagem (VLMs) é prejudicado por um cenário fragmentado de conjuntos de dados públicos inconsistentes e contaminados. Apresentamos o FineVision, um corpus meticulosamente coletado, curado e unificado de 24 milhões de amostras — o maior recurso aberto do tipo. Unificamos mais de 200 fontes em 185 subconjuntos por meio de um pipeline semi-automatizado com intervenção humana: a automação realiza a ingestão em massa e o mapeamento de esquemas, enquanto revisores auditam os mapeamentos e verificam amostras das saídas para garantir o consumo fiel das anotações, a formatação e diversidade adequadas, e a segurança; problemas acionam correções direcionadas e novas execuções. O fluxo de trabalho também aplica uma desduplicação rigorosa dentro e entre as fontes e uma descontaminação em relação a 66 benchmarks públicos. O FineVision ainda abrange tarefas agentes/de interface gráfica com um espaço de ação unificado; revisores validam os esquemas e inspecionam uma amostra de trajetórias para confirmar a fidelidade executável. Modelos treinados no FineVision superam consistentemente aqueles treinados em misturas abertas existentes em uma ampla suíte de avaliação, destacando os benefícios da escala, higiene dos dados e automação equilibrada com supervisão humana. Disponibilizamos o corpus e as ferramentas de curadoria para acelerar a pesquisa centrada em dados em VLMs.
Uma suposição dominante na pesquisa de Modelos de Linguagem Multimodal (MLLM) é que seu desempenho é amplamente herdado do backbone de Modelo de Linguagem (LLM), dado sua imensa escala de parâmetros e capacidades notáveis. Isso criou uma lacuna na compreensão do codificador de visão, que determina como os MLLMs percebem imagens. A recente mudança nos paradigmas de treinamento de MLLMs, de Ajuste Fino Supervisionado (SFT) para Aprendizado por Reforço (RL), amplifica essa negligência — especificamente, a significativa falta de análise sobre como tal treinamento remodela o codificador de visão, bem como o MLLM. Para abordar isso, primeiro investigamos o impacto das estratégias de treinamento em MLLMs, onde o RL mostra uma clara vantagem sobre o SFT em benchmarks de VQA fortemente relacionados à visão. Motivados por isso, conduzimos uma análise crítica e ainda pouco explorada do codificador de visão de MLLMs por meio de experimentos diversos e aprofundados, variando de classificação e segmentação no ImageNet até visualização de gradientes. Nossos resultados demonstram que a estratégia pós-treinamento do MLLM (ou seja, SFT ou RL) não apenas leva a resultados distintos em tarefas subsequentes do MLLM, mas também remodela fundamentalmente as representações visuais subjacentes do MLLM. Especificamente, a principal descoberta do nosso estudo é que o RL produz representações visuais mais fortes e precisamente localizadas em comparação com o SFT, impulsionando a capacidade do codificador de visão para o MLLM. Em seguida, reformulamos nossas descobertas em uma receita simples para construir codificadores de visão robustos para MLLMs, a Otimização de Visão Orientada por Preferência (PIVOT). Quando integrado em MLLMs, um codificador de visão treinado com PIVOT supera até mesmo contrapartes maiores e mais intensamente treinadas, apesar de exigir menos de 1% do custo computacional do pré-treinamento visual padrão. Esse resultado abre um caminho eficaz e eficiente para avançar os backbones de visão dos MLLMs. Página do projeto disponível em https://june-page.github.io/pivot/.
Modelos de linguagem de grande escala (LLMs) têm demonstrado progressos notáveis em tarefas de raciocínio complexo, em grande parte possibilitados por paradigmas de escalonamento em tempo de teste (TTS) que alocam recursos computacionais adicionais durante a inferência. Entre esses, o TTS externo (particularmente o paradigma de seleção Best-of-N) proporciona melhorias escaláveis de desempenho ao selecionar entre múltiplas trajetórias de raciocínio geradas de forma independente. No entanto, essa abordagem enfrenta limitações-chave: (i) a alta sobrecarga computacional de implantar modelos de recompensa de processo, (ii) a subutilização das representações latentes intrínsecas do LLM. Introduzimos o TrajSelector, um framework Best-of-N eficiente e eficaz que explora os estados ocultos no LLM amostrador para pontuação em nível de processo. Um verificador leve (com apenas 0,6 bilhões de parâmetros) avalia a qualidade da trajetória passo a passo e, em seguida, agrega essas pontuações para identificar a trajetória de raciocínio ótima. Nosso framework emprega uma receita de treinamento totalmente orientada por dados e de ponta a ponta, eliminando a dependência de anotações massivas em nível de etapa. Resultados experimentais em cinco benchmarks demonstram que o TrajSelector proporciona ganhos consistentes de desempenho. Em configurações Best-of-32, ele supera a votação majoritária em 4,61% de precisão e supera os modelos de recompensa de processo existentes em 4,31% a 12,21%, tudo isso mantendo custos de inferência mais baixos.
A Geração Aumentada por Recuperação (RAG, do inglês *Retrieval-Augmented Generation*) surgiu como um paradigma poderoso para aprimorar modelos de linguagem de grande escala (LLMs, do inglês *Large Language Models*) ao recuperar documentos relevantes de um corpus externo. No entanto, os sistemas RAG existentes focam principalmente em documentos textuais unimodais e frequentemente falham em cenários do mundo real, onde tanto as consultas quanto os documentos podem conter modalidades mistas (como texto e imagens). Neste artigo, abordamos o desafio da Geração Aumentada por Recuperação Universal (URAG, do inglês *Universal Retrieval-Augmented Generation*), que envolve a recuperação e o raciocínio sobre informações multimodais para melhorar a geração visão-linguagem. Para isso, propomos o Nyx, um recuperador multimodal unificado projetado para cenários URAG. Para mitigar a escassez de dados multimodais realistas, introduzimos um pipeline automatizado de quatro estágios para geração e filtragem, aproveitando documentos da web para construir o NyxQA, um conjunto de dados composto por diversos pares de perguntas e respostas multimodais que refletem melhor as necessidades de informação do mundo real. Com base nesse conjunto de dados de alta qualidade, adotamos uma estrutura de treinamento em duas etapas para o Nyx: primeiro, realizamos pré-treinamento no NyxQA juntamente com uma variedade de conjuntos de dados de recuperação de código aberto, seguido por ajuste fino supervisionado usando feedback de modelos visão-linguagem (VLMs, do inglês *Vision-Language Models*) para alinhar as saídas de recuperação com as preferências gerativas. Resultados experimentais demonstram que o Nyx não apenas apresenta desempenho competitivo em benchmarks padrão de RAG apenas textual, mas também se destaca no cenário URAG, mais geral e realista, melhorando significativamente a qualidade da geração em tarefas visão-linguagem.
Modelos de Linguagem de Grande Escala têm alcançado um desempenho robusto em tarefas de raciocínio, resolvendo problemas de codificação e matemática de nível competitivo. No entanto, sua escalabilidade é limitada por conjuntos de dados rotulados por humanos e pela falta de dados de treinamento em grande escala para problemas de codificação desafiadores. Os conjuntos de dados existentes de codificação competitiva contêm apenas milhares a dezenas de milhares de problemas. Métodos anteriores de geração de dados sintéticos dependem da ampliação de conjuntos de dados de instrução existentes ou da seleção de problemas desafiadores a partir de dados rotulados por humanos. Neste artigo, propomos o QueST, uma estrutura inovadora que combina amostragem de grafos com consciência de dificuldade e ajuste fino com rejeição baseada em dificuldade, otimizando diretamente geradores especializados para criar problemas de codificação desafiadores. Nossos geradores treinados demonstram uma capacidade superior até mesmo ao GPT-4o na criação de problemas desafiadores que beneficiam o desempenho subsequente. Utilizamos o QueST para gerar problemas de codificação sintéticos em grande escala, que então empregamos para destilar modelos professores fortes com cadeias de pensamento longas ou para conduzir aprendizado por reforço em modelos menores, mostrando-se eficazes em ambos os cenários. Nossos experimentos de destilação demonstram ganhos significativos de desempenho. Especificamente, após ajustar o Qwen3-8B-base em 100 mil problemas difíceis gerados pelo QueST, superamos o desempenho do Qwen3-8B original no LiveCodeBench. Com mais 112 mil exemplos (ou seja, 28 mil problemas escritos por humanos pareados com múltiplas soluções sintéticas), nosso modelo de 8B iguala o desempenho do muito maior DeepSeek-R1-671B. Esses achados indicam que a geração de problemas complexos via QueST oferece uma abordagem eficaz e escalável para avançar as fronteiras da codificação competitiva e do raciocínio em modelos de linguagem de grande escala.
O agrupamento (ensembling) de Modelos de Linguagem de Grande Escala (LLMs) tem ganhado atenção como uma abordagem promissora para superar o desempenho de modelos individuais, aproveitando seus pontos fortes complementares. Em particular, a agregação das distribuições de probabilidade do próximo token dos modelos para selecionar o próximo token tem se mostrado eficaz em várias tarefas. No entanto, embora bem-sucedido para respostas curtas, sua aplicação na geração de textos longos ainda é pouco explorada. Neste artigo, mostramos que o uso de métodos de agrupamento existentes na geração de textos longos requer uma escolha cuidadosa das posições de agrupamento, já que a prática padrão de agrupar em cada token frequentemente degrada o desempenho. Identificamos dois fatores-chave para determinar essas posições: a incompatibilidade de tokenização entre os modelos e o consenso em suas distribuições de probabilidade do próximo token. Com base nisso, propomos o SAFE (Stable And Fast LLM Ensembling), um framework que realiza o agrupamento de forma seletiva, considerando conjuntamente esses fatores. Para melhorar ainda mais a estabilidade, introduzimos uma estratégia de afiação de probabilidades que consolida as probabilidades distribuídas em vários sub-tokens que representam a mesma palavra em um único token representativo. Nossos experimentos em diversos benchmarks, incluindo MATH500 e BBH, demonstram que o SAFE supera os métodos existentes tanto em precisão quanto em eficiência, com ganhos alcançados mesmo ao agrupar menos de 1% dos tokens.
Embora os modelos de base tenham demonstrado potencial em uma variedade de áreas, a astronomia ainda carece de uma estrutura unificada para modelagem conjunta em suas diversas modalidades de dados. Neste artigo, apresentamos o AION-1, uma família de modelos de base multimodais em grande escala para astronomia. O AION-1 integra dados heterogêneos de imagem, espectroscopia e escalares usando uma arquitetura de dois estágios: tokenização específica por modalidade seguida de modelagem mascarada baseada em transformadores de sequências de tokens multimodais. O modelo é pré-treinado em cinco grandes levantamentos: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) e Gaia. Esses levantamentos abrangem mais de 200 milhões de observações de estrelas, galáxias e quasares. Com um único codificador congelado, o AION-1 alcança resultados robustos em uma ampla gama de tarefas subsequentes, incluindo estimativa de propriedades de galáxias e estrelas, classificação de morfologia de galáxias, recuperação baseada em similaridade, segmentação de imagens de galáxias e super-resolução espectral. Lançamos variantes do modelo AION-1 que variam de 300 milhões a 3,1 bilhões de parâmetros. Além da astronomia, o AION-1 fornece um modelo escalável para modelos de base científicos multimodais que podem integrar de forma contínua observações ruidosas e específicas de instrumentos. Todo o código, tokenizadores, pesos pré-treinados e um conjunto leve de avaliação são disponibilizados sob uma licença de código aberto.
Embora o dimensionamento no tempo de inferência por meio de busca tenha revolucionado os Modelos de Linguagem de Grande Escala (LLMs), traduzir esses ganhos para a geração de imagens tem se mostrado difícil. Tentativas recentes de aplicar estratégias de busca a modelos de difusão contínua mostram benefícios limitados, com a amostragem aleatória simples frequentemente apresentando o melhor desempenho. Demonstramos que a natureza discreta e sequencial dos modelos autoregressivos visuais permite uma busca eficaz para a geração de imagens. Mostramos que a busca em feixe (beam search) melhora substancialmente a geração de texto para imagem, permitindo que um modelo autoregressivo de 2 bilhões de parâmetros supere um modelo de difusão de 12 bilhões de parâmetros em benchmarks. Ablações sistemáticas mostram que essa vantagem vem do espaço de tokens discreto, que permite a poda antecipada e a reutilização computacional, e nossa análise de verificadores destaca as compensações entre velocidade e capacidade de raciocínio. Essas descobertas sugerem que a arquitetura do modelo, e não apenas a escala, é crucial para a otimização no tempo de inferência na geração visual.
O alinhamento de honestidade - a capacidade dos grandes modelos de linguagem (LLMs) de reconhecer seus limites de conhecimento e expressar confiança calibrada - é essencial para uma implantação confiável. Os métodos existentes dependem de estimativas de confiança sem treinamento (por exemplo, probabilidades de tokens, auto-consistência) ou de calibração baseada em treinamento com anotações de correção. Embora eficazes, alcançar o alinhamento universal de honestidade com calibração baseada em treinamento requer rotulagem em grande escala e custosa. Para apoiar o treinamento eficiente em termos de anotação, introduzimos o Elicitation-Then-Calibration (EliCal), um framework de duas etapas que primeiro elicita a confiança interna usando supervisão de auto-consistência de baixo custo, e depois calibra essa confiança com um pequeno conjunto de anotações de correção. Para apoiar um estudo em grande escala, lançamos o HonestyBench, um benchmark que abrange dez conjuntos de dados de QA de formato livre com 560k instâncias de treinamento e 70k de avaliação, anotadas com sinais de correção e auto-consistência. Os experimentos mostram que o EliCal alcança um alinhamento quase ótimo com apenas 1k anotações de correção (0,18% da supervisão total) e um desempenho de alinhamento melhor em tarefas MMLU não vistas do que a linha de base de apenas calibração, oferecendo uma solução escalável para o alinhamento universal de honestidade em LLMs.
A edição de imagens baseada em instruções alcançou progressos notáveis; no entanto, modelos treinados exclusivamente por meio de ajuste fino supervisionado frequentemente sofrem de sobreajuste a padrões anotados, prejudicando sua capacidade de explorar e generalizar além das distribuições de treinamento. Para isso, introduzimos o Edit-R1, uma nova estrutura de pós-treinamento para edição de imagens baseada em instruções, fundamentada em otimização de políticas. Especificamente, utilizamos o Diffusion Negative-aware Finetuning (DiffusionNFT), um método de otimização de políticas livre de verossimilhança, consistente com o processo direto de correspondência de fluxo, permitindo assim o uso de amostradores de ordem superior e um treinamento mais eficiente. Outro desafio crucial aqui é a ausência de um modelo de recompensa universal, decorrente da natureza diversa das instruções e tarefas de edição. Para preencher essa lacuna, empregamos um Modelo de Linguagem Multimodal de Grande Escala (MLLM) como um modelo de recompensa unificado e livre de treinamento, aproveitando seus logits de saída para fornecer feedback refinado. Além disso, projetamos cuidadosamente um mecanismo de filtragem de grupo de baixa variância para reduzir o ruído na pontuação do MLLM e estabilizar a otimização. O UniWorld-V2, treinado com essa estrutura, alcança resultados de ponta nos benchmarks ImgEdit e GEdit-Bench, com pontuações de 4,49 e 7,83, respectivamente. Crucialmente, nossa estrutura é independente de modelo, proporcionando ganhos substanciais de desempenho quando aplicada a diversos modelos base, como Qwen-Image-Edit e FLUX-Kontext, demonstrando sua ampla aplicabilidade. Códigos e modelos estão disponíveis publicamente em https://github.com/PKU-YuanGroup/UniWorld-V2.
Avanços recentes em métodos de controle de atenção sem treinamento têm possibilitado capacidades flexíveis e eficientes de edição guiada por texto para modelos de geração existentes. No entanto, as abordagens atuais enfrentam dificuldades em oferecer simultaneamente uma forte capacidade de edição enquanto mantêm a consistência com a fonte. Essa limitação torna-se particularmente crítica em edições de múltiplas rodadas e em vídeo, onde erros visuais podem se acumular ao longo do tempo. Além disso, a maioria dos métodos existentes impõe consistência global, o que limita sua capacidade de modificar atributos individuais, como textura, enquanto preserva outros, dificultando assim a edição refinada. Recentemente, a mudança arquitetônica de U-Net para MM-DiT trouxe melhorias significativas no desempenho generativo e introduziu um novo mecanismo para integrar modalidades de texto e visão. Esses avanços abrem caminho para superar desafios que métodos anteriores não conseguiram resolver. Por meio de uma análise aprofundada do MM-DiT, identificamos três insights-chave sobre seus mecanismos de atenção. Com base nisso, propomos o ConsistEdit, um novo método de controle de atenção especificamente adaptado para MM-DiT. O ConsistEdit incorpora controle de atenção apenas visual, fusão pré-atenção guiada por máscara e manipulação diferenciada dos tokens de consulta, chave e valor para produzir edições consistentes e alinhadas ao prompt. Experimentos extensivos demonstram que o ConsistEdit alcança desempenho de ponta em uma ampla gama de tarefas de edição de imagem e vídeo, incluindo cenários com consistência estrutural e sem consistência estrutural. Diferente de métodos anteriores, é a primeira abordagem a realizar edições em todas as etapas de inferência e camadas de atenção sem intervenção manual, aumentando significativamente a confiabilidade e a consistência, o que possibilita edições robustas de múltiplas rodadas e múltiplas regiões. Além disso, ele suporta ajuste progressivo da consistência estrutural, permitindo um controle mais refinado.
Replicar pesquisas de IA é uma tarefa crucial, porém desafiadora, para agentes de modelos de linguagem de grande escala (LLMs). As abordagens existentes frequentemente enfrentam dificuldades para gerar código executável, principalmente devido ao conhecimento de base insuficiente e às limitações dos métodos de geração aumentada por recuperação (RAG), que falham em capturar detalhes técnicos latentes ocultos em artigos referenciados. Além disso, abordagens anteriores tendem a negligenciar sinais valiosos de código em nível de implementação e carecem de representações estruturadas de conhecimento que suportem a recuperação e reutilização em múltiplos níveis de granularidade. Para superar esses desafios, propomos Grafos de Conhecimento Executáveis (xKG), uma base de conhecimento modular e plugável que integra automaticamente insights técnicos, trechos de código e conhecimento específico de domínio extraídos da literatura científica. Quando integrado em três frameworks de agentes com dois LLMs diferentes, o xKG demonstra ganhos substanciais de desempenho (10,9% com o3-mini) no PaperBench, evidenciando sua eficácia como uma solução geral e extensível para a replicação automatizada de pesquisas de IA. O código será liberado em https://github.com/zjunlp/xKG.
O raciocínio em cadeia de pensamento de longa duração tornou-se um pilar fundamental do raciocínio avançado em modelos de linguagem de grande escala. Embora estruturas recentes de verificação e refinamento tenham permitido que modelos proprietários resolvessem problemas de nível olímpico, sua eficácia depende de capacidades robustas e confiáveis de verificação e correção, que permanecem frágeis em modelos de código aberto e menor escala. Este trabalho demonstra que, mesmo com capacidades fracas de verificação e refinamento em tarefas difíceis, os limites de raciocínio desses modelos podem ser substancialmente ampliados por meio de um paradigma probabilístico que chamamos de Raciocínio Autoevolutivo Profundo (Deep Self-Evolving Reasoning - DSER). Conceituamos o raciocínio iterativo como uma cadeia de Markov, onde cada etapa representa uma transição estocástica no espaço de soluções. A ideia central é que a convergência para uma solução correta é garantida desde que a probabilidade de melhoria supere marginalmente a de degradação. Ao executar múltiplos processos autoevolutivos de longo horizonte em paralelo, o DSER amplifica essas pequenas tendências positivas, permitindo que o modelo se aproxime assintoticamente de respostas corretas. Empiricamente, aplicamos o DSER ao modelo DeepSeek-R1-0528-Qwen3-8B. No desafiador benchmark AIME 2024-2025, o DSER resolve 5 de 9 problemas anteriormente insolúveis e impulsiona o desempenho geral, permitindo que este modelo compacto supere a precisão de seu professor de 600 bilhões de parâmetros em uma única rodada por meio de votação majoritária. Além de sua utilidade imediata para escalonamento em tempo de teste, o framework DSER serve para diagnosticar as limitações fundamentais dos raciocinadores de código aberto atuais. Ao delinear claramente suas deficiências em autoverificação, refinamento e estabilidade, nossas descobertas estabelecem uma agenda de pesquisa clara para o desenvolvimento de modelos de próxima geração com capacidades autoevolutivas poderosas e intrínsecas.
Modelos pré-treinados para séries temporais têm possibilitado sistemas de previsão baseados apenas em inferência, capazes de produzir previsões precisas sem treinamento específico para cada tarefa. No entanto, as abordagens existentes concentram-se principalmente em previsões univariadas, limitando sua aplicabilidade em cenários do mundo real, onde dados multivariados e covariáveis desempenham um papel crucial. Apresentamos o Chronos-2, um modelo pré-treinado capaz de lidar com tarefas de previsão univariadas, multivariadas e informadas por covariáveis de maneira zero-shot. O Chronos-2 emprega um mecanismo de atenção em grupo que facilita o aprendizado em contexto (ICL, in-context learning) por meio do compartilhamento eficiente de informações entre múltiplas séries temporais dentro de um grupo, que pode representar conjuntos de séries relacionadas, variantes de uma série multivariada ou alvos e covariáveis em uma tarefa de previsão. Essas capacidades gerais são alcançadas por meio do treinamento em conjuntos de dados sintéticos que impõem estruturas multivariadas diversas em séries univariadas. O Chronos-2 oferece desempenho de ponta em três benchmarks abrangentes: fev-bench, GIFT-Eval e Chronos Benchmark II. No fev-bench, que enfatiza previsões multivariadas e informadas por covariáveis, as capacidades universais de ICL do Chronos-2 levam a melhorias substanciais em relação aos modelos existentes. Em tarefas que envolvem covariáveis, ele supera consistentemente as baselines por uma ampla margem. Estudos de caso nos domínios de energia e varejo destacam ainda mais suas vantagens práticas. As capacidades de aprendizado em contexto do Chronos-2 o estabelecem como um modelo de previsão de propósito geral que pode ser usado "como está" em pipelines de previsão do mundo real.
A rápida evolução da IA agentiva marca uma nova fase na inteligência artificial, onde os Modelos de Linguagem de Grande Escala (LLMs) não apenas respondem, mas agem, raciocinam e se adaptam. Esta pesquisa traça a mudança de paradigma na construção da IA agentiva: de sistemas baseados em pipelines, onde o planejamento, o uso de ferramentas e a memória são orquestrados por lógica externa, para o emergente paradigma Model-native, onde essas capacidades são internalizadas nos parâmetros do modelo. Primeiro, posicionamos o Aprendizado por Reforço (RL) como o motor algorítmico que possibilita essa mudança de paradigma. Ao reformular o aprendizado da imitação de dados estáticos para a exploração orientada por resultados, o RL sustenta uma solução unificada de LLM + RL + Tarefa em domínios de linguagem, visão e interação corporificada. Com base nisso, a pesquisa revisa sistematicamente como cada capacidade — Planejamento, Uso de Ferramentas e Memória — evoluiu de módulos externamente scriptados para comportamentos aprendidos de ponta a ponta. Além disso, examina como essa mudança de paradigma remodelou as principais aplicações de agentes, especificamente o agente de Pesquisa Profunda, que enfatiza o raciocínio de longo prazo, e o agente de Interface Gráfica (GUI), que enfatiza a interação corporificada. Concluímos discutindo a contínua internalização de capacidades agentivas, como a colaboração Multiagente e a Reflexão, juntamente com os papéis em evolução das camadas de sistema e modelo na futura IA agentiva. Juntos, esses desenvolvimentos delineiam uma trajetória coerente em direção à IA agentiva Model-native como um framework integrado de aprendizado e interação, marcando a transição da construção de sistemas que aplicam inteligência para o desenvolvimento de modelos que cultivam inteligência por meio da experiência.
O Laboratório de Avatares Codec da Meta apresenta o Embody 3D, um conjunto de dados multimodal que contém 500 horas individuais de dados de movimento 3D de 439 participantes, coletados em um ambiente com múltiplas câmeras, totalizando mais de 54 milhões de quadros de movimento 3D rastreados. O conjunto de dados abrange uma ampla variedade de movimentos individuais, incluindo movimentos induzidos, gestos manuais e locomoção, além de dados comportamentais e conversacionais envolvendo múltiplas pessoas, como discussões, conversas em diferentes estados emocionais, atividades colaborativas e cenários de convivência em um espaço semelhante a um apartamento. Fornecemos o movimento humano rastreado, incluindo o rastreamento das mãos e a forma do corpo, anotações textuais e uma trilha de áudio separada para cada participante.
Os recentes avanços na geração de imagens, frequentemente impulsionados por sistemas proprietários como o GPT-4o Image Gen, regularmente introduzem novas capacidades que remodelam a forma como os usuários interagem com esses modelos. Os benchmarks existentes frequentemente ficam para trás e não conseguem capturar esses casos de uso emergentes, deixando uma lacuna entre as percepções da comunidade sobre o progresso e a avaliação formal. Para abordar isso, apresentamos o ECHO, um framework para a construção de benchmarks diretamente a partir de evidências do mundo real do uso de modelos: postagens em mídias sociais que mostram prompts inovadores e julgamentos qualitativos dos usuários. Aplicando esse framework ao GPT-4o Image Gen, construímos um conjunto de dados com mais de 31.000 prompts curados a partir dessas postagens. Nossa análise mostra que o ECHO (1) descobre tarefas criativas e complexas ausentes nos benchmarks existentes, como a re-renderização de rótulos de produtos em diferentes idiomas ou a geração de recibos com totais especificados, (2) distingue mais claramente os modelos de última geração das alternativas, e (3) traz à tona feedback da comunidade que usamos para informar o design de métricas para a qualidade do modelo (por exemplo, medindo mudanças observadas em cor, identidade e estrutura). Nosso site está em https://echo-bench.github.io.
O aprendizado por reforço (RL) agentico treina grandes modelos de linguagem para chamar ferramentas de forma autônoma durante o raciocínio, sendo a busca a aplicação mais comum. Esses modelos se destacam em tarefas de raciocínio de múltiplos passos, mas suas propriedades de segurança não são bem compreendidas. Neste estudo, mostramos que os modelos de busca treinados com RL herdam a recusa do ajuste fino por instrução e frequentemente desviam solicitações prejudiciais, transformando-as em consultas seguras. No entanto, essa segurança é frágil. Dois ataques simples, um que força o modelo a começar a resposta com uma busca (ataque de Busca) e outro que incentiva os modelos a buscar repetidamente (ataque de Multi-busca), desencadeiam cascatas de buscas e respostas prejudiciais. Em duas famílias de modelos (Qwen, Llama) com busca local e na web, esses ataques reduzem as taxas de recusa em até 60,0%, a segurança das respostas em 82,5% e a segurança das consultas de busca em 82,4%. Os ataques têm sucesso ao fazer com que os modelos gerem consultas de busca prejudiciais que espelham a solicitação antes que possam gerar os tokens de recusa herdados. Isso expõe uma fraqueza central do treinamento atual com RL: ele recompensa a geração contínua de consultas eficazes sem considerar sua nocividade. Como resultado, os modelos de busca com RL têm vulnerabilidades que os usuários podem explorar facilmente, tornando urgente o desenvolvimento de pipelines de RL agentico conscientes da segurança, otimizados para busca segura.
Agentes multimodais para uso de computador dependem exclusivamente de ações primitivas (clicar, digitar, rolar) que exigem um ancoramento visual preciso e cadeias de execução longas, resultando em falhas em cascata e gargalos de desempenho. Enquanto outros agentes aproveitam interfaces programáticas ricas (APIs, servidores MCP, ferramentas), os agentes de uso de computador (CUAs, na sigla em inglês) permanecem isolados dessas capacidades. Apresentamos o UltraCUA, um modelo de base que preenche essa lacuna por meio de ação híbrida — integrando de forma contínua primitivas de interface gráfica (GUI) com chamadas de ferramentas programáticas de alto nível. Para alcançar isso, nossa abordagem compreende quatro componentes principais: (1) um pipeline automatizado que escala ferramentas programáticas a partir de documentação de software, repositórios de código aberto e geração de código; (2) um mecanismo de dados sintéticos que produz mais de 17.000 tarefas verificáveis abrangendo cenários reais de uso de computador; (3) uma coleção em larga escala de trajetórias de ação híbrida de alta qualidade, com ações de GUI de baixo nível e chamadas de ferramentas programáticas de alto nível; e (4) um pipeline de treinamento em duas etapas que combina ajuste fino supervisionado com aprendizado por reforço online, permitindo a alternância estratégica entre ações de baixo e alto nível. Experimentos com nossos modelos de 7B e 32B demonstram melhorias substanciais em relação aos agentes state-of-the-art. No OSWorld, os modelos UltraCUA alcançam uma melhoria relativa média de 22% sobre os modelos base, enquanto são 11% mais rápidos em termos de etapas. A avaliação fora do domínio no WindowsAgentArena mostra que nosso modelo atinge uma taxa de sucesso de 21,7%, superando baselines treinados em dados do Windows. O mecanismo de ação híbrida se mostrou crítico, reduzindo a propagação de erros enquanto mantém a eficiência de execução.
À medida que a informação cresce exponencialmente, as empresas enfrentam uma pressão crescente para transformar dados não estruturados em insights coerentes e acionáveis. Embora os agentes autônomos mostrem potencial, eles frequentemente lutam com nuances específicas de domínio, alinhamento de intenções e integração empresarial. Apresentamos o Enterprise Deep Research (EDR), um sistema multiagente que integra (1) um Agente de Planejamento Mestre para decomposição adaptativa de consultas, (2) quatro agentes de busca especializados (Geral, Acadêmico, GitHub, LinkedIn), (3) um ecossistema de ferramentas extensível baseado em MCP que suporta NL2SQL, análise de arquivos e fluxos de trabalho empresariais, (4) um Agente de Visualização para insights orientados por dados, e (5) um mecanismo de reflexão que detecta lacunas de conhecimento e atualiza a direção da pesquisa com orientação opcional de humanos no loop. Esses componentes permitem a geração automatizada de relatórios, streaming em tempo real e implantação empresarial contínua, conforme validado em conjuntos de dados internos. Em benchmarks de pesquisa aberta, incluindo DeepResearch Bench e DeepConsult, o EDR supera os sistemas agentes mais avançados sem qualquer orientação humana. Disponibilizamos o framework EDR e as trajetórias de benchmark para avançar a pesquisa em aplicações de raciocínio multiagente. Código em https://github.com/SalesforceAIResearch/enterprise-deep-research e Conjunto de dados em https://huggingface.co/datasets/Salesforce/EDR-200
A resposta visual baseada em conhecimento (KB-VQA) exige que modelos de linguagem visual (VLMs) integrem a compreensão visual com a recuperação de conhecimento externo. Embora a geração aumentada por recuperação (RAG) tenha alcançado avanços significativos nessa tarefa ao combinar consultas em bases de conhecimento, ainda enfrenta desafios relacionados à qualidade de consultas multimodais e à relevância dos resultados recuperados. Para superar esses desafios, propomos um método inovador em três estágios, denominado Wiki-PRF, que inclui os estágios de Processamento, Recuperação e Filtragem. O estágio de processamento invoca dinamicamente ferramentas visuais para extrair informações multimodais precisas para a recuperação. O estágio de recuperação integra características visuais e textuais para alcançar a recuperação de conhecimento multimodal. O estágio de filtragem realiza a filtragem de relevância e concentração nos resultados recuperados. Para isso, introduzimos um modelo de linguagem visual treinado com precisão de resposta e consistência de formato como sinais de recompensa por meio de uma abordagem de aprendizado por reforço. Isso aprimora o raciocínio do modelo, a invocação de ferramentas para consultas precisas e a filtragem de conteúdo irrelevante. Experimentos em conjuntos de dados de referência (E-VQA e InfoSeek) mostram melhorias significativas (~36,0 e 42,8) na qualidade das respostas, alcançando desempenho de ponta. O código está disponível em https://github.com/cqu-student/Wiki-PRF.
Modelos de Linguagem de Grande Escala (LLMs), como o OpenAI-o1 e o DeepSeek-R1, demonstraram fortes capacidades de raciocínio. Para aprimorar ainda mais as capacidades dos LLMs, sistemas agentes recentes, como o Deep Research, incorporam interações web no raciocínio dos LLMs para mitigar incertezas e reduzir possíveis erros. No entanto, as pesquisas existentes focam predominantemente no desempenho do raciocínio, muitas vezes negligenciando a eficiência dos sistemas agentes. Neste trabalho, apresentamos um estudo empírico abrangente que identifica gargalos de eficiência em sistemas agentes interativos com a web. Decompomos a latência de ponta a ponta em dois componentes principais: latência da API do LLM e latência do ambiente web. Realizamos um estudo empírico abrangente em 15 modelos e 5 provedores para demonstrar alta variabilidade em sistemas agentes baseados em API. Observamos que a latência do ambiente web pode contribuir com até 53,7% da latência total em um sistema agente baseado na web. Para melhorar a latência, propomos o SpecCache, uma estrutura de cache aprimorada com execução especulativa que pode reduzir a sobrecarga do ambiente web. Avaliações extensas em dois benchmarks padrão mostram que nossa abordagem melhora a taxa de acerto do cache em até 58x em comparação com uma estratégia de cache aleatória, enquanto reduz a sobrecarga do ambiente web em até 3,2x, sem degradar o desempenho do sistema agente.
Modelos de Visão e Linguagem (VLMs) têm demonstrado capacidades impressionantes em benchmarks de turno único, mas aplicações do mundo real frequentemente exigem diálogos multi-turnos mais complexos. Os conjuntos de dados multi-turnos existentes (por exemplo, MMDU, ConvBench) capturam apenas parcialmente a amplitude e profundidade dos cenários conversacionais encontrados pelos usuários. Neste trabalho, introduzimos o MultiVerse, um novo benchmark de conversação multi-turno que apresenta 647 diálogos - cada um com uma média de quatro turnos - derivados de um conjunto diversificado de 12 benchmarks populares de avaliação de VLMs. Com 484 tarefas e 484 objetivos de interação, o MultiVerse abrange uma ampla gama de tópicos, desde conhecimento factual e percepção até tarefas avançadas de raciocínio, como matemática e programação. Para facilitar uma avaliação robusta, propomos um método de avaliação baseado em checklist que utiliza o GPT-4o como avaliador automatizado, medindo o desempenho em 37 aspectos-chave, incluindo precisão perceptiva, clareza linguística e correção factual. Avaliamos 18 VLMs no MultiVerse, revelando que mesmo os modelos mais fortes (por exemplo, GPT-4o) alcançam apenas uma taxa de sucesso de 50% em conversas multi-turnos complexas, destacando a natureza desafiadora do conjunto de dados. Notavelmente, descobrimos que fornecer o contexto completo do diálogo melhora significativamente o desempenho de modelos menores ou mais fracos, enfatizando a importância do aprendizado em contexto. Acreditamos que o MultiVerse é um marco na avaliação das habilidades de interação multi-turno para VLMs.
Avanços recentes em modelos de raciocínio de grande escala (LRMs) têm possibilitado desempenhos notáveis em tarefas complexas, como matemática e codificação, por meio da geração de longos rastros de Cadeia de Pensamento (CoT). Neste artigo, identificamos e analisamos sistematicamente uma vulnerabilidade crítica que denominamos distração de raciocínio, na qual os LRMs são desviados de seu objetivo principal por tarefas irrelevantes, mas complexas, inseridas maliciosamente no prompt. Por meio de um estudo abrangente em diversos modelos e benchmarks, demonstramos que até mesmo os LRMs mais avançados são altamente suscetíveis, com distratores injetados reduzindo a precisão da tarefa em até 60%. Além disso, revelamos que certas técnicas de alinhamento podem ampliar essa fraqueza e que os modelos podem exibir conformidade oculta, seguindo instruções adversárias ocultas no raciocínio enquanto as ocultam na saída final. Para mitigar esses riscos, propomos uma defesa baseada em treinamento que combina Ajuste Fino Supervisionado (SFT) e Aprendizado por Reforço (RL) em dados adversários sintéticos, melhorando a robustez em mais de 50 pontos em ataques de distratores desafiadores. Nossas descobertas estabelecem a distração de raciocínio como uma ameaça distinta e urgente à confiabilidade dos LRMs e fornecem um passo prático em direção a sistemas de raciocínio mais seguros e confiáveis.
O ajuste fino de avaliadores generativos especializados emergiu como um paradigma popular para atender à crescente demanda por avaliação escalável durante o treinamento e o tempo de teste. No entanto, trabalhos recentes têm se concentrado principalmente na aplicação de novas metodologias, como aprendizado por reforço (RL), ao treinamento de avaliadores, evitando o desenvolvimento em grande escala e orientado por dados. Neste trabalho, focamos na escalabilidade de dados, curando um conjunto de 2,5 milhões de amostras abrangendo cinco tarefas de avaliação únicas (comparação par a par, verificação em nível de etapa, verificação sem referência e com referência, e avaliação única) e múltiplos domínios focados na avaliação de raciocínio. Com nossos dados, treinamos os Avaliadores Automáticos de Raciocínio Fundamentais (FARE), uma família de avaliadores com 8 bilhões e 20 bilhões de parâmetros (com 3,6 bilhões ativos), utilizando uma abordagem simples de ajuste fino supervisionado com amostragem por rejeição iterativa (SFT). O FARE-8B desafia avaliadores especializados maiores treinados com RL, e o FARE-20B estabelece o novo padrão para avaliadores de código aberto, superando avaliadores especializados com mais de 70 bilhões de parâmetros. Além de benchmarks estáticos, avaliamos o FARE em tarefas do mundo real: como reordenadores em tempo de inferência, o FARE-20B alcança desempenho próximo ao de um oráculo no MATH. Como verificadores no treinamento com RL, o FARE melhora o desempenho do modelo treinado com RL em até 14,1% em comparação com verificadores baseados em correspondência de strings. Quando inicializado a partir do FARE, um FARE-Code continuamente ajustado supera o gpt-oss-20B em 65% na avaliação da qualidade dos casos de teste.
Se você tivesse um tradutor de Baleia-Inglês baseado em IA, como poderia validar se ele está funcionando ou não? Seria necessário interagir com os animais ou depender de observações fundamentadas, como a temperatura? Apresentamos evidências teóricas e experimentais de prova de conceito que sugerem que a interação e até mesmo as observações podem não ser necessárias para idiomas suficientemente complexos. Pode ser possível avaliar tradutores apenas com base em suas saídas em inglês, oferecendo vantagens potenciais em termos de segurança, ética e custo. Este é um exemplo de avaliação de qualidade de tradução automática (MTQE, do inglês *Machine Translation Quality Evaluation*) sem qualquer tradução de referência disponível. Um desafio crucial é identificar "alucinações", traduções falsas que podem parecer fluentes e plausíveis. Propomos o uso de tradução segmento por segmento em conjunto com o clássico teste de embaralhamento de NLP para avaliar tradutores. A ideia é traduzir a comunicação animal, turno por turno, e avaliar com que frequência as traduções resultantes fazem mais sentido em ordem do que permutadas. Experimentos de prova de conceito em idiomas humanos com escassez de dados e idiomas construídos demonstram a utilidade potencial dessa metodologia de avaliação. Esses experimentos com idiomas humanos servem apenas para validar nossa métrica sem referência sob escassez de dados. Descobriu-se que ela se correlaciona altamente com uma avaliação padrão baseada em traduções de referência, que estão disponíveis em nossos experimentos. Também realizamos uma análise teórica sugerindo que a interação pode não ser necessária nem eficiente nos estágios iniciais de aprendizado de tradução.
Este trabalho apresenta uma investigação sistemática de arquiteturas personalizadas de redes neurais convolucionais para classificação de uso do solo em imagens de satélite, alcançando 97,23% de acurácia no conjunto de dados EuroSAT sem depender de modelos pré-treinados. Através de três iterações arquiteturais progressivas (baseline: 94,30%, aprimorada com CBAM: 95,98%, e atenção multitarefa balanceada: 97,23%), identificamos e abordamos modos de falha específicos na classificação de imagens de satélite. Nossa principal contribuição é um novo mecanismo de atenção multitarefa balanceada que combina Atenção por Coordenadas para extração de características espaciais com blocos Squeeze-Excitation para extração de características espectrais, unificados por um parâmetro de fusão aprendível. Resultados experimentais demonstram que este parâmetro aprendível converge autonomamente para alfa aproximadamente 0,57, indicando importância quase igual das modalidades espacial e espectral para imagens de satélite. Empregamos regularização progressiva com DropBlock (5-20% conforme a profundidade da rede) e ponderação de perda balanceada por classe para abordar overfitting e desequilíbrio de padrões de confusão. A arquitetura final de 12 camadas alcança Kappa de Cohen de 0,9692, com todas as classes excedendo 94,46% de acurácia, demonstrando calibração de confiança com uma diferença de 24,25% entre previsões corretas e incorretas. Nossa abordagem alcança desempenho dentro de 1,34% do ResNet-50 ajustado (98,57%) sem necessitar de dados externos, validando a eficácia do design arquitetônico sistemático para aplicações específicas de domínio. Código completo, modelos treinados e scripts de avaliação estão publicamente disponíveis.
Projetar sistemas agentes eficazes requer a composição e integração perfeita de agentes, ferramentas e modelos em ambientes dinâmicos e incertos. A maioria dos métodos existentes depende de abordagens estáticas de recuperação semântica para a descoberta de ferramentas ou agentes. No entanto, a reutilização e composição eficazes de componentes existentes continuam desafiadoras devido a descrições incompletas de capacidades e às limitações dos métodos de recuperação. A seleção de componentes sofre porque as decisões não são baseadas em capacidade, custo e utilidade em tempo real. Para enfrentar esses desafios, introduzimos uma estrutura automatizada e estruturada para a composição de sistemas agentes, inspirada no problema da mochila. Nossa estrutura permite que um agente compositor identifique, selecione e monte sistematicamente um conjunto ideal de componentes agentes, considerando conjuntamente desempenho, restrições orçamentárias e compatibilidade. Ao testar dinamicamente componentes candidatos e modelar sua utilidade em tempo real, nossa abordagem simplifica a montagem de sistemas agentes e facilita a reutilização escalável de recursos. A avaliação empírica com o Claude 3.5 Sonnet em cinco conjuntos de dados de referência mostra que nosso compositor baseado na mochila online está consistentemente na fronteira de Pareto, alcançando taxas de sucesso mais altas com custos de componentes significativamente menores em comparação com nossas linhas de base. Na configuração de agente único, o compositor da mochila online apresenta uma melhoria na taxa de sucesso de até 31,6% em relação às linhas de base de recuperação. Em sistemas multiagentes, o compositor da mochila online aumenta a taxa de sucesso de 37% para 87% quando os agentes são selecionados de um inventário de mais de 100 agentes. A diferença substancial de desempenho confirma a robusta adaptabilidade de nosso método em diversos domínios e restrições orçamentárias.
A transferência de aparência para ativos 3D utilizando diferentes representações do objeto de aparência - como imagens ou texto - tem despertado interesse devido à sua ampla gama de aplicações em indústrias como jogos, realidade aumentada e criação de conteúdo digital. No entanto, os métodos mais avançados ainda falham quando a geometria entre o objeto de entrada e o objeto de aparência é significativamente diferente. Uma abordagem direta seria aplicar diretamente um modelo generativo 3D, mas demonstramos que isso acaba falhando em produzir resultados atraentes. Em vez disso, propomos uma abordagem fundamentada inspirada na orientação universal. Dado um modelo de fluxo retificado pré-treinado condicionado em imagem ou texto, nosso método livre de treinamento interage com o processo de amostragem adicionando orientação periodicamente. Essa orientação pode ser modelada como uma função de perda diferenciável, e experimentamos com dois tipos diferentes de orientação, incluindo perdas conscientes de partes para aparência e autossimilaridade. Nossos experimentos mostram que nossa abordagem transfere com sucesso textura e detalhes geométricos para o ativo 3D de entrada, superando as linhas de base tanto qualitativa quanto quantitativamente. Também mostramos que métricas tradicionais não são adequadas para avaliar a tarefa devido à sua incapacidade de focar em detalhes locais e comparar entradas diferentes, na ausência de dados de referência. Assim, avaliamos a qualidade da transferência de aparência com um sistema baseado em GPT que classifica as saídas objetivamente, garantindo uma avaliação robusta e semelhante à humana, conforme confirmado por nosso estudo com usuários. Além dos cenários apresentados, nosso método é geral e pode ser estendido para diferentes tipos de modelos de difusão e funções de orientação.
A colaboração eficaz entre humanos e IA em tarefas complexas de raciocínio exige que os usuários compreendam e interajam com o processo do modelo, e não apenas recebam um resultado. No entanto, o texto monolítico de métodos como Chain-of-Thought (CoT) impede isso, pois as interfaces atuais carecem de verbalização em tempo real e de uma interrupção robusta por parte do usuário. Apresentamos o AsyncVoice Agent, um sistema cuja arquitetura assíncrona desacopla um backend de LLM em streaming de um frontend de voz conversacional. Esse design permite que a narração e a inferência ocorram em paralelo, capacitando os usuários a interromper, questionar e direcionar o processo de raciocínio do modelo a qualquer momento. Benchmarks objetivos mostram que essa abordagem reduz a latência de interação em mais de 600x em comparação com baselines monolíticas, garantindo alta fidelidade e precisão competitiva nas tarefas. Ao permitir um diálogo bidirecional com o processo de pensamento de um modelo, o AsyncVoice Agent oferece um novo paradigma para a construção de sistemas humano-IA mais eficazes, direcionáveis e confiáveis para tarefas de alto impacto.
Modelos de linguagem de grande escala internalizam uma compensação estrutural entre veracidade e lisonja obsequiosa, emergindo da otimização de recompensas que confunde utilidade com submissão educada. Esse viés latente, conhecido como sicofância, se manifesta como uma preferência por concordância com o usuário em vez de raciocínio fundamentado. Introduzimos o Beacon, um benchmark de escolha forçada em turno único que isola esse viés independentemente do contexto conversacional, permitindo uma medição precisa da tensão entre precisão factual e viés submisso. Avaliações em doze modelos de última geração revelam que a sicofância se decompõe em sub-vieses linguísticos e afetivos estáveis, cada um escalando com a capacidade do modelo. Propomos ainda intervenções no nível de prompt e de ativação que modulam esses vieses em direções opostas, expondo a geometria interna do alinhamento como uma variedade dinâmica entre veracidade e julgamento socialmente complacente. O Beacon reformula a sicofância como uma forma mensurável de má generalização normativa, fornecendo uma base reproduzível para estudar e mitigar o desvio de alinhamento em sistemas generativos em larga escala.
O escalonamento em tempo de teste (TTS) tem aprimorado o desempenho de Modelos de Raciocínio (RMs) em diversas tarefas, como matemática e codificação, mas sua eficácia na tradução automática (MT) ainda é pouco explorada. Este artigo investiga se o aumento da computação no momento da inferência melhora a qualidade da tradução. Avaliamos 12 RMs em um conjunto diversificado de benchmarks de MT abrangendo múltiplos domínios, examinando três cenários: tradução direta, extrapolação com raciocínio forçado e pós-edição. Nossos resultados mostram que, para RMs de propósito geral, o TTS oferece benefícios limitados e inconsistentes para a tradução direta, com o desempenho rapidamente atingindo um platô. No entanto, a eficácia do TTS é desbloqueada pelo ajuste fino específico do domínio, que alinha o processo de raciocínio do modelo com os requisitos da tarefa, levando a melhorias consistentes até uma profundidade de raciocínio ótima e autodeterminada. Também descobrimos que forçar um modelo a raciocinar além de seu ponto de parada natural consistentemente degrada a qualidade da tradução. Em contraste, o TTS se mostra altamente eficaz em um contexto de pós-edição, transformando de forma confiável a autocorreção em um processo benéfico. Esses resultados indicam que o valor da computação em tempo de inferência na MT não está em aprimorar a tradução de passagem única com modelos gerais, mas em aplicações direcionadas, como fluxos de trabalho de autocorreção em múltiplas etapas e em conjunto com modelos especializados em tarefas.
À medida que os sistemas de IA avançam, dependemos mais deles para tomar decisões conosco e por nós. Para garantir que tais decisões estejam alinhadas com os valores humanos, é essencial que entendamos não apenas quais decisões eles tomam, mas também como chegam a essas decisões. Modelos de linguagem de raciocínio, que fornecem respostas finais e rastros de pensamento intermediário (parcialmente transparentes), apresentam uma oportunidade oportuna para estudar o raciocínio procedural da IA. Diferentemente de problemas de matemática e código, que frequentemente têm respostas objetivamente corretas, dilemas morais são um excelente campo de teste para avaliações focadas no processo, pois permitem múltiplas conclusões defensáveis. Para isso, apresentamos o MoReBench: 1.000 cenários morais, cada um acompanhado por um conjunto de critérios de rubrica que especialistas consideram essenciais para incluir (ou evitar) ao raciocinar sobre os cenários. O MoReBench contém mais de 23 mil critérios, incluindo a identificação de considerações morais, a ponderação de trade-offs e a oferta de recomendações acionáveis para cobrir casos em que a IA aconselha humanos em decisões morais, bem como toma decisões morais de forma autônoma. Separadamente, organizamos o MoReBench-Theory: 150 exemplos para testar se a IA pode raciocinar sob cinco grandes frameworks da ética normativa. Nossos resultados mostram que as leis de escala e os benchmarks existentes em tarefas de raciocínio matemático, de código e científico não conseguem prever as habilidades dos modelos em realizar raciocínio moral. Os modelos também mostram parcialidade em relação a frameworks morais específicos (por exemplo, Utilitarismo de Ato de Bentham e Deontologia Kantiana), o que pode ser um efeito colateral de paradigmas de treinamento populares. Juntos, esses benchmarks avançam a avaliação de raciocínio focada no processo em direção a uma IA mais segura e transparente.