Artigos de pesquisa em IA selecionados diariamente com traduções
A escalonamento em tempo de teste busca melhorar o desempenho de raciocínio de modelos de linguagem de grande escala (LLMs) ao adicionar recursos computacionais. Uma abordagem prevalente no campo são os métodos de escalonamento em tempo de teste baseados em amostragem, que aprimoram o raciocínio ao gerar múltiplos caminhos de raciocínio para uma determinada entrada durante a inferência. No entanto, apesar de seu sucesso prático, os fundamentos teóricos permanecem pouco explorados. Neste artigo, fornecemos a primeira estrutura teórica para analisar métodos de escalonamento em tempo de teste baseados em amostragem, fundamentada na perspectiva de estimativa de confiança. Com base nessa estrutura, analisamos dois paradigmas dominantes: autoconsistência e perplexidade, e revelamos limitações-chave: a autoconsistência sofre com alto erro de estimativa, enquanto a perplexidade exibe erro de modelagem substancial e possível degradação da convergência do erro de estimativa. Para abordar essas limitações, introduzimos o RPC, um método híbrido que aproveita nossas percepções teóricas por meio de dois componentes principais: Consistência de Perplexidade e Poda de Raciocínio. A Consistência de Perplexidade combina os pontos fortes da autoconsistência e da perplexidade, impulsionando a taxa de convergência do erro de estimativa de linear para exponencial, enquanto preserva o erro do modelo. A Poda de Raciocínio previne a degradação ao eliminar caminhos de raciocínio de baixa probabilidade. Tanto a análise teórica quanto os resultados empíricos em sete conjuntos de dados de referência demonstram que o RPC tem um forte potencial para reduzir o erro de raciocínio. Notavelmente, o RPC alcança desempenho de raciocínio comparável à autoconsistência, não apenas aprimorando a confiabilidade da confiança, mas também reduzindo os custos de amostragem em 50%. O código e os recursos estão disponíveis em https://wnjxyk.github.io/RPC.
Avançar a inteligência das máquinas requer o desenvolvimento da capacidade de perceber múltiplas modalidades, assim como os humanos sentem o mundo. Apresentamos o OmniVinci, uma iniciativa para construir um LLM omni-modal robusto e de código aberto. Estudamos cuidadosamente as escolhas de design em relação à arquitetura do modelo e à curadoria de dados. Para a arquitetura do modelo, apresentamos três inovações principais: (i) OmniAlignNet para fortalecer o alinhamento entre embeddings visuais e de áudio em um espaço latente omni-modal compartilhado; (ii) Agrupamento de Embeddings Temporais para capturar o alinhamento temporal relativo entre sinais visuais e de áudio; e (iii) Embedding Temporal Rotacional Restrito para codificar informações temporais absolutas em embeddings omni-modais. Introduzimos um pipeline de curadoria e síntese que gera 24 milhões de conversas mono-modais e omni-modais. Descobrimos que as modalidades se reforçam mutuamente tanto na percepção quanto no raciocínio. Nosso modelo, OmniVinci, supera o Qwen2.5-Omni com +19,05 no DailyOmni (entendimento cross-modal), +1,7 no MMAR (áudio) e +3,9 no Video-MME (visão), utilizando apenas 0,2 trilhões de tokens de treinamento — uma redução de 6 vezes em comparação com os 1,2 trilhões do Qwen2.5-Omni. Por fim, demonstramos as vantagens omni-modais em aplicações downstream que abrangem robótica, IA médica e fábricas inteligentes.
A edição de objetos 3D é essencial para a criação de conteúdo interativo em jogos, animação e robótica, mas as abordagens atuais permanecem ineficientes, inconsistentes e frequentemente falham em preservar as regiões não editadas. A maioria dos métodos depende da edição de renderizações de múltiplas vistas seguida por reconstrução, o que introduz artefatos e limita a praticidade. Para enfrentar esses desafios, propomos o Nano3D, um framework livre de treinamento para edição precisa e coerente de objetos 3D sem máscaras. O Nano3D integra o FlowEdit ao TRELLIS para realizar edições localizadas guiadas por renderizações de vista frontal e ainda introduz estratégias de mesclagem conscientes da região, Voxel/Slat-Merge, que preservam adaptativamente a fidelidade estrutural ao garantir consistência entre áreas editadas e não editadas. Experimentos demonstram que o Nano3D alcança consistência 3D e qualidade visual superiores em comparação com métodos existentes. Com base nesse framework, construímos o primeiro conjunto de dados em larga escala para edição 3D, o Nano3D-Edit-100k, que contém mais de 100.000 pares de edição 3D de alta qualidade. Este trabalho aborda desafios de longa data tanto no design de algoritmos quanto na disponibilidade de dados, melhorando significativamente a generalidade e confiabilidade da edição 3D e estabelecendo as bases para o desenvolvimento de modelos de edição 3D de alimentação direta. Página do Projeto: https://jamesyjl.github.io/Nano3D
A edição de vídeo baseada em instruções promete democratizar a criação de conteúdo, mas seu progresso é severamente limitado pela escassez de dados de treinamento em larga escala e alta qualidade. Apresentamos o Ditto, uma estrutura holística projetada para enfrentar esse desafio fundamental. No cerne do Ditto, está um pipeline inovador de geração de dados que combina a diversidade criativa de um editor de imagens líder com um gerador de vídeos em contexto, superando as limitações dos modelos existentes. Para tornar esse processo viável, nossa estrutura resolve a relação custo-qualidade proibitiva ao empregar uma arquitetura de modelo eficiente e destilada, aprimorada por um reforçador temporal, que simultaneamente reduz a sobrecarga computacional e melhora a coerência temporal. Por fim, para alcançar escalabilidade total, todo esse pipeline é impulsionado por um agente inteligente que cria instruções diversas e filtra rigorosamente a saída, garantindo controle de qualidade em escala. Usando essa estrutura, investimos mais de 12.000 dias de GPU para construir o Ditto-1M, um novo conjunto de dados com um milhão de exemplos de edição de vídeo de alta fidelidade. Treinamos nosso modelo, o Editto, no Ditto-1M com uma estratégia de aprendizado curricular. Os resultados demonstram uma capacidade superior de seguir instruções e estabelecem um novo estado da arte na edição de vídeo baseada em instruções.
Trabalhos recentes demonstraram que o ajuste fino específico pode produzir LLMs amplamente desalinhados, um fenômeno denominado desalinhamento emergente (EM). Embora preocupantes, esses achados foram limitados ao ajuste fino e à direcionamento por ativação, deixando de fora o aprendizado em contexto (ICL). Portanto, questionamos: o EM surge no ICL? Descobrimos que sim: em três conjuntos de dados, três modelos de ponta produzem respostas amplamente desalinhadas em taxas entre 2% e 17% ao receberem 64 exemplos específicos em contexto, e até 58% com 256 exemplos. Também examinamos os mecanismos do EM ao eliciar raciocínios passo a passo (mantendo os exemplos em contexto inalterados). A análise manual das cadeias de pensamento resultantes mostra que 67,5% dos rastros desalinhados explicitamente racionalizam saídas prejudiciais ao adotar uma "persona" imprudente ou perigosa, ecoando resultados anteriores sobre o EM induzido por ajuste fino.
A síntese de cenas urbanas 3D em grande escala, exploráveis e geometricamente precisas é uma tarefa desafiadora, porém valiosa, para fornecer aplicações imersivas e incorporadas. Os desafios residem na escassez de varreduras 3D em grande escala e de alta qualidade do mundo real para treinar modelos generativos generalizáveis. Neste artigo, adotamos uma abordagem alternativa para criar cenas 3D em grande escala, combinando imagens de satélite prontamente disponíveis, que fornecem geometria grosseira realista, e o modelo de difusão de domínio aberto para criar aparências de close-up de alta qualidade. Propomos o Skyfall-GS, o primeiro framework de criação de cenas 3D em escala de quarteirão sem anotações 3D custosas, que também oferece exploração 3D imersiva em tempo real. Adaptamos uma estratégia de refinamento iterativo orientada por currículo para aprimorar progressivamente a completude geométrica e as texturas fotorrealistas. Experimentos extensivos demonstram que o Skyfall-GS fornece geometria consistente entre visões aprimorada e texturas mais realistas em comparação com as abordagens state-of-the-art. Página do projeto: https://skyfall-gs.jayinnn.dev/
Os avanços recentes na geração visual baseada em difusão têm dependido amplamente de modelos de difusão latente com autoencoders variacionais (VAEs). Embora eficazes para síntese de alta fidelidade, esse paradigma VAE+difusão sofre com eficiência limitada de treinamento, inferência lenta e baixa transferibilidade para tarefas de visão mais amplas. Esses problemas decorrem de uma limitação fundamental dos espaços latentes de VAEs: a falta de separação semântica clara e estrutura discriminativa robusta. Nossa análise confirma que essas propriedades são cruciais não apenas para tarefas de percepção e compreensão, mas também para o treinamento estável e eficiente de modelos de difusão latente. Motivados por essa percepção, introduzimos o SVG, um novo modelo de difusão latente sem autoencoders variacionais, que utiliza representações auto-supervisionadas para geração visual. O SVG constrói um espaço de características com discriminabilidade semântica clara ao aproveitar características congeladas do DINO, enquanto um ramo residual leve captura detalhes refinados para reconstrução de alta fidelidade. Modelos de difusão são treinados diretamente nesse espaço latente semanticamente estruturado para facilitar um aprendizado mais eficiente. Como resultado, o SVG permite treinamento acelerado de difusão, suporta amostragem com poucos passos e melhora a qualidade gerativa. Resultados experimentais mostram ainda que o SVG preserva as capacidades semânticas e discriminativas das representações auto-supervisionadas subjacentes, oferecendo um caminho fundamentado para representações visuais de alta qualidade e aplicáveis a diversas tarefas.
O comentário linguístico sobre LLMs, fortemente influenciado pelos quadros teóricos de de Saussure e Chomsky, é frequentemente especulativo e improdutivo. Críticos questionam se os LLMs podem legitimamente modelar a linguagem, citando a necessidade de "estrutura profunda" ou "ancoragem" para alcançar uma "competência" linguística idealizada. Argumentamos por uma mudança radical de perspectiva em direção aos princípios empiristas de Witold Mańczak, um proeminente linguista geral e histórico. Ele define a linguagem não como um "sistema de signos" ou um "sistema computacional do cérebro", mas como a totalidade de tudo o que é dito e escrito. Acima de tudo, ele identifica a frequência de uso de elementos linguísticos específicos como o princípio governante primário da linguagem. Utilizando seu quadro teórico, desafiamos críticas anteriores aos LLMs e fornecemos um guia construtivo para projetar, avaliar e interpretar modelos de linguagem.
O flare de lente degrada significativamente a qualidade da imagem, impactando tarefas críticas de visão computacional, como detecção de objetos e direção autônoma. Métodos recentes de Remoção de Flare em Imagem Única (SIFR) têm desempenho insatisfatório quando as fontes de luz fora do quadro estão incompletas ou ausentes. Propomos o LightsOut, uma estrutura de outpaint baseada em difusão, projetada para aprimorar o SIFR ao reconstruir fontes de luz fora do quadro. Nosso método utiliza um módulo de regressão multitarefa e um modelo de difusão ajustado com LoRA para garantir resultados de outpaint realistas e fisicamente consistentes. Experimentos abrangentes demonstram que o LightsOut melhora consistentemente o desempenho dos métodos SIFR existentes em cenários desafiadores, sem necessidade de retreinamento adicional, servindo como uma solução de pré-processamento plug-and-play universalmente aplicável. Página do projeto: https://ray-1026.github.io/lightsout/
Os grandes modelos de linguagem (LLMs) dividem-se em duas famílias: os LLMs centrados em raciocínio, que fortalecem a cadeia de pensamento interna, mas não conseguem invocar ferramentas externas, e os LLMs agentes, que aprendem a interagir com ambientes e a utilizar ferramentas, mas frequentemente ficam aquém em raciocínio profundo. Essa divisão surge de objetivos de treinamento fundamentalmente diferentes, levando a pontos fortes desalinhados e ineficiência em consultas simples, onde ambas as famílias tendem a superanalisar ou a chamar ferramentas em excesso. Neste trabalho, apresentamos o Adaptive Agent Foundation Model (A^2FM), um framework unificado que segue o princípio de rotear e alinhar: o modelo primeiro aprende o roteamento consciente da tarefa e, em seguida, alinha trajetórias específicas de modo sob uma estrutura compartilhada. Para abordar a lacuna de ineficiência, introduzimos um terceiro modo - o modo instantâneo - que lida diretamente com consultas simples, evitando raciocínios ou chamadas de ferramentas desnecessárias, enquanto complementa os modos agente e de raciocínio. Para aprimorar conjuntamente a precisão e a eficiência, propomos a Otimização de Política Adaptativa (APO), que aplica amostragem adaptativa entre os modos e utiliza uma recompensa regularizada por custo. Na escala de 32B, o A^2FM alcança 13,4% no BrowseComp, 70,4% no AIME25 e 16,7% no HLE, estabelecendo novos recordes de estado da arte (SOTA) entre modelos comparáveis e desempenhando-se de forma competitiva com LLMs de ponta em benchmarks agentes, de raciocínio e gerais. Notavelmente, a execução adaptativa alcança um custo por resposta correta de apenas $0,00487 - reduzindo o custo em 45,2% em relação ao modo de raciocínio e em 33,5% em relação ao modo agente, proporcionando assim uma eficiência de custo substancialmente maior enquanto mantém uma precisão comparável.
Os sites de projetos acadêmicos podem disseminar pesquisas de forma mais eficaz quando apresentam o conteúdo principal de maneira clara e permitem navegação e interação intuitivas. No entanto, as abordagens atuais, como a geração direta por modelos de linguagem de grande escala (LLM), o uso de templates ou a conversão direta para HTML, enfrentam dificuldades para produzir sites com layouts bem planejados e interativos, e uma suíte abrangente de avaliação para essa tarefa tem sido inexistente. Neste artigo, apresentamos o Paper2Web, um conjunto de dados de referência e um framework de avaliação multidimensional para a geração de páginas da web acadêmicas. Ele incorpora métricas baseadas em regras, como Conectividade e Completude, e a avaliação por LLM como juiz verificada por humanos (cobrindo interatividade, estética e informatividade), além do PaperQuiz, que mede a retenção de conhecimento em nível de artigo. Também apresentamos o PWAgent, um pipeline autônomo que converte artigos científicos em páginas iniciais acadêmicas interativas e ricas em multimídia. O agente refina iterativamente tanto o conteúdo quanto o layout por meio de ferramentas MCP que aprimoram ênfase, equilíbrio e qualidade de apresentação. Nossos experimentos mostram que o PWAgent supera consistentemente as abordagens de linha de base de ponta a ponta, como páginas baseadas em templates e versões arXiv/alphaXiv, por uma grande margem, mantendo baixo custo e alcançando a fronteira de Pareto na geração de páginas da web acadêmicas.
Apresentamos o BLIP3o-NEXT, um modelo de base totalmente de código aberto da série BLIP3 que avança a próxima fronteira da geração nativa de imagens. O BLIP3o-NEXT unifica a geração de texto para imagem e a edição de imagens em uma única arquitetura, demonstrando capacidades robustas tanto na geração quanto na edição de imagens. No desenvolvimento deste modelo de última geração para geração nativa de imagens, identificamos quatro insights principais: (1) A maioria das escolhas arquitetônicas resulta em desempenho comparável; uma arquitetura pode ser considerada eficaz desde que escale de forma eficiente e suporte inferência rápida; (2) A aplicação bem-sucedida de aprendizado por reforço pode avançar ainda mais a fronteira da geração nativa de imagens; (3) A edição de imagens ainda permanece uma tarefa desafiadora, mas o seguimento de instruções e a consistência entre as imagens geradas e as de referência podem ser significativamente aprimorados por meio de pós-treinamento e um mecanismo de dados; (4) A qualidade e a escala dos dados continuam sendo fatores decisivos que determinam o limite superior do desempenho do modelo. Com base nesses insights, o BLIP3o-NEXT utiliza uma arquitetura Autoregressiva + Difusão, na qual um modelo autoregressivo gera primeiro tokens discretos de imagem condicionados a entradas multimodais, cujos estados ocultos são então usados como sinais de condicionamento para um modelo de difusão gerar imagens de alta fidelidade. Essa arquitetura integra a força de raciocínio e o seguimento de instruções dos modelos autoregressivos com a capacidade de renderização de detalhes finos dos modelos de difusão, alcançando um novo nível de coerência e realismo. Avaliações extensas em diversos benchmarks de texto para imagem e edição de imagens mostram que o BLIP3o-NEXT alcança desempenho superior em relação aos modelos existentes.
Com o avanço de modelos de raciocínio em grande escala e poderosos, a avaliação eficaz das capacidades de raciocínio desses modelos tornou-se cada vez mais importante. No entanto, os benchmarks existentes projetados para avaliar as habilidades de raciocínio de modelos grandes tendem a ser limitados em escopo e carecem da flexibilidade para adaptar sua dificuldade de acordo com as capacidades de raciocínio em evolução dos modelos. Para resolver isso, propomos o MorphoBench, um benchmark que incorpora questões multidisciplinares para avaliar as capacidades de raciocínio de modelos grandes e pode ajustar e atualizar a dificuldade das questões com base nas habilidades de raciocínio de modelos avançados. Especificamente, elaboramos o benchmark selecionando e coletando questões complexas de raciocínio de benchmarks existentes e fontes como competições de nível olímpico. Além disso, o MorphoBench modifica adaptativamente o desafio analítico das questões aproveitando declarações-chave geradas durante o processo de raciocínio do modelo. Adicionalmente, ele inclui questões geradas usando software de simulação, permitindo o ajuste dinâmico da dificuldade do benchmark com consumo mínimo de recursos. Coletamos mais de 1.300 questões de teste e ajustamos iterativamente a dificuldade do MorphoBench com base nas capacidades de raciocínio de modelos como o3 e GPT-5. O MorphoBench aprimora a abrangência e a validade da avaliação do raciocínio dos modelos, fornecendo orientação confiável para melhorar tanto as habilidades de raciocínio quanto a robustez científica de modelos grandes. O código foi disponibilizado em https://github.com/OpenDCAI/MorphoBench.
Apesar dos rápidos avanços na síntese de texto para vídeo, a qualidade dos vídeos gerados continua dependendo criticamente de prompts precisos do usuário. Métodos de otimização em tempo de teste, bem-sucedidos em outros domínios, enfrentam dificuldades com a natureza multifacetada do vídeo. Neste trabalho, introduzimos o VISTA (Video Iterative Self-improvemenT Agent), um sistema multiagente inovador que melhora autonomamente a geração de vídeos por meio do refinamento de prompts em um loop iterativo. O VISTA primeiro decompõe uma ideia do usuário em um plano temporal estruturado. Após a geração, o melhor vídeo é identificado por meio de um robusto torneio de comparação em pares. Esse vídeo vencedor é então criticado por um trio de agentes especializados focados em fidelidade visual, auditiva e contextual. Por fim, um agente de raciocínio sintetiza esse feedback para reescrever e aprimorar introspectivamente o prompt para o próximo ciclo de geração. Experimentos em cenários de geração de vídeo de cena única e múltipla mostram que, enquanto métodos anteriores produzem ganhos inconsistentes, o VISTA melhora consistentemente a qualidade do vídeo e o alinhamento com a intenção do usuário, alcançando até 60% de taxa de vitória em comparações com métodos de ponta. Avaliadores humanos concordam, preferindo as saídas do VISTA em 66,4% das comparações.
Modelos de base (FMs, do inglês Foundation Models), como GPT-4 e AlphaFold, estão remodelando o panorama da pesquisa científica. Além de acelerar tarefas como geração de hipóteses, design experimental e interpretação de resultados, eles levantam uma questão mais fundamental: os FMs estão apenas aprimorando as metodologias científicas existentes ou estão redefinindo a maneira como a ciência é conduzida? Neste artigo, argumentamos que os FMs estão catalisando uma transição para um novo paradigma científico. Introduzimos uma estrutura de três estágios para descrever essa evolução: (1) Integração Metacientífica, onde os FMs aprimoram fluxos de trabalho dentro de paradigmas tradicionais; (2) Cocriação Híbrida Humano-IA, onde os FMs se tornam colaboradores ativos na formulação de problemas, raciocínio e descoberta; e (3) Descoberta Científica Autônoma, onde os FMs operam como agentes independentes capazes de gerar novos conhecimentos científicos com intervenção humana mínima. Através dessa lente, revisamos as aplicações atuais e as capacidades emergentes dos FMs em paradigmas científicos existentes. Além disso, identificamos riscos e direções futuras para a descoberta científica habilitada por FMs. Este artigo de posicionamento visa apoiar a comunidade científica na compreensão do papel transformador dos FMs e fomentar a reflexão sobre o futuro da descoberta científica. Nosso projeto está disponível em https://github.com/usail-hkust/Awesome-Foundation-Models-for-Scientific-Discovery.
Modelos de linguagem de raciocínio, como OpenAI-o1, DeepSeek-R1 e Qwen, alcançam desempenho robusto por meio de cadeias de pensamento estendidas, mas frequentemente geram saídas desnecessariamente longas. Maximizar a inteligência por token—precisão em relação ao comprimento da resposta—continua sendo um problema em aberto. Revisitamos o aprendizado por reforço (RL) com a penalidade de comprimento mais simples—truncamento—e mostramos que a degradação da precisão não surge da falta de penalidades sofisticadas, mas de uma otimização inadequada do RL. Identificamos três desafios principais: (i) grande viés na estimativa de vantagem, (ii) colapso de entropia e (iii) sinal de recompensa esparso. Abordamos esses desafios com o Doing Length pEnalty Right (DLER), uma receita de treinamento que combina normalização de recompensa por lote, clipping mais alto, amostragem dinâmica e uma simples penalidade de truncamento de comprimento. O DLER alcança trade-offs estado da arte entre precisão e eficiência, reduzindo o comprimento da saída em mais de 70% enquanto supera todas as precisões de baseline anteriores. Ele também melhora a escalabilidade em tempo de teste: em comparação com o DeepSeek-R1-7B, o DLER-7B gera múltiplas respostas concisas em paralelo com 28% mais precisão e menor latência. Introduzimos ainda o DLER com Consciência de Dificuldade, que ajusta adaptativamente o truncamento em perguntas mais fáceis para ganhos adicionais de eficiência. Também propomos um método de mesclagem seletiva de atualizações que preserva a precisão do baseline enquanto mantém a capacidade de raciocínio conciso do modelo DLER, o que é útil para cenários onde os dados de treinamento de RL são escassos.
A automação da descoberta científica representa um marco crítico na pesquisa em Inteligência Artificial (IA). No entanto, os sistemas agentes existentes para a ciência sofrem de duas limitações fundamentais: fluxos de trabalho rígidos e pré-programados que não conseguem se adaptar a descobertas intermediárias, e gerenciamento inadequado de contexto que dificulta pesquisas de longo prazo. Apresentamos o freephdlabor, um framework de multiagentes de código aberto que apresenta fluxos de trabalho totalmente dinâmicos determinados pelo raciocínio em tempo real dos agentes e uma \textit{arquitetura modular} que permite personalização contínua -- os usuários podem modificar, adicionar ou remover agentes para atender a requisitos específicos do domínio. O framework fornece infraestrutura abrangente, incluindo compactação automática de contexto, comunicação baseada em workspace para prevenir degradação de informação, persistência de memória entre sessões e mecanismos de intervenção humana não bloqueantes. Esses recursos transformam coletivamente a pesquisa automatizada de tentativas isoladas e únicas em programas de pesquisa contínuos que se desenvolvem sistematicamente a partir de explorações anteriores e incorporam feedback humano. Ao fornecer tanto os princípios arquitetônicos quanto a implementação prática para a construção de sistemas co-cientistas personalizáveis, este trabalho visa facilitar a adoção mais ampla da pesquisa automatizada em diversos domínios científicos, permitindo que profissionais implantem sistemas multiagentes interativos que conduzem pesquisas de ponta a ponta de forma autônoma -- desde a ideação, passando pela experimentação, até a produção de manuscritos prontos para publicação.
Agentes de pesquisa profunda na web não apenas recuperam informações de diversas fontes, como ambientes web, arquivos e entradas multimodais, mas, mais importante, precisam analisar e agregar conhecimento de forma rigorosa para realizar pesquisas perspicazes. No entanto, os agentes de pesquisa profunda de código aberto existentes focam predominantemente em aprimorar as capacidades de busca de informações dos agentes web para localizar dados específicos, enquanto negligenciam a necessidade essencial de agregação de informações, o que limitaria sua capacidade de apoiar pesquisas aprofundadas. Propomos um paradigma de Explorar para Evoluir para construir de forma escalável dados de treinamento verificáveis para agentes web. Começando com uma exploração online proativa, um agente coleta informações fundamentadas ao explorar a web real. Usando as evidências coletadas, o agente então auto-evolui um programa de agregação ao selecionar, compor e refinar operações de 12 tipos lógicos de alto nível para sintetizar um par de perguntas e respostas (QA) verificável. Essa evolução de orientações de alto nível para operações concretas nos permitiu produzir de forma escalável o WebAggregatorQA, um conjunto de dados com 10 mil amostras em 50 mil sites e 11 domínios. Com base em um framework de agente de código aberto, SmolAgents, coletamos trajetórias de ajuste fino supervisionado para desenvolver uma série de modelos fundamentais, o WebAggregator. O WebAggregator-8B iguala o desempenho do GPT-4.1, enquanto a variante de 32B supera o GPT-4.1 em mais de 10% no GAIA-text e se aproxima do Claude-3.7-sonnet. Além disso, dada a disponibilidade limitada de benchmarks que avaliam as habilidades de agregação de informações de agentes web, construímos uma divisão de avaliação anotada manualmente do WebAggregatorQA como um conjunto de testes desafiador. Nesse benchmark, o Claude-3.7-sonnet alcança apenas 28%, e o GPT-4.1 marca 25,8%. Mesmo quando os agentes conseguem recuperar todas as referências, eles ainda lutam no WebAggregatorQA, destacando a necessidade de fortalecer as capacidades de agregação de informações das bases dos agentes web.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado avanços significativos por meio de aprendizado por reforço (RL), especialmente em domínios onde as recompensas podem ser verificadas de forma programática, como matemática e código. Nessas áreas, os modelos se beneficiam de uma base operacional bem definida, guiada por objetivos explícitos baseados em regras. No entanto, esse progresso revela uma limitação importante: em domínios de natureza aberta, onde as recompensas são ambíguas, subjetivas ou dependentes de contexto, como escrita criativa, raciocínio científico e, notavelmente, consultas médicas, faltam funções de recompensa robustas, tornando essas áreas desafiadoras para as estratégias atuais de RL. Para preencher essa lacuna, introduzimos o ORBIT, um framework de treinamento incremental baseado em rubricas, projetado especificamente para diálogos médicos de alto risco. O ORBIT integra a geração de diálogos sintéticos com a criação dinâmica de rubricas, empregando essas rubricas para direcionar um processo incremental de RL. Em particular, essa abordagem não depende de conhecimento médico externo ou regras manuais, utilizando, em vez disso, feedback guiado por rubricas para moldar o aprendizado. Quando implementado no modelo Qwen3-4B-Instruct, nosso método pode melhorar significativamente seu desempenho no benchmark HealthBench-Hard, passando de 7,0 para 27,2 usando apenas 2 mil amostras, alcançando assim resultados de ponta para modelos dessa escala. Nossa análise confirma que o RL guiado por rubricas promove ganhos consistentes de desempenho em diversos cenários de consulta, indo além de simples melhorias numéricas. Esses achados destacam o feedback baseado em rubricas como uma estratégia escalável para avançar LLMs em tarefas complexas e de natureza aberta.
A geração de layouts de cenas 3D artísticos e coerentes é crucial na criação de conteúdo digital. Métodos tradicionais baseados em otimização frequentemente são limitados por regras manuais complicadas, enquanto modelos generativos profundos enfrentam desafios na produção de conteúdo com riqueza e diversidade. Além disso, abordagens que utilizam modelos de linguagem de grande escala frequentemente carecem de robustez e falham em capturar com precisão relações espaciais complexas. Para abordar esses desafios, este artigo apresenta um novo sistema de geração de layouts 3D guiado por visão. Primeiro, construímos uma biblioteca de ativos de alta qualidade contendo 2.037 ativos de cena e 147 layouts de cenas 3D. Em seguida, empregamos um modelo de geração de imagens para expandir representações de prompts em imagens, ajustando-o para alinhar-se com nossa biblioteca de ativos. Desenvolvemos então um módulo robusto de análise de imagens para recuperar o layout 3D das cenas com base em semântica visual e informações geométricas. Por fim, otimizamos o layout da cena utilizando grafos de cena e semântica visual geral para garantir coerência lógica e alinhamento com as imagens. Testes extensivos com usuários demonstram que nosso algoritmo supera significativamente os métodos existentes em termos de riqueza e qualidade do layout. O código e o conjunto de dados estarão disponíveis em https://github.com/HiHiAllen/Imaginarium.
Modelos de Linguagem de Grande Escala (LLMs) recentes têm demonstrado uma capacidade promissora na resolução de problemas relacionados a finanças. No entanto, a aplicação de LLMs em aplicações financeiras do mundo real continua sendo desafiadora devido à sua natureza de alto risco e alto impacto. Este artigo apresenta o FinTrust, um benchmark abrangente projetado especificamente para avaliar a confiabilidade de LLMs em aplicações financeiras. Nosso benchmark foca em uma ampla gama de questões de alinhamento com base em contextos práticos e apresenta tarefas detalhadas para cada dimensão da avaliação de confiabilidade. Avaliamos onze LLMs no FinTrust e descobrimos que modelos proprietários, como o o4-mini, superam na maioria das tarefas, como segurança, enquanto modelos de código aberto, como o DeepSeek-V3, têm vantagem em áreas específicas, como justiça em nível de indústria. Para tarefas desafiadoras, como alinhamento fiduciário e divulgação, todos os LLMs ficam aquém, mostrando uma lacuna significativa na consciência legal. Acreditamos que o FinTrust pode ser um benchmark valioso para a avaliação da confiabilidade de LLMs no domínio financeiro.
À medida que a demanda por inteligência emocional em modelos de linguagem de grande escala (LLMs) cresce, um desafio fundamental reside em compreender os mecanismos internos que dão origem à expressão emocional e em controlar as emoções no texto gerado. Este estudo aborda três questões centrais: (1) Os LLMs contêm mecanismos independentes de contexto que moldam a expressão emocional? (2) Qual a forma desses mecanismos? (3) Eles podem ser utilizados para o controle universal de emoções? Primeiro, construímos um conjunto de dados controlado, SEV (Scenario-Event with Valence), para elicitar estados internos comparáveis entre emoções. Em seguida, extraímos direções emocionais independentes de contexto que revelam uma codificação consistente e transversal de emoções (Q1). Identificamos neurônios e cabeças de atenção que implementam localmente o cálculo emocional por meio de decomposição analítica e análise causal, e validamos seus papéis causais por meio de intervenções de ablação e aprimoramento. A seguir, quantificamos a influência causal de cada subcamada na representação final da emoção do modelo e integramos os componentes locais identificados em circuitos emocionais globais coesos que impulsionam a expressão emocional (Q2). A modulação direta desses circuitos alcança 99,65% de precisão na expressão emocional no conjunto de teste, superando métodos baseados em prompts e direcionamento (Q3). Até onde sabemos, este é o primeiro estudo sistemático a descobrir e validar circuitos emocionais em LLMs, oferecendo novos insights sobre interpretabilidade e inteligência emocional controlável.
As leis de escalonamento empíricas prescrevem como alocar parâmetros, dados e computação, enquanto a parametrização de atualização máxima (muP) permite a transferência da taxa de aprendizado entre larguras ao equalizar as magnitudes das atualizações no início do treinamento. No entanto, em arquiteturas modernas invariantes à escala, o treinamento rapidamente entra em um estado estacionário governado pelo otimizador, onde camadas de normalização criam sensibilidade à escala no retropropagação e a taxa de aprendizado efetiva se torna dependente da largura, degradando a transferência do muP. Nós abordamos isso introduzindo uma regra de escalonamento de decaimento de peso para o AdamW que preserva o ganho das subcamadas entre larguras. Empiricamente, o espectro de valores singulares de cada parâmetro matricial escala em norma como eta/lambda com uma forma aproximadamente invariante; sob escalonamento de largura d, observamos que o valor singular máximo escala aproximadamente como eta/lambda * d^{0.75}. Combinando essa observação com a regra de taxa de aprendizado do muP eta_2 proporcional a d^{-1} para parâmetros do tipo matriz implica uma regra empírica de escalonamento de decaimento de peso lambda_2 proporcional a d que aproximadamente mantém os ganhos das subcamadas invariantes à largura. Juntamente com parâmetros do tipo vetor treinados em eta_1 = Theta_d(1) e lambda_1 = 0, isso resulta na transferência zero-shot tanto da taxa de aprendizado quanto do decaimento de peso de larguras proxy para alvo, eliminando varreduras por largura. Validamos a regra em Transformers no estilo LLaMA e em um cenário sintético mínimo, e fornecemos um diagnóstico simples, correspondendo os valores singulares máximos, para verificar a invariância do ganho das subcamadas. Nossos resultados estendem o muP além do regime próximo à inicialização ao controlar explicitamente as escalas de estado estacionário definidas pelo otimizador, oferecendo uma receita prática para a transferência robusta de hiperparâmetros em largura sob o AdamW.
Modelos de Mistura de Especialistas (MoE) alcançam escalabilidade eficiente por meio da ativação esparsa de especialistas, mas frequentemente sofrem com decisões de roteamento subótimas devido a mudanças de distribuição durante a implantação. Embora os métodos existentes de adaptação em tempo de teste possam potencialmente abordar esses problemas, eles se concentram principalmente em modelos densos e exigem acesso a dados externos, limitando sua aplicabilidade prática em arquiteturas MoE. No entanto, descobrimos que, em vez de depender de dados de referência, podemos otimizar a seleção de especialistas MoE em tempo real com base apenas no contexto de entrada. Assim, propomos uma estrutura de teste em tempo online e sem dados que adapta continuamente as decisões de roteamento MoE durante a geração de texto sem supervisão ou dados externos. Nosso método alterna entre duas fases: Durante o estágio de preenchimento e, posteriormente, em intervalos regulares, otimizamos as decisões de roteamento do modelo usando auto-supervisão com base na sequência já gerada. Em seguida, geramos texto normalmente, mantendo o roteador modificado até a próxima adaptação. Implementamos isso por meio de vetores aditivos leves que atualizam apenas os logits do roteador em camadas selecionadas, mantendo a eficiência computacional enquanto evitam a superadaptação. Os resultados experimentais mostram ganhos consistentes de desempenho em tarefas desafiadoras de raciocínio, mantendo a robustez a mudanças de contexto. Por exemplo, nosso método alcança uma melhoria de 5,5% no HumanEval com OLMoE. Além disso, devido à sua propriedade plug-and-play, nosso método complementa naturalmente as técnicas existentes de escalabilidade em tempo de teste, por exemplo, alcançando ganhos médios de 6% quando incorporado com auto-consistência no DeepSeek-V2-Lite.
Grandes Modelos de Linguagem (LLMs) sofrem uma degradação significativa de desempenho em conversas de múltiplos turnos quando as informações são apresentadas de forma incremental. Considerando que conversas de múltiplos turnos caracterizam as interações cotidianas com LLMs, essa degradação representa um desafio sério para a usabilidade no mundo real. Nós hipotetizamos que aumentos abruptos na incerteza do modelo sinalizam desalinhamento em interações de múltiplos turnos com LLMs, e exploramos essa percepção para realinhar dinamicamente o contexto da conversa. Introduzimos o ERGO (Entropy-guided Resetting for Generation Optimization), que quantifica continuamente a incerteza interna por meio da entropia de Shannon sobre as distribuições de próximos tokens e aciona a consolidação adaptativa de prompts quando um pico acentuado na entropia é detectado. Ao tratar a incerteza como um sinal de primeira classe em vez de um incômodo a ser eliminado, o ERGO abraça a variabilidade na linguagem e na modelagem, representando e respondendo à incerteza. Em tarefas de múltiplos turnos com instruções reveladas incrementalmente, o ERGO proporciona um ganho médio de desempenho de 56,6% em relação às linhas de base padrão, aumenta a aptidão (capacidade de desempenho máximo) em 24,7% e reduz a falta de confiabilidade (variabilidade no desempenho) em 35,3%, demonstrando que intervenções conscientes da incerteza podem melhorar tanto a precisão quanto a confiabilidade em IA conversacional.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) são continuamente pré-treinados em uma mistura de dados de legendas de imagem-texto e documentos intercalados, enquanto a filtragem de dados de alta qualidade para documentos intercalados de imagem-texto ainda é pouco explorada. Propomos treinar um MLLM eficiente como um Classificador Unificado de Qualidade de Dados Multimodais para filtrar tanto legendas de imagem-texto quanto dados intercalados de alta qualidade (UniFilter). Para enfrentar o desafio de coletar dados multimodais rotulados e diversos, introduzimos uma abordagem semi-sintética que aproveita imagens brutas prontamente disponíveis e gera textos correspondentes em quatro níveis de qualidade. Esse método permite a criação eficiente de pares amostra-pontuação tanto para dados de legendas quanto para documentos intercalados, a fim de treinar o UniFilter. Aplicamos o UniFilter para selecionar dados de legendas de alta qualidade do conjunto de dados DataComp e dados intercalados do conjunto de dados OBELICS de imagem-texto intercalado. MLLMs pré-treinados com os dados filtrados demonstram capacidades significativamente aprimoradas em comparação com aqueles treinados com dados filtrados de linha de base, alcançando capacidades mais robustas de raciocínio zero-shot e aprendizado em contexto. Após o ajuste fino supervisionado visual, esses MLLMs induzidos pelo UniFilter alcançam desempenho superior em vários benchmarks, destacando os benefícios subsequentes do pré-treinamento multimodal de alta qualidade. Disponibilizamos para a comunidade os dados sintéticos de treinamento usados para treinar o UniFilter, os checkpoints do modelo UniFilter e o subconjunto de documentos intercalados de alta qualidade OBELICS-HQ, selecionado pelo UniFilter, para reprodução e desenvolvimento adicional.
Apresentamos o Representation Tokenizer (RepTok), um framework de modelagem generativa que representa uma imagem usando um único token latente contínuo obtido de transformers visuais auto-supervisionados. Com base em um codificador SSL pré-treinado, ajustamos apenas o embedding do token semântico e o emparelhamos com um decodificador generativo treinado em conjunto usando um objetivo padrão de correspondência de fluxo. Essa adaptação enriquece o token com detalhes de baixo nível relevantes para reconstrução, permitindo uma reconstrução fiel da imagem. Para preservar a geometria favorável do espaço SSL original, adicionamos uma perda de similaridade cosseno que regulariza o token adaptado, garantindo que o espaço latente permaneça suave e adequado para geração. Nossa formulação de token único resolve redundâncias espaciais de espaços latentes 2D e reduz significativamente os custos de treinamento. Apesar de sua simplicidade e eficiência, o RepTok alcança resultados competitivos na geração condicionada por classe do ImageNet e se estende naturalmente para síntese de texto para imagem, atingindo desempenho competitivo zero-shot no MS-COCO sob orçamentos de treinamento extremamente limitados. Nossas descobertas destacam o potencial das representações SSL ajustadas como espaços latentes compactos e eficazes para modelagem generativa eficiente.
Apresentamos o DriveGen3D, uma nova estrutura para geração de cenas dinâmicas 3D de alta qualidade e altamente controláveis que aborda limitações críticas nas metodologias existentes. As abordagens atuais para síntese de cenas de direção sofrem com demandas computacionais proibitivas para geração temporal prolongada, focam exclusivamente na síntese de vídeos prolongados sem representação 3D ou se restringem à reconstrução estática de cena única. Nosso trabalho preenche essa lacuna metodológica ao integrar a geração acelerada de vídeos de longo prazo com a reconstrução de cenas dinâmicas em grande escala por meio de controle condicional multimodal. O DriveGen3D introduz um pipeline unificado composto por dois componentes especializados: o FastDrive-DiT, um transformador de difusão de vídeo eficiente para síntese de vídeo de alta resolução e coerência temporal sob orientação de texto e layout Bird's-Eye-View (BEV); e o FastRecon3D, um módulo de reconstrução feed-forward que constrói rapidamente representações 3D Gaussianas ao longo do tempo, garantindo consistência espaço-temporal. Juntos, esses componentes permitem a geração em tempo real de vídeos de direção prolongados (até 424x800 a 12 FPS) e cenas 3D dinâmicas correspondentes, alcançando SSIM de 0,811 e PSNR de 22,84 na síntese de novas visões, tudo isso mantendo a eficiência de parâmetros.