Artigos de pesquisa em IA selecionados diariamente com traduções
O rótulo "end-to-end" para LLMs é um equívoco. Na prática, estes modelos dependem de um processo de decodificação não diferenciável que exige um ajuste laborioso e manual de hiperparâmetros como temperatura e top-p. Este artigo introduz o AutoDeco, uma nova arquitetura que permite uma geração verdadeiramente "end-to-end" ao aprender a controlar sua própria estratégia de decodificação. Aumentamos o transformer padrão com cabeças leves que, a cada passo, preveem dinamicamente valores de temperatura e top-p específicos ao contexto, juntamente com os logits do próximo token. Esta abordagem transforma a decodificação num processo paramétrico ao nível do token, permitindo que o modelo autorregule sua estratégia de amostragem numa única passagem direta. Através de extensos experimentos em oito benchmarks, demonstramos que o AutoDeco não apenas supera significativamente as estratégias de decodificação padrão, mas também atinge um desempenho comparável a uma linha de base ajustada por oráculo, derivada de "hackear o conjunto de teste" - um limite superior prático para qualquer método estático. Crucialmente, descobrimos uma capacidade emergente para controle de decodificação baseado em instruções: o modelo aprende a interpretar comandos em linguagem natural (por exemplo, "gerar com baixa aleatoriedade") e ajusta sua temperatura e top-p previstos token a token, abrindo um novo paradigma para a decodificação de LLMs orientável e interativa.
Apresentamos a Kimi Linear, uma arquitetura híbrida de atenção linear que, pela primeira vez, supera a atenção completa em comparações justas em vários cenários — incluindo regimes de escalonamento de contexto curto, contexto longo e aprendizagem por reforço (RL). Em seu núcleo está a Kimi Delta Attention (KDA), um módulo de atenção linear expressivo que estende o Gated DeltaNet com um mecanismo de gate mais refinado, permitindo um uso mais eficaz da memória limitada de RNN de estado finito. Nosso algoritmo chunkwise personalizado alcança alta eficiência de hardware por meio de uma variante especializada das matrizes de transição Diagonal-Plus-Low-Rank (DPLR), que reduz substancialmente a computação em comparação com a formulação DPLR geral, mantendo-se mais consistente com a regra delta clássica. Pré-treinamos um modelo Kimi Linear com 3B parâmetros ativados e 48B parâmetros totais, baseado em uma combinação camada por camada de KDA e Multi-Head Latent Attention (MLA). Nossos experimentos mostram que, com uma receita de treinamento idêntica, a Kimi Linear supera a MLA completa com uma margem considerável em todas as tarefas avaliadas, enquanto reduz o uso do cache KV em até 75% e alcança até 6 vezes a taxa de transferência de decodificação para um contexto de 1M. Esses resultados demonstram que a Kimi Linear pode ser um substituto direto para arquiteturas de atenção completa, com desempenho e eficiência superiores, incluindo tarefas com comprimentos de entrada e saída mais longos. Para apoiar pesquisas futuras, disponibilizamos como código aberto o kernel KDA e as implementações vLLM, e liberamos os checkpoints do modelo pré-treinado e ajustado por instrução.
Apresentamos o Emu3.5, um modelo de mundo multimodal de grande escala que prevê nativamente o próximo estado através da visão e da linguagem. O Emu3.5 é pré-treinado de forma ponta a ponta com um objetivo unificado de previsão do próximo token em um corpus de dados intercalados de visão e linguagem contendo mais de 10 trilhões de tokens, derivados principalmente de quadros sequenciais e transcrições de vídeos da internet. O modelo aceita naturalmente entradas intercaladas de visão e linguagem e gera saídas intercaladas de visão e linguagem. O Emu3.5 é posteriormente pós-treinado com aprendizado por reforço em larga escala para aprimorar o raciocínio e a geração multimodal. Para melhorar a eficiência da inferência, propomos a Adaptação por Difusão Discreta (DiDA), que converte a decodificação token por token em uma previsão paralela bidirecional, acelerando a inferência por imagem em cerca de 20 vezes sem sacrificar o desempenho. O Emu3.5 exibe fortes capacidades multimodais nativas, incluindo geração de visão e linguagem de longo horizonte, geração de qualquer coisa para imagem (X2I) e geração complexa de imagens ricas em texto. Ele também exibe habilidades generalizáveis de modelagem de mundo, permitindo a exploração do mundo com consistência espaço-temporal e a manipulação corporificada em mundo aberto em diversos cenários e tarefas. Para comparação, o Emu3.5 atinge um desempenho comparável ao Gemini 2.5 Flash Image (Nano Banana) em tarefas de geração e edição de imagens e demonstra resultados superiores em um conjunto de tarefas de geração intercalada. Disponibilizamos o código-fonte do Emu3.5 em https://github.com/baaivision/Emu3.5 para apoiar a pesquisa da comunidade.
O ChatGPT Atlas da OpenAI introduz novas capacidades de interação web, permitindo que o modelo analise páginas da web, processe intenções do usuário e execute entradas de cursor e teclado diretamente no navegador. Embora sua capacidade para tarefas de recuperação de informação tenha sido demonstrada, seu desempenho em ambientes dinâmicos e interativos permanece menos explorado. Neste estudo, realizamos uma avaliação preliminar das capacidades de interação web do Atlas usando jogos baseados em navegador como cenários de teste, incluindo o T-Rex Runner do Google, Sudoku, Flappy Bird e Stein.world. Empregamos pontuações de desempenho no jogo como métricas quantitativas para avaliar o desempenho em diferentes tipos de tarefas. Nossos resultados mostram que o Atlas tem um desempenho forte em tarefas de raciocínio lógico como Sudoku, completando quebra-cabeças significativamente mais rápido que baselines humanos, mas tem dificuldades substanciais em jogos em tempo real que exigem temporização precisa e controle motor, frequentemente falhando em progredir além dos obstáculos iniciais. Essas descobertas sugerem que, embora o Atlas demonstre processamento analítico competente, ainda existem limitações notáveis em ambientes web dinâmicos que exigem interação em tempo real. O website do nosso projeto pode ser encontrado em https://atlas-game-eval.github.io.
Os Grandes Modelos de Linguagem (LLMs) frequentemente lutam com problemas que exigem raciocínio em múltiplas etapas. Para modelos *open-source* de pequena escala, o Aprendizado por Reforço com Recompensas Verificáveis (RLVR) falha quando soluções corretas são raramente amostradas, mesmo após muitas tentativas, enquanto o Ajuste Fino Supervisionado (SFT) tende a sofrer de sobreajuste com demonstrações longas através de uma imitação rígida, token por token. Para colmatar esta lacuna, propomos o Aprendizado por Reforço Supervisionado (SRL), uma estrutura que reformula a resolução de problemas como a geração de uma sequência de "ações" lógicas. O SRL treina o modelo para gerar um monólogo interno de raciocínio antes de se comprometer com cada ação. Ele fornece recompensas mais suaves com base na similaridade entre as ações do modelo e as ações de especialistas extraídas do conjunto de dados SFT de forma gradual, passo a passo. Esta supervisão oferece sinais de aprendizagem mais ricos, mesmo quando todas as execuções (*rollouts*) estão incorretas, ao mesmo tempo que incentiva um raciocínio flexível orientado por demonstrações de especialistas. Como resultado, o SRL permite que modelos pequenos aprendam problemas desafiadores anteriormente inatingíveis por SFT ou RLVR. Além disso, inicializar o treinamento com SRL antes de refinar com RLVR produz o desempenho global mais forte. Para além de benchmarks de raciocínio, o SRL generaliza eficazmente para tarefas de engenharia de software agentivas, estabelecendo-o como uma estrutura de treinamento robusta e versátil para LLMs orientados ao raciocínio.
Embora as representações visuais pré-treinadas tenham avançado significativamente a aprendizagem por imitação, elas frequentemente são agnósticas à tarefa, pois permanecem congeladas durante o aprendizado da política. Neste trabalho, exploramos a utilização de modelos de difusão texto-imagem pré-treinados para obter representações visuais adaptativas para tarefas de controle robótico, sem ajustar o próprio modelo. No entanto, descobrimos que a aplicação ingênua de condições textuais - uma estratégia bem-sucedida em outros domínios da visão computacional - produz ganhos mínimos ou mesmo negativos em tarefas de controle. Atribuímos isso à lacuna de domínio entre os dados de treinamento do modelo de difusão e os ambientes de controle robótico, levando-nos a defender condições que considerem as informações visuais dinâmicas e específicas necessárias para o controle. Para isso, propomos o ORCA, que introduz *prompts* de tarefa aprendíveis que se adaptam ao ambiente de controle e *prompts* visuais que capturam detalhes refinados e específicos de cada quadro. Ao facilitar representações adaptativas à tarefa com nossas condições recém-desenvolvidas, nossa abordagem atinge desempenho de ponta em vários benchmarks de controle robótico, superando significativamente métodos anteriores.
A construção de agentes que generalizem entre ambientes web, desktop e móveis continua a ser um desafio em aberto, uma vez que os sistemas anteriores dependem de interfaces específicas do ambiente que limitam a implantação multiplataforma. Apresentamos o Surfer 2, uma arquitetura unificada que opera puramente a partir de observações visuais e atinge um desempenho de ponta em todos os três ambientes. O Surfer 2 integra gestão hierárquica de contexto, planeamento e execução desacoplados e autoverificação com recuperação adaptativa, permitindo operação confiável em horizontes de tarefas longos. O nosso sistema atinge 97,1% de precisão no WebVoyager, 69,6% no WebArena, 60,1% no OSWorld e 87,1% no AndroidWorld, superando todos os sistemas anteriores sem afinação específica para a tarefa. Com múltiplas tentativas, o Surfer 2 excede o desempenho humano em todos os benchmarks. Estes resultados demonstram que uma orquestração sistemática amplifica as capacidades dos modelos de base e permite o controlo informático de uso geral apenas através da interação visual, ao mesmo tempo que apela a um modelo de linguagem visual de próxima geração para alcançar uma relação custo-eficiência Pareto-ótima.
Os modelos recentes de geração de vídeo podem produzir vídeos de alta fidelidade e temporalmente coerentes, indicando que podem codificar conhecimento substancial sobre o mundo. Além da síntese realista, eles também exibem comportamentos emergentes indicativos de percepção visual, modelagem e manipulação. No entanto, uma questão importante permanece: Os modelos de vídeo estão prontos para atuar como sistemas de raciocínio *zero-shot* em cenários desafiadores de raciocínio visual? Neste trabalho, realizamos um estudo empírico para investigar essa questão de forma abrangente, focando no popular e líder Veo-3. Avaliamos seu comportamento de raciocínio em 12 dimensões, incluindo lógica espacial, geométrica, física, temporal e incorporada, caracterizando sistematicamente seus pontos fortes e modos de falha. Para padronizar este estudo, organizamos os dados de avaliação no MME-CoF, um benchmark compacto que permite uma avaliação aprofundada e minuciosa do raciocínio em Cadeia de Quadros (Chain-of-Frame, CoF). Nossas descobertas revelam que, embora os modelos de vídeo atuais demonstrem padrões de raciocínio promissores em coerência espacial de curto prazo, ancoragem refinada (*fine-grained grounding*) e dinâmicas localmente consistentes, eles permanecem limitados no raciocínio causal de longo prazo, em restrições geométricas rigorosas e em lógica abstrata. No geral, eles ainda não são confiáveis como sistemas de raciocínio *zero-shot* autônomos, mas exibem sinais encorajadores como motores visuais complementares junto a modelos de raciocínio dedicados. Página do projeto: https://video-cof.github.io
Apresentamos o AMO-Bench, um benchmark avançado de raciocínio matemático com dificuldade de nível olímpico ou superior, composto por 50 problemas elaborados manualmente. Os benchmarks existentes têm utilizado amplamente competições matemáticas do ensino médio para avaliar as capacidades de raciocínio matemático de modelos de linguagem de grande escala (LLMs). No entanto, muitas competições matemáticas existentes estão a tornar-se menos eficazes para avaliar LLMs de ponta devido à saturação de desempenho (por exemplo, AIME24/25). Para resolver esta questão, o AMO-Bench introduz desafios mais rigorosos, garantindo que todos os 50 problemas são (1) validados cruzadamente por especialistas para cumprir pelo menos os padrões de dificuldade da Olimpíada Internacional de Matemática (IMO), e (2) problemas inteiramente originais para evitar possíveis vazamentos de desempenho por memorização de dados. Além disso, cada problema no AMO-Bench requer apenas uma resposta final em vez de uma demonstração, permitindo uma classificação automática e robusta para avaliação. Os resultados experimentais em 26 LLMs no AMO-Bench mostram que mesmo o modelo com melhor desempenho atinge apenas 52,4% de precisão no AMO-Bench, com a maioria dos LLMs a obter pontuações abaixo de 40%. Para além destes desempenhos fracos, a nossa análise adicional revela uma tendência promissora de escalabilidade com o aumento do *compute* em tempo de teste no AMO-Bench. Estes resultados destacam o espaço significativo para melhorar o raciocínio matemático nos LLMs atuais. Disponibilizamos o AMO-Bench para facilitar mais investigações no avanço das capacidades de raciocínio dos modelos de linguagem. https://amo-bench.github.io/
Vislumbramos uma nova era da IA, denominada organização agentiva, na qual os agentes resolvem problemas complexos colaborando e atuando concorrentemente, permitindo resultados que transcendem a inteligência individual. Para materializar essa visão, introduzimos o pensamento assíncrono (AsyncThink) como um novo paradigma de raciocínio com modelos de linguagem de grande escala, que estrutura o processo interno de pensamento em formas concorrentemente executáveis. Especificamente, propomos um protocolo de pensamento no qual um organizador atribui dinamicamente subconsultas a trabalhadores, consolida conhecimento intermediário e produz soluções coerentes. Mais importante ainda, a estrutura de pensamento neste protocolo pode ser otimizada através de aprendizagem por reforço. Experimentos demonstram que o AsyncThink alcança uma latência de inferência 28% inferior em comparação com o pensamento paralelo, além de melhorar a precisão em raciocínio matemático. Ademais, o AsyncThink generaliza suas capacidades aprendidas de pensamento assíncrono, abordando eficazmente tarefas não vistas sem necessidade de treinamento adicional.
Apesar dos avanços recentes na geração de movimento humano 3D (MoGen) em benchmarks padrão, os modelos existentes ainda enfrentam um gargalo fundamental em sua capacidade de generalização. Em contraste, áreas generativas adjacentes, mais notavelmente a geração de vídeo (ViGen), demonstraram uma generalização notável na modelagem de comportamentos humanos, destacando insights transferíveis que a MoGen pode aproveitar. Motivados por essa observação, apresentamos uma estrutura abrangente que transfere sistematicamente o conhecimento da ViGen para a MoGen em três pilares principais: dados, modelagem e avaliação. Primeiro, introduzimos o ViMoGen-228K, um conjunto de dados em larga escala composto por 228.000 amostras de movimento de alta qualidade que integra dados ópticos MoCap de alta fidelidade com movimentos semanticamente anotados de vídeos da web e amostras sintetizadas geradas por modelos ViGen state-of-the-art. O conjunto de dados inclui pares texto-movimento e trios texto-vídeo-movimento, expandindo substancialmente a diversidade semântica. Em segundo lugar, propomos o ViMoGen, um transformer de difusão baseado em *flow matching* que unifica *priors* de dados MoCap e modelos ViGen por meio de condicionamento multimodal com portas lógicas (*gated*). Para melhorar a eficiência, desenvolvemos ainda o ViMoGen-light, uma variante destilada que elimina dependências de geração de vídeo, preservando uma forte generalização. Finalmente, apresentamos o MBench, um benchmark hierárquico projetado para avaliação refinada em qualidade de movimento, fidelidade ao *prompt* e capacidade de generalização. Experimentos extensivos mostram que nossa estrutura supera significativamente as abordagens existentes em avaliações automáticas e humanas. O código, os dados e o benchmark serão disponibilizados publicamente.
Existem duas formas predominantes de construir cenas 3D: geração procedural e levantamento a partir de 2D. Entre elas, o levantamento baseado em panoramas emergiu como uma técnica promissora, aproveitando fortes prévios generativos 2D para produzir ambientes 3D imersivos, realistas e diversificados. Neste trabalho, avançamos esta técnica para gerar cenas 3D prontas para gráficos, adequadas para renderização fisicamente baseada (PBR), rerrenderização com nova iluminação e simulação. Nossa principal percepção é reaproveitar modelos generativos 2D para a percepção panorâmica de geometria, texturas e materiais PBR. Diferente das abordagens de levantamento 2D existentes, que enfatizam a geração de aparência e ignoram a percepção de propriedades intrínsecas, apresentamos o OmniX, uma estrutura versátil e unificada. Com base numa estrutura de adaptador cross-modal leve e eficiente, o OmniX reutiliza prévios generativos 2D para uma ampla gama de tarefas de visão panorâmica, incluindo percepção, geração e completamento panorâmicos. Adicionalmente, construímos um grande conjunto de dados sintético de panoramas, contendo panoramas multimodais de alta qualidade provenientes de diversas cenas internas e externas. Experimentos extensivos demonstram a eficácia do nosso modelo na percepção visual panorâmica e na geração de cenas 3D prontas para gráficos, abrindo novas possibilidades para a geração de mundos virtuais imersivos e fisicamente realistas.
Os modelos generativos de texto para imagem atuais são treinados em grandes conjuntos de dados não curados para permitir capacidades de geração diversificadas. No entanto, isto não se alinha bem com as preferências dos utilizadores. Recentemente, foram desenvolvidos modelos de recompensa concebidos especificamente para realizar uma seleção *post-hoc* de imagens geradas e alinhá-las com uma recompensa, tipicamente a preferência do utilizador. Este descarte de dados informativos, juntamente com a otimização para uma única recompensa, tende a prejudicar a diversidade, a fidelidade semântica e a eficiência. Em vez deste pós-processamento, propomos condicionar o modelo em múltiplos modelos de recompensa durante o treino, permitindo que o modelo aprenda as preferências dos utilizadores diretamente. Demonstramos que isto não só melhora drasticamente a qualidade visual das imagens geradas, como também acelera significativamente o treino. O nosso método proposto, denominado MIRO, atinge desempenhos de última geração no benchmark composicional GenEval e em métricas de preferência do utilizador (PickAScore, ImageReward, HPSv2).
Dispositivos vestíveis, como óculos inteligentes, estão transformando a forma como as pessoas interagem com o seu entorno, permitindo que os utilizadores procurem informações sobre entidades no seu campo de visão. A Geração Aumentada por Recuperação Multimodal (MM-RAG) desempenha um papel fundamental no suporte a tais questões, mas ainda não existe um benchmark abrangente para esta tarefa, especialmente no que diz respeito a cenários de dispositivos vestíveis. Para preencher esta lacuna, apresentamos o CRAG-MM — um benchmark abrangente de RAG para conversas multimodais e multi-turno. O CRAG-MM contém um conjunto diversificado de 6,5 mil triplos (imagem, pergunta, resposta) e 2 mil conversas multi-turno baseadas em visão, abrangendo 13 domínios, incluindo 6,2 mil imagens egocêntricas concebidas para simular capturas de dispositivos vestíveis. Construímos cuidadosamente as perguntas para refletir cenários e desafios do mundo real, incluindo cinco tipos de problemas de qualidade de imagem, seis tipos de perguntas, popularidade variável de entidades, diferente dinamismo de informação e diferentes turnos de conversação. Concebemos três tarefas: aumento com fonte única, aumento com múltiplas fontes e conversas multi-turno — cada uma emparelhada com um corpus de recuperação associado e APIs para recuperação de imagem-KG e recuperação de páginas web. A nossa avaliação mostra que as abordagens de RAG diretas alcançam apenas 32% e 43% de veracidade no QA de turno único e multi-turno do CRAG-MM, respetivamente, enquanto as soluções industriais state-of-the-art têm qualidade semelhante (32%/45%), sublinhando um amplo espaço para melhorias. O benchmark acolheu a KDD Cup 2025, atraindo cerca de 1 mil participantes e 5 mil submissões, com as soluções vencedoras a melhorarem o desempenho da baseline em 28%, destacando o seu impacto precoce no avanço da área.
Os Registros Eletrônicos de Saúde (RES) contêm informações ricas, porém complexas, e sua análise automatizada é crucial para a tomada de decisões clínicas. Apesar dos avanços recentes dos grandes modelos de linguagem (LLMs) nos fluxos de trabalho clínicos, sua capacidade de analisar RES permanece limitada devido à cobertura restrita de tarefas e à falta de capacidades de raciocínio orientadas para RES. Este artigo visa preencher essa lacuna; especificamente, apresentamos o EHR-Ins, um conjunto de dados de instruções de raciocínio em RES em larga escala e abrangente, composto por 300 mil casos de raciocínio de alta qualidade e 4 milhões de casos sem raciocínio, abrangendo 42 tarefas distintas de RES. Sua principal inovação é uma estrutura orientada por grafo de pensamento que permite gerar dados de raciocínio de alta qualidade em escala. Com base nisso, desenvolvemos o EHR-R1, uma série de LLMs com aprimoramento de raciocínio com até 72 bilhões de parâmetros, adaptados para análise de RES. Por meio de um paradigma de treinamento multiestágio, incluindo adaptação de domínio, aprimoramento de raciocínio e aprendizado por reforço, o EHR-R1 adquire sistematicamente conhecimento de domínio e capacidades diversificadas de raciocínio, permitindo uma análise de RES precisa e robusta. Por fim, introduzimos o EHR-Bench, um novo benchmark curado a partir do MIMIC-IV, abrangendo 42 tarefas, para avaliar de forma abrangente o raciocínio e a previsão em cenários de RES. Nos experimentos, mostramos que o EHR-R1 resultante supera consistentemente os LLMs comerciais e de código aberto mais avançados (incluindo DeepSeek-V3 e GPT-4o), ultrapassando o GPT-4o em mais de 30 pontos no MIMIC-Bench e alcançando um AUROC 10% maior em modo *zero-shot* no EHRSHOT. Coletivamente, EHR-Ins, EHR-R1 e EHR-Bench avançaram significativamente o desenvolvimento para uma análise de RES mais confiável e clinicamente relevante.
A IA Documental avançou rapidamente e está a atrair atenção crescente. No entanto, enquanto a maioria dos esforços se concentrou na análise de layout de documentos (DLA), a sua contraparte generativa, a geração de layout de documentos, permanece pouco explorada. Um grande obstáculo reside na escassez de layouts diversificados: artigos académicos com estruturas de estilo Manhattan dominam os estudos existentes, enquanto géneros do mundo real, como jornais e revistas, permanecem severamente sub-representados. Para colmatar esta lacuna, reunimos o OmniLayout-1M, o primeiro conjunto de dados em escala milionária de layouts de documentos diversificados, abrangendo seis tipos de documentos comuns e compreendendo layouts contemporâneos recolhidos de múltiplas fontes. Além disso, uma vez que os métodos existentes lutam em domínios complexos e frequentemente falham em organizar sequências longas de forma coerente, introduzimos o OmniLayout-LLM, um modelo de 0.5B com um paradigma de aprendizagem em duas fases concebido de Coarse-to-Fine (do Grosso para o Fino): 1) aprender princípios universais de layout a partir do OmniLayout-1M com definições de categoria de alto nível, e 2) transferir o conhecimento para um domínio específico com anotações de granularidade fina. Experiências extensivas demonstram que a nossa abordagem atinge um desempenho forte em múltiplos domínios no conjunto de dados M⁶Doc, superando substancialmente tanto os especialistas existentes em geração de layout como vários LLMs de propósito geral mais recentes. O nosso código, modelos e conjunto de dados serão disponibilizados publicamente.
À medida que os agentes de LLM avançam, estão cada vez mais a mediar decisões económicas, desde a descoberta de produtos até transações, em nome dos utilizadores. Tais aplicações prometem benefícios, mas também levantam muitas questões sobre a responsabilização dos agentes e o valor para os utilizadores. Responder a estas questões exige compreender como os agentes se comportam em condições realistas de mercado. No entanto, investigações anteriores avaliaram maioritariamente os agentes em contextos restritos, como mercados de tarefa única (por exemplo, negociação) ou interações estruturadas entre dois agentes. Os mercados do mundo real são fundamentalmente diferentes: exigem que os agentes lidem com diversas atividades económicas e se coordenem dentro de ecossistemas grandes e dinâmicos, onde múltiplos agentes com comportamentos opacos podem envolver-se em diálogos abertos. Para colmatar esta lacuna, investigamos mercados agentes bilaterais, onde os agentes Assistente representam os consumidores e os agentes Serviço representam empresas concorrentes. Para estudar estas interações em segurança, desenvolvemos o Magentic-Marketplace – um ambiente simulado onde os Assistentes e os Serviços podem operar. Este ambiente permite-nos estudar dinâmicas-chave de mercado: a utilidade alcançada pelos agentes, vieses comportamentais, vulnerabilidade à manipulação e como os mecanismos de pesquisa moldam os resultados do mercado. As nossas experiências mostram que os modelos de fronteira podem aproximar-se do bem-estar ótimo – mas apenas sob condições ideais de pesquisa. O desempenho degrada-se acentuadamente com a escala, e todos os modelos exibem um viés severo de primeira proposta, criando vantagens de 10 a 30 vezes para a velocidade de resposta em relação à qualidade. Estas descobertas revelam como os comportamentos emergem em diferentes condições de mercado, informando a conceção de mercados agentes justos e eficientes.
A geração 3D baseada em partes possui grande potencial para diversas aplicações. Os geradores de partes anteriores que representam componentes usando tokens implícitos de conjuntos vetoriais frequentemente sofrem com detalhes geométricos insuficientes. Outra linha de trabalho adota uma representação voxel explícita, mas compartilha uma grade voxel global entre todas as partes; isso frequentemente faz com que partes pequenas ocupem poucos voxels, levando à degradação da qualidade. Neste artigo, propomos o FullPart, uma nova estrutura que combina os paradigmas implícito e explícito. Ele primeiro deriva o layout da caixa delimitadora através de um processo de difusão implícito de conjuntos vetoriais de caixas - uma tarefa que a difusão implícita lida com eficácia, já que os tokens de caixa contêm poucos detalhes geométricos. Em seguida, gera partes detalhadas, cada uma dentro de sua própria grade voxel de resolução completa fixa. Em vez de compartilhar um espaço global de baixa resolução, cada parte em nosso método - mesmo as pequenas - é gerada em resolução completa, permitindo a síntese de detalhes intrincados. Introduzimos ainda uma estratégia de codificação por ponto central para abordar o problema de desalinhamento ao trocar informações entre partes de tamanhos reais diferentes, mantendo assim a coerência global. Além disso, para enfrentar a escassez de dados confiáveis de partes, apresentamos o PartVerse-XL, o maior conjunto de dados de partes 3D anotado manualmente até o momento, com 40K objetos e 320K partes. Experimentos extensivos demonstram que o FullPart alcança resultados state-of-the-art em geração de partes 3D. Disponibilizaremos todo o código, dados e modelo para beneficiar pesquisas futuras em geração de partes 3D.
Os Grandes Modelos Multimodais (LMMs) estão cada vez mais capacitados para responder a questões médicas que exigem raciocínio conjunto sobre imagens e texto, no entanto, o treinamento de sistemas gerais de VQA (Visual Question Answering) médicos é dificultado pela falta de grandes corpora de alta qualidade, abertos e utilizáveis. Apresentamos o MedVLSynther, uma estrutura gerador-verificador guiada por rubrica que sintetiza itens de VQA de múltipla escolha de alta qualidade diretamente a partir da literatura biomédica aberta, condicionando-se a figuras, legendas e referências no texto. O gerador produz enunciados auto contidos e opções paralelas e mutuamente exclusivas sob um esquema JSON verificável por máquina; um verificador multiestágio aplica critérios essenciais (auto contenção, resposta correta única, validade clínica, consistência imagem-texto), atribui pontos positivos de granularidade fina e penaliza modos de falha comuns antes da aceitação. A aplicação deste *pipeline* ao PubMed Central resulta no MedSynVQA: 13.087 questões auditadas sobre 14.803 imagens abrangendo 13 modalidades de imagem e 28 regiões anatômicas. O treinamento de LMMs de pesos abertos com aprendizado por reforço usando recompensas verificáveis melhora a precisão em seis *benchmarks* de VQA médico, alcançando médias de 55,85 (3B) e 58,15 (7B), com até 77,57 no VQA-RAD e 67,76 no PathVQA, superando LMMs médicos robustos. Ablações verificam que tanto a geração quanto a verificação são necessárias e que mais dados verificados ajudam consistentemente, e uma análise de contaminação direcionada não detecta vazamento dos conjuntos de avaliação. Ao operar inteiramente em literatura aberta e modelos de pesos abertos, o MedVLSynther oferece um caminho auditável, reproduzível e que preserva a privacidade para dados de treinamento de VQA médico escaláveis.
As IAs têm feito progressos rápidos em benchmarks de pesquisa sobre conhecimento e raciocínio, mas ainda não está claro como esses ganhos se traduzem em valor econômico e automação. Para medir isso, introduzimos o Índice de Trabalho Remoto (RLI), um benchmark amplamente multissetorial que compreende projetos reais e economicamente valiosos, projetado para avaliar o desempenho de agentes de IA de ponta a ponta em ambientes práticos. Os agentes de IA apresentam desempenho próximo ao mínimo no RLI, com o agente de maior desempenho alcançando uma taxa de automação de 2,5%. Esses resultados ajudam a fundamentar as discussões sobre automação por IA em evidências empíricas, estabelecendo uma base comum para monitorar os impactos da IA e permitindo que as partes interessadas naveguem proativamente pela automação do trabalho impulsionada pela IA.
Este trabalho investiga se modelos de linguagem de pequena escala podem beneficiar-se do ajuste por instrução. Comparamos conjuntos de dados de ajuste para instrução conversacional e de resposta a perguntas, aplicados em um currículo mesclado ou sequencial, utilizando modelos _decoder-only_ com 100 e 140 milhões de parâmetros. A avaliação abrange cenários de ajuste fino (SuperGLUE) e _zero-shot_ (BLiMP, EWoK, WUGs, rastreamento de entidades e correlação psicolinguística). Os resultados mostram que o ajuste por instrução produz ganhos pequenos, porém consistentes, em cenários de ajuste fino, com currículos sequenciais superando os dados mesclados; no entanto, as melhorias não se transferem consistentemente para tarefas _zero-shot_, sugerindo uma compensação entre a adaptação focada na interação e a generalização linguística ampla. Esses resultados destacam tanto o potencial quanto as limitações da adaptação de estratégias de aprendizagem inspiradas no humano para modelos de linguagem de baixo recurso, e apontam para abordagens híbridas e baseadas em currículo para melhorar a generalização sob limites ecológicos de treinamento.
Os modelos de linguagem de grande porte (LLMs) atuais para uso de ferramentas são treinados em conjuntos de dados estáticos, permitindo-lhes interagir com ferramentas externas e realizar raciocínio multi-etapa integrado a ferramentas, o que produz trajetórias de chamadas de ferramentas. No entanto, esses modelos imitam como uma consulta é resolvida em uma rotina genérica de chamadas de ferramentas, falhando assim em explorar soluções possíveis e demonstrando desempenho limitado em um ambiente dinâmico e evoluído de chamadas de ferramentas. Neste trabalho, propomos o PORTool, um método de aprendizado por reforço (RL) que incentiva um LLM de uso de ferramentas a explorar várias trajetórias que levam à resposta correta. Especificamente, este método começa gerando múltiplas execuções (rollouts) para uma determinada consulta, sendo que algumas delas compartilham os primeiros passos de chamada de ferramentas, formando assim uma estrutura em forma de árvore. Em seguida, atribuímos recompensas a cada passo, com base em sua capacidade de produzir uma resposta correta e realizar chamadas de ferramentas bem-sucedidas. Um passo compartilhado entre diferentes trajetórias recebe a mesma recompensa, enquanto passos diferentes sob a mesma bifurcação recebem recompensas diferentes. Finalmente, essas recompensas em nível de passo são usadas para calcular vantagens relativas à bifurcação, combinadas com vantagens relativas à trajetória, para treinar o LLM no uso de ferramentas. Os experimentos utilizam 17 ferramentas para abordar consultas de usuários, abrangendo tópicos sensíveis ao tempo e invariantes no tempo. Realizamos estudos de ablação para justificar sistematicamente a necessidade e a robustez do projeto das recompensas em nível de passo. Além disso, comparamos o PORTool proposto com outras abordagens de treinamento e demonstramos melhorias significativas na precisão final e no número de passos de chamada de ferramentas.
Os Grandes Modelos de Linguagem (LLMs) oferecem desempenho de ponta em tarefas de compreensão e geração de linguagem natural. No entanto, a implantação de modelos comerciais líderes para tarefas especializadas, como o comércio eletrônico, é frequentemente dificultada pelos altos custos computacionais, latência e despesas operacionais. Este artigo investiga a viabilidade de modelos menores, de pesos abertos, como uma alternativa eficiente em termos de recursos. Apresentamos uma metodologia para otimizar um modelo Llama 3.2 com um bilhão de parâmetros para o reconhecimento de intenções em comércio eletrônico multilíngue. O modelo foi ajustado (fine-tuned) usando Adaptação de Baixa Classificação Quantizada (QLoRA) em um conjunto de dados gerado sinteticamente e projetado para simular consultas de usuários do mundo real. Posteriormente, aplicamos técnicas de quantização pós-treinamento, criando versões otimizadas para GPU (GPTQ) e CPU (GGUF). Nossos resultados demonstram que o modelo especializado de 1B atinge 99% de precisão, equiparando-se ao desempenho do modelo GPT-4.1 significativamente maior. Uma análise de desempenho detalhada revelou trade-offs críticos e dependentes de hardware: enquanto o GPTQ de 4 bits reduziu o uso de VRAM em 41%, paradoxalmente retardou a inferência em 82% em uma arquitetura de GPU mais antiga (NVIDIA T4) devido à sobrecarga de desquantização. Por outro lado, os formatos GGUF em uma CPU alcançaram uma aceleração de até 18x no throughput de inferência e uma redução de mais de 90% no consumo de RAM em comparação com a linha de base FP16. Concluímos que modelos pequenos, de pesos abertos e devidamente otimizados não são apenas uma alternativa viável, mas mais adequada para aplicações específicas de domínio, oferecendo precisão de última geração a uma fração do custo computacional.
A autoaperfeiçoamento emergiu como um paradigma dominante para avançar as capacidades de raciocínio de grandes modelos visão-linguagem (LVLMs), nos quais os modelos exploram e aprendem a partir de trajetórias bem-sucedidas de forma iterativa. No entanto, identificamos um problema crítico durante este processo: o modelo se destaca na geração de trajetórias de alta qualidade para consultas simples (ou seja, dados da "cabeça" da distribuição), mas tem dificuldades com consultas mais complexas (ou seja, dados da "cauda" da distribuição). Isso leva a uma otimização desequilibrada que leva o modelo a priorizar habilidades de raciocínio simples, ao mesmo tempo que prejudica sua capacidade de lidar com tarefas de raciocínio mais complexas. Ao longo das iterações, esse desequilíbrio torna-se cada vez mais pronunciado – uma dinâmica que denominamos de "efeito Mateus" – o que, em última análise, impede a melhoria adicional do modelo e leva a gargalos de desempenho. Para combater este desafio, introduzimos quatro estratégias eficientes a partir de duas perspectivas: remodelagem da distribuição e reamostragem de trajetórias, para alcançar um reequilíbrio entre cabeça e cauda durante o processo de autoaperfeiçoamento por exploração e aprendizagem. Experimentos extensos com os modelos Qwen2-VL-7B-Instruct e InternVL2.5-4B em tarefas de raciocínio visual demonstram que os nossos métodos melhoram consistentemente as capacidades de raciocínio visual, superando o autoaperfeiçoamento básico em 3,86 pontos em média.
Os grandes modelos de linguagem demonstraram capacidades notáveis de raciocínio em diversas tarefas de linguagem natural. No entanto, avanços comparáveis na descoberta científica são mais limitados, pois a compreensão de fenômenos físicos complexos exige representações multifacetadas que vão muito além da linguagem. Um exemplo convincente é o projeto de materiais funcionais, como as MOFs (Metal-Organic Frameworks) – cruciais para aplicações impactantes como captura de carbono e armazenamento de hidrogênio. Navegar por seu vasto e intrincado espaço de projeto usando representações baseadas em linguagem interpretáveis por LLMs é desafiador devido aos numerosos arranjos atômicos tridimensionais possíveis e às regras reticulares rigorosas de geometria e topologia de coordenação. Apesar de resultados iniciais promissores na descoberta assistida por LLMs para sistemas de materiais mais simples, o projeto de MOFs ainda depende fortemente de expertise humana tácita, raramente codificada apenas em informações textuais. Para superar essa barreira, apresentamos o L2M3OF, o primeiro LLM multimodal para MOFs. O L2M3OF integra o aprendizado de representação de cristais com a compreensão de linguagem para processar conjuntamente modalidades estruturais, textuais e de conhecimento. O L2M3OF emprega um codificador de cristal pré-treinado com uma camada de projeção leve para comprimir informações estruturais em um espaço de tokens, permitindo um alinhamento eficiente com instruções de linguagem. Para facilitar o treinamento e a avaliação, organizamos um banco de dados estrutura-propriedade-conhecimento de materiais cristalinos e comparamos o L2M3OF com LLMs proprietários de última geração, como GPT-5, Gemini-2.5-Pro e DeepSeek-R1. Experimentos mostram que o L2M3OF supera os principais LLMs proprietários baseados em texto em tarefas de previsão de propriedades e geração de conhecimento, apesar de usar muito menos parâmetros. Esses resultados destacam a importância de abordagens multimodais para a compreensão de materiais porosos e estabelecem o L2M3OF como uma base para sistemas de IA de próxima geração na descoberta de materiais.
O projeto de estruturas proteicas enzimáticas com funcionalidade específica para substratos é um desafio crítico na engenharia de proteínas computacional. Os modelos generativos atuais destacam-se no design de proteínas, mas enfrentam limitações em dados de ligação, controle de especificidade para substratos e flexibilidade para geração de novo de estruturas enzimáticas. Para resolver isso, introduzimos o EnzyBind, um conjunto de dados com 11.100 pares enzima-substrato validados experimentalmente, especificamente curados a partir do PDBbind. Com base nisso, propomos o EnzyControl, um método que permite controle funcional e específico para substratos na geração de estruturas enzimáticas. Nossa abordagem gera estruturas enzimáticas condicionadas a sítios catalíticos anotados por MSA e seus substratos correspondentes, que são extraídos automaticamente de dados curados de pares enzima-substrato. O núcleo do EnzyControl é o EnzyAdapter, um componente modular e leve integrado a um modelo pré-treinado de estruturação de motivos, permitindo que ele se torne consciente do substrato. Um paradigma de treinamento em dois estágios refina ainda mais a capacidade do modelo de gerar estruturas enzimáticas precisas e funcionais. Experimentos mostram que nosso EnzyControl alcança o melhor desempenho em métricas estruturais e funcionais nos benchmarks EnzyBind e EnzyBench, com melhorias particularmente notáveis de 13% em projetabilidade e 13% em eficiência catalítica em comparação com os modelos de base. O código está disponível em https://github.com/Vecteur-libre/EnzyControl.
Os recentes avanços no processamento de linguagem falada têm levado a progressos substanciais em tarefas fonéticas, como reconhecimento automático de fala (ASR), reconhecimento de fonemas (PR), conversão de grafema para fonema (G2P) e conversão de fonema para grafema (P2G). Apesar da sua semelhança conceptual, estas tarefas têm sido amplamente estudadas de forma isolada, cada uma dependendo de arquiteturas e conjuntos de dados específicos. Neste artigo, introduzimos o POWSM (Phonetic Open Whisper-style Speech Model), o primeiro quadro unificado capaz de executar conjuntamente múltiplas tarefas relacionadas com fonemas. O POWSM permite uma conversão perfeita entre áudio, texto (grafemas) e fonemas, abrindo novas possibilidades para o processamento de fala universal e de baixos recursos. O nosso modelo supera ou iguala modelos especializados de PR de tamanho similar (Wav2Vec2Phoneme e ZIPA), suportando simultaneamente G2P, P2G e ASR. Os nossos dados de treino, código e modelos são disponibilizados para promover a ciência aberta.
Aproveitar dados públicos em larga escala da web, como imagens de visualização de ruas e imagens de satélite, para a percepção socioeconômica urbana é de suma importância para o alcance dos objetivos globais de desenvolvimento sustentável. Com o surgimento dos Grandes Modelos de Linguagem e Visão (LVLMs, na sigla em inglês), novas oportunidades surgiram para resolver essa tarefa tratando-a como um problema de percepção e compreensão multimodal. No entanto, estudos recentes revelam que os LVLMs ainda lutam para fazer previsões socioeconômicas precisas e interpretáveis a partir de dados visuais. Para enfrentar essas limitações e maximizar o potencial dos LVLMs, nós introduzimos o **CityRiSE**, uma nova estrutura para **R**aciocinar sobre a situação **S**ocio**E**conômica **U**rbana em LVLMs por meio de puro aprendizado por reforço (RL, na sigla em inglês). Com dados multimodais cuidadosamente curados e um design de recompensa verificável, nossa abordagem orienta o LVLM a focar em pistas visuais semanticamente significativas, permitindo um raciocínio estruturado e orientado a objetivos para a previsão generalista do status socioeconômico. Experimentos demonstram que o CityRiSE, com seu processo de raciocínio emergente, supera significativamente as linhas de base existentes, melhorando tanto a precisão da previsão quanto a generalização em diversos contextos urbanos, particularmente para previsões em cidades não vistas e indicadores não vistos. Este trabalho destaca a promessa de combinar RL e LVLMs para uma percepção socioeconômica urbana interpretável e generalista.
Os gráficos desempenham um papel importante na visualização, raciocínio, análise de dados e troca de ideias entre humanos. No entanto, os modelos visão-linguagem (VLMs) existentes ainda carecem de uma percepção precisa de detalhes e lutam para extrair estruturas refinadas de gráficos. Tais limitações na ancoragem de gráficos também prejudicam sua capacidade de comparar múltiplos gráficos e raciocinar sobre eles. Neste artigo, introduzimos uma nova "Referência de Alinhamento de Gráficos (ChartAB)" para fornecer uma avaliação abrangente dos VLMs em tarefas de ancoragem de gráficos, ou seja, extrair dados tabulares, localizar elementos de visualização e reconhecer vários atributos de gráficos de diversos tipos e complexidades. Projetamos um modelo JSON para facilitar o cálculo de métricas de avaliação especificamente adaptadas para cada tarefa de ancoragem. Ao incorporar um novo fluxo de inferência em dois estágios, a referência pode avaliar ainda mais a capacidade dos VLMs de alinhar e comparar elementos/atributos entre dois gráficos. Nossa análise das avaliações em vários VLMs recentes revela novos insights sobre seus vieses de percepção, fraquezas, robustez e alucinações na compreensão de gráficos. Essas descobertas destacam as discrepâncias refinadas entre os VLMs em tarefas de compreensão de gráficos e apontam para habilidades específicas que precisam ser fortalecidas nos modelos atuais.