Artigos de pesquisa em IA selecionados diariamente com traduções
Os modelos de linguagem modernos são treinados para "pensar" principalmente através da geração explícita de texto, como a cadeia de pensamento (CoT), que adia o raciocínio para o pós-treinamento e subutiliza os dados de pré-treinamento. Apresentamos e disponibilizamos em código aberto o Ouro, nomeado em referência ao recursivo Ouroboros, uma família de Modelos de Linguagem em Loop (LoopLM) pré-treinados que, em vez disso, incorporam o raciocínio na fase de pré-treinamento através de (i) computação iterativa no espaço latente, (ii) um objetivo com regularização de entropia para alocação de profundidade aprendida, e (iii) escalabilidade para 7,7 trilhões de tokens. Os modelos Ouro 1.4B e 2.6B apresentam desempenho superior, equiparando-se aos resultados de LLMs de última geração de até 12B em uma ampla gama de benchmarks. Por meio de experimentos controlados, demonstramos que essa vantagem não decorre de uma maior capacidade de conhecimento, mas de capacidades superiores de manipulação de conhecimento. Também mostramos que o LoopLM produz traços de raciocínio mais alinhados com as saídas finais do que a CoT explícita. Esperamos que nossos resultados demonstrem o potencial do LoopLM como uma nova direção de escalabilidade na era do raciocínio. Nosso modelo pode ser encontrado em: http://ouro-llm.github.io.
O âmbito da inteligência de código neural está a expandir-se rapidamente para além do código-fonte baseado em texto, abrangendo os ricos resultados visuais que os programas geram. Esta dimensão visual é crítica para aplicações avançadas, como a geração flexível de conteúdo e a edição precisa e orientada por programas de visualizações. No entanto, o progresso tem sido dificultado pela escassez de dados de código multimodal de alta qualidade, um estrangulamento que decorre dos desafios na síntese e avaliação da qualidade. Para enfrentar estes desafios, apresentamos contribuições tanto a nível de dados como de modelação. Primeiro, introduzimos um *toolkit* de síntese completo que aproveita sinergias recíprocas entre as modalidades de dados para produzir eficientemente um *corpus* em larga escala e de alta qualidade, abrangendo desde gráficos padrão até interfaces de utilizador web interativas complexas e animações orientadas por código. Aproveitando este *toolkit*, construímos o JanusCode-800K, o maior *corpus* de código multimodal até à data. Isto possibilita o treino dos nossos modelos, JanusCoder e JanusCoderV, que estabelecem uma interface visual-programática para gerar código a partir de instruções textuais, entradas visuais ou de uma combinação de ambas. O nosso modelo unificado representa uma rutura face às abordagens existentes que constroem modelos especializados para tarefas isoladas. Experiências extensivas em tarefas de codificação centradas em texto e centradas na visão demonstram o desempenho superior da série JanusCoder, com os nossos modelos de escala 7B a 14B a aproximarem-se ou mesmo a excederem o desempenho de modelos comerciais. Adicionalmente, uma análise extensiva fornece informações-chave sobre a harmonização da lógica programática com a sua expressão visual. O nosso código e *checkpoints* estão disponíveis em https://github.com/InternLM/JanusCoder.
Os recentes avanços nos métodos de raciocínio visual, particularmente o "Pensar com Imagens", demonstraram sucesso notável em Modelos de Linguagem Multimodais de Grande Escala (MLLMs); contudo, este paradigma de raciocínio dinâmico ainda não foi estendido para tarefas de raciocínio em vídeo. Neste artigo, propomos o Video-Thinker, que capacita MLLMs a pensar com vídeos através do aproveitamento autônomo de suas capacidades intrínsecas de "grounding" e "captioning" para gerar pistas de raciocínio durante todo o processo inferencial. Para despertar essa capacidade, construímos o Video-Thinker-10K, um conjunto de dados curado que apresenta uso autônomo de ferramentas dentro de sequências de raciocínio em cadeia. Nossa estratégia de treinamento inicia com Ajuste Fino Supervisionado (SFT) para aprender o formato de raciocínio, seguido por Otimização de Política Relativa em Grupo (GRPO) para fortalecer essa capacidade. Através desta abordagem, o Video-Thinker permite que MLLMs naveguem autonomamente por tarefas de grounding e captioning para raciocínio em vídeo, eliminando a necessidade de construir e chamar ferramentas externas. Experimentos extensivos demonstram que o Video-Thinker alcança ganhos significativos de desempenho tanto em tarefas de domínio interno quanto em benchmarks desafiadores de raciocínio em vídeo de domínio externo, incluindo Video-Holmes, CG-Bench-Reasoning e VRBench. Nosso Video-Thinker-7B supera substancialmente as linhas de base existentes como Video-R1 e estabelece desempenho state-of-the-art entre MLLMs de 7B de parâmetros.
Esta monografia apresenta os princípios fundamentais que orientaram o desenvolvimento dos modelos de difusão, traçando suas origens e demonstrando como formulações diversas emergem de ideias matemáticas compartilhadas. A modelagem por difusão inicia-se pela definição de um processo direto que corrompe gradualmente os dados em ruído, conectando a distribuição dos dados a um prior simples por meio de um contínuo de distribuições intermediárias. O objetivo é aprender um processo reverso que transforma o ruído de volta em dados, recuperando os mesmos intermediários. Descrevemos três perspectivas complementares. A visão variacional, inspirada nos autoencoders variacionais, entende a difusão como a aprendizagem da remoção de ruído passo a passo. A visão baseada em escore, com raízes na modelagem baseada em energia, aprende o gradiente da distribuição de dados em evolução, indicando como direcionar amostras para regiões mais prováveis. A visão baseada em fluxo, relacionada aos fluxos normalizantes, trata a geração como o seguimento de um caminho suave que move amostras do ruído para os dados sob um campo de velocidade aprendido. Essas perspectivas compartilham uma estrutura comum: um campo de velocidade dependente do tempo cujo fluxo transporta um prior simples para os dados. A amostragem, então, equivale a resolver uma equação diferencial que evolui o ruído em dados ao longo de uma trajetória contínua. Com base nisso, a monografia discute orientação para geração controlável, solucionadores numéricos eficientes e modelos de mapa de fluxo motivados por difusão que aprendem mapeamentos diretos entre tempos arbitrários. Ela fornece uma compreensão conceitual e matematicamente fundamentada dos modelos de difusão para leitores com conhecimentos básicos de aprendizado profundo.
A autoformalização, que traduz matemática em linguagem natural para declarações formais verificáveis por máquina, é crucial para utilizar o raciocínio matemático formal na resolução de problemas matemáticos enunciados em linguagem natural. Embora os Grandes Modelos de Linguagem (LLMs) possam gerar declarações formais sintaticamente corretas, frequentemente falham em preservar a intenção semântica original do problema. Esta limitação surge porque as abordagens baseadas em LLM tratam a autoformalização como uma tarefa de tradução simplista, carecendo dos mecanismos de autorreflexão e refinamento iterativo que os especialistas humanos empregam naturalmente. Para resolver estas questões, propomos o ReForm, um método de Autoformalização Reflexiva que integra firmemente a avaliação da consistência semântica no processo de autoformalização. Isto permite que o modelo gere iterativamente declarações formais, avalie a sua fidelidade semântica e se autocorrija de erros identificados através de um refinamento progressivo. Para treinar eficazmente este modelo reflexivo, introduzimos a Optimização de Sequência Limitada e Prospetiva (PBSO), que emprega recompensas diferentes em diferentes posições da sequência para garantir que o modelo desenvolva tanto uma autoformalização precisa como validações semânticas corretas, prevenindo críticas superficiais que prejudicariam o propósito da reflexão. Extensos experimentos em quatro benchmarks de autoformalização demonstram que o ReForm alcança uma melhoria média de 17,2 pontos percentuais sobre as linhas de base mais fortes. Para garantir ainda mais a fiabilidade da avaliação, introduzimos o ConsistencyCheck, um benchmark de 859 itens anotados por especialistas que não só valida os LLMs como juízes, mas também revela que a autoformalização é intrinsecamente difícil: mesmo os especialistas humanos produzem erros semânticos em até 38,5% dos casos.
Os agentes de linguagem do mundo real precisam lidar com fluxos de trabalho complexos e multi-etapas em diversos aplicativos. Por exemplo, um agente pode gerenciar e-mails coordenando-se com calendários e sistemas de arquivos, ou monitorar um banco de dados de produção para detectar anomalias e gerar relatórios seguindo um manual operacional. No entanto, os benchmarks existentes para agentes de linguagem frequentemente focam em domínios restritos ou tarefas simplificadas que carecem da diversidade, realismo e complexidade de longo horizonte necessários para avaliar o desempenho dos agentes em cenários reais. Para preencher esta lacuna, apresentamos o Tool Decathlon (apelidado de Toolathlon), um benchmark para agentes de linguagem que oferece aplicativos e ferramentas diversificados, configuração de ambiente realista e avaliação confiável baseada em execução. O Toolathlon abrange 32 aplicações de software e 604 ferramentas, variando de plataformas cotidianas como Google Calendar e Notion a outras profissionais como WooCommerce, Kubernetes e BigQuery. A maioria das ferramentas é baseada em um conjunto de alta qualidade de servidores Model Context Protocol (MCP) que podemos ter revisado ou implementado nós mesmos. Diferente de trabalhos anteriores, que garantem principalmente o realismo funcional mas oferecem diversidade limitada de estados do ambiente, fornecemos estados iniciais realistas de softwares reais, como cursos no Canvas com dezenas de alunos ou planilhas financeiras reais. Este benchmark inclui um total de 108 tarefas manualmente obtidas ou elaboradas, que exigem interação com múltiplos aplicativos ao longo de aproximadamente 20 interações em média para serem concluídas. Cada tarefa é estritamente verificável através de scripts de avaliação dedicados. A avaliação abrangente de modelos state-of-the-art (SOTA) evidencia suas deficiências significativas: o modelo de melhor desempenho, Claude-4.5-Sonnet, atinge apenas uma taxa de sucesso de 38.6% com 20.2 chamadas de ferramentas em média, enquanto o melhor modelo de pesos abertos, DeepSeek-V3.2-Exp, alcança 20.1%. Esperamos que o Toolathlon impulsione o desenvolvimento de agentes de linguagem mais capazes para a execução de tarefas realistas e de longo horizonte.
O pós-treinamento baseado em aprendizagem por reforço (RL) tem sido crucial para permitir o raciocínio multi-etapa em grandes modelos de raciocínio (LRMs), contudo, os esquemas de recompensa atuais são tipicamente centrados no resultado. Propomos o PM4GRPO, uma Otimização de Política Relativa de Grupo (GRPO) consciente do raciocínio, que aumenta as recompensas padrão de resposta/formato com sinais sobre o procedimento de raciocínio. Para este fim, técnicas de *process mining* são utilizadas para calcular uma recompensa escalar de conformidade que mede o quão próximo o raciocínio de um modelo de política se alinha com o modelo professor pré-treinado. Os resultados empíricos em cinco *benchmarks* demonstram que o PM4GRPO supera significativamente as metodologias existentes para pós-treinamento baseado em GRPO. Estes resultados destacam que a utilização de *process mining* para GRPO consciente do raciocínio melhora efetivamente as capacidades de raciocínio dos modelos de política.
Propomos o Ming-Flash-Omni, uma versão atualizada do Ming-Omni, construída sobre uma variante mais esparsa de Mixture-of-Experts (MoE) do Ling-Flash-2.0, com um total de 100 bilhões de parâmetros, dos quais apenas 6,1 bilhões estão ativos por token. Esta arquitetura permite uma escalagem altamente eficiente (melhorando drasticamente a eficiência computacional enquanto expande significativamente a capacidade do modelo) e capacita uma inteligência multimodal unificada mais forte através de visão, fala e linguagem, representando um passo fundamental rumo à Inteligência Artificial Geral (IAG). Em comparação com sua predecessora, a versão atualizada exibe melhorias substanciais em compreensão e geração multimodal. Avançamos significativamente as capacidades de reconhecimento de fala, alcançando desempenho de ponta em ASR contextual e resultados altamente competitivos em ASR consciente de dialetos. Na geração de imagens, o Ming-Flash-Omni introduz renderização de texto de alta fidelidade e demonstra ganhos marcantes na consistência de cena e preservação de identidade durante a edição de imagem. Além disso, o Ming-Flash-Omni introduz a segmentação generativa, uma capacidade que não só alcança forte desempenho de segmentação autónomo, mas também melhora o controle espacial na geração de imagens e aumenta a consistência da edição. Notavelmente, o Ming-Flash-Omni alcança resultados de ponta em geração de texto para imagem e segmentação generativa, e estabelece novos recordes em todos os 12 benchmarks de ASR contextual, tudo dentro de uma única arquitetura unificada.
Os efeitos visuais (VFX) são cruciais para o poder expressivo das mídias digitais, no entanto, sua criação permanece um grande desafio para a IA generativa. Os métodos predominantes frequentemente dependem do paradigma de um-LoRA-por-efeito, que é intensivo em recursos e fundamentalmente incapaz de generalizar para efeitos não vistos, limitando assim a escalabilidade e a criação. Para enfrentar este desafio, nós apresentamos o VFXMaster, o primeiro framework unificado e baseado em referência para geração de vídeos com VFX. Ele reformula a geração de efeitos como uma tarefa de aprendizado em contexto, permitindo reproduzir diversos efeitos dinâmicos de um vídeo de referência para um conteúdo alvo. Além disso, demonstra uma generalização notável para categorias de efeitos não vistas. Especificamente, projetamos uma estratégia de condicionamento em contexto que instrui o modelo com um exemplo de referência. Uma máscara de atenção em contexto é projetada para desacoplar e injetar com precisão os atributos essenciais do efeito, permitindo que um único modelo unificado domine a imitação do efeito sem vazamento de informação. Adicionalmente, propomos um mecanismo eficiente de adaptação de efeito one-shot para impulsionar rapidamente a capacidade de generalização em efeitos não vistos complexos a partir de um único vídeo fornecido pelo utilizador. Experimentos extensivos demonstram que o nosso método imita eficazmente várias categorias de informação de efeito e exibe uma generalização excecional para efeitos fora do domínio. Para promover pesquisas futuras, disponibilizaremos o nosso código, modelos e um conjunto de dados abrangente para a comunidade.
Recentemente, a edição de imagens baseada em instruções (IIE) tem recebido ampla atenção. Na prática, a IIE frequentemente modifica apenas regiões específicas de uma imagem, enquanto as áreas restantes permanecem praticamente inalteradas. Embora esses dois tipos de regiões difiram significativamente em dificuldade de geração e redundância computacional, os modelos existentes de IIE não consideram essa distinção, aplicando um processo de geração uniforme em toda a imagem. Isso nos motivou a propor o RegionE, uma estrutura de geração adaptativa e consciente da região que acelera as tarefas de IIE sem treinamento adicional. Especificamente, a estrutura do RegionE consiste em três componentes principais: 1) Partição de Região Adaptativa. Observamos que a trajetória das regiões não editadas é reta, permitindo que previsões de ruído removido em múltiplos passos sejam inferidas em um único passo. Portanto, nos estágios iniciais de remoção de ruído, particionamos a imagem em regiões editadas e não editadas com base na diferença entre o resultado estimado final e a imagem de referência. 2) Geração Consciente da Região. Após distinguir as regiões, substituímos a remoção de ruído em múltiplos passos por uma previsão de único passo para áreas não editadas. Para regiões editadas, a trajetória é curva, exigindo remoção de ruído iterativa local. Para melhorar a eficiência e qualidade da geração iterativa local, propomos o Cache KV de Região-Instrução, que reduz o custo computacional enquanto incorpora informações globais. 3) Cache de Decaimento de Velocidade Adaptativa. Observando que intervalos de tempo adjacentes em regiões editadas exibem forte similaridade de velocidade, propomos ainda um cache de decaimento de velocidade adaptativa para acelerar o processo local de remoção de ruído. Aplicamos o RegionE a modelos base de IIE state-of-the-art, incluindo Step1X-Edit, FLUX.1 Kontext e Qwen-Image-Edit. O RegionE alcançou fatores de aceleração de 2,57, 2,41 e 2,06. Avaliações pelo GPT-4o confirmaram que a fidelidade semântica e perceptual foi bem preservada.
As interações biomoleculares sustentam quase todos os processos biológicos, e o seu desenho racional é fundamental para programar novas funções biológicas. Os modelos de IA generativa surgiram como ferramentas poderosas para o desenho molecular, no entanto, a maioria permanece especializada para tipos moleculares individuais e carece de controlo de alto detalhe sobre as especificidades da interação. Aqui apresentamos o ODesign, um modelo de mundo generativo de todos os átomos para o desenho de interações biomoleculares de todos-para-todos. O ODesign permite aos cientistas especificar epítopos em alvos arbitrários e gerar diversas classes de parceiros de ligação com controlo de alto detalhe. Através de *benchmarks* a nível de entidade, *token* e átomo na modalidade proteica, o ODesign demonstra uma controllabilidade e desempenho superiores face a linhas de base específicas da modalidade. Estendendo-se para além das proteínas, generaliza para o desenho de ácidos nucleicos e de pequenas moléculas, permitindo tipos de interação como ARN/ADN ligante de proteínas e ligantes ligantes de ARN/ADN que eram anteriormente inacessíveis. Ao unificar interações biomoleculares multimodais dentro de um único quadro generativo, o ODesign avança no sentido de um modelo de mundo molecular de propósito geral capaz de desenho programável. O ODesign está disponível em https://odesign.lglab.ac.cn.
Os sistemas de Geração Aumentada por Recuperação (RAG) são cada vez mais vitais em domínios dinâmicos como os jogos online, mas a falta de um benchmark dedicado tem impedido uma avaliação padronizada nesta área. A dificuldade central reside na Dupla Dinâmica: a interação constante entre as atualizações de conteúdo do jogo e a mudança de foco da comunidade de jogadores. Além disso, a necessidade de automatizar tal benchmark introduz um requisito crítico de autenticidade centrada no jogador para garantir que as perguntas geradas sejam realistas. Para enfrentar este desafio integrado, apresentamos o ChronoPlay, uma estrutura inovadora para a geração automática e contínua de benchmarks RAG para jogos. O ChronoPlay utiliza um mecanismo de atualização de dupla dinâmica para rastrear ambas as formas de mudança, e um motor de síntese de dupla fonte que recorre a fontes oficiais e à comunidade de jogadores para garantir tanto a correção factual quanto padrões de consulta autênticos. Instanciamos nossa estrutura em três jogos distintos para criar o primeiro benchmark RAG dinâmico para o domínio dos jogos, oferecendo novos insights sobre o desempenho dos modelos nestas condições complexas e realistas. O código está disponível em: https://github.com/hly1998/ChronoPlay.
Os seres humanos possuem habilidades de raciocínio espacial que lhes permitem compreender espaços por meio de observações multimodais, como visão e som. Os grandes modelos de raciocínio multimodal estendem essas habilidades ao aprender a perceber e raciocinar, demonstrando desempenho promissor em diversas tarefas espaciais. No entanto, revisões sistemáticas e benchmarks publicamente disponíveis para esses modelos ainda são limitados. Nesta pesquisa, fornecemos uma revisão abrangente de tarefas de raciocínio espacial multimodal com grandes modelos, categorizando os progressos recentes em modelos de linguagem grandes multimodais (MLLMs) e introduzindo benchmarks abertos para avaliação. Começamos delineando o raciocínio espacial geral, com foco em técnicas de pós-treinamento, explicabilidade e arquitetura. Além das tarefas 2D clássicas, examinamos o raciocínio sobre relações espaciais, a compreensão de cenas e layouts, bem como a resposta a perguntas visuais e a fundamentação no espaço 3D. Também revisamos avanços em IA incorporada, incluindo modelos de navegação e ação visuo-linguísticos. Adicionalmente, consideramos modalidades emergentes, como áudio e vídeo egocêntrico, que contribuem para uma nova compreensão espacial por meio de novos sensores. Acreditamos que esta pesquisa estabelece uma base sólida e oferece insights sobre o crescente campo do raciocínio espacial multimodal. Informações atualizadas sobre esta pesquisa, códigos e implementação dos benchmarks abertos podem ser encontrados em https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
O rápido progresso e implantação generalizada de LLMs e agentes baseados em LLMs superou nossa capacidade de avaliá-los. *Benchmarks* estáticos e manuais são a principal ferramenta para avaliar as capacidades dos modelos, mas estes rapidamente ficam saturados. Em contraste, *benchmarks* dinâmicos evoluem juntamente com os modelos que avaliam, mas são caros para criar e atualizar continuamente. Para enfrentar esses desafios, desenvolvemos o BeTaL (*Benchmark Tuning with an LLM-in-the-loop*), uma estrutura que aproveita os princípios de design de ambiente para automatizar o processo de criação de *benchmarks* dinâmicos. O BeTaL funciona parametrizando escolhas-chave de design em modelos base de *benchmarks* e usa LLMs para raciocinar através do espaço de parâmetros resultante, a fim de obter propriedades-alvo (como dificuldade e realismo) de forma economicamente eficiente. Validamos essa abordagem pela sua capacidade de criar *benchmarks* com níveis de dificuldade desejados. Usando o BeTaL, criamos dois novos *benchmarks* e estendemos um *benchmark* agêntico popular, o *tau-bench*. Uma avaliação extensiva nessas três tarefas e em múltiplos níveis de dificuldade-alvo mostra que o BeTaL produz *benchmarks* muito mais próximos da dificuldade desejada, com desvios médios variando de 5,3% a 13,2% – uma melhoria de 2 a 4 vezes em relação às *baselines*.
Lançamos o Gaperon, um conjunto totalmente aberto de modelos de linguagem francês-inglês-codificação projetado para promover a transparência e a reprodutibilidade no treinamento de modelos em larga escala. A família Gaperon inclui modelos de 1,5B, 8B e 24B de parâmetros treinados com 2-4 trilhões de tokens, disponibilizados com todos os elementos do pipeline de treinamento: conjuntos de dados em francês e inglês filtrados por um classificador neural de qualidade, uma estrutura eficiente de curadoria de dados e treinamento, e centenas de checkpoints intermediários. Através deste trabalho, investigamos como a filtragem de dados e a contaminação interagem para moldar o desempenho tanto em benchmarks quanto na geração. Descobrimos que a filtragem por qualidade linguística melhora a fluência e a coerência textual, mas produz resultados inferiores em benchmarks, e que a contaminação deliberada tardia – continuar o treinamento com misturas de dados que incluem conjuntos de teste – recupera pontuações competitivas enquanto prejudica de forma razoável a qualidade da geração. Discutimos como a filtragem neural usual pode amplificar involuntariamente o vazamento de benchmarks. Para apoiar pesquisas futuras, também introduzimos envenenamento de dados inofensivo durante o pré-treinamento, fornecendo um ambiente de teste realista para estudos de segurança. Ao disponibilizar abertamente todos os modelos, conjuntos de dados, códigos e checkpoints, o Gaperon estabelece uma base reproduzível para explorar os trade-offs entre curadoria de dados, avaliação, segurança e abertura no desenvolvimento de modelos de linguagem multilíngues.
Os Modelos de Linguagem de Grande Porte (LLMs) são poderosos, mas frequentemente muito lentos e dispendiosos para uso prático durante a inferência. Os *transformers* com ciclo economizam parâmetros ao reutilizar os mesmos pesos para múltiplas etapas computacionais, ou "ciclos". No entanto, esta abordagem tem uma falha principal: os ciclos são executados um após o outro, fazendo com que a latência de inferência e os requisitos de memória aumentem a cada ciclo adicionado. Isso torna-os impraticáveis para aplicações que exigem rapidez. Para resolver este problema, nós introduzimos o *Parallel Loop Transformer* (PLT). O PLT é uma nova arquitetura que oferece os benefícios de desempenho de um modelo profundo e ciclado, mas com a baixa latência de um modelo padrão e não ciclado. O PLT funciona usando duas técnicas-chave. Primeiro, o Paralelismo Interciclos (CLP) quebra a dependência sequencial ao calcular diferentes ciclos para diferentes *tokens* ao mesmo tempo, tudo dentro de uma única passagem. Segundo, para evitar que os custos de memória cresçam, usamos uma estratégia de Melhoria Eficiente da Representação. Este método partilha a memória (*cache* de Chaves-Valores, KV) do primeiro ciclo com todos os outros ciclos. Em seguida, usa um Mecanismo de Atenção com Janela Deslizante e Portão (G-SWA) para combinar esta informação global partilhada com informação local, mantendo uma alta precisão. As nossas experiências mostram que o PLT alcança a alta precisão de um modelo ciclado tradicional, mas com quase nenhum custo extra de latência ou memória em comparação com um *transformer* padrão.
Os modelos unificados de visão e linguagem (UVLMs) devem executar tarefas de compreensão e geração dentro de uma única arquitetura, mas essas tarefas dependem de dados e supervisão heterogêneos, dificultando seu equilíbrio durante o aprendizado por reforço (RL). Propomos o PairUni, uma estrutura unificada que reorganiza os dados em pares de compreensão-geração (UG) e alinha a otimização de acordo. Primeiro, usamos o GPT-4 para aumentar os dados de tarefa única, gerando legendas para amostras de compreensão e pares de pergunta-resposta (QA) para amostras de geração, formando pares alinhados a partir da mesma instância. Adicionalmente, para cada amostra de geração, recuperamos um exemplo de compreensão semanticamente relacionado para formar um par recuperado, conectando pontos de dados diferentes mas relacionados. Essas estruturas pareadas expõem correspondências semânticas entre tarefas e suportam um aprendizado de política consistente. Para aproveitar essa estrutura, apresentamos o Pair-GPRO, uma variante consciente de pares baseada na Otimização de Política Relativa de Grupo. Ele atribui uma pontuação de similaridade a cada par para modular a vantagem, fortalecendo o aprendizado a partir de exemplos bem alinhados e reduzindo a interferência entre tarefas. Curadamos um conjunto de dados de alta qualidade com 16K pares UG, denominado PairUG, para ajuste fino por RL e avaliamos o PairUni nos poderosos UVLMs Janus-Pro. Nossa abordagem alcança melhorias equilibradas em vários UVLMs, superando as fortes linhas de base de RL para UVLM. Código: https://github.com/Haochen-Wang409/PairUni
A implementação prática de Sistemas Multiagente (MAS) exige um forte desempenho em tempo de teste, motivando métodos que orientam a busca durante a inferência e gastam computação de forma seletiva para melhorar a qualidade. Apresentamos o Modelo de Recompensa de Processo para Sistemas Multiagente (MASPRM). Ele atribui valores por ação, por agente, a transcrições parciais de interações entre agentes e atua como um controlador durante a inferência. O MASPRM é treinado a partir de *rollouts* de Monte Carlo Tree Search (MCTS) multiagente, sem exigir anotações humanas a nível de etapa, propagando retornos para alvos locais. Na inferência, o MASPRM orienta a busca por feixe (*beam search*) e o MCTS a nível de etapa, focando a computação em ramos promissores e podando precocemente. No GSM8K e no MATH, a decodificação guiada por MASPRM com um modelo de recompensa de resultado (*outcome reward model* - ORM) aplicado à resposta final, melhora a correspondência exata (*exact match* - EM) em relação a uma única passagem direta (*straight-through*) do MAS em +30,7 e +22,9 pontos, respectivamente. Um MASPRM treinado no GSM8K transfere-se *zero-shot* para o MATH sem novo treinamento, adicionando 8,4 pontos de EM com o mesmo orçamento computacional. O MASPRM é um modelo de valor *plug-in* que estima o progresso por agente e complementa decodificadores no estilo de verificadores, permitindo um raciocínio multiagente mais confiável e consciente do custo computacional. Código: https://github.com/milad1378yz/MASPRM
Neste artigo, apresentamos uma estrutura para treinar grandes modelos de linguagem (LLMs) como agentes de diagnóstico com aprendizagem por reforço, permitindo-lhes gerir processos de diagnóstico multi-turno, selecionar exames de forma adaptativa e comprometer-se com diagnósticos finais. Ao contrário de modelos ajustados por instrução treinados em resumos de casos estáticos, nosso método adquire estratégias de diagnóstico através de exploração interativa e feedback baseado em resultados. Nossas contribuições são quádruplas: (i) Apresentamos o DiagGym, um modelo de mundo de diagnóstico treinado com registros eletrónicos de saúde que emite resultados de exames condicionados ao histórico do paciente e ao exame recomendado, servindo como ambiente clínico virtual para treino e avaliação diagnóstica realista; (ii) Treinamos o DiagAgent através de aprendizagem por reforço multi-turno de ponta a ponta para aprender políticas de diagnóstico que otimizam tanto o rendimento de informação quanto a precisão diagnóstica; (iii) Introduzimos o DiagBench, um benchmark de diagnóstico composto por 750 casos com recomendações de exames validadas por médicos e 99 casos anotados com 973 rubricas escritas por médicos sobre o processo de diagnóstico; (iv) Demonstramos desempenho superior em diversos contextos diagnósticos. O DiagAgent supera significativamente 10 LLMs state-of-the-art, incluindo DeepSeek-v3 e GPT-4o, bem como dois agentes com engenharia de prompt. Em configurações de turno único, o DiagAgent alcança 9,34% maior precisão diagnóstica e 44,03% de melhoria na taxa de acerto de recomendações de exames. Em configurações de ponta a ponta, proporciona um aumento de 15,12% na precisão diagnóstica e um incremento de 23,09% no score F1 de recomendações de exames. Na avaliação baseada em rubricas, supera o segundo melhor modelo, Claude-sonnet-4, em 7,1% no score de rubrica ponderado. Estes resultados indicam que a aprendizagem de políticas em ambientes clínicos interativos confere capacidades dinâmicas e clinicamente significativas de gestão diagnóstica inatingíveis apenas com treino passivo.
Os recentes avanços em modelos de mundo de condução permitem a geração controlada de vídeos RGB de alta qualidade ou vídeos multimodais. Os métodos existentes concentram-se principalmente em métricas relacionadas com a qualidade da geração e a controlabilidade. No entanto, frequentemente negligenciam a avaliação de tarefas de perceção a jusante, que são realmente cruciais para o desempenho da condução autónoma. Os métodos existentes geralmente utilizam uma estratégia de treino que primeiro pré-treina com dados sintéticos e depois afina com dados reais, resultando no dobro das épocas em comparação com a linha de base (apenas dados reais). Quando duplicamos as épocas na linha de base, o benefício dos dados sintéticos torna-se insignificante. Para demonstrar cabalmente o benefício dos dados sintéticos, introduzimos o Dream4Drive, um novo quadro de geração de dados sintéticos concebido para melhorar as tarefas de perceção a jusante. O Dream4Drive decompõe primeiro o vídeo de entrada em vários mapas de orientação com consciência 3D e, subsequentemente, renderiza os ativos 3D nestes mapas de orientação. Finalmente, o modelo de mundo de condução é afinado para produzir os vídeos editados, fotorealistas e multi-vista, que podem ser usados para treinar os modelos de perceção a jusante. O Dream4Drive permite uma flexibilidade sem precedentes na geração em larga escala de casos de canto multi-vista, aumentando significativamente a perceção de casos de canto na condução autónoma. Para facilitar a investigação futura, contribuímos também com um conjunto de dados de ativos 3D em larga escala denominado DriveObj3D, abrangendo as categorias típicas em cenários de condução e permitindo uma edição de vídeo diversificada com consciência 3D. Realizamos experiências abrangentes para mostrar que o Dream4Drive pode aumentar eficazmente o desempenho dos modelos de perceção a jusante sob várias épocas de treino. Página: https://wm-research.github.io/Dream4Drive/ Link do GitHub: https://github.com/wm-research/Dream4Drive
O aprendizado por reforço com recompensas verificáveis (RLVR) emergiu como um paradigma promissor para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs). Nesse contexto, os modelos exploram trajetórias de raciocínio e exploram *rollouts* com respostas corretas como sinais positivos para a otimização da política. No entanto, esses *rollouts* podem envolver padrões falhos, como adivinhação de respostas e raciocínio com saltos abruptos. Esses *rollouts* positivos-falhos são recompensados de forma idêntica aos totalmente corretos, fazendo com que os modelos de política internalizem esses padrões de raciocínio não confiáveis. Neste trabalho, primeiro realizamos um estudo sistemático dos *rollouts* positivos-falhos no RL e descobrimos que eles permitem ganhos rápidos de capacidade durante o estágio inicial de otimização, ao mesmo tempo que limitam a capacidade de raciocínio posteriormente, ao reforçar padrões não confiáveis. Com base nessas percepções, propomos a Otimização de Política Consciente de Falhas (FAPO), que apresenta uma penalidade de recompensa livre de parâmetros para *rollouts* positivos-falhos, permitindo que a política os utilize como atalhos úteis na fase de aquecimento, assegurando ganhos iniciais estáveis, enquanto gradualmente desloca a otimização para um raciocínio confiável na fase posterior de refinamento. Para detectar com precisão e abrangência os *rollouts* positivos-falhos, introduzimos um modelo de recompensa generativo (GenRM) com uma recompensa em nível de processo que localiza precisamente os erros de raciocínio. Experimentos mostram que a FAPO é eficaz em domínios amplos, melhorando a correção dos resultados, a confiabilidade do processo e a estabilidade do treinamento sem aumentar o orçamento de *tokens*.
Avanços recentes em modelos de linguagem grandes (LLMs) baseados apenas em texto, como o DeepSeek-R1, demonstram uma capacidade de raciocínio notável. No entanto, esses modelos permanecem frágeis ou completamente incapazes quando estendidos para tarefas multimodais. As abordagens existentes dependem amplamente de legendas de formato único, que carecem de diversidade e frequentemente falham em se adaptar a diferentes tipos de benchmarks de Resposta Visual a Perguntas (VQA). Consequentemente, elas não fornecem um canal eficiente ou fundamentado para transmitir informações visuais refinadas. Apresentamos o Seeing Eye, uma estrutura modular que desbloqueia o raciocínio multimodal em LLMs de texto puro por meio de um tradutor VLM pequeno baseado em agente. Este tradutor atua como um agente de percepção: ele pode invocar ferramentas especializadas (por exemplo, OCR e recorte) e destilar iterativamente entradas multimodais em representações intermediárias estruturadas (SIRs) adaptadas à pergunta. Essas SIRs são então passadas para o LLM de texto puro, que atua como um agente de raciocínio. Crucialmente, o tradutor e o raciocinador envolvem-se em feedback e interação multi-turnos, permitindo a extração de detalhes visuais específicos e resultando em respostas mais confiantes. Experimentos em benchmarks de VQA com grande carga de conhecimento, incluindo MMMU e MIA-Bench, demonstram que o Seeing Eye não apenas reduz o custo de inferência, mas também supera VLMs monolíticos muito maiores. Por exemplo, uma instanciação que combina um tradutor visual de 3B de parâmetros com um raciocinador linguístico de 8B de parâmetros supera um VLM monolítico de 32B em perguntas desafiadoras baseadas em conhecimento. Nossos resultados destacam que desacoplar a percepção do raciocínio por meio de um fluxo de informação baseado em agentes oferece um caminho escalável e "plug-and-play" para o raciocínio multimodal, permitindo que LLMs de texto puro fortes aproveitem plenamente suas capacidades de raciocínio. O código está disponível em: https://github.com/ulab-uiuc/SeeingEye
O modelo de linguagem de grande escala com capacidade de raciocínio (RLLM) tem se mostrado competitivo na resolução de tarefas complexas de raciocínio, como matemática e codificação, em comparação com LLMs gerais. No entanto, o desempenho e o comportamento de serviço do RLLM permanecem inexplorados, o que pode comprometer a implantação e utilização do RLLM em cenários do mundo real. Para preencher essa lacuna, neste artigo, realizamos um estudo abrangente sobre o serviço de RLLM. Primeiro, realizamos um estudo piloto comparando o desempenho de serviço entre RLLM e LLM tradicional e revelamos que existem várias diferenças distintas em relação ao comportamento de serviço: (1) uso significativo de memória e flutuações; (2) requisições defasadas (straggler requests); (3) tempo de execução adaptativo; (4) preferência de domínio. Em seguida, investigamos ainda se as técnicas de otimização de inferência existentes são válidas para o RLLM. Nossas principais conclusões são que métodos de quantização de modelo e decodificação especulativa podem melhorar a eficiência do sistema de serviço com pequeno comprometimento da precisão do RLLM, enquanto o cache de prefixo e a quantização do cache KV podem até degradar a precisão ou o desempenho de serviço para RLLMs pequenos. Por fim, realizamos uma avaliação sob carga de trabalho do mundo real modelada pela distribuição Gama para verificar nossas descobertas. Os resultados empíricos da avaliação de carga de trabalho do mundo real em diferentes conjuntos de dados estão alinhados com nossas principais descobertas sobre a prestação de serviço do RLLM. Esperamos que nosso trabalho possa fornecer à comunidade de pesquisa e à indústria insights para avançar a inferência de serviço do RLLM.
O desenvolvimento da Inteligência Artificial (IA), incluindo a IA na Ciência (IAC), deve ser realizado seguindo os princípios da IA responsável. O progresso na IA responsável é frequentemente quantificado por meio de métricas de avaliação, contudo, tem havido menos trabalho na avaliação da robustez e confiabilidade das próprias métricas. Refletimos sobre trabalhos anteriores que examinam a robustez de métricas de justiça para sistemas de recomendação, como um tipo de aplicação de IA, e resumimos as suas principais conclusões num conjunto de diretrizes não exaustivas para o desenvolvimento de métricas confiáveis de IA responsável. As nossas diretrizes aplicam-se a um amplo espectro de aplicações de IA, incluindo a IAC.
O rápido avanço dos grandes modelos de linguagem (LLMs) intensificou a necessidade de avaliação específica por domínio e cultura. Os benchmarks existentes são largamente anglocentrados e agnósticos de domínio, limitando sua aplicabilidade em contextos centrados na Índia. Para preencher essa lacuna, apresentamos o BhashaBench V1, o primeiro benchmark bilíngue, multidisciplinar e específico de domínio focado em sistemas críticos de conhecimento indianos. O BhashaBench V1 contém 74.166 pares pergunta-resposta meticulosamente curados, sendo 52.494 em inglês e 21.672 em hindi, obtidos a partir de exames governamentais autênticos e específicos de domínio. Ele abrange quatro domínios principais: Agricultura, Jurídico, Finanças e Ayurveda, compreendendo mais de 90 subdomínios e cobrindo mais de 500 tópicos, permitindo uma avaliação refinada. A avaliação de mais de 29 LLMs revela lacunas significativas de desempenho específicas por domínio e idioma, com disparidades especialmente grandes em domínios de baixos recursos. Por exemplo, o GPT-4o alcança 76,49% de precisão geral no domínio Jurídico, mas apenas 59,74% em Ayurveda. Os modelos apresentam desempenho consistentemente melhor em conteúdo em inglês em comparação com o hindi em todos os domínios. A análise em nível de subdomínio mostra que áreas como Direito Cibernético e Finanças Internacionais têm desempenho relativamente bom, enquanto Panchakarma, Ciência de Sementes e Direitos Humanos permanecem notavelmente fracas. O BhashaBench V1 fornece um conjunto de dados abrangente para avaliar grandes modelos de linguagem nos diversos domínios do conhecimento da Índia. Ele permite avaliar a capacidade dos modelos de integrar conhecimento específico do domínio com compreensão bilíngue. Todo o código, benchmarks e recursos estão publicamente disponíveis para apoiar a pesquisa aberta.
À medida que a IA centralizada atinge limites computacionais e retornos decrescentes de treinamentos cada vez maiores, atender à demanda requer uma camada de inferência que escale horizontalmente em capacidade e competência. Apresentamos Fortytwo, um protocolo inovador que aproveita princípios de inteligência de enxame e consenso distribuído de classificação pareada para alcançar desempenho superior em inferência de IA. Nossa abordagem reinventa a colaboração entre nós de IA usando a inferência de enxame: um consenso com reputação ponderada e classificação paritária entre modelos heterogêneos que seleciona as respostas de mais alta qualidade. Utilizando classificação pareada com um modelo personalizado de agregação estilo Bradley-Terry, demonstramos que a inferência de enxame supera substancialmente a votação majoritária, alcançando 85,90% no GPQA Diamond contra 68,69% da votação majoritária com o mesmo conjunto de modelos - uma melhoria de +17,21 pontos percentuais (aproximadamente +25,1% em termos relativos). O protocolo incorpora reputação on-chain para que a influência dos nós se adapte à precisão demonstrada ao longo do tempo, produzindo um consenso meritocrático que filtra participantes de baixa qualidade ou maliciosos. Para resistir a ataques Sybil, o Fortytwo emprega prova de capacidade em seu consenso: os nós devem concluir com sucesso solicitações de calibração/teste e apostar reputação para entrar nas rodadas de classificação, tornando ataques de múltiplas identidades economicamente desinteressantes enquanto preserva a abertura. Em seis benchmarks desafiadores, incluindo GPQA Diamond, LiveCodeBench e AIME, nossa avaliação indica maior precisão e forte resiliência a promptos adversariais e ruidosos de forma livre (ex.: degradação por injeção de prompts de apenas 0,12% contra 6,20% para uma baseline monolítica de modelo único), mantendo a implantação prática. Juntos, esses resultados estabelecem uma base para sistemas de IA descentralizados - democratizando o acesso à inferência de alta qualidade através da inteligência coletiva sem sacrificar confiabilidade ou segurança.
Os modelos de difusão de vídeo autoregressivos são capazes de gerar sequências longas que são estáveis e consistentes com o histórico, mas são incapazes de orientar a geração atual com condicionamento a partir do futuro. Na geração de vídeo guiada por câmera com uma trajetória de câmera predefinida, esta limitação leva a colisões com a cena gerada, após as quais a autoregressão colapsa rapidamente. Para resolver isso, propomos a Costura Generativa de Vista (GVS), que amostra toda a sequência em paralelo, de modo que a cena gerada seja fiel a cada parte da trajetória de câmera predefinida. Nossa principal contribuição é um algoritmo de amostragem que estende trabalhos anteriores sobre costura de difusão para planejamento de robôs para a geração de vídeo. Embora tais métodos de costura geralmente exijam um modelo especialmente treinado, o GVS é compatível com qualquer modelo de vídeo pronto para uso treinado com Diffusion Forcing, uma estrutura de difusão de sequência prevalente que demonstramos já fornecer as capacidades necessárias para a costura. Em seguida, introduzimos a Orientação Ômni, uma técnica que melhora a consistência temporal na costura ao condicionar tanto no passado quanto no futuro, e que permite nosso mecanismo proposto de fechamento de loop para fornecer coerência de longo alcance. No geral, o GVS alcança geração de vídeo guiada por câmera que é estável, livre de colisões, consistente de quadro a quadro e fecha loops para uma variedade de caminhos de câmera predefinidos, incluindo a Escada Impossível de Oscar Reutersvärd. Os resultados são melhor visualizados como vídeos em https://andrewsonga.github.io/gvs.
Apresentamos o GraphNet, um conjunto de dados com 2,7 mil grafos computacionais de aprendizado profundo do mundo real, contendo metadados ricos e abrangendo seis categorias principais de tarefas em múltiplos frameworks de deep learning. Para avaliar o desempenho de compiladores de tensores nessas amostras, propomos a métrica de benchmark Pontuação de Aceleração S(t), que considera conjuntamente a aceleração do tempo de execução e a correção da execução sob níveis de tolerância ajustáveis, oferecendo uma medida confiável da capacidade geral de otimização. Adicionalmente, estendemos S(t) para a Pontuação de Aceleração com Consciência de Erro ES(t), que incorpora informações de erro e auxilia desenvolvedores de compiladores a identificar gargalos-chave de desempenho. Neste relatório, avaliamos os compiladores de tensores padrão, CINN para PaddlePaddle e TorchInductor para PyTorch, em amostras de visão computacional (CV) e processamento de linguagem natural (NLP) para demonstrar a praticidade do GraphNet. O pipeline completo de construção, com ferramentas de extração de grafos e avaliação de compiladores, está disponível em https://github.com/PaddlePaddle/GraphNet.
Embora a modelagem autorregressiva (AR) tenha surgido recentemente como um novo paradigma na geração visual, sua adoção prática é severamente limitada pela baixa velocidade de inferência da geração por token, que frequentemente requer milhares de passos para produzir uma única amostra. Para enfrentar este desafio, propomos o MC-SJD, uma estrutura de decodificação paralela sem perdas e sem necessidade de treinamento, projetada para acelerar a geração visual AR estendendo a recentemente introduzida Decodificação de Jacobi Especulativa (SJD). Embora a SJD mostre forte potencial para acelerar a geração AR, demonstramos que a instabilidade dos tokens entre iterações reduz significativamente a taxa de aceitação, uma limitação que surge principalmente do processo de amostragem independente usado durante a geração de tokens de rascunho. Para superar isso, introduzimos o MC-SJD, uma abordagem baseada em teoria da informação fundamentada em *coupling*, que acelera substancialmente a SJD padrão maximizando a probabilidade de amostrar tokens de rascunho idênticos em iterações consecutivas, tudo isso preservando sua propriedade de ser sem perdas. Notavelmente, este método requer apenas uma modificação de uma única linha no algoritmo existente, mas alcança ganhos substanciais de desempenho, proporcionando uma aceleração de até ~4.2x na geração de imagens e ~13.3x na geração de vídeos em comparação com a decodificação AR padrão, sem qualquer degradação na qualidade da saída.
Os grandes modelos de linguagem (LLMs) no aconselhamento psicológico têm atraído atenção crescente. No entanto, as abordagens existentes frequentemente carecem de compreensão emocional, estratégias adaptativas e da utilização de métodos terapêuticos ao longo de múltiplas sessões com memória de longo prazo, distanciando-se significativamente da prática clínica real. Para abordar estas lacunas críticas, apresentamos o TheraMind, um agente estratégico e adaptativo para aconselhamento psicológico longitudinal. A pedra angular do TheraMind é uma nova arquitetura de duplo ciclo que desacopla o complexo processo de aconselhamento num Ciclo Intra-Sessão para gestão táctica do diálogo e num Ciclo Inter-Sessões para planeamento terapêutico estratégico. O Ciclo Intra-Sessão percepciona o estado emocional do paciente para seleccionar dinamicamente estratégias de resposta, aproveitando simultaneamente a memória inter-sessões para garantir continuidade. Crucialmente, o Ciclo Inter-Sessões confere ao agente adaptabilidade de longo prazo, avaliando a eficácia da terapia aplicada após cada sessão e ajustando o método para interacções subsequentes. Validamos a nossa abordagem num ambiente de simulação de alta fidelidade baseado em casos clínicos reais. Avaliações extensivas demonstram que o TheraMind supera outros métodos, especialmente em métricas multi-sessão como Coerência, Flexibilidade e Sintonia Terapêutica, validando a eficácia do seu design de duplo ciclo na emulação de comportamentos terapêuticos estratégicos, adaptativos e longitudinais. O código está publicamente disponível em https://0mwwm0.github.io/TheraMind/.