Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o BlenderFusion, um framework de composição visual generativa que sintetiza novas cenas recompondo objetos, câmera e fundo. Ele segue um pipeline de camadas-edição-composição: (i) segmentação e conversão de entradas visuais em entidades 3D editáveis (camadas), (ii) edição dessas entidades no Blender com controle baseado em 3D (edição), e (iii) fusão em uma cena coerente usando um compositor generativo (composição). Nosso compositor generativo estende um modelo de difusão pré-treinado para processar tanto a cena original (fonte) quanto a editada (alvo) em paralelo. Ele é ajustado em frames de vídeo com duas estratégias de treinamento principais: (i) mascaramento da fonte, permitindo modificações flexíveis como substituição de fundo; (ii) simulação de tremulação de objetos, facilitando controle desacoplado sobre objetos e câmera. O BlenderFusion supera significativamente métodos anteriores em tarefas complexas de edição de cenas composicionais.
Neste artigo, apresentamos o LLaVA-Scissor, uma estratégia de compressão de tokens sem necessidade de treinamento, projetada para modelos de linguagem multimodal de vídeo. Métodos anteriores tentam principalmente comprimir tokens com base em pontuações de atenção, mas falham em capturar efetivamente todas as regiões semânticas e frequentemente resultam em redundância de tokens. Diferentemente, propomos utilizar a abordagem de Componentes Conectados Semânticos (SCC), que atribui tokens a regiões semânticas distintas dentro do conjunto de tokens, garantindo uma cobertura semântica abrangente. O resultado é uma estratégia de compressão espaço-temporal de tokens em duas etapas que utiliza SCC tanto no domínio espacial quanto no temporal. Essa estratégia pode comprimir tokens de forma eficaz ao representar o vídeo inteiro com um conjunto de tokens semânticos não sobrepostos. Realizamos avaliações extensas das capacidades de compressão de tokens do LLaVA-Scissor em diversos benchmarks de compreensão de vídeo, incluindo questionários de vídeo, compreensão de vídeos longos e benchmarks abrangentes de múltipla escolha. Os resultados experimentais mostram que o LLaVA-Scissor proposto supera outros métodos de compressão de tokens, alcançando desempenho superior em vários benchmarks de compreensão de vídeo, especialmente em baixas taxas de retenção de tokens. Página do projeto: https://github.com/HumanMLLM/LLaVA-Scissor.
Alcançar controle refinado sobre a identidade do sujeito e atributos semânticos (pose, estilo, iluminação) na geração de imagens a partir de texto, especialmente para múltiplos sujeitos, frequentemente compromete a editabilidade e a coerência dos Transformers de Difusão (DiTs). Muitas abordagens introduzem artefatos ou sofrem com emaranhamento de atributos. Para superar esses desafios, propomos um novo modelo de geração controlada para múltiplos sujeitos chamado XVerse. Ao transformar imagens de referência em deslocamentos para a modulação específica de tokens no fluxo de texto, o XVerse permite um controle preciso e independente para sujeitos específicos sem perturbar os latentes ou características da imagem. Consequentemente, o XVerse oferece síntese de imagens de múltiplos sujeitos com alta fidelidade e editabilidade, com controle robusto sobre as características individuais dos sujeitos e atributos semânticos. Esse avanço melhora significativamente as capacidades de geração de cenas personalizadas e complexas.
Modelos internos do mundo (WMs, do inglês "World Models") permitem que agentes compreendam o estado do mundo e prevejam transições, servindo como base para raciocínio deliberativo avançado. Modelos recentes de Visão e Linguagem de grande escala (VLMs, do inglês "Vision-Language Models"), como o OpenAI o3, GPT-4o e Gemini, demonstram potencial como WMs de propósito geral. Embora os estudos mais recentes tenham avaliado e mostrado limitações em capacidades específicas, como compreensão visual, uma avaliação sistemática das habilidades fundamentais de WMs em VLMs ainda está ausente. Baseando-nos na psicologia comparativa e na ciência cognitiva, propomos um framework de duas etapas que avalia Percepção (visual, espacial, temporal, quantitativa e de movimento) e Previsão (simulação mecanicista, inferência transitiva, inferência composicional) para fornecer uma avaliação atômica de VLMs como WMs. Guiados por esse framework, introduzimos o WM-ABench, um benchmark em larga escala composto por 23 dimensões de avaliação detalhadas em 6 ambientes simulados diversos com simulações contrafactuais controladas. Por meio de 660 experimentos em 15 VLMs comerciais e de código aberto mais recentes, descobrimos que esses modelos apresentam limitações marcantes em habilidades básicas de modelagem do mundo. Por exemplo, quase todos os modelos apresentam precisão próxima ao acaso ao distinguir trajetórias de movimento. Além disso, eles carecem de compreensão desacoplada — por exemplo, alguns modelos tendem a acreditar que objetos azuis se movem mais rápido que os verdes. Resultados e análises mais ricos revelam lacunas significativas entre VLMs e a modelagem do mundo em nível humano.
A cinematografia, a linguagem visual fundamental do cinema, é essencial para transmitir narrativa, emoção e qualidade estética. Embora os recentes Modelos de Visão e Linguagem (VLMs) demonstrem uma forte compreensão visual geral, sua proficiência em compreender a gramática cinematográfica sutil incorporada em planos individuais permanece amplamente inexplorada e carece de avaliação robusta. Essa lacuna crítica limita tanto a compreensão visual detalhada quanto a precisão da geração de vídeos assistida por IA. Para abordar isso, introduzimos o ShotBench, um benchmark abrangente projetado especificamente para o entendimento da linguagem cinematográfica. Ele apresenta mais de 3,5 mil pares de perguntas e respostas anotados por especialistas, extraídos de imagens e clipes de vídeo, meticulosamente selecionados de mais de 200 filmes aclamados (predominantemente indicados ao Oscar) e abrangendo oito dimensões-chave da cinematografia. Nossa avaliação de 24 VLMs líderes no ShotBench revela suas substanciais limitações: mesmo o modelo de melhor desempenho alcança menos de 60% de precisão média, especialmente lutando com pistas visuais detalhadas e raciocínio espacial complexo. Para catalisar avanços nesse domínio, construímos o ShotQA, um conjunto de dados multimodal em larga escala composto por aproximadamente 70 mil pares de perguntas e respostas cinematográficas. Utilizando o ShotQA, desenvolvemos o ShotVL por meio de ajuste fino supervisionado e Otimização de Política Relativa em Grupo. O ShotVL supera significativamente todos os modelos de código aberto e proprietários existentes no ShotBench, estabelecendo um novo estado da arte em desempenho. Disponibilizamos nossos modelos, dados e código em código aberto para promover progressos rápidos nessa área crucial de compreensão e geração cinematográfica impulsionada por IA.
As tarefas de predição densa têm uma importância significativa na visão computacional, visando aprender rótulos anotados pixel a pixel para uma imagem de entrada. Apesar dos avanços nessa área, os métodos existentes concentram-se principalmente em condições idealizadas, com generalização limitada para cenários do mundo real e enfrentando a desafiadora escassez de dados do mundo real. Para estudar sistematicamente esse problema, primeiro introduzimos o DenseWorld, um benchmark que abrange um amplo conjunto de 25 tarefas de predição densa que correspondem a aplicações urgentes do mundo real, apresentando avaliação unificada entre as tarefas. Em seguida, propomos o DenseDiT, que explora ao máximo os priors visuais dos modelos generativos para realizar diversas tarefas de predição densa do mundo real por meio de uma estratégia unificada. O DenseDiT combina um mecanismo de reutilização de parâmetros e dois ramos leves que integram adaptativamente o contexto multiescala, funcionando com menos de 0,1% de parâmetros adicionais. As avaliações no DenseWorld revelam quedas significativas de desempenho nas linhas de base gerais e especializadas existentes, destacando sua limitada generalização no mundo real. Em contraste, o DenseDiT alcança resultados superiores usando menos de 0,01% dos dados de treinamento das linhas de base, ressaltando seu valor prático para implantação no mundo real. Nossos dados, checkpoints e códigos estão disponíveis em https://xcltql666.github.io/DenseDiTProj.
O surgimento da Mistura de Especialistas (MoE) em Modelos de Linguagem de Grande Escala promete um custo de execução reduzido para uma contagem de parâmetros e capacidade de aprendizado muito maior, uma vez que apenas uma pequena fração dos parâmetros é ativada para cada token de entrada. No entanto, é comumente observado que alguns especialistas são ativados com muito mais frequência do que outros, levando à ineficiência do sistema ao executar os especialistas em diferentes dispositivos em paralelo. Portanto, introduzimos a Mistura de Especialistas Agrupados (MoGE), que agrupa os especialistas durante a seleção e equilibra a carga de trabalho dos especialistas de forma mais eficiente do que o MoE por natureza. Ele restringe os tokens a ativar um número igual de especialistas dentro de cada grupo de especialistas predefinido. Quando a execução de um modelo é distribuída em vários dispositivos, esse design arquitetônico garante uma carga computacional equilibrada entre os dispositivos, aumentando significativamente a taxa de transferência, especialmente na fase de inferência. Além disso, construímos o Pangu Pro MoE em NPUs Ascend, um modelo esparso baseado em MoGE com 72 bilhões de parâmetros totais, dos quais 16 bilhões são ativados para cada token. A configuração do Pangu Pro MoE é otimizada para o Ascend 300I Duo e 800I A2 por meio de extensos estudos de simulação de sistema. Nossos experimentos indicam que o MoGE realmente leva a um melhor balanceamento de carga dos especialistas e a uma execução mais eficiente tanto para o treinamento quanto para a inferência do modelo em NPUs Ascend. O desempenho de inferência do Pangu Pro MoE atinge 1148 tokens/s por placa e pode ser ainda melhorado para 1528 tokens/s por placa com aceleração especulativa, superando modelos Densos comparáveis de 32B e 72B. Além disso, alcançamos uma excelente relação custo-desempenho para a inferência de modelos no Ascend 300I Duo. Nossos estudos mostram que as NPUs Ascend são capazes de treinar o Pangu Pro MoE com massiva paralelização, tornando-o um modelo líder na classe de menos de 100B de parâmetros totais, superando modelos de código aberto proeminentes como GLM-Z1-32B e Qwen3-32B.
Os modelos atuais de Visão e Linguagem (VLMs) enfrentam dificuldades com o raciocínio espacial de alta granularidade, especialmente quando são necessárias lógicas de múltiplos passos e alinhamento espacial preciso. Neste trabalho, apresentamos o SpatialReasoner-R1, um modelo de raciocínio visão-linguagem projetado para superar essas limitações. Para construir supervisão de alta qualidade para o raciocínio espacial, desenvolvemos um método de Busca em Árvore de Monte Carlo Multi-Modelo (M3CTS) que gera trajetórias de raciocínio Long Chain-of-Thought (LongCoT) diversas e logicamente consistentes. Além disso, propomos a Otimização de Preferência Direta de Alta Granularidade (fDPO), que introduz granularidade específica por segmento para fundamentação descritiva e raciocínio lógico, guiada por um mecanismo de recompensa espacial que avalia respostas candidatas com base em consistência visual, fundamentação espacial e coerência lógica. Os resultados experimentais demonstram que o fDPO alcança uma melhoria média de 4,1% em relação ao DPO padrão em tarefas de qualidade espacial, e um ganho de 9,0% em tarefas de quantidade espacial. O SpatialReasoner-R1, treinado com fDPO, estabelece um novo estado da arte no SPATIALRGPT-Bench, superando a linha de base mais forte em 9,8% em precisão média, enquanto mantém desempenho competitivo em tarefas gerais de visão e linguagem.
A robótica fez avanços notáveis em hardware - desde os Desafios Urbanos e de Robótica da DARPA até o primeiro torneio de kickboxing com robôs humanoides - mas a autonomia comercial ainda está atrás do progresso em aprendizado de máquina. Um grande gargalo é o software: as pilhas de software atuais para robôs exigem curvas de aprendizado íngremes, expertise em C/C++ de baixo nível, ferramentas fragmentadas e integração complexa de hardware, em contraste marcante com os ecossistemas centrados em Python e bem documentados que impulsionaram a IA moderna. Apresentamos o ARK, um framework de robótica de código aberto e focado em Python, projetado para fechar essa lacuna. O ARK oferece uma interface de ambiente no estilo Gym que permite aos usuários coletar dados, pré-processá-los e treinar políticas usando algoritmos de aprendizado por imitação de ponta (por exemplo, ACT, Diffusion Policy), alternando de forma contínua entre simulação de alta fidelidade e robôs físicos. Uma arquitetura cliente-servidor leve fornece comunicação em rede no modelo publisher-subscriber, e bindings opcionais em C/C++ garantem desempenho em tempo real quando necessário. O ARK vem com módulos reutilizáveis para controle, SLAM, planejamento de movimento, identificação de sistemas e visualização, além de interoperabilidade nativa com ROS. Documentação abrangente e estudos de caso - desde manipulação até navegação móvel - demonstram prototipagem rápida, troca de hardware sem esforço e pipelines de ponta a ponta que rivalizam com a conveniência dos fluxos de trabalho de aprendizado de máquina mais comuns. Ao unificar práticas de robótica e IA sob um guarda-chuva comum em Python, o ARK reduz barreiras de entrada e acelera a pesquisa e a implantação comercial de robôs autônomos.
Os modelos de visão e linguagem (VLMs) conseguem imaginar a cena completa a partir de poucas visualizações, como os humanos fazem? Os humanos formam modelos mentais espaciais, representações internas de espaços não vistos, para raciocinar sobre layout, perspectiva e movimento. Nosso novo benchmark MindCube, com 21.154 questões em 3.268 imagens, expõe essa lacuna crítica, onde os VLMs existentes apresentam desempenho quase aleatório. Usando o MindCube, avaliamos sistematicamente o quão bem os VLMs constroem modelos mentais espaciais robustos por meio da representação de posições (mapeamento cognitivo), orientações (tomada de perspectiva) e dinâmicas (simulação mental para movimentos "e se"). Em seguida, exploramos três abordagens para ajudar os VLMs a aproximar modelos mentais espaciais, incluindo visualizações intermediárias não vistas, cadeias de raciocínio em linguagem natural e mapas cognitivos. A melhoria significativa vem de uma abordagem sinérgica, "mapear-depois-raciocinar", que treina o modelo conjuntamente para primeiro gerar um mapa cognitivo e depois raciocinar sobre ele. Ao treinar modelos para raciocinar sobre esses mapas internos, aumentamos a precisão de 37,8% para 60,8% (+23,0%). A adição de aprendizado por reforço elevou o desempenho ainda mais para 70,7% (+32,9%). Nossa principal percepção é que esse suporte de modelos mentais espaciais, construindo e utilizando ativamente representações espaciais estruturadas internas com processos de raciocínio flexíveis, melhora significativamente a compreensão do espaço não observável.
Os recentes avanços na modelagem generativa profunda desbloquearam oportunidades sem precedentes para a síntese de vídeo. No entanto, em aplicações do mundo real, os usuários frequentemente buscam ferramentas que possam realizar fielmente suas intenções de edição criativa com controle preciso e consistente. Apesar do progresso alcançado pelos métodos existentes, garantir um alinhamento refinado com as intenções do usuário continua sendo um problema aberto e desafiador. Neste trabalho, apresentamos o Shape-for-Motion, uma nova estrutura que incorpora um proxy 3D para edição de vídeo precisa e consistente. O Shape-for-Motion alcança isso convertendo o objeto alvo no vídeo de entrada em uma malha consistente no tempo, ou seja, um proxy 3D, permitindo que as edições sejam realizadas diretamente no proxy e então inferidas de volta para os quadros do vídeo. Para simplificar o processo de edição, projetamos uma nova Estratégia de Dupla Propagação que permite aos usuários realizar edições na malha 3D de um único quadro, e as edições são então automaticamente propagadas para as malhas 3D dos outros quadros. As malhas 3D para diferentes quadros são ainda projetadas no espaço 2D para produzir renderizações de geometria e textura editadas, que servem como entradas para um modelo de difusão de vídeo desacoplado para gerar os resultados editados. Nossa estrutura suporta várias manipulações precisas e fisicamente consistentes ao longo dos quadros do vídeo, incluindo edição de pose, rotação, escalonamento, translação, modificação de textura e composição de objetos. Nossa abordagem marca um passo importante em direção a fluxos de trabalho de edição de vídeo de alta qualidade e controláveis. Experimentos extensivos demonstram a superioridade e eficácia de nossa abordagem. Página do projeto: https://shapeformotion.github.io/
Os rápidos avanços nos grandes modelos de linguagem (LLMs) têm o potencial de auxiliar no progresso científico. Uma capacidade crucial para esse objetivo é a habilidade de reproduzir trabalhos existentes. Para avaliar a capacidade de agentes de IA em reproduzir resultados em uma área de pesquisa ativa, introduzimos o Benchmark de Speedrunning Automatizado de LLMs, aproveitando as contribuições da comunidade de pesquisa no NanoGPT speedrun, uma competição para treinar um modelo GPT-2 no menor tempo possível. Cada uma das 19 tarefas de speedrun fornece ao agente o script de treinamento dos recordes anteriores, opcionalmente acompanhado por um dos três formatos de dicas, variando de pseudocódigo a descrições semelhantes a artigos das melhorias nos novos recordes. Os recordes são executados rapidamente por design, e as melhorias no speedrun abrangem diversas alterações no nível de código, desde avanços algorítmicos de alto nível até otimizações conscientes do hardware. Essas características tornam o benchmark acessível e realista para o problema de ponta de melhorar o treinamento de LLMs. Descobrimos que os LLMs recentes de raciocínio, combinados com estruturas de suporte de última geração, têm dificuldade em reimplementar inovações já conhecidas em nosso benchmark, mesmo quando recebem dicas detalhadas. Nosso benchmark, portanto, fornece uma medida simples e não saturada da capacidade de um LLM em automatizar a reprodução científica, uma habilidade necessária (mas não suficiente) para um agente de pesquisa autônomo.
Este trabalho explora a habilitação do raciocínio em Cadeia de Pensamento (CoT) para conectar pistas visuais em múltiplas imagens. Uma solução direta é adaptar o aprendizado por reforço baseado em regras para Modelos de Visão e Linguagem (VLMs). No entanto, tais métodos geralmente dependem de pares de perguntas e respostas curados manualmente, o que pode ser particularmente desafiador ao lidar com detalhes visuais refinados e lógica complexa entre imagens. Inspirados pelo aprendizado auto-supervisionado de representações visuais, observamos que as imagens contêm restrições intrínsecas que podem servir como supervisão. Com base nessa percepção, construímos tripletos de imagens compostos por duas visões aumentadas da mesma imagem e uma terceira imagem, semelhante mas distinta. Durante o treinamento, o modelo é incentivado a gerar um processo de raciocínio para comparar essas imagens (ou seja, determinar se são iguais ou diferentes). Em seguida, otimizamos o modelo com aprendizado por reforço baseado em regras. Devido à alta similaridade visual e à presença de aumentos, o modelo deve prestar atenção a mudanças visuais sutis e realizar raciocínio lógico para ter sucesso. Experimentos mostram que, embora treinado apenas em tarefas de comparação visual, a capacidade de raciocínio aprendida generaliza efetivamente para uma ampla gama de perguntas. Sem depender de pares de perguntas e respotas anotados manualmente, nosso método alcança melhorias significativas em benchmarks de raciocínio com múltiplas imagens e demonstra forte desempenho em tarefas visuais gerais.
Trabalhos recentes que analisam o aprendizado em contexto (ICL, do inglês *in-context learning*) identificaram um amplo conjunto de estratégias que descrevem o comportamento dos modelos em diferentes condições experimentais. Nosso objetivo é unificar essas descobertas ao questionar por que um modelo aprende essas estratégias distintas em primeiro lugar. Especificamente, partimos da observação de que, quando treinado para aprender uma mistura de tarefas, como é comum na literatura, as estratégias aprendidas por um modelo para realizar ICL podem ser capturadas por uma família de preditores bayesianos: um preditor de memorização, que assume um prior discreto sobre o conjunto de tarefas vistas, e um preditor de generalização, onde o prior corresponde à distribuição subjacente das tarefas. Adotando a lente normativa da análise racional, onde o comportamento de um aprendiz é explicado como uma adaptação ótima aos dados dadas as restrições computacionais, desenvolvemos um framework hierárquico bayesiano que prevê quase perfeitamente as previsões de próximo token de Transformers ao longo do treinamento — sem assumir acesso aos seus pesos. Sob esse framework, o pré-treinamento é visto como um processo de atualização da probabilidade posterior de diferentes estratégias, e o comportamento no momento da inferência como uma média ponderada pelas posteriores das previsões dessas estratégias. Nosso framework se baseia em suposições comuns sobre a dinâmica de aprendizado de redes neurais, que explicitam uma troca entre perda e complexidade entre as estratégias candidatas: além de quão bem uma estratégia explica os dados, a preferência do modelo por implementá-la é ditada por sua complexidade. Isso ajuda a explicar fenômenos bem conhecidos do ICL, ao mesmo tempo que oferece previsões novas: por exemplo, mostramos uma tendência superlinear na escala de tempo para a transição de generalização para memorização à medida que a diversidade de tarefas aumenta. No geral, nosso trabalho avança uma explicação e previsão do ICL fundamentada em trocas entre perda e complexidade das estratégias.
O aprendizado multimodal em contexto (ICL) permanece pouco explorado, apesar de seu potencial significativo em domínios como a medicina. Clínicos rotineiramente enfrentam tarefas diversas e especializadas que exigem adaptação a partir de exemplos limitados, como extrair insights de alguns casos relevantes anteriores ou considerar um conjunto restrito de diagnósticos diferenciais. Embora os modelos de linguagem multimodal de grande escala (MLLMs) tenham mostrado avanços na tarefa de resposta a perguntas visuais (VQA) na área médica, sua capacidade de aprender tarefas multimodais a partir do contexto é amplamente desconhecida. Apresentamos o SMMILE, o primeiro benchmark de ICL multimodal orientado por especialistas para tarefas médicas. Onze especialistas médicos curaram problemas, cada um incluindo uma consulta multimodal e exemplos multimodais em contexto como demonstrações de tarefas. O SMMILE abrange 111 problemas (517 tripletos pergunta-imagem-resposta) cobrindo 6 especialidades médicas e 13 modalidades de imagem. Além disso, introduzimos o SMMILE++, uma variante aumentada com 1038 problemas permutados. Uma avaliação abrangente de 15 MLLMs demonstra que a maioria dos modelos exibe capacidade de ICL multimodal moderada a ruim em tarefas médicas. Em avaliações de resposta aberta, o ICL contribui com apenas 8% de melhoria média em relação ao zero-shot no SMMILE e 9,4% no SMMILE++. Observamos uma suscetibilidade a exemplos irrelevantes em contexto: mesmo um único exemplo ruidoso ou irrelevante pode degradar o desempenho em até 9,5%. Além disso, a ordenação dos exemplos exibe um viés de recência, ou seja, posicionar o exemplo mais relevante por último pode levar a melhorias substanciais no desempenho de até 71%. Nossos achados destacam limitações críticas e vieses nos MLLMs atuais ao aprender tarefas médicas multimodais a partir do contexto.
A maioria dos modelos de linguagem enfrenta uma troca fundamental em que capacidades poderosas exigem recursos computacionais substanciais. Nós quebramos essa limitação com o Jan-nano, um modelo de linguagem de 4B parâmetros que redefine a eficiência por meio de uma especialização radical: em vez de tentar saber tudo, ele domina a arte de encontrar qualquer coisa instantaneamente. Ajustado a partir do Qwen3-4B usando nosso novo sistema multiestágio RLVR, que elimina completamente a dependência do treinamento de previsão do próximo token (SFT), o Jan-nano alcança 83,2% no benchmark SimpleQA com integração MCP, enquanto roda em hardware de consumo. Com um comprimento de contexto de 128K, o Jan-nano prova que a inteligência não é sobre escala, mas sobre estratégia.
Apresentamos o Gazal-R1, um modelo de linguagem com 32 bilhões de parâmetros que alcança desempenho de ponta em raciocínio médico, fornecendo explicações transparentes e passo a passo para a tomada de decisões clínicas. Construído com base no Qwen3 32B, nosso modelo demonstra que o treinamento estratégico pode permitir que modelos de tamanho médio superem contrapartes significativamente maiores em domínios especializados. Desenvolvemos um pipeline de treinamento inovador em duas etapas: primeiro, ajuste fino supervisionado em um conjunto de dados cuidadosamente curado de 107.033 exemplos sintéticos de raciocínio médico que ensinam o pensamento clínico estruturado, aprimorado por técnicas avançadas de eficiência paramétrica, incluindo Adaptação de Baixa Classificação com Decomposição de Peso (DoRA) e LoRA com Estabilização de Classificação (rsLoRA); segundo, aprendizado por reforço utilizando Otimização de Política Relativa em Grupo (GRPO) com um sistema de recompensa multicomponente sofisticado que refina precisão, aderência ao formato e qualidade do raciocínio. O Gazal-R1 alcança desempenho excepcional em benchmarks médicos, obtendo 87,1% no MedQA, 81,6% no MMLU Pro (Medical) e 79,6% no PubMedQA, superando modelos até 12 vezes maiores. Além de seus fortes resultados empíricos, este trabalho fornece insights detalhados sobre os desafios de treinar modelos com capacidade de raciocínio em domínios especializados, incluindo problemas com manipulação de recompensas, instabilidade no treinamento e a tensão fundamental entre a recuperação factual e o raciocínio detalhado. Nossa metodologia oferece um framework reproduzível para o desenvolvimento de modelos de linguagem de alta capacidade e específicos para domínios, equilibrando desempenho, eficiência e explicabilidade.
Em muitas indústrias, prever resultados métricos de sistemas complexos é um problema fundamental, impulsionado principalmente por métodos tradicionais de regressão tabular. No entanto, tais métodos enfrentam dificuldades com dados de sistemas complexos no mundo real, como arquivos de configuração ou logs de sistema, onde a engenharia de características muitas vezes é inviável. Propomos a regressão texto-a-texto como uma alternativa geral e escalável. Para prever a eficiência de recursos no Borg, o sistema massivo de agendamento de clusters de computação do Google, um modelo codificador-decodificador de 60 milhões de parâmetros, treinado a partir de inicialização aleatória, alcança uma correlação de rank quase perfeita de 0,99 (0,9 em média) em toda a frota, e um erro quadrático médio 100 vezes menor do que abordagens tabulares. O modelo também se adapta facilmente a novas tarefas com apenas 500 exemplos de poucos disparos e captura as densidades de distribuições complexas de resultados. Estudos de ablação destacam a importância do uso de codificadores, do aumento do comprimento da sequência e da quantificação inerente de incerteza do modelo. Essas descobertas abrem caminho para simuladores universais de resultados do mundo real.
A busca por geração de conteúdo de alta qualidade, eficiente e controlável continua sendo um desafio central na geração de conteúdo por inteligência artificial (AIGC). Embora geradores de uma única etapa, habilitados por técnicas de destilação de difusão, ofereçam excelente qualidade de geração e eficiência computacional, adaptá-los a novas condições de controle—como restrições estruturais, diretrizes semânticas ou entradas externas—representa um desafio significativo. Abordagens convencionais frequentemente exigem modificações computacionalmente caras ao modelo base e subsequente destilação de difusão. Este artigo introduz o Treinamento de Consistência de Ruído (NCT), uma abordagem nova e leve para integrar diretamente novos sinais de controle em geradores de uma única etapa pré-treinados, sem a necessidade de acesso às imagens de treinamento originais ou retreinamento do modelo de difusão base. O NCT opera introduzindo um módulo adaptador e empregando uma perda de consistência de ruído no espaço de ruído do gerador. Essa perda alinha o comportamento de geração do modelo adaptado em ruídos que são condicionalmente dependentes em diferentes graus, implicitamente guiando-o a aderir ao novo controle. Teoricamente, esse objetivo de treinamento pode ser entendido como a minimização da distância distribucional entre o gerador adaptado e a distribuição condicional induzida pelas novas condições. O NCT é modular, eficiente em termos de dados e facilmente implantável, dependendo apenas do gerador de uma única etapa pré-treinado e de um modelo de sinal de controle. Experimentos extensivos demonstram que o NCT alcança geração controlável de última geração em uma única passagem direta, superando métodos existentes baseados em múltiplas etapas e destilação tanto em qualidade de geração quanto em eficiência computacional. O código está disponível em https://github.com/Luo-Yihong/NCT.
Apresentamos o Confucius3-Math, um modelo de linguagem de grande escala de código aberto com 14 bilhões de parâmetros que (1) opera de forma eficiente em uma única GPU de nível consumidor; (2) alcança desempenhos de ponta em uma variedade de tarefas de raciocínio matemático, superando muitos modelos com tamanhos significativamente maiores. Em particular, como parte de nossa missão de aprimorar a educação e a disseminação de conhecimento com IA, o Confucius3-Math é especificamente dedicado ao aprendizado de matemática para estudantes e educadores chineses do ensino fundamental e médio (K-12). Construído por meio de pós-treinamento com aprendizado por reforço em larga escala (RL), o Confucius3-Math está alinhado com o currículo nacional e se destaca na resolução de problemas matemáticos convencionais do K-12 chinês com baixo custo. Neste relatório, compartilhamos nossa receita de desenvolvimento, os desafios que encontramos e as técnicas que desenvolvemos para superá-los. Em particular, introduzimos três inovações técnicas: Regularização de Entropia Direcionada, Recuperação de Amostras Recentes e Ponderação de Dificuldade Específica da Política. Essas inovações abrangem uma nova regularização de entropia, uma política inédita de agendamento de dados e um estimador de vantagem relativa ao grupo aprimorado. Coletivamente, elas estabilizam significativamente o treinamento de RL, melhoram a eficiência dos dados e impulsionam o desempenho. Nosso trabalho demonstra a viabilidade de construir modelos de raciocínio robustos em um domínio específico com baixo custo. Disponibilizamos nosso modelo e código em código aberto em https://github.com/netease-youdao/Confucius3-Math.
O surgimento de técnicas de imagem, como a tomografia de coerência óptica (OCT), e os avanços em aprendizado profundo (DL) permitiram que clínicos e pesquisadores otimizassem a classificação de estágios de doenças retinianas. Uma abordagem popular de DL é o aprendizado auto-supervisionado (SSL), no qual os modelos aprendem a partir de grandes quantidades de dados não rotulados, evitando a custosa anotação manual. O SSL possibilitou o desenvolvimento de modelos de base (FMs), modelos de grande escala que podem ser usados para uma variedade de tarefas subsequentes. No entanto, os FMs existentes para OCT, treinados exclusivamente com dados de imagem, carecem de uma compreensão semântica abrangente e robusta das imagens, como evidenciado por seu desempenho em tarefas subsequentes (especialmente em tarefas complexas), e, portanto, exigem ajuste supervisionado (que pode ser inviável) para melhor se adaptarem a aplicações e populações específicas. Para resolver isso, propomos o RetFiner, um esquema de refinamento SSL visão-linguagem que melhora as representações dos FMs existentes e permite sua adaptação eficiente e direta a populações específicas para um desempenho aprimorado em tarefas subsequentes. Nosso método utiliza um conjunto diversificado de objetivos de treinamento que aproveitam o sinal supervisionado rico encontrado em dados textuais. Testamos o RetFiner nos FMs retinianos RETFound, UrFound e VisionFM, mostrando melhorias significativas no desempenho de sondagem linear em sete tarefas de classificação de OCT altamente diversificadas, com aumentos médios de 5,8, 3,9 e 2,1 pontos percentuais em relação às suas linhas de base, respectivamente. Nosso código e pesos dos modelos estão disponíveis publicamente em https://github.com/ronnief1/RetFiner.
Modelos de Linguagem de Grande Escala modernos, como as séries LLaMA, Qwen e DeepSeek, adotam predominantemente a arquitetura Transformer com Pre-LayerNorm (Pre-LN). Embora sejam estáveis durante o pré-treinamento e escaláveis para tamanhos de modelo maiores, o Pre-LN sofre com um crescimento exponencial na variância das ativações entre as camadas, fazendo com que o caminho residual domine as saídas das subcamadas e limitando a capacidade de aprendizado das camadas mais profundas. Para mitigar esse problema, propomos o Escalonamento de Ativação com Preservação de Gradiente (GPAS), uma técnica simples que pode ser usada em combinação com abordagens existentes. O GPAS funciona reduzindo a escala das ativações intermediárias enquanto mantém seus gradientes inalterados. Isso preserva a informação nas ativações e evita o problema de desaparecimento de gradiente associado à redução de escala do gradiente. Experimentos extensivos em vários tamanhos de modelo, de 71M a 1B, mostram que o GPAS alcança ganhos consistentes de desempenho. Além de aprimorar Transformers com Pre-LN, o GPAS também mostra potencial para melhorar arquiteturas alternativas, como Sandwich-LN e DeepNorm, demonstrando sua versatilidade e potencial para melhorar a dinâmica de treinamento em uma ampla gama de configurações.
O cálculo em tempo de teste emergiu como um paradigma poderoso para melhorar o desempenho de grandes modelos de linguagem (LLMs), onde a geração de múltiplas saídas ou o refinamento de cadeias individuais pode aumentar significativamente a precisão das respostas. No entanto, métodos existentes como Best-of-N, votação majoritária e autorreflexão geralmente aplicam o raciocínio de maneira uniforme entre as entradas, ignorando o fato de que diferentes problemas podem exigir diferentes níveis de profundidade de raciocínio. Neste trabalho, propomos o Raciocínio Fracionado, uma estrutura livre de treinamento e independente de modelo que permite o controle contínuo da intensidade do raciocínio no momento da inferência, indo além das limitações de instruções fixas. Nosso método opera extraindo o vetor latente de direcionamento associado a um raciocínio mais profundo e reaplicando-o com um fator de escala ajustável, permitindo que o modelo adapte seu processo de raciocínio à complexidade de cada entrada. Isso suporta dois modos principais de escalonamento em tempo de teste: (1) melhorar a qualidade da saída em estratégias baseadas em amplitude (por exemplo, Best-of-N, votação majoritária) e (2) aprimorar a correção de cadeias individuais de raciocínio em estratégias baseadas em profundidade (por exemplo, autorreflexão). Experimentos no GSM8K, MATH500 e GPQA demonstram que o Raciocínio Fracionado melhora consistentemente o desempenho em diversas tarefas e modelos de raciocínio.
Aprender a estrutura hierárquica dos dados em modelos de visão e linguagem é um desafio significativo. Trabalhos anteriores tentaram abordar esse desafio empregando o aprendizado de implicação. No entanto, essas abordagens não conseguem modelar explicitamente a natureza transitiva da implicação, que estabelece a relação entre ordem e semântica dentro de um espaço de representação. Neste trabalho, introduzimos os Radial Cross-Modal Embeddings (RCME), um framework que permite a modelagem explícita da implicação com transitividade imposta. Nosso framework proposto otimiza a ordem parcial de conceitos dentro de modelos de visão e linguagem. Ao aproveitar nosso framework, desenvolvemos um modelo base de visão e linguagem hierárquico capaz de representar a hierarquia na Árvore da Vida. Nossos experimentos em tarefas de classificação hierárquica de espécies e recuperação hierárquica demonstram o desempenho aprimorado de nossos modelos em comparação com os modelos state-of-the-art existentes. Nosso código e modelos estão disponíveis em código aberto em https://vishu26.github.io/RCME/index.html.
Apresentamos o TAPAS (Task-based Adaptation and Planning using AgentS), um framework multiagente que integra Modelos de Linguagem de Grande Escala (LLMs) com planejamento simbólico para resolver tarefas complexas sem a necessidade de modelos de ambiente definidos manualmente. O TAPAS emprega agentes especializados baseados em LLMs que colaboram para gerar e adaptar modelos de domínio, estados iniciais e especificações de objetivos conforme necessário, utilizando mecanismos estruturados de chamada de ferramentas. Por meio dessa interação baseada em ferramentas, agentes subsequentes podem solicitar modificações de agentes anteriores, permitindo a adaptação a novos atributos e restrições sem a necessidade de redefinição manual do domínio. Um agente de execução no estilo ReAct (Reason+Act), aliado à tradução de planos em linguagem natural, faz a ponte entre planos gerados dinamicamente e as capacidades de robôs no mundo real. O TAPAS demonstra um desempenho robusto em domínios de planejamento de referência e no ambiente simulado VirtualHome.