Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Kimi-VL, um eficiente modelo de linguagem visual (VLM) de Mistura de Especialistas (MoE) de código aberto que oferece raciocínio multimodal avançado, compreensão de contexto longo e capacidades robustas de agente - tudo isso ativando apenas 2,8 bilhões de parâmetros em seu decodificador de linguagem (Kimi-VL-A3B). O Kimi-VL demonstra um desempenho forte em domínios desafiadores: como um VLM de propósito geral, ele se destaca em tarefas de agente de múltiplas interações (por exemplo, OSWorld), equiparando-se a modelos líderes. Além disso, ele exibe capacidades notáveis em diversas tarefas desafiadoras de linguagem visual, incluindo compreensão de imagens e vídeos de nível universitário, OCR, raciocínio matemático e compreensão de múltiplas imagens. Em avaliações comparativas, ele compete efetivamente com VLMs eficientes de ponta, como GPT-4o-mini, Qwen2.5-VL-7B e Gemma-3-12B-IT, enquanto supera o GPT-4o em vários domínios-chave. O Kimi-VL também avança no processamento de contextos longos e na percepção clara. Com uma janela de contexto estendida de 128K, o Kimi-VL pode processar diversas entradas longas, alcançando pontuações impressionantes de 64,5 no LongVideoBench e 35,1 no MMLongBench-Doc. Seu codificador visual de resolução nativa, MoonViT, permite ainda que ele veja e compreenda entradas visuais de ultra-alta resolução, alcançando 83,2 no InfoVQA e 34,5 no ScreenSpot-Pro, enquanto mantém um custo computacional mais baixo para tarefas comuns. Baseado no Kimi-VL, introduzimos uma variante avançada de pensamento longo: o Kimi-VL-Thinking. Desenvolvido por meio de ajuste fino supervisionado (SFT) de cadeia de pensamento (CoT) longo e aprendizado por reforço (RL), este modelo exibe fortes capacidades de raciocínio de longo horizonte. Ele alcança pontuações de 61,7 no MMMU, 36,8 no MathVision e 71,3 no MathVista, mantendo os compactos 2,8 bilhões de parâmetros ativados do LLM, estabelecendo um novo padrão para modelos eficientes de pensamento multimodal. Código e modelos estão publicamente acessíveis em https://github.com/MoonshotAI/Kimi-VL.
Modelos de Raciocínio de Grande Escala, como o DeepSeek-R1, representam uma mudança fundamental na forma como os LLMs abordam problemas complexos. Em vez de produzir diretamente uma resposta para uma determinada entrada, o DeepSeek-R1 cria cadeias de raciocínio detalhadas e em múltiplos passos, aparentemente "pensando" sobre um problema antes de fornecer uma resposta. Esse processo de raciocínio é disponibilizado publicamente ao usuário, criando oportunidades infinitas para estudar o comportamento de raciocínio do modelo e abrindo o campo da Pensatologia. Partindo de uma taxonomia dos blocos básicos de raciocínio do DeepSeek-R1, nossas análises investigam o impacto e a controlabilidade do comprimento do pensamento, o gerenciamento de contextos longos ou confusos, preocupações culturais e de segurança, e o status do DeepSeek-R1 em relação a fenômenos cognitivos, como o processamento de linguagem semelhante ao humano e a modelagem do mundo. Nossas descobertas traçam um panorama detalhado. Notavelmente, mostramos que o DeepSeek-R1 possui um "ponto ideal" de raciocínio, onde tempo adicional de inferência pode prejudicar o desempenho do modelo. Além disso, identificamos uma tendência do DeepSeek-R1 a ruminar persistentemente sobre formulações de problemas já exploradas, obstruindo uma exploração adicional. Também observamos fortes vulnerabilidades de segurança no DeepSeek-R1 em comparação com sua contraparte não raciocinadora, o que também pode comprometer LLMs alinhados com segurança.
Modelos de Linguagem de Grande Escala (LLMs) baseados em Mistura de Especialistas (MoE) sofrem com caminhos de especialistas severamente subótimos — nosso estudo revela que a seleção ingênua de especialistas aprendida durante o pré-treinamento deixa uma lacuna surpreendente de 10-20% de precisão para melhoria. Motivados por essa observação, desenvolvemos uma nova classe de métodos de otimização em tempo de teste para re-ponderar ou "re-misturar" os especialistas em diferentes camadas de forma conjunta para cada amostra de teste. Como a verdade fundamental da amostra de teste é desconhecida, propomos otimizar um objetivo substituto definido pelos "vizinhos bem-sucedidos" da amostra a partir de um conjunto de referência de amostras. Introduzimos três substitutos e algoritmos baseados em busca de moda, regressão de kernel e a perda média de amostras/tarefas de referência semelhantes. Para reduzir o custo de otimizar caminhos inteiros, aplicamos nossos algoritmos apenas aos pesos de mistura dos especialistas principais em camadas críticas, que apresentam desempenho semelhante, mas economizam computação significativa. Isso resulta na "Otimização Colaborativa de Caminhos de Especialistas Principais em Camadas Críticas (C3PO)". Aplicamos o C3PO a dois LLMs MoE recentes e o avaliamos em seis benchmarks amplamente utilizados. Ele melhora consistentemente o modelo base em 7-15% em precisão e supera baselines amplamente utilizados de aprendizado em tempo de teste, como aprendizado em contexto e ajuste de prompt/prefixo, por uma grande margem. Além disso, o C3PO permite que LLMs MoE com 1-3B parâmetros ativos superem LLMs de 7-9B parâmetros, melhorando assim as vantagens de eficiência do MoE. Nosso estudo de ablação detalhado ainda traz novos insights sobre como alcançar melhorias em tempo de teste em MoE.
Os recentes avanços nos modelos de difusão têm impulsionado significativamente diversas tarefas de geração de imagens. No entanto, a abordagem predominante atual ainda se concentra na construção de modelos específicos para cada tarefa, o que limita a eficiência ao atender a uma ampla gama de necessidades diferentes. Embora os modelos universais tentem superar essa limitação, eles enfrentam desafios críticos, incluindo instruções de tarefas generalizáveis, distribuições de tarefas apropriadas e um design arquitetônico unificado. Para enfrentar esses desafios, propomos o VisualCloze, um framework universal de geração de imagens, que suporta uma ampla variedade de tarefas dentro do domínio, generalização para tarefas não vistas, unificação inédita de múltiplas tarefas e geração reversa. Diferentemente dos métodos existentes que dependem de instruções de tarefas baseadas em linguagem, levando a ambiguidades e fraca generalização, integramos o aprendizado visual em contexto, permitindo que os modelos identifiquem tarefas a partir de demonstrações visuais. Enquanto isso, a esparsidade inerente das distribuições de tarefas visuais dificulta a aprendizagem de conhecimento transferível entre tarefas. Para isso, introduzimos o Graph200K, um conjunto de dados estruturado em grafos que estabelece várias tarefas inter-relacionadas, aumentando a densidade de tarefas e o conhecimento transferível. Além disso, descobrimos que nossa formulação unificada de geração de imagens compartilha um objetivo consistente com o preenchimento de imagens, permitindo-nos aproveitar os fortes priors generativos de modelos pré-treinados de preenchimento sem modificar as arquiteturas.
O avanço do raciocínio em cadeia de pensamento (Chain-of-Thought, CoT) melhorou significativamente as capacidades dos grandes modelos de linguagem (LLMs) e dos grandes modelos visão-linguagem (LVLMs). No entanto, ainda falta um framework de avaliação rigoroso para o raciocínio CoT em vídeos. Os benchmarks atuais de vídeo não avaliam adequadamente o processo de raciocínio nem identificam se as falhas decorrem de deficiências nas capacidades de percepção ou de raciocínio. Portanto, introduzimos o VCR-Bench, um novo benchmark projetado para avaliar de forma abrangente as capacidades de raciocínio CoT em vídeos dos LVLMs. O VCR-Bench compreende 859 vídeos que abrangem uma variedade de conteúdos e durações, juntamente com 1.034 pares de perguntas e respostas de alta qualidade. Cada par é anotado manualmente com uma justificativa CoT passo a passo, onde cada etapa é marcada para indicar sua associação com as capacidades de percepção ou raciocínio. Além disso, projetamos sete dimensões distintas de tarefas e propomos a pontuação CoT para avaliar todo o processo CoT com base nas justificativas CoT marcadas passo a passo. Experimentos extensivos no VCR-Bench destacam limitações substanciais nos LVLMs atuais. Mesmo o modelo de melhor desempenho, o1, alcança apenas 62,8% na pontuação CoT e 56,7% de precisão, enquanto a maioria dos modelos pontua abaixo de 40%. Os experimentos mostram que a maioria dos modelos pontua menos nas etapas de percepção do que nas de raciocínio, revelando o principal gargalo dos LVLMs no processamento de informações espaço-temporais para raciocínio complexo em vídeos. Uma forte correlação positiva entre a pontuação CoT e a precisão confirma a validade do nosso framework de avaliação e reforça o papel crítico do raciocínio CoT na resolução de tarefas complexas de raciocínio em vídeos. Esperamos que o VCR-Bench sirva como um framework de avaliação padronizado e exponha as deficiências reais em tarefas complexas de raciocínio em vídeos.
A capacidade de Seguir Instruções (SI) mede o quão bem os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) entendem exatamente o que os usuários estão dizendo e se estão fazendo isso corretamente. Os dados de treinamento existentes para seguir instruções multimodais são escassos, os benchmarks são simples com instruções atômicas, e as estratégias de avaliação são imprecisas para tarefas que exigem restrições exatas de saída. Para resolver isso, apresentamos o MM-IFEngine, um pipeline eficaz para gerar pares imagem-instrução de alta qualidade. Nosso pipeline MM-IFEngine produz dados de treinamento em grande escala, diversificados e de alta qualidade, o MM-IFInstruct-23k, que é adequado para Ajuste Fino Supervisionado (SFT) e estendido como MM-IFDPO-23k para Otimização de Preferência Direta (DPO). Além disso, introduzimos o MM-IFEval, um benchmark desafiador e diversificado para seguir instruções multimodais que inclui (1) restrições tanto em nível de composição para respostas de saída quanto em nível de percepção vinculadas às imagens de entrada, e (2) um pipeline de avaliação abrangente que incorpora tanto avaliação baseada em regras quanto um modelo de julgamento. Realizamos experimentos de SFT e DPO e demonstramos que o ajuste fino de MLLMs no MM-IFInstruct-23k e MM-IFDPO-23k alcança ganhos notáveis em vários benchmarks de SI, como MM-IFEval (+10,2%), MIA (+7,6%) e IFEval (+12,3%). Os dados completos e o código de avaliação serão disponibilizados em https://github.com/SYuan03/MM-IFEngine.
A construção de modelos de propósito geral que possam perceber o mundo de forma eficaz por meio de sinais multimodais tem sido um objetivo de longa data. As abordagens atuais envolvem a integração de componentes pré-treinados separadamente, como conectar codificadores de visão a LLMs (Large Language Models) e continuar o treinamento multimodal. Embora essas abordagens demonstrem uma eficiência amostral notável, ainda é uma questão em aberto se tais arquiteturas de fusão tardia são inerentemente superiores. Neste trabalho, revisitamos o projeto arquitetônico de modelos multimodais nativos (NMMs)—aqueles treinados desde o início em todas as modalidades—e conduzimos um extenso estudo de leis de escalonamento, abrangendo 457 modelos treinados com diferentes arquiteturas e misturas de treinamento. Nossa investigação revela que não há uma vantagem inerente das arquiteturas de fusão tardia sobre as de fusão precoce, que não dependem de codificadores de imagem. Pelo contrário, a fusão precoce exibe um desempenho mais forte em contagens de parâmetros mais baixas, é mais eficiente para treinar e mais fácil de implantar. Motivados pelo forte desempenho das arquiteturas de fusão precoce, mostramos que a incorporação de Mistura de Especialistas (MoEs) permite que modelos aprendam pesos específicos para cada modalidade, melhorando significativamente o desempenho.
A segmentação amodal de partes 3D—decompor uma forma 3D em partes completas e semanticamente significativas, mesmo quando ocluídas—é uma tarefa desafiadora, porém crucial, para a criação e compreensão de conteúdo 3D. Os métodos existentes de segmentação de partes 3D identificam apenas as superfícies visíveis, limitando sua utilidade. Inspirados pela segmentação amodal 2D, introduzimos essa nova tarefa no domínio 3D e propomos uma abordagem prática em duas etapas, abordando os principais desafios de inferir geometria 3D ocluída, manter a consistência global da forma e lidar com formas diversas com dados de treinamento limitados. Primeiro, aproveitamos a segmentação de partes 3D existente para obter segmentos iniciais e incompletos das partes. Em seguida, introduzimos o HoloPart, um novo modelo baseado em difusão, para completar esses segmentos em partes 3D completas. O HoloPart utiliza uma arquitetura especializada com atenção local para capturar a geometria detalhada das partes e atenção ao contexto global da forma para garantir a consistência geral da forma. Introduzimos novos benchmarks baseados nos conjuntos de dados ABO e PartObjaverse-Tiny e demonstramos que o HoloPart supera significativamente os métodos state-of-the-art de completamento de formas. Ao incorporar o HoloPart com técnicas de segmentação existentes, alcançamos resultados promissores na segmentação amodal de partes 3D, abrindo novas possibilidades para aplicações em edição de geometria, animação e atribuição de materiais.
Neste artigo, apresentamos um método eficaz para aprimorar o raciocínio visual com significativamente menos amostras de treinamento, dependendo exclusivamente da auto-melhoria sem distilação de conhecimento. Nossa principal percepção é que a dificuldade dos dados de treinamento durante o ajuste fino por reforço (RFT) é crucial. Amostras adequadamente desafiadoras podem impulsionar substancialmente as capacidades de raciocínio, mesmo quando o conjunto de dados é pequeno. Apesar de ser intuitivo, o principal desafio permanece em quantificar com precisão a dificuldade das amostras para permitir uma filtragem eficaz dos dados. Para isso, propomos uma nova maneira de reutilizar a Busca em Árvore de Monte Carlo (MCTS) para alcançar esse objetivo. A partir de nossas 70 mil amostras de treinamento de código aberto curadas, introduzimos um método de seleção baseado em MCTS que quantifica a dificuldade das amostras com base no número de iterações necessárias para os VLMs resolverem cada problema. Esse raciocínio explícito passo a passo no MCTS obriga o modelo a pensar por mais tempo e identifica melhor as amostras que são genuinamente desafiadoras. Filtramos e retemos 11 mil amostras para realizar o RFT no Qwen2.5-VL-7B-Instruct, resultando em nosso modelo final, ThinkLite-VL. Os resultados de avaliação em oito benchmarks mostram que o ThinkLite-VL melhora o desempenho médio do Qwen2.5-VL-7B-Instruct em 7%, utilizando apenas 11 mil amostras de treinamento sem distilação de conhecimento. Isso supera significativamente todos os VLMs de raciocínio de nível 7B existentes e nossas linhas de base bastante comparáveis que usam métodos clássicos de seleção, como filtragem baseada em precisão. Notavelmente, no MathVista, o ThinkLite-VL-7B alcança a precisão SoTA de 75,1, superando o Qwen2.5-VL-72B, GPT-4o e O1. Nosso código, dados e modelo estão disponíveis em https://github.com/si0wang/ThinkLite-VL.
Apresentamos o MOSAIC, uma nova estrutura de simulação de rede social de código aberto, onde agentes de linguagem generativa preveem comportamentos dos usuários, como curtir, compartilhar e sinalizar conteúdo. Essa simulação combina agentes de LLM com um grafo social direcionado para analisar comportamentos emergentes de engano e obter uma melhor compreensão de como os usuários determinam a veracidade do conteúdo social online. Ao construir representações de usuários a partir de diversas personas detalhadas, nosso sistema permite simulações multiagente que modelam a disseminação de conteúdo e a dinâmica de engajamento em escala. Dentro dessa estrutura, avaliamos três estratégias diferentes de moderação de conteúdo com a disseminação simulada de desinformação, e descobrimos que elas não apenas mitigam a propagação de conteúdo não factual, mas também aumentam o engajamento dos usuários. Além disso, analisamos as trajetórias de conteúdo popular em nossas simulações e exploramos se o raciocínio articulado dos agentes de simulação para suas interações sociais realmente se alinha com seus padrões coletivos de engajamento. Disponibilizamos nosso software de simulação como código aberto para incentivar mais pesquisas em IA e ciências sociais.
Apesar da evolução existente dos Modelos de Linguagem Multimodais de Grande Escala (MLLMs), uma limitação não negligenciável persiste em sua dificuldade com o enraizamento de texto visual, especialmente em imagens ricas em texto de documentos. Imagens de documentos, como formulários digitalizados e infográficos, destacam desafios críticos devido aos seus layouts complexos e conteúdo textual. No entanto, os benchmarks atuais não abordam totalmente esses desafios, pois se concentram principalmente no enraizamento visual em imagens naturais, em vez de imagens de documentos ricas em texto. Assim, para preencher essa lacuna, introduzimos o TRIG, uma nova tarefa com um conjunto de dados de instruções recém-projetado para avaliar e melhorar as capacidades de Enraizamento de Imagens Ricas em Texto (TRIG) dos MLLMs em questionários de documentos. Especificamente, propomos um pipeline de interação OCR-LLM-humano para criar 800 pares de perguntas e respostas anotados manualmente como um benchmark e um conjunto de treinamento em larga escala de 90% de dados sintéticos baseados em quatro conjuntos de dados diversos. Uma avaliação abrangente de vários MLLMs em nosso benchmark proposto expõe limitações substanciais em sua capacidade de enraizamento em imagens ricas em texto. Além disso, propomos dois métodos TRIG simples e eficazes, baseados respectivamente em ajuste fino de instruções gerais e incorporação eficiente plug-and-play. Ao ajustar finamente os MLLMs em nosso conjunto de dados sintético, eles melhoram promissoramente as capacidades de raciocínio espacial e enraizamento.
As abordagens existentes para controlar modelos de difusão de texto para imagem, embora poderosas, não permitem um controle explícito centrado em objetos 3D, como o controle preciso da orientação do objeto. Neste trabalho, abordamos o problema do controle de orientação de múltiplos objetos em modelos de difusão de texto para imagem. Isso possibilita a geração de cenas diversas com múltiplos objetos, com controle preciso da orientação de cada objeto. A ideia principal é condicionar o modelo de difusão com um conjunto de tokens de bússola conscientes da orientação, um para cada objeto, juntamente com tokens de texto. Uma rede codificadora leve prevê esses tokens de bússola, tomando a orientação do objeto como entrada. O modelo é treinado em um conjunto de dados sintético de cenas geradas proceduralmente, cada uma contendo um ou dois ativos 3D em um fundo simples. No entanto, o treinamento direto dessa estrutura resulta em um controle de orientação deficiente, além de levar ao entrelaçamento entre os objetos. Para mitigar isso, intervimos no processo de geração e restringimos os mapas de atenção cruzada de cada token de bússola às regiões correspondentes do objeto. O modelo treinado é capaz de alcançar um controle de orientação preciso para a) objetos complexos não vistos durante o treinamento e b) cenas com múltiplos objetos contendo mais de dois objetos, indicando fortes capacidades de generalização. Além disso, quando combinado com métodos de personalização, nosso método controla com precisão a orientação do novo objeto em diversos contextos. Nosso método alcança o estado da arte em controle de orientação e alinhamento de texto, quantificado com avaliações extensivas e um estudo com usuários.
Apresentamos o Geo4D, um método para reutilizar modelos de difusão de vídeo na reconstrução monocular 3D de cenas dinâmicas. Ao aproveitar o forte conhecimento dinâmico capturado por esses modelos de vídeo, o Geo4D pode ser treinado usando apenas dados sintéticos, enquanto generaliza bem para dados reais de maneira zero-shot. O Geo4D prevê várias modalidades geométricas complementares, nomeadamente mapas de pontos, profundidade e raios. Ele utiliza um novo algoritmo de alinhamento multimodal para alinhar e fundir essas modalidades, bem como múltiplas janelas deslizantes, durante a inferência, obtendo assim uma reconstrução 4D robusta e precisa de vídeos longos. Experimentos extensivos em vários benchmarks mostram que o Geo4D supera significativamente os métodos state-of-the-art de estimativa de profundidade em vídeo, incluindo métodos recentes como o MonST3R, que também são projetados para lidar com cenas dinâmicas.
Rastrear Qualquer Ponto (TAP, do inglês Tracking Any Point) em um vídeo é um problema desafiador de visão computacional com diversas aplicações demonstradas em robótica, edição de vídeo e reconstrução 3D. Os métodos existentes para TAP dependem fortemente de vieses indutivos e heurísticas específicas e complexas para rastreamento, o que limita sua generalidade e potencial de escalabilidade. Para enfrentar esses desafios, apresentamos o TAPNext, uma nova abordagem que formula o TAP como uma decodificação sequencial de tokens mascarados. Nosso modelo é causal, realiza o rastreamento de forma puramente online e elimina os vieses indutivos específicos para rastreamento. Isso permite que o TAPNext opere com latência mínima e dispense a necessidade de janelamento temporal, exigido por muitos rastreadores state-of-the-art. Apesar de sua simplicidade, o TAPNext alcança um novo estado da arte em desempenho de rastreamento, tanto entre rastreadores online quanto offline. Por fim, apresentamos evidências de que muitas heurísticas amplamente utilizadas em rastreamento emergem naturalmente no TAPNext por meio de treinamento end-to-end.
Os atuais detectores monoculares 3D são limitados pela diversidade e escala restritas dos conjuntos de dados do mundo real. Embora a ampliação de dados certamente ajude, é particularmente difícil gerar dados ampliados realistas e conscientes da cena para ambientes externos. A maioria das abordagens atuais para geração de dados sintéticos se concentra na aparência realista dos objetos por meio de técnicas de renderização aprimoradas. No entanto, mostramos que onde e como os objetos são posicionados é igualmente crucial para treinar detectores monoculares 3D eficazes. O principal obstáculo reside em determinar automaticamente parâmetros realistas de posicionamento de objetos - incluindo posição, dimensões e alinhamento direcional - ao introduzir objetos sintéticos em cenas reais. Para resolver isso, introduzimos o MonoPlace3D, um sistema inovador que considera o conteúdo 3D da cena para criar ampliações realistas. Especificamente, dada uma cena de fundo, o MonoPlace3D aprende uma distribuição sobre caixas delimitadoras 3D plausíveis. Posteriormente, renderizamos objetos realistas e os posicionamos de acordo com as localizações amostradas da distribuição aprendida. Nossa avaliação abrangente em dois conjuntos de dados padrão, KITTI e NuScenes, demonstra que o MonoPlace3D melhora significativamente a precisão de vários detectores monoculares 3D existentes, ao mesmo tempo em que é altamente eficiente em termos de dados.
Apresentamos o Pangu Ultra, um Modelo de Linguagem de Grande Escala (LLM) com 135 bilhões de parâmetros e módulos densos de Transformer treinados em Unidades de Processamento Neural (NPUs) Ascend. Embora o campo de LLMs tenha testemunhado avanços sem precedentes na ampliação da escala e capacidade desses modelos nos últimos anos, o treinamento de um modelo em tão grande escala ainda envolve desafios significativos de otimização e sistema. Para estabilizar o processo de treinamento, propomos a normalização sanduíche escalonada em profundidade, que elimina efetivamente picos de perda durante o treinamento de modelos profundos. Pré-treinamos nosso modelo com 13,2 trilhões de tokens diversos e de alta qualidade e aprimoramos ainda mais suas capacidades de raciocínio durante o pós-treinamento. Para realizar esse treinamento em larga escala de forma eficiente, utilizamos 8.192 NPUs Ascend com uma série de otimizações de sistema. Avaliações em diversos benchmarks indicam que o Pangu Ultra avança significativamente as capacidades de estado da arte de LLMs densos, como o Llama 405B e o Mistral Large 2, e até mesmo alcança resultados competitivos com o DeepSeek-R1, cuja estrutura de modelo esparsa contém muito mais parâmetros. Nossa exploração demonstra que as NPUs Ascend são capazes de treinar modelos densos com mais de 100 bilhões de parâmetros de forma eficiente e eficaz. Nosso modelo e sistema estarão disponíveis para nossos clientes comerciais.