Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos nossos modelos de raciocínio de primeira geração, DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, um modelo treinado por aprendizado por reforço em larga escala (RL) sem ajuste fino supervisionado (SFT) como um passo preliminar, demonstra notáveis capacidades de raciocínio. Através do RL, o DeepSeek-R1-Zero naturalmente surge com inúmeros comportamentos de raciocínio poderosos e intrigantes. No entanto, ele enfrenta desafios como baixa legibilidade e mistura de idiomas. Para lidar com essas questões e aprimorar ainda mais o desempenho de raciocínio, apresentamos o DeepSeek-R1, que incorpora treinamento em múltiplos estágios e dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1-1217 em tarefas de raciocínio. Para apoiar a comunidade de pesquisa, disponibilizamos o DeepSeek-R1-Zero, DeepSeek-R1 e seis modelos densos (1,5B, 7B, 8B, 14B, 32B, 70B) destilados do DeepSeek-R1 com base em Qwen e Llama.
O pré-treinamento do modelo de linguagem com previsão da próxima ficha se mostrou eficaz para aumentar a capacidade computacional, mas é limitado pela quantidade de dados de treinamento disponíveis. A escalabilidade do aprendizado por reforço (RL) desbloqueia um novo eixo para a melhoria contínua da inteligência artificial, com a promessa de que grandes modelos de linguagem (LLMs) podem aumentar seus dados de treinamento aprendendo a explorar com recompensas. No entanto, trabalhos publicados anteriormente não produziram resultados competitivos. Diante disso, relatamos a prática de treinamento do Kimi k1.5, nosso mais recente LLM multimodal treinado com RL, incluindo suas técnicas de treinamento de RL, receitas de dados multimodais e otimização de infraestrutura. A escalabilidade de contexto longo e métodos aprimorados de otimização de políticas são ingredientes-chave de nossa abordagem, que estabelece um framework de RL simplista e eficaz sem depender de técnicas mais complexas, como busca em árvore de Monte Carlo, funções de valor e modelos de recompensa de processo. Notavelmente, nosso sistema alcança desempenho de raciocínio de ponta em diversos benchmarks e modalidades - por exemplo, 77,5 no AIME, 96,2 no MATH 500, percentil 94 no Codeforces, 74,9 no MathVista - equiparando-se ao o1 da OpenAI. Além disso, apresentamos métodos eficazes long2short que utilizam técnicas long-CoT para melhorar modelos short-CoT, resultando em resultados de raciocínio short-CoT de ponta - por exemplo, 60,8 no AIME, 94,6 no MATH500, 47,3 no LiveCodeBench - superando modelos short-CoT existentes como GPT-4o e Claude Sonnet 3.5 por uma grande margem (até +550%).
Neste artigo, propomos o VideoLLaMA3, um modelo de base multimodal mais avançado para compreensão de imagens e vídeos. A filosofia central de design do VideoLLaMA3 é centrada na visão. O significado de "centrado na visão" é duplo: o paradigma de treinamento centrado na visão e o design do framework centrado na visão. A principal ideia do nosso paradigma de treinamento centrado na visão é que dados de alta qualidade imagem-texto são cruciais tanto para a compreensão de imagens quanto de vídeos. Em vez de preparar conjuntos massivos de dados vídeo-texto, focamos na construção de conjuntos de dados imagem-texto em larga escala e de alta qualidade. O VideoLLaMA3 possui quatro etapas de treinamento: 1) etapa de alinhamento centrada na visão, que aquece o codificador e projetor de visão; 2) etapa de pré-treinamento visão-linguagem, que ajusta conjuntamente o codificador de visão, projetor e LLM com dados imagem-texto em larga escala cobrindo vários tipos (incluindo imagens de cena, documentos, gráficos) e dados apenas de texto. 3) etapa de ajuste fino multi-tarefa, que incorpora dados SFT imagem-texto para tarefas downstream e dados vídeo-texto para estabelecer uma base para a compreensão de vídeos. 4) ajuste fino centrado no vídeo, que melhora ainda mais a capacidade do modelo na compreensão de vídeos. Quanto ao design do framework, para capturar melhor detalhes refinados em imagens, o codificador de visão pré-treinado é adaptado para codificar imagens de tamanhos variados em tokens de visão com números correspondentes, em vez de um número fixo de tokens. Para entradas de vídeo, reduzimos o número de tokens de visão de acordo com sua similaridade para que a representação de vídeos seja mais precisa e compacta. Beneficiando-se dos designs centrados na visão, o VideoLLaMA3 alcança desempenhos convincentes em benchmarks de compreensão de imagens e vídeos.
A produção de filmes virtuais requer processos de tomada de decisão intricados, incluindo escrita de roteiro, cinematografia virtual e posicionamento preciso de atores e ações. Motivado pelos avanços recentes em tomada de decisão automatizada com sociedades baseadas em agentes de linguagem, este artigo apresenta o FilmAgent, um novo framework colaborativo multiagente baseado em LLM para automação de filmes de ponta a ponta em nossos espaços virtuais 3D construídos. O FilmAgent simula vários papéis da equipe, incluindo diretores, roteiristas, atores e cinematógrafos, e abrange etapas-chave de um fluxo de trabalho de produção de filmes: (1) o desenvolvimento da ideia transforma ideias geradas em brainstorming em esboços de histórias estruturadas; (2) a escrita de roteiro elabora diálogos e ações dos personagens para cada cena; (3) a cinematografia determina as configurações de câmera para cada tomada. Uma equipe de agentes colabora por meio de feedbacks iterativos e revisões, verificando assim roteiros intermediários e reduzindo alucinações. Avaliamos os vídeos gerados em 15 ideias e 4 aspectos-chave. A avaliação humana mostra que o FilmAgent supera todos os baselines em todos os aspectos e pontua em média 3,98 de 5, demonstrando a viabilidade da colaboração multiagente na produção cinematográfica. Uma análise adicional revela que o FilmAgent, apesar de utilizar o modelo GPT-4o menos avançado, supera o agente único o1, mostrando a vantagem de um sistema multiagente bem coordenado. Por fim, discutimos as forças e fraquezas complementares do modelo texto-vídeo da OpenAI, Sora, e do nosso FilmAgent na produção cinematográfica.
Os grandes modelos de linguagem (LLMs) demonstram um desempenho impressionante, mas carecem da flexibilidade para se adaptar rapidamente às preferências humanas sem a necessidade de reentrenamento. Neste trabalho, apresentamos a Otimização de Preferência em Tempo de Teste (TPO), um framework que alinha as saídas do LLM com as preferências humanas durante a inferência, eliminando a necessidade de atualizar os parâmetros do modelo. Em vez de depender apenas de recompensas numéricas, o TPO traduz sinais de recompensa em críticas textuais e as utiliza como recompensas textuais para refinar iterativamente sua resposta. Avaliações em benchmarks que abrangem o seguimento de instruções, alinhamento de preferências, segurança e matemática revelam que o TPO melhora progressivamente o alinhamento com as preferências humanas. Notavelmente, após apenas alguns passos de TPO, o modelo inicialmente desalinhado Llama-3.1-70B-SFT pode superar o modelo alinhado correspondente, Llama-3.1-70B-Instruct. Além disso, o TPO escala eficientemente tanto com a largura quanto com a profundidade da busca durante a inferência. Através de estudos de caso, ilustramos como o TPO explora a capacidade inata do LLM de interpretar e agir com base nos sinais de recompensa. Nossas descobertas estabelecem o TPO como uma alternativa prática e leve para a otimização de preferências em tempo de teste, alcançando alinhamento em tempo real. Nosso código está disponível publicamente em https://github.com/yafuly/TPO.
Os modelos de Mixture-of-Experts (MoE) geralmente utilizam um roteador para atribuir tokens a módulos de especialistas específicos, ativando apenas parâmetros parciais e frequentemente superando modelos densos. Argumentamos que a separação entre a tomada de decisão do roteador e a execução dos especialistas é uma questão crítica, porém negligenciada, levando a uma seleção de especialistas subótima e a uma aprendizagem ineficaz. Para resolver isso, propomos Autonomia-dos-Especialistas (AoE), um novo paradigma de MoE no qual os especialistas selecionam autonomamente a si mesmos para processar entradas. O AoE é baseado na percepção de que um especialista está ciente de sua própria capacidade de processar efetivamente um token, uma consciência refletida na escala de suas ativações internas. No AoE, os roteadores são removidos; em vez disso, os especialistas pré-calculam ativações internas para as entradas e são classificados com base em suas normas de ativação. Apenas os especialistas mais bem classificados prosseguem com a passagem direta, enquanto os outros são abortados. O custo de pré-calcular ativações é reduzido por meio de uma fatorização de peso de baixa classificação. Esta abordagem de autoavaliação-seguida-de-comparação-com-parceiros garante uma seleção de especialistas aprimorada e uma aprendizagem eficaz. Pré-treinamos modelos de linguagem com 700M até 4B de parâmetros, demonstrando que o AoE supera os modelos tradicionais de MoE com eficiência comparável.
Recentemente, modelos de linguagem de longo pensamento, como o O1 da OpenAI, adotam processos de raciocínio estendidos semelhantes à forma como os humanos ponderam sobre problemas complexos. Esse paradigma de raciocínio melhora significativamente as habilidades de resolução de problemas do modelo e tem alcançado resultados promissores. No entanto, o processo de raciocínio de longo pensamento leva a um aumento substancial no tempo de inferência. Um desafio urgente é reduzir o overhead de inferência dos modelos de linguagem de longo pensamento, garantindo ao mesmo tempo a precisão. Neste artigo, demonstramos experimentalmente que os modelos de raciocínio de longo pensamento têm dificuldade em alocar efetivamente orçamentos de tokens com base na dificuldade do problema e nas redundâncias de raciocínio. Para lidar com isso, propomos o Ajuste Fino de Harmonização de Comprimento (O1-Pruner), com o objetivo de minimizar o overhead de raciocínio mantendo a precisão. Este método eficaz de ajuste fino primeiro estima o desempenho de base do modelo de linguagem de longo pensamento por meio de pré-amostragem e, em seguida, utiliza o ajuste fino no estilo RL para incentivar o modelo a gerar processos de raciocínio mais curtos sob restrições de precisão. Isso permite que o modelo alcance um raciocínio eficiente com menor redundância, mantendo a precisão. Experimentos em diversos benchmarks de raciocínio matemático mostram que o O1-Pruner não apenas reduz significativamente o overhead de inferência, mas também alcança maior precisão, oferecendo uma solução inovadora e promissora para esse desafio. Nosso código estará disponível em breve em https://github.com/StarDewXXX/O1-Pruner
A amostragem Best-of-N (BoN), uma estratégia comum para a escalabilidade em tempo de teste de Modelos de Linguagem Grandes (LLMs), depende de modelos de recompensa para selecionar a melhor solução candidata de várias gerações. No entanto, os modelos de recompensa tradicionais frequentemente atribuem pontuações arbitrárias e inconsistentes, limitando sua eficácia. Para lidar com isso, propomos um Modelo de Recompensa em Pares (Pairwise RM) combinado com um torneio de eliminação para a amostragem BoN. Em vez de atribuir pontuações absolutas, dado um problema matemático, o Pairwise RM avalia simultaneamente a correção de duas soluções candidatas. Essa abordagem elimina a necessidade de pontuações arbitrárias e possibilita a validação cruzada das soluções por meio de comparação paralela. No torneio de eliminação, o Pairwise RM realiza comparações em pares entre as soluções candidatas e elimina as incorretas de forma iterativa. Construímos \ourdataset, um conjunto de dados em larga escala com 443 mil comparações em pares derivadas do NumiaMath e anotadas usando gemini-1.5-flash, e treinamos o Pairwise RM por meio de ajuste fino supervisionado. Experimentos no MATH-500 e no Olympiad Bench demonstram melhorias significativas em relação aos modelos de recompensa discriminativos tradicionais. E uma melhoria relativa de 40\% a 60\% é alcançada nos 50\% dos problemas desafiadores mais difíceis.
A reconstrução 3D multi-visão continua a ser um desafio central em visão computacional, especialmente em aplicações que exigem representações precisas e escaláveis em diversas perspectivas. Métodos líderes atuais, como o DUSt3R, empregam uma abordagem fundamentalmente em pares, processando imagens aos pares e necessitando de procedimentos custosos de alinhamento global para reconstruir a partir de múltiplas visões. Neste trabalho, propomos Reconstrução 3D Rápida (Fast3R), uma generalização multi-visão inovadora do DUSt3R que alcança uma reconstrução 3D eficiente e escalável ao processar muitas visões em paralelo. A arquitetura baseada em Transformer do Fast3R encaminha N imagens em uma única passagem direta, evitando a necessidade de alinhamento iterativo. Através de experimentos extensivos em estimativa de pose de câmera e reconstrução 3D, o Fast3R demonstra um desempenho de ponta, com melhorias significativas na velocidade de inferência e na redução da acumulação de erros. Esses resultados estabelecem o Fast3R como uma alternativa robusta para aplicações multi-visão, oferecendo escalabilidade aprimorada sem comprometer a precisão da reconstrução.
Os Modelos de Linguagem de Grande Escala (LLMs) estão transformando a inteligência artificial, evoluindo para sistemas orientados a tarefas capazes de planejamento e execução autônomos. Uma das principais aplicações dos LLMs é em sistemas de IA conversacional, os quais devem navegar em diálogos de múltiplas etapas, integrar APIs específicas de domínio e aderir a restrições de políticas rígidas. No entanto, avaliar esses agentes continua sendo um desafio significativo, uma vez que métodos tradicionais falham em capturar a complexidade e variabilidade das interações do mundo real. Apresentamos o IntellAgent, um framework multiagente escalável e de código aberto projetado para avaliar abrangente sistemas de IA conversacional. O IntellAgent automatiza a criação de diversos benchmarks sintéticos, combinando modelagem de gráficos orientada por políticas, geração realista de eventos e simulações interativas de usuário-agente. Esta abordagem inovadora fornece diagnósticos detalhados, abordando as limitações de benchmarks estáticos e manualmente curados com métricas de granularidade grosseira. O IntellAgent representa uma mudança de paradigma na avaliação de IA conversacional. Ao simular cenários realistas e multi-políticas em diferentes níveis de complexidade, o IntellAgent captura a interação sutil das capacidades do agente e das restrições de políticas. Ao contrário de métodos tradicionais, ele emprega um modelo de política baseado em gráficos para representar relacionamentos, probabilidades e complexidades de interações de políticas, possibilitando diagnósticos altamente detalhados. O IntellAgent também identifica lacunas críticas de desempenho, oferecendo insights acionáveis para otimização direcionada. Seu design modular e de código aberto suporta a integração perfeita de novos domínios, políticas e APIs, promovendo a reprodutibilidade e a colaboração comunitária. Nossas descobertas demonstram que o IntellAgent serve como um framework eficaz para avançar a IA conversacional ao abordar desafios na ponte entre pesquisa e implantação. O framework está disponível em https://github.com/plurai-ai/intellagent.