Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

DeepSeek-R1: Incentivizando a Capacidade de Raciocínio em LLMs via Aprendizado por Reforço
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

ByDeepSeek-AI, Daya Guo, Dejian Yang, Haowei Zhang, Junxiao Song, Ruoyu Zhang, Runxin Xu, Qihao Zhu, Shirong Ma, Peiyi Wang, Xiao Bi, Xiaokang Zhang, Xingkai Yu, Yu Wu, Z. F. Wu, Zhibin Gou, Zhihong Shao, Zhuoshu Li, Ziyi Gao, Aixin Liu, Bing Xue, Bingxuan Wang, Bochao Wu, Bei Feng, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenyu Zhang, Chong Ruan, Damai Dai, Deli Chen, Dongjie Ji, Erhang Li, Fangyun Lin, Fucong Dai, Fuli Luo, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Han Bao, Hanwei Xu, Haocheng Wang, Honghui Ding, Huajian Xin, Huazuo Gao, Hui Qu, Hui Li, Jianzhong Guo, Jiashi Li, Jiawei Wang, Jingchang Chen, Jingyang Yuan, Junjie Qiu, Junlong Li, J. L. Cai, Jiaqi Ni, Jian Liang, Jin Chen, Kai Dong, Kai Hu, Kaige Gao, Kang Guan, Kexin Huang, Kuai Yu, Lean Wang, Lecong Zhang, Liang Zhao, Litong Wang, Liyue Zhang, Lei Xu, Leyi Xia, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Meng Li, Miaojun Wang, Mingming Li, Ning Tian, Panpan Huang, Peng Zhang, Qiancheng Wang, Qinyu Chen, Qiushi Du, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, R. J. Chen, R. L. Jin, Ruyi Chen, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shengfeng Ye, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, S. S. Li, Shuang Zhou, Shaoqing Wu, Shengfeng Ye, Tao Yun, Tian Pei, Tianyu Sun, T. Wang, Wangding Zeng, Wanjia Zhao, Wen Liu, Wenfeng Liang, Wenjun Gao, Wenqin Yu, Wentao Zhang, W. L. Xiao, Wei An, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xinyu Yang, Xinyuan Li, Xuecheng Su, Xuheng Lin, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xiaowen Sun, Xiaoxiang Wang, Xinnan Song, Xinyi Zhou, Xianzu Wang, Xinxia Shan, Y. K. Li, Y. Q. Wang, Y. X. Wei, Yang Zhang, Yanhong Xu, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Yu, Yichao Zhang, Yifan Shi, Yiliang Xiong, Ying He, Yishi Piao, Yisong Wang, Yixuan Tan, Yiyang Ma, Yiyuan Liu, Yongqiang Guo, Yuan Ou, Yuduan Wang, Yue Gong, Yuheng Zou, Yujia He, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Y. X. Zhu, Yanhong Xu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Ying Tang, Yukun Zha, Yuting Yan, Z. Z. Ren, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhicheng Ma, Zhigang Yan, Zhiyu Wu, Zihui Gu, Zijia Zhu, Zijun Liu, Zilin Li, Ziwei Xie, Ziyang Song, Zizheng Pan, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Zhen Zhang

438

Apresentamos nossos modelos de raciocínio de primeira geração, DeepSeek-R1-Zero e DeepSeek-R1. O DeepSeek-R1-Zero, um modelo treinado por aprendizado por reforço em larga escala (RL) sem ajuste fino supervisionado (SFT) como um passo preliminar, demonstra notáveis capacidades de raciocínio. Através do RL, o DeepSeek-R1-Zero naturalmente surge com inúmeros comportamentos de raciocínio poderosos e intrigantes. No entanto, ele enfrenta desafios como baixa legibilidade e mistura de idiomas. Para lidar com essas questões e aprimorar ainda mais o desempenho de raciocínio, apresentamos o DeepSeek-R1, que incorpora treinamento em múltiplos estágios e dados de inicialização a frio antes do RL. O DeepSeek-R1 alcança desempenho comparável ao OpenAI-o1-1217 em tarefas de raciocínio. Para apoiar a comunidade de pesquisa, disponibilizamos o DeepSeek-R1-Zero, DeepSeek-R1 e seis modelos densos (1,5B, 7B, 8B, 14B, 32B, 70B) destilados do DeepSeek-R1 com base em Qwen e Llama.

Kimi k1.5: Dimensionamento do Aprendizado por Reforço com LLMs
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

ByKimi Team, Angang Du, Bofei Gao, Bowei Xing, Changjiu Jiang, Cheng Chen, Cheng Li, Chenjun Xiao, Chenzhuang Du, Chonghua Liao, Chuning Tang, Congcong Wang, Dehao Zhang, Enming Yuan, Enzhe Lu, Fengxiang Tang, Flood Sung, Guangda Wei, Guokun Lai, Haiqing Guo, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haotian Yao, Haotian Zhao, Haoyu Lu, Haoze Li, Haozhen Yu, Hongcheng Gao, Huabin Zheng, Huan Yuan, Jia Chen, Jianhang Guo, Jianlin Su, Jianzhou Wang, Jie Zhao, Jin Zhang, Jingyuan Liu, Junjie Yan, Junyan Wu, Lidong Shi, Ling Ye, Longhui Yu, Mengnan Dong, Neo Zhang, Ningchen Ma, Qiwei Pan, Qucheng Gong, Shaowei Liu, Shengling Ma, Shupeng Wei, Sihan Cao, Siying Huang, Tao Jiang, Weihao Gao, Weimin Xiong, Weiran He, Weixiao Huang, Wenhao Wu, Wenyang He, Xianghui Wei, Xianqing Jia, Xingzhe Wu, Xinran Xu, Xinxing Zu, Xinyu Zhou, Xuehai Pan, Y. Charles, Yang Li, Yangyang Hu, Yangyang Liu, Yanru Chen, Yejie Wang, Yibo Liu, Yidao Qin, Yifeng Liu, Ying Yang, Yiping Bao, Yulun Du, Yuxin Wu, Yuzhi Wang, Zaida Zhou, Zhaoji Wang, Zhaowei Li, Zhen Zhu, Zheng Zhang, Zhexu Wang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Ziyao Xu, Zonghan Yang

126

O pré-treinamento do modelo de linguagem com previsão da próxima ficha se mostrou eficaz para aumentar a capacidade computacional, mas é limitado pela quantidade de dados de treinamento disponíveis. A escalabilidade do aprendizado por reforço (RL) desbloqueia um novo eixo para a melhoria contínua da inteligência artificial, com a promessa de que grandes modelos de linguagem (LLMs) podem aumentar seus dados de treinamento aprendendo a explorar com recompensas. No entanto, trabalhos publicados anteriormente não produziram resultados competitivos. Diante disso, relatamos a prática de treinamento do Kimi k1.5, nosso mais recente LLM multimodal treinado com RL, incluindo suas técnicas de treinamento de RL, receitas de dados multimodais e otimização de infraestrutura. A escalabilidade de contexto longo e métodos aprimorados de otimização de políticas são ingredientes-chave de nossa abordagem, que estabelece um framework de RL simplista e eficaz sem depender de técnicas mais complexas, como busca em árvore de Monte Carlo, funções de valor e modelos de recompensa de processo. Notavelmente, nosso sistema alcança desempenho de raciocínio de ponta em diversos benchmarks e modalidades - por exemplo, 77,5 no AIME, 96,2 no MATH 500, percentil 94 no Codeforces, 74,9 no MathVista - equiparando-se ao o1 da OpenAI. Além disso, apresentamos métodos eficazes long2short que utilizam técnicas long-CoT para melhorar modelos short-CoT, resultando em resultados de raciocínio short-CoT de ponta - por exemplo, 60,8 no AIME, 94,6 no MATH500, 47,3 no LiveCodeBench - superando modelos short-CoT existentes como GPT-4o e Claude Sonnet 3.5 por uma grande margem (até +550%).

VideoLLaMA 3: Modelos Fundamentais Multimodais de Fronteira para Compreensão de Imagens e Vídeos
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

Neste artigo, propomos o VideoLLaMA3, um modelo de base multimodal mais avançado para compreensão de imagens e vídeos. A filosofia central de design do VideoLLaMA3 é centrada na visão. O significado de "centrado na visão" é duplo: o paradigma de treinamento centrado na visão e o design do framework centrado na visão. A principal ideia do nosso paradigma de treinamento centrado na visão é que dados de alta qualidade imagem-texto são cruciais tanto para a compreensão de imagens quanto de vídeos. Em vez de preparar conjuntos massivos de dados vídeo-texto, focamos na construção de conjuntos de dados imagem-texto em larga escala e de alta qualidade. O VideoLLaMA3 possui quatro etapas de treinamento: 1) etapa de alinhamento centrada na visão, que aquece o codificador e projetor de visão; 2) etapa de pré-treinamento visão-linguagem, que ajusta conjuntamente o codificador de visão, projetor e LLM com dados imagem-texto em larga escala cobrindo vários tipos (incluindo imagens de cena, documentos, gráficos) e dados apenas de texto. 3) etapa de ajuste fino multi-tarefa, que incorpora dados SFT imagem-texto para tarefas downstream e dados vídeo-texto para estabelecer uma base para a compreensão de vídeos. 4) ajuste fino centrado no vídeo, que melhora ainda mais a capacidade do modelo na compreensão de vídeos. Quanto ao design do framework, para capturar melhor detalhes refinados em imagens, o codificador de visão pré-treinado é adaptado para codificar imagens de tamanhos variados em tokens de visão com números correspondentes, em vez de um número fixo de tokens. Para entradas de vídeo, reduzimos o número de tokens de visão de acordo com sua similaridade para que a representação de vídeos seja mais precisa e compacta. Beneficiando-se dos designs centrados na visão, o VideoLLaMA3 alcança desempenhos convincentes em benchmarks de compreensão de imagens e vídeos.

FilmAgent: Um Framework Multiagente para Automação de Filmes de Ponta a Ponta em Espaços Virtuais 3D
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

A produção de filmes virtuais requer processos de tomada de decisão intricados, incluindo escrita de roteiro, cinematografia virtual e posicionamento preciso de atores e ações. Motivado pelos avanços recentes em tomada de decisão automatizada com sociedades baseadas em agentes de linguagem, este artigo apresenta o FilmAgent, um novo framework colaborativo multiagente baseado em LLM para automação de filmes de ponta a ponta em nossos espaços virtuais 3D construídos. O FilmAgent simula vários papéis da equipe, incluindo diretores, roteiristas, atores e cinematógrafos, e abrange etapas-chave de um fluxo de trabalho de produção de filmes: (1) o desenvolvimento da ideia transforma ideias geradas em brainstorming em esboços de histórias estruturadas; (2) a escrita de roteiro elabora diálogos e ações dos personagens para cada cena; (3) a cinematografia determina as configurações de câmera para cada tomada. Uma equipe de agentes colabora por meio de feedbacks iterativos e revisões, verificando assim roteiros intermediários e reduzindo alucinações. Avaliamos os vídeos gerados em 15 ideias e 4 aspectos-chave. A avaliação humana mostra que o FilmAgent supera todos os baselines em todos os aspectos e pontua em média 3,98 de 5, demonstrando a viabilidade da colaboração multiagente na produção cinematográfica. Uma análise adicional revela que o FilmAgent, apesar de utilizar o modelo GPT-4o menos avançado, supera o agente único o1, mostrando a vantagem de um sistema multiagente bem coordenado. Por fim, discutimos as forças e fraquezas complementares do modelo texto-vídeo da OpenAI, Sora, e do nosso FilmAgent na produção cinematográfica.

Otimização de Preferência em Tempo de Teste: Alinhamento On-the-Fly via Feedback Textual Iterativo
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

Os grandes modelos de linguagem (LLMs) demonstram um desempenho impressionante, mas carecem da flexibilidade para se adaptar rapidamente às preferências humanas sem a necessidade de reentrenamento. Neste trabalho, apresentamos a Otimização de Preferência em Tempo de Teste (TPO), um framework que alinha as saídas do LLM com as preferências humanas durante a inferência, eliminando a necessidade de atualizar os parâmetros do modelo. Em vez de depender apenas de recompensas numéricas, o TPO traduz sinais de recompensa em críticas textuais e as utiliza como recompensas textuais para refinar iterativamente sua resposta. Avaliações em benchmarks que abrangem o seguimento de instruções, alinhamento de preferências, segurança e matemática revelam que o TPO melhora progressivamente o alinhamento com as preferências humanas. Notavelmente, após apenas alguns passos de TPO, o modelo inicialmente desalinhado Llama-3.1-70B-SFT pode superar o modelo alinhado correspondente, Llama-3.1-70B-Instruct. Além disso, o TPO escala eficientemente tanto com a largura quanto com a profundidade da busca durante a inferência. Através de estudos de caso, ilustramos como o TPO explora a capacidade inata do LLM de interpretar e agir com base nos sinais de recompensa. Nossas descobertas estabelecem o TPO como uma alternativa prática e leve para a otimização de preferências em tempo de teste, alcançando alinhamento em tempo real. Nosso código está disponível publicamente em https://github.com/yafuly/TPO.

Modelos de Autonomia de Especialistas
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

Os modelos de Mixture-of-Experts (MoE) geralmente utilizam um roteador para atribuir tokens a módulos de especialistas específicos, ativando apenas parâmetros parciais e frequentemente superando modelos densos. Argumentamos que a separação entre a tomada de decisão do roteador e a execução dos especialistas é uma questão crítica, porém negligenciada, levando a uma seleção de especialistas subótima e a uma aprendizagem ineficaz. Para resolver isso, propomos Autonomia-dos-Especialistas (AoE), um novo paradigma de MoE no qual os especialistas selecionam autonomamente a si mesmos para processar entradas. O AoE é baseado na percepção de que um especialista está ciente de sua própria capacidade de processar efetivamente um token, uma consciência refletida na escala de suas ativações internas. No AoE, os roteadores são removidos; em vez disso, os especialistas pré-calculam ativações internas para as entradas e são classificados com base em suas normas de ativação. Apenas os especialistas mais bem classificados prosseguem com a passagem direta, enquanto os outros são abortados. O custo de pré-calcular ativações é reduzido por meio de uma fatorização de peso de baixa classificação. Esta abordagem de autoavaliação-seguida-de-comparação-com-parceiros garante uma seleção de especialistas aprimorada e uma aprendizagem eficaz. Pré-treinamos modelos de linguagem com 700M até 4B de parâmetros, demonstrando que o AoE supera os modelos tradicionais de MoE com eficiência comparável.

O1-Pruner: Ajuste Fino de Harmonização de Comprimento para Poda de Raciocínio semelhante a O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

Recentemente, modelos de linguagem de longo pensamento, como o O1 da OpenAI, adotam processos de raciocínio estendidos semelhantes à forma como os humanos ponderam sobre problemas complexos. Esse paradigma de raciocínio melhora significativamente as habilidades de resolução de problemas do modelo e tem alcançado resultados promissores. No entanto, o processo de raciocínio de longo pensamento leva a um aumento substancial no tempo de inferência. Um desafio urgente é reduzir o overhead de inferência dos modelos de linguagem de longo pensamento, garantindo ao mesmo tempo a precisão. Neste artigo, demonstramos experimentalmente que os modelos de raciocínio de longo pensamento têm dificuldade em alocar efetivamente orçamentos de tokens com base na dificuldade do problema e nas redundâncias de raciocínio. Para lidar com isso, propomos o Ajuste Fino de Harmonização de Comprimento (O1-Pruner), com o objetivo de minimizar o overhead de raciocínio mantendo a precisão. Este método eficaz de ajuste fino primeiro estima o desempenho de base do modelo de linguagem de longo pensamento por meio de pré-amostragem e, em seguida, utiliza o ajuste fino no estilo RL para incentivar o modelo a gerar processos de raciocínio mais curtos sob restrições de precisão. Isso permite que o modelo alcance um raciocínio eficiente com menor redundância, mantendo a precisão. Experimentos em diversos benchmarks de raciocínio matemático mostram que o O1-Pruner não apenas reduz significativamente o overhead de inferência, mas também alcança maior precisão, oferecendo uma solução inovadora e promissora para esse desafio. Nosso código estará disponível em breve em https://github.com/StarDewXXX/O1-Pruner

RM em pares: Realizar amostragem Melhor-de-N com Torneio de Eliminação.
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

A amostragem Best-of-N (BoN), uma estratégia comum para a escalabilidade em tempo de teste de Modelos de Linguagem Grandes (LLMs), depende de modelos de recompensa para selecionar a melhor solução candidata de várias gerações. No entanto, os modelos de recompensa tradicionais frequentemente atribuem pontuações arbitrárias e inconsistentes, limitando sua eficácia. Para lidar com isso, propomos um Modelo de Recompensa em Pares (Pairwise RM) combinado com um torneio de eliminação para a amostragem BoN. Em vez de atribuir pontuações absolutas, dado um problema matemático, o Pairwise RM avalia simultaneamente a correção de duas soluções candidatas. Essa abordagem elimina a necessidade de pontuações arbitrárias e possibilita a validação cruzada das soluções por meio de comparação paralela. No torneio de eliminação, o Pairwise RM realiza comparações em pares entre as soluções candidatas e elimina as incorretas de forma iterativa. Construímos \ourdataset, um conjunto de dados em larga escala com 443 mil comparações em pares derivadas do NumiaMath e anotadas usando gemini-1.5-flash, e treinamos o Pairwise RM por meio de ajuste fino supervisionado. Experimentos no MATH-500 e no Olympiad Bench demonstram melhorias significativas em relação aos modelos de recompensa discriminativos tradicionais. E uma melhoria relativa de 40\% a 60\% é alcançada nos 50\% dos problemas desafiadores mais difíceis.

Fast3R: Rumo à Reconstrução 3D de 1000+ Imagens em uma Única Passagem Avançada
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

A reconstrução 3D multi-visão continua a ser um desafio central em visão computacional, especialmente em aplicações que exigem representações precisas e escaláveis em diversas perspectivas. Métodos líderes atuais, como o DUSt3R, empregam uma abordagem fundamentalmente em pares, processando imagens aos pares e necessitando de procedimentos custosos de alinhamento global para reconstruir a partir de múltiplas visões. Neste trabalho, propomos Reconstrução 3D Rápida (Fast3R), uma generalização multi-visão inovadora do DUSt3R que alcança uma reconstrução 3D eficiente e escalável ao processar muitas visões em paralelo. A arquitetura baseada em Transformer do Fast3R encaminha N imagens em uma única passagem direta, evitando a necessidade de alinhamento iterativo. Através de experimentos extensivos em estimativa de pose de câmera e reconstrução 3D, o Fast3R demonstra um desempenho de ponta, com melhorias significativas na velocidade de inferência e na redução da acumulação de erros. Esses resultados estabelecem o Fast3R como uma alternativa robusta para aplicações multi-visão, oferecendo escalabilidade aprimorada sem comprometer a precisão da reconstrução.

IntellAgent: Um Framework Multiagente para Avaliar Sistemas de IA Conversacional
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar

Os Modelos de Linguagem de Grande Escala (LLMs) estão transformando a inteligência artificial, evoluindo para sistemas orientados a tarefas capazes de planejamento e execução autônomos. Uma das principais aplicações dos LLMs é em sistemas de IA conversacional, os quais devem navegar em diálogos de múltiplas etapas, integrar APIs específicas de domínio e aderir a restrições de políticas rígidas. No entanto, avaliar esses agentes continua sendo um desafio significativo, uma vez que métodos tradicionais falham em capturar a complexidade e variabilidade das interações do mundo real. Apresentamos o IntellAgent, um framework multiagente escalável e de código aberto projetado para avaliar abrangente sistemas de IA conversacional. O IntellAgent automatiza a criação de diversos benchmarks sintéticos, combinando modelagem de gráficos orientada por políticas, geração realista de eventos e simulações interativas de usuário-agente. Esta abordagem inovadora fornece diagnósticos detalhados, abordando as limitações de benchmarks estáticos e manualmente curados com métricas de granularidade grosseira. O IntellAgent representa uma mudança de paradigma na avaliação de IA conversacional. Ao simular cenários realistas e multi-políticas em diferentes níveis de complexidade, o IntellAgent captura a interação sutil das capacidades do agente e das restrições de políticas. Ao contrário de métodos tradicionais, ele emprega um modelo de política baseado em gráficos para representar relacionamentos, probabilidades e complexidades de interações de políticas, possibilitando diagnósticos altamente detalhados. O IntellAgent também identifica lacunas críticas de desempenho, oferecendo insights acionáveis para otimização direcionada. Seu design modular e de código aberto suporta a integração perfeita de novos domínios, políticas e APIs, promovendo a reprodutibilidade e a colaboração comunitária. Nossas descobertas demonstram que o IntellAgent serve como um framework eficaz para avançar a IA conversacional ao abordar desafios na ponte entre pesquisa e implantação. O framework está disponível em https://github.com/plurai-ai/intellagent.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

DeepSeek-R1: Incentivizando a Capacidade de Raciocínio em LLMs via Aprendizado por Reforço
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Jan 22

438

Kimi k1.5: Dimensionamento do Aprendizado por Reforço com LLMs
Kimi k1.5: Scaling Reinforcement Learning with LLMs

Jan 22

126

VideoLLaMA 3: Modelos Fundamentais Multimodais de Fronteira para Compreensão de Imagens e Vídeos
VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Jan 22

ByBoqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao

FilmAgent: Um Framework Multiagente para Automação de Filmes de Ponta a Ponta em Espaços Virtuais 3D
FilmAgent: A Multi-Agent Framework for End-to-End Film Automation in Virtual 3D Spaces

Jan 22

ByZhenran Xu, Longyue Wang, Jifang Wang, Zhouyi Li, Senbao Shi, Xue Yang, Yiyu Wang, Baotian Hu, Jun Yu, Min Zhang

Otimização de Preferência em Tempo de Teste: Alinhamento On-the-Fly via Feedback Textual Iterativo
Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Jan 22

ByYafu Li, Xuyang Hu, Xiaoye Qu, Linjie Li, Yu Cheng

Modelos de Autonomia de Especialistas
Autonomy-of-Experts Models

Jan 22

ByAng Lv, Ruobing Xie, Yining Qian, Songhao Wu, Xingwu Sun, Zhanhui Kang, Di Wang, Rui Yan

O1-Pruner: Ajuste Fino de Harmonização de Comprimento para Poda de Raciocínio semelhante a O1
O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning

Jan 22

ByHaotian Luo, Li Shen, Haiying He, Yibo Wang, Shiwei Liu, Wei Li, Naiqiang Tan, Xiaochun Cao, Dacheng Tao

RM em pares: Realizar amostragem Melhor-de-N com Torneio de Eliminação.
Pairwise RM: Perform Best-of-N Sampling with Knockout Tournament

Jan 22

ByYantao Liu, Zijun Yao, Rui Min, Yixin Cao, Lei Hou, Juanzi Li

Fast3R: Rumo à Reconstrução 3D de 1000+ Imagens em uma Única Passagem Avançada
Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass

Jan 23

ByJianing Yang, Alexander Sax, Kevin J. Liang, Mikael Henaff, Hao Tang, Ang Cao, Joyce Chai, Franziska Meier, Matt Feiszli

IntellAgent: Um Framework Multiagente para Avaliar Sistemas de IA Conversacional
IntellAgent: A Multi-Agent Framework for Evaluating Conversational AI Systems

Jan 19

ByElad Levi, Ilan Kadar