Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Em Direção à Compreensão dos Movimentos da Câmera em Qualquer Vídeo
Towards Understanding Camera Motions in Any Video

Apr 21

ByZhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan

155

Apresentamos o CameraBench, um conjunto de dados em larga escala e um benchmark projetado para avaliar e aprimorar a compreensão do movimento da câmera. O CameraBench consiste em aproximadamente 3.000 vídeos diversos da internet, anotados por especialistas por meio de um rigoroso processo de controle de qualidade em múltiplas etapas. Uma de nossas contribuições é uma taxonomia de primitivas de movimento da câmera, desenvolvida em colaboração com cineastas. Descobrimos, por exemplo, que alguns movimentos como "seguir" (ou rastreamento) exigem a compreensão do conteúdo da cena, como objetos em movimento. Realizamos um estudo em larga escala com humanos para quantificar o desempenho da anotação humana, revelando que a expertise no domínio e o treinamento baseado em tutoriais podem melhorar significativamente a precisão. Por exemplo, um iniciante pode confundir zoom-in (uma mudança de parâmetros intrínsecos) com a translação para frente (uma mudança de parâmetros extrínsecos), mas pode ser treinado para diferenciar os dois. Utilizando o CameraBench, avaliamos modelos de Structure-from-Motion (SfM) e modelos de Vídeo-Linguagem (VLMs), descobrindo que os modelos SfM têm dificuldade em capturar primitivas semânticas que dependem do conteúdo da cena, enquanto os VLMs lutam para capturar primitivas geométricas que exigem uma estimativa precisa de trajetórias. Em seguida, ajustamos finamente um VLM generativo no CameraBench para alcançar o melhor dos dois mundos e demonstramos suas aplicações, incluindo legendagem aumentada por movimento, resposta a perguntas em vídeo e recuperação de vídeo-texto. Esperamos que nossa taxonomia, benchmark e tutoriais impulsionem esforços futuros em direção ao objetivo final de compreender os movimentos da câmera em qualquer vídeo.

Skywork R1V2: Aprendizado por Reforço Híbrido Multimodal para Raciocínio
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

Apr 23

ByChris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou

Apresentamos o Skywork R1V2, um modelo de raciocínio multimodal de próxima geração e um grande avanço em relação ao seu antecessor, o Skywork R1V. No cerne do R1V2, introduzimos um paradigma híbrido de aprendizagem por reforço que harmoniza a orientação de modelos de recompensa com estratégias baseadas em regras, abordando assim o desafio de longa data de equilibrar capacidades de raciocínio sofisticadas com generalização ampla. Para aprimorar ainda mais a eficiência do treinamento, propomos o mecanismo de Buffer de Amostras Seletivas (SSB, na sigla em inglês), que efetivamente contorna o dilema das "Vantagens Desaparecidas" inerente à Otimização de Política Relativa em Grupo (GRPO, na sigla em inglês), priorizando amostras de alto valor ao longo do processo de otimização. Notavelmente, observamos que sinais excessivos de reforço podem induzir alucinações visuais—um fenômeno que monitoramos e mitigamos sistematicamente por meio de limiares de recompensa calibrados durante o processo de treinamento. Resultados empíricos confirmam a capacidade excepcional do R1V2, com desempenhos líderes em benchmarks, como 62,6 no OlympiadBench, 79,0 no AIME2024, 63,6 no LiveCodeBench e 74,0 no MMMU. Esses resultados destacam a superioridade do R1V2 sobre os modelos de código aberto existentes e demonstram um progresso significativo no fechamento da lacuna de desempenho em relação aos sistemas proprietários de ponta, incluindo o Gemini 2.5 e o OpenAI o4-mini. Os pesos do modelo Skywork R1V2 foram disponibilizados publicamente para promover abertura e reprodutibilidade em https://huggingface.co/Skywork/Skywork-R1V2-38B.

BitNet v2: Ativações Nativas de 4 bits com Transformação de Hadamard para LLMs de 1 bit
BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

Apr 25

ByHongyu Wang, Shuming Ma, Furu Wei

A implantação eficiente de modelos de linguagem de grande escala (LLMs) de 1 bit é prejudicada por outliers de ativação, que complicam a quantização para larguras de bits baixas. Apresentamos o BitNet v2, uma nova estrutura que permite a quantização nativa de ativações de 4 bits para LLMs de 1 bit. Para lidar com outliers nas ativações da rede de atenção e feed-forward, propomos o H-BitLinear, um módulo que aplica uma transformação de Hadamard online antes da quantização da ativação. Essa transformação suaviza distribuições de ativação abruptas em formas mais semelhantes a Gaussianas, adequadas para representação de baixo bit. Experimentos mostram que o BitNet v2 treinado do zero com ativações de 8 bits iguala o desempenho do BitNet b1.58. Crucialmente, o BitNet v2 alcança degradação mínima de desempenho quando treinado com ativações nativas de 4 bits, reduzindo significativamente a pegada de memória e o custo computacional para inferência em lote.

VideoVista-CulturalLingo: Horizontes de 360° - Conectando Culturas, Idiomas e Domínios na Compreensão de Vídeos
VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

Apr 23

ByXinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang

Avaliar as capacidades de compreensão de vídeo dos sistemas de IA multimodal pode medir efetivamente suas habilidades de entendimento e raciocínio. A maioria dos benchmarks de avaliação de vídeo é limitada a um único idioma, tipicamente o inglês, e predominantemente apresenta vídeos enraizados em contextos culturais ocidentais. Neste artigo, apresentamos o VideoVista-CulturalLingo, o primeiro benchmark de avaliação de vídeo projetado para superar as divisões culturais, linguísticas e de domínio na compreensão de vídeo. Nosso trabalho difere dos benchmarks existentes das seguintes maneiras: 1) Diversidade cultural, incorporando culturas da China, América do Norte e Europa; 2) Multilinguismo, com perguntas apresentadas em chinês e inglês — dois dos idiomas mais falados; e 3) Amplo domínio, com vídeos provenientes de centenas de domínios criados por humanos. O VideoVista-CulturalLingo contém 1.389 vídeos e 3.134 pares de perguntas e respostas, e avaliamos 24 modelos grandes de vídeo recentes, de código aberto ou proprietários. A partir dos resultados dos experimentos, observamos que: 1) Os modelos existentes têm desempenho pior em perguntas centradas na cultura chinesa em comparação com as centradas na cultura ocidental, especialmente aquelas relacionadas à história chinesa; 2) Os modelos de código aberto atuais ainda apresentam limitações no entendimento temporal, particularmente na tarefa de Localização de Eventos, alcançando uma pontuação máxima de apenas 45,2%; 3) Os modelos principais demonstram um forte desempenho em perguntas científicas gerais, enquanto os modelos de código aberto apresentam desempenho fraco em matemática.

Relatório Técnico do Kimi-Audio
Kimi-Audio Technical Report

Apr 25

ByKimiTeam, Ding Ding, Zeqian Ju, Yichong Leng, Songxiang Liu, Tong Liu, Zeyu Shang, Kai Shen, Wei Song, Xu Tan, Heyi Tang, Zhengtao Wang, Chu Wei, Yifei Xin, Xinran Xu, Jianwei Yu, Yutao Zhang, Xinyu Zhou, Y. Charles, Jun Chen, Yanru Chen, Yulun Du, Weiran He, Zhenxing Hu, Guokun Lai, Qingcheng Li, Yangyang Liu, Weidong Sun, Jianzhou Wang, Yuzhi Wang, Yuefeng Wu, Yuxin Wu, Dongchao Yang, Hao Yang, Ying Yang, Zhilin Yang, Aoxiong Yin, Ruibin Yuan, Yutong Zhang, Zaida Zhou

Apresentamos o Kimi-Audio, um modelo de base de áudio de código aberto que se destaca na compreensão, geração e conversação de áudio. Detalhamos as práticas na construção do Kimi-Audio, incluindo arquitetura do modelo, curadoria de dados, receita de treinamento, implantação de inferência e avaliação. Especificamente, utilizamos um tokenizador de áudio de 12,5 Hz, projetamos uma nova arquitetura baseada em LLM com características contínuas como entrada e tokens discretos como saída, e desenvolvemos um detokenizador de streaming em blocos baseado em correspondência de fluxo. Curamos um conjunto de dados de pré-treinamento que consiste em mais de 13 milhões de horas de dados de áudio, abrangendo uma ampla gama de modalidades, incluindo fala, som e música, e construímos um pipeline para criar dados pós-treinamento de alta qualidade e diversificados. Inicializado a partir de um LLM pré-treinado, o Kimi-Audio é continuamente pré-treinado em dados de áudio e texto com várias tarefas cuidadosamente projetadas, e então ajustado para suportar uma variedade de tarefas relacionadas a áudio. Avaliações extensivas mostram que o Kimi-Audio alcança desempenho de ponta em uma série de benchmarks de áudio, incluindo reconhecimento de fala, compreensão de áudio, resposta a perguntas de áudio e conversação de fala. Disponibilizamos os códigos, checkpoints do modelo, bem como os kits de ferramentas de avaliação em https://github.com/MoonshotAI/Kimi-Audio.

Os Grandes Modelos de Linguagem Podem Auxiliar na Análise de Linguagem Multimodal? MMLA: Um Benchmark Abrangente
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

Apr 23

ByHanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang

A análise multimodal de linguagem é um campo em rápida evolução que aproveita múltiplas modalidades para aprimorar a compreensão da semântica de alto nível subjacente às expressões conversacionais humanas. Apesar de sua importância, poucas pesquisas investigaram a capacidade dos modelos de linguagem multimodal de grande escala (MLLMs) em compreender a semântica em nível cognitivo. Neste artigo, apresentamos o MMLA, um benchmark abrangente projetado especificamente para abordar essa lacuna. O MMLA compreende mais de 61 mil expressões multimodais extraídas de cenários encenados e do mundo real, abrangendo seis dimensões principais da semântica multimodal: intenção, emoção, ato dialógico, sentimento, estilo de fala e comportamento comunicativo. Avaliamos oito ramificações principais de LLMs e MLLMs utilizando três métodos: inferência zero-shot, ajuste fino supervisionado e ajuste por instrução. Experimentos extensivos revelam que mesmo modelos ajustados alcançam apenas cerca de 60% a 70% de precisão, destacando as limitações dos MLLMs atuais na compreensão da linguagem humana complexa. Acreditamos que o MMLA servirá como uma base sólida para explorar o potencial dos modelos de linguagem de grande escala na análise multimodal de linguagem e fornecerá recursos valiosos para avançar esse campo. Os conjuntos de dados e o código estão disponíveis em código aberto em https://github.com/thuiar/MMLA.

Otimização de LLMs para o Italiano: Reduzindo a Fertilidade de Tokens e Aumentando a Eficiência por meio da Adaptação do Vocabulário
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation

Apr 23

ByLuca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli

O número de modelos de linguagem grandes (LLMs) pré-treinados está aumentando constantemente, embora a maioria seja projetada predominantemente para o idioma inglês. Embora os LLMs de última geração possam lidar com outros idiomas, devido à contaminação linguística ou a algum grau de dados de pré-treinamento multilíngue, eles não são otimizados para idiomas não ingleses, resultando em codificação ineficiente (alta "fertilidade" de tokens) e velocidade de inferência mais lenta. Neste trabalho, comparamos minuciosamente uma variedade de técnicas de adaptação de vocabulário para otimizar LLMs em inglês para o idioma italiano e propomos a Adaptação de Vocabulário por Alinhamento Semântico (SAVA), um método novo que aproveita o mapeamento neural para substituição de vocabulário. O SAVA alcança desempenho competitivo em várias tarefas subsequentes, aprimorando estratégias de alinhamento fundamentadas. Adaptamos dois LLMs: Mistral-7b-v0.1, reduzindo a fertilidade de tokens em 25%, e Llama-3.1-8B, otimizando o vocabulário e reduzindo o número de parâmetros em 1 bilhão. Mostramos que, após a adaptação do vocabulário, esses modelos podem recuperar seu desempenho com uma etapa relativamente limitada de treinamento contínuo no idioma alvo. Por fim, testamos as capacidades dos modelos adaptados em várias tarefas de múltipla escolha e generativas.

Mesmo Pequenos Raciocinadores Devem Citar Suas Fontes: Apresentando a Família de Modelos Pleias-RAG
Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family

Apr 25

ByPierre-Carl Langlais, Pavel Chizhov, Mattia Nee, Carlos Rosas Hinostroza, Matthieu Delsart, Irène Girard, Othman Hicheur, Anastasia Stasenko, Ivan P. Yamshchikov

Apresentamos uma nova geração de modelos de raciocínio compactos para RAG, busca e sumarização de fontes. Pleias-RAG-350m e Pleias-RAG-1B são pré-treinados em um grande conjunto de dados sintéticos que emula a recuperação de uma ampla variedade de fontes abertas multilíngues do Common Corpus. Eles oferecem suporte nativo para citação e fundamentação com citações literais e reintegram múltiplas funcionalidades associadas a fluxos de trabalho RAG, como roteamento de consultas, reformulação de consultas e reclassificação de fontes. Pleias-RAG-350m e Pleias-RAG-1B superam modelos de linguagem pequenos (SLMs) com menos de 4 bilhões de parâmetros em benchmarks RAG padronizados (HotPotQA, 2wiki) e são competitivos com modelos maiores populares, incluindo Qwen-2.5-7B, Llama-3.1-8B e Gemma-3-4B. Eles são os únicos SLMs até o momento que mantêm um desempenho RAG consistente em línguas europeias líderes e garantem a fundamentação sistemática de referências para declarações. Devido ao seu tamanho e facilidade de implantação em infraestruturas limitadas, além de maior factualidade por design, esses modelos desbloqueiam uma variedade de novos casos de uso para IA generativa.

A Fronteira Esparsa: Compensações da Atenção Esparsa em Transformers de Grande Escala
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

Apr 24

ByPiotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti

A atenção esparsa oferece uma estratégia promissora para estender as capacidades de contexto longo em LLMs baseados em Transformers, mas sua viabilidade, seus trade-offs entre eficiência e precisão, e estudos sistemáticos de escalonamento permanecem inexplorados. Para abordar essa lacuna, realizamos uma comparação cuidadosa de métodos de atenção esparsa sem treinamento em diferentes escalas de modelos, comprimentos de sequência e níveis de esparsidade em uma coleção diversificada de tarefas de sequência longa — incluindo novas que dependem de linguagem natural, mas permanecem controláveis e fáceis de avaliar. Com base em nossos experimentos, relatamos uma série de descobertas-chave: 1) Uma análise isoFLOPS revela que, para sequências muito longas, modelos maiores e altamente esparsos são preferíveis a modelos menores e densos. 2) O nível de esparsidade alcançável enquanto se garante estatisticamente a preservação da precisão é maior durante a decodificação do que no preenchimento, e correlaciona-se com o tamanho do modelo no primeiro caso. 3) Não há uma estratégia clara que funcione melhor em todas as tarefas e fases, com diferentes unidades de esparsificação ou adaptabilidade de orçamento necessárias para diferentes cenários. Mesmo níveis moderados de esparsidade frequentemente resultam em degradação significativa de desempenho em pelo menos uma tarefa, destacando que a atenção esparsa não é uma solução universal. 4) Introduzimos e validamos novas leis de escalonamento especificamente adaptadas para atenção esparsa, fornecendo evidências de que nossas descobertas provavelmente se manterão válidas além do escopo de nossos experimentos. Através desses insights, demonstramos que a atenção esparsa é uma ferramenta essencial para aprimorar as capacidades de LLMs baseados em Transformers para processar sequências mais longas, mas requer uma avaliação cuidadosa dos trade-offs para aplicações sensíveis ao desempenho.

Geração de Vídeo Orientada por Sujeito via Separação de Identidade e Movimento
Subject-driven Video Generation via Disentangled Identity and Motion

Apr 23

ByDaneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo

Propomos treinar um modelo de geração de vídeo personalizado orientado por sujeito, desacoplando o aprendizado específico do sujeito da dinâmica temporal em configuração zero-shot, sem ajustes adicionais. Um método tradicional para personalização de vídeo que não requer ajustes frequentemente depende de grandes conjuntos de dados de vídeo anotados, que são computacionalmente caros e exigem extensa anotação. Em contraste com a abordagem anterior, introduzimos o uso de um conjunto de dados de personalização de imagem diretamente no treinamento de modelos de personalização de vídeo, fatorizando a personalização de vídeo em dois aspectos: (1) injeção de identidade por meio de um conjunto de dados de personalização de imagem e (2) preservação da modelagem temporal com um pequeno conjunto de vídeos não anotados por meio do método de treinamento de imagem para vídeo. Além disso, empregamos o descarte aleatório de tokens de imagem com inicialização aleatória de imagem durante o ajuste fino de imagem para vídeo para mitigar o problema de copiar e colar. Para aprimorar ainda mais o aprendizado, introduzimos a alternância estocástica durante a otimização conjunta de características específicas do sujeito e temporais, mitigando o esquecimento catastrófico. Nosso método alcança forte consistência do sujeito e escalabilidade, superando os modelos existentes de personalização de vídeo em configurações zero-shot, demonstrando a eficácia de nossa estrutura.

DianJin-R1: Avaliação e Aprimoramento do Raciocínio Financeiro em Modelos de Linguagem de Grande Escala
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

Apr 22

ByJie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang

O raciocínio eficaz continua sendo um desafio central para os grandes modelos de linguagem (LLMs) no domínio financeiro, onde as tarefas frequentemente exigem conhecimento específico do setor, cálculos numéricos precisos e estrita aderência às regras de conformidade. Propomos o DianJin-R1, um framework aprimorado para raciocínio projetado para enfrentar esses desafios por meio de supervisão aumentada por raciocínio e aprendizado por reforço. Central à nossa abordagem é o DianJin-R1-Data, um conjunto de dados de alta qualidade construído a partir do CFLUE, FinQA e um corpus proprietário de conformidade (Chinese Compliance Check, CCC), combinando diversos cenários de raciocínio financeiro com anotações verificadas. Nossos modelos, DianJin-R1-7B e DianJin-R1-32B, são ajustados a partir do Qwen2.5-7B-Instruct e Qwen2.5-32B-Instruct usando um formato estruturado que gera tanto etapas de raciocínio quanto respostas finais. Para refinar ainda mais a qualidade do raciocínio, aplicamos o Group Relative Policy Optimization (GRPO), um método de aprendizado por reforço que incorpora sinais de recompensa dupla: um que incentiva saídas estruturadas e outro que recompensa a correção das respostas. Avaliamos nossos modelos em cinco benchmarks: três conjuntos de dados financeiros (CFLUE, FinQA e CCC) e dois benchmarks de raciocínio geral (MATH-500 e GPQA-Diamond). Os resultados experimentais mostram que os modelos DianJin-R1 consistentemente superam suas contrapartes sem aprimoramento de raciocínio, especialmente em tarefas financeiras complexas. Além disso, no conjunto de dados real CCC, nossos modelos de raciocínio de chamada única igualam ou até superam o desempenho de sistemas multiagentes que exigem um custo computacional significativamente maior. Esses achados demonstram a eficácia do DianJin-R1 em aprimorar o raciocínio financeiro por meio de supervisão estruturada e aprendizado alinhado a recompensas, oferecendo uma solução escalável e prática para aplicações do mundo real.

DC-SAM: Segmentação em Contexto de Qualquer Coisa em Imagens e Vídeos via Dupla Consistência
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

Apr 16

ByMengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang

Dado um único exemplo rotulado, a segmentação em contexto visa segmentar objetos correspondentes. Esse cenário, conhecido como segmentação one-shot no aprendizado few-shot, explora a capacidade de generalização do modelo de segmentação e tem sido aplicado a diversas tarefas de visão, incluindo compreensão de cena e edição de imagens/vídeos. Embora os recentes Segment Anything Models (SAM) tenham alcançado resultados de ponta em segmentação interativa, essas abordagens não são diretamente aplicáveis à segmentação em contexto. Neste trabalho, propomos o método Dual Consistency SAM (DC-SAM), baseado em prompt-tuning, para adaptar o SAM e o SAM2 à segmentação em contexto de imagens e vídeos. Nossas principais ideias são aprimorar as características do codificador de prompts do SAM na segmentação, fornecendo prompts visuais de alta qualidade. Ao gerar uma máscara prévia, fundimos as características do SAM para melhor alinhar o codificador de prompts. Em seguida, projetamos uma atenção cruzada consistente em ciclo sobre as características fundidas e os prompts visuais iniciais. Depois, fornecemos um design de ramificação dupla, utilizando prompts positivos e negativos discriminativos no codificador de prompts. Além disso, projetamos uma estratégia simples de treinamento de máscara-tubo para adotar nosso método de consistência dupla no tubo de máscara. Embora o DC-SAM proposto seja principalmente projetado para imagens, ele pode ser estendido de forma contínua ao domínio de vídeos com o suporte do SAM2. Dada a ausência de segmentação em contexto no domínio de vídeos, curamos e construímos manualmente o primeiro benchmark a partir de conjuntos de dados existentes de segmentação de vídeos, denominado In-Context Video Object Segmentation (IC-VOS), para melhor avaliar a capacidade em contexto do modelo. Experimentos extensivos demonstram que nosso método alcança 55,5 (+1,4) mIoU no COCO-20i, 73,0 (+1,1) mIoU no PASCAL-5i e uma pontuação J&F de 71,52 no benchmark IC-VOS proposto. Nosso código-fonte e benchmark estão disponíveis em https://github.com/zaplm/DC-SAM.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Em Direção à Compreensão dos Movimentos da Câmera em Qualquer Vídeo
Towards Understanding Camera Motions in Any Video

Apr 21

ByZhiqiu Lin, Siyuan Cen, Daniel Jiang, Jay Karhade, Hewei Wang, Chancharik Mitra, Tiffany Ling, Yuhan Huang, Sifan Liu, Mingyu Chen, Rushikesh Zawar, Xue Bai, Yilun Du, Chuang Gan, Deva Ramanan

155

Skywork R1V2: Aprendizado por Reforço Híbrido Multimodal para Raciocínio
Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

Apr 23

ByChris, Yichen Wei, Yi Peng, Xiaokun Wang, Weijie Qiu, Wei Shen, Tianyidan Xie, Jiangbo Pei, Jianhao Zhang, Yunzhuo Hao, Xuchen Song, Yang Liu, Yahui Zhou

BitNet v2: Ativações Nativas de 4 bits com Transformação de Hadamard para LLMs de 1 bit
BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

Apr 25

ByHongyu Wang, Shuming Ma, Furu Wei

VideoVista-CulturalLingo: Horizontes de 360° - Conectando Culturas, Idiomas e Domínios na Compreensão de Vídeos
VideoVista-CulturalLingo: 360^circ Horizons-Bridging Cultures, Languages, and Domains in Video Comprehension

Apr 23

ByXinyu Chen, Yunxin Li, Haoyuan Shi, Baotian Hu, Wenhan Luo, Yaowei Wang, Min Zhang

Relatório Técnico do Kimi-Audio
Kimi-Audio Technical Report

Apr 25

Os Grandes Modelos de Linguagem Podem Auxiliar na Análise de Linguagem Multimodal? MMLA: Um Benchmark Abrangente
Can Large Language Models Help Multimodal Language Analysis? MMLA: A Comprehensive Benchmark

Apr 23

ByHanlei Zhang, Zhuohang Li, Yeshuang Zhu, Hua Xu, Peiwu Wang, Haige Zhu, Jie Zhou, Jinchao Zhang

Otimização de LLMs para o Italiano: Reduzindo a Fertilidade de Tokens e Aumentando a Eficiência por meio da Adaptação do Vocabulário
Optimizing LLMs for Italian: Reducing Token Fertility and Enhancing Efficiency Through Vocabulary Adaptation

Apr 23

ByLuca Moroni, Giovanni Puccetti, Pere-Lluis Huguet Cabot, Andrei Stefan Bejgu, Edoardo Barba, Alessio Miaschi, Felice Dell'Orletta, Andrea Esuli, Roberto Navigli

Mesmo Pequenos Raciocinadores Devem Citar Suas Fontes: Apresentando a Família de Modelos Pleias-RAG
Even Small Reasoners Should Quote Their Sources: Introducing the Pleias-RAG Model Family

Apr 25

ByPierre-Carl Langlais, Pavel Chizhov, Mattia Nee, Carlos Rosas Hinostroza, Matthieu Delsart, Irène Girard, Othman Hicheur, Anastasia Stasenko, Ivan P. Yamshchikov

A Fronteira Esparsa: Compensações da Atenção Esparsa em Transformers de Grande Escala
The Sparse Frontier: Sparse Attention Trade-offs in Transformer LLMs

Apr 24

ByPiotr Nawrot, Robert Li, Renjie Huang, Sebastian Ruder, Kelly Marchisio, Edoardo M. Ponti

Geração de Vídeo Orientada por Sujeito via Separação de Identidade e Movimento
Subject-driven Video Generation via Disentangled Identity and Motion

Apr 23

ByDaneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo

DianJin-R1: Avaliação e Aprimoramento do Raciocínio Financeiro em Modelos de Linguagem de Grande Escala
DianJin-R1: Evaluating and Enhancing Financial Reasoning in Large Language Models

Apr 22

ByJie Zhu, Qian Chen, Huaixia Dou, Junhui Li, Lifan Guo, Feng Chen, Chi Zhang

DC-SAM: Segmentação em Contexto de Qualquer Coisa em Imagens e Vídeos via Dupla Consistência
DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

Apr 16

ByMengshi Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadong Ma, Ming-Hsuan Yang