Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o CameraBench, um conjunto de dados em larga escala e um benchmark projetado para avaliar e aprimorar a compreensão do movimento da câmera. O CameraBench consiste em aproximadamente 3.000 vídeos diversos da internet, anotados por especialistas por meio de um rigoroso processo de controle de qualidade em múltiplas etapas. Uma de nossas contribuições é uma taxonomia de primitivas de movimento da câmera, desenvolvida em colaboração com cineastas. Descobrimos, por exemplo, que alguns movimentos como "seguir" (ou rastreamento) exigem a compreensão do conteúdo da cena, como objetos em movimento. Realizamos um estudo em larga escala com humanos para quantificar o desempenho da anotação humana, revelando que a expertise no domínio e o treinamento baseado em tutoriais podem melhorar significativamente a precisão. Por exemplo, um iniciante pode confundir zoom-in (uma mudança de parâmetros intrínsecos) com a translação para frente (uma mudança de parâmetros extrínsecos), mas pode ser treinado para diferenciar os dois. Utilizando o CameraBench, avaliamos modelos de Structure-from-Motion (SfM) e modelos de Vídeo-Linguagem (VLMs), descobrindo que os modelos SfM têm dificuldade em capturar primitivas semânticas que dependem do conteúdo da cena, enquanto os VLMs lutam para capturar primitivas geométricas que exigem uma estimativa precisa de trajetórias. Em seguida, ajustamos finamente um VLM generativo no CameraBench para alcançar o melhor dos dois mundos e demonstramos suas aplicações, incluindo legendagem aumentada por movimento, resposta a perguntas em vídeo e recuperação de vídeo-texto. Esperamos que nossa taxonomia, benchmark e tutoriais impulsionem esforços futuros em direção ao objetivo final de compreender os movimentos da câmera em qualquer vídeo.
Apresentamos o Skywork R1V2, um modelo de raciocínio multimodal de próxima geração e um grande avanço em relação ao seu antecessor, o Skywork R1V. No cerne do R1V2, introduzimos um paradigma híbrido de aprendizagem por reforço que harmoniza a orientação de modelos de recompensa com estratégias baseadas em regras, abordando assim o desafio de longa data de equilibrar capacidades de raciocínio sofisticadas com generalização ampla. Para aprimorar ainda mais a eficiência do treinamento, propomos o mecanismo de Buffer de Amostras Seletivas (SSB, na sigla em inglês), que efetivamente contorna o dilema das "Vantagens Desaparecidas" inerente à Otimização de Política Relativa em Grupo (GRPO, na sigla em inglês), priorizando amostras de alto valor ao longo do processo de otimização. Notavelmente, observamos que sinais excessivos de reforço podem induzir alucinações visuais—um fenômeno que monitoramos e mitigamos sistematicamente por meio de limiares de recompensa calibrados durante o processo de treinamento. Resultados empíricos confirmam a capacidade excepcional do R1V2, com desempenhos líderes em benchmarks, como 62,6 no OlympiadBench, 79,0 no AIME2024, 63,6 no LiveCodeBench e 74,0 no MMMU. Esses resultados destacam a superioridade do R1V2 sobre os modelos de código aberto existentes e demonstram um progresso significativo no fechamento da lacuna de desempenho em relação aos sistemas proprietários de ponta, incluindo o Gemini 2.5 e o OpenAI o4-mini. Os pesos do modelo Skywork R1V2 foram disponibilizados publicamente para promover abertura e reprodutibilidade em https://huggingface.co/Skywork/Skywork-R1V2-38B.
A implantação eficiente de modelos de linguagem de grande escala (LLMs) de 1 bit é prejudicada por outliers de ativação, que complicam a quantização para larguras de bits baixas. Apresentamos o BitNet v2, uma nova estrutura que permite a quantização nativa de ativações de 4 bits para LLMs de 1 bit. Para lidar com outliers nas ativações da rede de atenção e feed-forward, propomos o H-BitLinear, um módulo que aplica uma transformação de Hadamard online antes da quantização da ativação. Essa transformação suaviza distribuições de ativação abruptas em formas mais semelhantes a Gaussianas, adequadas para representação de baixo bit. Experimentos mostram que o BitNet v2 treinado do zero com ativações de 8 bits iguala o desempenho do BitNet b1.58. Crucialmente, o BitNet v2 alcança degradação mínima de desempenho quando treinado com ativações nativas de 4 bits, reduzindo significativamente a pegada de memória e o custo computacional para inferência em lote.
Avaliar as capacidades de compreensão de vídeo dos sistemas de IA multimodal pode medir efetivamente suas habilidades de entendimento e raciocínio. A maioria dos benchmarks de avaliação de vídeo é limitada a um único idioma, tipicamente o inglês, e predominantemente apresenta vídeos enraizados em contextos culturais ocidentais. Neste artigo, apresentamos o VideoVista-CulturalLingo, o primeiro benchmark de avaliação de vídeo projetado para superar as divisões culturais, linguísticas e de domínio na compreensão de vídeo. Nosso trabalho difere dos benchmarks existentes das seguintes maneiras: 1) Diversidade cultural, incorporando culturas da China, América do Norte e Europa; 2) Multilinguismo, com perguntas apresentadas em chinês e inglês — dois dos idiomas mais falados; e 3) Amplo domínio, com vídeos provenientes de centenas de domínios criados por humanos. O VideoVista-CulturalLingo contém 1.389 vídeos e 3.134 pares de perguntas e respostas, e avaliamos 24 modelos grandes de vídeo recentes, de código aberto ou proprietários. A partir dos resultados dos experimentos, observamos que: 1) Os modelos existentes têm desempenho pior em perguntas centradas na cultura chinesa em comparação com as centradas na cultura ocidental, especialmente aquelas relacionadas à história chinesa; 2) Os modelos de código aberto atuais ainda apresentam limitações no entendimento temporal, particularmente na tarefa de Localização de Eventos, alcançando uma pontuação máxima de apenas 45,2%; 3) Os modelos principais demonstram um forte desempenho em perguntas científicas gerais, enquanto os modelos de código aberto apresentam desempenho fraco em matemática.
Apresentamos o Kimi-Audio, um modelo de base de áudio de código aberto que se destaca na compreensão, geração e conversação de áudio. Detalhamos as práticas na construção do Kimi-Audio, incluindo arquitetura do modelo, curadoria de dados, receita de treinamento, implantação de inferência e avaliação. Especificamente, utilizamos um tokenizador de áudio de 12,5 Hz, projetamos uma nova arquitetura baseada em LLM com características contínuas como entrada e tokens discretos como saída, e desenvolvemos um detokenizador de streaming em blocos baseado em correspondência de fluxo. Curamos um conjunto de dados de pré-treinamento que consiste em mais de 13 milhões de horas de dados de áudio, abrangendo uma ampla gama de modalidades, incluindo fala, som e música, e construímos um pipeline para criar dados pós-treinamento de alta qualidade e diversificados. Inicializado a partir de um LLM pré-treinado, o Kimi-Audio é continuamente pré-treinado em dados de áudio e texto com várias tarefas cuidadosamente projetadas, e então ajustado para suportar uma variedade de tarefas relacionadas a áudio. Avaliações extensivas mostram que o Kimi-Audio alcança desempenho de ponta em uma série de benchmarks de áudio, incluindo reconhecimento de fala, compreensão de áudio, resposta a perguntas de áudio e conversação de fala. Disponibilizamos os códigos, checkpoints do modelo, bem como os kits de ferramentas de avaliação em https://github.com/MoonshotAI/Kimi-Audio.
A análise multimodal de linguagem é um campo em rápida evolução que aproveita múltiplas modalidades para aprimorar a compreensão da semântica de alto nível subjacente às expressões conversacionais humanas. Apesar de sua importância, poucas pesquisas investigaram a capacidade dos modelos de linguagem multimodal de grande escala (MLLMs) em compreender a semântica em nível cognitivo. Neste artigo, apresentamos o MMLA, um benchmark abrangente projetado especificamente para abordar essa lacuna. O MMLA compreende mais de 61 mil expressões multimodais extraídas de cenários encenados e do mundo real, abrangendo seis dimensões principais da semântica multimodal: intenção, emoção, ato dialógico, sentimento, estilo de fala e comportamento comunicativo. Avaliamos oito ramificações principais de LLMs e MLLMs utilizando três métodos: inferência zero-shot, ajuste fino supervisionado e ajuste por instrução. Experimentos extensivos revelam que mesmo modelos ajustados alcançam apenas cerca de 60% a 70% de precisão, destacando as limitações dos MLLMs atuais na compreensão da linguagem humana complexa. Acreditamos que o MMLA servirá como uma base sólida para explorar o potencial dos modelos de linguagem de grande escala na análise multimodal de linguagem e fornecerá recursos valiosos para avançar esse campo. Os conjuntos de dados e o código estão disponíveis em código aberto em https://github.com/thuiar/MMLA.
O número de modelos de linguagem grandes (LLMs) pré-treinados está aumentando constantemente, embora a maioria seja projetada predominantemente para o idioma inglês. Embora os LLMs de última geração possam lidar com outros idiomas, devido à contaminação linguística ou a algum grau de dados de pré-treinamento multilíngue, eles não são otimizados para idiomas não ingleses, resultando em codificação ineficiente (alta "fertilidade" de tokens) e velocidade de inferência mais lenta. Neste trabalho, comparamos minuciosamente uma variedade de técnicas de adaptação de vocabulário para otimizar LLMs em inglês para o idioma italiano e propomos a Adaptação de Vocabulário por Alinhamento Semântico (SAVA), um método novo que aproveita o mapeamento neural para substituição de vocabulário. O SAVA alcança desempenho competitivo em várias tarefas subsequentes, aprimorando estratégias de alinhamento fundamentadas. Adaptamos dois LLMs: Mistral-7b-v0.1, reduzindo a fertilidade de tokens em 25%, e Llama-3.1-8B, otimizando o vocabulário e reduzindo o número de parâmetros em 1 bilhão. Mostramos que, após a adaptação do vocabulário, esses modelos podem recuperar seu desempenho com uma etapa relativamente limitada de treinamento contínuo no idioma alvo. Por fim, testamos as capacidades dos modelos adaptados em várias tarefas de múltipla escolha e generativas.
A atenção esparsa oferece uma estratégia promissora para estender as capacidades de contexto longo em LLMs baseados em Transformers, mas sua viabilidade, seus trade-offs entre eficiência e precisão, e estudos sistemáticos de escalonamento permanecem inexplorados. Para abordar essa lacuna, realizamos uma comparação cuidadosa de métodos de atenção esparsa sem treinamento em diferentes escalas de modelos, comprimentos de sequência e níveis de esparsidade em uma coleção diversificada de tarefas de sequência longa — incluindo novas que dependem de linguagem natural, mas permanecem controláveis e fáceis de avaliar. Com base em nossos experimentos, relatamos uma série de descobertas-chave: 1) Uma análise isoFLOPS revela que, para sequências muito longas, modelos maiores e altamente esparsos são preferíveis a modelos menores e densos. 2) O nível de esparsidade alcançável enquanto se garante estatisticamente a preservação da precisão é maior durante a decodificação do que no preenchimento, e correlaciona-se com o tamanho do modelo no primeiro caso. 3) Não há uma estratégia clara que funcione melhor em todas as tarefas e fases, com diferentes unidades de esparsificação ou adaptabilidade de orçamento necessárias para diferentes cenários. Mesmo níveis moderados de esparsidade frequentemente resultam em degradação significativa de desempenho em pelo menos uma tarefa, destacando que a atenção esparsa não é uma solução universal. 4) Introduzimos e validamos novas leis de escalonamento especificamente adaptadas para atenção esparsa, fornecendo evidências de que nossas descobertas provavelmente se manterão válidas além do escopo de nossos experimentos. Através desses insights, demonstramos que a atenção esparsa é uma ferramenta essencial para aprimorar as capacidades de LLMs baseados em Transformers para processar sequências mais longas, mas requer uma avaliação cuidadosa dos trade-offs para aplicações sensíveis ao desempenho.
Apresentamos uma nova geração de modelos de raciocínio compactos para RAG, busca e sumarização de fontes. Pleias-RAG-350m e Pleias-RAG-1B são pré-treinados em um grande conjunto de dados sintéticos que emula a recuperação de uma ampla variedade de fontes abertas multilíngues do Common Corpus. Eles oferecem suporte nativo para citação e fundamentação com citações literais e reintegram múltiplas funcionalidades associadas a fluxos de trabalho RAG, como roteamento de consultas, reformulação de consultas e reclassificação de fontes. Pleias-RAG-350m e Pleias-RAG-1B superam modelos de linguagem pequenos (SLMs) com menos de 4 bilhões de parâmetros em benchmarks RAG padronizados (HotPotQA, 2wiki) e são competitivos com modelos maiores populares, incluindo Qwen-2.5-7B, Llama-3.1-8B e Gemma-3-4B. Eles são os únicos SLMs até o momento que mantêm um desempenho RAG consistente em línguas europeias líderes e garantem a fundamentação sistemática de referências para declarações. Devido ao seu tamanho e facilidade de implantação em infraestruturas limitadas, além de maior factualidade por design, esses modelos desbloqueiam uma variedade de novos casos de uso para IA generativa.
Propomos treinar um modelo de geração de vídeo personalizado orientado por sujeito, desacoplando o aprendizado específico do sujeito da dinâmica temporal em configuração zero-shot, sem ajustes adicionais. Um método tradicional para personalização de vídeo que não requer ajustes frequentemente depende de grandes conjuntos de dados de vídeo anotados, que são computacionalmente caros e exigem extensa anotação. Em contraste com a abordagem anterior, introduzimos o uso de um conjunto de dados de personalização de imagem diretamente no treinamento de modelos de personalização de vídeo, fatorizando a personalização de vídeo em dois aspectos: (1) injeção de identidade por meio de um conjunto de dados de personalização de imagem e (2) preservação da modelagem temporal com um pequeno conjunto de vídeos não anotados por meio do método de treinamento de imagem para vídeo. Além disso, empregamos o descarte aleatório de tokens de imagem com inicialização aleatória de imagem durante o ajuste fino de imagem para vídeo para mitigar o problema de copiar e colar. Para aprimorar ainda mais o aprendizado, introduzimos a alternância estocástica durante a otimização conjunta de características específicas do sujeito e temporais, mitigando o esquecimento catastrófico. Nosso método alcança forte consistência do sujeito e escalabilidade, superando os modelos existentes de personalização de vídeo em configurações zero-shot, demonstrando a eficácia de nossa estrutura.
O raciocínio eficaz continua sendo um desafio central para os grandes modelos de linguagem (LLMs) no domínio financeiro, onde as tarefas frequentemente exigem conhecimento específico do setor, cálculos numéricos precisos e estrita aderência às regras de conformidade. Propomos o DianJin-R1, um framework aprimorado para raciocínio projetado para enfrentar esses desafios por meio de supervisão aumentada por raciocínio e aprendizado por reforço. Central à nossa abordagem é o DianJin-R1-Data, um conjunto de dados de alta qualidade construído a partir do CFLUE, FinQA e um corpus proprietário de conformidade (Chinese Compliance Check, CCC), combinando diversos cenários de raciocínio financeiro com anotações verificadas. Nossos modelos, DianJin-R1-7B e DianJin-R1-32B, são ajustados a partir do Qwen2.5-7B-Instruct e Qwen2.5-32B-Instruct usando um formato estruturado que gera tanto etapas de raciocínio quanto respostas finais. Para refinar ainda mais a qualidade do raciocínio, aplicamos o Group Relative Policy Optimization (GRPO), um método de aprendizado por reforço que incorpora sinais de recompensa dupla: um que incentiva saídas estruturadas e outro que recompensa a correção das respostas. Avaliamos nossos modelos em cinco benchmarks: três conjuntos de dados financeiros (CFLUE, FinQA e CCC) e dois benchmarks de raciocínio geral (MATH-500 e GPQA-Diamond). Os resultados experimentais mostram que os modelos DianJin-R1 consistentemente superam suas contrapartes sem aprimoramento de raciocínio, especialmente em tarefas financeiras complexas. Além disso, no conjunto de dados real CCC, nossos modelos de raciocínio de chamada única igualam ou até superam o desempenho de sistemas multiagentes que exigem um custo computacional significativamente maior. Esses achados demonstram a eficácia do DianJin-R1 em aprimorar o raciocínio financeiro por meio de supervisão estruturada e aprendizado alinhado a recompensas, oferecendo uma solução escalável e prática para aplicações do mundo real.
Dado um único exemplo rotulado, a segmentação em contexto visa segmentar objetos correspondentes. Esse cenário, conhecido como segmentação one-shot no aprendizado few-shot, explora a capacidade de generalização do modelo de segmentação e tem sido aplicado a diversas tarefas de visão, incluindo compreensão de cena e edição de imagens/vídeos. Embora os recentes Segment Anything Models (SAM) tenham alcançado resultados de ponta em segmentação interativa, essas abordagens não são diretamente aplicáveis à segmentação em contexto. Neste trabalho, propomos o método Dual Consistency SAM (DC-SAM), baseado em prompt-tuning, para adaptar o SAM e o SAM2 à segmentação em contexto de imagens e vídeos. Nossas principais ideias são aprimorar as características do codificador de prompts do SAM na segmentação, fornecendo prompts visuais de alta qualidade. Ao gerar uma máscara prévia, fundimos as características do SAM para melhor alinhar o codificador de prompts. Em seguida, projetamos uma atenção cruzada consistente em ciclo sobre as características fundidas e os prompts visuais iniciais. Depois, fornecemos um design de ramificação dupla, utilizando prompts positivos e negativos discriminativos no codificador de prompts. Além disso, projetamos uma estratégia simples de treinamento de máscara-tubo para adotar nosso método de consistência dupla no tubo de máscara. Embora o DC-SAM proposto seja principalmente projetado para imagens, ele pode ser estendido de forma contínua ao domínio de vídeos com o suporte do SAM2. Dada a ausência de segmentação em contexto no domínio de vídeos, curamos e construímos manualmente o primeiro benchmark a partir de conjuntos de dados existentes de segmentação de vídeos, denominado In-Context Video Object Segmentation (IC-VOS), para melhor avaliar a capacidade em contexto do modelo. Experimentos extensivos demonstram que nosso método alcança 55,5 (+1,4) mIoU no COCO-20i, 73,0 (+1,1) mIoU no PASCAL-5i e uma pontuação J&F de 71,52 no benchmark IC-VOS proposto. Nosso código-fonte e benchmark estão disponíveis em https://github.com/zaplm/DC-SAM.