Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o RWKV-7 "Goose", uma nova arquitetura de modelagem de sequências, juntamente com modelos de linguagem pré-treinados que estabelecem um novo estado da arte em desempenho downstream na escala de 3 bilhões de parâmetros em tarefas multilíngues, e igualam o desempenho atual do estado da arte em inglês, apesar de terem sido treinados com significativamente menos tokens do que outros modelos top de 3B. No entanto, os modelos RWKV-7 exigem apenas uso de memória constante e tempo de inferência constante por token. O RWKV-7 introduz uma nova formulação generalizada da regra delta com portas vetoriais e taxas de aprendizado em contexto, além de uma regra relaxada de substituição de valores. Mostramos que o RWKV-7 pode realizar rastreamento de estado e reconhecer todas as linguagens regulares, mantendo a paralelizabilidade do treinamento. Isso excede as capacidades dos Transformers sob conjecturas de complexidade padrão, que são limitados a TC^0. Para demonstrar a capacidade de modelagem de linguagem do RWKV-7, também apresentamos um corpus multilíngue de código aberto estendido com 3,1 trilhões de tokens, e treinamos quatro modelos RWKV-7 variando de 0,19 bilhão a 2,9 bilhões de parâmetros nesse conjunto de dados. Para promover abertura, reprodução e adoção, disponibilizamos nossos modelos e a lista de componentes do conjunto de dados em https://huggingface.co/RWKV, e nosso código de treinamento e inferência em https://github.com/RWKV/RWKV-LM, todos sob a Licença Apache 2.0.
A escalabilidade de inferência capacita os LLMs com habilidades de raciocínio sem precedentes, tendo o aprendizado por reforço como técnica central para eliciar raciocínios complexos. No entanto, detalhes técnicos cruciais dos LLMs de última geração para raciocínio são ocultados (como no blog OpenAI o1 e no relatório técnico DeepSeek R1), fazendo com que a comunidade ainda enfrente dificuldades para reproduzir seus resultados de treinamento com RL. Propomos o algoritmo Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO) e disponibilizamos em código aberto um sistema de RL em larga escala de última geração que alcança 50 pontos no AIME 2024 utilizando o modelo base Qwen2.5-32B. Diferente de trabalhos anteriores que retêm detalhes de treinamento, introduzimos quatro técnicas-chave do nosso algoritmo que tornam o RL em LLMs em larga escala um sucesso. Além disso, disponibilizamos nosso código de treinamento, construído sobre o framework verl, juntamente com um conjunto de dados cuidadosamente curado e processado. Esses componentes do nosso sistema de código aberto aumentam a reprodutibilidade e apoiam pesquisas futuras em RL para LLMs em larga escala.
Os vídeos sintéticos são amplamente utilizados atualmente para complementar a escassez e a diversidade de vídeos do mundo real. Os conjuntos de dados sintéticos atuais replicam principalmente cenários do mundo real, deixando conceitos de vídeos impossíveis, contrafactuais e antirrealistas pouco explorados. Este trabalho visa responder a duas perguntas: 1) Os modelos atuais de geração de vídeos conseguem seguir prompts de forma eficaz para criar conteúdo de vídeo impossível? 2) Os modelos atuais de compreensão de vídeos são suficientemente bons para entender vídeos impossíveis? Para isso, introduzimos o IPV-Bench, um novo benchmark projetado para avaliar e promover o progresso na compreensão e geração de vídeos. O IPV-Bench é sustentado por uma taxonomia abrangente, abrangendo 4 domínios e 14 categorias. Ele apresenta cenas diversas que desafiam as leis físicas, biológicas, geográficas ou sociais. Com base na taxonomia, um conjunto de prompts é construído para avaliar modelos de geração de vídeos, desafiando suas capacidades de seguir prompts e de criatividade. Além disso, um benchmark de vídeos é curado para avaliar Video-LLMs em sua capacidade de entender vídeos impossíveis, o que exige particularmente raciocínio sobre dinâmicas temporais e conhecimento do mundo. Avaliações abrangentes revelam limitações e insights para direções futuras dos modelos de vídeo, pavimentando o caminho para a próxima geração de modelos de vídeo.
A criatividade é um aspecto fundamental da inteligência, envolvendo a capacidade de gerar soluções novas e apropriadas em diversos contextos. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham sido amplamente avaliados quanto às suas capacidades criativas, a avaliação dos Modelos Multimodais de Linguagem de Grande Escala (MLLMs) nesse domínio permanece em grande parte inexplorada. Para abordar essa lacuna, introduzimos o Creation-MMBench, um benchmark multimodal projetado especificamente para avaliar as capacidades criativas dos MLLMs em tarefas baseadas em imagens do mundo real. O benchmark compreende 765 casos de teste abrangendo 51 tarefas detalhadas. Para garantir uma avaliação rigorosa, definimos critérios de avaliação específicos para cada caso de teste, orientando a avaliação tanto da qualidade geral das respostas quanto da consistência factual com as entradas visuais. Os resultados experimentais revelam que os MLLMs de código aberto atuais têm um desempenho significativamente inferior em comparação com os modelos proprietários em tarefas criativas. Além disso, nossa análise demonstra que o ajuste fino visual pode impactar negativamente as habilidades criativas do LLM base. O Creation-MMBench fornece insights valiosos para o avanço da criatividade dos MLLMs e estabelece uma base para futuras melhorias na inteligência generativa multimodal. Os dados completos e o código de avaliação estão disponíveis em https://github.com/open-compass/Creation-MMBench.
Especialistas humanos se destacam na discriminação visual refinada ao aproveitar o conhecimento de domínio para aprimorar características perceptivas, uma capacidade que permanece subdesenvolvida nos atuais Modelos de Linguagem Multimodal de Grande Escala (MLLMs). Apesar de possuírem vasto conhecimento em nível de especialista, os MLLMs lutam para integrar o raciocínio à percepção visual, frequentemente gerando respostas diretas sem uma análise mais profunda. Para preencher essa lacuna, introduzimos o conhecimento intensivo de fundamentação visual (KVG), uma nova tarefa de fundamentação visual que requer tanto percepção refinada quanto a integração de conhecimento específico do domínio. Para abordar os desafios do KVG, propomos o DeepPerception, um MLLM aprimorado com capacidades de percepção visual cognitiva. Nossa abordagem consiste em (1) um pipeline de síntese de dados automatizado que gera amostras de treinamento de alta qualidade e alinhadas ao conhecimento, e (2) um framework de treinamento em duas etapas que combina ajuste fino supervisionado para estruturar o raciocínio cognitivo e aprendizado por reforço para otimizar a sinergia percepção-cognição. Para avaliar o desempenho, introduzimos o KVG-Bench, um conjunto de dados abrangente que abrange 10 domínios com 1,3 mil casos de teste curados manualmente. Os resultados experimentais demonstram que o DeepPerception supera significativamente o ajuste fino direto, alcançando melhorias de +8,08% em precisão no KVG-Bench e exibindo uma generalização cruzada de domínio +4,60% superior em relação às abordagens de linha de base. Nossas descobertas destacam a importância de integrar processos cognitivos nos MLLMs para uma percepção visual semelhante à humana e abrem novas direções para a pesquisa em raciocínio multimodal. Os dados, códigos e modelos são disponibilizados em https://github.com/thunlp/DeepPerception.
Objetos articulados em grande escala e de alta qualidade são extremamente necessários para múltiplas tarefas relacionadas à IA incorporada. A maioria dos métodos existentes para criar objetos articulados são baseados em dados ou em simulação, os quais são limitados pela escala e qualidade dos dados de treinamento ou pela fidelidade e o trabalho intensivo da simulação. Neste artigo, propomos o Infinite Mobility, um método inovador para sintetizar objetos articulados de alta fidelidade por meio de geração procedural. Estudos com usuários e avaliações quantitativas demonstram que nosso método pode produzir resultados que superam os métodos atuais de ponta e são comparáveis a conjuntos de dados anotados por humanos tanto em propriedades físicas quanto em qualidade de malha. Além disso, mostramos que nossos dados sintéticos podem ser usados como dados de treinamento para modelos generativos, permitindo a ampliação para o próximo passo. O código está disponível em https://github.com/Intern-Nexus/Infinite-Mobility.
A descrição de imagens tem sido um desafio de longa data na pesquisa de visão e linguagem. Com o surgimento dos LLMs, os modernos Modelos de Visão-Linguagem (VLMs) geram descrições de imagens detalhadas e abrangentes. No entanto, a avaliação da qualidade dessas legendas permanece sem solução. Este artigo aborda duas questões principais: (1) Quão bem os VLMs atuais realmente se saem na descrição de imagens, especialmente em comparação com humanos? Construímos o CapArena, uma plataforma com mais de 6000 batalhas de legendas em pares e votos de preferência humana de alta qualidade. Nossa avaliação no estilo arena marca um marco, mostrando que modelos líderes como o GPT-4o alcançam ou até superam o desempenho humano, enquanto a maioria dos modelos de código aberto fica para trás. (2) As métricas automatizadas podem avaliar de forma confiável a qualidade detalhada das legendas? Usando anotações humanas do CapArena, avaliamos métricas tradicionais e recentes de legendagem, bem como o VLM-as-a-Judge. Nossa análise revela que, embora algumas métricas (por exemplo, METEOR) mostrem uma concordância decente em nível de legenda com humanos, seus vieses sistemáticos levam a inconsistências na classificação dos modelos. Em contraste, o VLM-as-a-Judge demonstra discernimento robusto tanto no nível da legenda quanto no nível do modelo. Com base nessas percepções, lançamos o CapArena-Auto, um benchmark automatizado preciso e eficiente para legendagem detalhada, alcançando 94,3% de correlação com as classificações humanas a apenas $4 por teste. Dados e recursos serão disponibilizados como código aberto em https://caparena.github.io.
A geração de áudio e música emergiu como uma tarefa crucial em muitas aplicações, mas as abordagens existentes enfrentam limitações significativas: elas operam de forma isolada sem capacidades unificadas entre modalidades, sofrem com a escassez de dados de treinamento multimodais de alta qualidade e lutam para integrar efetivamente entradas diversas. Neste trabalho, propomos o AudioX, um modelo unificado de Transformador de Difusão para Geração de Qualquer Coisa para Áudio e Música. Diferente de modelos anteriores específicos de domínio, o AudioX pode gerar tanto áudio geral quanto música com alta qualidade, ao mesmo tempo que oferece controle flexível por linguagem natural e processamento contínuo de várias modalidades, incluindo texto, vídeo, imagem, música e áudio. Sua principal inovação é uma estratégia de treinamento mascarado multimodal que mascara entradas entre modalidades e força o modelo a aprender a partir de entradas mascaradas, resultando em representações robustas e unificadas entre modalidades. Para lidar com a escassez de dados, organizamos dois conjuntos de dados abrangentes: vggsound-caps, com 190 mil legendas de áudio baseadas no conjunto de dados VGGSound, e V2M-caps, com 6 milhões de legendas de música derivadas do conjunto de dados V2M. Experimentos extensivos demonstram que o AudioX não apenas iguala ou supera os modelos especializados de última geração, mas também oferece uma versatilidade notável no tratamento de diversas modalidades de entrada e tarefas de geração dentro de uma arquitetura unificada. O código e os conjuntos de dados estarão disponíveis em https://zeyuet.github.io/AudioX/.
Modelos de linguagem de grande escala (LLMs) podem lidar com uma ampla variedade de tarefas gerais com prompts simples, sem a necessidade de treinamento específico para cada tarefa. Modelos Multimodais de Linguagem de Grande Escala (MLLMs), construídos sobre LLMs, demonstraram um potencial impressionante no enfrentamento de tarefas complexas envolvendo dados visuais, auditivos e textuais. No entanto, questões críticas relacionadas à veracidade, segurança, raciocínio semelhante ao humano e alinhamento com as preferências humanas permanecem insuficientemente abordadas. Essa lacuna impulsionou o surgimento de diversos algoritmos de alinhamento, cada um visando diferentes cenários de aplicação e objetivos de otimização. Estudos recentes mostraram que algoritmos de alinhamento são uma abordagem poderosa para resolver os desafios mencionados. Neste artigo, buscamos fornecer uma revisão abrangente e sistemática dos algoritmos de alinhamento para MLLMs. Especificamente, exploramos quatro aspectos-chave: (1) os cenários de aplicação cobertos pelos algoritmos de alinhamento, incluindo compreensão geral de imagens, múltiplas imagens, vídeo e áudio, e aplicações multimodais estendidas; (2) os fatores centrais na construção de conjuntos de dados de alinhamento, incluindo fontes de dados, respostas do modelo e anotações de preferência; (3) os benchmarks utilizados para avaliar algoritmos de alinhamento; e (4) uma discussão sobre possíveis direções futuras para o desenvolvimento de algoritmos de alinhamento. Este trabalho busca ajudar pesquisadores a organizar os avanços atuais no campo e inspirar melhores métodos de alinhamento. A página do projeto deste artigo está disponível em https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Alignment.
As conexões residuais são centrais para as arquiteturas modernas de aprendizado profundo, permitindo o treinamento de redes muito profundas ao mitigar o desaparecimento do gradiente. As Hiper-Conexões recentemente generalizaram as conexões residuais ao introduzir múltiplas intensidades de conexão em diferentes profundidades, abordando assim o efeito gangorra entre o desaparecimento do gradiente e o colapso da representação. No entanto, as Hiper-Conexões aumentam os custos de acesso à memória ao expandir a largura dos estados ocultos. Neste artigo, propomos as Frac-Conexões, uma abordagem inovadora que divide os estados ocultos em múltiplas partes em vez de expandir sua largura. As Frac-Conexões mantêm parte dos benefícios das Hiper-Conexões enquanto reduzem o consumo de memória. Para validar sua eficácia, realizamos experimentos em larga escala em tarefas de linguagem, com o maior sendo um modelo MoE de 7B treinado em até 3T de tokens, demonstrando que as Frac-Conexões superam significativamente as conexões residuais.
Apresentamos o Cosmos-Transfer, um modelo de geração condicional de mundos que pode gerar simulações de mundos com base em múltiplas entradas de controle espacial de várias modalidades, como segmentação, profundidade e bordas. No design, o esquema condicional espacial é adaptável e personalizável. Ele permite ponderar diferentes entradas condicionais de maneiras distintas em diferentes localizações espaciais. Isso possibilita uma geração de mundos altamente controlável e encontra aplicação em diversos casos de uso de transferência de mundo para mundo, incluindo Sim2Real. Realizamos avaliações extensas para analisar o modelo proposto e demonstrar suas aplicações para Inteligência Artificial Física, incluindo Sim2Real em robótica e enriquecimento de dados para veículos autônomos. Além disso, demonstramos uma estratégia de escalonamento de inferência para alcançar geração de mundos em tempo real com um rack NVIDIA GB200 NVL72. Para ajudar a acelerar o desenvolvimento de pesquisas na área, disponibilizamos nossos modelos e código em código aberto em https://github.com/nvidia-cosmos/cosmos-transfer1.
Apesar do rápido progresso em benchmarks de IA, o significado real do desempenho em benchmarks permanece incerto. Para quantificar as capacidades dos sistemas de IA em termos de habilidades humanas, propomos uma nova métrica: o horizonte de tempo para conclusão de 50% das tarefas. Este é o tempo que os humanos normalmente levam para concluir tarefas que os modelos de IA conseguem completar com uma taxa de sucesso de 50%. Primeiro, cronometramos humanos com expertise relevante em uma combinação de RE-Bench, HCAST e 66 novas tarefas mais curtas. Nessas tarefas, os modelos de IA de ponta atuais, como o Claude 3.7 Sonnet, têm um horizonte de tempo de 50% de aproximadamente 50 minutos. Além disso, o horizonte de tempo da IA de ponta tem dobrado aproximadamente a cada sete meses desde 2019, embora a tendência possa ter se acelerado em 2024. O aumento nos horizontes de tempo dos modelos de IA parece ser impulsionado principalmente por maior confiabilidade e capacidade de se adaptar a erros, combinados com melhor raciocínio lógico e habilidades de uso de ferramentas. Discutimos as limitações de nossos resultados — incluindo seu grau de validade externa — e as implicações do aumento da autonomia para capacidades perigosas. Se esses resultados se generalizarem para tarefas de software do mundo real, a extrapolação dessa tendência prevê que, em cinco anos, os sistemas de IA serão capazes de automatizar muitas tarefas de software que atualmente levam um mês para serem concluídas por humanos.
Gerar cenas 3D com visualização flexível, incluindo rotação de 360° e zoom, a partir de imagens únicas é um desafio devido à falta de dados 3D. Para isso, introduzimos o FlexWorld, uma nova estrutura composta por dois componentes principais: (1) um modelo robusto de difusão vídeo-para-vídeo (V2V) para gerar imagens de novas perspectivas de alta qualidade a partir de uma entrada incompleta renderizada de uma cena grosseira, e (2) um processo de expansão progressiva para construir uma cena 3D completa. Em particular, aproveitando um modelo de vídeo pré-treinado avançado e pares de treinamento com estimativa de profundidade precisa, nosso modelo V2V pode gerar novas perspectivas sob grandes variações de pose da câmera. Com base nisso, o FlexWorld gera progressivamente novo conteúdo 3D e o integra à cena global por meio de fusão de cena com consciência geométrica. Experimentos extensivos demonstram a eficácia do FlexWorld na geração de vídeos de novas perspectivas e cenas 3D com visualização flexível a partir de imagens únicas, alcançando qualidade visual superior em múltiplas métricas e conjuntos de dados populares em comparação com os métodos state-of-the-art existentes. Qualitativamente, destacamos que o FlexWorld pode gerar cenas de alta fidelidade com visualizações flexíveis, como rotações de 360° e zoom. Página do projeto: https://ml-gsai.github.io/FlexWorld.
Modelar imagens massivas de forma eficiente é um desafio de longa data no aprendizado de máquina. Para isso, introduzimos a Atenção Multi-Escala (MSA, na sigla em inglês). A MSA se baseia em duas ideias principais: (i) representações multi-escala e (ii) comunicação bidirecional entre escalas. A MSA cria O(log N) escalas para representar a imagem em características progressivamente mais grosseiras e aproveita a atenção cruzada para propagar informações entre as escalas. Em seguida, apresentamos o Atlas, uma nova arquitetura de rede neural baseada na MSA. Demonstramos que o Atlas melhora significativamente a relação entre desempenho e custo computacional na modelagem de imagens de contexto longo em uma variante de alta resolução do ImageNet 100. Na resolução de 1024px, o Atlas-B alcança 91,04% de precisão, comparável ao ConvNext-B (91,92%), enquanto é 4,3x mais rápido. O Atlas é 2,95x mais rápido e 7,38% melhor que o FasterViT, e 2,25x mais rápido e 4,96% melhor que o LongViT. Em comparações com o MambaVision-S, observamos que o Atlas-S alcança precisões 5%, 16% e 32% maiores em 1024px, 2048px e 4096px, respectivamente, mantendo tempos de execução semelhantes. O código para reproduzir nossos experimentos e os modelos pré-treinados está disponível em https://github.com/yalalab/atlas.
O raciocínio é uma capacidade essencial para modelos de linguagem de grande escala (LLMs) abordarem tarefas complexas, onde a identificação de erros no processo é vital para aprimorar essa habilidade. Recentemente, modelos de recompensa em nível de processo (PRMs) foram propostos para fornecer recompensas passo a passo que facilitam o aprendizado por reforço e a produção de dados durante o treinamento, além de guiar os LLMs em direção a etapas corretas durante a inferência, melhorando assim a precisão do raciocínio. No entanto, os benchmarks existentes para PRMs são baseados em texto e focam na detecção de erros, negligenciando outros cenários, como a busca por raciocínio. Para preencher essa lacuna, introduzimos o MPBench, um benchmark abrangente, multitarefa e multimodal projetado para avaliar sistematicamente a eficácia dos PRMs em diversos cenários. O MPBench emprega três paradigmas de avaliação, cada um direcionado a um papel específico dos PRMs no processo de raciocínio: (1) Correção de Etapas, que avalia a correção de cada etapa intermediária do raciocínio; (2) Agregação de Respostas, que agrega múltiplas soluções e seleciona a melhor; e (3) Busca no Processo de Raciocínio, que orienta a busca por etapas ótimas de raciocínio durante a inferência. Por meio desses paradigmas, o MPBench realiza avaliações abrangentes e fornece insights para o desenvolvimento de PRMs multimodais.
A verificação é crucial para o raciocínio matemático eficaz. Apresentamos um novo método de consistência temporal em que os verificadores refinam iterativamente seus julgamentos com base na avaliação anterior. Diferente de abordagens de verificação em uma única rodada ou de debates com múltiplos modelos, nosso método aproveita a consistência em uma sequência de ações de autorreflexão para melhorar a precisão da verificação. Avaliações empíricas em diversos benchmarks de identificação de erros em processos matemáticos (Mathcheck, ProcessBench e PRM800K) mostram melhorias consistentes de desempenho em relação aos métodos baselines. Quando aplicado aos recentes modelos destilados DeepSeek R1, nosso método demonstra um desempenho robusto, permitindo que modelos destilados de 7B/8B superem todos os modelos de 70B/72B e o GPT-4o no ProcessBench. Notavelmente, o modelo destilado de 14B com nosso método alcança um desempenho comparável ao Deepseek-R1. Nossos códigos estão disponíveis em https://github.com/jcguo123/Temporal-Consistency.
Apresentamos o Concat-ID, um framework unificado para geração de vídeos com preservação de identidade. O Concat-ID utiliza Autoencoders Variacionais para extrair características de imagens, que são concatenadas com latentes de vídeo ao longo da dimensão de sequência, aproveitando apenas mecanismos de auto-atenção 3D sem a necessidade de módulos adicionais. Uma nova estratégia de emparelhamento cruzado de vídeos e um regime de treinamento em múltiplas etapas são introduzidos para equilibrar a consistência de identidade e a editabilidade facial, ao mesmo tempo em que aprimoram a naturalidade do vídeo. Experimentos extensivos demonstram a superioridade do Concat-ID sobre os métodos existentes tanto na geração de identidade única quanto múltipla, bem como sua escalabilidade perfeita para cenários com múltiplos sujeitos, incluindo experimentação virtual e geração com controle de fundo. O Concat-ID estabelece um novo padrão para síntese de vídeos com preservação de identidade, oferecendo uma solução versátil e escalável para uma ampla gama de aplicações.
A abordagem predominante para avançar a geração de texto para imagem tem sido o escalonamento durante o treinamento, onde modelos maiores são treinados com mais dados utilizando recursos computacionais mais robustos. Embora eficaz, essa abordagem é computacionalmente custosa, levando a um crescente interesse no escalonamento durante a inferência para melhorar o desempenho. Atualmente, o escalonamento durante a inferência para modelos de difusão de texto para imagem é amplamente limitado à amostragem best-of-N, onde múltiplas imagens são geradas por prompt e um modelo de seleção escolhe a melhor saída. Inspirados pelo recente sucesso de modelos de raciocínio como o DeepSeek-R1 no domínio da linguagem, introduzimos uma alternativa à amostragem best-of-N ingênua ao equipar Diffusion Transformers (Transformadores de Difusão) para texto e imagem com capacidades de reflexão em contexto. Propomos o Reflect-DiT, um método que permite que Diffusion Transformers refinem suas gerações utilizando exemplos em contexto de imagens previamente geradas juntamente com feedback textual descrevendo melhorias necessárias. Em vez de depender passivamente da amostragem aleatória e esperar por um resultado melhor em uma geração futura, o Reflect-DiT ajusta explicitamente suas gerações para abordar aspectos específicos que requerem aprimoramento. Resultados experimentais demonstram que o Reflect-DiT melhora o desempenho no benchmark GenEval (+0,19) utilizando o SANA-1.0-1.6B como modelo base. Além disso, ele alcança um novo estado da arte com pontuação de 0,81 no GenEval enquanto gera apenas 20 amostras por prompt, superando a melhor pontuação anterior de 0,80, que foi obtida usando um modelo significativamente maior (SANA-1.5-4.8B) com 2048 amostras sob a abordagem best-of-N.
A transferência cross-lingual permite que modelos visão-linguagem (VLMs) realizem tarefas visuais em vários idiomas com dados de treinamento em apenas um idioma. As abordagens atuais dependem de grandes modelos de linguagem multilíngues pré-treinados. No entanto, eles enfrentam a maldição da multilinguidade, sacrificando o desempenho em tarefas subsequentes em prol de capacidades multilíngues, lutando com ambiguidades lexicais e ficando aquém dos avanços recentes. Neste trabalho, estudamos as leis de escalonamento da generalização sistemática com VLMs monolíngues para tarefas multilíngues, focando no impacto do tamanho do modelo e das amostras de treinamento vistas. Propomos Florenz, um VLM codificador-decodificador monolíngue com 0,4B a 11,2B de parâmetros que combina o VLM pré-treinado Florence-2 e o modelo de linguagem grande Gemma-2. Florenz é treinado com diferentes orçamentos de computação em um conjunto de dados sintético que apresenta cobertura linguística intencionalmente incompleta para legendagem de imagens, testando assim a generalização a partir da tarefa de tradução totalmente coberta. Mostramos que não apenas o aprendizado indireto de pares tarefa-idioma não vistos segue uma lei de escalonamento, mas também que, com nosso pipeline de geração de dados e a família de modelos Florenz proposta, habilidades de legendagem de imagens podem emergir em um idioma específico, mesmo quando apenas dados para a tarefa de tradução estão disponíveis. O ajuste fino em uma mistura de conjuntos de dados subsequentes resulta em desempenho competitivo e demonstra tendências promissoras de escalonamento em tradução multimodal (Multi30K, CoMMuTE), desambiguação lexical (CoMMuTE) e legendagem de imagens (Multi30K, XM3600, COCO Karpathy).
Modelos de linguagem multimodal de grande escala (MLLMs) se destacam na compreensão visual 2D, mas ainda são limitados em sua capacidade de raciocinar sobre o espaço 3D. Neste trabalho, aproveitamos dados de cenas 3D em grande escala e de alta qualidade com anotações de conjunto aberto para introduzir 1) um novo conjunto de dados de ajuste fino supervisionado e 2) um novo benchmark de avaliação, focado em cenas internas. Nosso Cubify Anything VQA (CA-VQA) abrange diversas tarefas espaciais, incluindo previsão de relações espaciais, estimativa de tamanho e distância métrica, e ancoragem 3D. Mostramos que o CA-VQA nos permite treinar o MM-Spatial, um MLLM generalista robusto que também alcança desempenho de ponta em benchmarks de compreensão espacial 3D, incluindo o nosso próprio. Demonstramos como a incorporação de profundidade métrica e entradas de múltiplas visões (fornecidas no CA-VQA) pode melhorar ainda mais a compreensão 3D, e evidenciamos que apenas os dados permitem que nosso modelo alcance capacidades de percepção de profundidade comparáveis a modelos dedicados de estimativa de profundidade monocular. Publicaremos nosso conjunto de dados de ajuste fino (SFT) e o benchmark.
Apesar de suas capacidades impressionantes, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) enfrentam desafios com percepção refinada e raciocínio complexo. As abordagens predominantes de pré-treinamento multimodal focam em melhorar a percepção ao treinar com legendas de imagens de alta qualidade, devido ao custo extremamente alto de coletar dados de raciocínio em cadeia (Chain-of-Thought, CoT) para aprimorar o raciocínio. Embora o uso de MLLMs avançados para geração de legendas aumente a escalabilidade, as saídas frequentemente carecem de abrangência e precisão. Neste artigo, introduzimos a Cognição de Autoaprimoramento (Self-Improving cognition, SIcog), um framework de autoaprendizagem projetado para construir MLLMs de próxima geração, aprimorando suas capacidades cognitivas sistemáticas por meio de pré-treinamento multimodal com dados autogerados. Especificamente, propomos a Cadeia de Descrição (Chain-of-Description), uma abordagem que melhora a percepção sistemática de um MLLM ao permitir a compreensão visual passo a passo, garantindo maior abrangência e precisão. Além disso, adotamos uma técnica estruturada de raciocínio CoT para permitir que os MLLMs integrem raciocínio multimodal aprofundado. Para construir um MLLM de próxima geração com cognição autoaprimorada, o SIcog primeiro equipa um MLLM com habilidades sistemáticas de percepção e raciocínio usando anotações externas mínimas. Os modelos aprimorados então geram legendas detalhadas e dados de raciocínio CoT, que são posteriormente curados por meio de autoconsistência. Esses dados curados são, por fim, usados para pré-treinamento multimodal, desenvolvendo modelos de próxima geração. Experimentos extensivos com MLLMs de baixa e alta resolução em diversos benchmarks demonstram que, com apenas 213K amostras de pré-treinamento autogeradas, o SIcog produz MLLMs de próxima geração com cognição significativamente aprimorada, alcançando desempenho líder nos benchmarks em comparação com abordagens de pré-treinamento predominantes.
Uma avaliação ideal de modelos deve alcançar dois objetivos: identificar onde o modelo falha e fornecer orientações acionáveis para melhorias. Em direção a esses objetivos para avaliações de Modelos de Linguagem (LM), formulamos o problema de gerar um perfil de fraquezas, um conjunto de fraquezas expressas em linguagem natural, com base no desempenho de um LM em cada instância individual de um benchmark. Introduzimos um conjunto de avaliações quantitativas para comparar diferentes métodos de criação de perfis de fraquezas. Também propomos um método de criação de perfis de fraquezas chamado EvalTree. Ele constrói uma árvore de capacidades onde cada nó representa uma capacidade descrita em linguagem natural e está vinculado a um subconjunto de instâncias do benchmark que avaliam especificamente essa capacidade; em seguida, extrai nós onde o LM tem desempenho ruim para gerar um perfil de fraquezas. Nos benchmarks MATH e WildChat, mostramos que o EvalTree supera métodos baselines de criação de perfis de fraquezas ao identificar fraquezas de forma mais precisa e abrangente. A criação de perfis de fraquezas também possibilita a coleta de dados guiada por fraquezas, e a coleta de dados de treinamento orientada pelas fraquezas identificadas pelo EvalTree melhora o desempenho do LM mais do que outras estratégias de coleta de dados. Também mostramos como o EvalTree expõe falhas na prática de avaliação baseada em votação humana do Chatbot Arena. Para facilitar trabalhos futuros, disponibilizamos nosso código e uma interface que permite que profissionais explorem interativamente as árvores de capacidades construídas pelo EvalTree.
Nos últimos anos, os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) demonstraram avanços notáveis em tarefas como resposta a perguntas visuais, compreensão visual e raciocínio. No entanto, esse progresso impressionante depende de grandes quantidades de dados coletados da internet, levantando preocupações significativas sobre privacidade e segurança. Para abordar essas questões, o "machine unlearning" (MU) surgiu como uma solução promissora, permitindo a remoção de conhecimentos específicos de um modelo já treinado sem a necessidade de retreiná-lo do zero. Embora o MU para MLLMs tenha ganhado atenção, as avaliações atuais de sua eficácia permanecem incompletas, e o problema subjacente é frequentemente mal definido, o que dificulta o desenvolvimento de estratégias para criar sistemas mais seguros e confiáveis. Para preencher essa lacuna, introduzimos um benchmark, denominado PEBench, que inclui um conjunto de dados de entidades pessoais e cenas de eventos gerais correspondentes, projetado para avaliar de forma abrangente o desempenho do MU para MLLMs. Por meio do PEBench, nosso objetivo é fornecer uma estrutura padronizada e robusta para avançar a pesquisa em modelos multimodais seguros e que preservam a privacidade. Avaliamos 6 métodos de MU, revelando seus pontos fortes e limitações, e destacando desafios e oportunidades-chave para o MU em MLLMs.
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em várias tarefas de processamento de linguagem natural. No entanto, alcançar um desempenho forte em domínios especializados, como raciocínio matemático e idiomas não ingleses, frequentemente requer treinamento extensivo em conjuntos de dados massivos. Este artigo investiga uma abordagem contrastante: o ajuste fino estratégico em um pequeno conjunto de dados bilíngue (inglês-francês) de alta qualidade para aprimorar tanto as capacidades de raciocínio quanto a proficiência em francês de um modelo de linguagem de grande escala. Em vez de depender da escala, exploramos a hipótese de que a curadoria de dados direcionada e o treinamento otimizado podem alcançar desempenho competitivo, ou até superior. Demonstramos, por meio de ajuste fino supervisionado (SFT) direcionado em apenas 2.000 amostras cuidadosamente selecionadas, melhorias significativas no raciocínio matemático. Especificamente, o Pensez 7B exibe um aumento na precisão do modelo base de até 20% no AIME25 e um aumento de 12% em um benchmark francês de nível 5 do MATH. Esses resultados desafiam a suposição predominante de que conjuntos de dados massivos são um pré-requisito para um forte desempenho de raciocínio em LLMs, destacando o potencial da curadoria de dados estratégica e do ajuste fino otimizado para aprimorar tanto habilidades especializadas quanto capacidades multilingues. Nossas descobertas têm implicações para o desenvolvimento eficiente de LLMs multilingues de alto desempenho, especialmente em cenários com recursos limitados.
A Percepção Colaborativa à Beira da Estrada refere-se a um sistema onde múltiplas unidades à beira da estrada colaboram para agrupar seus dados perceptuais, auxiliando veículos a aprimorar sua consciência ambiental. Os métodos existentes de percepção à beira da estrada concentram-se no design do modelo, mas negligenciam questões de dados, como erros de calibração, informações esparsas e consistência multi-visão, resultando em desempenho insatisfatório em conjuntos de dados recentemente publicados. Para aprimorar significativamente a percepção colaborativa à beira da estrada e abordar questões críticas de dados, apresentamos o primeiro framework de simulação RoCo-Sim para percepção colaborativa à beira da estrada. O RoCo-Sim é capaz de gerar dados simulados diversos e consistentes em multi-visão através da edição dinâmica de primeiro plano e transferência de estilo de cena completa de uma única imagem. O RoCo-Sim consiste em quatro componentes: (1) A Otimização de Extrínsecos da Câmera garante a projeção precisa de 3D para 2D para câmeras à beira da estrada; (2) Um novo Amostrador Consciente de Oclusão Multi-Visão (MOAS) determina o posicionamento de diversos ativos digitais no espaço 3D; (3) O DepthSAM modela de forma inovadora as relações entre primeiro plano e fundo a partir de imagens de visão fixa de quadro único, garantindo a consistência multi-visão do primeiro plano; e (4) Um Kit de Ferramentas de Pós-Processamento Escalável gera cenas mais realistas e enriquecidas através de transferência de estilo e outros aprimoramentos. O RoCo-Sim melhora significativamente a detecção de objetos 3D à beira da estrada, superando os métodos SOTA em 83,74 no Rcooper-Intersection e 83,12 no TUMTraf-V2X para AP70. O RoCo-Sim preenche uma lacuna crítica na simulação de percepção à beira da estrada. Código e modelos pré-treinados serão lançados em breve: https://github.com/duyuwen-duen/RoCo-Sim
A adaptação de domínio em grafos surgiu como uma abordagem promissora para facilitar a transferência de conhecimento entre diferentes domínios. Recentemente, diversos modelos foram propostos para aprimorar suas capacidades de generalização nesse campo. No entanto, ainda não existe uma biblioteca unificada que reúna as técnicas existentes e simplifique sua implementação. Para preencher essa lacuna, apresentamos o PyGDA, uma biblioteca Python de código aberto especializada em adaptação de domínio em grafos. Como a primeira biblioteca abrangente nessa área, o PyGDA cobre mais de 20 métodos amplamente utilizados de adaptação de domínio em grafos, juntamente com diferentes tipos de conjuntos de dados de grafos. Especificamente, o PyGDA oferece componentes modulares, permitindo que os usuários construam modelos personalizados de forma contínua, com uma variedade de funções utilitárias comumente usadas. Para lidar com grafos em grande escala, o PyGDA inclui suporte para recursos como amostragem e processamento em mini-lotes, garantindo computação eficiente. Além disso, o PyGDA também inclui benchmarks de desempenho abrangentes e uma API bem documentada e de fácil uso, tanto para pesquisadores quanto para profissionais. Para promover acessibilidade conveniente, o PyGDA é lançado sob a licença MIT em https://github.com/pygda-team/pygda, e a documentação da API está disponível em https://pygda.readthedocs.io/en/stable/.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm demonstrado capacidades impressionantes em raciocínio, mas vêm com um custo computacional substancial, limitando sua implantação em ambientes com recursos restritos. Apesar dos esforços recentes para melhorar a eficiência dos MLLMs, as soluções anteriores não conseguem responder adequadamente às condições variáveis de tempo de execução, em particular à mudança na disponibilidade de recursos (por exemplo, contenção devido à execução de outros programas no dispositivo). Para preencher essa lacuna, apresentamos o AdaLLaVA, um framework de inferência adaptativa que aprende a reconfigurar dinamicamente as operações em um MLLM durante a inferência, considerando os dados de entrada e um orçamento de latência. Realizamos experimentos extensos em benchmarks envolvendo questionamento, raciocínio e alucinação. Nossos resultados mostram que o AdaLLaVA adere efetivamente ao orçamento de latência de entrada, alcançando diferentes compensações entre precisão e latência em tempo de execução. Além disso, demonstramos que o AdaLLaVA se adapta tanto à latência de entrada quanto ao conteúdo, pode ser integrado com seleção de tokens para maior eficiência e generaliza-se entre diferentes MLLMs. A página do nosso projeto com o lançamento do código está disponível em https://zhuoyan-xu.github.io/ada-llava/.
Com o rápido avanço dos modelos de linguagem de grande escala (LLMs) e modelos visão-linguagem (VLMs), progressos significativos foram alcançados no desenvolvimento de sistemas de manipulação robótica de vocabulário aberto. No entanto, muitas abordagens existentes negligenciam a importância da dinâmica dos objetos, limitando sua aplicabilidade a tarefas mais complexas e dinâmicas. Neste trabalho, apresentamos o KUDA, um sistema de manipulação de vocabulário aberto que integra o aprendizado de dinâmica e o prompting visual por meio de pontos-chave, aproveitando tanto VLMs quanto modelos neurais de dinâmica baseados em aprendizado. Nossa principal percepção é que uma especificação de destino baseada em pontos-chave é simultaneamente interpretável por VLMs e pode ser eficientemente traduzida em funções de custo para planejamento baseado em modelos. Dadas instruções em linguagem natural e observações visuais, o KUDA primeiro atribui pontos-chave à imagem RGB e consulta o VLM para gerar especificações de destino. Essas representações abstratas baseadas em pontos-chave são então convertidas em funções de custo, que são otimizadas usando um modelo de dinâmica aprendido para produzir trajetórias robóticas. Avaliamos o KUDA em uma variedade de tarefas de manipulação, incluindo instruções de linguagem livre em diversas categorias de objetos, interações com múltiplos objetos e objetos deformáveis ou granulares, demonstrando a eficácia de nossa abordagem. A página do projeto está disponível em http://kuda-dynamics.github.io.
Abordar a recuperação de conteúdo inseguro em modelos visão-linguagem, como o CLIP, é um passo importante para a integração no mundo real. Os esforços atuais têm se baseado em técnicas de "desaprendizado" que tentam apagar o conhecimento do modelo sobre conceitos inseguros. Embora eficazes na redução de saídas indesejadas, o desaprendizado limita a capacidade do modelo de discernir entre conteúdo seguro e inseguro. Neste trabalho, introduzimos uma abordagem inovadora que muda do paradigma de desaprendizado para um de consciência, aproveitando as propriedades hierárquicas inerentes do espaço hiperbólico. Propomos codificar conteúdo seguro e inseguro como uma hierarquia de implicação, onde ambos são colocados em diferentes regiões do espaço hiperbólico. Nosso HySAC, CLIP Consciente de Segurança Hiperbólica, emprega funções de perda de implicação para modelar as relações hierárquicas e assimétricas entre pares imagem-texto seguros e inseguros. Essa modelagem, ineficaz em modelos visão-linguagem padrão devido à sua dependência de embeddings euclidianos, confere ao modelo a consciência do conteúdo inseguro, permitindo que ele funcione tanto como um classificador multimodal de conteúdo inseguro quanto como um recuperador de conteúdo flexível, com a opção de redirecionar dinamicamente consultas inseguras para alternativas mais seguras ou manter a saída original. Experimentos extensivos mostram que nossa abordagem não apenas melhora o reconhecimento de segurança, mas também estabelece uma estrutura mais adaptável e interpretável para moderação de conteúdo em modelos visão-linguagem. Nosso código-fonte está disponível em https://github.com/aimagelab/HySAC.
Modelos generativos têm recentemente alcançado progressos notáveis no campo de objetos 3D. No entanto, sua aplicação prática em áreas como engenharia ainda é limitada, pois não conseguem fornecer a precisão, qualidade e controlabilidade necessárias para tarefas específicas do domínio. O ajuste fino de grandes modelos generativos é uma perspectiva promissora para tornar esses modelos disponíveis nessas áreas. A criação de conjuntos de dados 3D de alta qualidade e específicos para o domínio é crucial para o ajuste fino de grandes modelos generativos, mas o processo de filtragem e anotação de dados continua sendo um gargalo significativo. Apresentamos o MeshFleet, um conjunto de dados de veículos 3D filtrado e anotado, extraído do Objaverse-XL, a maior coleção publicamente disponível de objetos 3D. Nossa abordagem propõe um pipeline para filtragem automatizada de dados com base em um classificador de qualidade. Esse classificador é treinado em um subconjunto rotulado manualmente do Objaverse, incorporando embeddings do DINOv2 e SigLIP, refinados por meio de análise baseada em legendas e estimativa de incerteza. Demonstramos a eficácia do nosso método de filtragem por meio de uma análise comparativa contra técnicas baseadas em legendas e pontuações estéticas de imagens, além de experimentos de ajuste fino com o SV3D, destacando a importância da seleção direcionada de dados para a modelagem generativa 3D específica do domínio.
A condução autónoma cooperativa veículo-a-veículo (V2V) apresenta um grande potencial para melhorar a segurança, ao abordar as incertezas de perceção e previsão inerentes aos sistemas de agente único. No entanto, os métodos cooperativos tradicionais são limitados por protocolos de colaboração rígidos e uma generalização limitada para cenários interativos não vistos. Embora as abordagens baseadas em LLM (Large Language Models) ofereçam capacidades de raciocínio generalizado, os seus desafios no planeamento espacial e a latência de inferência instável impedem a sua aplicação direta na condução cooperativa. Para superar estas limitações, propomos o CoLMDriver, o primeiro sistema de condução cooperativa baseado em LLM de pipeline completo, permitindo uma negociação eficaz baseada em linguagem e controlo de condução em tempo real. O CoLMDriver apresenta um pipeline de condução paralelo com dois componentes principais: (i) um módulo de negociação baseado em LLM sob um paradigma actor-critic, que refina continuamente as políticas de cooperação através do feedback das decisões anteriores de todos os veículos; e (ii) um gerador de waypoints guiado por intenções, que traduz os resultados da negociação em waypoints executáveis. Adicionalmente, introduzimos o InterDrive, um benchmark de simulação baseado no CARLA, composto por 10 cenários de condução interativa desafiadores para avaliar a cooperação V2V. Os resultados experimentais demonstram que o CoLMDriver supera significativamente as abordagens existentes, alcançando uma taxa de sucesso 11% superior em diversos cenários de condução V2V altamente interativos. O código será disponibilizado em https://github.com/cxliu0314/CoLMDriver.