Artigos de pesquisa em IA selecionados diariamente com traduções
Para abordar o gargalo da interpretação precisa da intenção do usuário na comunidade atual de geração de vídeos, apresentamos o Any2Caption, uma nova estrutura para geração controlada de vídeos sob qualquer condição. A ideia principal é desacoplar várias etapas de interpretação de condições da etapa de síntese de vídeo. Ao aproveitar modelos modernos de linguagem multimodal de grande escala (MLLMs), o Any2Caption interpreta diversas entradas--texto, imagens, vídeos e sinais especializados como região, movimento e poses de câmera--em legendas densas e estruturadas que oferecem orientação mais eficaz aos geradores de vídeo principais. Também introduzimos o Any2CapIns, um conjunto de dados em larga escala com 337K instâncias e 407K condições para ajuste de instruções de qualquer-condição-para-legenda. Avaliações abrangentes demonstram melhorias significativas do nosso sistema em termos de controlabilidade e qualidade de vídeo em vários aspectos dos modelos existentes de geração de vídeo. Página do Projeto: https://sqwu.top/Any2Cap/
O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) como avaliadores oferece uma alternativa escalável à anotação humana, porém as abordagens existentes de Ajuste Fino Supervisionado (SFT) para juízes frequentemente ficam aquém em domínios que exigem raciocínio complexo. Neste trabalho, investigamos se os juízes baseados em LLMs realmente se beneficiam de capacidades aprimoradas de raciocínio. Através de uma análise detalhada dos requisitos de raciocínio em tarefas de avaliação, revelamos uma correlação negativa entre os ganhos de desempenho do SFT e a proporção de amostras que demandam raciocínio — destacando as limitações do SFT nesses cenários. Para abordar isso, introduzimos o JudgeLRM, uma família de LLMs orientados para julgamento, treinados usando aprendizado por reforço (RL) com recompensas orientadas a resultados e específicas para juízes. Os modelos JudgeLRM superam consistentemente tanto os modelos ajustados por SFT quanto os modelos de raciocínio state-of-the-art. Notavelmente, o JudgeLRM-3B supera o GPT-4, e o JudgeLRM-7B supera o DeepSeek-R1 em 2,79% no score F1, destacando-se especialmente em tarefas de julgamento que exigem raciocínio profundo.
A atenção suave é um mecanismo crucial que capacita os LLMs a localizar partes relevantes dentro de um determinado contexto. No entanto, os pesos individuais de atenção são determinados pela similaridade de apenas um único vetor de token de consulta e chave. Essa "atenção de token único" limita a quantidade de informação utilizada para distinguir uma parte relevante do restante do contexto. Para resolver esse problema, propomos um novo método de atenção, a Atenção Multi-Token (MTA), que permite que os LLMs condicionem seus pesos de atenção em múltiplos vetores de consulta e chave simultaneamente. Isso é alcançado aplicando operações de convolução sobre consultas, chaves e cabeças, permitindo que consultas e chaves próximas afetem os pesos de atenção umas das outras para uma atenção mais precisa. Como resultado, nosso método pode localizar contextos relevantes utilizando informações mais ricas e matizadas que podem exceder a capacidade de um único vetor. Através de avaliações extensas, demonstramos que a MTA alcança um desempenho aprimorado em uma variedade de benchmarks populares. Notavelmente, ela supera os modelos de linha de base Transformer em tarefas padrão de modelagem de linguagem e em tarefas que exigem a busca de informações em contextos longos, onde a capacidade do nosso método de aproveitar informações mais ricas se mostra particularmente benéfica.
Os avanços recentes na geração de Cadeia de Pensamento (Chain of Thought - COT) melhoraram significativamente as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (Large Language Models - LLMs), com o aprendizado por reforço (Reinforcement Learning - RL) emergindo como uma abordagem eficaz de pós-treinamento. Os Modelos de Linguagem Multimodais de Grande Escala (Multimodal Large Language Models - MLLMs) herdam esse potencial de raciocínio, mas ainda são pouco explorados em tarefas que exigem tanto percepção quanto raciocínio lógico. Para abordar isso, introduzimos o SEED-Bench-R1, um benchmark projetado para avaliar sistematicamente métodos de pós-treinamento para MLLMs em compreensão de vídeos. Ele inclui vídeos complexos do mundo real e tarefas de planejamento cotidiano no formato de questões de múltipla escolha, exigindo percepção e raciocínio sofisticados. O SEED-Bench-R1 avalia a generalização por meio de uma hierarquia de três níveis: cenários dentro da distribuição, entre ambientes e entre ambientes e tarefas, equipado com um grande conjunto de dados de treinamento com respostas verdadeiras facilmente verificáveis. Usando o Qwen2-VL-Instruct-7B como modelo base, comparamos o RL com o ajuste fino supervisionado (Supervised Fine-Tuning - SFT), demonstrando a eficiência de dados do RL e seu desempenho superior tanto em tarefas dentro da distribuição quanto fora dela, superando até mesmo o SFT em benchmarks gerais de compreensão de vídeos, como o LongVideoBench. Nossa análise detalhada revela que o RL melhora a percepção visual, mas frequentemente produz cadeias de raciocínio menos coerentes logicamente. Identificamos limitações-chave, como raciocínio inconsistente e pistas visuais negligenciadas, e sugerimos melhorias futuras no raciocínio do modelo base, modelagem de recompensas e robustez do RL contra sinais ruidosos.
A reprodução do pré-treinamento de modelos de linguagem multimodal (MLLM) de última geração enfrenta barreiras em todas as etapas do pipeline, incluindo filtragem de dados de alta qualidade, estratégias de mistura de dados multimodais, técnicas de empacotamento de sequências e frameworks de treinamento. Apresentamos o Open-Qwen2VL, um Modelo de Linguagem Multimodal de 2 bilhões de parâmetros totalmente open-source, pré-treinado de forma eficiente em 29 milhões de pares imagem-texto utilizando apenas 442 horas de GPU A100-40G. Nossa abordagem emprega resolução dinâmica de imagem de baixa para alta e empacotamento de sequências multimodais para melhorar significativamente a eficiência do pré-treinamento. O conjunto de dados de treinamento foi cuidadosamente curado utilizando tanto técnicas de filtragem baseadas em MLLM (por exemplo, MLM-Filter) quanto métodos convencionais de filtragem baseados em CLIP, melhorando substancialmente a qualidade dos dados e a eficiência do treinamento. O pré-treinamento do Open-Qwen2VL foi conduzido em GPUs de nível acadêmico 8xA100-40G na UCSB em 5 bilhões de tokens multimodais empacotados, o que representa 0,36% dos 1,4 trilhões de tokens de pré-treinamento multimodal do Qwen2-VL. O Open-Qwen2VL ajustado por instruções supera o MLLM de última geração parcialmente open-source Qwen2-VL-2B em vários benchmarks multimodais, como MMBench, SEEDBench, MMstar e MathVista, indicando a notável eficiência de treinamento do Open-Qwen2VL. Disponibilizamos open-source todos os aspectos do nosso trabalho, incluindo detalhes de treinamento eficiente em termos de computação e dados, métodos de filtragem de dados, scripts de empacotamento de sequências, dados de pré-treinamento no formato WebDataset, código de treinamento baseado em FSDP, e checkpoints dos modelos base e ajustados por instruções. Redefinimos "totalmente open" para MLLMs multimodais como o lançamento completo de: 1) o código de treinamento, 2) técnicas detalhadas de filtragem de dados, e 3) todos os dados de pré-treinamento e ajuste fino supervisionado utilizados no desenvolvimento do modelo.
A síntese indutiva de programas, ou programação por exemplos, envolve a síntese de funções a partir de exemplos de entrada-saída que generalizam para entradas não vistas. Embora agentes baseados em grandes modelos de linguagem tenham mostrado potencial em tarefas de programação guiadas por linguagem natural, sua capacidade de realizar síntese indutiva de programas ainda é pouco explorada. Os protocolos de avaliação existentes dependem de conjuntos estáticos de exemplos e testes reservados, não oferecendo feedback quando as funções sintetizadas estão incorretas e falhando em refletir cenários do mundo real, como engenharia reversa. Propomos o CodeARC, o Desafio de Abstração e Raciocínio de Código, um novo framework de avaliação no qual os agentes interagem com uma função alvo oculta, consultando-a com novas entradas, sintetizando funções candidatas e refinando iterativamente suas soluções usando um oráculo de teste diferencial. Esse cenário interativo incentiva os agentes a realizar chamadas de funções e autocorreção com base no feedback. Construímos o primeiro benchmark em larga escala para síntese indutiva de programas de propósito geral, contendo 1114 funções. Entre 18 modelos avaliados, o o3-mini obteve o melhor desempenho, com uma taxa de sucesso de 52,7%, destacando a dificuldade dessa tarefa. O ajuste fino do LLaMA-3.1-8B-Instruct em traços de síntese curados resultou em um ganho de desempenho relativo de até 31%. O CodeARC oferece um ambiente de teste mais realista e desafiador para avaliar a síntese de programas e o raciocínio indutivo baseados em LLM.
O Aprendizado Visual Autossupervisionado (SSL, na sigla em inglês) atualmente tem desempenho inferior ao Pré-treinamento Contrastivo de Linguagem-Imagem (CLIP, na sigla em inglês) em cenários multimodais, como Resposta a Perguntas Visuais (VQA, na sigla em inglês). Essa lacuna multimodal é frequentemente atribuída à semântica introduzida pela supervisão de linguagem, embora os modelos de SSL visual e CLIP sejam frequentemente treinados em dados diferentes. Neste trabalho, questionamos: "As abordagens visuais autossupervisionadas ficam atrás do CLIP devido à falta de supervisão de linguagem ou às diferenças nos dados de treinamento?" Investigamos essa questão treinando tanto modelos de SSL visual quanto CLIP nos mesmos dados do MetaCLIP e utilizando o VQA como um ambiente diversificado para testar codificadores visuais. Nessa configuração controlada, os modelos de SSL visual escalam melhor do que os modelos CLIP em termos de dados e capacidade do modelo, e o desempenho do SSL visual não satura mesmo após escalar para 7 bilhões de parâmetros. Consequentemente, observamos que métodos de SSL visual alcançam desempenho equivalente ao CLIP em uma ampla gama de benchmarks de VQA e visão clássica. Esses resultados demonstram que o SSL visual puro pode igualar o pré-treinamento visual supervisionado por linguagem em escala, abrindo novas oportunidades para o aprendizado de representações centradas em visão.
Apesar dos avanços notáveis na estimativa de profundidade em vídeos, os métodos existentes apresentam limitações inerentes na obtenção de fidelidade geométrica por meio de previsões invariantes a afinidades, restringindo sua aplicabilidade em reconstrução e outras tarefas subsequentes baseadas em métricas. Propomos o GeometryCrafter, uma nova estrutura que recupera sequências de mapas de pontos de alta fidelidade com coerência temporal a partir de vídeos do mundo aberto, permitindo reconstrução 3D/4D precisa, estimativa de parâmetros da câmera e outras aplicações baseadas em profundidade. No cerne de nossa abordagem está um Variational Autoencoder (VAE) de mapas de pontos que aprende um espaço latente agnóstico às distribuições latentes de vídeo para codificação e decodificação eficiente de mapas de pontos. Aproveitando o VAE, treinamos um modelo de difusão de vídeo para modelar a distribuição de sequências de mapas de pontos condicionadas aos vídeos de entrada. Avaliações extensas em diversos conjuntos de dados demonstram que o GeometryCrafter alcança precisão 3D de ponta, consistência temporal e capacidade de generalização.
Numerosas aplicações de modelos de linguagem de grande escala (LLMs) dependem de sua capacidade de realizar raciocínio passo a passo. No entanto, o comportamento de raciocínio dos LLMs ainda é pouco compreendido, o que representa desafios para pesquisa, desenvolvimento e segurança. Para abordar essa lacuna, introduzimos o "landscape of thoughts" - a primeira ferramenta de visualização que permite aos usuários inspecionar os caminhos de raciocínio de cadeias de pensamento e suas derivadas em qualquer conjunto de dados de múltipla escolha. Especificamente, representamos os estados em um caminho de raciocínio como vetores de características que quantificam suas distâncias em relação a todas as opções de resposta. Essas características são então visualizadas em gráficos bidimensionais usando t-SNE. A análise qualitativa e quantitativa com o "landscape of thoughts" distingue efetivamente entre modelos fortes e fracos, respostas corretas e incorretas, bem como diferentes tarefas de raciocínio. Ele também revela padrões indesejáveis de raciocínio, como baixa consistência e alta incerteza. Além disso, os usuários podem adaptar nossa ferramenta a um modelo que prevê a propriedade que eles observam. Demonstramos essa vantagem ao adaptar nossa ferramenta a um verificador leve que avalia a correção dos caminhos de raciocínio. O código está publicamente disponível em: https://github.com/tmlr-group/landscape-of-thoughts.
Modelos de Linguagem de Grande Escala (LLMs) podem alcançar uma resolução de problemas complexos aprimorada por meio da escalabilidade computacional em tempo de teste, embora isso frequentemente envolva contextos mais longos e custos elevados de tokens de raciocínio. Neste artigo, propomos um método eficiente de escalabilidade em tempo de teste que treina LLMs em trajetórias de raciocínio relacionadas a código, facilitando a redução de tokens de pensamento excessivos enquanto mantém o desempenho. Primeiro, criamos o Z1-Code-Reasoning-107K, um conjunto de dados curado de problemas de codificação simples e complexos, pareados com suas trajetórias de solução curtas e longas. Segundo, apresentamos uma Janela de Pensamento Deslocada (Shifted Thinking Window) para mitigar a sobrecarga de pensamento excessivo, removendo tags delimitadoras de contexto (por exemplo, <think>. . . </think>) e limitando os tokens de raciocínio. Treinado com dados de trajetórias longas e curtas e equipado com a Janela de Pensamento Deslocada, nosso modelo, Z1-7B, demonstra a capacidade de ajustar seu nível de raciocínio conforme a complexidade dos problemas e exibe uma escalabilidade eficiente em tempo de teste em diferentes tarefas de raciocínio, correspondendo ao desempenho do R1-Distill-Qwen-7B com cerca de 30% de seus tokens médios de pensamento. Notavelmente, ajustado apenas com trajetórias de código, o Z1-7B demonstra generalização para tarefas de raciocínio mais amplas (47,5% no GPQA Diamond). Nossa análise da elicitação eficiente de raciocínio também fornece insights valiosos para pesquisas futuras.
Neste relatório, descrevemos o desenvolvimento do Command A, um poderoso modelo de linguagem de grande escala projetado especificamente para se destacar em casos de uso empresariais do mundo real. O Command A é um modelo otimizado para agentes e com capacidade multilingue, oferecendo suporte a 23 idiomas relevantes para negócios globais, além de uma arquitetura híbrida inovadora que equilibra eficiência com desempenho de ponta. Ele apresenta capacidades de Geração Aumentada por Recuperação (RAG) de classe superior, com ancoragem e uso de ferramentas para automatizar processos empresariais sofisticados. Essas habilidades são alcançadas por meio de uma abordagem de treinamento descentralizada, incluindo algoritmos de autorrefinamento e técnicas de fusão de modelos. Também incluímos resultados para o Command R7B, que compartilha capacidades e similaridades arquitetônicas com o Command A. Os pesos de ambos os modelos foram liberados para fins de pesquisa. Este relatório técnico detalha nosso pipeline de treinamento original e apresenta uma avaliação extensiva de nossos modelos em uma série de tarefas relevantes para empresas e benchmarks públicos, demonstrando desempenho e eficiência excepcionais.
Agentes de uso de computador automatizam tarefas digitais interagindo diretamente com interfaces gráficas de usuário (GUIs) em computadores e dispositivos móveis, oferecendo um potencial significativo para aumentar a produtividade humana ao completar um espaço aberto de consultas do usuário. No entanto, os agentes atuais enfrentam desafios consideráveis: imprecisão na localização de elementos da GUI, dificuldades com planejamento de tarefas de longo prazo e gargalos de desempenho devido à dependência de modelos generalistas únicos para diversas tarefas cognitivas. Para isso, apresentamos o Agente S2, uma estrutura composicional inovadora que delega responsabilidades cognitivas entre vários modelos generalistas e especializados. Propomos uma nova técnica de Mistura-de-Localização para alcançar uma localização precisa da GUI e introduzimos o Planejamento Hierárquico Proativo, que refina dinamicamente planos de ação em múltiplas escalas temporais em resposta a observações em evolução. As avaliações demonstram que o Agente S2 estabelece um novo estado da arte (SOTA) em três benchmarks proeminentes de uso de computador. Especificamente, o Agente S2 alcança melhorias relativas de 18,9% e 32,7% sobre agentes de linha de base líderes, como o Claude Computer Use e o UI-TARS, nas avaliações de 15 e 50 etapas do OSWorld. Além disso, o Agente S2 generaliza efetivamente para outros sistemas operacionais e aplicativos, superando os melhores métodos anteriores em 52,8% no WindowsAgentArena e em 16,52% no AndroidWorld. O código está disponível em https://github.com/simular-ai/Agent-S.
A rápida escalada de problemas de nível escolar fundamental para desafios de fronteira na dificuldade dos benchmarks para LLMs (Modelos de Linguagem de Grande Escala) nos últimos anos teceu um milagre para os pesquisadores, fazendo-nos acreditar que estamos a poucos passos de superar a inteligência humana. No entanto, a impressionante capacidade de raciocínio dos LLMs realmente deriva de uma inteligência genuína pelos padrões humanos, ou estão simplesmente recitando soluções observadas durante o treinamento em escala da Internet? Para estudar essa questão, propomos o RoR-Bench, um benchmark multimodal inovador projetado para detectar o comportamento de recitação dos LLMs quando confrontados com problemas de raciocínio simples, mas com condições sutilmente alteradas, e realizamos uma análise empírica em nosso benchmark. Surpreendentemente, descobrimos que os LLMs de ponta existentes exibem, de forma unânime, um comportamento de recitação extremamente severo; ao alterar uma única frase na condição, modelos líderes como o OpenAI-o1 e o DeepSeek-R1 podem sofrer uma queda de 60% no desempenho em problemas de aritmética e raciocínio de nível escolar fundamental. Essas descobertas são um alerta para a comunidade de LLMs, compelindo-nos a reavaliar o verdadeiro nível de inteligência dos modelos de ponta.
A avaliação eficaz de modelos de linguagem de grande escala (LLMs) continua sendo um gargalo crítico, uma vez que os benchmarks estáticos tradicionais sofrem com saturação e contaminação, enquanto as avaliações humanas são caras e lentas. Isso dificulta a avaliação oportuna ou específica de domínio, crucial para aplicações do mundo real. Apresentamos o YourBench, uma estrutura inovadora e de código aberto que aborda essas limitações, permitindo a geração dinâmica e automatizada de benchmarks confiáveis, atualizados e adaptados ao domínio de forma econômica e sem anotação manual, diretamente a partir de documentos fornecidos pelo usuário. Demonstramos sua eficácia ao replicar 7 subconjuntos diversos do MMLU usando textos-fonte mínimos, alcançando isso por menos de 15 USD em custos totais de inferência, enquanto preservamos perfeitamente as classificações de desempenho relativo dos modelos (Spearman Rho = 1) observadas no benchmark original. Para garantir que o YourBench gere dados fundamentados nas entradas fornecidas, em vez de depender de conhecimento paramétrico posterior nos modelos, também introduzimos o Tempora-0325, um novo conjunto de dados com mais de 7 mil documentos diversos, publicados exclusivamente após março de 2025. Nossa análise abrangente abrange 26 modelos de última geração (SoTA) de 7 famílias principais em várias escalas (3-671B parâmetros) para validar a qualidade das avaliações geradas por meio de verificações algorítmicas rigorosas (por exemplo, fundamentação de citações) e avaliações humanas. Disponibilizamos a biblioteca YourBench, o conjunto de dados Tempora-0325, mais de 150 mil pares de perguntas e respostas baseados no Tempora e todos os rastros de avaliação e inferência para facilitar pesquisas reproduzíveis e capacitar a comunidade a gerar benchmarks personalizados sob demanda, promovendo uma avaliação de LLMs mais relevante e confiável.
Agentes de interface gráfica (GUI), impulsionados por grandes modelos de base, podem interagir com interfaces digitais, permitindo diversas aplicações em automação web, navegação móvel e testes de software. No entanto, sua crescente autonomia tem levantado preocupações críticas sobre sua segurança, privacidade e confiabilidade. Esta pesquisa examina a confiabilidade dos agentes de GUI em cinco dimensões críticas: vulnerabilidades de segurança, confiabilidade em ambientes dinâmicos, transparência e explicabilidade, considerações éticas e metodologias de avaliação. Também identificamos grandes desafios, como a vulnerabilidade a ataques adversariais, modos de falha em cascata na tomada de decisão sequencial e a falta de benchmarks de avaliação realistas. Esses problemas não apenas dificultam a implantação no mundo real, mas também exigem estratégias abrangentes de mitigação que vão além do sucesso na execução de tarefas. À medida que os agentes de GUI se tornam mais difundidos, é essencial estabelecer padrões robustos de segurança e práticas de desenvolvimento responsáveis. Esta pesquisa fornece uma base para o avanço de agentes de GUI confiáveis por meio de uma compreensão sistemática e pesquisas futuras.
Gerar movimentos humanos guiados por condições como descrições textuais é desafiador devido à necessidade de conjuntos de dados com pares de movimentos de alta qualidade e suas condições correspondentes. A dificuldade aumenta ao buscar um controle mais refinado na geração. Para isso, trabalhos anteriores propuseram combinar vários modelos de difusão de movimento pré-treinados em conjuntos de dados com diferentes tipos de condições, permitindo assim o controle com múltiplas condições. No entanto, as estratégias de fusão propostas ignoram que a maneira ideal de combinar os processos de geração pode depender das particularidades de cada modelo generativo pré-treinado e também das descrições textuais específicas. Nesse contexto, apresentamos o MixerMDM, a primeira técnica de composição de modelos aprendível para combinar modelos de difusão de movimento humano pré-treinados condicionados por texto. Diferente das abordagens anteriores, o MixerMDM fornece uma estratégia de mistura dinâmica que é treinada de forma adversarial para aprender a combinar o processo de remoção de ruído de cada modelo dependendo do conjunto de condições que orientam a geração. Ao usar o MixerMDM para combinar modelos de difusão de movimento para uma e várias pessoas, alcançamos um controle refinado sobre a dinâmica de cada indivíduo separadamente, e também sobre a interação geral. Além disso, propomos uma nova técnica de avaliação que, pela primeira vez nesta tarefa, mede a interação e a qualidade individual ao calcular o alinhamento entre os movimentos gerados misturados e suas condições, bem como as capacidades do MixerMDM de adaptar a mistura ao longo do processo de remoção de ruído dependendo dos movimentos a serem misturados.
Os recentes avanços nos Modelos de Linguagem de Grande Escala (LLMs) têm aprimorado significativamente sua capacidade de realizar tarefas de raciocínio complexo, transitando de um pensamento rápido e intuitivo (Sistema 1) para um raciocínio lento e profundo (Sistema 2). Embora o raciocínio do Sistema 2 melhore a precisão das tarefas, ele frequentemente incorre em custos computacionais substanciais devido à sua natureza de pensamento lento e a comportamentos de raciocínio ineficientes ou desnecessários. Em contraste, o raciocínio do Sistema 1 é computacionalmente eficiente, mas resulta em desempenho subótimo. Consequentemente, é crucial equilibrar a relação entre desempenho (benefícios) e custos computacionais (orçamentos), dando origem ao conceito de economia de raciocínio. Nesta pesquisa, fornecemos uma análise abrangente da economia de raciocínio tanto nas etapas de pós-treinamento quanto de inferência em tempo de teste dos LLMs, abrangendo i) a causa da ineficiência de raciocínio, ii) a análise do comportamento de diferentes padrões de raciocínio e iii) possíveis soluções para alcançar a economia de raciocínio. Ao oferecer insights acionáveis e destacar desafios em aberto, nosso objetivo é lançar luz sobre estratégias para melhorar a economia de raciocínio dos LLMs, servindo assim como um recurso valioso para avançar a pesquisa nesta área em evolução. Também fornecemos um repositório público para acompanhar continuamente os desenvolvimentos neste campo de rápida evolução.
O rápido avanço dos modelos de linguagem multimodal (MLLMs), como o GPT-4o, impulsionou o desenvolvimento dos modelos de linguagem Omni, projetados para processar e responder proativamente a fluxos contínuos de dados multimodais. Apesar de seu potencial, avaliar suas capacidades interativas no mundo real em contextos de vídeo em streaming continua sendo um desafio formidável. Neste trabalho, apresentamos o OmniMMI, um benchmark abrangente de interação multimodal projetado para OmniLLMs em contextos de vídeo em streaming. O OmniMMI abrange mais de 1.121 vídeos e 2.290 perguntas, abordando dois desafios críticos e ainda pouco explorados nos benchmarks de vídeo existentes: compreensão de vídeo em streaming e raciocínio proativo, distribuídos em seis subtarefas distintas. Além disso, propomos um novo framework, o Multi-modal Multiplexing Modeling (M4), projetado para permitir um modelo de streaming eficiente em inferência que possa ver, ouvir enquanto gera.
A escalonamento do cálculo em tempo de teste emergiu como uma estratégia fundamental para aprimorar as capacidades de raciocínio de grandes modelos de linguagem (LLMs), especialmente em tarefas como a resolução de problemas matemáticos. Uma abordagem tradicional, a Autoconsistência (Self-Consistency, SC), gera múltiplas soluções para um problema e seleciona a resposta mais comum por meio de votação majoritária. Outro método comum envolve pontuar cada solução com um modelo de recompensa (verificador) e escolher a melhor. Avanços recentes em Modelos de Recompensa Generativos (Generative Reward Models, GenRM) reformulam a verificação como uma tarefa de previsão do próximo token, permitindo o escalonamento em tempo de inferência ao longo de um novo eixo. Especificamente, o GenRM gera múltiplas cadeias de raciocínio de verificação para pontuar cada solução. Sob um orçamento de inferência limitado, isso introduz uma troca fundamental: você deve gastar o orçamento escalonando soluções via SC ou gerar menos soluções e alocar cálculo para verificação via GenRM? Para abordar isso, avaliamos o GenRM em comparação com o SC sob um orçamento de inferência fixo. Curiosamente, descobrimos que o SC é mais eficiente em termos de cálculo do que o GenRM para a maioria dos orçamentos práticos de inferência em diversos modelos e conjuntos de dados. Por exemplo, o GenRM só iguala o SC após consumir até 8x o cálculo de inferência e requer significativamente mais cálculo para superá-lo. Além disso, derivamos leis de escalonamento de inferência para o paradigma GenRM, revelando que a inferência ótima em termos de cálculo favorece o escalonamento da geração de soluções de forma mais agressiva do que o escalonamento do número de verificações. Nosso trabalho fornece orientações práticas sobre como otimizar o escalonamento em tempo de teste equilibrando a geração de soluções e a verificação. O código está disponível em https://github.com/nishadsinghi/sc-genrm-scaling.
A redução de tokens visuais diminui os custos de inferência causados pelas extensas características de imagem em grandes modelos de visão e linguagem (LVLMs). Diferentemente de estudos relevantes que podam tokens em LVLMs baseados apenas em auto-atenção, nosso trabalho aborda de forma única modelos baseados em atenção cruzada, que alcançam desempenho superior. Identificamos que o tamanho do cache de chave-valor (KV) para tokens de imagem em camadas de atenção cruzada excede significativamente o de tokens de texto em camadas de auto-atenção, representando um grande gargalo computacional. Para mitigar esse problema, exploramos a natureza esparsa nos mapas de atenção cruzada para podar seletivamente características visuais redundantes. Nosso Trimmed Llama reduz efetivamente as demandas de cache KV sem a necessidade de treinamento adicional. Ao se beneficiar de características visuais reduzidas em 50%, nosso modelo pode diminuir a latência de inferência e o uso de memória, mantendo a paridade em benchmarks.
O escalonamento em tempo de teste surgiu como uma técnica poderosa para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala. No entanto, sua eficácia no raciocínio médico permanece incerta, uma vez que o domínio médico difere fundamentalmente das tarefas matemáticas em termos de representação de conhecimento e processos de tomada de decisão. Neste artigo, fornecemos a primeira investigação abrangente do escalonamento em tempo de teste para o raciocínio médico e apresentamos m1, uma abordagem simples, porém eficaz, que aumenta a capacidade de raciocínio médico de um modelo durante a inferência. Nossa avaliação em diversas tarefas médicas demonstra que o escalonamento em tempo de teste melhora consistentemente o raciocínio médico, permitindo que modelos levemente ajustados com menos de 10 bilhões de parâmetros estabeleçam novos recordes de desempenho de última geração, enquanto nosso modelo de 32 bilhões rivaliza com modelos médicos de linguagem de grande escala anteriores de 70 bilhões. No entanto, identificamos um orçamento ideal de tokens de raciocínio de aproximadamente 4 mil, além do qual o desempenho pode se degradar devido ao excesso de pensamento. O forçamento de orçamento, que estende a computação em tempo de teste por meio de prompts iterativos, ajuda os modelos a verificarem as respostas, mas não necessariamente melhora o desempenho geral em perguntas e respostas médicas e, em alguns casos, até introduz erros em respostas previamente corretas. Nossa análise caso a caso identifica o conhecimento médico insuficiente como um gargalo chave que impede ganhos adicionais de desempenho por meio do escalonamento em tempo de teste. Descobrimos que aumentar a escala dos dados, melhorar a qualidade dos dados e expandir a capacidade do modelo aprimoram consistentemente o embasamento do conhecimento médico, permitindo melhorias contínuas de desempenho, particularmente em benchmarks médicos desafiadores onde modelos menores atingem a saturação. Esses achados destacam diferenças fundamentais entre o raciocínio médico e matemático em modelos de linguagem de grande escala, enfatizando que o enriquecimento do conhecimento médico, além do aumento da profundidade de raciocínio por si só, é essencial para realizar os benefícios do escalonamento em tempo de teste.
A escalonamento durante a inferência pode aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) em problemas complexos que se beneficiam da resolução passo a passo. Embora o alongamento de rascunhos gerados tenha se mostrado eficaz para tarefas matemáticas, o impacto mais amplo dessa abordagem em outras tarefas ainda permanece menos claro. Neste trabalho, investigamos os benefícios e limitações dos métodos de escalonamento em nove modelos de última geração e oito tarefas desafiadoras, incluindo raciocínio matemático e STEM, planejamento de calendário, problemas NP-difíceis, navegação e raciocínio espacial. Comparamos modelos convencionais (por exemplo, GPT-4o) com modelos ajustados para escalonamento durante a inferência (por exemplo, o1) por meio de protocolos de avaliação que envolvem chamadas repetidas do modelo, seja de forma independente ou sequencial com feedback. Essas avaliações aproximam limites inferiores e superiores de desempenho e o potencial para melhorias futuras de desempenho para cada modelo, seja por meio de treinamento aprimorado ou sistemas de inferência multi-modelo. Nossa extensa análise empírica revela que as vantagens do escalonamento durante a inferência variam entre as tarefas e diminuem à medida que a complexidade do problema aumenta. Além disso, simplesmente usar mais tokens não necessariamente se traduz em maior precisão nesses regimes desafiadores. Resultados de múltiplas execuções independentes com modelos convencionais usando verificadores perfeitos mostram que, para algumas tarefas, esses modelos podem alcançar desempenho próximo à média dos modelos de raciocínio mais avançados de hoje. No entanto, para outras tarefas, uma lacuna significativa de desempenho permanece, mesmo em regimes de escalonamento muito altos. De forma encorajadora, todos os modelos demonstram ganhos significativos quando a inferência é ainda mais escalonada com verificadores perfeitos ou feedback forte, sugerindo um amplo potencial para melhorias futuras.
Recentemente, os métodos de fusão de modelos têm demonstrado grande eficácia na combinação de habilidades em diversas tarefas a partir de múltiplos Modelos de Linguagem de Grande Escala (LLMs). Enquanto os métodos anteriores de fusão de modelos se concentravam principalmente na fusão de modelos homogêneos com arquitetura idêntica, eles enfrentam desafios ao lidar com Modelos de Linguagem de Grande Escala Multimodais (MLLMs), que possuem uma propriedade inerentemente heterogênea, incluindo diferenças na arquitetura do modelo e assimetria no espaço de parâmetros. Neste trabalho, propomos o AdaMMS, um novo método de fusão de modelos projetado especificamente para MLLMs heterogêneos. Nosso método aborda os desafios em três etapas: mapeamento, fusão e busca. Especificamente, primeiro projetamos uma função de mapeamento entre modelos para aplicar a fusão de modelos em MLLMs com arquiteturas diferentes. Em seguida, aplicamos interpolação linear nos pesos dos modelos para adaptar ativamente a assimetria presente nos MLLMs heterogêneos. Por fim, na etapa de busca de hiperparâmetros, propomos um método de seleção de hiperparâmetros não supervisionado para a fusão de modelos. Como o primeiro método de fusão de modelos capaz de fundir MLLMs heterogêneos sem dados rotulados, experimentos extensivos em diversas combinações de modelos demonstraram que o AdaMMS supera os métodos anteriores de fusão de modelos em vários benchmarks de visão e linguagem.
Text-to-SQL é uma tarefa desafiadora que envolve múltiplas subtarefas intensivas em raciocínio, incluindo compreensão de linguagem natural, entendimento de esquemas de banco de dados e formulação precisa de consultas SQL. As abordagens existentes frequentemente dependem de caminhos de raciocínio manuais com vieses indutivos que podem limitar sua eficácia geral. Motivados pelo recente sucesso de modelos aprimorados por raciocínio, como DeepSeek R1 e OpenAI o1, que efetivamente utilizam autoexploração orientada por recompensas para melhorar capacidades de raciocínio e generalização, propomos um novo conjunto de recompensas parciais especificamente adaptadas para a tarefa Text-to-SQL. Nosso conjunto de recompensas inclui vinculação de esquema, feedback de IA, similaridade de n-gramas e verificação de sintaxe, projetados explicitamente para abordar o problema de esparsidade de recompensas prevalente no aprendizado por reforço (RL). Utilizando a otimização de política relativa em grupo (GRPO), nossa abordagem incentiva explicitamente modelos de linguagem de grande escala (LLMs) a desenvolver habilidades intrínsecas de raciocínio necessárias para a geração precisa de consultas SQL. Com modelos de diferentes tamanhos, demonstramos que o treinamento exclusivo com RL usando nossas recompensas propostas consistentemente alcança maior precisão e superior generalização em comparação com o ajuste fino supervisionado (SFT). Notavelmente, nosso modelo treinado com RL de 14 bilhões de parâmetros supera significativamente modelos proprietários maiores, como o o3-mini em 4% e o Gemini-1.5-Pro-002 em 3% no benchmark BIRD. Esses resultados destacam a eficácia de nossa estrutura de treinamento com RL e recompensas parciais para aprimorar tanto a precisão quanto as capacidades de raciocínio em tarefas Text-to-SQL.
Abordamos a tarefa de divisão de vídeos em capítulos, ou seja, a segmentação de uma linha do tempo de vídeo longo em unidades semânticas e a geração de títulos correspondentes para cada capítulo. Embora relativamente pouco explorada, a divisão automática de capítulos tem o potencial de permitir uma navegação e recuperação de conteúdo eficientes em vídeos de longa duração. Neste artigo, alcançamos um desempenho robusto na divisão de capítulos em vídeos de uma hora ao abordar o problema de forma eficiente no domínio textual com nosso framework 'Chapter-Llama'. Especificamente, utilizamos um modelo de linguagem de grande escala (LLM) pré-treinado com uma janela de contexto ampla, fornecendo como entrada (i) transcrições de fala e (ii) legendas que descrevem os quadros do vídeo, juntamente com seus respectivos carimbos de tempo. Dada a ineficiência de legendar exaustivamente todos os quadros, propomos uma estratégia leve de seleção de quadros guiada pela fala, baseada no conteúdo da transcrição, e demonstramos experimentalmente vantagens notáveis. Treinamos o LLM para gerar carimbos de tempo para os limites dos capítulos, bem como títulos de capítulos em formato livre. Essa abordagem simples, porém poderosa, escala para processar vídeos de uma hora em uma única passada. Nossos resultados demonstram melhorias substanciais (por exemplo, 45,3 vs 26,7 no F1-score) em relação ao estado da arte no recente benchmark VidChapters-7M. Para promover pesquisas futuras, disponibilizamos nosso código e modelos na página do projeto.
Modelos de linguagem de grande escala (LLMs) possuem capacidades linguísticas impressionantes, mas frequentemente falham em reter fielmente conhecimento factual, levando a alucinações e saídas não confiáveis. Compreender as deficiências de conhecimento dos LLMs por meio de avaliação exaustiva contra bases de conhecimento em larga escala é computacionalmente proibitivo, especialmente para modelos de pesos fechados. Propomos o Stochastic Error Ascent (SEA), uma estrutura escalável e eficiente para descobrir deficiências de conhecimento (erros) em LLMs de pesos fechados sob um orçamento rigoroso de consultas. Em vez de sondar ingenuamente todos os candidatos de conhecimento, o SEA formula a descoberta de erros como um processo de otimização estocástica: ele recupera iterativamente novos candidatos de alto erro aproveitando a similaridade semântica com falhas previamente observadas. Para aprimorar ainda mais a eficiência e a cobertura da busca, o SEA emprega recuperação hierárquica em níveis de documento e parágrafo, e constrói um grafo acíclico direcionado de relações para modelar a propagação de erros e identificar modos de falha sistemáticos. Empiricamente, o SEA descobre 40,7 vezes mais erros de conhecimento do que o Automated Capability Discovery e 26,7% mais do que o AutoBencher, enquanto reduz o custo por erro em 599 vezes e 9 vezes, respectivamente. A avaliação humana confirma a alta qualidade das perguntas geradas, enquanto análises de ablação e convergência validam a contribuição de cada componente no SEA. Uma análise adicional dos erros descobertos revela padrões de falha correlacionados entre famílias de LLMs e déficits recorrentes, destacando a necessidade de melhor cobertura de dados e ajuste fino direcionado no desenvolvimento futuro de LLMs.
As mãos humanas desempenham um papel central na interação, motivando pesquisas crescentes em manipulação robótica hábil. Algoritmos de IA incorporada baseados em dados exigem sequências de manipulação precisas, em larga escala e semelhantes às humanas, que são desafiadoras de obter com aprendizado por reforço convencional ou teleoperação no mundo real. Para abordar isso, introduzimos o ManipTrans, um método inovador de duas etapas para transferir eficientemente habilidades bimanuais humanas para mãos robóticas hábeis em simulação. O ManipTrans primeiro pré-treina um imitador de trajetória generalista para imitar o movimento das mãos, depois ajusta um módulo residual específico sob restrições de interação, permitindo aprendizado eficiente e execução precisa de tarefas bimanuais complexas. Experimentos mostram que o ManipTrans supera métodos state-of-the-art em taxa de sucesso, fidelidade e eficiência. Aproveitando o ManipTrans, transferimos múltiplos conjuntos de dados mão-objeto para mãos robóticas, criando o DexManipNet, um conjunto de dados em larga escala que inclui tarefas anteriormente inexploradas, como tampar canetas e desenroscar garrafas. O DexManipNet compreende 3,3 mil episódios de manipulação robótica e é facilmente extensível, facilitando o treinamento adicional de políticas para mãos hábeis e permitindo implantações no mundo real.
Reconstruir representações 3D nítidas a partir de imagens multi-visão desfocadas é um problema de longa data na visão computacional. Trabalhos recentes tentam melhorar a síntese de novas visões de alta qualidade a partir do desfoque de movimento, aproveitando câmeras baseadas em eventos, que beneficiam de alta faixa dinâmica e resolução temporal de microssegundos. No entanto, eles frequentemente alcançam qualidade visual subótima, seja restaurando cores imprecisas ou perdendo detalhes refinados. Neste artigo, apresentamos o DiET-GS, um método de desfoque de movimento 3DGS assistido por fluxo de eventos e prior de difusão. Nosso framework aproveita efetivamente tanto os fluxos de eventos livres de desfoque quanto a prior de difusão em uma estratégia de treinamento em duas etapas. Especificamente, introduzimos um novo framework para restringir o 3DGS com a integral dupla de eventos, alcançando tanto cores precisas quanto detalhes bem definidos. Além disso, propomos uma técnica simples para aproveitar a prior de difusão e aprimorar ainda mais os detalhes das bordas. Resultados qualitativos e quantitativos em dados sintéticos e do mundo real demonstram que nosso DiET-GS é capaz de produzir novas visões com qualidade significativamente melhor em comparação com as abordagens existentes. Nossa página do projeto está disponível em https://diet-gs.github.io.
Propomos um framework unificado que integra detecção de objetos (OD) e ancoragem visual (VG) para imagens de sensoriamento remoto (RS). Para suportar a OD convencional e estabelecer um prior intuitivo para a tarefa de VG, ajustamos finamente um detector de objetos de conjunto aberto utilizando dados de expressões referenciais, enquadrando-o como uma tarefa de OD parcialmente supervisionada. Na primeira etapa, construímos uma representação em grafo de cada imagem, composta por consultas de objetos, embeddings de classe e localizações de propostas. Em seguida, nossa arquitetura orientada à tarefa processa esse grafo para realizar a tarefa de VG. O modelo consiste em: (i) uma rede de múltiplos ramos que integra características espaciais, visuais e categóricas para gerar propostas orientadas à tarefa, e (ii) uma rede de raciocínio sobre objetos que atribui probabilidades entre as propostas, seguida por um mecanismo de seleção suave para a localização final do objeto referenciado. Nosso modelo demonstra desempenho superior nos conjuntos de dados OPT-RSVG e DIOR-RSVG, alcançando melhorias significativas em relação aos métodos state-of-the-art, mantendo simultaneamente as capacidades clássicas de OD. O código estará disponível em nosso repositório: https://github.com/rd20karim/MB-ORES.