Artigos de pesquisa em IA selecionados diariamente com traduções
O paradigma "Pensar com Texto" e "Pensar com Imagens" melhora significativamente a capacidade de raciocínio de Modelos de Linguagem de Grande Porte (LLMs) e Modelos de Linguagem Visual (VLMs). No entanto, estes paradigmas possuem limitações inerentes. (1) As imagens capturam apenas momentos únicos e não conseguem representar processos dinâmicos ou mudanças contínuas, e (2) A separação entre texto e visão como modalidades distintas dificulta a compreensão e geração multimodal unificada. Para superar estas limitações, introduzimos o "Pensar com Vídeo", um novo paradigma que aproveita modelos de geração de vídeo, como o Sora-2, para unir o raciocínio visual e textual num quadro temporal unificado. Para apoiar esta exploração, desenvolvemos a Video Thinking Benchmark (VideoThinkBench). A VideoThinkBench abrange duas categorias de tarefas: (1) tarefas centradas na visão (ex: Quebra-Cabeças Visuais) e (2) tarefas centradas no texto (ex: subconjuntos do GSM8K, MMMU). A nossa avaliação estabelece o Sora-2 como um raciocinador competente. Nas tarefas centradas na visão, o Sora-2 é geralmente comparável aos VLMs de última geração (SOTA), e até supera os VLMs em várias tarefas, como Jogos de Percepção Visual. Nas tarefas centradas no texto, o Sora-2 atinge 92% de precisão no MATH e 75,53% de precisão no MMMU. Adicionalmente, analisamos sistematicamente a origem destas capacidades. Também descobrimos que a autoconsistência e a aprendizagem contextual podem melhorar o desempenho do Sora-2. Em resumo, as nossas descobertas demonstram que o modelo de geração de vídeo é o potencial modelo unificado de compreensão e geração multimodal, posicionando o "pensar com vídeo" como um paradigma unificado de raciocínio multimodal.
Dotar os Grandes Modelos Multimodais (LMMs) com a capacidade de integrar profundamente a interação com imagens e o raciocínio de longo prazo continua a ser um desafio persistente nesta área. Avanços recentes no raciocínio centrado na visão exploram um paradigma promissor de "Pensar com Imagens" para LMMs, marcando uma transição do raciocínio assistido por imagem para o pensamento interativo com imagens. Embora este marco permita que os modelos se concentrem em regiões de imagem de granularidade fina, o progresso permanece limitado por espaços visuais de ferramentas restritos e projetos de fluxo de trabalho específicos para tarefas. Para superar esta lacuna, apresentamos o V-Thinker, um assistente de raciocínio multimodal de propósito geral que permite o pensamento interativo e centrado na visão através de aprendizagem por reforço de ponta a ponta. O V-Thinker compreende dois componentes principais: (1) um *Data Evolution Flywheel* que sintetiza, evolui e verifica automaticamente conjuntos de dados de raciocínio interativo em três dimensões - diversidade, qualidade e dificuldade; e (2) um *Visual Progressive Training Curriculum* que primeiro alinha a perceção através de supervisão a nível de pontos, integrando depois o raciocínio interativo através de uma estrutura de aprendizagem por reforço em duas fases. Adicionalmente, introduzimos o VTBench, um benchmark verificado por especialistas direcionado para tarefas de raciocínio interativo centrado na visão. Experimentos extensivos demonstram que o V-Thinker supera consistentemente linhas de base robustas baseadas em LMMs tanto em cenários de raciocínio geral como interativo, fornecendo insights valiosos para o avanço de aplicações de raciocínio interativo com imagens.
Embora o aprendizado por reforço (RL) possa capacitar agentes de modelos de linguagem grande (LLM) ao permitir a autoaprimoração por meio da interação, sua adoção prática permanece desafiadora devido à execução custosa de rollouts, diversidade limitada de tarefas, sinais de recompensa não confiáveis e complexidade de infraestrutura, fatores que obstruem a coleta de dados de experiência escaláveis. Para enfrentar esses desafios, introduzimos o DreamGym, o primeiro framework unificado projetado para sintetizar experiências diversas com escalabilidade em mente, permitindo o treinamento RL online eficaz para agentes autônomos. Em vez de depender de rollouts caros em ambientes reais, o DreamGym destila a dinâmica do ambiente em um modelo de experiência baseado em raciocínio que deriva transições de estado consistentes e sinais de feedback por meio de raciocínio passo a passo, permitindo a coleta escalável de rollouts de agentes para RL. Para melhorar a estabilidade e a qualidade das transições, o DreamGym aproveita um buffer de replay de experiência inicializado com dados offline do mundo real e continuamente enriquecido com interações recentes para apoiar ativamente o treinamento do agente. Para melhorar a aquisição de conhecimento, o DreamGym gera adaptativamente novas tarefas que desafiam a política atual do agente, permitindo um aprendizado curricular online mais eficaz. Experimentos em diversos ambientes e arquiteturas de agentes demonstram que o DreamGym melhora substancialmente o treinamento RL, tanto em configurações totalmente sintéticas quanto em cenários de transferência sim-to-real. Em tarefas não prontas para RL, como o WebArena, o DreamGym supera todas as baselines em mais de 30%. E em configurações prontas para RL, mas custosas, ele iguala o desempenho do GRPO e do PPO usando apenas interações sintéticas. Ao transferir uma política treinada puramente em experiências sintéticas para RL em ambiente real, o DreamGym produz ganhos de desempenho adicionais significativos, exigindo muito menos interações do mundo real, fornecendo uma estratégia de warm-start escalável para RL de propósito geral.
Argumentamos que o progresso em inteligência multimodal genuína exige uma mudança de sistemas reativos e orientados por tarefas, bem como do uso de contexto longo por força bruta, para um paradigma mais amplo de supersensoriamento. Enquadramos o supersensoriamento espacial em quatro estágios além da compreensão puramente linguística: percepção semântica (nomear o que é visto), cognição de eventos em fluxo contínuo (manter a memória através de experiências contínuas), cognição espacial 3D implícita (inferir o mundo por trás dos pixels) e modelagem preditiva do mundo (criar modelos internos que filtram e organizam informações). Os benchmarks atuais testam principalmente os estágios iniciais, oferecendo uma cobertura limitada da cognição espacial e raramente desafiando os modelos de maneira que exija uma verdadeira modelagem do mundo. Para impulsionar o progresso no supersensoriamento espacial, apresentamos o VSI-SUPER, um benchmark composto por duas partes: VSR (recordação visual espacial de longo horizonte) e VSC (contagem visual espacial contínua). Essas tarefas exigem entradas de vídeo arbitrariamente longas, mas são resistentes à expansão de contexto por força bruta. Em seguida, testamos os limites de escalonamento de dados ao criar o VSI-590K e treinar o Cambrian-S, alcançando uma melhoria absoluta de +30% no VSI-Bench sem sacrificar capacidades gerais. No entanto, o desempenho no VSI-SUPER permanece limitado, indicando que a escala por si só é insuficiente para o supersensoriamento espacial. Propomos a sensoriamento preditivo como um caminho a seguir, apresentando uma prova de conceito na qual um preditor auto supervisionado do próximo quadro latente aproveita o surpresa (erro de predição) para orientar a memória e a segmentação de eventos. No VSI-SUPER, essa abordagem supera substancialmente as linhas de base proprietárias líderes, mostrando que o supersensoriamento espacial requer modelos que não apenas veem, mas também antecipam, selecionam e organizam a experiência.
Apresentamos o Nemotron Nano V2 VL, o modelo mais recente da série de visão e linguagem Nemotron, projetado para uma forte compreensão de documentos do mundo real, compreensão de vídeos longos e tarefas de raciocínio. O Nemotron Nano V2 VL oferece melhorias significativas em relação ao nosso modelo anterior, o Llama-3.1-Nemotron-Nano-VL-8B, em todos os domínios de visão e texto, por meio de grandes aprimoramentos na arquitetura do modelo, conjuntos de dados e metodologias de treinamento. O Nemotron Nano V2 VL é baseado no Nemotron Nano V2, um LLM híbrido Mamba-Transformer, e em técnicas inovadoras de redução de tokens para alcançar um throughput de inferência mais alto em cenários de documentos e vídeos longos. Estamos disponibilizando checkpoints do modelo nos formatos BF16, FP8 e FP4 e compartilhando grande parte dos nossos conjuntos de dados, metodologias e código de treinamento.
A hipótese do bilhete de loteria forte (SLTH) conjectura que sub-redes de alto desempenho, denominadas bilhetes de loteria fortes (SLTs), estão ocultas em redes neurais inicializadas aleatoriamente. Embora estudos teóricos recentes tenham estabelecido a SLTH em várias arquiteturas neurais, a SLTH para arquiteturas de transformadores ainda carece de compreensão teórica. Em particular, a teoria atual da SLTH ainda não leva em conta o mecanismo de atenção de múltiplas cabeças (MHA), um componente central dos transformadores. Para preencher essa lacuna, introduzimos uma análise teórica da existência de SLTs dentro de MHAs. Provamos que, se um MHA inicializado aleatoriamente com H cabeças e dimensão de entrada d tiver a dimensão oculta O(dlog(Hd^{3/2})) para a chave e o valor, ele contém um SLT que aproxima um MHA arbitrário com a mesma dimensão de entrada com alta probabilidade. Além disso, ao aproveitar essa teoria para MHAs, estendemos a SLTH para transformadores sem camadas de normalização. Validamos empiricamente nossas descobertas teóricas, demonstrando que o erro de aproximação entre o SLT dentro de um modelo de origem (MHA e transformador) e uma contraparte alvo aproximada diminui exponencialmente ao aumentar a dimensão oculta do modelo de origem.
Apresentamos o GUI-360°, um conjunto de dados em larga escala e abrangente e uma suíte de benchmarks projetados para avançar os agentes de uso de computador (CUAs). Os CUAs apresentam desafios únicos e são limitados por três lacunas persistentes: a escassez de tarefas reais de CUAs, a falta de pipelines automatizados de coleta e anotação para trajetórias multimodais e a ausência de um benchmark unificado que avalie conjuntamente a fundamentação em GUI, a análise de tela e a previsão de ações. O GUI-360° aborda essas lacunas com um pipeline aumentado por LLM e largamente automatizado para obtenção de consultas, construção de modelos de ambiente, instanciação de tarefas, execução em lote e filtragem de qualidade dirigida por LLM. O corpus liberado contém mais de 1,2 milhão de etapas de ação executadas em milhares de trajetórias em aplicativos populares do Windows Office, e inclui capturas de tela em resolução total, metadados de acessibilidade quando disponíveis, objetivos instanciados, rastros de raciocínio intermediários e trajetórias de ação bem-sucedidas e mal-sucedidas. O conjunto de dados suporta três tarefas canônicas - fundamentação em GUI, análise de tela e previsão de ações - e um espaço de ação híbrido GUI+API que reflete os projetos modernos de agentes. A avaliação de modelos state-of-the-art de visão e linguagem no GUI-360° revela deficiências substanciais prontas para uso na fundamentação e previsão de ações; o ajuste fino supervisionado e o aprendizado por reforço produzem ganhos significativos, mas não fecham a lacuna para a confiabilidade em nível humano. Liberamos o GUI-360° e o código que o acompanha para facilitar pesquisas reproduzíveis e acelerar o progresso em CUAs robustos para desktop. O conjunto de dados completo foi disponibilizado publicamente em https://huggingface.co/datasets/vyokky/GUI-360.
Os recentes avanços em Modelos de Visão e Linguagem (VLMs) alcançaram desempenho de ponta em inúmeras tarefas de referência. No entanto, o uso de corpora de pré-treinamento em escala de internet, muitas vezes proprietários, levanta uma preocupação crítica para profissionais e utilizadores: a inflação do desempenho devido ao vazamento do conjunto de teste. Embora trabalhos anteriores tenham proposto estratégias de mitigação, como a descontaminação de dados de pré-treinamento e o redesenho de benchmarks para LLMs, a direção complementar de desenvolver métodos de deteção para VLMs contaminados permanece pouco explorada. Para colmatar esta lacuna, contaminamos deliberadamente VLMs de código aberto em benchmarks populares e mostramos que as abordagens de deteção existentes falham completamente ou exibem comportamento inconsistente. Em seguida, propomos um novo método de deteção simples, mas eficaz, baseado em perturbação semântica multimodal, demonstrando que modelos contaminados não conseguem generalizar sob perturbações controladas. Finalmente, validamos a nossa abordagem em múltiplas estratégias de contaminação realistas, confirmando a sua robustez e eficácia. O código e o conjunto de dados perturbado serão disponibilizados publicamente.
Os benchmarks robustos são cruciais para avaliar Modelos de Linguagem Grandes Multimodais (MLLMs). No entanto, descobrimos que os modelos podem obter excelentes resultados em muitos benchmarks multimodais sem uma compreensão visual forte, explorando, em vez disso, vieses, pré-noções linguísticas e padrões superficiais. Isso é especialmente problemático para benchmarks centrados na visão que são projetados para exigir entradas visuais. Adotamos um princípio de diagnóstico para o design de benchmarks: se um benchmark pode ser "enganado", ele o será. Portanto, os designers devem tentar "enganar" seus próprios benchmarks primeiro, usando procedimentos de diagnóstico e debiasing para identificar e mitigar sistematicamente vieses não visuais. Um diagnóstico eficaz requer "treinar diretamente no conjunto de teste" – investigar o conjunto de teste liberado em busca de seus padrões intrínsecos e exploráveis. Operacionalizamos esse padrão com dois componentes. Primeiro, diagnosticamos a suscetibilidade do benchmark usando uma metodologia de "Teste de Estresse no Conjunto de Teste" (TsT). Nossa principal ferramenta de diagnóstico envolve o ajuste fino de um Modelo de Linguagem Grande poderoso via validação cruzada k-fold exclusivamente nas entradas textuais (não visuais) do conjunto de teste para revelar desempenho por atalhos e atribuir a cada amostra uma pontuação de viés s(x). Complementamos isso com um diagnóstico leve baseado em Random Forest que opera em características criadas manualmente para uma auditoria rápida e interpretável. Segundo, aplicamos debiasing nos benchmarks filtrando amostras de alto viés usando um procedimento de "Poda Iterativa de Viés" (IBP). Aplicando essa estrutura a quatro benchmarks – VSI-Bench, CV-Bench, MMMU e VideoMME – descobrimos vieses não visuais generalizados. Como estudo de caso, aplicamos nossa estrutura completa para criar o VSI-Bench-Debiased, demonstrando uma redução na solvabilidade não visual e uma lacuna de desempenho maior para modelos sem acesso visual em comparação com o original.
Padrões emergentes de sistemas de Grandes Modelos de Linguagem (LLMs), como inferência desagregada, roteamento de Mistura de Especialistas (MoE) e ajuste fino assíncrono por reforço, exigem comunicação ponto a ponto flexível que vai além de operações coletivas simples. As implementações existentes estão vinculadas a Controladores de Interface de Rede (NICs) específicos, dificultando a integração em motores de inferência e a portabilidade entre fornecedores de hardware. Apresentamos o TransferEngine, que conecta a funcionalidade de NICs comuns para expor uma interface uniforme. O TransferEngine expõe operações unilaterais WriteImm com um primitivo ImmCounter para notificação de conclusão, sem pressupostos de ordenação do transporte de rede, gerenciando de forma transparente múltiplos NICs por GPU. Demonstramos um pico de taxa de transferência de 400 Gbps tanto no NVIDIA ConnectX-7 quanto no Adaptador de Malha Elástica (EFA) da AWS. Ilustramos o TransferEngine por meio de três sistemas de produção: (1) transferência de KvCache para inferência desagregada com dimensionamento dinâmico, (2) atualizações de pesos por RL atingindo 1,3 segundos para modelos de trilhões de parâmetros, e (3) implementação de despacho/combinação de MoE que supera a latência de decodificação do DeepEP no ConnectX-7, com as primeiras latências viáveis no EFA. Demonstramos que nossa comunicação ponto a ponto portável complementa as operações coletivas enquanto evita o aprisionamento a fornecedores.
Propomos o EVTR, um modelo de Experimentação Virtual de Fim para Fim com Referência Adicional, que ajusta diretamente a peça de roupa alvo na imagem da pessoa, incorporando imagens de referência para aumentar a precisão da experimentação. A maioria das abordagens existentes de experimentação virtual depende de entradas complexas, como imagens agnósticas da pessoa, pose humana, *densepose* ou pontos-chave corporais, tornando-as trabalhosas e impraticáveis para aplicações do mundo real. Em contraste, o EVTAR adota uma estratégia de treinamento em dois estágios, permitindo uma inferência simples com apenas a imagem de origem e as entradas da peça de roupa alvo. Nosso modelo gera resultados de experimentação sem máscaras, *densepose* ou mapas de segmentação. Além disso, o EVTAR aproveita imagens de referência adicionais de diferentes indivíduos vestindo as mesmas roupas para preservar melhor a textura da peça e os detalhes refinados. Este mecanismo é análogo à forma como os humanos consideram modelos de referência ao escolher roupas, simulando assim um efeito de vestir mais realista e de alta qualidade. Enriquecemos os dados de treinamento com referências suplementares e imagens de pessoas não pareadas para suportar essas capacidades. Avaliamos o EVTAR em dois *benchmarks* amplamente utilizados e em diversas tarefas, e os resultados validam consistentemente a eficácia da nossa abordagem.
Apesar de impressionante compreensão de vídeo em alto nível, os modelos de linguagem multimodal apresentam dificuldades no raciocínio espacial através do tempo e do espaço. Embora as abordagens atuais de treinamento espacial dependam de dados de vídeo do mundo real, a obtenção de filmagens diversificadas com anotações espaciais precisas continua sendo um gargalo. Para aliviar este gargalo, apresentamos o SIMS-V – uma estrutura sistemática de geração de dados que aproveita as informações privilegiadas de simuladores 3D para criar dados de treinamento em vídeo espacialmente ricos para modelos de linguagem multimodal. Usando esta estrutura, investigamos quais propriedades dos dados simulados impulsionam a transferência eficaz para o mundo real através de ablações sistemáticas de tipos, misturas e escalas de perguntas. Identificamos um conjunto mínimo de três categorias de perguntas (medição métrica, raciocínio dependente de perspectiva e rastreamento temporal) que se mostram mais eficazes para desenvolver inteligência espacial transferível, superando a cobertura abrangente apesar de usar menos tipos de perguntas. Esses insights permitem um treinamento altamente eficiente: nosso modelo de linguagem de vídeo de 7 bilhões de parâmetros, ajustado com apenas 25 mil exemplos simulados, supera a linha de base maior de 72 bilhões e alcança desempenho competitivo com modelos proprietários em rigorosos benchmarks de raciocínio espacial do mundo real. Nossa abordagem demonstra generalização robusta, mantendo o desempenho na compreensão geral de vídeo enquanto mostra melhorias substanciais em tarefas espaciais incorporadas e do mundo real.
A avaliação automática de sistemas de tradução de fala para texto (ST) é tipicamente realizada através da comparação de hipóteses de tradução com uma ou mais traduções de referência. Embora eficaz até certo ponto, esta abordagem herda a limitação da avaliação baseada em referência, que ignora informações valiosas do *input* de origem. Na tradução automática (MT), progressos recentes demonstraram que métricas neurais que incorporam o texto de origem alcançam uma correlação mais forte com os julgamentos humanos. Estender esta ideia para o ST, no entanto, não é trivial porque a origem é áudio em vez de texto, e transcrições ou alinhamentos confiáveis entre a origem e as referências estão frequentemente indisponíveis. Neste trabalho, realizamos o primeiro estudo sistemático de métricas conscientes da origem para ST, com um foco particular nas condições operacionais do mundo real, onde as transcrições de origem não estão disponíveis. Exploramos duas estratégias complementares para gerar representações textais do áudio de entrada: transcrições de reconhecimento automático de fala (ASR) e retro-traduções da tradução de referência, e introduzimos um novo algoritmo de re-segmentação cruzada em duas etapas para abordar o desalinhamento entre fontes sintéticas e traduções de referência. As nossas experiências, realizadas em dois benchmarks de ST abrangendo 79 pares de idiomas e seis sistemas de ST com arquiteturas e níveis de desempenho diversos, mostram que as transcrições de ASR constituem uma fonte sintética mais confiável do que as retro-traduções quando a taxa de erro de palavra é inferior a 20%, enquanto as retro-traduções representam sempre uma alternativa computacionalmente mais económica, mas ainda assim eficaz. Além disso, o nosso algoritmo de re-segmentação cruzada permite o uso robusto de métricas de MT conscientes da origem na avaliação de ST, abrindo caminho para metodologias de avaliação de tradução de fala mais precisas e fundamentadas.
O futebol humanóide representa um desafio representativo para a inteligência incorporada, exigindo que os robôs operem dentro de um ciclo percepção-ação fortemente acoplado. No entanto, os sistemas existentes geralmente dependem de módulos desacoplados, resultando em respostas atrasadas e comportamentos incoerentes em ambientes dinâmicos, enquanto as limitações perceptivas do mundo real exacerbam ainda mais esses problemas. Neste trabalho, apresentamos um controlador unificado baseado em aprendizado por reforço que permite que robôs humanóides adquiram habilidades reativas de futebol através da integração direta da percepção visual e do controle de movimento. Nossa abordagem estende os Adversarial Motion Priors para configurações perceptivas em ambientes dinâmicos do mundo real, fazendo a ponte entre a imitação de movimento e o controle dinâmico visualmente fundamentado. Introduzimos uma arquitetura codificador-decodificador combinada com um sistema de percepção virtual que modela características visuais do mundo real, permitindo que a política recupere estados privilegiados a partir de observações imperfeitas e estabeleça uma coordenação ativa entre percepção e ação. O controlor resultante demonstra forte reatividade, executando consistentemente comportamentos de futebol coerentes e robustos em vários cenários, incluindo partidas reais da RoboCup.
Apresentamos o SAIL-RL, uma estrutura de pós-treinamento por reforço (RL) que aprimora as capacidades de raciocínio de modelos de linguagem grandes multimodais (MLLMs) ao ensiná-los quando e como pensar. As abordagens existentes são limitadas pela supervisão baseada apenas no resultado, que recompensa respostas corretas sem garantir um raciocínio sólido, e por estratégias de pensamento uniformes, que frequentemente levam ao excesso de análise em tarefas simples e à análise insuficiente em tarefas complexas. O SAIL-RL aborda esses desafigos com um sistema de recompensa duplo: a Recompensa pelo Pensamento, que avalia a qualidade do raciocínio por meio de fundamentação factual, coerência lógica e consistência da resposta, e a Recompensa de Julgamento, que determina adaptivamente se o raciocínio profundo ou a resposta direta é apropriada. Experimentos com o estado da arte SAIL-VL2 mostram que o SAIL-RL melhora os benchmarks de raciocínio e compreensão multimodal em escalas de 4B e 8B, alcançando desempenho competitivo contra modelos comerciais de código fechado, como o GPT-4o, e reduz substancialmente as alucinações, estabelecendo-se como uma estrutura fundamentada para a construção de MLLMs mais confiáveis e adaptativos. O código estará disponível em https://github.com/BytedanceDouyinContent/SAIL-RL.