Artigos de pesquisa em IA selecionados diariamente com traduções
Os grandes modelos de linguagem (LLMs) transformaram fundamentalmente o desenvolvimento de software automatizado ao permitir a tradução direta de descrições em linguagem natural em código funcional, impulsionando a adoção comercial por meio de ferramentas como Github Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) e Claude Code (Anthropic). Embora a área tenha evoluído drasticamente de sistemas baseados em regras para arquiteturas baseadas em Transformer, alcançando melhorias de desempenho de taxas de sucesso de um dígito para mais de 95% em benchmarks como HumanEval. Neste trabalho, fornecemos uma síntese abrangente e um guia prático (uma série de experimentos analíticos e de sondagem) sobre LLMs de código, examinando sistematicamente o ciclo de vida completo do modelo, desde a curadoria de dados até o pós-treinamento, por meio de paradigmas avançados de *prompting*, pré-treinamento de código, ajuste fino supervisionado, aprendizado por reforço e agentes autônomos de codificação. Analisamos a capacidade de código dos LLMs gerais (GPT-4, Claude, LLaMA) e dos LLMs especializados em código (StarCoder, Code LLaMA, DeepSeek-Coder e QwenCoder), examinando criticamente as técnicas, decisões de projeto e compensações (*trade-offs*). Além disso, articulamos a lacuna entre pesquisa e prática, entre a pesquisa acadêmica (por exemplo, *benchmarks* e tarefas) e a implantação no mundo real (por exemplo, tarefas de código relacionadas a software), incluindo correção de código, segurança, consciência contextual de grandes bases de código e integração com fluxos de trabalho de desenvolvimento, e mapeamos direções de pesquisa promissoras para necessidades práticas. Por fim, realizamos uma série de experimentos para fornecer uma análise abrangente do pré-treinamento de código, ajuste fino supervisionado e aprendizado por reforço, abrangendo a lei de escalonamento (*scaling law*), seleção de *framework*, sensibilidade de hiperparâmetros, arquiteturas de modelo e comparações de conjuntos de dados.
Os grandes modelos multimodais (LMMs) têm demonstrado grande potencial para o raciocínio em vídeo através de Cadeias de Pensamento textuais. No entanto, permanecem vulneráveis a alucinações, especialmente ao processar vídeos longos onde as evidências são esparsas e temporalmente dispersas. Inspirados pela forma como os humanos compreendem vídeos longos - primeiro analisando globalmente e depois examinando *clips* relevantes para obter detalhes - introduzimos o LongVT, uma estrutura agentiva de ponta a ponta que permite "Pensar com Vídeos Longos" através de uma Cadeia de Pensamento-Ferramenta Multimodal intercalada. Especificamente, exploramos a capacidade inerente de *grounding* temporal dos LMMs como uma ferramenta nativa de recorte de vídeo para ampliar um *clip* de vídeo específico e reamostrar *frames* de vídeo de granularidade mais fina. Este ciclo de raciocínio global-para-local continua até que as respostas estejam fundamentadas em evidências visuais recuperadas. Dada a escassez de dados de perguntas e respostas (QA) de granularidade fina para a tarefa de raciocínio em vídeos longos, curamos e disponibilizaremos um conjunto de dados denominado VideoSIAH para facilitar o treino e a avaliação. Especificamente, o nosso conjunto de dados de treino consiste em 247,9 mil amostras para *fine-tuning* supervisionado de arranque a frio integrado com ferramentas, 1,6 mil amostras para aprendizagem por reforço agentiva e 15,4 mil amostras para *fine-tuning* por reforço agentiva, respetivamente. O nosso *benchmark* de avaliação consiste em 1.280 pares de QA que foram cuidadosamente curados através de um *pipeline* de dados semiautomático com validação humana em ciclo fechado (*human-in-the-loop*). Com uma estratégia de treino de três fases meticulosamente desenhada e uma validação empírica extensiva, o LongVT supera consistentemente as *baselines* fortes existentes em quatro *benchmarks* desafiadores de compreensão e raciocínio em vídeos longos. Os nossos códigos, dados e *checkpoints* do modelo estão publicamente disponíveis em https://github.com/EvolvingLMMs-Lab/LongVT.
Este artigo propõe uma nova formulação para aprendizagem por reforço (RL) com grandes modelos de linguagem, explicando por que e sob quais condições a recompensa real a nível de sequência pode ser otimizada através de um objetivo substituto a nível de *token* em métodos de gradiente de política, como o REINFORCE. Especificamente, através de uma aproximação de primeira ordem, demonstramos que este substituto se torna progressivamente válido apenas quando tanto a discrepância treino-inferência quanto a estagnação da política são minimizadas. Este insight fornece uma explicação fundamentada para o papel crucial de várias técnicas amplamente adotadas na estabilização do treino de RL, incluindo correção de amostragem por importância, *clipping* e, particularmente, o *Routing Replay* para modelos de Mistura de Especialistas (MoE). Através de extensivos experimentos com um modelo MoE de 30B, totalizando centenas de milhares de horas de GPU, mostramos que, para o treino *on-policy*, o algoritmo básico de gradiente de política com correção de amostragem por importância atinge a maior estabilidade de treino. Quando atualizações *off-policy* são introduzidas para acelerar a convergência, combinar *clipping* e *Routing Replay* torna-se essencial para mitigar a instabilidade causada pela estagnação da política. Notavelmente, uma vez que o treino é estabilizado, a otimização prolongada produz consistentemente desempenho final comparável, independentemente da inicialização a partir do zero. Esperamos que os insights partilhados e as metodologias desenvolvidas para um treino de RL estável facilitem pesquisas futuras.
Os modelos multimodais atuais visam transcender as limitações das representações de modalidade única, unificando compreensão e geração, frequentemente utilizando tarefas de texto-para-imagem (T2I) para calibrar a consistência semântica. No entanto, a sua dependência da geração de imagem única e estática no treinamento e avaliação leva a um sobre-ajustamento à correspondência de padrões estáticos e à fusão semântica, ao mesmo tempo que impede fundamentalmente a sua capacidade de modelar processos dinâmicos que se desenrolam ao longo do tempo. Para enfrentar estas limitações, propomos o Envision - um benchmark de progressão causal de eventos para geração encadeada de texto-para-múltiplas-imagens. Baseado no conhecimento do mundo e estruturado pela causalidade espaço-temporal, ele reorganiza as dimensões de avaliação existentes e inclui 1.000 prompts de quatro estágios abrangendo seis domínios científicos e humanísticos. Para transicionar a avaliação de imagens únicas para sequências de frames e avaliar se os modelos verdadeiramente internalizam o conhecimento do mundo, respeitando as restrições causal-temporais, introduzimos o Envision-Score, uma métrica holística que integra consistência multidimensional, fisicalidade e estética. A avaliação abrangente de 15 modelos (10 modelos especializados em T2I, 5 modelos unificados) revela: os modelos especializados em T2I demonstram proficiência na renderização estética, mas carecem de conhecimento intrínseco do mundo. Os modelos multimodais unificados preenchem esta lacuna, superando consistentemente os seus congéneres especializados na coerência narrativa causal. Contudo, mesmo estas arquiteturas unificadas permanecem subordinadas aos modelos de código fechado e lutam para superar o desafio central da consistência espaço-temporal. Isto demonstra que um foco em imagens únicas causalmente isoladas impede o raciocínio e a geração multi-frame, promovendo a correspondência de padrões estáticos em detrimento da modelagem dinâmica do mundo - limitando, em última análise, a internalização do conhecimento do mundo e a geração.
Os modelos multimodais unificados (UMMs) visam realizar conjuntamente a compreensão e a geração multimodal dentro de uma única estrutura. Apresentamos o TUNA, um UMM nativo que constrói uma representação visual contínua unificada através da cascateamento de um codificador VAE com um codificador de representação. Este espaço de representação unificado permite o processamento de imagens e vídeos de ponta a ponta para tarefas de compreensão e geração. Em comparação com UMMs anteriores com representações desacopladas, o espaço visual unificado do TUNA evita incompatibilidades de formato de representação introduzidas por codificadores separados, superando as alternativas desacopladas tanto em compreensão quanto em geração. Além disso, observamos que codificadores de representação pré-treinados mais fortes produzem consistentemente um melhor desempenho em todas as tarefas multimodais, destacando a importância do codificador de representação. Por fim, nesta configuração unificada, o treinamento conjunto com dados de compreensão e de geração permite que as duas tarefas se beneficiem mutuamente, em vez de interferirem. Nossos extensos experimentos em benchmarks de compreensão e geração multimodal mostram que o TUNA alcança resultados de última geração em compreensão de imagem e vídeo, geração de imagem e vídeo e edição de imagem, demonstrando a eficácia e a escalabilidade do seu design de representação unificado.
Os Agentes de Pesquisa Profunda (DRAs) visam produzir automaticamente relatórios de nível analítico por meio de recuperação e síntese iterativa de informações. No entanto, a maioria dos DRAs existentes foi validada em benchmarks de perguntas e respostas, enquanto a pesquisa sobre a geração de relatórios abrangentes permanece negligenciada. Pior ainda, os benchmarks atuais para síntese de relatórios sofrem com a complexidade da tarefa e métricas subjetivas – isso não reflete as demandas dos usuários e limita a utilidade prática dos relatórios gerados. Para abordar essas lacunas, apresentamos o *Fine-grained DEepResearch bench* (FINDER), um benchmark aprimorado composto por 100 tarefas de pesquisa curadas por humanos, com 419 itens de lista de verificação estruturados que padronizam a estrutura do relatório, a profundidade analítica e o embasamento factual. Com base em aproximadamente 1.000 relatórios produzidos por DRAs predominantes, propomos ainda a *Deep rEsearch Failure Taxonomy* (DEFT), a primeira taxonomia de falhas para agentes de pesquisa profunda. A DEFT contém 14 modos de falha granulares abrangendo raciocínio, recuperação e geração, e é construída sobre a teoria fundamentada com coanotação humano-LLM e validação de confiabilidade interanotadores. Nossas descobertas experimentais revelam que os DRAs atuais têm dificuldades não com a compreensão da tarefa, mas com a integração de evidências, verificação e planejamento resiliente ao raciocínio.
Apresentamos a LFM2, uma família de Modelos de Base Líquida (Liquid Foundation Models) projetada para implantação eficiente em dispositivos e fortes capacidades de tarefas. Utilizando uma busca de arquitetura em loop com hardware sob restrições de latência de borda e memória, obtivemos uma estrutura híbrida compacta que combina convoluções curtas com portas (gated) com um pequeno número de blocos de atenção de consulta agrupada (grouped query attention), proporcionando até 2x mais velocidade no preenchimento prévio (prefill) e na decodificação em CPUs em comparação com modelos de tamanho similar. A família LFM2 abrange parâmetros de 350M a 8,3B, incluindo modelos densos (350M, 700M, 1,2B, 2,6B) e uma variante de mistura de especialistas (8,3B totais, 1,5B ativos), todos com comprimento de contexto de 32K. O pipeline de treinamento da LFM2 inclui um objetivo de destilação de conhecimento Top-K temperado e desacoplado que evita incompatibilidade de suporte; aprendizagem por currículo com dados ordenados por dificuldade; e uma receita de pós-treinamento em três etapas: ajuste fino supervisionado, otimização de preferência com normalização de comprimento e fusão de modelos. Pré-treinados em 10-12 trilhões de tokens, os modelos LFM2 alcançam resultados sólidos em diversos benchmarks; por exemplo, o LFM2-2.6B atinge 79,56% no IFEval e 82,41% no GSM8K. Desenvolvemos ainda variantes multimodal e de recuperação: LFM2-VL para tarefas de visão e linguagem, LFM2-Audio para áudio e LFM2-ColBERT para recuperação de informação. O LFM2-VL suporta compensações ajustáveis entre precisão e latência através de processamento visual eficiente em tokens, enquanto o LFM2-Audio separa os caminhos de entrada e saída de áudio para permitir interação de fala para fala em tempo real, competitiva com modelos 3 vezes maiores. O LFM2-ColBERT fornece um codificador de baixa latência para consultas e documentos, permitindo recuperação de alto desempenho em vários idiomas. Todos os modelos são lançados com pesos abertos e pacotes de implantação para ExecuTorch, llama.cpp e vLLM, tornando a LFM2 uma base prática para aplicações de borda que necessitam de inferência rápida, eficiente em memória e com fortes capacidades de tarefa.
Os recentes modelos de difusão de vídeo podem sintetizar clipes visualmente convincentes, mas frequentemente violam leis físicas básicas - objetos flutuam, acelerações desviam-se e colisões comportam-se de forma inconsistente - revelando uma lacuna persistente entre o realismo visual e o realismo físico. Propomos o NewtonRewards, o primeiro *framework* de pós-treinamento fundamentado na física para geração de vídeo baseado em recompensas verificáveis. Em vez de depender de *feedback* humano ou de *VLMs* (Modelos de Linguagem Visual), o NewtonRewards extrai *proxies* mensuráveis dos vídeos gerados utilizando modelos utilitários congelados: o fluxo ótico serve como *proxy* para a velocidade, enquanto características de aparência de alto nível servem como *proxy* para a massa. Estes *proxies* permitem a aplicação explícita da estrutura Newtoniana através de duas recompensas complementares: uma restrição cinemática Newtoniana que impõe dinâmicas de aceleração constante, e uma recompensa de conservação de massa que evita soluções triviais e degeneradas. Avaliamos o NewtonRewards em cinco Primitivas de Movimento Newtoniano (queda livre, lançamento horizontal/parabólico e deslizamento em rampa para baixo/cima) usando o nosso novo *benchmark* de larga escala, o NewtonBench-60K. Em todas as primitivas, tanto em métricas visuais como físicas, o NewtonRewards melhora consistentemente a plausibilidade física, a suavidade do movimento e a coerência temporal em relação aos métodos de pós-treinamento anteriores. Mantém ainda um desempenho forte sob mudanças de distribuição (*out-of-distribution*) em altura, velocidade e atrito. Os nossos resultados mostram que recompensas verificáveis fundamentadas na física oferecem um caminho escalável para a geração de vídeo com consciência física.
Os grafos de conhecimento (KGs) fornecem uma base estruturada e verificável para grandes modelos de linguagem (LLMs), mas os sistemas atuais baseados em LLMs geralmente utilizam KGs como estruturas auxiliares para recuperação de texto, deixando sua qualidade intrínseca subexplorada. Neste trabalho, propomos o Wikontic, um *pipeline* multiestágio que constrói KGs a partir de texto de domínio aberto através da extração de triplas candidatas com qualificadores, aplicação de restrições de tipo e relação baseadas no Wikidata e normalização de entidades para reduzir duplicações. Os KGs resultantes são compactos, consistentes com a ontologia e bem conectados; no MuSiQue, a entidade de resposta correta aparece em 96% das triplas geradas. No HotpotQA, nossa configuração usando apenas triplas atinge 76,0 de F1, e no MuSiQue 59,8 de F1, equiparando ou superando várias baselines de geração aumentada por recuperação que ainda exigem contexto textual. Adicionalmente, o Wikontic atinge desempenho state-of-the-art em retenção de informação no *benchmark* MINE-1 (86%), superando métodos anteriores de construção de KGs. O Wikontic também é eficiente no tempo de construção: a construção do KG utiliza menos de 1.000 *tokens* de saída, aproximadamente 3 vezes menos que o AriGraph e <1/20 do GraphRAG. O *pipeline* proposto melhora a qualidade do KG gerado e oferece uma solução escalável para aproveitar o conhecimento estruturado em LLMs.
Os modelos atuais de difusão de vídeo autoregressivos são limitados por três gargalos principais: (i) o horizonte temporal finito imposto pelo Embedding Posicional Rotacional 3D (3D-RoPE) do modelo base, (ii) a resposta lenta a *prompts* para manter o controle de ação granular durante gerações de longa duração e (iii) a incapacidade de realizar transições cinematográficas descontínuas dentro de um único fluxo de geração. Apresentamos o infty-RoPE, uma estrutura unificada de inferência que aborda todas as três limitações através de três componentes interligados: RoPE Bloco-Relativístico, KV Flush e RoPE Cut. O RoPE Bloco-Relativístico reformula a codificação temporal como um quadro de referência local móvel, onde cada novo bloco latente gerado é rotacionado em relação ao horizonte máximo de quadros do modelo base, enquanto blocos anteriores são rotacionados para trás para preservar a geometria temporal relativa. Esta formulação relativística elimina posições temporais fixas, permitindo a geração contínua de vídeo muito além dos limites posicionais base. Para obter controle de ação granular sem recodificação, o KV Flush renova a cache KV retendo apenas dois quadros latentes: o *sink* global e o último quadro latente gerado, garantindo assim uma resposta imediata ao *prompt*. Finalmente, o RoPE Cut introduz descontinuidades controladas nas coordenadas temporais do RoPE, permitindo transições de cena com múltiplos cortes dentro de uma única geração contínua. Juntos, estes componentes estabelecem o infty-RoPE como uma base *training-free* para difusão de vídeo de horizonte infinito, controlável e cinemática. Experimentos abrangentes mostram que o infty-RoPE supera consistentemente os modelos autoregressivos anteriores nas pontuações gerais do VBench.
Trabalhos anteriores exploraram várias tarefas de geração personalizada a partir de uma imagem de referência, mas ainda enfrentam limitações na geração de detalhes refinados consistentes. Neste artigo, nosso objetivo é resolver o problema de inconsistência das imagens geradas aplicando uma abordagem de pós-edição guiada por referência e apresentamos nosso ImageCritic. Primeiro, construímos um conjunto de dados de triplas referência-degradação-alvo obtidas por meio de seleção baseada em VLM e degradação explícita, o que simula efetivamente as imprecisões ou inconsistências comuns observadas nos modelos de geração existentes. Além disso, com base em um exame minucioso dos mecanismos de atenção e representações intrínsecas do modelo, elaboramos correspondentemente uma perda de alinhamento de atenção e um codificador de detalhes para retificar precisamente as inconsistências. O ImageCritic pode ser integrado a uma estrutura de agente para detectar automaticamente inconsistências e corrigi-las com edição múltipla e local em cenários complexos. Experimentos extensivos demonstram que o ImageCritic pode resolver efetivamente problemas relacionados a detalhes em vários cenários de geração personalizada, fornecendo melhorias significativas em relação aos métodos existentes.
Os Modelos de Difusão emergiram como uma classe líder de modelos generativos, mas o seu processo iterativo de amostragem permanece computacionalmente dispendioso. A destilação de timesteps é uma técnica promissora para acelerar a geração, mas frequentemente requer treino extensivo e leva à degradação da qualidade da imagem. Além disso, o ajuste fino destes modelos destilados para objetivos específicos, como apelo estético ou preferência do utilizador, usando Aprendizagem por Reforço (RL), é notoriamente instável e facilmente cai em "reward hacking". Neste trabalho, introduzimos o Flash-DMD, uma nova estrutura que permite uma convergência rápida com destilação e um refinamento conjunto baseado em RL. Especificamente, propomos primeiro uma estratégia eficiente de destilação consciente do timestep que reduz significativamente o custo de treino com realismo aprimorado, superando o DMD2 com apenas 2,1% do seu custo de treino. Em segundo lugar, introduzimos um esquema de treino conjunto onde o modelo é ajustado com um objetivo de RL enquanto o treino de destilação de timesteps continua simultaneamente. Demonstramos que a perda estável e bem definida da destilação em curso atua como um poderoso regularizador, estabilizando efetivamente o processo de treino de RL e prevenindo o colapso da política. Extensivas experiências com modelos baseados em scores e de flow matching mostram que o nosso Flash-DMD proposto não só converge significativamente mais rápido, mas também alcança uma qualidade de geração de última geração no regime de amostragem de poucos passos, superando métodos existentes em qualidade visual, preferência humana e métricas de alinhamento texto-imagem. O nosso trabalho apresenta um paradigma eficaz para treinar modelos generativos eficientes, de alta fidelidade e estáveis. O código será disponibilizado em breve.
Apresentamos o GR-RL, uma estrutura de aprendizagem robótica que transforma uma política generalista visão-linguagem-ação (VLA) em um especialista altamente capacitado para manipulação dextrosa de longo horizonte. A suposição da otimalidade das demonstrações humanas é central para as políticas VLA existentes. No entanto, afirmamos que tarefas de manipulação altamente dextrosas e precisas, as demonstrações humanas são ruidosas e subótimas. O GR-RL propõe um *pipeline* de treinamento multiestágio que filtra, aumenta e reforça as demonstrações por meio de aprendizagem por reforço. Primeiro, o GR-RL aprende um indicador de progresso da tarefa condicionado por visão e linguagem, filtra as trajetórias de demonstração e mantém apenas as transições que contribuem positivamente para o progresso. Especificamente, mostramos que, ao aplicar diretamente o RL offline com recompensa esparsa, os valores-Q resultantes podem ser tratados como uma função de progresso robusta. Em seguida, introduzimos uma ampliação por simetria morfológica que melhora significativamente a generalização e o desempenho do GR-RL. Por fim, para melhor alinhar a política VLA com seus comportamentos de implantação para controle de alta precisão, realizamos RL online aprendendo um preditor de ruído no espaço latente. Com este *pipeline*, o GR-RL é, até onde sabemos, a primeira política baseada em aprendizagem capaz de amarrar um cadarço de sapato de forma autônoma, passando-o por múltiplas ilhoses com uma taxa de sucesso de 83,3% – uma tarefa que exige raciocínio de longo horizonte, precisão de nível milimétrico e interação complacente com corpos moles. Esperamos que o GR-RL represente um passo em direção à capacitação de modelos de base robóticos generalistas para se especializarem em especialistas confiáveis para o mundo real.
Os modelos Visão-Linguagem-Ação (VLAs) estão se tornando cada vez mais capazes em diversas tarefas robóticas. No entanto, sua implantação no mundo real continua lenta e ineficiente: os vídeos de demonstração são frequentemente acelerados em 5 a 10 vezes para parecerem suaves, com paradas de ação perceptíveis e reações atrasadas a mudanças ambientais. A inferência assíncrona oferece uma solução promissora para alcançar um controle contínuo e de baixa latência, permitindo que os robôs executem ações e realizem inferência simultaneamente. No entanto, como o robô e o ambiente continuam a evoluir durante a inferência, surge um desalinhamento temporal entre os intervalos de previsão e execução. Isso leva a uma instabilidade de ação significativa, enquanto os métodos existentes ou degradam a precisão ou introduzem sobrecarga de tempo de execução para mitigá-la. Propomos o VLASH, uma estrutura de inferência assíncrona geral para VLAs que oferece um controle de reação suave, preciso e rápido sem sobrecarga adicional ou alterações arquiteturais. O VLASH estima o estado futuro no momento da execução, avançando o estado do robô com o bloco de ação previamente gerado, preenchendo assim a lacuna entre previsão e execução. Experimentos mostram que o VLASH alcança uma aceleração de até 2,03x e reduz a latência de reação em até 17,4x em comparação com a inferência síncrona, preservando totalmente a precisão original. Além disso, capacita os VLAs a lidarem com tarefas de alta precisão e reação rápida, como jogar tênis de mesa e jogar whack-a-mole, onde a inferência síncrona tradicional falha. O código está disponível em https://github.com/mit-han-lab/vlash.
Os recentes avanços nos grandes modelos de linguagem (LLMs) têm sido impulsionados pelas suas capacidades emergentes de raciocínio, particularmente através do encadeamento longo de pensamento (CoT), que permite uma exploração e deliberação minuciosas. Apesar destes avanços, os LLMs com CoT longo frequentemente exibem comportamentos de raciocínio subóptimos, como reflexão excessiva e cadeias de raciocínio excessivamente prolongadas, o que pode prejudicar o desempenho. Neste artigo, analisamos os processos de raciocínio através de uma lente de otimização, enquadrando o CoT como um procedimento de descida de gradiente em que cada passo de raciocínio constitui uma atualização em direção à resolução do problema. Com base nesta perspetiva, introduzimos o RePro (Retificação de Recompensa a Nível de Processo), uma nova abordagem para refinar o raciocínio dos LLMs durante o pós-treinamento. O RePro define uma função objetivo substituta para avaliar o processo de otimização subjacente ao CoT, utilizando um mecanismo de pontuação dupla para quantificar a sua intensidade e estabilidade. Estas pontuações são agregadas numa recompensa composta a nível de processo, integrada de forma harmoniosa em pipelines de aprendizagem por reforço com recompensas verificáveis (RLVR) para otimizar os LLMs. Experiências extensas em múltiplos algoritmos de aprendizagem por reforço e diversos LLMs, avaliadas em benchmarks que abrangem matemática, ciências e programação, demonstram que o RePro melhora consistentemente o desempenho do raciocínio e mitiga comportamentos de raciocínio subóptimos.
A recuperação de propriedades geométricas a nível de pixel a partir de uma única imagem é fundamentalmente mal colocada devido à ambiguidade de aparência e aos mapeamentos não injetivos entre observações 2D e estruturas 3D. Embora os modelos discriminativos de regressão atinjam um desempenho sólido através de supervisão em larga escala, o seu sucesso é limitado pela escala, qualidade e diversidade dos dados disponíveis e pelo raciocínio físico limitado. Os recentes modelos de difusão exibem poderosos *priors* mundiais que codificam geometria e semântica aprendidas a partir de maciços dados imagem-texto. No entanto, reutilizar diretamente a sua formulação generativa estocástica é subótimo para inferência geométrica determinística: a primeira é otimizada para geração de imagens diversificadas e de alta fidelidade, enquanto a última requer previsões estáveis e precisas. Neste trabalho, propomos o Lotus-2, uma estrutura determinística de dois estágios para previsão densa geométrica estável, precisa e de grão fino, visando fornecer um protocolo de adaptação ótimo para explorar totalmente os *priors* generativos pré-treinados. Especificamente, no primeiro estágio, o predictor principal emprega uma formulação determinística de passo único com um objetivo de dados limpos e um módulo leve de continuidade local (LCM) para gerar estruturas globalmente coerentes sem artefatos de *grid*. No segundo estágio, o aguçador de detalhes executa um refinamento de fluxo retificado multi-etapa e restrito dentro da variedade definida pelo predictor principal, aprimorando a geometria de grão fino através do emparelhamento de fluxo determinístico livre de ruído. Utilizando apenas 59 mil amostras de treino, menos de 1% dos conjuntos de dados de larga escala existentes, o Lotus-2 estabelece novos resultados state-of-the-art na estimativa de profundidade monocular e em previsão de normais de superfície altamente competitiva. Estes resultados demonstram que os modelos de difusão podem servir como *priors* mundiais determinísticos, permitindo raciocínio geométrico de alta qualidade para além dos paradigmas tradicionais discriminativos e generativos.
O pré-treinamento em larga escala com pares vídeo-texto alcança um forte desempenho, mas depende de legendas sintéticas e ruidosas com cobertura semântica limitada, frequentemente negligenciando conhecimento implícito do mundo, como movimento de objetos, geometria 3D e pistas físicas. Em contraste, a modelagem de vídeo mascarada (MVM) explora diretamente as estruturas espaço-temporais, mas fica atrás dos métodos supervisionados por texto em tarefas gerais. Descobrimos que essa lacuna surge de problemas arquitetónicos negligenciados: a reconstrução a nível de pixel luta com a convergência, e a sua exigência de baixo nível frequentemente entra em conflito com a semântica, enquanto a previsão em espaço latente frequentemente incentiva a aprendizagem por atalhos. Para resolver isso, separamos o design tradicional de codificador-decodificador numa estrutura Codificador-Preditor-Decodificador (EPD), onde o preditor atua como um modelo de mundo latente, e propomos o InternVideo-Next, um esquema de pré-treinamento em duas fases que constrói um espaço latente semanticamente consistente, mas que preserva detalhes, para este modelo de mundo. Primeiro, o decodificador linear convencional no MVM de pixel força o latente de saída do preditor a ser projetado linearmente para, e portanto separável no, espaço de pixel, causando o conflito com a abstração semântica. A nossa Fase 1 propõe um decodificador de difusão condicional e injeta *priors* semânticos confiáveis a nível de imagem para melhorar a semântica e a convergência, ligando assim a fidelidade a nível de pixel com a abstração semântica de alto nível. A Fase 2 aprende ainda mais conhecimento do mundo ao prever os alvos congelados da Fase 1 dentro deste espaço, mitigando a aprendizagem por atalhos. Treinado em vídeos públicos não rotulados, o InternVideo-Next alcança resultados state-of-the-art em várias benchmarks e fornece um caminho escalável para a aprendizagem de representação de vídeo geral.
Os Modelos de Linguagem de Grande Porte para Vídeo em Streaming (VideoLLMs) demonstraram desempenho impressionante em várias tarefas de compreensão de vídeo, mas enfrentam desafios significativos na implantação em tempo real devido ao alto custo computacional de processar *tokens* visuais densos de fluxos de vídeo contínuos. Em cenários de vídeo em streaming, o principal gargalo está no estágio de codificação do Vision Transformer (ViT), onde o processamento redundante de frames temporalmente semelhantes leva à ineficiência. Adicionalmente, sequências de *tokens* inflacionadas durante o pré-preenchimento do LLM exacerbam ainda mais a latência e a sobrecarga de memória. Para enfrentar esses desafios, propomos a Compactação de *Tokens* em Streaming (STC), uma estrutura hierárquica *plug-and-play* que se integra perfeitamente aos VideoLLMs de streaming existentes, otimizando tanto o estágio de codificação do ViT quanto o de pré-preenchimento do LLM para acelerar o processamento. A STC introduz dois aceleradores em nível de *token*: o STC-Cacher, que reduz a sobrecarga de codificação do ViT armazenando em cache e reutilizando características de frames temporalmente semelhantes, e o STC-Pruner, que comprime a sequência de *tokens* visuais antes dela entrar no LLM, preservando apenas os *tokens* mais salientes com base na relevância espacial e temporal. Experimentos extensos em quatro VideoLLMs de streaming de linha de base, em cinco *benchmarks*, demonstram que a STC supera outros métodos de compressão. Notavelmente, a STC retém até 99% da precisão na estrutura ReKV, enquanto reduz a latência de codificação do ViT e a latência de pré-preenchimento do LLM em 24,5% e 45,3%, respectivamente.
Neste artigo, apontamos que o objetivo dos algoritmos de recuperação é alinhar-se com o LLM, o que é semelhante ao objetivo da destilação de conhecimento em LLMs. Analisamos a similaridade no foco de informações entre o modelo de linguagem destilado (DLM) e o LLM original a partir da perspectiva da teoria da informação e, assim, propomos um novo paradigma que aproveita um DLM como algoritmo de recuperação. Com base nessa visão, apresentamos o SpeContext, um projeto conjunto de algoritmo e sistema para raciocínio de contexto longo. (1) No nível do algoritmo, o SpeContext propõe um cabeçalho de recuperação leve baseado nos pesos de atenção a nível de cabeçalho do DLM, alcançando uma redução de > 90% nos parâmetros por meio da poda da redundância. (2) No nível do sistema, o SpeContext projeta um fluxo de dados de pré-busca assíncrona por meio da estratégia de carregamento elástico, sobrepondo efetivamente a recuperação do cache KV com a computação do LLM. (3) No nível de compilação, o SpeContext constrói o modelo de memória teórico e implementa um sistema de gerenciamento de memória adaptativo para alcançar aceleração maximizando a utilização da memória da GPU. Implantamos e avaliamos o SpeContext em dois ambientes com recursos limitados, nuvem e borda. Experimentos extensivos mostram que, em comparação com a estrutura Huggingface, o SpeContext alcança uma melhoria de throughput de até 24,89x na nuvem e uma aceleração de 10,06x na borda com perda de precisão insignificante, empurrando a fronteira de Pareto entre precisão e throughput.
Os modelos recentes de geração e edição de texto para imagem adquiriram a capacidade de geração multi-referência; a habilidade de herdar a aparência de sujeitos a partir de múltiplas imagens de referência e re-renderizá-los em novos contextos. No entanto, os conjuntos de dados de benchmark existentes frequentemente focam na geração com uma única ou poucas imagens de referência, o que nos impede de medir o progresso sobre como o desempenho do modelo avança ou de apontar suas fraquezas sob diferentes condições multi-referência. Além disso, suas definições de tarefa ainda são vagas, tipicamente limitadas a eixos como "o que editar" ou "quantas referências são fornecidas", e, portanto, falham em capturar a dificuldade intrínseca das configurações multi-referência. Para abordar esta lacuna, introduzimos o MultiBanana, que é cuidadosamente projetado para avaliar o limite das capacidades dos modelos ao cobrir amplamente problemas específicos de multi-referência em escala: (1) variar o número de referências, (2) desalinhamento de domínio entre as referências (ex.: foto vs. anime), (3) desalinhamento de escala entre as cenas de referência e alvo, (4) referências contendo conceitos raros (ex.: uma banana vermelha), e (5) referências textuais multilingues para renderização. Nossa análise entre uma variedade de modelos de texto para imagem revela seus desempenhos superiores, modos de falha típicos e áreas para melhoria. O MultiBanana será lançado como um benchmark aberto para empurrar as fronteiras e estabelecer uma base padronizada para comparação justa na geração de imagens multi-referência. Nossos dados e código estão disponíveis em https://github.com/matsuolab/multibanana.
Os modelos generativos baseados em fluxo demonstraram recentemente forte desempenho, mas a amostragem normalmente depende da integração numérica dispendiosa de equações diferenciais ordinárias (EDOs). O Rectified Flow permite amostragem em uma etapa ao aprender trajetórias de probabilidade quase retas, mas alcançar essa retidão requer múltiplas iterações de reflow computacionalmente intensivas. O MeanFlow consegue geração em uma etapa modelando diretamente a velocidade média ao longo do tempo; no entanto, quando treinado em fluxos altamente curvos, sofre de convergência lenta e supervisão ruidosa. Para lidar com essas limitações, propomos o Rectified MeanFlow, uma estrutura que modela o campo de velocidade média ao longo da trajetória retificada usando apenas uma única etapa de reflow. Isso elimina a necessidade de trajetórias perfeitamente retificadas, permitindo um treinamento eficiente. Além disso, introduzimos uma heurística de truncamento simples, mas eficaz, que visa reduzir a curvatura residual e melhorar ainda mais o desempenho. Experimentos extensivos no ImageNet nas resoluções 64, 256 e 512 mostram que o Re-MeanFlow supera consistentemente os métodos anteriores de destilação de fluxo em uma etapa e Rectified Flow, tanto na qualidade da amostra quanto na eficiência do treinamento. O código está disponível em https://github.com/Xinxi-Zhang/Re-MeanFlow.
Os modelos multilingues de texto para imagem (T2I) avançaram rapidamente em termos de realismo visual e alinhamento semântico, sendo agora amplamente utilizados. No entanto, as saídas variam conforme os contextos culturais: como a linguagem carrega conotações culturais, as imagens sintetizadas a partir de *prompts* multilingues devem preservar a consistência cultural entre idiomas. Realizamos uma análise abrangente que mostra que os modelos T2I atuais frequentemente produzem resultados culturalmente neutros ou tendenciosos para o inglês sob *prompts* multilingues. Análises de dois modelos representativos indicam que o problema não deriva de conhecimento cultural ausente, mas de uma ativação insuficiente das representações relacionadas à cultura. Propomos um método de sondagem que localiza sinais sensíveis à cultura num pequeno conjunto de neurónios em algumas camadas fixas. Guiados por esta descoberta, introduzimos duas estratégias de alinhamento complementares: (1) uma ativação cultural em tempo de inferência que amplifica os neurónios identificados sem afinar o modelo base; e (2) um aprimoramento cultural direcionado por camadas que atualiza apenas as camadas culturalmente relevantes. Experiências no nosso *CultureBench* demonstram melhorias consistentes face a *baselines* robustas na consistência cultural, preservando a fidelidade e a diversidade.
Os grandes modelos de linguagem (LLMs) sustentam aplicações em geração de código, raciocínio matemático e fluxos de trabalho baseados em agentes. Na prática, os sistemas acessam LLMs por meio de APIs comerciais ou implantações de código aberto, e o panorama de modelos (por exemplo, GPT, Claude, Llama) evolui rapidamente. Esta evolução rápida força trocas frequentes de modelos, impulsionadas por capacidade, custo, restrições de implantação e privacidade. No entanto, os *prompts* são altamente sensíveis ao modelo: reutilizar um *prompt* desenvolvido para um modelo em outro frequentemente resulta em um desempenho substancialmente pior do que um *prompt* otimizado para o modelo de destino. Denominamos este fenômeno de **Model Drifting** (Deriva do Modelo). Através de uma extensa análise empírica em diversas configurações de LLMs, mostramos que a deriva do modelo é comum e severa. Para enfrentar este desafio, introduzimos o **PromptBridge**, uma estrutura *training-free* (livre de treinamento) que preserva a eficácia do *prompt* durante trocas de modelo, permitindo a transferência de *prompts* entre modelos sem a dispendiosa reotimização por tarefa ou por modelo. O PromptBridge requer apenas um pequeno conjunto de tarefas de alinhamento para calibração. Primeiro, ele aplica a **Evolução de Prompt Reflexiva Adaptada ao Modelo (MAP-RPE)** para obter *prompts* ótimos específicos para a tarefa e para o modelo, por meio de um refinamento reflexivo iterativo e avaliação quantitativa. Usando os pares de *prompts* calibrados resultantes para os modelos de origem e de destino, o PromptBridge aprende um mapeamento de *prompts* entre modelos. No momento do teste, ou seja, para uma tarefa não vista, dado um *prompt* do modelo de origem, este mapeamento produz diretamente um *prompt* otimizado para o modelo de destino. Experimentos em configurações de agente único e multiagente mostram que o PromptBridge melhora consistentemente a precisão (*accuracy*) das tarefas subsequentes, reduzindo simultaneamente o esforço de migração. O código estará disponível em breve.
A escala de computação no tempo de teste emergiu como um paradigma poderoso para aprimorar o raciocínio matemático em grandes modelos de linguagem (LLMs) através da alocação de recursos computacionais adicionais durante a inferência. No entanto, os métodos atuais empregam uma distribuição uniforme de recursos em todos os subproblemas de raciocínio, criando gargalos fundamentais onde subproblemas desafiadores recebem atenção insuficiente enquanto operações rotineiras consomem recursos desproporcionais. Esta alocação uniforme cria gargalos de desempenho onde recursos computacionais adicionais produzem retornos decrescentes. Inspirados pela teoria do processo duplo, propomos o SCALE (Alocação Seletiva de Recursos), uma estrutura que aloca seletivamente recursos computacionais com base na dificuldade do subproblema. O SCALE opera através de quatro estágios: (1) decomposição do problema em subproblemas de raciocínio sequenciais, (2) avaliação da dificuldade de cada subproblema para distinguir entre operações rotineiras e subproblemas computacionalmente desafiadores, (3) atribuição seletiva do modo de processamento entre o Sistema 1 para subproblemas simples e o Sistema 2 para os complexos, e (4) execução sequencial com propagação de contexto. Ao concentrar recursos em subproblemas desafiadores enquanto processa operações rotineiras de forma eficiente, o SCALE alcança melhorias substanciais de desempenho com utilização superior de recursos. Experimentos extensivos demonstram que o SCALE supera significativamente as linhas de base de escala uniforme, alcançando melhorias de precisão de até 13,75 pontos percentuais (de 57,50% para 71,25% no AIME25) enquanto reduz os custos computacionais em 33%-53%, representando um grande avanço na escala no tempo de teste que aborda limitações fundamentais das abordagens atuais.
O rápido crescimento de tokens visuais em modelos de linguagem grandes multimodais (MLLMs) leva ao consumo excessivo de memória e latência de inferência, especialmente ao processar imagens e vídeos de alta resolução. A poda de tokens é uma técnica usada para mitigar esse problema removendo redundâncias, mas os métodos existentes frequentemente ignoram a relevância para a consulta do usuário ou sofrem com as limitações dos mecanismos de atenção, reduzindo sua adaptabilidade e eficácia. Para enfrentar esses desafios, propomos o Script, um método de poda plug-and-play que não requer retreinamento e generaliza-se em diversos MLLMs. O Script compreende dois módulos: um módulo de poda estruturado em grafo que remove tokens visualmente redundantes, e um módulo de poda semântica condicionado à consulta que preserva informações visuais relevantes para a query. Juntos, eles melhoram o desempenho em tarefas multimodais. Experimentos em catorze benchmarks abrangendo tarefas de compreensão de imagem e vídeo mostram que o Script alcança consistentemente maior eficiência do modelo e precisão preditiva em comparação com métodos de poda existentes. No LLaVA-NeXT-7B, ele alcança até 6.8x de aceleração no preenchimento prévio e redução de 10x em FLOPS, mantendo 96.88% do desempenho original.
A compreensão de vídeo em streaming exige que os modelos não apenas processem quadros recebidos temporalmente, mas também antecipem a intenção do usuário para aplicações realistas como óculos de realidade aumentada. Embora benchmarks de streaming anteriores avaliem o raciocínio temporal, nenhum mede se os MLLMs (Modelos de Linguagem Multimodais de Grande Porte) podem interpretar ou aproveitar sinais de olhar humano em um contexto de streaming. Para preencher essa lacuna, introduzimos o StreamGaze, o primeiro benchmark projetado para avaliar quão efetivamente os MLLMs usam o olhar para o raciocínio temporal e proativo em vídeos em streaming. O StreamGaze introduz tarefas proativas, do presente e guiadas pelo olhar do passado, que avaliam de forma abrangente a compreensão de vídeo em streaming. Essas tarefas avaliam se os modelos podem usar o olhar em tempo real para acompanhar a mudança de atenção e inferir as intenções do usuário a partir apenas dos quadros passados e atualmente observados. Para construir o StreamGaze, desenvolvemos um pipeline de geração de Perguntas e Respostas (QA) para vídeos com olhar, que alinha vídeos egocêntricos com trajetórias brutas do olhar por meio da extração de fixações, *prompting* visual específico por região e construção de *scanpaths*. Este pipeline produz pares de QA fundamentados espaço-temporalmente que refletem de perto a dinâmica perceptual humana. Em todas as tarefas do StreamGaze, observamos lacunas substanciais de desempenho entre os MLLMs de última geração e o desempenho humano, revelando limitações fundamentais no raciocínio temporal baseado no olhar, na modelagem de intenção e na previsão proativa. Fornecemos ainda análises detalhadas das estratégias de *prompting* com olhar, comportamentos de raciocínio e modos de falha específicos por tarefa, oferecendo uma visão mais profunda sobre por que os MLLMs atuais têm dificuldades e quais capacidades os modelos futuros devem desenvolver. Todos os dados e códigos serão disponibilizados publicamente para apoiar a pesquisa contínua na compreensão de vídeo em streaming guiada pelo olhar.
Os Grandes Modelos de Raciocínio (LRMs) alcançam um desempenho robusto em matemática, geração de código e planeamento de tarefas, mas a sua dependência de longas cadeias de "pensamentos" verbosos resulta em alta latência, redundância e percursos de raciocínio incoerentes. Inspirados pela Hipótese da Linguagem do Pensamento, que postula que o raciocínio humano opera sobre uma linguagem mental simbólica e composicional chamada Mentalese, introduzimos um *framework* que treina modelos para raciocinar num estilo igualmente compacto. O Mentalese codifica o raciocínio abstrato como *tokens* ultra-comprimidos e estruturados, permitindo que os modelos resolvam problemas complexos com muito menos passos. Para melhorar tanto a eficiência como a precisão, propomos a OTIMIZAÇÃO DE PREFERÊNCIA POR SOLUÇÕES CURTAS (SLPO), um método de aprendizagem por reforço que recompensa soluções concisas que se mantêm corretas, permitindo ainda um raciocínio mais longo quando necessário. Aplicado a modelos alinhados com o Mentalese, o SLPO produz taxas de compressão significativamente mais elevadas, permitindo um raciocínio conciso que preserva os benefícios do pensamento detalhado sem a sobrecarga computacional. Em *benchmarks* como o AIME 2024 e 2025, MinervaMath, OlympiadBench, Math500 e AMC, os nossos modelos ORION produzem traços de raciocínio com 4 a 16 vezes menos *tokens*, alcançam uma latência de inferência até 5 vezes menor e reduzem os custos de treino em 7 a 9 vezes em relação ao modelo DeepSeek R1 Distilled, mantendo 90-98% da sua precisão. O ORION também supera o Claude e o ChatGPT-4o em até 5% de precisão, mantendo uma compressão de 2x. Estes resultados mostram que o raciocínio comprimido no estilo Mentalese representa um passo em direção à eficiência cognitiva semelhante à humana, permitindo um raciocínio em tempo real e económico sem sacrificar a precisão.
O pensamento causal permite que os seres humanos compreendam não apenas o que é observado, mas também por que isso acontece. Para replicar essa capacidade nos sistemas modernos de IA, apresentamos a tarefa de descoberta causal visual. Esta tarefa exige que os modelos inferem relações de causa e efeito entre entidades visuais em diversos cenários, em vez de apenas perceber a sua presença. Para esse fim, construímos primeiro o conjunto de dados Visual Causal Graph (VCG-32K), uma coleção em larga escala com mais de 32.000 imagens anotadas com grafos causais a nível de entidade, e desenvolvemos ainda o CauSight, um novo modelo de visão e linguagem para realizar a descoberta causal visual através de um raciocínio com consciência causal. Nossa metodologia de treinamento integra três componentes: (1) curadoria de dados de treinamento a partir do VCG-32K, (2) a Árvore do Pensamento Causal (ToCT) para sintetizar trajetórias de raciocínio, e (3) aprendizagem por reforço com uma recompensa causal projetada para refinar a política de raciocínio. Os experimentos mostram que o CauSight supera o GPT-4V na descoberta causal visual, alcançando um aumento de desempenho superior a três vezes (ganho absoluto de 21%). Nosso código, modelo e conjunto de dados são totalmente de código aberto na página do projeto: https://github.com/OpenCausaLab/CauSight.
Os agentes de Interface Gráfica do Utilizador (GUI) requerem a utilização eficaz de contexto histórico para realizar tarefas de navegação sequencial. Embora a incorporação de ações e observações passadas possa melhorar a tomada de decisão, a utilização ingénua do histórico completo leva a uma sobrecarga computacional excessiva e a distrações com informações irrelevantes. Para resolver isto, apresentamos o HiconAgent, um agente de GUI treinado com a Otimização de Políticas Consciente do Contexto Histórico (HCPO) para uma utilização eficiente e eficaz da informação histórica. A HCPO otimiza o uso do histórico tanto na amostragem como nas atualizações da política através de dois componentes complementares: (1) A Amostragem de Contexto Dinâmico (DCS) apresenta ao agente históricos de comprimento variável durante a amostragem, permitindo a utilização adaptativa do contexto mais relevante; (2) A Compressão de Histórico Orientada por Âncoras (AHC) aperfeiçoa a fase de atualização da política com uma estratégia de ramo duplo, onde o ramo comprimido remove observações do histórico, mantendo as ações históricas como âncoras do fluxo de informação. Os ramos comprimido e não comprimido são acoplados através de uma perda de alinhamento aprimorada pelo histórico para impor uma utilização consistente do histórico, mantendo a eficiência. Experiências em *benchmarks* mainstream de navegação GUI demonstram um forte desempenho. Apesar de ser menor, o HiconAgent-3B supera o GUI-R1-7B em +8,46% de precisão de aterragem (*grounding accuracy*) e +11,32% de taxa de sucesso por passo no GUI-Odyssey, ao mesmo tempo que atinge resultados comparáveis no AndroidControl e AITW com uma aceleração computacional de até 2,47x e uma redução de 60% nas FLOPs.
Apresentamos uma estruturas inovadora que aprende diretamente uma base espectral para análise de formas e variedades a partir de dados não estruturados, eliminando a necessidade de seleção tradicional de operadores, discretização e solucionadores de autovalores. Fundamentada na teoria de aproximação ótima, treinamos uma rede para decompor um operador de aproximação implícita minimizando o erro de reconstrução na base aprendida sobre uma distribuição escolhida de funções de teste. Para distribuições adequadas, estas podem ser vistas como uma aproximação do operador Laplaciano e sua autodecomposição, que são fundamentais no processamento geométrico. Além disso, nosso método recupera de maneira unificada não apenas a base espectral, mas também a densidade de amostragem da métrica implícita e os autovalores do operador subjacente. Notavelmente, nosso método não supervisionado não faz suposições sobre a variedade de dados, como malhas ou dimensionalidade da variedade, permitindo sua escalabilidade para conjuntos de dados arbitrários de qualquer dimensão. Em nuvens de pontos situadas em superfícies 3D e variedades de imagens de alta dimensão, nossa abordagem produz bases espectrais significativas, que podem assemelhar-se às do Laplaciano, sem a construção explícita de um operador. Ao substituir a seleção, construção e autodecomposição tradicionais de operadores por uma abordagem baseada em aprendizado, nossa estrutura oferece uma alternativa fundamentada e orientada por dados aos fluxos convencionais. Isso abre novas possibilidades no processamento geométrico para dados não estruturados, particularmente em espaços de alta dimensão.
Um objetivo de longa data na visão computacional é modelar movimentos a partir de vídeos, enquanto as representações subjacentes a esses movimentos, ou seja, as interações físicas invisíveis que causam a deformação e o deslocamento dos objetos, permanecem em grande parte inexploradas. Neste artigo, estudamos como recuperar forças invisíveis a partir de observações visuais, por exemplo, estimando o campo de vento ao observar uma folha caindo no chão. Nossa principal inovação é uma estrutura de *graphics* inversa de ponta a ponta e diferenciável, que modela conjuntamente a geometria do objeto, propriedades físicas e interações diretamente a partir de vídeos. Por meio da retropropagação, nossa abordagem permite a recuperação de representações de força a partir dos movimentos dos objetos. Validamos nosso método em cenários sintéticos e do mundo real, e os resultados demonstram sua capacidade de inferir campos de força plausíveis a partir de vídeos. Além disso, mostramos as aplicações potenciais da nossa abordagem, incluindo geração e edição de vídeos baseados em física. Esperamos que nossa abordagem contribua para a compreensão e modelagem do processo físico por trás dos pixels, diminuindo a distância entre a visão e a física. Confira mais resultados em vídeo em nossa {página do projeto} https://chaoren2357.github.io/seeingthewind/.
Os recentes modelos de raciocínio multimodal, inspirados no DeepSeek-R1, avançaram significativamente os sistemas de visão e linguagem. No entanto, em tarefas de sensoriamento remoto (SR), observamos um fenômeno generalizado de pseudorracioncínio: os modelos narram o processo de raciocínio em vez de genuinamente raciocinar em direção à resposta correta com base em evidências visuais. Atribuímos isso ao Efeito de Olhadela, onde uma única percepção grosseira de imagens de SR em larga escala resulta em compreensão incompleta e raciocínio baseado na autoconsistência linguística, em vez de evidências visuais. Para resolver isso, propomos o RS-EoT (Evidence-of-Thought em Sensoriamento Remoto), um paradigma iterativo de busca por evidências visuais orientado por linguagem. Para instilar este paradigma, propomos o SocraticAgent, um sistema multiagente de autojogo que sintetiza traços de raciocínio por meio de ciclos alternados de raciocínio e inspeção visual. Para aprimorar e generalizar esses padrões, propomos uma estratégia progressiva de RL em dois estágios: primeiro, RL em tarefas de Aterramento de alta granularidade para aprimorar as capacidades do RS-EoT, seguido por RL em VQA de SR para generalizar para cenários de compreensão mais amplos. Os experimentos mostram que o RS-EoT alcança desempenho de ponta em vários benchmarks de VQA e aterramento em SR. As análises revelam ciclos iterativos claros de raciocínio e busca por evidências, confirmando que o RS-EoT mitiga o Efeito de Olhadela e permite um raciocínio genuinamente fundamentado em evidências. Nosso código, dados e modelos estão disponíveis em https://geox-lab.github.io/Asking_like_Socrates.
O Paradigma de Inversão-Desruído, baseado em modelos de difusão, destaca-se em diversas tarefas de edição e restauração de imagens. Revisitamos seu mecanismo e revelamos um fator crítico e negligenciado na degradação da reconstrução: o erro de aproximação do ruído. Este erro decorre da aproximação do ruído no passo t com a previsão do passo t-1, resultando em um acúmulo severo de erros ao longo do processo de inversão. Introduzimos o método POLARIS (Projection-Orthogonal Least Squares for Robust and Adaptive Inversion), que reformula a inversão de um problema de compensação de erro para um problema de origem do erro. Em vez de otimizar *embeddings* ou códigos latentes para compensar o desvio acumulado, o POLARIS trata o fator de orientação ω como uma variável passo a passo e deriva uma formulação matematicamente fundamentada para minimizar o erro de inversão em cada etapa. Notavelmente, o POLARIS melhora a qualidade do espaço latente de inversão com apenas uma linha de código. Com sobrecarga de desempenho insignificante, ele mitiga substancialmente os erros de aproximação do ruído e melhora consistentemente a precisão de tarefas subsequentes.
Recentemente, estratégias de ajuste fino em duas etapas, como a aquisição de conhecimento essencial de condução através do ajuste fino supervisionado (SFT) e o aprimoramento adicional da tomada de decisão e do planeamento via ajuste fino por reforço (RFT), têm demonstrado forte potencial para avançar o paradigma de condução autónoma (AD) baseada em conhecimento. No entanto, a natureza de aprendizagem do SFT ainda limita a generalização do raciocínio, restringindo assim todo o potencial do desempenho de condução. Entretanto, as abordagens atuais de RFT são aplicadas principalmente a tarefas *downstream*, uma vez que a compreensão de cenários é um problema de natureza aberta onde as recompensas correspondentes são difíceis de quantificar. Para superar estas limitações, propomos o OpenREAD, uma estrutura de AD baseada em modelos de linguagem visual (VLM) com raciocínio aberto reforçado (OPEN-ended REasoning reinforced), que permite o RFT de ponta a ponta em todo o espectro, desde o raciocínio de alto nível até ao planeamento de trajetória de baixo nível. Especificamente, começamos por construir anotações em grande escala de Cadeia de Pensamento (Chain-of-Thought, CoT) em conjuntos de dados de conhecimento relacionados com a condução de código aberto, e empregamos o poderoso modelo de linguagem grande (LLM) Qwen3 como crítico no RFT para quantificar a qualidade do raciocínio para questões de resposta aberta durante a modelação de recompensas. Experiências extensivas confirmam que o RFT conjunto de ponta a ponta produz melhorias substanciais tanto em tarefas *upstream* como *downstream*, permitindo ao OpenREAD alcançar um desempenho de ponta em *benchmarks* de raciocínio e planeamento.
Embora os modelos de linguagem de grande escala se destaquem em tarefas multilingues de alta disponibilidade de recursos, as línguas indianas de baixo e extremamente baixo recurso permanecem severamente subavaliadas. Apresentamos o IndicParam, um benchmark curado por humanos composto por mais de 13.000 questões de múltipla escolha abrangendo 11 dessas línguas (Nepali, Gujarati, Marathi, Odia como de baixo recurso; Dogri, Maithili, Rajasthani, Sânscrito, Bodo, Santali, Konkani como de extremamente baixo recurso) além de um conjunto de código misto Sânscrito-Inglês. Avaliamos 19 LLMs, tanto proprietários quanto de pesos abertos, o que revela que mesmo o GPT-5, de melhor desempenho, atinge apenas 45,0% de precisão média, seguido pelo DeepSeek-3.2 (43,1%) e Claude-4.5 (42,7%). Adicionalmente, classificamos cada questão como orientada ao conhecimento ou puramente linguística para discriminar a recordação factual da proficiência gramatical. Além disso, avaliamos a capacidade dos LLMs de lidar com diversos formatos de questão — como correspondência baseada em lista, pares de afirmação-razão e ordenação de sequência — juntamente com questões de múltipla escolha convencionais. O IndicParam fornece insights sobre as limitações da transferência transcultural e estabelece um benchmark desafiador para as línguas indianas. O conjunto de dados está disponível em https://huggingface.co/datasets/bharatgenai/IndicParam. Os scripts para executar o benchmark estão presentes em https://github.com/ayushbits/IndicParam.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tem avançado a capacidade de raciocínio de grandes modelos de linguagem (LLMs), permitindo a criação de agentes autónomos que realizam raciocínio eficaz multi-turn e integrado com ferramentas. Embora as instruções sirvam como o protocolo principal para definir agentes, o RLVR normalmente depende de instruções estáticas e projetadas manualmente. No entanto, essas instruções podem ser subótimas para o modelo base, e a instrução ideal pode mudar à medida que a política do agente melhora e explora a interação com o ambiente. Para colmatar esta lacuna, introduzimos o INSPO, uma nova estrutura de co-evolução Instrução-Política que integra a otimização de instruções como um componente dinâmico do ciclo de aprendizagem por reforço (RL). O INSPO mantém uma população dinâmica de candidatos a instruções que são amostrados com questões, onde os sinais de recompensa nos ciclos de RL são automaticamente atribuídos a cada instrução, e os desempenhos mais fracos são periodicamente podados. Novas instruções são geradas e verificadas através de um mecanismo de reflexão *on-policy*, no qual um otimizador baseado em LLM analisa experiências passadas de um *replay buffer* e evolui estratégias mais eficazes dada a política atual. Realizamos experiências extensivas em tarefas de recuperação e raciocínio multi-turn, demonstrando que o INSPO supera substancialmente *baselines* robustos que dependem de instruções estáticas. O INSPO descobre instruções inovadoras que guiam o agente para caminhos de raciocínio mais estratégicos, alcançando ganhos substanciais de desempenho com apenas um aumento marginal na sobrecarga computacional.
A escala no momento do teste (TTS) — a alocação dinâmica de recursos computacionais durante a inferência — é uma direção promissora para melhorar o raciocínio em modelos de linguagem grandes (LLMs). No entanto, falta uma comparação sistemática de estratégias TTS conhecidas sob condições idênticas, e a influência do tipo de modelo e da dificuldade do problema no desempenho permanece pouco clara. Para abordar essas lacunas, conduzimos o primeiro estudo em larga escala sobre TTS, abrangendo mais de trinta bilhões de tokens gerados usando oito LLMs de código aberto (7B a 235B de parâmetros), em quatro conjuntos de dados de raciocínio. Observamos três tendências consistentes: (1) nenhuma única estratégia TTS domina universalmente; (2) modelos de raciocínio exibem padrões distintos de qualidade de rastreamento em relação à dificuldade do problema e ao comprimento do rastreamento, formando categorias de horizonte curto e horizonte longo; e (3) para um determinado tipo de modelo, o desempenho TTS ideal escala monotonicamente com o orçamento computacional. Com base nessas percepções, fornecemos uma receita prática para selecionar a melhor estratégia TTS, considerando a dificuldade do problema, o tipo de modelo e o orçamento computacional, oferecendo um guia prático para uma escala eficaz no momento da inferência.
Os movimentos de câmara e de objetos são centrais para a narrativa de um vídeo. No entanto, editar com precisão estes movimentos capturados permanece um desafio significativo, especialmente sob movimentos complexos de objetos. As abordagens atuais de imagem-para-vídeo (I2V) controladas por movimento frequentemente carecem de contexto de cena completa para uma edição de vídeo consistente, enquanto os métodos vídeo-para-vídeo (V2V) proporcionam mudanças de perspetiva ou translação básica de objetos, mas oferecem controlo limitado sobre o movimento granular de objetos. Apresentamos uma estrutura V2V condicionada por trajetórias que permite a edição conjunta do movimento da câmara e do objeto. Conseguimos isto condicionando um modelo de geração de vídeo num vídeo fonte e em trajetórias 3D emparelhadas que representam os movimentos fonte e alvo. Estas trajetórias 3D estabelecem correspondências esparsas que transferem contexto rico do vídeo fonte para novos movimentos, preservando a coerência espaço-temporal. Crucialmente, em comparação com trajetórias 2D, as trajetórias 3D fornecem pistas de profundidade explícitas, permitindo ao modelo resolver a ordem de profundidade e lidar com oclusões para uma edição de movimento precisa. Treinado em duas etapas com dados sintéticos e reais, o nosso modelo suporta diversas edições de movimento, incluindo manipulação conjunta câmara/objeto, transferência de movimento e deformação não rígida, desbloqueando novo potencial criativo na edição de vídeo.
Os assistentes clínicos de IA especializados estão a entrar rapidamente na prática médica, sendo frequentemente apresentados como mais seguros ou fiáveis do que os modelos de linguagem de grande escala (LLMs) de propósito geral. No entanto, ao contrário dos modelos de fronteira, estas ferramentas clínicas raramente são submetidas a avaliação quantitativa independente, criando uma lacuna crítica de evidências, apesar da sua influência crescente no diagnóstico, triagem e interpretação de diretrizes. Avaliámos dois sistemas de IA clínica amplamente utilizados (OpenEvidence e UpToDate Expert AI) em comparação com três LLMs generalistas de última geração (GPT-5, Gemini 3 Pro e Claude Sonnet 4.5), utilizando um mini *benchmark* de 1.000 itens que combina tarefas do MedQA (conhecimento médico) e do HealthBench (alinhamento clínico). Os modelos generalistas superaram consistentemente as ferramentas clínicas, sendo que o GPT-5 obteve as pontuações mais elevadas, enquanto o OpenEvidence e o UpToDate demonstraram deficiências em termos de completude, qualidade da comunicação, consciência contextual e raciocínio de segurança baseado em sistemas. Estes resultados revelam que as ferramentas comercializadas para apoio à decisão clínica podem ficar frequentemente aquém dos LLMs de fronteira, salientando a necessidade urgente de uma avaliação transparente e independente antes da sua implementação em fluxos de trabalho direcionados ao doente.
Embora os modelos predominantes de geração de vídeo controlados por câmera possam produzir resultados cinematográficos, elevá-los diretamente para a geração de vídeos multi-visão sincronizados temporalmente, com alta fidelidade e consistência 3D, permanece um desafio, sendo esta uma capacidade crucial para domar mundos 4D. Alguns trabalhos recorrem à aumento de dados ou otimização em tempo de teste, mas estas estratégias são limitadas pela generalização limitada do modelo e problemas de escalabilidade. Para tal, propomos o ChronosObserver, um método livre de treinamento que inclui o Hiperspaço de Estado do Mundo para representar as restrições espaço-temporais de uma cena de mundo 4D, e a Amostragem Guiada por Hiperspaço para sincronizar as trajetórias de amostragem de difusão de múltiplas visões usando o hiperspaço. Resultados experimentais demonstram que o nosso método alcança a geração de vídeos multi-visão sincronizados temporalmente, com alta fidelidade e consistência 3D, sem treinamento ou ajuste fino para modelos de difusão.
Os modelos recentes de edição de imagens possuem capacidades inteligentes de última geração, facilitando a edição de imagens baseada em cognição e criatividade. No entanto, os benchmarks existentes oferecem um escopo de avaliação muito limitado, falhando em avaliar holisticamente essas habilidades avançadas. Para resolver isso, apresentamos o WiseEdit, um benchmark de conhecimento intensivo para avaliação abrangente da edição de imagens informada por cognição e criatividade, caracterizado por profundidade de tarefa e ampla abrangência de conhecimento. Fazendo uma analogia com a criação cognitiva humana, o WiseEdit decompõe a edição de imagens em três etapas em cascata: Percepção, Interpretação e Imaginação, cada uma correspondendo a uma tarefa que representa um desafio para os modelos completarem na etapa específica. Ele também abrange tarefas complexas, onde nenhuma das três etapas pode ser concluída facilmente. Além disso, o WiseEdit incorpora três tipos fundamentais de conhecimento: Conhecimento Declarativo, Procedimental e Metacognitivo. Por fim, o WiseEdit compreende 1.220 casos de teste, revelando objetivamente as limitações dos modelos de edição de imagens state-of-the-art em capacidades de raciocínio cognitivo baseado em conhecimento e composição criativa. O benchmark, o código de avaliação e as imagens geradas por cada modelo serão disponibilizados publicamente em breve. Página do Projeto: https://qnancy.github.io/wiseedit_project_page/.
A integração de Membros Supernumerários (MS) em robôs humanoides representa um desafio significativo de estabilidade devido às perturbações dinâmicas que introduzem. Esta tese aborda esta questão através do desenho de uma nova arquitetura de controlo hierárquico para melhorar a estabilidade da locomoção de humanoides com MS. O cerne desta estrutura é uma estratégia desacoplada que combina locomoção baseada em aprendizagem com equilíbrio baseado em modelo. O componente de baixo nível consiste num andamento de marcha para um humanoide Unitree H1, obtido através de aprendizagem por imitação e aprendizagem curricular. O componente de alto nível utiliza ativamente os MS para o equilíbrio dinâmico. A eficácia do sistema é avaliada numa simulação baseada em física sob três condições: marcha de base para um humanoide sem carga (marcha de base), marcha com uma carga estática de MS (carga estática) e marcha com o controlador ativo de equilíbrio dinâmico (equilíbrio dinâmico). A nossa avaliação demonstra que o controlador de equilíbrio dinâmico melhora a estabilidade. Em comparação com a condição de carga estática, a estratégia de equilíbrio produz um padrão de marcha mais próximo do baseline e reduz a distância de Dynamic Time Warping (DTW) da trajetória do CoM em 47%. O controlador de equilíbrio também melhora a reestabilização dentro dos ciclos de marcha e alcança um padrão anti-fase mais coordenado das Forças de Reação do Solo (GRF). Os resultados demonstram que um desenho hierárquico e desacoplado pode mitigar eficazmente as perturbações dinâmicas internas resultantes da massa e do movimento dos MS, permitindo uma locomoção estável para humanoides equipados com membros funcionais. O código e vídeos estão disponíveis aqui: https://github.com/heyzbw/HuSLs.
Os métodos atuais de visualização de histórias tendem a posicionar os personagens apenas por texto e enfrentam desafios para manter a consistência artística. Para superar essas limitações, apresentamos o DreamingComics, uma estrutura de visualização de histórias com consciência de layout. Desenvolvemos nosso trabalho a partir de um modelo pré-treinado de difusão de vídeo com transformer (DiT), aproveitando seus prévios espaço-temporais para melhorar a consistência de identidade e estilo. Para o controle posicional baseado em layout, propomos o RegionalRoPE, um esquema de codificação posicional consciente de regiões que reindexa os embeddings com base no layout alvo. Adicionalmente, introduzimos uma função de perda com máscara condicional para restringir ainda mais as características visuais de cada personagem à sua região designada. Para inferir layouts a partir de scripts em linguagem natural, integramos um gerador de layouts baseado em LLM, treinado para produzir layouts no estilo de quadrinhos, permitindo um condicionamento de layout flexível e controlável. Apresentamos uma avaliação abrangente da nossa abordagem, mostrando um aumento de 29,2% na consistência de personagens e de 36,2% na similaridade de estilo em comparação com métodos anteriores, além de exibir alta precisão espacial. Nossa página do projeto está disponível em https://yj7082126.github.io/dreamingcomics/
A Notação e Modelo de Processos de Negócio (BPMN) é um padrão amplamente adotado para representar fluxos de trabalho empresariais complexos. Embora os diagramas BPMN sejam frequentemente trocados como imagens visuais, os métodos existentes dependem principalmente de representações XML para análise computacional. Neste trabalho, apresentamos um *pipeline* que aproveita os Modelos de Visão e Linguagem (VLMs) para extrair representações estruturadas em JSON de diagramas BPMN diretamente de imagens, sem a necessidade de ficheiros de modelo fonte ou anotações textuais. Também incorporamos o reconhecimento ótico de caracteres (OCR) para enriquecimento textual e avaliamos as listas de elementos geradas em comparação com dados de referência derivados dos ficheiros XML originais. A nossa abordagem permite uma extração robusta de componentes em cenários onde os ficheiros fonte originais não estão disponíveis. Avaliámos vários VLMs e observámos melhorias de desempenho em vários modelos quando o OCR é utilizado para enriquecimento de texto. Além disso, realizámos análises estatísticas extensivas de métodos de enriquecimento baseados em OCR e estudos de ablação de *prompts*, fornecendo uma compreensão mais clara do seu impacto no desempenho do modelo.
A crescente prevalência do câncer de tireoide globalmente tem levado ao desenvolvimento de vários métodos computadorizados de auxílio à detecção. A segmentação precisa de nódulos tireoidianos é uma etapa crítica inicial no desenvolvimento de sistemas de apoio à decisão clínica assistidos por IA. Este estudo foca na segmentação por instâncias de nódulos tireoidianos utilizando algoritmos YOLOv5 em imagens de ultrassom. Avaliamos múltiplas variantes do YOLOv5 (Nano, Small, Medium, Large e XLarge) em duas versões de conjuntos de dados, com e sem imagens doppler. O algoritmo YOLOv5-Large alcançou o maior desempenho, com um índice de dice de 91% e mAP de 0,87 no conjunto de dados que incluiu imagens doppler. Notavelmente, nossos resultados demonstram que as imagens doppler, tipicamente excluídas pelos médicos, podem melhorar significativamente o desempenho da segmentação. O modelo YOLOv5-Small alcançou 79% no índice de dice quando as imagens doppler foram excluídas, enquanto a sua inclusão melhorou o desempenho em todas as variantes do modelo. Esses achados sugerem que a segmentação por instâncias com YOLOv5 fornece uma abordagem eficaz em tempo real para a detecção de nódulos tireoidianos, com potenciais aplicações clínicas em sistemas de diagnóstico automatizados.
Houve progressos significativos em modelos de linguagem grandes (LLMs) de tradução apenas de texto de código aberto, com melhor cobertura linguística e qualidade. No entanto, estes modelos só podem ser usados em pipelines em cascata para tradução de fala (ST), realizando primeiro o reconhecimento automático de fala seguido de tradução. Isto introduz uma latência adicional, que é particularmente crítica na tradução simultânea de fala (SimulST), e impede o modelo de explorar contexto multimodal, como imagens, que pode auxiliar na desambiguação. Os modelos de base multimodais pré-treinados (MMFMs) já possuem fortes capacidades de perceção e raciocínio através de múltiplas modalidades, mas geralmente carecem da cobertura multilíngue e do desempenho especializado em tradução dos LLMs de tradução dedicados. Para construir um sistema de tradução multimodal eficaz, propomos uma abordagem de ponta a ponta que funde MMFMs com LLMs de tradução. Introduzimos uma nova estratégia de fusão que conecta estados ocultos de múltiplas camadas de um MMFM pré-treinado a um LLM de tradução, permitindo um treino conjunto de ponta a ponta. O modelo resultante, OmniFusion, construído com base no Omni 2.5-7B como MMFM e no SeedX PPO-7B como LLM de tradução, pode realizar tradução de fala-para-texto, fala-e-imagem-para-texto e texto-e-imagem-para-texto. Experiências demonstram que o OmniFusion aproveita eficazmente tanto os inputs de áudio como visuais, alcança uma redução de latência de 1 segundo na SimulST em comparação com os pipelines em cascata e também melhora a qualidade geral da tradução. O código está disponível em https://github.com/saikoneru/OmniFusion.
Apresentamos decodificadores baseados em Conformer para a competição LibriBrain 2025 PNPL, visando duas tarefas fundamentais de MEG: Deteção de Fala e Classificação de Fonemas. Nossa abordagem adapta um Conformer compacto para sinais MEG brutos de 306 canais, com uma camada de projeção convolucional leve e cabeças específicas para cada tarefa. Para a Deteção de Fala, um SpecAugment orientado para MEG forneceu uma primeira exploração de aumento de dados específico para MEG. Para a Classificação de Fonemas, utilizámos ponderação de classes inversa da raiz quadrada e um carregador de agrupamento dinâmico para lidar com exemplos médios de 100 amostras. Além disso, uma normalização simples a nível de instância mostrou-se crucial para mitigar desvios de distribuição na divisão de holdout. Utilizando as divisões oficiais da pista Standard e F1-macro para seleção de modelos, os nossos melhores sistemas alcançaram 88,9% (Fala) e 65,8% (Fonema) no *leaderboard*, superando as linhas de base da competição e posicionando-se no top-10 em ambas as tarefas. Para mais detalhes de implementação, a documentação técnica, o código fonte e os *checkpoints* estão disponíveis em https://github.com/neural2speech/libribrain-experiments.