Artigos de pesquisa em IA selecionados diariamente com traduções
O planejamento de rotas de transporte público tradicionalmente depende de infraestrutura de mapas estruturados e mecanismos de roteamento complexos, não havendo nenhum conjunto de dados existente que suporte o treinamento de modelos para contornar essa dependência. Apresentamos o TransitLM, um conjunto de dados em larga escala com mais de 13 milhões de registros de planejamento de rotas de transporte público de quatro cidades chinesas, abrangendo 120.845 estações e 13.666 linhas, disponibilizado como um corpus de pré-treinamento contínuo e dados de referência para três tarefas de avaliação com métricas complementares. Experimentos mostram que um LLM treinado no TransitLM produz rotas estruturalmente válidas com alta precisão e fundamenta implicitamente coordenadas GPS arbitrárias nas estações apropriadas, sem qualquer mapeamento explícito. Esses resultados demonstram que o planejamento de rotas de transporte público pode ser aprendido inteiramente a partir de dados, permitindo a geração de rotas ponta a ponta e sem mapas diretamente a partir de informações de origem e destino. O conjunto de dados e os benchmarks estão disponíveis em https://huggingface.co/datasets/GD-ML/TransitLM, com o código de avaliação em https://github.com/HotTricker/TransitLM.
Modelos de Linguagem Multimodais Grandes (MLLMs) estão sendo cada vez mais implantados em funções voltadas para humanos, onde a percepção de personalidade é crítica. No entanto, os benchmarks existentes avaliam essa capacidade exclusivamente por meio da previsão numérica dos escores do Big Five, deixando em aberto se os modelos realmente percebem a personalidade por meio da compreensão comportamental ou apenas fazem julgamentos prévios por meio de correspondência superficial de padrões. Abordamos essa lacuna com três contribuições. (i) Uma nova tarefa: formalizamos o Raciocínio de Personalidade Fundamentado (GPR), que exige que os MLLMs ancorem cada avaliação do Big Five em evidências observáveis por meio de uma cadeia de avaliação, raciocínio e fundamentação. (ii) Um novo conjunto de dados: lançamos o MM-OCEAN (1.104 vídeos, 5.320 MCQs), produzido por um pipeline multiagente com verificação humana, contendo observações comportamentais com carimbo de tempo, análises de traços fundamentadas em evidências e sete categorias de MCQs de fundamentação de pistas. (iii) Benchmark e análise: projetamos uma avaliação em três níveis (avaliação, raciocínio, fundamentação) mais quatro métricas de modo de falha em nível de amostra: Taxa de Preconceito (PR), Taxa de Confabulação (CR), Taxa de Falha de Integração (IR) e Taxa de Fundamentação Holística (HR), e avaliamos 27 MLLMs (13 fechados, 14 abertos). A análise revela uma surpreendente Lacuna de Preconceito: em todo o campo, 51% das avaliações corretas não estão fundamentadas em pistas recuperadas, e a Taxa de Fundamentação Holística varia apenas de 0 a 33,5%. Esses achados expõem uma desconexão entre obter a pontuação correta e raciocinar pelo motivo certo, traçando um roteiro para a cognição social fundamentada em MLLMs.
O aprendizado por reforço a partir de recompensas verificáveis (RLVR) emergiu como uma técnica central para aprimorar as capacidades de raciocínio de grandes modelos de linguagem. Apesar de sua eficácia, a forma como recompensas em nível de resposta se traduzem em mudanças de probabilidade em nível de token ainda é pouco compreendida. Introduzimos uma visão discriminadora das atualizações do RLVR, mostrando que a direção da atualização do gradiente de política atua implicitamente como um discriminador linear sobre vetores gradiente-token, determinando assim quais probabilidades de token são aumentadas ou diminuídas durante o aprendizado. Sob o RLVR padrão em nível de sequência, esse discriminador é construído a partir de centroides dos lados positivo e negativo, formados pela média ponderada por vantagem dos vetores gradiente-token. No entanto, essa construção de centroides pode ser dominada por padrões compartilhados de alta frequência, como tokens de formatação, diluindo direções esparsas, porém discriminativas, que melhor distinguem respostas de alta recompensa daquelas de baixa recompensa. Para lidar com essa limitação, propomos o DelTA, um método de atribuição discriminativa de crédito a tokens que estima coeficientes de token para amplificar direções gradiente-token específicas de cada lado e reduzir o peso de direções compartilhadas ou fracamente discriminativas. Esses coeficientes reponderam um substituto de RLVR autornormalizado, tornando os centroides efetivos por lado mais contrastivos e, assim, remodelando a direção da atualização do RLVR. Em sete benchmarks matemáticos, o DelTA supera as linhas de base mais fortes de mesma escala em 3,26 e 2,62 pontos médios no Qwen3-8B-Base e Qwen3-14B-Base, respectivamente. Resultados adicionais em geração de código, uma arquitetura base diferente e avaliações fora do domínio demonstram ainda mais a capacidade de generalização do DelTA.
O surgimento de agentes assistentes pessoais, por exemplo, OpenClaw, destaca o potencial crescente dos modelos de linguagem de grande escala para apoiar os usuários na vida cotidiana e no trabalho. Um desafio central nesses contextos é a assistência proativa, já que os usuários frequentemente começam com solicitações subespecificadas e deixam necessidades importantes, restrições ou preferências não declaradas. No entanto, benchmarks existentes raramente avaliam se os agentes conseguem identificar e agir sobre essas intenções ocultas antes que sejam explicitamente declaradas, especialmente em interações sustentadas de múltiplas rodadas, onde as necessidades do usuário surgem gradualmente. Para preencher essa lacuna, apresentamos o π-Bench, um benchmark para assistência proativa composto por 100 tarefas de múltiplas rodadas em 5 personas de usuário específicas de domínio. Ao incorporar intenções ocultas do usuário, dependências entre tarefas e continuidade entre sessões, o π-Bench avalia a capacidade dos agentes de antecipar e atender às necessidades do usuário ao longo de interações prolongadas, medindo conjuntamente a proatividade e a conclusão de tarefas em trajetórias de longo horizonte que refletem melhor o uso no mundo real. Experimentos mostram (1) a assistência proativa continua sendo desafiadora, (2) uma distinção clara entre conclusão de tarefa e proatividade e (3) o valor da interação anterior para a resolução proativa de intenções em tarefas posteriores.
A inferência de contexto longo em modelos de linguagem de grande escala é limitada pelo custo quadrático da atenção total. Alternativas eficientes existentes frequentemente dependem de treinamento esparso nativo ou de evicção heurística de tokens, criando uma troca indesejável entre eficiência, custo de treinamento e precisão. Neste trabalho, mostramos que LLMs de atenção total já são intrinsecamente esparsos e podem ser transformados em modelos altamente esparsos com apenas adaptação mínima. Nossa abordagem é baseada em três observações: (1) apenas um pequeno subconjunto de cabeças de atenção realmente requer processamento completo de contexto longo; (2) a recuperação de longo alcance é governada principalmente por um subespaço de baixa dimensão, permitindo que tokens relevantes sejam recuperados eficientemente com um indexador de 16 dimensões; e (3) o orçamento de tokens úteis é fortemente dependente da consulta, tornando a seleção dinâmica top-p mais adequada do que a esparsificação fixa top-k. Com base nesses insights, propomos o RTPurbo, que retém o cache KV completo apenas para cabeças de recuperação e introduz um indexador de tokens leve para atenção esparsa. Ao explorar a esparsidade intrínseca do modelo, o RTPurbo alcança esparsificação com apenas algumas centenas de etapas de treinamento. Experimentos em benchmarks de contexto longo e tarefas de raciocínio mostram que o RTPurbo preserva precisão quase sem perdas, ao mesmo tempo que proporciona ganhos substanciais de eficiência, incluindo um aumento de velocidade de preenchimento de até 9,36× em contexto de 1M e cerca de 2,01× na decodificação. Esses resultados sugerem que uma inferência esparsa robusta pode ser obtida a partir de treinamento padrão de atenção total, sem a necessidade de pré-treinamento esparso nativo caro.
O desenvolvimento recente de agentes renovou a demanda pela capacidade de raciocínio em contexto longo dos LLMs. No entanto, treinar LLMs para essa capacidade requer curadoria dispendiosa de documentos longos ou síntese heurística de contexto. Observamos que agentes produzem trajetórias massivas ao resolver problemas, invocando ferramentas e recebendo observações do ambiente ao longo de muitos turnos. As evidências necessárias para responder à pergunta original estão, portanto, dispersas por esses turnos, exigindo integração de segmentos de contexto distantes. Contudo, o SFT padrão de agentes mascara respostas de ferramentas e treina apenas a seleção de ferramentas no nível do turno, criando um ponto cego de supervisão onde esses sinais dispersos não são utilizados. Propomos a Compilação de Contexto de Agentes (ACC), que converte trajetórias de agentes de busca, engenharia de software e consulta a bancos de dados em pares de QA de contexto longo que combinam a pergunta original com respostas de ferramentas e observações do ambiente coletadas em múltiplos turnos, treinando o modelo para responder diretamente sem uso de ferramentas. Isso torna explícitas as dependências entre a pergunta e as evidências, possibilitando supervisão direta do raciocínio em contexto longo sobre segmentos distantes sem anotação adicional. A ACC é uma abordagem simples, porém eficaz, que pode ser combinada com qualquer método existente de extensão ou treinamento de contexto longo, fornecendo dados de fine-tuning supervisionados escaláveis. Validamos a ACC em tarefas de modelagem de dependências de longo alcance por meio do MRCR e do GraphWalks, benchmarks desafiadores que exigem resolução de correferência entre turnos e percurso em grafos sobre contextos estendidos. Treinar o Qwen3-30B-A3B com ACC alcança 68,3 no MRCR (+18,1) e 77,5 no GraphWalks (+7,6), resultados comparáveis ao Qwen3-235B-A22B, preservando capacidades gerais em GPQA, MMLU-Pro, AIME e IFEval. Uma análise de mecanismos posterior revela que o modelo treinado com ACC exibe reestruturação de atenção adaptativa à tarefa e especialização de especialistas.
Ativos físicos 3D prontos para simulação emergiram como uma direção promissora devido à sua ampla aplicabilidade em tarefas downstream. No entanto, a maioria dos métodos existentes de geração 3D ou negligencia propriedades físicas ou é limitada a uma única categoria de ativos, como objetos rígidos, deformáveis ou articulados. Para superar essas limitações, apresentamos o PhysX-Omni, uma estrutura unificada para geração física 3D pronta para simulação em diversos tipos de ativos. Especificamente, desenvolvemos uma representação geométrica nova e eficiente, adaptada para Modelos de Visão e Linguagem, que codifica diretamente estruturas 3D de alta resolução sem compressão, melhorando significativamente o desempenho da geração. Além disso, construímos o primeiro conjunto de dados 3D geral e pronto para simulação, o PhysXVerse, abrangendo diversas categorias internas e externas. Ademais, para avaliar de forma abrangente e flexível as capacidades generativas e de compreensão em cenários reais, propomos o PhysX-Bench, que engloba seis atributos-chave: geometria, escala absoluta, material, affordance, cinemática e descrição de função. Experimentos extensivos com métricas convencionais e o PhysX-Bench mostram que o PhysX-Omni apresenta forte desempenho tanto na geração quanto na compreensão. Além disso, estudos adicionais validam o potencial do PhysX-Omni para aplicações em geração de cenas prontas para simulação e aprendizado de políticas robóticas. Acreditamos que o PhysX-Omni pode avançar significativamente uma ampla gama de aplicações downstream, particularmente em IA corporificada e simulação baseada em física.
O raciocínio conjunto audiovisual é essencial para a compreensão omnimodal, no entanto, os atuais modelos de linguagem multimodal de grande escala (MLLMs) ainda enfrentam dificuldades quando o raciocínio exige evidências refinadas de ambas as modalidades. Uma limitação central é que a cadeia de pensamento (CoT) explícita baseada em texto comprime sinais audiovisuais contínuos em tokens discretos, enfraquecendo o ancoramento temporal e deslocando o raciocínio intermediário em direção a prioridades linguísticas. Argumentamos que um espaço latente unificado é um meio melhor para tal raciocínio, pois preserva informações sensoriais densas enquanto permanece compatível com a geração autoregressiva. Com base nessa percepção, propomos o LatentOmni, uma estrutura de raciocínio cross-modal que intercala raciocínio textual com estados latentes audiovisuais. O LatentOmni introduz supervisão em nível de características para alinhar estados de raciocínio latentes com características sensoriais relevantes para a tarefa e usa a Omni-Sync Position Embedding (OSPE) para manter a consistência temporal entre estados latentes de áudio e visuais. Além disso, construímos o LatentOmni-Instruct-35K, um conjunto de dados de trajetórias de raciocínio intercaladas audiovisuais para supervisionar o raciocínio em espaço latente. A avaliação abrangente em vários benchmarks de raciocínio audiovisual demonstra que o LatentOmni alcança o melhor desempenho entre os modelos de código aberto avaliados e supera consistentemente a linha de base da CoT de texto explícito, apoiando o raciocínio conjunto em espaço latente como um caminho promissor para uma compreensão omnimodal mais forte.
Sistemas de planilhas (por exemplo, Microsoft Excel, Google Sheets) desempenham um papel central em fluxos de trabalho modernos centrados em dados. À medida que agentes de IA se tornam cada vez mais capazes de automatizar tarefas complexas, como controlar computadores e gerar apresentações, construir um agente de planilhas orientado por IA emergiu como uma direção de pesquisa promissora. A maioria dos agentes de planilhas existentes depende de prompts especializados sobre LLMs de propósito geral; embora esse design tenha potencial em operações simples de planilhas, ele tem dificuldade em gerenciar os fluxos de trabalho complexos e de múltiplas etapas típicos de aplicações do mundo real. Apresentamos o Spreadsheet-RL, um framework de ajuste fino baseado em aprendizado por reforço (RL) projetado para treinar agentes especializados em planilhas em um ambiente realista do Microsoft Excel. O Spreadsheet-RL conta com um pipeline automatizado para coleta escalável de pares de planilhas iniciais e finais a partir de fóruns online, bem como tarefas de avaliação específicas de domínio em áreas como finanças e gestão da cadeia de suprimentos, que compilamos no novo conjunto de dados de referência Domain-Spreadsheet. Ele também inclui um ambiente Spreadsheet Gym projetado para RL em múltiplas etapas: o Spreadsheet Gym expõe ampla funcionalidade do Excel por meio de um sandbox Python, juntamente com uma estrutura refinada que incorpora um conjunto abrangente de ferramentas e regras de roteamento de ferramentas cuidadosamente projetadas para tarefas de planilhas. Por meio de experimentos abrangentes, mostramos que o Spreadsheet-RL melhora substancialmente o desempenho de agentes de IA em tarefas de planilhas gerais e específicas de domínio: ele eleva o Pass@1 do Qwen3-4B-Thinking-2507 no SpreadsheetBench de 12,0% para 23,4%, e aumenta o Pass@1 de 8,4% para 17,2% em nosso conjunto Domain-Spreadsheet curado. Esses resultados destacam o forte potencial do Spreadsheet-RL para generalização e adoção no mundo real na automação de planilhas e, de forma geral, sua promessa para avançar interações baseadas em LLM com interfaces de dados no trabalho cotidiano.
Modelos de difusão de vídeo autorregressivos permitiram a geração de mundos em tempo real, condicionada por ações. No entanto, sustentar um mundo persistente, onde revisitar um ponto de vista previamente visto gera conteúdo consistente, continua sendo um problema em aberto. A atenção completa com cache KV preserva essa consistência, mas quebra as restrições de tempo real: o consumo de memória e o custo de atenção crescem linearmente com o comprimento do rollout. A inferência com janela deslizante restaura a taxa de transferência, mas descarta a consistência de longo prazo. Propomos o WorldKV, uma estrutura livre de treinamento com dois componentes: Recuperação Mundial (World Retrieval) e Compressão Mundial (World Compression). A Recuperação Mundial armazena blocos de cache KV removidos na memória GPU/CPU e recupera seletivamente blocos relevantes à cena por meio de correspondência câmera/ação, reinserindo-os na janela de atenção nativa sem recodificação. A Compressão Mundial poda tokens redundantes dentro de cada bloco via similaridade chave-chave com um quadro âncora, reduzindo pela metade o armazenamento por bloco para acomodar 2x mais histórico sob um orçamento fixo. No Matrix-Game-2.0 e LingBot-World-Fast, o WorldKV iguala ou supera a fidelidade de memória completa do cache KV com aproximadamente 2x a taxa de transferência, e é competitivo com linhas de base treinadas para memória sem qualquer ajuste fino. Página do Projeto: https://cvlab-kaist.github.io/WorldKV/
A inteligência artificial (IA) está cada vez mais integrada à descoberta científica, mas ainda não está claro se ela pode antecipar o progresso científico. Para investigar essa questão, introduzimos uma estrutura de avaliação temporalmente fundamentada para prever o progresso científico sob restrições de conhecimento controladas. Apresentamos o CUSP (Progresso Científico Não Visto Condicionado ao Corte de Dados), um benchmark multidisciplinar e baseado em eventos que avalia a previsão científica em sistemas de IA por meio de avaliação de viabilidade, raciocínio mecanicista, design generativo de soluções e predição temporal. Em 4.760 eventos científicos, observamos limitações sistemáticas e dependentes do domínio nos modelos de fronteira atuais. Embora os modelos consigam identificar direções de pesquisa plausíveis entre candidatos concorrentes, eles falham em prever de forma confiável se os avanços científicos serão realizados e sistematicamente estimam incorretamente quando ocorrerão. O desempenho é altamente heterogêneo entre os domínios, sendo o momento do avanço da IA mais previsível do que os avanços em biologia, química e física. O desempenho é amplamente insensível a se os eventos ocorrem antes ou depois do corte de dados de treinamento, sugerindo que essas limitações não podem ser explicadas apenas pela exposição ao conhecimento nos dados de treinamento. Sob acesso controlado à informação, o conhecimento adicional pré-corte melhora o desempenho, mas não elimina a diferença em relação a cenários com informação completa, diferença esta que se torna mais pronunciada para avanços com alto número de citações. Os modelos também exibem excesso de confiança sistemático e fortes vieses de resposta, indicando estimativas de incerteza não confiáveis. Em conjunto, os atuais sistemas de IA são insuficientes como ferramentas preditivas para o progresso científico. O acesso ao conhecimento prévio não se traduz em previsão confiável, e o desempenho se beneficia mais de informações posteriores ao evento do que de predições prospectivas.
Transformadores de difusão (DiTs) emergiram como uma arquitetura dominante para geração de texto para imagem, mas seu desempenho cai ao gerar em resoluções além do seu alcance de treinamento. Abordagens existentes livres de treinamento mitigam isso modificando o comportamento da atenção durante a inferência, frequentemente por meio de extrapolação de Embeddings de Posição Rotativa (RoPE) combinada com escalonamento de atenção. No entanto, essas estratégias aplicam um escalonamento uniforme e independente do conteúdo entre componentes RoPE com características de frequência distintas, induzindo um compromisso entre preservar a estrutura global e recuperar detalhes finos. Apresentamos SEGA, um método livre de treinamento que escala dinamicamente a atenção entre componentes RoPE de acordo com a estrutura espacial de frequência do latente em cada etapa de remoção de ruído. Esse escalonamento adaptativo melhora tanto a coerência estrutural quanto a fidelidade de detalhes finos. Experimentos mostram que SEGA melhora consistentemente a síntese de alta resolução em múltiplas resoluções alvo, superando baselines livres de treinamento do estado da arte.
O treinamento e a validação robustos de Sistemas de Condução Autônoma (ADS) exigem conjuntos de dados massivos e diversificados. Dados proprietários coletados por frotas de Veículos Autônomos (AV), embora de alta fidelidade, são limitados em escala, diversidade de configurações de sensores, bem como cobertura geográfica e comportamental de cauda longa. Em contraste, dados do mundo real (in-the-wild) provenientes de fontes como câmeras de bordo oferecem enorme escala e diversidade, capturando cenários críticos de cauda longa e ambientes inéditos. No entanto, esses dados de vídeo não estruturados do mundo real são incompatíveis com ADS que esperam entradas de sensores multimodais estruturados para validação e treinamento. Para preencher essa lacuna de dados, propomos o Sensor2Sensor, um novo paradigma de modelagem generativa que traduz vídeos monoculares de câmeras de bordo do mundo real em um conjunto de sensores multimodais de alta fidelidade (logs de AV), composto por imagens de câmeras multivisuais e nuvens de pontos LiDAR. Um desafio central é a falta de dados de treinamento pareados. Abordamos isso convertendo logs reais de AV em vídeos no estilo de câmeras de bordo por meio da reconstrução com 4D Gaussian Splatting (4DGS) e renderização de novas vistas. O Sensor2Sensor então utiliza uma arquitetura de difusão para realizar a conversão generativa. Realizamos avaliações quantitativas abrangentes sobre a fidelidade e o realismo dos dados de sensores gerados. Demonstramos a utilidade prática do Sensor2Sensor ao converter filmagens desafiadoras da internet e de câmeras de bordo em formatos de dados multimodais realistas, desbloqueando ainda mais vastas fontes de dados externas para o desenvolvimento de AV.
Estender o horizonte de geração de modelos de difusão de vídeo para sequências longas continua sendo um desafio importante e de longa data. As abordagens existentes sem treinamento se dividem em duas categorias: extensões de modelos bidirecionais, que são fortemente acopladas a arquiteturas específicas e sofrem degradação de qualidade em horizontes longos, e modelos autorregressivos, que acumulam erros de desvio devido ao viés de exposição e tendem a produzir padrões de movimento repetitivos. Para lidar com essas questões, propomos uma abordagem nova, porém simples, para o tempo de inferência na geração de vídeos longos, que é independente de arquitetura e não requer treinamento adicional. Nosso método gera vídeos longos por meio de janelas deslizantes sobrepostas, onde amostras limpas previstas de janelas adjacentes são mescladas via correspondência de Tweedie para impor tanto a restrição de variedade quanto a consistência temporal nas regiões de sobreposição. A amostragem estocástica de fase inicial então sincroniza as trajetórias de cada janela injetando ruído fresco após cada correção de correspondência de Tweedie na fase de alto ruído, antes de transicionar para a amostragem ODE determinística para preservar a fidelidade visual refinada. Aplicado a vários modelos de geração de vídeo, nosso método gera vídeos várias vezes mais longos que o comprimento nativo da janela, superando tanto as linhas de base sem treinamento quanto as autorregressivas em consistência temporal e qualidade visual, e se estende ainda à geração conjunta áudio-vídeo e texto para 3DGS sem qualquer ajuste fino.
Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm feito progressos rápidos em inteligência espacial; no entanto, os benchmarks existentes de raciocínio espacial assumem entradas visuais intactas e ignoram as degradações que comumente ocorrem em cenários de implantação real, como desfoque de movimento, pouca luz, condições climáticas adversas, distorção de lente e artefatos de compressão. Isso levanta uma questão fundamental: quão robusta é a inteligência espacial dos MLLMs atuais quando as observações visuais são imperfeitas? Para responder a essa pergunta, apresentamos o SpaceDG, o primeiro conjunto de dados em larga escala para compreensão espacial consciente de degradação. Ele é construído com um motor de síntese de degradação fisicamente fundamentado que incorpora o processo de formação de degradação na renderização do 3D Gaussian Splatting (3DGS), permitindo a simulação realista de nove tipos de degradação. O conjunto de dados resultante contém aproximadamente 1 milhão de pares de perguntas e respostas de quase 1.000 cenas internas. Apresentamos também o SpaceDG-Bench, um benchmark verificado por humanos com 1.102 perguntas abrangendo 11 categorias de raciocínio e 9 tipos de degradação visual, gerando mais de 10 mil instâncias de VQA. A avaliação de 25 MLLMs de código aberto e fechado revela que as degradações visuais prejudicam consistentemente e substancialmente o raciocínio espacial, expondo uma lacuna crítica de robustez. Finalmente, mostramos que o fine-tuning no SpaceDG melhora significativamente a robustez à degradação e pode até superar o desempenho humano em condições degradadas, sem qualquer queda de desempenho em imagens limpas, destacando a promessa do treinamento consciente de degradação para uma inteligência espacial robusta.
A proliferação de modelos de linguagem de grande porte (LLMs) e habilidades modulares tem dotado agentes autônomos de capacidades cada vez mais poderosas. Frameworks existentes geralmente dependem de LLMs monolíticos e lógica fixa para fazer interface com essas habilidades. Isso dá origem a um gargalo crítico: diferentes LLMs oferecem vantagens distintas em diversos domínios, mas os frameworks atuais não exploram os pontos fortes complementares dos modelos e habilidades, limitando assim seu desempenho em tarefas downstream. Neste artigo, apresentamos o Maestro (Agente Multimodal para Orquestração Reforçada Direcionada a Especialistas e Habilidades), um framework de orquestração orientado por Aprendizagem por Reforço (RL) que reformula tarefas multimodais heterogêneas como um processo de tomada de decisão sequencial sobre um registro hierárquico de modelos e habilidades. Em vez de consolidar todo o conhecimento em um único modelo, o Maestro treina uma política leve para compor dinamicamente conjuntos de modelos especialistas congelados e uma biblioteca de habilidades de dois níveis, decidindo a cada passo se deve invocar um especialista externo, qual par modelo-habilidade selecionar e quando encerrar. A política é otimizada via RL baseada em resultados, sem exigir supervisão em nível de passo. Avaliamos o Maestro em dez benchmarks multimodais representativos abrangendo raciocínio matemático, compreensão de gráficos, percepção de alta resolução e análise específica de domínio. Com apenas um orquestrador de 4B, o Maestro alcança uma precisão média de 70,1%, superando tanto o GPT-5 (69,3%) quanto o Gemini-2.5-Pro (68,7%). Crucialmente, a política de coordenação aprendida generaliza para modelos e habilidades não vistos sem retreinamento: aumentar o registro com especialistas fora do domínio resulta em uma média de 59,5% em quatro benchmarks desafiadores, superando todas as baselines de código fechado. O Maestro ainda mantém alta eficiência computacional com baixa latência. O código fonte está disponível em https://github.com/jinyangwu/Maestro.
Modelos de difusão de vídeo autoregressivos (ARVDs) surgiram como uma arquitetura promissora para geração de vídeo em streaming, abrindo caminho para geração de vídeo interativa em tempo real e modelagem de mundo. Apesar de seu potencial, o custo substancial de inferência dos ARVDs continua sendo um grande obstáculo para a implantação prática, tornando a quantização de modelos uma direção natural para melhorar a eficiência. No entanto, a quantização para ARVDs permanece amplamente inexplorada. Nossa análise empírica mostra que aplicar diretamente esquemas de quantização existentes, desenvolvidos para transformadores de difusão padrão, aos ARVDs leva a um desempenho subótimo, revelando comportamentos de quantização que diferem daqueles observados em modelos de difusão bidirecionais. Neste artigo, identificamos dois desafios críticos na quantização de ARVDs: (C1) Sensibilidade de quantização altamente desbalanceada entre quadros. O acúmulo de erros durante a geração autoregressiva pode induzir uma sensibilidade de quantização severamente distorcida entre os quadros, seguindo um padrão de decaimento semelhante a exponencial. (C2) Padrões proeminentes e heterogêneos de valores discrepantes nos pesos. As distribuições de pesos exibem canais discrepantes pronunciados, cujos padrões variam substancialmente entre tipos de camadas e profundidades de blocos. Para lidar com essas questões, propomos o Q-ARVD, uma nova estrutura para quantização precisa de ARVDs. (S1) Para enfrentar a sensibilidade altamente desbalanceada entre quadros, o Q-ARVD incorpora um mecanismo de ponderação de quadros ciente da qualidade final ao objetivo de quantização. (S2) Para evitar que valores discrepantes heterogêneos degradem o desempenho, o Q-ARVD introduz uma quantização adaptativa de escala dupla ciente de valores discrepantes, que detecta automaticamente a presença e a quantidade de canais discrepantes para uma camada arbitrária, isolando-os para proteger os canais normais. Extensos experimentos demonstram a superioridade do Q-ARVD.
Modelos de Recompensa de Processo (PRMs) são um mecanismo poderoso para orientar o raciocínio de modelos de linguagem de grande porte, fornecendo supervisão granular em nível de etapa. No entanto, essa eficácia tem um custo significativo: os PRMs exigem anotações de especialistas para cada etapa do raciocínio, tornando-os caros e difíceis de escalar. Aqui, propomos um método para treinar PRMs não supervisionados (uPRM) que não requer supervisão humana, nem no nível de anotações passo a passo, nem por meio de verificação da resposta final com base em ground truth. A ideia central de nossa abordagem é definir uma função de pontuação, derivada das probabilidades de próximo token do LLM, que avalia conjuntamente posições candidatas dos primeiros passos errôneos em um lote de trajetórias de raciocínio. Demonstramos a eficácia do uPRM em diversos cenários: (i) o uPRM alcança ganhos de até 15% de acurácia absoluta em relação ao LLM-como-Juiz na identificação dos primeiros passos errôneos no conjunto de dados ProcessBench; (ii) como verificador para escalonamento em tempo de teste, o uPRM apresenta desempenho comparável a PRMs supervisionados e supera a linha de base de votação majoritária em até 6,9%; e (iii) quando usado como sinal de recompensa em aprendizado por reforço, o uPRM permite uma otimização de política mais robusta ao longo do treinamento em comparação a um PRM supervisionado treinado com rótulos de ground truth. No geral, nossos resultados abrem caminho para uma modelagem de recompensa escalável em tarefas de raciocínio complexas.
A atenção linear substitui o cache ilimitado da atenção softmax por um estado recorrente de tamanho fixo, reduzindo a mistura de sequências para tempo linear e a decodificação para memória constante. A parte difícil não é apenas o que esquecer, mas como editar essa memória comprimida sem embaralhar associações existentes. Modelos baseados em regra delta subtraem a leitura atual antes de escrever um novo valor, e a Atenção Delta Kimi (KDA) aperfeiçoa o esquecimento com decaimento por canal. No entanto, a edição ativa ainda utiliza uma única porta escalar para controlar duas coisas diferentes: quanto do conteúdo antigo apagar no lado da chave e quanto do novo conteúdo comprometer no lado do valor. Apresentamos o Gated DeltaNet-2, que generaliza tanto o Gated DeltaNet quanto o KDA ao herdar o esquecimento adaptativo e o decaimento por canal, enquanto aborda sua limitação compartilhada: a amarração escalar entre apagar e escrever. O Gated Delta Rule-2 separa esses papéis com uma porta de apagamento por canal b_t e uma porta de escrita por canal w_t, reduzindo-se ao KDA quando ambas as portas colapsam para o mesmo escalar e ao Gated DeltaNet quando o decaimento também colapsa. Derivamos uma visão de atualização de pesos rápidos, um algoritmo WY por blocos com decaimento por canal absorvido em fatores de apagamento assimétricos, e um passe reverso consciente das portas que preserva o treinamento paralelo eficiente. Com 1,3 bilhão de parâmetros treinados em 100 bilhões de tokens do FineWeb-Edu, o Gated DeltaNet-2 alcança os resultados gerais mais fortes entre as variantes Mamba-2, Gated DeltaNet, KDA e Mamba-3 em modelagem de linguagem, raciocínio de senso comum e recuperação. Sua vantagem é mais pronunciada em benchmarks de agulha no palheiro RULER de contexto longo, onde melhora a configuração avaliada de recuperação de múltiplas chaves e permanece forte tanto em configurações recorrentes quanto híbridas. O código está disponível em https://github.com/NVlabs/GatedDeltaNet-2.
A geração de imagens aberta não é mais um simples problema de prompt para imagem. A geração de alta qualidade frequentemente exige que um agente combine a capacidade generativa interna de um modelo com recursos externos. À medida que as solicitações se tornam mais diversas e exigentes, nosso objetivo é desenvolver um agente geral de geração de imagens que possa se auto-evoluir por meio de trajetórias e usar ferramentas de forma mais eficaz em diversos desafios de geração. Para esse fim, propomos o GenEvolve, uma estrutura auto-evolutiva baseada em Destilação de Experiência Visual Orquestrada por Ferramentas. No GenEvolve, cada tentativa de geração é modelada como uma trajetória orquestrada por ferramentas, onde o agente coleta evidências, seleciona referências, invoca habilidades de geração e as compõe em um programa de prompt-referência. Diferentemente dos métodos existentes de geração agentiva que dependem principalmente de recompensas escalares ao nível da imagem, o GenEvolve compara múltiplas trajetórias para a mesma solicitação e abstrai diferenças melhor-pior em experiência visual estruturada, fornecida apenas a um ramo de professor privilegiado. Inspirada pela autodestilação on-policy, a Destilação de Experiência Visual fornece supervisão densa ao nível de token, ajudando o aluno a internalizar melhor busca, ativação de conhecimento, seleção de referência e construção de prompt. Além disso, construímos o GenEvolve-Data e o GenEvolve-Bench. Experimentos em benchmarks públicos e no GenEvolve-Bench mostram ganhos substanciais em relação a linhas de base fortes, alcançando desempenho de ponta entre as estruturas atuais de geração de imagens. Nosso site é: https://ephemeral182.github.io/GenEvolve/
LLMs são amplamente adotados em produção, levando os sistemas de inferência aos seus limites. O serviço desagregado de LLMs (por exemplo, separação PD e desagregação do estado KV) melhora a escalabilidade e a eficiência de custos, mas também transforma o KV em uma carga explícita que atravessa limites de rede e armazenamento, tornando-se um gargalo dominante de ponta a ponta. As técnicas de compressão de KV existentes são tipicamente configurações estáticas de tempo de execução, apesar de o contexto do serviço de produção variar ao longo do tempo na combinação de cargas de trabalho, largura de banda e orçamentos de SLO/qualidade. Como resultado, uma escolha fixa pode ser subótima ou até mesmo aumentar a latência. Apresentamos o KVServe, o primeiro framework de compressão de comunicação KV adaptável e ciente do serviço para serviço desagregado de LLMs: o KVServe (1) unifica a compressão de KV em um espaço de estratégia modular com novos componentes e recomposição entre métodos; (2) introduz um Mecanismo de Perfilagem Bayesiana que busca eficientemente esse espaço e destila um conjunto de candidatos Pareto 3D, reduzindo em 50 vezes a sobrecarga de busca offline; e (3) implanta um Controlador Online Ciente do Serviço que combina um modelo analítico de latência com um bandido leve para selecionar perfis sob restrições e corrigir a incompatibilidade entre offline e online. Integrado ao vLLM e avaliado em conjuntos de dados, modelos, GPUs e redes, o KVServe alcança até 9,13 vezes de aceleração no JCT em serviço separado por PD e até 32,8 vezes de redução no TTFT em serviço desagregado de KV.
O progresso no desenvolvimento de modelos de linguagem é frequentemente orientado por decisões comparativas: qual arquitetura adotar, qual corpus de pré-treinamento utilizar ou qual receita de treinamento aplicar. Tomar essas decisões de forma adequada exige previsões de desempenho confiáveis, porém os dois sinais comumente utilizados são fundamentalmente limitados. A perda de entropia cruzada está mal alinhada com as capacidades downstream, e a avaliação downstream direta é cara, esparsa e muitas vezes pouco informativa nos estágios iniciais de treinamento. Em vez disso, propomos construir métricas proxy agregando estatísticas em nível de token, como entropia, acurácia top-k e ranque de tokens especialistas, a partir da distribuição do próximo token de um modelo candidato sobre soluções escritas por especialistas. Em três cenários, nossas proxies superam consistentemente as linhas de base baseadas em perda e em custo computacional: 1) Para seleção de modelos entre famílias, elas ranqueiam uma população heterogênea de modelos de raciocínio com Rho de Spearman médio de 0,81 (contra Rho = 0,36 para perda de entropia cruzada); 2) Para seleção de dados de pré-treinamento, elas ranqueiam de forma confiável 25 corpora candidatos para um modelo alvo com aproximadamente 10.000 vezes menos custo computacional do que a avaliação direta, deslocando a fronteira de Pareto para além dos métodos existentes; e 3) Para previsão durante o treinamento, elas extrapolam a acurácia downstream ao longo de um horizonte de 18 vezes o custo computacional com aproximadamente metade do erro das alternativas existentes. Em conjunto, esses resultados sugerem que trajetórias de especialistas são uma fonte amplamente útil de sinal para avaliar capacidades de modelos, permitindo previsões de desempenho confiáveis ao longo de todo o ciclo de desenvolvimento do modelo.
Abordagens existentes para a produção de curtas-dramáticas digitais geralmente dependem de roteiros gerados por LLM em uma única rodada e pipelines fracamente acoplados, os quais falham em satisfazer três requisitos fundamentais da geração de curtas-dramáticas: (1) ritmo narrativo, resultando em ganchos fracos, escalada insuficiente e finais pouco atraentes; (2) consistência espacial, levando a layouts de cena flutuantes e posições inconsistentes de personagens entre os clipes; e (3) controle de qualidade em nível de produção, exigindo revisão e correção manuais extensivas nas etapas de roteiro e visual. Apresentamos One Sentence, One Drama, um framework multiagente hierárquico que transforma a ideia de uma única frase do usuário em uma curta-dramática totalmente produzida por meio de módulos intermediários estruturados e refinamento iterativo. Nossa abordagem é construída sobre três componentes principais: (1) um módulo de geração de história baseado em debate multiagente que impõe o ritmo de curta-dramática e a coerência narrativa; (2) um mecanismo de geração do primeiro quadro fundamentado em 3D que estabelece uma referência espacial compartilhada para posicionamento consistente de personagens e layout de cena entre os clipes; e (3) loops de revisão em múltiplos estágios que realizam detecção abrangente de erros e revisão direcionada nas etapas de roteiro, visual e geração de vídeo. Também introduzimos a correspondência de BGM em nível de cena e o planejamento de transições de cena para melhorar a experiência imersiva do público. Para avaliar sistematicamente esta tarefa, apresentamos o Short-Drama-Bench, um benchmark que estende as métricas padrão de qualidade de vídeo com critérios específicos para curtas-dramáticas. Resultados experimentais demonstram que nosso método supera significativamente os pipelines existentes em qualidade narrativa, consistência entre clipes e experiência geral de visualização.
Grandes modelos de linguagem (LLMs) e sistemas agentivos têm demonstrado potencial para o suporte à decisão clínica, mas os trabalhos existentes em grande parte presumem que as evidências já foram curadas e entregues ao modelo. Fluxos de trabalho clínicos do mundo real, em vez disso, exigem que os agentes busquem ativamente, planejem iterativamente e sintetizem evidências multimodais de fontes heterogêneas. Neste artigo, apresentamos o ClinSeekAgent, uma estrutura agentiva automatizada para busca dinâmica de evidências multimodais que muda o paradigma do consumo passivo de evidências para a aquisição ativa de evidências. Dada apenas uma consulta clínica e acesso a fontes de dados brutas, o ClinSeekAgent coleta evidências consultando bases de conhecimento médico, navegando em prontuários eletrônicos (EHRs) brutos e acionando ferramentas de imagem médica; refina suas hipóteses à medida que novas informações surgem; e integra as evidências coletadas em decisões clínicas fundamentadas. O ClinSeekAgent serve tanto como um agente em tempo de inferência para LLMs de ponta quanto como um pipeline em tempo de treinamento para destilar trajetórias agentivas de alta qualidade em modelos compactos de código aberto. Para validar sua eficácia em tempo de inferência, construímos o ClinSeek-Bench, que combina raciocínio de Entrada Curada a partir de evidências pré-selecionadas fixas com Busca Automatizada de Evidências sobre dados clínicos brutos. Em tarefas de EHR apenas com texto, o ClinSeekAgent melhora o F1 geral do Claude Opus 4.6 de 60,0 para 63,2 e do MiniMax M2.5 de 43,1 para 47,3, com ganhos positivos na previsão de risco em 7 dos 9 modelos hospedeiros avaliados. Em tarefas multimodais, o ClinSeekAgent melhora o Claude Opus 4.6 de 47,5 para 62,6 (+15,1); todos os modelos avaliados melhoram nos três grupos de tarefas relacionadas a radiografia de tórax (CXR). Validamos ainda o ClinSeekAgent como um pipeline de treinamento ao destilar trajetórias agentivas de busca de evidências no ClinSeek-35B-A3B, que alcança um F1 médio de 34,0 no AgentEHR-Bench existente, melhorando em +11,9 pontos em relação à sua linha de base Qwen3.5-35B-A3B e se aproximando do Claude Opus 4.6.
Enquanto a maioria dos quadros em vídeos longos é redundante, as informações críticas residem em surpresas temporais: momentos em que as características visuais reais se desviam de sua evolução prevista. Inspirado pela codificação preditiva do cérebro humano, apresentamos o Swift Sampling, um elegante algoritmo de seleção de quadros livre de treinamento que identifica automaticamente momentos de alta informação em um vídeo. Especificamente, modelamos um vídeo como uma trajetória diferenciável no espaço latente visual e computamos a velocidade e a aceleração de suas características. Em seguida, aplicamos a expansão de Taylor para projetar o caminho esperado dos quadros subsequentes. Quadros que divergem nitidamente dessa variedade prevista são identificados como quadros temporalmente surpreendentes e selecionados para amostragem. Ao contrário de métodos anteriores livres de treinamento que dependem de redes auxiliares ou ajuste de hiperparâmetros específicos do vídeo, o Swift Sampling é extremamente leve, adicionando apenas 0,02x de custo computacional adicional em relação à linha de base, tornando seu custo adicional 30 vezes menor que o das principais referências. Em três conjuntos de dados de resposta a perguntas em vídeos longos e 10 tarefas downstream diferentes, o Swift Sampling supera a amostragem uniforme e as linhas de base anteriores independentes de consulta. Ele é especialmente eficaz para vídeos longos com orçamentos limitados de quadros, melhorando a precisão em até +12,5 pontos percentuais.
Model cards descrevem o comportamento do modelo por meio de uma mistura de descrições textuais e artefatos estruturados, incluindo tabelas de desempenho, configuração e conjuntos de dados. Os sistemas existentes de busca de modelos dependem predominantemente da similaridade semântica sobre texto, o que pode produzir conjuntos de resultados homogêneos e limitar a exploração de alternativas. Argumentamos que a busca de modelos é inerentemente comparativa: os usuários desejam modelos que estejam alinhados com a tarefa, mas que sejam diferenciados de maneiras mensuráveis. Hipotetizamos que esse equilíbrio exige recuperação sobre evidências condensadas e de alta qualidade, em vez de descrições verbosas, e grande parte dessas evidências está concentrada em tabelas estruturadas. Apresentamos o StructuredSemanticSearch, um framework de busca de modelos orientado por tabelas, construído sobre o benchmark ModelTables. Dada uma consulta, o StructuredSemanticSearch combina uma linha de base semântica para alinhamento de tarefas com um pipeline ciente de estrutura que descobre tabelas de model cards relacionadas à consulta usando operadores de descoberta de tabelas como unionabilidade, joinabilidade e busca por palavras-chave. As tabelas recuperadas são mapeadas de volta para os model cards sob um orçamento controlado de top-k, permitindo uma comparação justa entre a recuperação baseada em texto e a baseada em tabelas. Além da recuperação, o StructuredSemanticSearch adapta a integração de tabelas ao domínio de model tables por meio da integração ciente de orientação, produzindo visões integradas compactas de tabelas a partir de tabelas de evidência parcialmente sobrepostas e, às vezes, transpostas. Para avaliação, introduzimos um protocolo auditável baseado em nuggets que extrai itens de evidência compactos dos model cards, associa consultas a nuggets específicos de condição ou intenção e mede a cobertura e a diversidade de evidências sobre os conjuntos candidatos de model cards recuperados. Esse protocolo também fornece um caminho escalável para rotulagem aproximada baseada em evidências em lagos de modelos dinâmicos. Experimentos em 597 consultas de recomendação de modelos mostram uma cobertura de nuggets melhorada para o pipeline ciente de estrutura em comparação com a linha de base semântica.
Como um agente deve decidir quando e como planejar? Uma abordagem dominante constrói agentes como políticas reativas com computação adaptativa (por exemplo, cadeia de pensamento), treinadas de ponta a ponta esperando que o planejamento emergia implicitamente. Sem controle sobre a presença, estrutura ou horizonte do planejamento, esses sistemas aumentam drasticamente a extensão do raciocínio, resultando em uso ineficiente de tokens sem ganhos confiáveis de precisão. Argumentamos que o raciocínio agentivo eficiente se beneficia da decomposição da tomada de decisão em três sistemas: raciocínio simulativo (Sistema II) que fundamenta a deliberação na predição de estados futuros por meio de um modelo do mundo; autorregulação (Sistema III) que decide quando e com que profundidade planejar por meio de um configurador aprendido; e execução reativa (Sistema I) que trata da ação de granularidade fina. O raciocínio simulativo fornece planejamento unificado em diversas tarefas sem engenharia por domínio, enquanto a autorregulação garante que o planejador seja invocado apenas quando necessário. Para testar isso, desenvolvemos o SR²AM (LLM Agentivo de Raciocínio Simulativo Autorregulado), realizando ambos como etapas distintas dentro da cadeia de pensamento de um LLM, com o LLM atuando como modelo do mundo. Exploramos duas instanciações: registrar decisões de um sistema multimódulo guiado por prompts (v0.1) e reconstruir planos estruturados a partir de rastros de LLMs de raciocínio pré-treinados (v1.0), treinados primeiro com aprendizado supervisionado e depois por reforço (RL). Em matemática, ciências, análise tabular e busca de informações na web, o v0.1-8B e o v1.0-30B alcançam Pass@1 competitivo com sistemas de 120-355B e 685B-1T parâmetros, respectivamente, enquanto o v1.0-30B usa 25,8-95,3% menos tokens de raciocínio do que LLMs agentivos comparáveis. O RL aumenta o horizonte médio de planejamento em 22,8%, enquanto a frequência de planejamento cresce apenas 2,0%, mostrando que ele aprende a planejar mais adiante, e não com mais frequência. De forma mais ampla, a autorregulação aprendida concretiza um princípio que esperamos se estender além do planejamento para como os agentes governam o próprio aprendizado e adaptação.
Métodos tradicionais de rastreamento visual de objetos (VOT) normalmente dependem de treinamento supervisionado específico para a tarefa, limitando sua generalização para objetos não vistos e cenários desafiadores com distratores, oclusão e movimento não linear. Modelos de base visual recentes, exemplificados pelo SAM 2, aprendem fortes prioridades de compreensão de vídeo a partir de pré-treinamento em larga escala e oferecem uma base promissora para construir rastreadores mais robustos e generalizáveis. No entanto, a aplicação direta do SAM 2 ao VOT permanece subótima, pois ele não modela explicitamente a dinâmica do movimento alvo nem impõe consistência geométrica e semântica entre quadros, ambas essenciais para um rastreamento confiável. Para resolver essa questão, propomos o SAMOSA, uma nova estrutura de rastreamento que adapta o SAM 2 a cenários complexos de VOT, explorando explicitamente pistas de movimento, geometria e semântica. Especificamente, introduzimos um preditor de movimento não linear leve para modelar a dinâmica alvo e orientar a seleção de máscaras, bem como a filtragem de memória. Exploramos ainda pistas semânticas para detectar mudanças no alvo e recuperar falhas de rastreamento, enquanto pistas geométricas são incorporadas como restrições estruturais para melhorar a estabilidade do rastreamento. Dessa forma, o SAMOSA preenche a lacuna entre a prioridade implícita de compreensão de vídeo do SAM 2 e a modelagem explícita orientada ao rastreamento. Experimentos extensivos mostram que o SAMOSA supera consistentemente as abordagens baseadas no SAM 2 mais avançadas em benchmarks gerais, demonstra maior generalização do que métodos supervisionados de VOT e alcança ganhos substanciais em conjuntos de dados anti-UAV, que tipificam cenários complexos de movimento não linear. Nosso código está disponível em https://github.com/DurYi/SAMOSA.
Modelos de linguagem grandes multimodais (MLLMs) e modelos de difusão atingiram cada um uma maturidade notável: os MLLMs destacam-se no raciocínio sobre entradas multimodais heterogêneas com forte fundamentação semântica, enquanto os modelos de difusão sintetizam imagens e vídeos com fidelidade fotorrealista. Argumentamos que essas duas famílias podem ser unificadas por meio de uma simples divisão de trabalho: os MLLMs realizam o planejamento semântico, enquanto os modelos de difusão renderizam pixels a partir de orientação semântica de alto nível e características visuais de baixo nível. Com base nessa ideia, propomos o Bernini, uma estrutura unificada para geração e edição de vídeos. Um planejador baseado em MLLM prevê a representação semântica alvo diretamente no espaço de incorporação ViT, e um renderizador baseado em DiT sintetiza pixels condicionados a esse plano, aumentado por características de texto e, para edição, características VAE da fonte para preservação de detalhes. Como a semântica serve como interface, o planejador e o renderizador podem ser treinados separadamente e apenas levemente co-treinados, preservando os pontos fortes pré-treinados de ambos os componentes enquanto mantém o treinamento eficiente. Para lidar melhor com múltiplas entradas visuais, introduzimos a Incorporação Posicional Rotativa 3D Consciente de Segmentos (SA-3D RoPE) e incorporamos ainda o raciocínio em cadeia de pensamento no planejador para melhor transferir a compreensão para a geração. O Bernini alcança desempenho de ponta em uma ampla gama de benchmarks de geração e edição de vídeos, com a compreensão pré-treinada do MLLM se traduzindo em forte generalização em tarefas de edição desafiadoras.
Muitos edifícios públicos fornecem plantas baixas com um indicador de "você está aqui" para ajudar os visitantes a se orientarem. A localização em plantas baixas busca replicar computacionalmente essa capacidade, determinando onde as observações visuais foram capturadas dentro de uma planta baixa. No entanto, os métodos existentes geralmente assumem ambientes controlados de pequena escala e plantas baixas vetorizadas precisas, limitando sua capacidade de operar em edifícios de grande escala e plantas baixas rasterizadas. Neste trabalho, apresentamos uma abordagem para realizar localização em plantas baixas em cenários reais, fundamentando a tarefa em uma representação 3D reconstruída da cena. Dada uma coleção de imagens não restrita, nosso método reconstrói uma cena 3D alinhada com a gravidade e a projeta em um mapa de densidade 2D que serve como proxy de planta baixa. A localização em planta baixa é então formulada como o alinhamento desse proxy com a planta baixa de entrada por meio de uma transformação de similaridade 2D. Para superar a lacuna de aparência entre mapas de densidade e plantas baixas arquitetônicas, adaptamos um modelo 2D de base para aprender correspondências cross-modais, introduzindo um esquema de ajuste fino que incentiva correspondências semanticamente alinhadas, preservando a consistência estrutural. Experimentos extensivos demonstram melhorias substanciais em relação a métodos anteriores, inclusive em configurações extremamente esparsas com apenas uma única imagem de entrada. Nosso código e dados serão disponibilizados publicamente.
Alinhar modelos de geração Texto-para-Imagem (T2I) com preferências humanas depende cada vez mais de modelos de recompensa de imagem, que classificam ou ranqueiam imagens geradas de acordo com o alinhamento com o prompt e a qualidade perceptual. Modelos de recompensa existentes são comumente treinados como modelos de preferência de Bradley-Terry (BT) em grandes corpora de preferências humanas, tornando-os caros para treinar, difíceis de adaptar e opacos em seus critérios de avaliação. Enquanto isso, juízes baseados em Modelos de Visão-Linguagem (VLM) podem fornecer avaliações mais refinadas por meio de rubricas textuais, mas suas regras de pontuação projetadas manualmente ou geradas heuristicamente podem falhar em refletir de forma confiável as preferências humanas. Neste artigo, propomos o AutoRubric-T2I, a primeira estrutura de aprendizado de rubricas em T2I que sintetiza e seleciona automaticamente rubricas explícitas para orientar juízes VLM. O AutoRubric-T2I primeiro sintetiza traços de raciocínio a partir de pares de preferência em rubricas candidatas; em seguida, usa um juiz VLM para pontuar imagens pareadas sob cada rubrica, produzindo diferenças de pontuação por rubrica para aprendizado de preferência. Para remover regras ruidosas e redundantes, empregamos ainda um Refinador de Regressão Logística Regularizada com ℓ₁, que seleciona as N rubricas mais discriminativas. Avaliações extensas mostram que o AutoRubric-T2I produz sinais de recompensa de alta qualidade e interpretáveis usando menos de 0,01% dos dados de preferência anotados, reduzindo substancialmente a necessidade de treinamento de modelos de recompensa em larga escala. Em benchmarks de recompensa de imagem, como MMRB2, o AutoRubric-T2I supera fortes modelos de recompensa baseline. Validamos ainda o AutoRubric-T2I como recompensa de RL em tarefas de T2I a jusante, incluindo TIIF e UniGenBench++, onde ele melhora a qualidade de geração em relação a modelos de recompensa escalares usando o pipeline Flow-GRPO em modelos de difusão.
Apresentamos o TerminalWorld, um mecanismo de dados escalável que automaticamente faz engenharia reversa de tarefas de avaliação de alta fidelidade a partir de gravações de terminal "in-the-wild". Processando 80.870 gravações de terminal, o mecanismo produz um benchmark completo de 1.530 tarefas validadas, abrangendo 18 categorias do mundo real, desde operações cotidianas curtas até fluxos de trabalho que excedem 50 etapas, e cobrindo 1.280 comandos únicos. A partir destas, curamos um subconjunto Verificado de 200 tarefas representativas, revisadas manualmente. Uma avaliação comparativa abrangente no TerminalWorld-Verified com oito modelos de ponta e seis agentes revela que os sistemas atuais ainda têm dificuldades com fluxos de trabalho autênticos de terminal, alcançando uma taxa de aprovação máxima de apenas 62,5%. Além disso, o TerminalWorld captura capacidades reais de terminal distintas dos benchmarks existentes curados por especialistas (por exemplo, Terminal-Bench), com apenas uma correlação fraca com suas pontuações (Pearson r=0,20). O mecanismo automatizado torna o TerminalWorld autêntico e escalável por construção, permitindo avaliar agentes em ambientes de terminal do mundo real à medida que as práticas dos desenvolvedores evoluem. Os dados e o código estão disponíveis em https://github.com/EuniAI/TerminalWorld.
Notas clínicas longitudinais contêm evidências ricas de como os pacientes evoluem ao longo do tempo, mas converter esse sinal em supervisão de treinamento para predição clínica continua desafiador. Estendemos o Foresight Learning à predição clínica, convertendo notas do MIMIC-III ordenadas temporalmente em exemplos compostos por contexto passado do paciente, uma pergunta em linguagem natural sobre um possível evento futuro e um rótulo extraído da documentação posterior. Esse processo gera 6.900 exemplos de predição a partir de 702 internações, abrangendo medicamentos, procedimentos, suporte a órgãos, microbiologia e mortalidade. Um pequeno adaptador LoRA treinado nesses exemplos melhora o modelo base com prompt, reduzindo o erro de calibração esperado de 0,1269 para 0,0398 e o escore de Brier de 0,199 para 0,145, enquanto supera ligeiramente as estimativas pontuais do GPT-5 em questões retidas. A abordagem permite supervisão de predição clínica reutilizável a partir de notas longitudinais, sem necessidade de características estruturadas projetadas manualmente ou classificadores específicos de desfecho.
Os layouts de chips fabricáveis devem satisfazer milhares de regras de projeto baseadas em geometria, e a verificação de regras de projeto (DRC) as impõe executando scripts DRC nos layouts. A tradução de regras em linguagem natural para scripts DRC corretos é intensiva em mão de obra e exige expertise especializada, motivando o uso de agentes LLM para síntese e depuração de scripts DRC. No entanto, os benchmarks existentes possuem conjuntos de avaliação pequenos e frequentemente avaliam scripts por similaridade de código em vez de correção de execução, e métodos anteriores baseados em aprendizado de máquina ignoram o feedback de execução ou exigem layouts de teste rotulados como entrada do agente. Nesse contexto, apresentamos o Rule2DRC, um benchmark de grande escala para agentes de codificação de scripts DRC, com 1.000 tarefas de regra para script e 13.921 layouts de chip de avaliação para pontuação baseada em execução. O Rule2DRC fornece um pipeline de avaliação que mede a correção funcional por meio dos resultados da execução da DRC, sem exigir layouts de avaliação como entrada do agente. Também propomos o SplitTester, um agente testador para seleção de programas que usa feedback de execução para gerar casos de teste discriminativos e separar scripts candidatos anteriormente indistinguíveis, melhorando substancialmente o desempenho de seleção Best-of-N nesse domínio. Disponibilizamos o código em https://github.com/snu-mllab/Rule2DRC.
O aprendizado por reforço a partir de recompensas verificáveis (RLVR) tem demonstrado grande potencial para o raciocínio de LLMs, mas o RLVR baseado em resultados permanece ineficiente em problemas difíceis porque as respostas finais corretas são raras e a atribuição de crédito a nível de amostra não consegue utilizar o progresso parcial em tentativas fracassadas. Apresentamos o SCRL (Aprendizado por Reforço com Currículo de Subproblemas), uma estrutura de RL baseada em currículo que deriva subproblemas verificáveis a partir de cadeias de raciocínio de referência e fixa o subproblema final como o problema original. Isso transforma o progresso parcial em problemas difíceis em sinais de aprendizado verificáveis. Algorítmicamente, o SCRL utiliza normalização a nível de subproblema, que normaliza recompensas independentemente em cada posição de subproblema e atribui as vantagens resultantes aos trechos de resposta correspondentes, permitindo uma atribuição de crédito mais refinada sem rubricas externas ou modelos de recompensa. Nossa análise mostra que currículos de subproblemas retiram problemas difíceis das zonas mortas de gradiente, com ganhos relativos maiores à medida que o problema original se torna mais difícil. Em sete benchmarks de raciocínio matemático, o SCRL supera fortes linhas de base de aprendizado por currículo, melhorando a precisão média em relação ao GRPO em +4,1 pontos no Qwen3-4B-Base e +1,9 pontos no Qwen3-14B-Base. No AIME24, AIME25 e IMO-Bench, o SCRL melhora ainda mais o pass@1 em +3,7 pontos e o pass@64 em +4,6 pontos no Qwen3-4B-Base, indicando melhor exploração em problemas de raciocínio difíceis.
À medida que dispositivos vestíveis e móveis se tornam cada vez mais integrados à vida cotidiana, eles oferecem uma maneira prática de detectar continuamente o movimento humano em ambientes reais. No entanto, os sinais inerciais são altamente dependentes da configuração de sensoriamento, incluindo localização no corpo, posição de montagem, orientação do sensor, hardware do dispositivo e protocolo de amostragem. Essa dependência da configuração dificulta o aprendizado de representações de movimento que sejam transferíveis entre dispositivos e conjuntos de dados, e limita o uso mais amplo de IMUs vestíveis além do reconhecimento de conjunto fechado. Apresentamos o AnyMo, uma framework com consciência geométrica para modelagem de movimento humano independente de configuração. O AnyMo utiliza simulação de IMU fundamentada na física sobre posicionamentos densos na superfície do corpo para gerar sinais sintéticos diversos e plausíveis, pré-treina um codificador de grafos a partir de pares de visualizações sintéticas e observações parciais mascaradas, tokeniza IMUs de múltiplas posições em tokens de movimento corporal completo e alinha esses tokens com um LLM para compreensão de movimento-linguagem. Avaliamos o AnyMo em três tarefas complementares: reconhecimento de atividade zero-shot em 14 conjuntos de dados downstream não vistos, recuperação cross-modal e legendagem de movimento com IMU vestível, onde ele melhora a Acurácia/F1/R@2 médias em 11,7%/11,6%/22,6% em HAR, aumenta a recuperação zero-shot IMU-para-texto e texto-para-IMU no MRR em 15,9% e 28,6%, respectivamente, e melhora a legendagem zero-shot no BERT-F1 em 18,8%. Esses resultados apoiam o AnyMo como um modelo generalista para compreensão de movimento vestível em ambientes reais. Página do projeto: https://baiyuchen.com/project/AnyMo.
Autoencoders de Representação (RAEs) utilizam modelos de base de visão (VFMs) congelados como codificadores tokenizadores, fornecendo representações robustas de alto nível que facilitam a convergência rápida e a geração de alta qualidade em modelos de difusão latente. No entanto, congelar o VFM restringe inerentemente sua capacidade de reconstrução espacial, limitando a geração refinada e a edição de imagens; por outro lado, incorporar sinais orientados à reconstrução por meio de ajuste fino interrompe o espaço semântico pré-treinado e degrada a fidelidade generativa. Para lidar com essa troca, propomos DecQ, uma estrutura simples, porém eficaz, para RAEs. Especificamente, DecQ introduz consultas leves de condensação de detalhes que extraem informações refinadas de características intermediárias do VFM por meio de módulos condensadores. Essas consultas são incorporadas ao decodificador para apoiar a reconstrução e são geradas conjuntamente com os tokens de patch durante a modelagem generativa. Ao agregar informações de camadas rasas e profundas, DecQ mitiga efetivamente a troca entre reconstrução e geração, melhorando tanto a qualidade da reconstrução quanto o desempenho generativo. Nossos experimentos demonstram que: (1) com apenas 8 consultas adicionais e 3,9% de computação extra, DecQ melhora a reconstrução em relação ao RAE baseado em DINOv2 congelado, aumentando o PSNR de 19,13 dB para 22,76 dB; e (2) para modelagem generativa, DecQ alcança uma convergência 3,3 vezes mais rápida que o RAE, obtendo um FID de 1,41 sem orientação e 1,05 com orientação.
Detectar valores de Schwartz em texto político é difícil porque pistas implícitas frequentemente dependem de argumentos circundantes e distinções sutis entre valores vizinhos. Estudamos quando o contexto e o conhecimento moral explícito ajudam na detecção de valores em nível de sentença. Usando o formato ValuesML/Touché ValueEval, comparamos entradas de sentença, janela e documento completo; configurações sem RAG e aumentadas por recuperação com uma base de conhecimento moral curada; codificadores supervisionados DeBERTa-v3-base/large; e LLMs zero-shot de 12B a 123B parâmetros. Os resultados mostram que mais contexto não é uniformemente melhor: o contexto de documento completo melhora os codificadores DeBERTa supervisionados em 3,8–4,8 pontos macro-F1 em relação à entrada apenas com sentença, mas não ajuda consistentemente os LLMs zero-shot. O conhecimento moral recuperado é mais consistentemente útil em comparações pareadas, melhorando cada família de modelo testada e condição de contexto sob fusão precoce. No entanto, escalar de DeBERTa-v3-base para large e de 12B para LLMs maiores não garante ganhos, e a fusão precoce simples supera as variantes de RAG testadas de fusão tardia e atenção cruzada para codificadores. Análises por valor mostram que o contexto e a recuperação ajudam mais para valores socialmente situados ou conceitualmente confundíveis. Essas descobertas sugerem que PLN sensível a valores deve avaliar contexto, conhecimento e família de modelo conjuntamente, em vez de tratar entradas mais longas ou modelos maiores como melhorias universais.
A compreensão de vídeo em streaming omniproativa, ou seja, decidir autonomamente quando falar e o que dizer a partir de fluxos audiovisuais contínuos, é uma capacidade emergente de modelos de linguagem grandes omnimodais. Os benchmarks existentes são insuficientes em três aspectos principais: dependem principalmente de sinais visuais, adotam protocolos de sondagem ou de timestamps fixos em vez de uma verdadeira avaliação proativa, e cobrem apenas uma gama limitada de tarefas, impedindo uma avaliação e diferenciação confiáveis de modelos de streaming omniproativos. Apresentamos o OmniPro, o primeiro benchmark a avaliar conjuntamente a percepção omnimodal, a resposta proativa e diversas tarefas de compreensão de vídeo. Ele compreende 2.700 amostras verificadas por humanos abrangendo 9 sub-tarefas e 3 níveis cognitivos, cobrindo 6 capacidades básicas de compreensão de vídeo. Notavelmente, 84% das amostras requerem sinais de áudio (fala ou não-fala), e cada amostra é anotada com rótulos de isolamento de modalidade para permitir uma análise multimodal detalhada. Introduzimos ainda um protocolo de avaliação de modo duplo: o modo Probe avalia a compreensão do conteúdo consultando o modelo antes e depois de cada gatilho de verdade fundamental, enquanto o modo Online avalia a capacidade proativa completa, exigindo que os modelos decidam autonomamente quando responder na entrada em streaming. A avaliação de 11 modelos representativos revela três descobertas principais: (1) o áudio fornece ganhos consistentes, mas com utilização altamente variável entre os modelos, (2) o desempenho degrada-se significativamente ao longo do tempo, indicando robustez limitada a longo prazo, e (3) a percepção de áudio não-fala permanece a dimensão mais fraca.
À medida que os modelos de linguagem de grande escala (LLMs) moldam cada vez mais a forma como os usuários formam, refinam e estendem seus objetivos, a atribuição de contribuições na colaboração humano-IA torna-se crucial para que os usuários calibrem sua própria confiança e para que avaliadores analisem trabalhos assistidos por IA. No entanto, os métodos existentes concentram-se em artefatos finais, ignorando o processo pelo qual os próprios objetivos são moldados conjuntamente. Apresentamos uma estrutura de atribuição em nível de objetivo, CoTrace, que decompõe objetivos explícitos em requisitos verificáveis e rastreia tanto contribuições diretas quanto influências indiretas ao longo dos turnos de diálogo. Aplicando o CoTrace a 638 registros de colaboração do mundo real, descobrimos que, embora os modelos representem apenas 11-26% da contribuição na modelagem de objetivos, eles contribuem substancialmente mais na introdução de requisitos concretos de nível inferior e realizam vários tipos de contribuições indiretas. Por meio de simulações controladas, mostramos que escolhas de design de interação afetam significativamente o comportamento dos modelos na modelagem de objetivos. Em um estudo com usuários, expor os participantes a análises em nível de objetivo deslocou suas contribuições percebidas em quase 2 pontos em uma escala de 5 pontos, revelando uma descalibragem sistemática na forma como os usuários entendem seu próprio trabalho assistido por IA.
Apresentamos o Lean Refactor, um framework agêntico aumentado por recuperação plug-and-play para refatoração multiobjetivo, controlável e robusta a versões de provas em Lean. Provas geradas por LLMs são notoriamente corretas, mas prolixas e frágeis entre versões de bibliotecas; no entanto, os trabalhos existentes de refatoração ignoram três desafios práticos: 1) a refatoração em Lean é nativamente multiobjetivo (comprimento da prova, custo de compilação e compatibilidade de versões frequentemente estão em conflito); 2) repositórios em Lean apresentam compatibilidade frágil, enquanto os lançamentos de LLMs desconhecem as versões de Lean/Mathlib; 3) pipelines baseados em treinamento exigem ajuste fino repetido a cada novo lançamento de LLM, não escalando nem com a rotatividade de modelos nem com o ciclo de lançamento do Lean. O Lean Refactor direciona um LLM agêntico congelado com recuperações de uma base de dados curada de estratégias de refatoração multiobjetivo, cada uma densamente anotada com metadados como versões suportadas de Lean/Mathlib e redução esperada do custo de compilação. Experimentos mostram mais de 70% de compressão em nível de tokens em benchmarks de competição, mais de 20% em repositórios de pesquisa e até 60% de redução no tempo de compilação, superando trabalhos anteriores e o Claude Code. A recuperação filtrada por versão melhora ainda mais a compressão na versão alvo do Lean, e provas refatoradas do miniF2F exibem transferência de versão zero-shot mais robusta para lançamentos futuros do Lean do que suas contrapartes não refatoradas.
O desequilíbrio de classes é um desafio fundamental na segmentação de imagens médicas, onde classes frequentes tipicamente dominam o treinamento em detrimento das classes raras. Abordagens baseadas em perda mitigam o desequilíbrio ao reponderar a perda por pixel dentro do lote, enquanto estratégias de amostragem controlam quais imagens entram no lote. No entanto, nenhuma delas controla explicitamente quais classes aparecem dentro do lote, deixando a exposição a classes raras apenas parcialmente reequilibrada. Neste trabalho, adotamos amostragem episódica do aprendizado de poucos exemplos (few-shot learning) para promover a construção de lotes com equilíbrio de classes em um ambiente completamente supervisionado. Desacoplamos a amostragem episódica do seu contexto convencional de aprendizado de métricas e a avaliamos na segmentação da composição corporal em TC. Comparamos a amostragem episódica com a amostragem aleatória e ponderada em nove tecidos musculares e adiposos, derivados de 210 exames do conjunto de dados público SAROS. O treinamento é realizado sob regimes de dados completos e reduzidos, com comparações adicionais sob orçamentos de iterações de treinamento equivalentes. Sob treinamento com dados completos, todas as três estratégias tiveram desempenho comparável (Dice médio de 0,882 para episódica, 0,878 para aleatória e ponderada). Sob treinamento com dados reduzidos, a amostragem episódica superou a aleatória e a ponderada (0,787 contra 0,758 e 0,762), impulsionada por uma diferença de 12 vezes no número de iterações de treinamento. Sob orçamentos de treinamento equivalentes, a amostragem aleatória e a ponderada sofreram overfitting mais cedo, enquanto a episódica melhorou por aproximadamente três vezes mais iterações antes de estabilizar. Nossos achados identificam o orçamento de iterações de treinamento como um fator de confusão sub-reconhecido nas estratégias de amostragem, motivando protocolos de avaliação cientes do número de iterações para conjuntos de dados pequenos. Além disso, a vantagem residual da amostragem episódica é consistente com um efeito de regularização implícita de lotes balanceados por classe, oferecendo uma estratégia de baixo custo e independente do modelo para segmentação de imagens médicas com desequilíbrio de classes. O código está disponível em https://github.com/iasonsky/episodic-sampling.
Leis de escala tornaram o desempenho de modelos de linguagem previsível a partir do tamanho do modelo, dos dados e do custo computacional, mas normalmente tratam o otimizador como um detalhe fixo do treinamento. Mostramos que essa suposição negligencia um eixo fundamental de escalonamento de representação: a eficácia com que o otimizador converte o aumento da largura da FFN em capacidade espectral utilizada. Utilizando espectros próprios de representações de redes feed-forward, medidos por ranques espectrais suave e rígido, descobrimos que a mesma arquitetura Transformer apresenta leis de escala espectral marcadamente diferentes quando treinada com otimizadores distintos. Mantendo fixos a arquitetura e o cronograma de largura, o AdamW exibe um escalonamento fraco de ranque rígido (β=0,44) em representações de tokens raros (TAIL), onde se sabe que o aprendizado é mais difícil, enquanto o Muon alcança um escalonamento linear (β=1,02) nos mesmos regimes, um aumento de 2,3 vezes no expoente de escala. Essa diferença não se reduz à perda de validação: configurações do AdamW podem igualar variantes Dion de ranque baixo em perplexidade, sob treinamento estendido, ao mesmo tempo que exibem uma geometria espectral nitidamente diferente, demonstrando que perda correspondente não implica estrutura de representação correspondente. A assimetria de ranque rígido-suave revela ainda que os otimizadores diferem não apenas na quantidade de capacidade realizada, mas também em como essa capacidade é estruturada entre os autômodos. Para separar os efeitos do otimizador dos efeitos arquitetônicos, comparamos com intervenções arquiteturais (por exemplo, ranque de atenção e codificação posicional) e descobrimos que os desvios espectrais induzidos pelo otimizador frequentemente superam os efeitos arquitetônicos. Esses resultados sugerem a otimização como um eixo de primeira classe do escalonamento de representação, motivando o codesign otimizador-arquitetura.
A Hipótese Forte da Representação Platônica sugere que a convergência representacional em redes neurais artificiais pode ser aproveitada de forma construtiva: embeddings podem ser traduzidos entre modelos através de um espaço latente universal sem dados pareados. Investigamos se uma geometria análoga pode ser recuperada entre cérebros humanos. Utilizando dados de fMRI do Natural Scenes Dataset, propomos um codificador auto-supervisionado que aprende embeddings específicos do sujeito apenas a partir de dados cerebrais, explorando apresentações repetidas de estímulos. Mostramos que esses espaços aprendidos independentemente podem ser traduzidos entre sujeitos através de rotações ortogonais não supervisionadas, sem amostras pareadas entre sujeitos ou representações intermediárias de modelos. Sincronizar rotações aos pares em um único espaço latente compartilhado melhora ainda mais a recuperação entre sujeitos, indicando que os espaços específicos do sujeito são mutuamente compatíveis com um sistema de coordenadas comum. Esses resultados fornecem evidências para uma geometria neural compartilhada no córtex visual humano: representações de fMRI específicas do sujeito são aproximadamente isométricas entre indivíduos e podem ser traduzidas através de transformações puramente geométricas.
A geração interativa de música em streaming promete o uso de modelos generativos para performance ao vivo e cocriação, algo impossível com modelos offline. No entanto, os modelos de última geração (SOTA) existem no regime AR discreto, exigindo níveis industriais de computação tanto para treinamento quanto para inferência. Neste trabalho, investigamos se modelos de difusão de áudio, com seu amplo suporte na comunidade de código aberto, mas natureza bidirecional não contínua, podem ser reutilizados de forma eficiente em modelos interativos acessíveis em hardware de consumidor. Ao examinar criticamente o pipeline moderno para difusão de extrapolação por blocos, identificamos ineficiências críticas durante a inferência que resultam em eficiência computacional estritamente pior do que suas contrapartes AR discretas. Propomos os Modelos de Difusão de Música ao Vivo (LMDMs), uma modificação simples do processo de difusão generativa que recupera e, em seguida, supera a complexidade de inferência dos Modelos de Música ao Vivo (LMMs) discretos por meio do cache KV por blocos. Ao contrário dos LMMs, os LMDMs permitem ainda um alinhamento estável pós-treinamento por meio de nosso novo paradigma ARC-Forcing, reduzindo o acúmulo de erros sem qualquer RL explícito ou modelos de recompensa. Demonstramos a aplicação dos LMDMs em vários domínios criativos, incluindo geração condicionada por texto, síntese musical baseada em esboços e jam sessions. Por fim, mostramos como os LMDMs podem ser usados como um instrumento generativo em uma colaboração real entre artista e IA, utilizando os LMDMs como um "delay generativo" para transformar a improvisação dos músicos ao vivo, com efeitos timbrísticos variáveis, enquanto executam localmente em um laptop gamer de consumo.
A reconstrução 3D de animais em ambiente natural continua desafiadora devido à grande variação entre espécies, oclusões frequentes e a prevalência de cenas com múltiplos animais, enquanto os métodos existentes concentram-se predominantemente em cenários de animal único. Apresentamos o SAM 3D Animal, o primeiro framework baseado em prompts para reconstrução 3D de múltiplos animais a partir de uma única imagem. Construído sobre o modelo paramétrico de animal SMAL+, o nosso método reconstroi conjuntamente múltiplas instâncias e suporta prompts flexíveis na forma de pontos-chave e máscaras, que permitem uma desambiguação mais fiável em cenas com aglomeração e oclusão. Para treinar tal modelo, introduzimos ainda o Herd3D, um conjunto de dados 3D multi-animal contendo mais de 5 mil imagens, concebido para aumentar a diversidade em espécies, interações e padrões de oclusão. Experiências nos conjuntos de dados Animal3D, APTv2 e Animal Kingdom mostram que o nosso framework atinge resultados de ponta em relação tanto a métodos baseados em modelos como a métodos livres de modelos existentes, demonstrando uma solução escalável e eficaz para reconstrução 3D de animais orientada por prompts em ambiente natural.
A Odometria Visual-Inercial (VIO), essencial para a navegação de robôs móveis, utiliza câmeras com grande número de pixels. A captura e o processamento de imagens dessas câmeras exigem recursos significativos. Este trabalho apresenta uma abordagem minimalista para odometria planar, demonstrando que apenas quatro medições visuais e uma IMU podem fornecer uma estimativa robusta de movimento para robôs com tração diferencial. Nosso principal insight é que quatro fotodiodos voltados para baixo, que percebem o mundo através de máscaras ópticas de Gabor, geram sinais que codificam a velocidade. Com base nisso, otimizamos conjuntamente os parâmetros da máscara juntamente com uma Rede Convolucional Temporal (TCN) usando um simulador fisicamente fundamentado. O modelo resultante decodifica a velocidade a partir das quatro medições produzidas pelos fotodiodos. Combinando essas estimativas com a velocidade angular de uma IMU, obtém-se uma trajetória planar contínua. Validamos nossa abordagem com um protótipo de sensor montado em um robô de tração diferencial. Em diversos terrenos internos e externos, nosso sistema acompanha de perto a referência de verdade fundamental, sem qualquer ajuste fino no mundo real. Nosso trabalho mostra que a detecção minimalista possibilita uma odometria planar eficiente e precisa.
A recuperação de imagens de moda é um pilar dos sistemas modernos de comércio eletrónico. Na prática, é altamente desejável um quadro unificado que suporte diversos formatos de consulta e intenções de pesquisa. No entanto, as abordagens existentes focam-se em tarefas de recuperação restritas e não capturam plenamente essa diversidade. Por isso, neste trabalho, visamos desenvolver um quadro unificado capaz de lidar com diversos cenários realistas de recuperação de moda, alcançando uma recuperação de imagens de moda verdadeiramente versátil. Para estabelecer uma base de dados, introduzimos primeiro o U-FIRE, um benchmark abrangente que consolida conjuntos de dados fragmentados de moda numa coleção unificada, complementada por dois conjuntos de dados curados manualmente para testar a generalização. Com base nisso, propomos o FashionLens, um quadro unificado baseado em Grandes Modelos de Linguagem Multimodais. Para lidar com objetivos de correspondência divergentes, concebemos um Calibrador de Consultas Esféricas Guiado por Propostas que desloca dinamicamente as representações das consultas para espaços métricos alinhados às tarefas através de interpolação linear esférica adaptativa. Além disso, para mitigar o desequilíbrio de otimização causado por diferentes complexidades de tarefas e escalas de dados, desenvolvemos uma estratégia de Amostragem Adaptativa Guiada por Gradiente que repondera automaticamente as tarefas com base na dificuldade de aprendizagem em tempo real e no prior da escala de dados. As experiências no U-FIRE mostram que o FashionLens alcança desempenho de ponta em diversos cenários de recuperação e generaliza de forma robusta para tarefas não vistas. Os dados e o código são disponibilizados publicamente em https://github.com/haokunwen/FashionLens.