Artigos de pesquisa em IA selecionados diariamente com traduções
Os rápidos avanços nos modelos de vídeo têm-se concentrado sobretudo na qualidade visual, deixando as suas capacidades de raciocínio pouco exploradas. O raciocínio em vídeo ancora a inteligência em ambientes visuais espaciotemporalmente consistentes que vão além do que o texto pode captar naturalmente, permitindo um raciocínio intuitivo sobre a estrutura espaciotemporal, como continuidade, interação e causalidade. No entanto, o estudo sistemático do raciocínio em vídeo e do seu comportamento de escalabilidade é dificultado pela falta de dados de treino em grande escala. Para colmatar esta lacuna, apresentamos o *Very Big Video Reasoning (VBVR) Dataset*, um recurso de escala sem precedentes que abrange 200 tarefas de raciocínio criteriosamente selecionadas, seguindo uma taxonomia fundamentada, e mais de um milhão de *clips* de vídeo, aproximadamente três ordens de grandeza maior do que os conjuntos de dados existentes. Apresentamos ainda o VBVR-Bench, uma estrutura de avaliação verificável que vai além da avaliação baseada em modelos, incorporando sistemas de pontuação baseados em regras e alinhados com a avaliação humana, permitindo um diagnóstico reproduzível e interpretável das capacidades de raciocínio em vídeo. Aproveitando o conjunto VBVR, realizamos um dos primeiros estudos de escalabilidade em grande escala sobre raciocínio em vídeo e observamos sinais precoces de generalização emergente para tarefas de raciocínio não vistas durante o treino. Em conjunto, o VBVR estabelece uma base para a próxima fase de investigação em raciocínio em vídeo generalizável. Os dados, o *kit* de ferramentas de avaliação comparativa e os modelos estão publicamente disponíveis em https://video-reason.com/.
Os sistemas de IA compostos prometem capacidades além dos modelos individuais, mas seu sucesso depende criticamente de uma orquestração eficaz. As abordagens de roteamento existentes enfrentam duas limitações: (1) roteadores em nível de entrada tomam decisões grosseiras em nível de consulta que ignoram requisitos de tarefa em evolução; (2) orquestradores treinados com RL são caros para adaptar e frequentemente sofrem de colapso de roteamento, invocando repetidamente uma opção forte mas custosa em cenários multi-turn. Apresentamos o SkillOrchestra, uma estrutura para orquestração consciente de habilidades. Em vez de aprender diretamente uma política de roteamento end-to-end, o SkillOrchestra aprende habilidades refinadas a partir da experiência de execução e modela a competência e o custo específicos do agente sob essas habilidades. Na implantação, o orquestrador infere as demandas de habilidade da interação atual e seleciona os agentes que melhor as satisfazem sob uma compensação explícita entre desempenho e custo. Experimentos extensos em dez benchmarks demonstram que o SkillOrchestra supera orquestradores baseados em RL state-of-the-art em até 22,5%, com redução de custo de aprendizado de 700x e 300x em comparação com Router-R1 e ToolOrchestra, respectivamente. Esses resultados mostram que a modelagem explícita de habilidades permite uma orquestração escalável, interpretável e eficiente em amostras, oferecendo uma alternativa fundamentada às abordagens baseadas em RL intensivas em dados. O código está disponível em: https://github.com/jiayuww/SkillOrchestra.
Após o surgimento dos grandes modelos de base, surgiram os modelos Visão-Linguagem-Ação (VLAs), que aproveitam a forte compreensão visual e linguística para o aprendizado de políticas de propósito geral. No entanto, o cenário atual dos VLAs permanece fragmentado e exploratório. Embora muitos grupos tenham proposto seus próprios modelos VLA, inconsistências nos protocolos de treinamento e configurações de avaliação dificultam a identificação de quais escolhas de projeto são realmente importantes. Para trazer estrutura a este espaço em evolução, reexaminamos o espaço de projeto dos VLAs sob um framework unificado e uma configuração de avaliação padronizada. Partindo de uma linha de base VLA simples, semelhante ao RT-2 e ao OpenVLA, dissecamos sistematicamente as escolhas de projeto ao longo de três dimensões: componentes fundamentais, elementos essenciais de percepção e perspectivas de modelagem de ações. A partir deste estudo, destilamos 12 descobertas-chave que, juntas, formam uma receita prática para a construção de modelos VLA robustos. O resultado desta exploração é um modelo simples, porém eficaz, o VLANeXt. O VLANeXt supera os métodos anteriores state-of-the-art nos benchmarks LIBERO e LIBERO-plus e demonstra forte generalização em experimentos do mundo real. Liberaremos uma base de código unificada e de fácil uso que servirá como uma plataforma comum para a comunidade reproduzir nossas descobertas, explorar o espaço de projeto e construir novas variantes de VLA sobre uma base compartilhada.
Relatamos um estudo exploratório de "red teaming" com agentes autônomos baseados em modelos de linguagem implantados em um ambiente laboral ativo, dotados de memória persistente, contas de e-mail, acesso ao Discord, sistemas de arquivos e execução de shell. Durante um período de duas semanas, vinte pesquisadores em IA interagiram com os agentes sob condições benignas e adversárias. Concentrando-nos em falhas decorrentes da integração de modelos de linguagem com autonomia, uso de ferramentas e comunicação multipartidária, documentamos onze estudos de caso representativos. Os comportamentos observados incluem: conformidade não autorizada com não proprietários, divulgação de informações sensíveis, execução de ações destrutivas em nível de sistema, condições de negação de serviço, consumo descontrolado de recursos, vulnerabilidades de falsificação de identidade, propagação de práticas inseguras entre agentes e tomada parcial do sistema. Em vários casos, os agentes relataram conclusão de tarefas enquanto o estado subjacente do sistema contradizia esses relatórios. Também relatamos algumas das tentativas malsucedidas. Nossas descobertas estabelecem a existência de vulnerabilidades relevantes para segurança, privacidade e governança em ambientes de implantação realistas. Esses comportamentos levantam questões não resolvidas sobre responsabilidade, autoridade delegada e responsabilidade por danos subsequentes, exigindo atenção urgente de juristas, formuladores de políticas e pesquisadores de diversas disciplinas. Este relato serve como uma contribuição empírica inicial para essa discussão mais ampla.
A recomendação sequencial emprega cada vez mais o raciocínio latente de múltiplos passos para melhorar a computação em tempo de teste. Apesar dos ganhos empíricos, as abordagens existentes conduzem amplamente os estados de raciocínio intermediário por meio de objetivos dominados pelo alvo sem impor restrições explícitas de viabilidade. Isso resulta em um desvio latente (*latent drift*), onde as trajetórias de raciocínio se desviam para regiões implausíveis. Argumentamos que o raciocínio eficaz para recomendação deve, em vez disso, ser visto como uma navegação numa variedade colaborativa (*collaborative manifold*), e não como um refinamento latente de forma livre. Para esse fim, propomos o ManCAR (*Manifold-Constrained Adaptive Reasoning*), uma estrutura fundamentada que ancora o raciocínio dentro da topologia de um grafo de interação global. O ManCAR constrói um prior de intenção local a partir da vizinhança colaborativa das ações recentes de um utilizador, representado como uma distribuição sobre o *simplex* de itens. Durante o treino, o modelo alinha progressivamente a sua distribuição preditiva latente com este prior, forçando a trajetória de raciocínio a permanecer dentro da variedade válida. No momento do teste, o raciocínio prossegue de forma adaptativa até que a distribuição preditiva se estabilize, evitando um refinamento excessivo (*over-refinement*). Fornecemos uma interpretação variacional do ManCAR para validar teoricamente os seus mecanismos de prevenção de desvio e parada adaptativa em tempo de teste. Experiências em sete *benchmarks* demonstram que o ManCAR supera consistentemente os métodos do estado da arte, alcançando uma melhoria relativa de até 46,88% em relação ao NDCG@10. O nosso código está disponível em https://github.com/FuCongResearchSquad/ManCAR.
Embora os modelos Visão-Linguagem-Ação (VLA) tenham registado progressos rápidos no pré-treinamento, o seu avanço na Aprendizagem por Reforço (RL) continua a ser dificultado pela baixa eficiência amostral e recompensas esparsas em ambientes do mundo real. O desenvolvimento de modelos de recompensa de processo generalizáveis é essencial para fornecer o *feedback* granular necessário para colmatar esta lacuna, no entanto, as funções de valor temporal existentes frequentemente não conseguem generalizar para além dos seus domínios de treino. Apresentamos o TOPReward, uma nova função de valor temporal, fundamentada probabilisticamente, que aproveita o conhecimento latente do mundo dos modelos de visão e linguagem (VLM) pré-treinados em vídeo para estimar o progresso de tarefas robóticas. Ao contrário de métodos anteriores que solicitam aos VLMs que emitam directamente valores de progresso – uma abordagem propensa a más representações numéricas – o TOPReward extrai o progresso da tarefa directamente dos *logits* dos *tokens* internos do VLM. Em avaliações *zero-shot* em mais de 130 tarefas distintas do mundo real e em múltiplas plataformas robóticas (por exemplo, Franka, YAM, SO-100/101), o TOPReward alcança uma Correlação de Ordem-Valor (VOC) média de 0.947 no Qwen3-VL, superando dramaticamente a linha de estado da arte GVL, que alcança uma correlação próxima de zero no mesmo modelo de código aberto. Demonstramos ainda que o TOPReward serve como uma ferramenta versátil para aplicações subsequentes, incluindo detecção de sucesso e clonagem de comportamento alinhada com a recompensa.
Os modelos multimodais unificados podem compreender e gerar conteúdo visual dentro de uma única arquitetura. No entanto, os modelos existentes continuam dependentes de grandes volumes de dados e são muito pesados para implantação em dispositivos de borda. Apresentamos o Mobile-O, um modelo compacto de difusão visão-linguagem que leva inteligência multimodal unificada para dispositivos móveis. Seu módulo central, o Mobile Conditioning Projector (MCP), funde características visão-linguagem com um gerador de difusão usando convoluções separáveis em profundidade e alinhamento por camadas. Este projeto permite condicionamento cruzado modal eficiente com custo computacional mínimo. Treinado com apenas alguns milhões de amostras e pós-treinado em um novo formato quádruplo (prompt de geração, imagem, pergunta, resposta), o Mobile-O aprimora conjuntamente as capacidades de compreensão e geração visual. Apesar de sua eficiência, o Mobile-O atinge desempenho competitivo ou superior em comparação com outros modelos unificados, alcançando 74% no GenEval e superando Show-O e JanusFlow em 5% e 11%, respectivamente, enquanto executa 6x e 11x mais rápido. Para compreensão visual, o Mobile-O os supera em 15,3% e 5,1% na média de sete benchmarks. Executando em apenas ~3s por imagem 512x512 em um iPhone, o Mobile-O estabelece o primeiro framework prático para compreensão e geração multimodal unificada em tempo real em dispositivos de borda. Esperamos que o Mobile-O facilite pesquisas futuras em inteligência multimodal unificada em tempo real executada inteiramente no dispositivo, sem dependência da nuvem. Nosso código, modelos, conjuntos de dados e aplicativo móvel estão publicamente disponíveis em https://amshaker.github.io/Mobile-O/.
A capacidade de manipular ferramentas expande significativamente o conjunto de tarefas que um robô pode executar. No entanto, a manipulação de ferramentas representa uma classe desafiadora de destreza, exigindo a preensão de objetos finos, rotações de objetos na mão e interações forçadas. Como a recolha de dados de teleoperação para estes comportamentos é difícil, a aprendizagem por reforço (RL) de simulação para realidade (sim-to-real) é uma alternativa promissora. Contudo, as abordagens anteriores normalmente exigem um esforço de engenharia substancial para modelar objetos e afinar funções de recompensa para cada tarefa. Neste trabalho, propomos o SimToolReal, dando um passo no sentido de generalizar políticas de RL sim-to-real para manipulação de ferramentas. Em vez de nos concentrarmos num único objeto e tarefa, geramos proceduralmente uma grande variedade de primitivos de objetos semelhantes a ferramentas em simulação e treinamos uma única política de RL com o objetivo universal de manipular cada objeto para poses-alvo aleatórias. Esta abordagem permite ao SimToolReal realizar uma manipulação dextra geral de ferramentas no momento do teste, sem qualquer treino específico de objeto ou tarefa. Demonstramos que o SimToolReal supera os métodos anteriores de retargeting e preensão fixa em 37%, equiparando-se ao desempenho de políticas de RL especialistas treinadas em objetos e tarefas-alvo específicos. Por fim, mostramos que o SimToolReal generaliza-se através de um conjunto diversificado de ferramentas do quotidiano, alcançando um forte desempenho zero-shot em mais de 120 rollouts no mundo real, abrangendo 24 tarefas, 12 instâncias de objetos e 6 categorias de ferramentas.
Estudamos a tarefa de estabelecer correspondência visual a nível de objetos entre diferentes pontos de vista em vídeos, com foco nos cenários desafiadores de transição egocêntrica-para-exocêntrica e exocêntrica-para-egocêntrica. Propomos uma estrutura simples, porém eficaz, baseada em segmentação binária condicional, na qual uma máscara de consulta de objeto é codificada numa representação latente para orientar a localização do objeto correspondente num vídeo-alvo. Para incentivar representações robustas e invariantes ao ponto de vista, introduzimos um objetivo de treino de consistência cíclica: a máscara prevista na vista-alvo é projetada de volta para a vista de origem para reconstruir a máscara de consulta original. Esta restrição bidirecional fornece um forte sinal de auto-supervisão sem exigir anotações de ground-truth e permite o treino durante o teste (test-time training - TTT) na inferência. Experiências nos benchmarks Ego-Exo4D e HANDAL-X demonstram a eficácia do nosso objetivo de otimização e da estratégia TTT, alcançando um desempenho state-of-the-art. O código está disponível em https://github.com/shannany0606/CCMP.
O aprendizado por reforço com verificadores (RLVR) é um paradigma central para melhorar o raciocínio de grandes modelos de linguagem (LLMs), no entanto, os métodos existentes frequentemente sofrem com exploração limitada. As políticas tendem a colapsar em poucos padrões de raciocínio e a parar prematuramente a exploração profunda, enquanto a regularização de entropia convencional introduz apenas estocasticidade local e falha em induzir diversidade significativa a nível de trajetória, levando a sinais de aprendizado fracos e instáveis na otimização de políticas baseada em grupos. Propomos o DSDR, uma estrutura de aprendizado por reforço com Regularização de Diversidade em Dupla Escala que decompõe a diversidade no raciocínio de LLMs em componentes global e de acoplamento. Globalmente, o DSDR promove a diversidade entre trajetórias de raciocínio corretas para explorar modos de solução distintos. Localmente, aplica uma regularização de entropia a nível de token, invariante ao comprimento e restrita a trajetórias corretas, prevenindo o colapso da entropia dentro de cada modo, enquanto preserva a correção. As duas escalas são acopladas através de um mecanismo de alocação global-para-local que enfatiza a regularização local para trajetórias corretas mais distintas. Fornecemos suporte teórico mostrando que o DSDR preserva a correção ótima sob regularização limitada, sustenta sinais de aprendizado informativos na otimização baseada em grupos e produz uma regra de acoplamento global-para-local fundamentada. Experimentos em múltiplos benchmarks de raciocínio demonstram melhorias consistentes em precisão e pass@k, destacando a importância da diversidade em dupla escala para a exploração profunda no RLVR. O código está disponível em https://github.com/SUSTechBruce/DSDR.
Os dados sintéticos gerados por modelos generativos de vídeo têm demonstrado potencial para o aprendizado de robôs como um pipeline escalável, mas frequentemente sofrem com inconsistência na qualidade das ações devido a vídeos gerados de forma imperfeita. Recentemente, modelos de visão e linguagem (VLMs) têm sido utilizados para validar a qualidade de vídeos, mas possuem limitações em distinguir vídeos fisicamente precisos e, mesmo assim, não podem avaliar diretamente as ações geradas em si. Para resolver esse problema, introduzimos o RoboCurate, uma nova estrutura de geração de dados robóticos sintéticos que avalia e filtra a qualidade das ações anotadas comparando-as com uma reprodução em simulação. Especificamente, o RoboCurate reproduz as ações previstas em um simulador e avalia a qualidade da ação medindo a consistência do movimento entre a execução no simulador e o vídeo gerado. Além disso, liberamos a diversidade de observação além do conjunto de dados disponível por meio de edição imagem-a-imagem e aplicamos transferência vídeo-a-vídeo que preserva a ação para aumentar ainda mais a aparência. Observamos que os dados gerados pelo RoboCurate produzem melhorias relativas substanciais nas taxas de sucesso em comparação com o uso apenas de dados reais, alcançando +70,1% no GR-1 Tabletop (300 demonstrações), +16,1% no DexMimicGen na configuração de pré-treinamento e +179,9% no desafiador cenário de manipulação destra humanóide do ALLEX no mundo real.
Propomos o tttLRM, um novo e inovador modelo de reconstrução 3D de grande escala que aproveita uma camada de Treinamento em Tempo de Teste (TTT) para permitir a reconstrução 3D autoregressiva de longo contexto com complexidade computacional linear, escalando ainda mais a capacidade do modelo. Nossa estrutura comprime eficientemente múltiplas observações de imagem nos pesos rápidos da camada TTT, formando uma representação 3D implícita no espaço latente que pode ser decodificada em vários formatos explícitos, como *Gaussian Splats* (GS) para aplicações a jusante. A variante de aprendizado online do nosso modelo suporta reconstrução e refinamento 3D progressivos a partir de observações em fluxo contínuo. Demonstramos que o pré-treinamento em tarefas de síntese de novas vistas transfere-se eficazmente para a modelagem 3D explícita, resultando em uma qualidade de reconstrução melhorada e convergência mais rápida. Experimentos extensivos mostram que nosso método alcança um desempenho superior na reconstrução feedforward de Gaussianas 3D em comparação com as abordagens state-of-the-art, tanto para objetos quanto para cenas.
O Reconhecimento Óptico de Caracteres (OCR) é uma tarefa fundamental para a digitalização de informações, servindo como uma ponte crítica entre dados visuais e compreensão textual. Embora os Modelos de Visão e Linguagem (VLM) modernos tenham alcançado alta precisão neste domínio, eles dependem predominantemente da descodificação autoregressiva, que se torna computacionalmente dispendiosa e lenta para documentos longos, pois requer uma passagem sequencial para cada token gerado. Identificamos uma oportunidade chave para superar este estrangulamento: ao contrário da geração de texto aberto, o OCR é uma tarefa altamente determinística onde a entrada visual dita estritamente uma sequência de saída única, permitindo teoricamente uma descodificação paralela eficiente através de modelos de difusão. No entanto, demonstramos que os modelos de difusão mascarada existentes não conseguem aproveitar este potencial; estes introduzem instabilidades estruturais que são benignas em tarefas flexíveis, como legendagem, mas catastróficas para os requisitos rígidos de correspondência exata do OCR. Para colmatar esta lacuna, introduzimos o DODO, o primeiro VLM a utilizar difusão discreta por blocos e a desbloquear o seu potencial de aceleração para o OCR. Ao decompor a geração em blocos, o DODO mitiga os erros de sincronização da difusão global. Empiricamente, o nosso método alcança uma precisão quase state-of-the-art, permitindo uma inferência até 3x mais rápida em comparação com as linhas de base autoregressivas.
Os sistemas de memória agentiva permitem que agentes de modelos de linguagem de grande escala (LLM) mantenham estado ao longo de interações longas, suportando raciocínio de longo horizonte e personalização para além de janelas de contexto fixas. Apesar do rápido desenvolvimento arquitetônico, os fundamentos empíricos destes sistemas permanecem frágeis: os benchmarks existentes são frequentemente de escala insuficiente, as métricas de avaliação estão desalinhadas com a utilidade semântica, o desempenho varia significativamente entre os modelos de base (backbone) e os custos a nível de sistema são frequentemente negligenciados. Este estudo apresenta uma análise estruturada da memória agentiva tanto sob perspetivas arquitetónicas como de sistema. Primeiro, introduzimos uma taxonomia concisa dos sistemas MAG baseada em quatro estruturas de memória. Em seguida, analisamos os principais pontos problemáticos que limitam os sistemas atuais, incluindo efeitos de saturação nos benchmarks, validade das métricas e sensibilidade dos juízos, precisão dependente do modelo de base, e a sobrecarga de latência e de débito (throughput) introduzida pela manutenção da memória. Ao conectar a estrutura de memória às limitações empíricas, este estudo esclarece por que razão os sistemas de memória agentiva atuais frequentemente ficam aquém da sua promessa teórica e delineia direções para uma avaliação mais fiável e um design de sistema mais escalável.
Os sistemas modernos de larga escala de classificação operam num cenário sofisticado de objetivos concorrentes, restrições operacionais e requisitos de produto em evolução. O progresso neste domínio está cada vez mais limitado pela restrição do contexto de engenharia: o árduo processo de traduzir intenções ambíguas de produto em hipóteses razoáveis, executáveis e verificáveis, em vez de ser limitado apenas por técnicas de modelagem. Apresentamos o GEARS (Motor Gerativo para Sistemas de Classificação Agêntica), uma estrutura que reformula a otimização de classificação como um processo de descoberta autónoma dentro de um ambiente de experimentação programável. Em vez de tratar a otimização como uma seleção estática de modelos, o GEARS aproveita Competências de Agentes Especializados para encapsular o conhecimento especializado em classificação em capacidades de raciocínio reutilizáveis, permitindo que os operadores orientem os sistemas através de uma personalização de alto nível baseada na "sensação" da intenção. Adicionalmente, para garantir a confiabilidade em produção, a estrutura incorpora mecanismos de validação para impor robustez estatística e filtrar políticas frágeis que se ajustem excessivamente a sinais de curto prazo. A validação experimental em diversas superfícies de produto demonstra que o GEARS identifica consistentemente políticas superiores e quase Pareto-eficientes, ao sinergizar sinais algorítmicos com um contexto profundo de classificação, mantendo ao mesmo tempo uma rigorosa estabilidade de implantação.
A otimização de kernels de GPU é crítica para sistemas modernos de aprendizagem de máquina eficientes, mas continua a ser um desafio devido à complexa interação de fatores de projeto e à rápida evolução do hardware. As abordagens automatizadas existentes normalmente tratam os Modelos de Linguagem de Grande Escala (LLMs) meramente como geradores estocásticos de código dentro de loops evolutivos guiados por heurísticas. Esses métodos frequentemente lutam com kernels complexos que exigem transformações estruturais multi-etapa coordenadas, pois carecem de capacidades de planeamento explícito e frequentemente descartam estratégias promissoras devido a implementações intermédias ineficientes ou incorretas. Para resolver isto, propomos a Busca via Modelo de Mundo Co-Evolutivo e construímos o K-Search com base neste método. Ao substituir heurísticas de busca estáticas por um modelo de mundo co-evolutivo, a nossa estrutura aproveita o conhecimento de domínio prévio dos LLMs para guiar a busca, explorando ativamente o espaço de otimização. Esta abordagem desacopla explicitamente o planeamento algorítmico de alto nível da instanciação de programa de baixo nível, permitindo que o sistema navegue por caminhos de otimização não monotónicos, mantendo-se resiliente a defeitos temporários de implementação. Avaliamos o K-Search em diversos kernels complexos do FlashInfer, incluindo kernels GQA, MLA e MoE. Os nossos resultados mostram que o K-Search supera significativamente os métodos de busca evolutiva state-of-the-art, alcançando uma melhoria média de 2.10x e um ganho de até 14.3x em kernels MoE complexos. Na tarefa GPUMode TriMul, o K-Search alcança desempenho state-of-the-art no H100, atingindo 1030us e superando tanto soluções evolutivas anteriores como soluções desenhadas por humanos.
Os modelos Visão-Linguagem-Ação (VLA) surgiram como um paradigma promissor para a manipulação robótica de propósito geral, aproveitando o pré-treinamento em larga escala para alcançar um desempenho robusto. A área evoluiu rapidamente com a incorporação de prévias espaciais e diversas inovações arquiteturais. No entanto, esses avanços são frequentemente acompanhados por receitas de treinamento e detalhes de implementação variados, o que pode dificultar a identificação da fonte precisa dos ganhos empíricos. Neste trabalho, apresentamos o SimVLA, uma linha de base simplificada concebida para estabelecer um ponto de referência transparente para a pesquisa em VLA. Ao desacoplar estritamente a percepção do controle, utilizando um *backbone* padrão de visão computacional e linguagem e um cabeçalho de ação leve, e ao padronizar dinâmicas críticas de treinamento, demonstramos que um design minimalista pode alcançar desempenho de última geração. Apesar de possuir apenas 0,5 bilhão de parâmetros, o SimVLA supera modelos com múltiplos bilhões de parâmetros em *benchmarks* padrão de simulação, sem pré-treinamento em robôs. O SimVLA também atinge um desempenho em robô real equivalente ao do pi0.5. Nossos resultados estabelecem o SimVLA como uma linha de base robusta e reproduzível que permite a atribuição clara de ganhos empíricos a futuras inovações arquiteturais. Website: https://frontierrobo.github.io/SimVLA
Apesar do notável sucesso prático dos modelos de linguagem baseados em transformadores, trabalhos recentes têm levantado preocupações sobre sua capacidade de realizar o rastreamento de estados. Em particular, um número crescente de publicações tem demonstrado essa limitação principalmente através de falhas na generalização fora da distribuição (FDD), como a extrapolação de comprimento. Neste trabalho, desviamos a atenção para as implicações dessas limitações dentro da distribuição. Realizamos um estudo experimental em larga escala da eficiência de dados dos transformadores e das redes neurais recorrentes (RNNs) em múltiplos regimes de supervisão. Descobrimos que a quantidade de dados de treinamento necessária para os transformadores cresce muito mais rapidamente com o tamanho do espaço de estados e o comprimento da sequência do que para as RNNs. Além disso, analisamos até que ponto os mecanismos de rastreamento de estados aprendidos são compartilhados entre diferentes comprimentos de sequência. Mostramos que os transformadores exibem um compartilhamento de pesos insignificante ou mesmo prejudicial entre comprimentos, indicando que eles aprendem soluções específicas para cada comprimento de forma isolada. Em contraste, os modelos recorrentes exibem um aprendizado amortizado eficaz ao compartilhar pesos entre comprimentos, permitindo que os dados de um comprimento de sequência melhorem o desempenho em outros. Juntos, esses resultados demonstram que o rastreamento de estados permanece um desafio fundamental para os transformadores, mesmo quando as distribuições de treinamento e avaliação coincidem.
Apresentamos o Nacrith, um sistema de compressão sem perdas que combina um modelo de linguagem transformador de 135 milhões de parâmetros (SmolLM2-135M) com um conjunto de preditores leves online e um codificador aritmético de 32 bits. Para além do paradigma base de LLM mais codificação aritmética, o Nacrith introduz várias contribuições: (1) uma atualização da precisão da CDF de 2^16 para 2^24 que elimina ~75% da sobrecarga de quantização causada pelos pisos de probabilidade mínima em vocabulários grandes; (2) um modelo de N-gramas a nível de token para previsões locais rápidas; (3) um cabeçalho de ajuste adaptativo em espaço logarítmico que corrige erros do LLM por documento via descida de gradiente online; (4) um salto do LLM baseado em confiança para acelerar tokens altamente previsíveis; (5) um formato binário híbrido (NC06) que estende a compressão neural a ficheiros binários arbitrários – até onde sabemos, uma primazia entre compressores baseados em LLM; (6) um backend de inferência llama.cpp que alcança uma descodificação ~7x mais rápida por token única do que o PyTorch; (7) compressão paralela multi-GPU em até 8 workers; e (8) uma janela deslizante nativa da cache KV que reduz o custo por deslize em ~37x. O sistema requer apenas ~500 MB de pesos GGUF e ~1,2 GB de VRAM por worker, executando em GPUs de consumo. No ficheiro alice29.txt (Corpus de Canterbury, 152 KB), o Nacrith alcança 0,918 bits por byte (bpb) – superando o gzip em 3,1x, o bzip2 em 2,5x, o CMIX v21 em 44% e o ts_zip em 20%, ao mesmo tempo que comprime abaixo dos limites de entropia de Shannon de ordem zero, primeira e segunda a nível de byte. No enwik8 (100 MB), o Nacrith alcança 0,9389 bpb (11,74%), superando o ts_zip (~1,11 bpb) em 15% e o FineZip (1,024 bpb) em 8%, apesar de usar um modelo 60x menor sem qualquer fine-tuning. Uma avaliação fora da distribuição num documento publicado após o corte de treino do modelo confirma que estes ganhos não são artefactos de memorização, alcançando 0,723 bpb em texto não visto.
A indústria digital exige ativos modulares 3D de alta qualidade e diversificados, especialmente para conteúdo gerado por utilizadores (CGU). Neste trabalho, apresentamos o AssetFormer, um modelo baseado em Transformer autoregressivo concebido para gerar ativos modulares 3D a partir de descrições textuais. O nosso estudo piloto aproveita ativos modulares do mundo real recolhidos de plataformas online. O AssetFormer enfrenta o desafio de criar ativos compostos por primitivas que aderem a parâmetros de design restritos para várias aplicações. Ao adaptar de forma inovadora técnicas de sequenciação e descodificação de módulos inspiradas em modelos de linguagem, a nossa abordagem melhora a qualidade da geração de ativos através de modelação autoregressiva. Resultados iniciais indicam a eficácia do AssetFormer em simplificar a criação de ativos para cenários de desenvolvimento profissional e CGU. Este trabalho apresenta uma estrutura flexível extensível a vários tipos de ativos modulares 3D, contribuindo para o campo mais amplo da geração de conteúdo 3D. O código está disponível em https://github.com/Advocate99/AssetFormer.
Os métodos atuais de animação 3D de humanos lutam para alcançar o fotorrealismo: as abordagens baseadas em cinemática carecem de dinâmicas não rígidas (por exemplo, dinâmica de roupas), enquanto os métodos que utilizam *priors* de difusão de vídeo podem sintetizar movimento não rígido, mas sofrem com artefatos de qualidade e perda de identidade. Para superar essas limitações, apresentamos o Ani3DHuman, uma estrutura que combina animação baseada em cinemática com *priors* de difusão de vídeo. Primeiro, introduzimos uma representação de movimento em camadas que separa o movimento rígido do movimento residual não rígido. O movimento rígido é gerado por um método cinemático, que então produz uma renderização grosseira para orientar o modelo de difusão de vídeo na geração de sequências de vídeo que restauram o movimento residual não rígido. No entanto, esta tarefa de restauração, baseada na amostragem por difusão, é altamente desafiadora, pois as renderizações iniciais estão fora da distribuição, fazendo com que os amostradores ODE determinísticos padrão falhem. Portanto, propomos um novo método de amostragem estocástica autoguiada, que aborda eficazmente o problema de estar fora da distribuição, combinando a amostragem estocástica (para qualidade fotorrealista) com a autoguiada (para fidelidade de identidade). Esses vídeos restaurados fornecem supervisão de alta qualidade, permitindo a otimização do campo de movimento residual não rígido. Experimentos extensivos demonstram que o \MethodName pode gerar animação 3D de humanos fotorrealista, superando os métodos existentes. O código está disponível em https://github.com/qiisun/ani3dhuman.
Os vírus adeno-associados (AAVs) são vetores promissores para a terapia gênica, mas os seus serótipos nativos enfrentam limitações no tropismo tecidual, na evasão imune e na eficiência de produção. A engenharia de capsídeos para superar esses obstáculos é desafiadora devido ao vasto espaço de sequência e à dificuldade de otimizar simultaneamente múltiplas propriedades funcionais. A complexidade aumenta ainda mais no caso do rim, que apresenta barreiras anatómicas únicas e alvos celulares que exigem uma engenharia de vetores precisa e eficiente. Apresentamos aqui o AAVGen, um quadro de inteligência artificial generativa para o design *de novo* de capsídeos de AAV com perfis multi-característica aprimorados. O AAVGen integra um modelo de linguagem proteica (PLM) com *fine-tuning* supervisionado (SFT) e uma técnica de aprendizagem por reforço denominada Otimização de Política de Sequência de Grupo (GSPO). O modelo é orientado por um sinal de recompensa composto, derivado de três preditores de regressão baseados em ESM-2, cada um treinado para prever uma propriedade chave: aptidão para produção, tropismo renal e termoestabilidade. Os nossos resultados demonstram que o AAVGen produz uma biblioteca diversificada de sequências novas da proteína VP1. Validações *in silico* revelaram que a maioria das variantes geradas tem um desempenho superior em todos os três índices utilizados, indicando uma otimização multi-objetivo bem-sucedida. Além disso, a análise estrutural via AlphaFold3 confirma que as sequências geradas preservam a dobragem canónica do capsídeo, apesar da diversificação da sequência. O AAVGen estabelece uma base para a engenharia de vetores virais orientada por dados, acelerando o desenvolvimento de vetores de AAV de próxima geração com características funcionais personalizadas.
A odometria confiável para robôs bípedes sem câmaras ou LiDAR continua a ser um desafio devido à deriva do IMU e ao ruído na sensoriamento de velocidade das juntas. Este artigo apresenta um estimador de estado puramente proprioceptivo que utiliza apenas medições do IMU e dos motores para estimar conjuntamente a pose e a velocidade do corpo, com uma formulação unificada aplicável a robôs bípedes, quadrúpedes e de pernas com rodas. A ideia central é tratar cada perna em contacto como uma âncora cinemática: a estimativa de força no pé baseada no torque das juntas seleciona contactos confiáveis, e as posições de apoio correspondentes fornecem restrições intermitentes no referencial mundial que suprimem a deriva a longo prazo. Para prevenir a deriva na altitude durante travessias prolongadas, introduzimos uma correção leve baseada em agrupamento de altura e decaimento temporal, que ajusta as alturas de apoio recém-registradas aos planos de suporte previamente observados. Para melhorar as observações de velocidade do pé sob quantização do encoder, aplicamos um filtro de Kalman por cubatura de cinemática inversa que filtra diretamente as velocidades da extremidade do pé a partir dos ângulos e velocidades das juntas. A implementação mitiga ainda mais a deriva de guinada através da consistência geométrica multi-contacto e degrada-se graciosamente para uma referência de direção derivada cinematicamente quando as restrições de guinada do IMU estão indisponíveis ou não são confiáveis. Avaliamos o método em quatro plataformas quadrúpedes (três robôs Astrall e um Unitree Go2 EDU) usando trajetórias de malha fechada. No robô Astrall de pé pontual A, um circuito horizontal de ~200 m e um circuito vertical de ~15 m retornam com erro de 0,1638 m e 0,219 m, respetivamente; no robô B de pernas com rodas, os erros correspondentes são de 0,2264 m e 0,199 m. No robô C de pernas com rodas, um circuito horizontal de ~700 m produz um erro de 7,68 m e um circuito vertical de ~20 m produz um erro de 0,540 m. O Unitree Go2 EDU fecha um circuito horizontal de ~120 m com um erro de 2,2138 m e um circuito vertical de ~8 m com menos de 0,1 m de erro vertical. github.com/ShineMinxing/Ros2Go2Estimator.git
A descoberta causal para dados transversais e temporais tem seguido tradicionalmente um paradigma específico para cada conjunto de dados, no qual um novo modelo é ajustado para cada conjunto de dados individual. Essa abordagem limita o potencial do pré-treinamento multi-conjunto de dados. O conceito de Grandes Modelos Causais (LCMs) vislumbra uma classe de arquiteturas neurais pré-treinadas especificamente projetadas para a descoberta causal temporal. Abordagens anteriores estão limitadas a pequenas quantidades de variáveis, degradam-se com entradas maiores e dependem fortemente de dados sintéticos, limitando a generalização. Propomos uma estrutura fundamentada para LCMs, combinando diversos geradores sintéticos com conjuntos de dados realistas de séries temporais, permitindo o aprendizado em escala. Experimentos extensivos em benchmarks sintéticos, semi-sintéticos e realistas mostram que os LCMs dimensionam-se efetivamente para maiores quantidades de variáveis e arquiteturas mais profundas, mantendo um desempenho sólido. Os modelos treinados alcançam precisão competitiva ou superior em comparação com baselines clássicas e neurais, particularmente em configurações fora da distribuição, ao mesmo tempo que permitem inferência rápida e de passagem única. Os resultados demonstram os LCMs como um paradigma de modelo de base promissor para a descoberta causal temporal. Experimentos e pesos dos modelos estão disponíveis em https://github.com/kougioulis/LCM-paper/.
O raciocínio diagnóstico de séries temporais é essencial para muitas aplicações, mas as soluções existentes enfrentam uma lacuna persistente: os modelos de linguagem grandes de raciocínio geral (GRLMs) possuem fortes capacidades de raciocínio, mas carecem do conhecimento específico do domínio para compreender padrões complexos de séries temporais. Por outro lado, os LLMs de séries temporais ajustados por fine-tuning (TSLMs) compreendem esses padrões, mas não têm a capacidade de generalizar o raciocínio para questões mais complexas. Para preencher essa lacuna, propomos uma estrutura híbrida de injeção de conhecimento que injeta insights gerados por TSLMs diretamente no traço de raciocínio do GRLM, alcançando assim um raciocínio robusto sobre séries temporais com conhecimento do domínio. Como a coleta de dados para fine-tuning de injeção de conhecimento é dispendiosa, utilizamos ainda uma abordagem baseada em aprendizagem por reforço com recompensas verificáveis (RLVR) para eliciar traços ricos em conhecimento sem supervisão humana, transferindo depois esse traço de pensamento do domínio para o GRLM para uma injeção de conhecimento eficiente. Lançamos também o SenTSR-Bench, um benchmark de raciocínio diagnóstico baseado em séries temporais multivariadas, recolhido a partir de operações industriais do mundo real. Tanto no SenTSR-Bench como noutros conjuntos de dados públicos, o nosso método supera consistentemente os TSLMs em 9,1%-26,1% e os GRLMs em 7,9%-22,4%, fornecendo insights diagnósticos de séries temporais robustos e contextualmente conscientes.