Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o **Aprendizado por Reforço Colaborativo com Agentes Heterogêneos (HACRL)**, um novo paradigma de aprendizado que aborda as ineficiências da otimização on-policy isolada. O HACRL permite a otimização colaborativa com execução independente: agentes heterogêneos compartilham rollouts verificados durante o treinamento para melhorar mutuamente, enquanto operam de forma independente no momento da inferência. Diferente do aprendizado por reforço multiagente (MARL) baseado em LLMs, o HACRL não requer implantação coordenada e, diferentemente da destilação on-/off-policy, ele permite um aprendizado mútuo bidirecional entre agentes heterogêneos, em vez de uma transferência unidirecional do professor para o aluno. Com base nesse paradigma, propomos o **HACPO**, um algoritmo de RL colaborativo que permite o compartilhamento fundamentado de rollouts para maximizar a utilização de amostras e a transferência de conhecimento entre agentes. Para mitigar discrepâncias de capacidade e desvios na distribuição da política, o HACPO introduz quatro mecanismos específicos com garantias teóricas de estimativa imparcial de vantagem e correção na otimização. Experimentos extensos com diversas combinações de modelos heterogêneos e benchmarks de raciocínio mostram que o HACPO melhora consistentemente todos os agentes participantes, superando o GSPO em média 3,3% enquanto utiliza apenas metade do custo de rollouts.
Apresentamos o Helios, o primeiro modelo de geração de vídeo de 14B que opera a 19,5 FPS em uma única GPU NVIDIA H100 e suporta geração em escala de minutos, equiparando-se em qualidade a uma linha de base robusta. Realizamos avanços em três dimensões principais: (1) robustez contra desvio (drifting) em vídeos longos sem o uso das heurísticas anti-desvio comuns, como auto-forçamento, bancos de erro ou amostragem de quadros-chave; (2) geração em tempo real sem técnicas padrão de aceleração, como cache KV, atenção esparsa/linear ou quantização; e (3) treinamento sem frameworks de paralelismo ou fragmentação (sharding), permitindo tamanhos de lote equivalentes aos de modelos de difusão de imagem enquanto acomoda até quatro modelos de 14B em 80 GB de memória GPU. Especificamente, o Helios é um modelo de difusão autoregressivo de 14B com uma representação de entrada unificada que suporta nativamente as tarefas T2V (texto para vídeo), I2V (imagem para vídeo) e V2V (vídeo para vídeo). Para mitigar o desvio na geração de vídeos longos, caracterizamos os modos de falha típicos e propomos estratégias de treinamento simples, porém eficazes, que simulam explicitamente o desvio durante o treinamento, eliminando simultaneamente o movimento repetitivo em sua origem. Para eficiência, comprimimos massivamente o contexto histórico e ruidoso e reduzimos o número de etapas de amostragem, resultando em custos computacionais comparáveis — ou inferiores — aos dos modelos generativos de vídeo de 1,3B. Além disso, introduzimos otimizações em nível de infraestrutura que aceleram tanto a inferência quanto o treinamento, reduzindo o consumo de memória. Experimentos extensivos demonstram que o Helios supera consistentemente os métodos anteriores na geração de vídeos curtos e longos. Planejamos disponibilizar o código, o modelo base e o modelo destilado para apoiar o desenvolvimento adicional pela comunidade.
Pense em como os seres humanos lidam com tarefas complexas de leitura: marcar pontos-chave, inferir suas relações e estruturar informações para orientar a compreensão e as respostas. Da mesma forma, um modelo de linguagem grande pode beneficiar-se da estrutura do texto para melhorar o desempenho no processamento textual? Para explorar isso, neste trabalho, primeiro apresentamos a Estrutura do Pensamento (Structure of Thought - SoT), uma técnica de *prompting* que orienta explicitamente os modelos a construir estruturas textuais intermediárias, aumentando consistentemente o desempenho em oito tarefas e três famílias de modelos. Com base nessa percepção, apresentamos o T2S-Bench, o primeiro *benchmark* projetado para avaliar e melhorar as capacidades texto-para-estrutura dos modelos. O T2S-Bench inclui 1,8 mil amostras em 6 domínios científicos e 32 tipos estruturais, rigorosamente construídas para garantir precisão, justiça e qualidade. A avaliação em 45 modelos principais revela um potencial de melhoria substancial: a precisão média na tarefa de raciocínio multietapa é de apenas 52,1%, e mesmo o modelo mais avançado atinge 58,1% de precisão de nó na extração *end-to-end*. Além disso, no Qwen2.5-7B-Instruct, apenas a SoT proporciona uma melhoria média de +5,7% em oito tarefas diversificadas de processamento de texto, e o *fine-tuning* no T2S-Bench aumenta ainda mais esse ganho para +8,6%. Esses resultados destacam o valor da estruturação explícita do texto e as contribuições complementares da SoT e do T2S-Bench. O conjunto de dados e o código de avaliação foram disponibilizados em https://t2s-bench.github.io/T2S-Bench-Page/.
Experiências interativas proativas e em tempo real são essenciais para companheiros de IA com características humanas, mas enfrentam três desafios principais: (1) alcançar inferência de baixa latência sob entradas contínuas em fluxo, (2) decidir autonomamente quando responder, e (3) controlar a qualidade e a quantidade do conteúdo gerado para atender às restrições de tempo real. Neste trabalho, instanciamos companheiros de IA através de dois cenários de jogo, comentarista e guia, selecionados por sua adequação para avaliação automática. Apresentamos o *Live Gaming Benchmark*, um conjunto de dados em larga escala com três cenários representativos: comentário individual, co-comentário e orientação do usuário, e apresentamos o Proact-VL, uma estrutura geral que molda modelos de linguagem multimodal em agentes interativos proativos e em tempo real, capazes de perceber e interagir com o ambiente de forma humana. Experimentos extensivos mostram que o Proact-VL alcança latência de resposta e qualidade superiores, mantendo fortes capacidades de compreensão de vídeo, demonstrando sua praticidade para aplicações interativas em tempo real.
**MemSifter: Um Framework Eficiente para Memória de Longo Prazo em LLMs com um Modelo Proxy** À medida que os Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais utilizados para tarefas de longa duração, a manutenção de uma memória de longo prazo eficaz tornou-se um desafio crítico. Os métodos atuais frequentemente enfrentam um compromisso entre custo e precisão. Métodos simples de armazenamento frequentemente falham em recuperar informações relevantes, enquanto métodos complexos de indexação (como grafos de memória) exigem computação intensa e podem causar perda de informação. Além disso, depender do LLM principal para processar todas as memórias é computacionalmente caro e lento. Para superar essas limitações, propomos o MemSifter, um novo framework que descarrega o processo de recuperação de memória para um modelo proxy de pequena escala. Em vez de aumentar a carga no LLM de trabalho principal, o MemSifter utiliza um modelo menor para raciocinar sobre a tarefa antes de recuperar as informações necessárias. Esta abordagem não requer computação pesada durante a fase de indexação e adiciona uma sobrecarga mínima durante a inferência. Para otimizar o modelo proxy, introduzimos um paradigma de treinamento de Aprendizado por Reforço (RL) específico para memória. Projetamos uma recompensa orientada para o resultado da tarefa, baseada no desempenho real do LLM principal em completar a tarefa. A recompensa mede a contribuição real das memórias recuperadas através de múltiplas interações com o LLM principal e discrimina os rankings de recuperação por meio de contribuições decrescentes escalonadas. Adicionalmente, empregamos técnicas de treinamento como Aprendizado Curricular e Fusão de Modelos para melhorar o desempenho. Avaliamos o MemSifter em oito benchmarks de memória para LLMs, incluindo tarefas de Pesquisa Profunda (Deep Research). Os resultados demonstram que o nosso método iguala ou supera o desempenho das abordagens state-of-the-art existentes, tanto em precisão de recuperação quanto na conclusão final da tarefa. O MemSifter oferece uma solução eficiente e escalável para a memória de longo prazo em LLMs. Disponibilizamos publicamente os pesos do modelo, o código e os dados de treinamento para apoiar pesquisas futuras.
A síntese de interações humano-objeto (IHO) articuladas fisicamente plausíveis sem supervisão 3D/4D permanece um desafio fundamental. Embora abordagens recentes *zero-shot* aproveitem modelos de difusão de vídeo para sintetizar interações humano-objeto, elas estão amplamente confinadas à manipulação de objetos rígidos e carecem de raciocínio geométrico 4D explícito. Para preencher esta lacuna, formulamos a síntese de IHO articulada como um problema de reconstrução 4D a partir de *priors* de vídeo monoculares: dado apenas um vídeo gerado por um modelo de difusão, reconstruímos uma cena articulada 4D completa sem qualquer supervisão 3D. Esta abordagem baseada em reconstrução trata o vídeo 2D gerado como supervisão para um problema de *inverse rendering*, recuperando cenas 4D geometricamente consistentes e fisicamente plausíveis que respeitam naturalmente o contato, a articulação e a coerência temporal. Apresentamos o ArtHOI, o primeiro framework *zero-shot* para síntese de interações humano-objeto articuladas via reconstrução 4D a partir de *priors* de vídeo. Nossos principais projetos são: 1) Segmentação de partes baseada em fluxo óptico: utilizando o fluxo óptico como uma pista geométrica para separar regiões dinâmicas das estáticas em vídeo monocular; 2) Pipeline de reconstrução desacoplado: a otimização conjunta do movimento humano e da articulação do objeto é instável sob ambiguidade monocular, portanto, primeiro recuperamos a articulação do objeto e depois sintetizamos o movimento humano condicionado aos estados do objeto reconstruídos. O ArtHOI faz a ponte entre a geração baseada em vídeo e a reconstrução consciente da geometria, produzindo interações que são semanticamente alinhadas e fisicamente fundamentadas. Em diversas cenas articuladas (ex.: abrir frigoríficos, armários, micro-ondas), o ArtHOI supera significativamente métodos anteriores em precisão de contato, redução de penetração e fidelidade de articulação, estendendo a síntese de interação *zero-shot* para além da manipulação rígida por meio de uma síntese informada pela reconstrução.
Apresentamos o Phi-4-reasoning-vision-15B, um modelo de raciocínio multimodal compacto de pesos abertos, e compartilhamos as motivações, escolhas de projeto, experimentos e aprendizados que nortearam seu desenvolvimento. Nosso objetivo é contribuir com insights práticos para a comunidade de pesquisa sobre a construção de modelos de raciocínio multimodal menores e eficientes, e compartilhar o resultado desses aprendizados como um modelo de pesos abertos que se sai bem em tarefas comuns de visão e linguagem e se destaca no raciocínio e compreensão de interfaces de usuário em contextos científicos e matemáticos. Nossas contribuições incluem demonstrar que escolhas arquiteturais criteriosas e uma curadoria de dados rigorosa permitem que modelos multimodais menores e de pesos abertos atinjam desempenho competitivo com um consumo significativamente menor de computação e de *tokens* durante o treinamento e a inferência. As melhorias mais substanciais vêm da filtragem sistemática, correção de erros e aumento sintético de dados — reforçando que a qualidade dos dados permanece como a principal alavanca para o desempenho do modelo. Ablações sistemáticas mostram que codificadores de alta resolução e resolução dinâmica produzem melhorias consistentes, uma vez que a percepção precisa é um pré-requisito para um raciocínio de alta qualidade. Por fim, uma mistura híbrida de dados de raciocínio e não-raciocínio com *tokens* de modo explícito permite que um único modelo forneça respostas diretas e rápidas para tarefas mais simples e raciocínio em cadeia (*chain-of-thought*) para problemas complexos.
Os agentes de modelos de linguagem de grande porte (LLM) enfrentam um gargalo fundamental devido a janelas de contexto finitas em tarefas de longo horizonte. À medida que as trajetórias se alongam, reter as saídas de ferramentas e o raciocínio intermediário no contexto rapidamente se torna inviável: o contexto de trabalho torna-se proibitivamente longo, excede eventualmente o orçamento de contexto e dificulta o uso de evidências distantes, mesmo quando estas ainda estão presentes. As soluções existentes normalmente encurtam o contexto através de truncamento ou resumos em execução, mas estes métodos são intrinsecamente com perdas porque comprimem ou descartam a própria evidência passada. Apresentamos o Memex, um mecanismo de memória de experiência indexada que, em vez disso, comprime o contexto sem descartar evidências. O Memex mantém um contexto de trabalho compacto, consistindo em resumos estruturados concisos e índices estáveis, enquanto armazena as interações subjacentes em alta fidelidade numa base de dados de experiência externa sob esses índices. O agente pode então decidir quando desreferenciar um índice e recuperar a evidência passada exata necessária para o subobjetivo atual. Otimizamos os comportamentos de escrita e leitura com a nossa estrutura de aprendizagem por reforço, MemexRL, utilizando uma modelação de recompensas adaptada ao uso de memória indexada sob um orçamento de contexto, para que o agente aprenda o que resumir, o que arquivar, como indexá-lo e quando recuperá-lo. Isto resulta numa forma de memória de longo horizonte substancialmente menos lossy do que as abordagens baseadas apenas em resumos. Fornecemos ainda uma análise teórica que mostra o potencial do ciclo Memex para preservar a qualidade da decisão com desreferenciação limitada, mantendo o cálculo efetivo em contexto limitado à medida que o histórico cresce. Empiricamente, em tarefas de longo horizonte desafiadoras, o agente Memex treinado com MemexRL melhora o sucesso da tarefa utilizando um contexto de trabalho significativamente menor.
A escala em tempo de teste para tarefas de raciocínio complexo demonstra que a utilização de recursos computacionais durante a inferência, através de métodos como a amostragem independente e agregação de múltiplas soluções, resulta em resultados de tarefas significativamente melhores. No entanto, um gargalo crítico é a verificação: a amostragem só é eficaz se as soluções corretas puderem ser identificadas de forma confiável entre os candidatos. Embora as abordagens existentes normalmente avaliem os candidatos de forma independente através de pontuação escalar, demonstramos que os modelos são substancialmente mais fortes na autoverificação por pares. Aproveitando esta perceção, introduzimos V_1, uma estrutura que unifica a geração e a verificação através de uma classificação eficiente por pares. V_1 compreende dois componentes: V_1-Infer, um algoritmo guiado por incerteza que utiliza uma classificação baseada em torneio que aloca dinamicamente recursos computacionais de autoverificação para pares de candidatos cuja correção relativa é mais incerta; e V_1-PairRL, uma estrutura de RL (Aprendizagem por Reforço) que treina conjuntamente um único modelo como gerador e autoverificador por pares, garantindo que o verificador se adapta à distribuição em evolução do gerador. Em benchmarks de geração de código (LiveCodeBench, CodeContests, SWE-Bench) e raciocínio matemático (AIME, HMMT), o V_1-Infer melhora o Pass@1 em até 10% em relação à verificação pontual e supera os métodos recentes de escala em tempo de teste, sendo simultaneamente significativamente mais eficiente. Além disso, o V_1-PairRL alcança ganhos de escala em tempo de teste de 7–9% em relação ao RL padrão e ao treino conjunto pontual, e melhora o Pass@1 base em até 8,7% em relação ao RL padrão num ambiente de geração de código.
A geração de vídeos panorâmicos 360° de alta qualidade a partir de entrada em perspectiva é uma das aplicações cruciais para a realidade virtual (VR), sendo que vídeos de alta resolução são especialmente importantes para a experiência imersiva. Os métodos existentes são limitados pelas restrições computacionais dos modelos de difusão convencionais, suportando apenas geração nativa em resolução ≤ 1K e dependendo de super-resolução pós-processada subótima para aumentar a resolução. Apresentamos o CubeComposer, um novo modelo de difusão autoregressivo espaço-temporal que gera nativamente vídeos 360° em resolução 4K. Ao decompor os vídeos em representações de cubemap com seis faces, o CubeComposer sintetiza o conteúdo de forma autoregressiva em uma ordem espaço-temporal bem planejada, reduzindo as demandas de memória enquanto permite saída de alta resolução. Especificamente, para enfrentar os desafios da autoregressão multidimensional, propomos: (1) uma estratégia autoregressiva espaço-temporal que orquestra a geração de vídeos 360° através das faces do cubo e janelas temporais para síntese coerente; (2) um mecanismo de gestão de contexto das faces do cubo, equipado com um desenho de atenção esparsa de contexto para melhorar a eficiência; e (3) técnicas conscientes da continuidade, incluindo codificação posicional consciente do cubo, preenchimento e mesclagem para eliminar emendas nas fronteiras. Experimentos extensivos em conjuntos de dados de referência demonstram que o CubeComposer supera os métodos state-of-the-art em resolução nativa e qualidade visual, suportando cenários práticos de aplicação em VR. Página do projeto: https://lg-li.github.io/project/cubecomposer
A classificação de conceitos visuais de granularidade fina em configurações de mundo aberto, ou seja, sem um conjunto de rótulos predefinido, exige que os modelos sejam precisos e específicos. Os recentes Modelos Multimodais de Grande Porte (LMMs) com capacidade de raciocínio exibem forte capacidade de compreensão visual, mas tendem a produzir previsões excessivamente genéricas ao realizar classificação de imagens de granularidade fina. Nossa análise preliminar revela que os modelos possuem de fato o conhecimento intrínseco do domínio de granularidade fina. No entanto, promover previsões mais específicas (especificidade) sem comprometer as corretas (correção) permanece um desafio não trivial e pouco estudado. Neste trabalho, investigamos como direcionar LMMs de raciocínio para previsões que sejam corretas e específicas. Propomos uma nova estrutura de aprendizagem por reforço consciente da especificidade, SpeciaRL, para ajustar finamente LMMs de raciocínio na classificação de imagens de granularidade fina sob a configuração de mundo aberto. O SpeciaRL introduz um sinal de recompensa dinâmico, baseado em um verificador e ancorado às melhores previsões dentro de rollouts online, promovendo a especificidade enquanto respeita as capacidades do modelo para evitar previsões incorretas. Nossos experimentos fora do domínio mostram que o SpeciaRL oferece o melhor equilíbrio entre correção e especificidade em extensos benchmarks de granularidade fina, superando métodos existentes e avançando a classificação de imagens de granularidade fina em mundo aberto. O código e o modelo estão publicamente disponíveis em https://github.com/s-angheben/SpeciaRL.
Os Grandes Modelos de Visão e Linguagem (LVLMs) adotaram estratégias de poda de *tokens* visuais para mitigar a sobrecarga computacional substancial causada por sequências extensas de *tokens* visuais. Embora trabalhos anteriores se concentrem principalmente em métodos de poda baseados em atenção ou diversidade, uma análise aprofundada das características e limitações dessas abordagens permanece largamente inexplorada. Neste trabalho, conduzimos uma análise empírica minuciosa usando o posto efetivo (*erank*) como medida de diversidade de características e a entropia do *score* de atenção para investigar os mecanismos de processamento de *tokens* visuais e analisar os pontos fortes e fracos de cada abordagem. Nossa análise revela dois *insights*: (1) Nossa análise quantitativa baseada em *erank* mostra que muitos métodos de poda orientados à diversidade preservam substancialmente menos diversidade de características do que o pretendido; além disso, a análise usando o conjunto de dados CHAIR revela que a diversidade que eles retêm está intimamente ligada ao aumento da frequência de alucinações em comparação com a poda baseada em atenção. (2) Observamos ainda que as abordagens baseadas em atenção são mais eficazes em imagens simples onde a evidência visual está concentrada, enquanto os métodos baseados em diversidade lidam melhor com imagens complexas com características distribuídas. Com base nessas percepções empíricas, mostramos que a incorporação de ajustes conscientes da imagem em estratégias de poda híbridas existentes melhora consistentemente seu desempenho. Também fornecemos uma instanciação mínima de nossas descobertas empíricas por meio de um mecanismo de poda adaptativa simples, que alcança desempenho robusto e confiável em *benchmarks* padrão, bem como em avaliações específicas para alucinações. Nossa página do projeto está disponível em https://cvsp-lab.github.io/AgilePruner.
A geração de vídeos de narrativa longa com narrativas visuais consistentes continua a ser um desafio significativo na síntese de vídeo. Apresentamos uma nova estrutura, um conjunto de dados e um modelo que abordam três limitações críticas: a consistência do plano de fundo entre tomadas, transições perfeitas de tomada para tomada com múltiplos sujeitos e a escalabilidade para narrativas com duração de horas. A nossa abordagem introduz um pipeline de geração com consistência de fundo que mantém a coerência visual entre cenas, preservando a identidade das personagens e as relações espaciais. Propomos ainda um módulo de síntese de vídeo com consciência de transição que gera transições suaves de tomada para cenários complexos envolvendo múltiplos sujeitos a entrar ou sair de planos, indo além das limitações de sujeito único de trabalhos anteriores. Para suportar isto, contribuímos com um conjunto de dados sintético de 10.000 sequências de transição com múltiplos sujeitos, abrangendo composições de cena dinâmicas sub-representadas. No VBench, o InfinityStory alcança a mais alta Consistência de Fundo (88.94), a mais alta Consistência de Sujeito (82.11) e a melhor classificação média geral (2.80), demonstrando estabilidade melhorada, transições mais suaves e melhor coerência temporal.
O rápido avanço dos modelos de linguagem multimodal de grande escala demonstrou capacidades impressionantes, mas quase todos operam em um paradigma offline, dificultando a interatividade em tempo real. Para preencher essa lacuna, introduzimos o Real-tIme Video intERaction Bench (RIVER Bench), projetado para avaliar a compreensão de vídeos online. O RIVER Bench introduz uma estrutura inovadora composta por tarefas de Memória Retrospectiva, Percepção ao Vivo e Antecipação Proativa, imitando de perto diálogos interativos em vez de responder a vídeos inteiros de uma só vez. Realizamos anotações detalhadas usando vídeos de diversas fontes e comprimentos variados, e definimos precisamente o formato interativo em tempo real. Avaliações em várias categorias de modelos revelam que, embora os modelos offline tenham bom desempenho em tarefas de resposta única, eles lutam com o processamento em tempo real. Para abordar as limitações dos modelos existentes na interação com vídeos online, especialmente suas deficiências em memória de longo prazo e percepção futura, propusemos um método de melhoria geral que permite aos modelos interagir com os usuários de forma mais flexível em tempo real. Acreditamos que este trabalho avançará significativamente o desenvolvimento de modelos de compreensão de vídeo interativos em tempo real e inspirará pesquisas futuras neste campo emergente. Conjuntos de dados e código estão publicamente disponíveis em https://github.com/OpenGVLab/RIVER.
Os Agentes de Conversação Corporificados (ECAs) visam emular a interação humana face a face através da fala, gestos e expressões faciais. Os atuais agentes de conversação baseados em modelos de linguagem de grande escala (LLMs) carecem de corporificação e dos gestos expressivos essenciais para uma interação natural. As soluções existentes para ECAs frequentemente produzem movimentos rígidos e de baixa diversidade, inadequados para interações humanizadas. Alternativamente, os métodos generativos para síntese de gestos co-verbais produzem gestos corporais naturais, mas dependem do contexto de fala futuro e exigem longos tempos de execução. Para preencher esta lacuna, apresentamos o MIBURI, o primeiro framework causal e online para geração de gestos expressivos de corpo inteiro e expressões faciais sincronizados com diálogo falado em tempo real. Empregamos codecs gestuais conscientes das partes do corpo que codificam detalhes hierárquicos de movimento em tokens multinível. Estes tokens são então gerados autoregressivamente por um framework causal bidimensional condicionado em embeddings de texto-fala baseados em LLMs, modelando tanto a dinâmica temporal quanto a hierarquia de movimento a nível de partes em tempo real. Adicionalmente, introduzimos objetivos auxiliares para incentivar gestos expressivos e diversificados, evitando a convergência para poses estáticas. Avaliações comparativas demonstram que a nossa abordagem causal e em tempo real produz gestos naturais e contextualmente alinhados em comparação com bases de referência recentes. Incentivamos o leitor a explorar os vídeos de demonstração em https://vcai.mpi-inf.mpg.de/projects/MIBURI/.
Os agentes baseados em grandes modelos de linguagem (LLMs) têm demonstrado capacidades notáveis na automação de tarefas de engenharia de software, como correção estática de bugs, conforme evidenciado por benchmarks como o SWE-bench. No entanto, no mundo real, o desenvolvimento de software maduro normalmente depende de mudanças complexas de requisitos e iterações de funcionalidades de longo prazo – um processo que os paradigmas de correção estática e única não conseguem capturar. Para preencher essa lacuna, propomos o SWE-CI, o primeiro benchmark em nível de repositório construído sobre o ciclo de Integração Contínua, visando deslocar o paradigma de avaliação para geração de código da correção funcional estática e de curto prazo para a mantenabilidade dinâmica e de longo prazo. O benchmark compreende 100 tarefas, cada uma correspondendo em média a um histórico de evolução de 233 dias e 71 commits consecutivos em um repositório de código do mundo real. O SWE-CI exige que os agentes resolvam sistematicamente essas tarefas por meio de dezenas de rodadas de análise e iterações de codificação. O SWE-CI fornece insights valiosos sobre quão bem os agentes podem sustentar a qualidade do código ao longo de uma evolução de longo prazo.
A avaliação de segurança e o red teaming de grandes modelos de linguagem permanecem predominantemente centrados em texto, e as estruturas existentes carecem da infraestrutura para testar sistematicamente se o alinhamento se generaliza para entradas de áudio, imagem e vídeo. Apresentamos o MUSE (Avaliação de Segurança Unificada Multimodal), uma plataforma de código aberto e centrada em execução que integra geração automática de carga útil cross-modal, três algoritmos de ataque multi-turn (Crescendo, PAIR, Violent Durian), roteamento de modelos independente de provedor e um juiz de LLM com uma taxonomia de segurança de cinco níveis em um único sistema baseado em navegador. Uma estrutura de métricas duplas distingue a Taxa de Sucesso de Ataque "rígida" (apenas Conformidade Total) da TSA "flexível" (incluindo Conformidade Parcial), capturando vazamentos parciais de informação que as métricas binárias ignoram. Para investigar se o alinhamento se generaliza através dos limites de modalidade, introduzimos a Troca de Modalidade Inter-turno (ITMS), que aumenta os ataques multi-turn com rotação de modalidade por turno. Experimentos em seis MLLMs de quatro provedores mostram que estratégias multi-turn podem atingir até 90-100% de TSA contra modelos com recusa quase perfeita em turno único. A ITMS não aumenta uniformemente a TSA final em baselines já saturadas, mas acelera a convergência ao desestabilizar as defesas nos turnos iniciais, e uma ablação revela que a direção dos efeitos de modalidade é específica da família do modelo, e não universal, ressaltando a necessidade de testes de segurança cross-modal conscientes do provedor.
A compreensão imediata de uma cena 3D durante a sua exploração é essencial para tarefas corporificadas, nas quais um agente deve construir e compreender a cena 3D de forma online e quase em tempo real. Neste estudo, propomos o EmbodiedSplat, um sistema de 3DGS (*3D Gaussian Splatting*) *feed-forward* online para compreensão de cena com vocabulário aberto, que permite a reconstrução 3D online simultânea e a compreensão semântica 3D a partir de imagens em *streaming*. Diferentemente dos métodos existentes de 3DGS com vocabulário aberto, que normalmente são restritos a configurações de otimização offline ou por cena, nossos objetivos são duplos: 1) Reconstruir o 3DGS com semântica incorporada de toda a cena a partir de mais de 300 imagens em *streaming* de maneira online. 2) Ser altamente generalizável para novas cenas com um design *feed-forward* e suportar a reconstrução semântica 3D quase em tempo real quando combinado com modelos 2D em tempo real. Para alcançar esses objetivos, propomos um Campo de Coeficientes Esparsos Online com um *Codebook* Global CLIP, que vincula os *embeddings* CLIP 2D a cada Gaussiana 3D, minimizando o consumo de memória e preservando a total capacidade de generalização semântica do CLIP. Além disso, geramos características CLIP com consciência geométrica 3D agregando a nuvem de pontos parcial do 3DGS por meio de uma U-Net 3D, para compensar o conhecimento geométrico 3D anterior aos *embeddings* de linguagem orientados a 2D. Experimentos extensos em diversos conjuntos de dados de ambientes internos, incluindo ScanNet, ScanNet++ e Replica, demonstram a eficácia e a eficiência do nosso método. Confira nossa página do projeto em https://0nandon.github.io/EmbodiedSplat/.
A aprendizagem por reforço com recompensas rígidas e verificáveis pode ensinar um modelo de linguagem compacto a raciocinar sobre física, ou aprenderá principalmente a corresponder a padrões que levam a respostas corretas? Investigamos esta questão treinando um modelo de raciocínio de 1,5B de parâmetros em estática de vigas, um problema clássico de engenharia, usando RLVR (Reinforcement Learning with Verifiable Rewards) eficiente em parâmetros com recompensas binárias de correção de solucionadores simbólicos, sem traços de raciocínio gerados por um professor. O melhor checkpoint do BeamPERL alcança uma melhoria de 66,7% no Pass@1 em relação ao modelo base. No entanto, a competência aprendida é anisotrópica: o modelo generaliza de forma composicional (mais cargas), mas falha sob mudanças topológicas (apoios deslocados) que requerem as mesmas equações de equilíbrio. Checkpoints intermédios produzem o raciocínio mais robusto, enquanto a otimização contínua degrada a robustez mantendo a recompensa. Estas descobertas revelam uma limitação fundamental do alinhamento ao nível do resultado: a aprendizagem por reforço com recompensas exatas de física induz *templates* de solução procedural em vez da internalização das equações governantes. A precisão do sinal de recompensa - mesmo quando analiticamente exata - não garante, por si só, um raciocínio físico transferível. Os nossos resultados sugerem que recompensas verificáveis podem precisar de ser emparelhadas com um suporte de raciocínio estruturado para ir além da correspondência de padrões e alcançar um raciocínio científico robusto.
Apesar do crescente interesse na detecção de objetos de vocabulário aberto nos últimos anos, a maioria dos métodos existentes depende fortemente de conjuntos de dados de treinamento manualmente curados com granularidade fina, bem como da extração de características cruzadas entre modalidades camada por camada, que consome muitos recursos. Neste artigo, propomos o HDINO, um detector de objetos de vocabulário aberto conciso mas eficiente, que elimina a dependência desses componentes. Especificamente, propomos uma estratégia de treinamento em dois estágios construída sobre o modelo DINO baseado em transformer. No primeiro estágio, amostras ruidosas são tratadas como instâncias de objetos positivas adicionais para construir um Mecanismo de Alinhamento Semântico Um-para-Muitos (O2M) entre as modalidades visual e textual, facilitando assim o alinhamento semântico. Uma Perda de Classificação Ponderada por Dificuldade (DWCL) também é projetada com base na dificuldade inicial de detecção para minerar exemplos difíceis e melhorar ainda mais o desempenho do modelo. No segundo estágio, um módulo leve de fusão de características é aplicado às representações alinhadas para aumentar a sensibilidade à semântica linguística. Sob a configuração Swin Transformer-T, o HDINO-T atinge 49,2 mAP no COCO usando 2,2 milhões de imagens de treinamento de dois conjuntos de dados de detecção publicamente disponíveis, sem qualquer curadoria manual de dados e sem o uso de dados de grounding, superando o Grounding DINO-T e o T-Rex2 em 0,8 mAP e 2,8 mAP, respectivamente, os quais foram treinados em 5,4 milhões e 6,5 milhões de imagens. Após o ajuste fino no COCO, o HDINO-T e o HDINO-L atingem ainda 56,4 mAP e 59,2 mAP, destacando a eficácia e escalabilidade da nossa abordagem. Código e modelos estão disponíveis em https://github.com/HaoZ416/HDINO.
O Detection Transformer (DETR) e suas variantes apresentam um desempenho robusto na detecção de objetos, uma tarefa fundamental para sistemas autónomos. No entanto, uma limitação crítica desses modelos é que suas pontuações de confiança refletem apenas a incerteza semântica, falhando em capturar a igualmente importante incerteza espacial. Isso resulta numa avaliação incompleta da confiabilidade da deteção. Por outro lado, os Deep Ensembles podem lidar com isso, fornecendo estimativas de incerteza espacial de alta qualidade. Contudo, o seu consumo massivo de memória torna-os impraticáveis para aplicações do mundo real. Uma alternativa mais económica, o Monte Carlo (MC) Dropout, sofre de alta latência devido à necessidade de múltiplas passagens *forward* durante a inferência para estimar a incerteza. Para superar essas limitações, apresentamos o GroupEnsemble, um método de estimativa de incerteza eficiente e eficaz para modelos do tipo DETR. O GroupEnsemble prevê simultaneamente múltiplos conjuntos de deteção individuais, fornecendo grupos adicionais e diversos de *queries* de objetos ao descodificador do *transformer* durante a inferência. Cada grupo de *queries* é transformado isoladamente pelo descodificador partilhado e prevê um conjunto completo de deteções para a mesma entrada. Uma máscara de atenção é aplicada ao descodificador para impedir interações de *queries* entre grupos, garantindo que cada grupo deteta de forma independente para alcançar uma estimativa de incerteza confiável baseada em *ensemble*. Ao aproveitar o paralelismo inerente do descodificador, o GroupEnsemble estima eficientemente a incerteza numa única passagem *forward*, sem repetição sequencial. Validámos o nosso método em cenários de condução autónoma e em cenas quotidianas comuns, utilizando os conjuntos de dados Cityscapes e COCO, respetivamente. Os resultados demonstram que uma abordagem híbrida, combinando MC-Dropout e GroupEnsemble, supera os Deep Ensembles em várias métricas a uma fração do custo. O código está disponível em https://github.com/yutongy98/GroupEnsemble.