Artigos de pesquisa em IA selecionados diariamente com traduções
Neste artigo, introduzimos um novo paradigma de aprendizagem para agentes adaptativos de Modelos de Linguagem de Grande Escala (LLMs) que elimina a necessidade de ajuste fino dos LLMs subjacentes. As abordagens existentes são frequentemente rígidas, dependendo de fluxos de trabalho de reflexão estáticos e manuais, ou computacionalmente intensivas, exigindo atualizações gradientes dos parâmetros do modelo LLM. Em contraste, nosso método permite uma adaptação contínua de baixo custo por meio de aprendizagem por reforço online baseada em memória. Formalizamos isso como um Processo de Decisão Markoviano Aumentado por Memória (M-MDP), equipado com uma política de seleção de casos neural para orientar as decisões de ação. Experiências passadas são armazenadas em uma memória episódica, seja diferenciável ou não paramétrica. A política é continuamente atualizada com base no feedback ambiental por meio de um mecanismo de reescrita de memória, enquanto a melhoria da política é alcançada por meio de uma leitura eficiente da memória (recuperação). Instanciamos nosso modelo de agente no cenário de pesquisa profunda, denominado AgentFly, que alcança o topo-1 na validação GAIA (87,88% Pass@3) e 79,40% no conjunto de teste. Ele atinge 66,6% F1 e 80,4% PM no conjunto de dados DeepResearcher, superando o método baseado em treinamento state-of-the-art, enquanto a memória baseada em casos adiciona de 4,7% a 9,6% pontos absolutos em tarefas fora da distribuição. Nossa abordagem oferece um caminho escalável e eficiente para o desenvolvimento de agentes LLM generalistas capazes de aprendizagem contínua e em tempo real sem atualizações gradientes, avançando o aprendizado de máquina em direção à aquisição de habilidades de forma aberta e cenários de pesquisa profunda. O código está disponível em https://github.com/Agent-on-the-Fly/AgentFly.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) surgiu recentemente como um paradigma fundamental para o pós-treinamento de Modelos de Linguagem de Grande Escala (LLMs), especialmente para tarefas de raciocínio complexo. No entanto, o treinamento RLVR padrão demonstrou melhorar o desempenho Pass@1 à custa da entropia da política, levando à redução da diversidade de geração e limitando o desempenho Pass@k, que tipicamente representa o limite superior da capacidade de raciocínio dos LLMs. Neste artigo, analisamos sistematicamente a diversidade de geração da política sob a perspectiva dos problemas de treinamento e descobrimos que a ampliação e atualização dos problemas de treinamento ajudam a mitigar o colapso de entropia durante o treinamento. Com base nessas observações, propomos uma estratégia de Autojogo Online com Síntese Variacional de Problemas (SvS) para o treinamento RLVR, que utiliza as soluções corretas da política para sintetizar problemas variacionais, garantindo que suas respostas de referência permaneçam idênticas às originais. Essa estratégia de autoaperfeiçoamento mantém efetivamente a entropia da política durante o treinamento e melhora substancialmente o Pass@k em comparação com o RLVR padrão, sustentando melhorias prolongadas e alcançando ganhos absolutos de 18,3% e 22,8% no desempenho Pass@32 nos benchmarks de nível competitivo AIME24 e AIME25. Experimentos em 12 benchmarks de raciocínio, com tamanhos de modelo variando de 3B a 32B, demonstram consistentemente a generalizabilidade e robustez do SvS.
A manipulação móvel de longo horizonte guiada por linguagem tem sido um grande desafio no raciocínio semântico incorporado, na manipulação generalizável e na locomoção adaptativa. Três limitações fundamentais dificultam o progresso: Primeiro, embora os grandes modelos de linguagem tenham aprimorado o raciocínio espacial e o planejamento de tarefas por meio de prioridades semânticas, as implementações existentes permanecem confinadas a cenários de mesa, falhando em abordar a percepção restrita e as faixas de atuação limitadas das plataformas móveis. Segundo, as estratégias atuais de manipulação exibem generalização insuficiente quando confrontadas com as diversas configurações de objetos encontradas em ambientes de mundo aberto. Terceiro, embora crucial para a implantação prática, a dupla exigência de manter alta manobrabilidade da plataforma juntamente com o controle preciso do efetuador final em ambientes não estruturados permanece pouco estudada. Neste trabalho, apresentamos ODYSSEY, um framework unificado de manipulação móvel para robôs quadrúpedes ágeis equipados com manipuladores, que integra de forma contínua o planejamento de tarefas de alto nível com o controle de corpo inteiro de baixo nível. Para enfrentar o desafio da percepção egocêntrica em tarefas condicionadas por linguagem, introduzimos um planejador hierárquico alimentado por um modelo de visão-linguagem, permitindo a decomposição de instruções de longo horizonte e a execução precisa de ações. No nível de controle, nossa nova política de corpo inteiro alcança coordenação robusta em terrenos desafiadores. Além disso, apresentamos o primeiro benchmark para manipulação móvel de longo horizonte, avaliando diversos cenários internos e externos. Através da transferência bem-sucedida de simulação para o mundo real, demonstramos a generalização e robustez do sistema em implantações reais, destacando a praticidade dos manipuladores com pernas em ambientes não estruturados. Nosso trabalho avança a viabilidade de assistentes robóticos generalizados capazes de realizar tarefas complexas e dinâmicas. Nossa página do projeto: https://kaijwang.github.io/odyssey.github.io/
Impulsionados pelos rápidos avanços dos Modelos de Linguagem de Grande Escala (LLMs), os agentes são capacitados a combinar conhecimento intrínseco com o uso dinâmico de ferramentas, ampliando significativamente sua capacidade de lidar com tarefas do mundo real. Alinhado a essa evolução, o AgentScope introduz melhorias significativas em uma nova versão (1.0), visando suportar de forma abrangente interações flexíveis e eficientes entre agentes e ambientes baseadas em ferramentas para a construção de aplicações agentivas. Especificamente, abstraímos componentes fundamentais essenciais para aplicações agentivas e fornecemos interfaces unificadas e módulos extensíveis, permitindo que os desenvolvedores aproveitem facilmente os últimos avanços, como novos modelos e MCPs. Além disso, ancoramos os comportamentos dos agentes no paradigma ReAct e oferecemos uma infraestrutura avançada em nível de agente baseada em um design assíncrono sistemático, o que enriquece tanto os padrões de interação humano-agente quanto agente-agente, ao mesmo tempo que melhora a eficiência de execução. Com base nessa fundação, integramos vários agentes internos adaptados a cenários práticos específicos. O AgentScope também inclui suporte robusto de engenharia para experiências amigáveis ao desenvolvedor. Fornecemos um módulo de avaliação escalável com uma interface de estúdio visual, tornando o desenvolvimento de aplicações agentivas de trajetória longa mais gerenciável e fácil de rastrear. Além disso, o AgentScope oferece um sandbox de execução para garantir a execução segura dos agentes e facilita a implantação rápida em ambientes de produção. Com esses aprimoramentos, o AgentScope fornece uma base prática para a construção de aplicações agentivas escaláveis, adaptativas e eficazes.
Embora a síntese de vídeo exocêntrica tenha alcançado grandes progressos, a geração de vídeo egocêntrico permanece amplamente inexplorada, o que requer a modelagem de conteúdo em primeira pessoa juntamente com padrões de movimento da câmera induzidos pelos movimentos corporais do usuário. Para preencher essa lacuna, introduzimos uma nova tarefa de geração conjunta de vídeo egocêntrico e movimento humano, caracterizada por dois desafios principais: 1) Alinhamento de Perspectiva: a trajetória da câmera no vídeo gerado deve alinhar-se com precisão à trajetória da cabeça derivada do movimento humano; 2) Interação Causal: o movimento humano sintetizado deve alinhar-se causalmente com a dinâmica visual observada entre quadros adjacentes do vídeo. Para abordar esses desafios, propomos o EgoTwin, um framework de geração conjunta de vídeo e movimento baseado na arquitetura de transformadores de difusão. Especificamente, o EgoTwin introduz uma representação de movimento centrada na cabeça, que ancora o movimento humano à articulação da cabeça, e incorpora um mecanismo de interação inspirado na cibernética que captura explicitamente a interação causal entre vídeo e movimento dentro das operações de atenção. Para avaliação abrangente, compilamos um grande conjunto de dados do mundo real de triplas sincronizadas de texto-vídeo-movimento e projetamos métricas inovadoras para avaliar a consistência entre vídeo e movimento. Experimentos extensivos demonstram a eficácia do framework EgoTwin.
À medida que os modelos de linguagem de grande escala (LLMs) são cada vez mais implantados em aplicações do mundo real, a necessidade de remover seletivamente conhecimentos indesejados, preservando a utilidade do modelo, tornou-se primordial. Trabalhos recentes exploraram autoencoders esparsos (SAEs) para realizar intervenções precisas em características monossemânticas. No entanto, a maioria dos métodos baseados em SAEs opera durante a inferência, o que não cria alterações persistentes nos parâmetros do modelo. Tais intervenções podem ser contornadas ou revertidas por atores maliciosos com acesso aos parâmetros. Apresentamos o CRISP, um método eficiente em parâmetros para o esquecimento persistente de conceitos usando SAEs. O CRISP identifica automaticamente características salientes dos SAEs em múltiplas camadas e suprime suas ativações. Realizamos experimentos com dois LLMs e mostramos que nosso método supera abordagens anteriores em tarefas críticas de esquecimento do benchmark WMDP, removendo com sucesso conhecimentos prejudiciais enquanto preserva capacidades gerais e no domínio. Análises em nível de características revelam que o CRISP alcança uma separação semanticamente coerente entre conceitos-alvo e benignos, permitindo a supressão precisa das características-alvo.
A programação competitiva emergiu como um benchmark crítico para avaliar as capacidades de raciocínio e codificação dos Modelos de Linguagem de Grande Escala (LLMs). Apesar dos progressos impressionantes nos benchmarks existentes, argumentamos que as avaliações atuais superestimam a proficiência dos modelos, mascarando uma lacuna substancial entre os LLMs e os programadores humanos de elite. Essa lacuna surge de duas limitações principais: a dificuldade e o escopo insuficientes dos problemas dos benchmarks, e o viés de avaliação decorrente de casos de teste de baixa qualidade. Para abordar essas deficiências, apresentamos o AetherCode, um novo benchmark que extrai problemas de competições de programação de elite, como a IOI e a ICPC, oferecendo uma cobertura mais ampla e maior dificuldade. O AetherCode ainda incorpora conjuntos de testes abrangentes e validados por especialistas, construídos por meio de uma combinação de geração automatizada e curadoria humana, garantindo uma avaliação rigorosa e confiável. Ao combinar o design desafiador de problemas com uma avaliação robusta, o AetherCode fornece uma medida mais fiel das capacidades dos LLMs e estabelece um novo padrão para pesquisas futuras em raciocínio de código.
Facilitar a interação de uma entidade com objetos requer a identificação precisa de partes que possibilitam ações específicas. A fundamentação de affordance com supervisão fraca (WSAG) busca imitar a aprendizagem humana a partir de demonstrações em terceira pessoa, onde os humanos intuitivamente compreendem partes funcionais sem a necessidade de anotações em nível de pixel. Para alcançar isso, a fundamentação é tipicamente aprendida usando um classificador compartilhado entre imagens de diferentes perspectivas, juntamente com estratégias de destilação que incorporam o processo de descoberta de partes. No entanto, como as partes relevantes para affordance nem sempre são facilmente distinguíveis, os modelos dependem principalmente da classificação, frequentemente focando em padrões específicos da classe que não estão relacionados à affordance. Para superar essa limitação, vamos além da aprendizagem isolada em nível de parte, introduzindo objetivos contrastivos seletivos de protótipo e pixel que aprendem adaptativamente pistas relevantes para affordance tanto em nível de parte quanto de objeto, dependendo da granularidade da informação disponível. Inicialmente, identificamos os objetos associados à ação em imagens egocêntricas (focadas no objeto) e exocêntricas (exemplos em terceira pessoa) utilizando o CLIP. Em seguida, ao cruzar os objetos descobertos de visões complementares, extraímos as pistas precisas de affordance em nível de parte em cada perspectiva. Ao aprender consistentemente a distinguir regiões relevantes para affordance do contexto de fundo irrelevante, nossa abordagem efetivamente desloca a ativação de áreas irrelevantes para pistas significativas de affordance. Resultados experimentais demonstram a eficácia do nosso método. Os códigos estão disponíveis em github.com/hynnsk/SelectiveCL.
O diagnóstico preciso com modelos de linguagem de grande escala (LLMs) na área médica é prejudicado por lacunas de conhecimento e alucinações. Métodos de recuperação e aumento com ferramentas ajudam, mas seu impacto é limitado pelo uso fraco de conhecimento externo e pela baixa rastreabilidade do raciocínio com feedback. Para enfrentar esses desafios, introduzimos o Deep-DxSearch, um sistema RAG (Retrieval-Augmented Generation) agente treinado de ponta a ponta com aprendizado por reforço (RL) que permite um raciocínio aumentado por recuperação rastreável para diagnóstico médico. No Deep-DxSearch, primeiro construímos um corpus de recuperação médica em larga escala, composto por registros de pacientes e fontes confiáveis de conhecimento médico, para apoiar o raciocínio consciente da recuperação em diversos cenários diagnósticos. Mais crucialmente, enquadramos o LLM como o agente central e o corpus de recuperação como seu ambiente, utilizando recompensas personalizadas em formato, recuperação, estrutura de raciocínio e precisão diagnóstica, evoluindo assim a política RAG agente a partir de dados em larga escala por meio do RL. Experimentos demonstram que nossa estrutura de treinamento agente RL de ponta a ponta supera consistentemente abordagens de engenharia de prompt e RAG sem treinamento em múltiplos centros de dados. Após o treinamento, o Deep-DxSearch alcança ganhos substanciais em precisão diagnóstica, superando bases fortes de diagnóstico como GPT-4o, DeepSeek-R1 e outras estruturas específicas para medicina, tanto para diagnósticos de doenças comuns quanto raras, em cenários de distribuição interna e externa. Além disso, estudos de ablação sobre o design de recompensas e componentes do corpus de recuperação confirmam seus papéis críticos, destacando a singularidade e eficácia de nossa abordagem em comparação com implementações tradicionais. Por fim, estudos de caso e análises de interpretabilidade destacam melhorias na política diagnóstica do Deep-DxSearch, fornecendo insights mais profundos sobre seus ganhos de desempenho e apoiando clínicos na entrega de diagnósticos preliminares mais confiáveis e precisos. Consulte https://github.com/MAGIC-AI4Med/Deep-DxSearch.
Recentemente, os modelos Visão-Linguagem-Ação (VLA) demonstraram um desempenho robusto em uma variedade de tarefas robóticas. Esses modelos dependem de entradas multimodais, com as instruções em linguagem natural desempenhando um papel crucial — não apenas na previsão de ações, mas também na interpretação robusta da intenção do usuário, mesmo quando as solicitações são impossíveis de serem cumpridas. Neste trabalho, investigamos como os VLAs podem reconhecer, interpretar e responder a instruções com premissas falsas: comandos em linguagem natural que fazem referência a objetos ou condições ausentes no ambiente. Propomos o framework unificado Instruir-Verificar-e-Agir (IVA), que (i) detecta quando uma instrução não pode ser executada devido a uma premissa falsa, (ii) engaja-se em esclarecimentos ou correções baseados em linguagem e (iii) fundamenta alternativas plausíveis na percepção e na ação. Para isso, construímos uma configuração de ajuste de instruções em larga escala com prompts de linguagem estruturados e treinamos um modelo VLA capaz de lidar tanto com solicitações precisas quanto com solicitações errôneas. Nossa abordagem aproveita um conjunto de dados semi-sintético contextualmente aumentado, contendo pares de instruções positivas e com premissas falsas, permitindo detecção robusta e correção em linguagem natural. Nossos experimentos mostram que o IVA melhora a precisão na detecção de premissas falsas em 97,56% em relação às baselines, enquanto aumenta as respostas bem-sucedidas em cenários de premissas falsas em 50,78%.
A Multi-Head Latent Attention (MLA), introduzida no DeepSeek-V2, comprime os estados de chave-valor em um vetor latente de baixa classificação, armazenando em cache apenas esse vetor para reduzir a memória. No paralelismo de tensores (TP), no entanto, as cabeças de atenção são computadas em vários dispositivos, e cada dispositivo deve carregar o cache completo, o que diminui a vantagem da MLA em relação à Grouped Query Attention (GQA). Propomos o Tensor-Parallel Latent Attention (TPLA): um esquema que particiona tanto a representação latente quanto a dimensão de entrada de cada cabeça entre dispositivos, realiza a atenção de forma independente por fragmento e, em seguida, combina os resultados com um all-reduce. O TPLA preserva os benefícios de um cache KV comprimido enquanto desbloqueia a eficiência do TP. Diferente do Grouped Latent Attention (GLA), cada cabeça no TPLA ainda aproveita a representação latente completa, mantendo uma capacidade representacional mais forte. O TPLA é compatível com modelos pré-treinados usando MLA: ele suporta o preenchimento no estilo MLA e permite a decodificação eficiente em paralelismo de tensores sem retreinamento. A aplicação de transformações ortogonais simples — por exemplo, a transformada de Hadamard ou PCA — antes do corte do TP mitiga ainda mais a interferência entre fragmentos, resultando em uma degradação mínima da precisão. Ao reduzir o cache KV por dispositivo para o DeepSeek-V3 e o Kimi-K2, alcançamos acelerações de 1,79x e 1,93x, respectivamente, em um contexto de 32K tokens, mantendo o desempenho em benchmarks de senso comum e LongBench. O TPLA pode ser implementado com o FlashAttention-3, permitindo uma aceleração prática de ponta a ponta.
O 3D Gaussian Splatting (3DGS) demonstrou eficácia notável na síntese de novas visões (NVS). No entanto, ele apresenta uma desvantagem significativa: alcançar renderização de alta fidelidade geralmente exige um grande número de Gaussianas 3D, resultando em consumo substancial de memória e requisitos de armazenamento. Para enfrentar esse desafio, propomos o primeiro framework de destilação de conhecimento para 3DGS, que inclui diversos modelos professores, como o 3DGS padrão, variantes com aumento de ruído e versões regularizadas com dropout. As saídas desses professores são agregadas para orientar a otimização de um modelo estudante leve. Para destilar a estrutura geométrica oculta, propomos uma função de perda de similaridade estrutural para aumentar a consistência das distribuições geométricas espaciais entre os modelos estudante e professor. Por meio de avaliações quantitativas e qualitativas abrangentes em diversos conjuntos de dados, o Distilled-3DGS proposto, um framework simples, porém eficaz, sem elementos supérfluos, alcança resultados promissores de renderização tanto em qualidade quanto em eficiência de armazenamento em comparação com métodos state-of-the-art. Página do projeto: https://distilled3dgs.github.io. Código: https://github.com/lt-xiang/Distilled-3DGS.
Métodos recentes de edição de vídeo alcançam resultados atraentes em transferência de estilo ou modificação de aparência. No entanto, editar o conteúdo estrutural de cenas 3D em vídeos continua desafiador, especialmente ao lidar com mudanças significativas de ponto de vista, como grandes rotações ou zooms de câmera. Os principais desafios incluem gerar conteúdo de novas visualizações que permaneça consistente com o vídeo original, preservar regiões não editadas e traduzir entradas esparsas 2D em saídas de vídeo 3D realistas. Para abordar essas questões, propomos o Sketch3DVE, um método de edição de vídeo 3D baseado em esboços que permite manipulação local detalhada de vídeos com mudanças significativas de ponto de vista. Para resolver o desafio apresentado por entradas esparsas, empregamos métodos de edição de imagem para gerar resultados editados para o primeiro quadro, que são então propagados para os quadros restantes do vídeo. Utilizamos esboços como uma ferramenta de interação para controle preciso de geometria, enquanto outros métodos de edição de imagem baseados em máscaras também são suportados. Para lidar com mudanças de ponto de vista, realizamos uma análise detalhada e manipulação das informações 3D no vídeo. Especificamente, utilizamos um método estéreo denso para estimar uma nuvem de pontos e os parâmetros da câmera do vídeo de entrada. Em seguida, propomos uma abordagem de edição de nuvem de pontos que utiliza mapas de profundidade para representar a geometria 3D dos componentes recém-editados, alinhando-os efetivamente com a cena 3D original. Para integrar perfeitamente o conteúdo recém-editado com o vídeo original, preservando as características das regiões não editadas, introduzimos uma estratégia de propagação de máscara 3D e empregamos um modelo de difusão de vídeo para produzir vídeos editados realistas. Experimentos extensivos demonstram a superioridade do Sketch3DVE na edição de vídeos. Página inicial e código: http://geometrylearning.com/Sketch3DVE/
Os LLMs (Modelos de Linguagem de Grande Escala) têm demonstrado um desempenho robusto em tarefas de raciocínio centradas no ser humano. Embora avaliações anteriores tenham explorado se os LLMs podem inferir intenções ou detectar enganos, elas frequentemente negligenciam os estilos de raciocínio individualizados que influenciam como as pessoas interpretam e agem em contextos sociais. Jogos de dedução social (SDGs, na sigla em inglês) oferecem um ambiente natural para avaliar esses estilos de raciocínio individualizados, onde diferentes jogadores podem adotar estratégias de raciocínio diversas, mas contextualmente válidas, sob condições idênticas. Para abordar essa lacuna, introduzimos o InMind, um framework de avaliação cognitivamente fundamentado projetado para avaliar se os LLMs conseguem capturar e aplicar estilos de raciocínio personalizados em SDGs. O InMind aprimora dados estruturados de jogabilidade com rastros de estratégias em nível de rodada e reflexões pós-jogo, coletados tanto no modo Observador quanto no modo Participante. Ele suporta quatro tarefas motivadas cognitivamente que avaliam conjuntamente tanto o alinhamento estático quanto a adaptação dinâmica. Como estudo de caso, aplicamos o InMind ao jogo Avalon, avaliando 11 LLMs de última geração. LLMs de propósito geral, como o GPT-4, frequentemente dependem de pistas lexicais, lutando para ancorar reflexões na jogabilidade temporal ou se adaptar a estratégias em evolução. Em contraste, LLMs aprimorados para raciocínio, como o DeepSeek-R1, exibem sinais precoces de raciocínio sensível ao estilo. Essas descobertas revelam limitações importantes na capacidade dos LLMs atuais para raciocínio individualizado e adaptativo, posicionando o InMind como um passo em direção à interação humano-IA alinhada cognitivamente.
A capacidade de raciocínio desempenha um papel extremamente crítico nas amplas aplicações dos Modelos de Linguagem de Grande Escala (LLMs). Para aprimorar o desempenho de raciocínio dos LLMs, diversas abordagens de ajuste fino baseadas em Aprendizado por Reforço (RL) foram propostas para abordar a capacidade limitada de generalização dos LLMs treinados exclusivamente por meio de Ajuste Fino Supervisionado (SFT). Apesar de sua eficácia, duas grandes limitações dificultam o avanço dos LLMs. Primeiro, as abordagens RL convencionais ignoram a Cadeia de Pensamento (CoT) anotada e incorporam uma amostragem instável de caminhos de raciocínio, o que geralmente resulta em colapso do modelo, processo de treinamento instável e desempenho subótimo. Segundo, as abordagens SFT existentes geralmente superenfatizam a CoT anotada, potencialmente levando à degradação do desempenho devido à exploração insuficiente da CoT potencial. Neste artigo, propomos uma abordagem de Ajuste Fino Reforçado baseado em Aprendizado Contrastivo com CoT anotada, ou seja, , para aprimorar o desempenho de raciocínio dos LLMs enquanto aborda as limitações mencionadas. Especificamente, propomos aprender uma representação para cada CoT. Com base nessa representação, projetamos sinais contrastivos inovadores para guiar o processo de ajuste fino. Nossa abordagem não apenas explora totalmente a CoT anotada disponível, mas também estabiliza o procedimento de ajuste fino ao incorporar um sinal de aprendizado não supervisionado adicional. Realizamos experimentos abrangentes e análises detalhadas com três abordagens de referência, dois modelos fundamentais e dois conjuntos de dados para demonstrar as vantagens significativas de em termos de robustez, desempenho (até 10,15\%) e eficiência (até 30,62\%). O código está disponível em https://github.com/WNQzhu/CARFT.
Na estimativa de pose e forma humana 3D, o SMPLify permanece como uma linha de base robusta que resolve a cinemática inversa (IK) por meio de otimização iterativa. No entanto, seu alto custo computacional limita sua praticidade. Avanços recentes em diversos domínios mostraram que substituir a otimização iterativa por redes neurais baseadas em dados pode alcançar melhorias significativas no tempo de execução sem sacrificar a precisão. Motivados por essa tendência, propomos o Learnable SMPLify, uma estrutura neural que substitui o processo de ajuste iterativo do SMPLify por um modelo de regressão de passagem única. O design de nossa estrutura visa dois desafios centrais na IK neural: construção de dados e generalização. Para permitir um treinamento eficaz, propomos uma estratégia de amostragem temporal que constrói pares de inicialização e alvo a partir de quadros sequenciais. Para melhorar a generalização em diversos movimentos e poses não vistas, propomos um esquema de normalização centrado no humano e aprendizado residual para estreitar o espaço de solução. O Learnable SMPLify suporta tanto inferência sequencial quanto pós-processamento plug-in para refinar estimadores baseados em imagem existentes. Experimentos extensivos demonstram que nosso método se estabelece como uma linha de base prática e simples: ele alcança um tempo de execução quase 200 vezes mais rápido em comparação ao SMPLify, generaliza bem para 3DPW e RICH não vistos, e opera de forma agnóstica ao modelo quando usado como uma ferramenta plug-in no LucidAction. O código está disponível em https://github.com/Charrrrrlie/Learnable-SMPLify.
Contornos ou curvas planares fechadas são comuns em muitos domínios. Por exemplo, eles aparecem como limites de objetos em visão computacional, isolinhas em meteorologia e as órbitas de máquinas rotativas. Em muitos casos, ao aprender a partir de dados de contorno, rotações planares da entrada resultarão em saídas correspondentes rotacionadas. Portanto, é desejável que modelos de aprendizado profundo sejam equivariantes a rotações. Além disso, os contornos são tipicamente representados como uma sequência ordenada de pontos de borda, onde a escolha do ponto inicial é arbitrária. Assim, também é desejável que métodos de aprendizado profundo sejam equivariantes sob deslocamentos cíclicos. Apresentamos o RotaTouille, uma estrutura de aprendizado profundo para aprender a partir de dados de contorno que alcança tanto a equivariância a rotações quanto a deslocamentos cíclicos por meio de convolução circular com valores complexos. Além disso, introduzimos e caracterizamos não linearidades equivariantes, camadas de redução e camadas de pooling global para obter representações invariantes para tarefas subsequentes. Por fim, demonstramos a eficácia do RotaTouille por meio de experimentos em classificação de formas, reconstrução e regressão de contornos.
A avaliação de ataques de jailbreak é desafiadora quando os prompts não são explicitamente prejudiciais ou não induzem a saídas nocivas. Infelizmente, muitos conjuntos de dados existentes de red teaming contêm esses prompts inadequados. Para avaliar os ataques com precisão, esses conjuntos de dados precisam ser avaliados e limpos quanto à maliciosidade. No entanto, os métodos existentes de detecção de conteúdo malicioso dependem de anotação manual, que é trabalhosa, ou de modelos de linguagem de grande escala (LLMs), que têm precisão inconsistente em tipos de conteúdo prejudicial. Para equilibrar precisão e eficiência, propomos um framework de avaliação híbrido chamado MDH (Detecção de Conteúdo Malicioso baseado em LLMs com Assistência Humana) que combina anotação baseada em LLMs com supervisão humana mínima, e o aplicamos à limpeza de conjuntos de dados e à detecção de respostas jailbroken. Além disso, descobrimos que mensagens bem elaboradas dos desenvolvedores podem aumentar significativamente o sucesso do jailbreak, levando-nos a propor duas novas estratégias: D-Attack, que aproveita a simulação de contexto, e DH-CoT, que incorpora cadeias de pensamento sequestradas. Os códigos, conjuntos de dados, julgamentos e resultados de detecção serão disponibilizados no repositório GitHub: https://github.com/AlienZhang1996/DH-CoT.