Artigos de pesquisa em IA selecionados diariamente com traduções
A crescente adoção de grandes modelos de linguagem (LLMs) na engenharia de software exige uma avaliação rigorosa da segurança do código gerado por eles. No entanto, os benchmarks existentes são inadequados, pois se concentram em trechos de código isolados, empregam métodos de avaliação instáveis que carecem de reprodutibilidade e não conectam a qualidade do contexto de entrada com a segurança da saída. Para abordar essas lacunas, introduzimos o A.S.E (Avaliação de Segurança na Geração de Código por IA), um benchmark para geração segura de código em nível de repositório. O A.S.E constrói tarefas a partir de repositórios do mundo real com CVEs documentados, preservando o contexto completo do repositório, como sistemas de compilação e dependências entre arquivos. Seu framework de avaliação reproduzível e conteinerizado utiliza regras definidas por especialistas para fornecer avaliações estáveis e auditáveis de segurança, qualidade de compilação e estabilidade de geração. Nossa avaliação dos principais LLMs no A.S.E revela três descobertas principais: (1) O Claude-3.7-Sonnet alcança o melhor desempenho geral. (2) A diferença de segurança entre modelos proprietários e de código aberto é estreita; o Qwen3-235B-A22B-Instruct atinge a maior pontuação de segurança. (3) Estratégias de decodificação concisas e de "pensamento rápido" superam consistentemente raciocínios complexos e de "pensamento lento" para correções de segurança.
Os Modelos de Linguagem de Grande Escala Científicos (Sci-LLMs) estão transformando a forma como o conhecimento é representado, integrado e aplicado na pesquisa científica, embora seu progresso seja moldado pela natureza complexa dos dados científicos. Esta pesquisa apresenta uma síntese abrangente e centrada em dados que reformula o desenvolvimento dos Sci-LLMs como uma coevolução entre os modelos e seu substrato de dados subjacente. Propomos uma taxonomia unificada de dados científicos e um modelo hierárquico de conhecimento científico, enfatizando os desafios multimodais, multiescala e específicos de domínio que diferenciam os corpora científicos dos conjuntos de dados gerais de processamento de linguagem natural. Revisamos sistematicamente os Sci-LLMs recentes, desde modelos de propósito geral até modelos especializados em diversas disciplinas científicas, juntamente com uma análise extensa de mais de 270 conjuntos de dados de pré/pós-treinamento, mostrando por que os Sci-LLMs exigem corpora heterogêneos, multiescala e carregados de incertezas que requerem representações que preservem a invariância de domínio e permitam o raciocínio multimodal. Na avaliação, examinamos mais de 190 conjuntos de dados de referência e traçamos uma mudança de exames estáticos para avaliações orientadas a processos e descobertas, com protocolos de avaliação avançados. Essas análises centradas em dados destacam questões persistentes no desenvolvimento de dados científicos e discutem soluções emergentes envolvendo pipelines de anotação semiautomatizados e validação por especialistas. Por fim, delineamos uma mudança de paradigma em direção a sistemas de ciclo fechado, onde agentes autônomos baseados em Sci-LLMs experimentam, validam e contribuem ativamente para uma base de conhecimento viva e em evolução. Coletivamente, este trabalho fornece um roteiro para a construção de sistemas de inteligência artificial (IA) confiáveis e em constante evolução que funcionam como verdadeiros parceiros na aceleração da descoberta científica.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) equipados com capacidades de pensamento passo a passo demonstraram desempenho notável em problemas complexos de raciocínio. No entanto, esse processo de pensamento é redundante para problemas simples que podem ser resolvidos sem raciocínio complexo. Para abordar essa ineficiência, propomos o R-4B, um MLLM de auto-pensamento, que pode decidir de forma adaptativa quando pensar com base na complexidade do problema. A ideia central do R-4B é capacitar o modelo com ambas as capacidades de pensamento e não pensamento usando anelamento bi-modal, e aplicar a Otimização de Política Bi-modal (BPO) para melhorar a precisão do modelo em determinar se deve ativar o processo de pensamento. Especificamente, primeiro treinamos o modelo em um conjunto de dados cuidadosamente curado que abrange vários tópicos, contendo amostras de ambos os modos de pensamento e não pensamento. Em seguida, ele passa por uma segunda fase de treinamento sob uma estrutura GRPO aprimorada, onde o modelo de política é forçado a gerar respostas de ambos os modos para cada consulta de entrada. Os resultados experimentais mostram que o R-4B alcança desempenho de ponta em 25 benchmarks desafiadores. Ele supera o Qwen2.5-VL-7B na maioria das tarefas e alcança desempenho comparável a modelos maiores, como o Kimi-VL-A3B-Thinking-2506 (16B), em benchmarks intensivos de raciocínio com menor custo computacional.
A capacidade humana de realizar raciocínio multimodal e interação física de forma contínua no mundo aberto é um objetivo central para sistemas inteligentes corporificados de propósito geral. Modelos recentes de visão-linguagem-ação (VLA), que são co-treinados em grandes conjuntos de dados robóticos e visuais-textuais, demonstraram progressos notáveis no controle geral de robôs. No entanto, eles ainda não alcançam a flexibilidade em nível humano no raciocínio e interação intercalados. Neste trabalho, apresentamos a EO-Robotics, composta pelo modelo EO-1 e pelo conjunto de dados EO-Data1.5M. O EO-1 é um modelo de base corporificado unificado que alcança desempenho superior no raciocínio multimodal corporificado e no controle de robôs por meio de pré-treinamento intercalado de visão-texto-ação. O desenvolvimento do EO-1 é baseado em dois pilares principais: (i) uma arquitetura unificada que processa entradas multimodais de forma indiscriminada (imagem, texto, vídeo e ação), e (ii) um conjunto de dados massivo e de alta qualidade para raciocínio multimodal corporificado, o EO-Data1.5M, que contém mais de 1,5 milhão de amostras com ênfase na compreensão intercalada de visão-texto-ação. O EO-1 é treinado por meio de sinergias entre decodagem autorregressiva e denoising por correspondência de fluxo no EO-Data1.5M, permitindo a geração contínua de ações robóticas e o raciocínio multimodal corporificado. Experimentos extensivos demonstram a eficácia do aprendizado intercalado de visão-texto-ação para a compreensão e generalização no mundo aberto, validada por meio de uma variedade de tarefas de manipulação hábil e de longo horizonte em múltiplas corporificações. Este artigo detalha a arquitetura do EO-1, a estratégia de construção de dados do EO-Data1.5M e a metodologia de treinamento, oferecendo insights valiosos para o desenvolvimento de modelos de base corporificados avançados.
As leis de escala validaram o sucesso e a promessa de modelos treinados com grandes volumes de dados na geração criativa em domínios como texto, imagem e vídeo. No entanto, esse paradigma enfrenta escassez de dados no domínio 3D, já que há muito menos disponível na internet em comparação com as modalidades mencionadas. Felizmente, existem vídeos adequados que contêm, de forma inerente, conhecimentos prévios de senso comum, oferecendo um sinal de supervisão alternativo para mitigar o gargalo de generalização causado pela limitação de dados nativos 3D. Por um lado, vídeos que capturam múltiplas visões de um objeto ou cena fornecem um conhecimento prévio de consistência espacial para a geração 3D. Por outro lado, as ricas informações semânticas contidas nos vídeos permitem que o conteúdo gerado seja mais fiel aos prompts de texto e semanticamente plausível. Este artigo explora como aplicar a modalidade de vídeo na geração de ativos 3D, abrangendo desde conjuntos de dados até modelos. Apresentamos o Droplet3D-4M, o primeiro conjunto de dados de vídeo em grande escala com anotações em nível de múltiplas visões, e treinamos o Droplet3D, um modelo generativo que suporta tanto entrada de imagem quanto de texto denso. Experimentos extensivos validam a eficácia da nossa abordagem, demonstrando sua capacidade de produzir conteúdo espacialmente consistente e semanticamente plausível. Além disso, em contraste com as soluções 3D predominantes, nossa abordagem exibe potencial para extensão a aplicações em nível de cena. Isso indica que os conhecimentos prévios de senso comum dos vídeos facilitam significativamente a criação 3D. Disponibilizamos todos os recursos, incluindo o conjunto de dados, código, estrutura técnica e pesos do modelo, em código aberto: https://dropletx.github.io/.
Modelos de linguagem de grande escala (LLMs) se destacam em tarefas de raciocínio complexo, como matemática e programação, mas frequentemente têm dificuldades com tarefas interativas simples que crianças pequenas realizam sem esforço. Essa discrepância evidencia uma lacuna crítica entre conhecimento declarativo (saber sobre algo) e conhecimento procedural (saber como fazer algo). Embora agentes tradicionais de aprendizado por reforço (RL) possam adquirir conhecimento procedural por meio da interação com o ambiente, eles geralmente operam como caixas pretas e exigem uma quantidade substancial de dados de treinamento. Em contraste, os LLMs possuem amplo conhecimento do mundo e capacidades de raciocínio, mas são incapazes de converter efetivamente esse conhecimento estático em tomadas de decisão dinâmicas em cenários interativos. Para enfrentar esse desafio, propomos o Think in Games (TiG), uma estrutura inovadora que capacita os LLMs a desenvolver compreensão procedural por meio da interação direta com ambientes de jogo, mantendo suas habilidades inatas de raciocínio e explicação. Especificamente, o TiG reformula a tomada de decisão baseada em RL como uma tarefa de modelagem de linguagem: os LLMs geram políticas guiadas por linguagem, que são refinadas iterativamente por meio de aprendizado por reforço online com base no feedback do ambiente. Nossos resultados experimentais mostram que o TiG conecta com sucesso o conhecimento declarativo e procedural, alcançando desempenho competitivo com demandas de dados e computação drasticamente menores em comparação com métodos convencionais de RL. Além disso, o TiG fornece explicações passo a passo em linguagem natural para suas decisões, melhorando significativamente a transparência e a interpretabilidade em tarefas interativas complexas.
jina-code-embeddings é uma suíte inovadora de modelos de incorporação de código projetada para recuperar código a partir de consultas em linguagem natural, realizar perguntas e respostas técnicas e identificar trechos de código semanticamente semelhantes em diferentes linguagens de programação. Ele faz uso inovador de uma arquitetura autoregressiva pré-treinada em texto e código, gerando incorporações por meio de last-token pooling. Descrevemos a receita de treinamento e demonstramos desempenho de ponta, apesar do tamanho relativamente pequeno dos modelos, validando essa abordagem para a construção de modelos de incorporação de código.
A síntese de cabeças falantes impulsionada por áudio alcançou um realismo fotográfico notável, porém os modelos state-of-the-art (SOTA) exibem uma falha crítica: eles carecem de generalização para todo o espectro da diversidade humana em termos de etnia, idioma e faixas etárias. Argumentamos que essa lacuna de generalização é um sintoma direto das limitações nos dados de treinamento existentes, que não possuem a escala, qualidade e diversidade necessárias. Para enfrentar esse desafio, introduzimos o TalkVid, um novo conjunto de dados em larga escala, de alta qualidade e diversificado, contendo 1244 horas de vídeo de 7729 falantes únicos. O TalkVid é curado por meio de um pipeline automatizado e multiestágio, que filtra rigorosamente a estabilidade de movimento, a qualidade estética e os detalhes faciais, e é validado por julgamentos humanos para garantir sua confiabilidade. Além disso, construímos e disponibilizamos o TalkVid-Bench, um conjunto de avaliação estratificado de 500 clipes meticulosamente balanceados em eixos demográficos e linguísticos-chave. Nossos experimentos demonstram que um modelo treinado no TalkVid supera os modelos treinados em conjuntos de dados anteriores, exibindo uma generalização cruzada superior. Crucialmente, nossa análise no TalkVid-Bench revela disparidades de desempenho entre subgrupos que são obscurecidas pelas métricas agregadas tradicionais, destacando sua necessidade para pesquisas futuras. O código e os dados podem ser encontrados em https://github.com/FreedomIntelligence/TalkVid.
A mistura de dados utilizada no pré-treinamento de um modelo de linguagem é um pilar fundamental para seu desempenho final. No entanto, uma estratégia de mistura estática é subótima, uma vez que as preferências de aprendizado do modelo para diversos domínios de dados mudam dinamicamente ao longo do treinamento. Crucialmente, observar essas preferências em evolução de forma computacionalmente eficiente permanece um desafio significativo. Para abordar isso, propomos o TiKMiX, um método que ajusta dinamicamente a mistura de dados de acordo com as preferências em evolução do modelo. O TiKMiX introduz o conceito de Influência de Grupo, uma métrica eficiente para avaliar o impacto dos domínios de dados no modelo. Essa métrica permite formular o problema de mistura de dados como uma busca por uma distribuição ótima que maximize a influência. Resolvemos isso por meio de duas abordagens: o TiKMiX-D para otimização direta e o TiKMiX-M, que utiliza um modelo de regressão para prever uma mistura superior. Treinamos modelos com diferentes números de parâmetros, em até 1 trilhão de tokens. O TiKMiX-D supera o desempenho de métodos state-of-the-art como o REGMIX, utilizando apenas 20% dos recursos computacionais. O TiKMiX-M resulta em um ganho médio de desempenho de 2% em 9 benchmarks de tarefas downstream. Nossos experimentos revelam que as preferências de dados de um modelo evoluem com o progresso do treinamento e a escala, e demonstramos que ajustar dinamicamente a mistura de dados com base na Influência de Grupo, uma medida direta dessas preferências, melhora significativamente o desempenho ao mitigar a subdigestão de dados observada com proporções estáticas.
O agente GUI visa permitir operações automatizadas em dispositivos móveis/PC, o que é uma tarefa importante para alcançar a inteligência artificial geral. O rápido avanço dos VLMs acelera o desenvolvimento de agentes GUI, devido às suas poderosas capacidades de compreensão visual e planejamento de tarefas. No entanto, construir um agente GUI continua sendo uma tarefa desafiadora devido à escassez de trajetórias de operação, à disponibilidade de infraestrutura interativa e à limitação das capacidades iniciais dos modelos de base. Neste trabalho, apresentamos o UItron, um modelo de base de código aberto para agentes GUI automáticos, com capacidades avançadas de percepção, fundamentação e planejamento de GUI. O UItron destaca a necessidade de engenharia de dados sistêmica e infraestrutura interativa como componentes fundamentais para o avanço do desenvolvimento de agentes GUI. Ele não apenas estuda sistematicamente uma série de estratégias de engenharia de dados para melhorar os efeitos do treinamento, mas também estabelece um ambiente interativo que conecta dispositivos móveis e PC. No treinamento, o UItron adota o ajuste fino supervisionado para tarefas de percepção e planejamento em vários cenários de GUI, e então desenvolve uma estrutura de aprendizado por reforço curricular para permitir raciocínio complexo e exploração em ambientes online. Como resultado, o UItron alcança desempenho superior em benchmarks de percepção, fundamentação e planejamento de GUI. Em particular, o UItron destaca a proficiência de interação com os principais aplicativos móveis chineses, já que identificamos uma falta geral de capacidades em chinês mesmo nas soluções mais avançadas. Para isso, coletamos manualmente mais de um milhão de passos de trajetórias de operação nos 100 aplicativos mais populares e construímos os ambientes de avaliação de agentes offline e online. Os resultados experimentais demonstram que o UItron alcança progresso significativo em cenários de aplicativos chineses, impulsionando os agentes GUI um passo mais perto da aplicação no mundo real.
A avaliação de modelos de áudio-linguagem (ALMs) — modelos multimodais que recebem entradas intercaladas de áudio e texto e produzem texto como saída — é dificultada pela falta de benchmarks padronizados; a maioria dos benchmarks mede apenas uma ou duas capacidades e omite aspectos avaliativos como justiça ou segurança. Além disso, a comparação entre modelos é complicada, pois avaliações separadas testam um número limitado de modelos e utilizam métodos de prompt e parâmetros de inferência diferentes. Para abordar essas deficiências, introduzimos o AHELM, um benchmark que agrega diversos conjuntos de dados — incluindo dois novos conjuntos de dados sintéticos de áudio-texto chamados PARADE, que avalia os ALMs na prevenção de estereótipos, e CoRe-Bench, que mede o raciocínio sobre áudio conversacional por meio de perguntas e respostas multi-turn inferenciais — para medir holisticamente o desempenho dos ALMs em 10 aspectos que identificamos como importantes para o desenvolvimento e uso desses modelos: percepção de áudio, conhecimento, raciocínio, detecção de emoções, viés, justiça, multilinguismo, robustez, toxicidade e segurança. Também padronizamos os prompts, parâmetros de inferência e métricas de avaliação para garantir comparações equitativas entre modelos. Testamos 14 ALMs de código aberto e APIs fechadas de 3 desenvolvedores, além de 3 sistemas de linha de base simples, cada um consistindo de um reconhecedor automático de fala e um modelo de linguagem. Nossos resultados mostram que, embora o Gemini 2.5 Pro ocupe o primeiro lugar em 5 dos 10 aspectos, ele exibe injustiça de grupo (p=0,01) em tarefas de ASR, enquanto a maioria dos outros modelos não. Também observamos que os sistemas de linha de base têm um desempenho razoavelmente bom no AHELM, com um deles ocupando a 5ª posição geral, apesar de ter apenas capacidades de conversão de fala em texto. Para transparência, todos os prompts brutos, gerações de modelos e saídas estão disponíveis em nosso site em https://crfm.stanford.edu/helm/audio/v1.0.0. O AHELM pretende ser um benchmark dinâmico, e novos conjuntos de dados e modelos serão adicionados ao longo do tempo.
Os avanços recentes na aplicação de aprendizado por reforço (RL) a modelos de linguagem de grande escala (LLMs) têm levado a progressos substanciais. Em particular, uma série de fenômenos notáveis, mas frequentemente contra-intuitivos, tem sido relatada em LLMs, exibindo padrões que não são tipicamente observados em configurações tradicionais de RL. Por exemplo, afirmações notáveis incluem que um único exemplo de treinamento pode igualar o desempenho alcançado com um conjunto de dados completo, que o sinal de recompensa não precisa ser muito preciso e que o treinamento apenas com amostras negativas pode igualar ou até superar métodos sofisticados baseados em recompensa. No entanto, as condições precisas sob as quais essas observações se mantêm - e, crucialmente, quando elas falham - permanecem pouco claras. Neste trabalho, identificamos um fator chave que diferencia as observações de RL: se o modelo pré-treinado já exibe um forte Alinhamento Modelo-Tarefa, medido pela precisão pass@k na tarefa avaliada. Por meio de um exame sistemático e abrangente de uma série de afirmações contra-intuitivas, apoiado por validação experimental rigorosa em diferentes arquiteturas de modelo e domínios de tarefa, nossos resultados mostram que, embora o treinamento padrão de RL permaneça consistentemente robusto em várias configurações, muitos desses resultados contra-intuitivos surgem apenas quando o modelo e a tarefa já exibem um forte alinhamento modelo-tarefa. Em contraste, essas técnicas falham em impulsionar um aprendizado substancial em regimes mais desafiadores, onde os métodos padrão de RL permanecem eficazes.
A simetria é uma das pistas geométricas mais fundamentais na visão computacional, e sua detecção tem sido um desafio contínuo. Com os recentes avanços em modelos de visão e linguagem, como o CLIP, investigamos se um modelo CLIP pré-treinado pode auxiliar na detecção de simetria ao aproveitar as pistas adicionais de simetria encontradas nas descrições de imagens naturais. Propomos o CLIPSym, que utiliza os codificadores de imagem e linguagem do CLIP e um decodificador equivariante à rotação baseado em uma combinação de Transformer e G-Convolução para detectar simetrias de rotação e reflexão. Para aproveitar totalmente o codificador de linguagem do CLIP, desenvolvemos uma nova técnica de prompt chamada Agrupamento de Prompts com Consciência Semântica (SAPG), que agrega um conjunto diversificado de prompts frequentes baseados em objetos para integrar melhor as pistas semânticas na detecção de simetria. Empiricamente, mostramos que o CLIPSym supera o estado da arte atual em três conjuntos de dados padrão de detecção de simetria (DENDI, SDRW e LDRS). Por fim, realizamos ablações detalhadas que verificam os benefícios do pré-treinamento do CLIP, do decodificador equivariante proposto e da técnica SAPG. O código está disponível em https://github.com/timyoung2333/CLIPSym.
Agentes de interface do usuário (UI) prometem tornar interfaces inacessíveis ou complexas mais fáceis de utilizar para usuários cegos ou com baixa visão (BLV). No entanto, os agentes de UI atuais geralmente executam tarefas de ponta a ponta sem envolver os usuários em escolhas críticas ou torná-los cientes de informações contextuais importantes, reduzindo assim a autonomia do usuário. Por exemplo, em nosso estudo de campo, um participante BLV solicitou a compra da água com gás mais barata disponível, e o agente escolheu automaticamente uma entre várias opções de preço igual, sem mencionar produtos alternativos com sabores diferentes ou melhores avaliações. Para resolver esse problema, apresentamos o Morae, um agente de UI que identifica automaticamente pontos de decisão durante a execução de tarefas e faz pausas para que os usuários possam fazer escolhas. O Morae utiliza modelos multimodais de grande escala para interpretar consultas dos usuários juntamente com o código da UI e capturas de tela, solicitando esclarecimentos aos usuários quando há uma escolha a ser feita. Em um estudo com tarefas reais na web envolvendo participantes BLV, o Morae ajudou os usuários a concluir mais tarefas e selecionar opções que melhor correspondiam às suas preferências, em comparação com agentes de referência, incluindo o OpenAI Operator. De forma mais ampla, este trabalho exemplifica uma abordagem de iniciativa mista em que os usuários se beneficiam da automação dos agentes de UI, ao mesmo tempo em que podem expressar suas preferências.
A descoberta automatizada de leis físicas a partir de dados observacionais no mundo real é um grande desafio na IA. Os métodos atuais, que dependem de regressão simbólica ou LLMs, são limitados a dados unimodais e ignoram as ricas representações fenomenológicas visuais do movimento que são indispensáveis para os físicos. Essa "privação sensorial" enfraquece severamente sua capacidade de interpretar os padrões espaço-temporais inerentes aos fenômenos dinâmicos. Para abordar essa lacuna, propomos o VIPER-R1, um modelo multimodal que realiza Indução Visual para Raciocínio de Equações Baseadas em Física para descobrir fórmulas simbólicas fundamentais. Ele integra percepção visual, dados de trajetória e raciocínio simbólico para emular o processo de descoberta científica. O modelo é treinado por meio de um currículo de Indução de Estrutura de Movimento (MSI), usando ajuste fino supervisionado para interpretar retratos de fase cinemática e construir hipóteses guiadas por uma Cadeia de Pensamento Causal (C-CoT), seguido por Calibração Simbólica Orientada por Recompensa (RGSC) para refinar a estrutura da fórmula com aprendizado por reforço. Durante a inferência, o VIPER-R1 treinado age como um agente: primeiro propõe um ansatz simbólico de alta confiança, depois invoca proativamente uma ferramenta externa de regressão simbólica para realizar Realinhamento de Resíduo Simbólico (SR^2). Essa etapa final, análoga à análise de perturbação de um físico, reconcilia o modelo teórico com os dados empíricos. Para apoiar essa pesquisa, introduzimos o PhysSymbol, um novo corpus multimodal com 5.000 instâncias. Experimentos mostram que o VIPER-R1 supera consistentemente as linhas de base VLM state-of-the-art em precisão e interpretabilidade, permitindo uma descoberta mais precisa das leis físicas. Página do projeto: https://jiaaqiliu.github.io/VIPER-R1/
As Redes de Reservatórios Eco (Echo State Networks - ESNs) são um tipo específico de Redes Neurais Recorrentes (RNNs) não treinadas dentro do framework de Computação de Reservatórios (Reservoir Computing - RC), conhecidas por seu aprendizado rápido e eficiente. No entanto, as ESNs tradicionais frequentemente enfrentam dificuldades no processamento de informações de longo prazo. Neste artigo, introduzimos uma nova classe de RNNs profundas não treinadas baseadas em conexões residuais temporais, denominadas Redes de Reservatórios Eco Profundas com Resíduos (Deep Residual Echo State Networks - DeepResESNs). Demonstramos que a utilização de uma hierarquia de camadas recorrentes residuais não treinadas aumenta significativamente a capacidade de memória e a modelagem temporal de longo prazo. Para as conexões residuais temporais, consideramos diferentes configurações ortogonais, incluindo configurações geradas aleatoriamente e de estrutura fixa, e estudamos seu efeito na dinâmica da rede. Uma análise matemática detalhada descreve as condições necessárias e suficientes para garantir dinâmicas estáveis dentro da DeepResESN. Nossos experimentos em uma variedade de tarefas de séries temporais destacam as vantagens da abordagem proposta em comparação com RC tradicional, tanto superficial quanto profunda.
Aproveitar dados de movimento humano para dotar robôs com habilidades de manipulação versáteis emergiu como um paradigma promissor na manipulação robótica. No entanto, traduzir movimentos de mão humana de múltiplas fontes em comportamentos robóticos viáveis continua desafiador, especialmente para robôs equipados com mãos hábeis multi-dedos caracterizadas por espaços de ação complexos e de alta dimensionalidade. Além disso, as abordagens existentes frequentemente lutam para produzir políticas capazes de se adaptar a diversas condições ambientais. Neste artigo, apresentamos HERMES, um framework de aprendizado humano-para-robô para manipulação hábil bimanual móvel. Primeiro, HERMES formula uma abordagem unificada de aprendizado por reforço capaz de transformar de forma contínua movimentos heterogêneos de mão humana de múltiplas fontes em comportamentos robóticos fisicamente plausíveis. Posteriormente, para mitigar a lacuna sim2real, desenvolvemos um método de transferência sim2real baseado em imagens de profundidade de ponta a ponta para melhorar a generalização em cenários do mundo real. Além disso, para permitir operação autônoma em ambientes variados e não estruturados, aprimoramos o modelo de base de navegação com um mecanismo de localização Perspective-n-Point (PnP) em malha fechada, garantindo o alinhamento preciso de objetivos visuais e efetivamente conectando navegação autônoma e manipulação hábil. Resultados experimentais extensivos demonstram que HERMES exibe consistentemente comportamentos generalizáveis em diversos cenários do mundo real, realizando com sucesso inúmeras tarefas complexas de manipulação hábil bimanual móvel. Página do Projeto: https://gemcollector.github.io/HERMES/.
A quantização pós-treinamento (PTQ) é crucial para a implantação de modelos eficientes de detecção de objetos, como o YOLO, em dispositivos com recursos limitados. No entanto, o impacto da redução de precisão na robustez do modelo a degradações de entrada do mundo real, como ruído, desfoque e artefatos de compressão, é uma preocupação significativa. Este artigo apresenta um estudo empírico abrangente avaliando a robustez dos modelos YOLO (de nano a escalas extra-grandes) em múltiplos formatos de precisão: FP32, FP16 (TensorRT), UINT8 Dinâmico (ONNX) e INT8 Estático (TensorRT). Introduzimos e avaliamos uma estratégia de calibração consciente da degradação para PTQ INT8 Estático, onde o processo de calibração do TensorRT é exposto a uma mistura de imagens limpas e degradadas sinteticamente. Os modelos foram avaliados no conjunto de dados COCO sob sete condições distintas de degradação (incluindo vários tipos e níveis de ruído, desfoque, baixo contraste e compressão JPEG) e um cenário de degradação mista. Os resultados indicam que, embora os motores INT8 Estático do TensorRT ofereçam acelerações substanciais (~1,5-3,3x) com uma queda moderada de precisão (~3-7% mAP50-95) em dados limpos, a calibração consciente da degradação proposta não produziu melhorias consistentes e amplas na robustez em relação à calibração padrão com dados limpos na maioria dos modelos e degradações. Uma exceção notável foi observada para escalas maiores de modelos sob condições específicas de ruído, sugerindo que a capacidade do modelo pode influenciar a eficácia dessa abordagem de calibração. Esses achados destacam os desafios em melhorar a robustez da PTQ e fornecem insights para a implantação de detectores quantizados em ambientes não controlados. Todo o código e tabelas de avaliação estão disponíveis em https://github.com/AllanK24/QRID.
Todos os anos, a maioria das instituições de ensino busca e recebe um volume enorme de feedback textual dos alunos sobre cursos, ensino e experiência geral. No entanto, transformar esse feedback bruto em insights úteis está longe de ser simples. Tem sido um desafio de longa data adotar soluções automáticas de mineração de opiniões para esses dados de avaliação educacional devido à complexidade do conteúdo e aos requisitos de relatórios de baixa granularidade. A Análise de Sentimento Baseada em Aspectos (ABSA) oferece uma solução promissora com suas capacidades ricas de mineração de opiniões em nível de subfrase. No entanto, as pesquisas e recursos existentes em ABSA estão muito focados no domínio comercial. Na educação, eles são escassos e difíceis de desenvolver devido à limitação de conjuntos de dados públicos e à rigorosa proteção de dados. Um conjunto de dados anotado de alta qualidade é urgentemente necessário para avançar a pesquisa nessa área subutilizada. Neste trabalho, apresentamos o EduRABSA (Education Review ABSA), o primeiro conjunto de dados público e anotado de ABSA para avaliações educacionais que abrange três tipos de sujeitos de avaliação (curso, corpo docente, universidade) em inglês e todas as principais tarefas de ABSA, incluindo a extração de aspectos implícitos e opiniões implícitas, que são pouco exploradas. Também compartilhamos o ASQE-DPT (Ferramenta de Processamento de Dados), uma ferramenta manual de anotação de dados offline, leve e sem necessidade de instalação, que gera conjuntos de dados rotulados para tarefas abrangentes de ABSA a partir de uma anotação de tarefa única. Juntos, esses recursos contribuem para a comunidade de ABSA e o domínio da educação, removendo a barreira de conjuntos de dados, apoiando a transparência e a reprodutibilidade da pesquisa e permitindo a criação e o compartilhamento de mais recursos. O conjunto de dados, a ferramenta de anotação, os scripts e as estatísticas para processamento e amostragem de dados estão disponíveis em https://github.com/yhua219/edurabsa_dataset_and_annotation_tool.