Artigos de pesquisa em IA selecionados diariamente com traduções
Os grandes modelos de linguagem (LLMs) revolucionaram o processamento de linguagem natural (PLN), mas os LLMs multilíngues de código aberto ainda são escassos, com os modelos existentes frequentemente limitados em cobertura de idiomas. Esses modelos geralmente priorizam idiomas bem documentados, enquanto idiomas amplamente falados, mas com menos recursos, são frequentemente negligenciados. Para abordar essa disparidade, apresentamos o Babel, um LLM multilíngue de código aberto que cobre os 25 idiomas mais falados, suporta mais de 90% da população global e inclui muitos idiomas negligenciados por outros LLMs multilíngues de código aberto. Diferente das abordagens tradicionais de pré-treinamento contínuo, o Babel expande sua contagem de parâmetros por meio de uma técnica de extensão de camadas que eleva o limite de desempenho do modelo. Introduzimos duas variantes: o Babel-9B, projetado para inferência e ajuste fino eficientes, e o Babel-83B, que estabelece um novo padrão para LLMs multilíngues de código aberto. Avaliações extensas em tarefas multilíngues demonstram seu desempenho superior em comparação com LLMs de código aberto de tamanho similar. Além disso, utilizando conjuntos de dados de ajuste fino supervisionado de código aberto, o Babel alcança um desempenho notável, com o Babel-9B-Chat liderando entre LLMs de 10 bilhões de parâmetros e o Babel-83B-Chat estabelecendo um novo padrão para tarefas multilíngues, atingindo o mesmo nível de modelos comerciais.
Um ponto fraco dos Modelos de Linguagem de Grande Escala (LLMs) é sua tendência a alucinar declarações não factuais. Uma resposta que mistura afirmações factuais e não factuais representa um desafio para os humanos verificarem e basearem suas decisões com precisão. Para combater esse problema, propomos o Highlighted Chain-of-Thought Prompting (HoT), uma técnica para solicitar que LLMs gerem respostas com tags XML que fundamentam os fatos naqueles fornecidos na consulta. Ou seja, dada uma pergunta de entrada, os LLMs primeiro reformatariam a questão para adicionar tags XML destacando os fatos-chave e, em seguida, gerariam uma resposta com destaques sobre os fatos referenciados na entrada. Curiosamente, em configurações de poucos exemplos (few-shot), o HoT supera o prompting de cadeia de pensamento tradicional (CoT) em uma ampla gama de 17 tarefas, desde aritmética e compreensão de leitura até raciocínio lógico. Ao pedir que humanos verifiquem as respostas dos LLMs, os destaques ajudam participantes com tempo limitado a reconhecer com mais precisão e eficiência quando os LLMs estão corretos. No entanto, surpreendentemente, quando os LLMs estão errados, o HoT tende a fazer os usuários acreditarem que a resposta está correta.
Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado desempenho excepcional em diversas tarefas subsequentes e têm sido amplamente aplicados em múltiplos cenários. Dados de preferência anotados por humanos são utilizados para treinamento, a fim de aprimorar ainda mais o desempenho dos LLMs, o que é limitado pelo limite superior do desempenho humano. Portanto, o método de Autorecompensa foi proposto, no qual os LLMs geram dados de treinamento recompensando suas próprias saídas. No entanto, o paradigma existente de autorecompensa não é eficaz em cenários de raciocínio matemático e pode até levar a uma queda no desempenho. Neste trabalho, propomos o pipeline de Autorecompensa Baseada em Processos para modelos de linguagem, que introduz raciocínio de longo pensamento, avaliação passo a passo por LLM como juiz e otimização de preferência passo a passo dentro do paradigma de autorecompensa. Nosso novo paradigma melhora com sucesso o desempenho dos LLMs em múltiplos benchmarks de raciocínio matemático por meio da Autorecompensa Baseada em Processos iterativa, demonstrando o imenso potencial da autorecompensa para alcançar um raciocínio em LLMs que pode superar as capacidades humanas.
Apresentamos o KodCode, um conjunto de dados sintético que aborda o desafio persistente de adquirir dados de treinamento de alta qualidade e verificáveis em diversas dificuldades e domínios para o treinamento de Modelos de Linguagem de Grande Escala (LLMs) voltados para codificação. Os recursos existentes focados em código geralmente falham em garantir tanto a amplitude de cobertura (por exemplo, abrangendo tarefas simples de codificação até problemas algorítmicos avançados) quanto a correção verificável (por exemplo, testes unitários). Em contraste, o KodCode consiste em triplas pergunta-solução-teste que são sistematicamente validadas por meio de um procedimento de autoverificação. Nosso pipeline começa sintetizando uma ampla gama de questões de codificação, em seguida gera soluções e casos de teste com tentativas adicionais alocadas para problemas desafiadores. Por fim, a síntese de dados pós-treinamento é realizada reescrevendo as questões em diversos formatos e gerando respostas sob um procedimento de rejeição baseado em testes a partir de um modelo de raciocínio (DeepSeek R1). Esse pipeline produz um conjunto de dados de codificação em grande escala, robusto e diversificado. O KodCode é adequado para ajuste fino supervisionado, e os testes unitários emparelhados também oferecem grande potencial para ajuste por reforço (RL). Experimentos de ajuste fino em benchmarks de codificação (HumanEval(+), MBPP(+), BigCodeBench e LiveCodeBench) demonstram que os modelos ajustados com KodCode alcançam desempenho de ponta, superando modelos como Qwen2.5-Coder-32B-Instruct e DeepSeek-R1-Distill-Llama-70B.
Apresentamos o GEN3C, um modelo generativo de vídeo com Controle Preciso de Câmera e Consistência Temporal 3D. Modelos de vídeo anteriores já geram vídeos realistas, mas tendem a utilizar pouca informação 3D, resultando em inconsistências, como objetos que aparecem e desaparecem subitamente. O controle de câmera, quando implementado, é impreciso, pois os parâmetros da câmera são meras entradas para a rede neural, que deve então inferir como o vídeo depende da câmera. Em contraste, o GEN3C é guiado por um cache 3D: nuvens de pontos obtidas pela previsão da profundidade pixel a pixel de imagens iniciais ou quadros previamente gerados. Ao gerar os quadros seguintes, o GEN3C é condicionado pelas renderizações 2D do cache 3D com a nova trajetória da câmera fornecida pelo usuário. Crucialmente, isso significa que o GEN3C não precisa se lembrar do que gerou anteriormente nem inferir a estrutura da imagem a partir da pose da câmera. Em vez disso, o modelo pode concentrar todo o seu poder generativo em regiões previamente não observadas, bem como avançar o estado da cena para o próximo quadro. Nossos resultados demonstram um controle de câmera mais preciso do que trabalhos anteriores, além de resultados de última geração na síntese de novas vistas a partir de vistas esparsas, mesmo em cenários desafiadores, como cenas de direção e vídeo dinâmico monocular. Os resultados são melhor visualizados em vídeos. Confira nossa página! https://research.nvidia.com/labs/toronto-ai/GEN3C/
Modelos de embedding visual se destacam em tarefas zero-shot como recuperação visual e classificação. No entanto, esses modelos não podem ser usados para tarefas que contenham ambiguidade ou exijam instruções do usuário. Essas tarefas exigem um modelo de embedding multimodal, que produz embeddings que combinam entrada visual e linguagem natural. As abordagens existentes baseadas em CLIP incorporam imagens e texto de forma independente e fundem o resultado. Descobrimos que isso resulta em interações fracas entre as modalidades e em um controle limitado do usuário sobre a representação. Apresentamos o ABC, um modelo de embedding multimodal de código aberto que utiliza um backbone de modelo visão-linguagem para integrar profundamente características de imagem com instruções em linguagem natural. O ABC alcança o melhor desempenho para seu tamanho na recuperação de texto a partir de imagens no MSCOCO e é o modelo com melhor desempenho em tarefas de classificação e VQA no Massive Multimodal Embedding Benchmark. Com uma representação visão-linguagem fortemente unificada, o ABC pode usar linguagem natural para resolver problemas sutis e potencialmente ambíguos de recuperação visual. Para avaliar essa capacidade, projetamos o CtrlBench, um benchmark que requer a intercalação de instruções textuais com o conteúdo da imagem para uma recuperação correta. O ABC avança o estado da arte em embeddings multimodais ao oferecer representações de alta qualidade e controle flexível por meio de linguagem natural. Nosso modelo e conjuntos de dados estão disponíveis em nossa página do projeto.
A destilação das capacidades de seguimento de instruções de modelos avançados de linguagem de grande escala (LLMs) em modelos menores, utilizando um subconjunto selecionado, tornou-se uma abordagem predominante no treinamento de modelos. Embora as estratégias existentes de seleção de dados sintéticos de instrução dependam principalmente de sinais unidimensionais (ou seja, pontuações de recompensa, perplexidade do modelo), elas falham em capturar a complexidade do seguimento de instruções em diversos campos. Portanto, investigamos sinais mais diversos para capturar características abrangentes de pares instrução-resposta e propomos três métricas fundamentais que aproveitam a sabedoria de Multi-LLM, informadas por (1) respostas diversas de LLMs e (2) avaliação de modelos de recompensa. Com base nessas métricas, propomos o CrowdSelect, uma métrica integrada que incorpora uma abordagem baseada em clustering para manter a diversidade de respostas. Nossos experimentos abrangentes demonstram que nossas métricas fundamentais melhoram consistentemente o desempenho em 4 modelos base no MT-bench e Arena-Hard. O CrowdSelect, incorporando eficientemente todas as métricas, alcança desempenho de ponta tanto no ajuste fino completo quanto no LoRA, mostrando melhorias de 4,81% no Arena-Hard e 11,1% no MT-bench com o Llama-3.2-3b-instruct. Esperamos que nossas descobertas tragam insights valiosos para pesquisas futuras nessa direção. O código está disponível em https://github.com/listentm/crowdselect.
Os Modelos de Linguagem Visual (VLMs) têm demonstrado capacidades impressionantes em tarefas de ancoragem visual. No entanto, sua eficácia no domínio médico, particularmente para detecção e localização de anormalidades em imagens médicas, permanece pouco explorada. Um grande desafio é a natureza complexa e abstrata da terminologia médica, o que dificulta a associação direta de termos de anomalias patológicas com suas características visuais correspondentes. Neste trabalho, introduzimos uma abordagem inovadora para aprimorar o desempenho de VLMs na detecção e localização de anormalidades médicas, aproveitando o conhecimento médico decomposto. Em vez de solicitar diretamente que os modelos reconheçam anormalidades específicas, focamos em decompor conceitos médicos em atributos fundamentais e padrões visuais comuns. Essa estratégia promove um alinhamento mais forte entre descrições textuais e características visuais, melhorando tanto o reconhecimento quanto a localização de anormalidades em imagens médicas. Avaliamos nosso método no modelo base Florence-2 de 0,23B e demonstramos que ele alcança desempenho comparável na ancoragem de anormalidades a VLMs médicos baseados em LLaVA de 7B significativamente maiores, apesar de ser treinado com apenas 1,5% dos dados utilizados para tais modelos. Os resultados experimentais também demonstram a eficácia de nossa abordagem tanto em anormalidades conhecidas quanto em anormalidades previamente não vistas, sugerindo suas fortes capacidades de generalização.
A implantação de modelos de linguagem em grande escala em dispositivos de borda enfrenta desafios inerentes, como altas demandas computacionais, consumo de energia e potenciais riscos à privacidade dos dados. Este artigo apresenta os Shakti Small Language Models (SLMs) Shakti-100M, Shakti-250M e Shakti-500M, que abordam diretamente essas restrições. Ao combinar arquiteturas eficientes, técnicas de quantização e princípios de IA responsável, a série Shakti possibilita inteligência local em smartphones, eletrodomésticos inteligentes, sistemas IoT e além. Fornecemos insights abrangentes sobre sua filosofia de design, pipelines de treinamento e desempenho em benchmarks tanto em tarefas gerais (por exemplo, MMLU, Hellaswag) quanto em domínios especializados (saúde, finanças e jurídico). Nossos resultados demonstram que modelos compactos, quando cuidadosamente projetados e ajustados, podem atender e frequentemente superar expectativas em cenários reais de IA de borda.
Parte do sucesso dos modelos de difusão decorre de sua capacidade de realizar refinamento iterativo, ou seja, corrigir repetidamente as saídas durante a geração. No entanto, a difusão discreta mascarada moderna carece dessa capacidade: quando um token é gerado, ele não pode ser atualizado novamente, mesmo que introduza um erro. Aqui, abordamos essa limitação ao introduzir o amostrador ReMDM (Remasking Diffusion Model), um método que pode ser aplicado a modelos de difusão mascarada pré-treinados de forma fundamentada e que é derivado de um modelo de difusão discreta com um processo de retropropagação de remascaramento personalizado. Mais interessante ainda, o ReMDM confere à difusão discreta uma forma de escalonamento de computação no tempo de inferência. Ao aumentar o número de etapas de amostragem, o ReMDM gera saídas de linguagem natural que se aproximam da qualidade dos modelos autoregressivos, enquanto, quando o orçamento de computação é limitado, o ReMDM mantém melhor a qualidade. O ReMDM também melhora a qualidade das amostras de modelos de difusão mascarada para imagens discretizadas e, em domínios científicos, como o design de moléculas, o ReMDM facilita a orientação por difusão e empurra a fronteira de Pareto da controlabilidade em relação ao mascaramento clássico e à difusão de ruído uniforme. Disponibilizamos o código junto com um post no blog na página do projeto: https://remdm.github.io.
Bases de Conhecimento de Grafos Ricos em Texto (TG-KBs, na sigla em inglês) tornaram-se cada vez mais cruciais para responder a consultas, fornecendo conhecimento textual e estrutural. No entanto, os métodos atuais de recuperação frequentemente obtêm esses dois tipos de conhecimento de forma isolada, sem considerar sua mútua reforçabilidade, e alguns métodos híbridos até mesmo ignoram completamente a recuperação estrutural após a agregação de vizinhança. Para preencher essa lacuna, propomos uma Mistura de Recuperação Estrutural e Textual (MoR, na sigla em inglês) para recuperar esses dois tipos de conhecimento por meio de um framework de Planejamento-Raciocínio-Organização. Na etapa de Planejamento, o MoR gera grafos de planejamento textual que delineiam a lógica para responder às consultas. Seguindo os grafos de planejamento, na etapa de Raciocínio, o MoR entrelaça a travessia estrutural e a correspondência textual para obter candidatos das TG-KBs. Na etapa de Organização, o MoR reclassifica ainda mais os candidatos recuperados com base em sua trajetória estrutural. Experimentos extensivos demonstram a superioridade do MoR em harmonizar a recuperação estrutural e textual, com insights que incluem o desempenho desigual de recuperação em diferentes lógicas de consulta e os benefícios da integração de trajetórias estruturais para a reclassificação de candidatos. Nosso código está disponível em https://github.com/Yoega/MoR.
A estimativa de qualidade em nível de palavra (QE, do inglês Quality Estimation) detecta trechos errôneos em traduções automáticas, o que pode orientar e facilitar a pós-edição humana. Embora a precisão dos sistemas de QE em nível de palavra tenha sido amplamente avaliada, sua usabilidade e influência subsequente na velocidade, qualidade e escolhas de edição durante a pós-edição humana permanecem pouco estudadas. Nosso estudo QE4PE investiga o impacto da QE em nível de palavra na pós-edição de tradução automática (MT, do inglês Machine Translation) em um cenário realista, envolvendo 42 pós-editores profissionais em duas direções de tradução. Comparamos quatro modalidades de destaque de trechos de erro, incluindo métodos de QE em nível de palavra supervisionados e baseados em incerteza, para identificar possíveis erros nas saídas de um modelo de MT neural de última geração. O esforço e a produtividade da pós-edição são estimados por meio de registros comportamentais, enquanto as melhorias de qualidade são avaliadas por anotações humanas em nível de palavra e de segmento. Descobrimos que o domínio, o idioma e a velocidade dos editores são fatores críticos para determinar a eficácia dos destaques, com diferenças modestas entre destaques de QE feitos por humanos e automatizados, destacando uma lacuna entre precisão e usabilidade em fluxos de trabalho profissionais.
Assistentes conversacionais frequentemente exigem um algoritmo de reescrita de perguntas que utilize um subconjunto de interações passadas para fornecer uma resposta mais significativa (precisa) à pergunta ou solicitação do usuário. No entanto, a abordagem exata de reescrita pode muitas vezes depender do caso de uso e das tarefas específicas da aplicação suportadas pelo assistente conversacional, entre outras restrições. Neste artigo, investigamos sistematicamente duas abordagens diferentes, denominadas reescrita e fusão, em duas tarefas de geração fundamentalmente distintas, incluindo uma tarefa de geração texto-para-texto e uma tarefa generativa multimodal que recebe como entrada um texto e gera uma visualização ou tabela de dados que responde à pergunta do usuário. Nossos resultados indicam que a abordagem específica de reescrita ou fusão depende fortemente do caso de uso subjacente e da tarefa generativa. Em particular, descobrimos que, para um assistente de resposta a perguntas conversacionais, a abordagem de reescrita de consultas tem o melhor desempenho, enquanto para um assistente de análise de dados que gera visualizações e tabelas de dados com base na conversa do usuário com o assistente, a abordagem de fusão funciona melhor. Notavelmente, exploramos dois conjuntos de dados para o caso de uso do assistente de análise de dados, para conversas curtas e longas, e descobrimos que a fusão de consultas sempre tem um desempenho superior, enquanto para a resposta a perguntas baseadas em texto conversacional, a abordagem de reescrita de consultas tem o melhor desempenho.
O aprendizado de ferramentas visa aprimorar grandes modelos de linguagem (LLMs) com diversas ferramentas, permitindo que atuem como agentes para resolver tarefas práticas. Devido ao comprimento limitado do contexto dos LLMs que utilizam ferramentas, a adoção de modelos de recuperação de informação (IR) para selecionar ferramentas úteis de grandes conjuntos de ferramentas é uma etapa inicial crítica. No entanto, o desempenho dos modelos IR em tarefas de recuperação de ferramentas permanece pouco explorado e incerto. A maioria dos benchmarks de uso de ferramentas simplifica essa etapa ao pré-anotar manualmente um pequeno conjunto de ferramentas relevantes para cada tarefa, o que está longe dos cenários do mundo real. Neste artigo, propomos o ToolRet, um benchmark heterogêneo de recuperação de ferramentas composto por 7,6 mil tarefas de recuperação diversas e um corpus de 43 mil ferramentas, coletados de conjuntos de dados existentes. Avaliamos seis tipos de modelos no ToolRet. Surpreendentemente, mesmo os modelos com forte desempenho em benchmarks convencionais de IR exibem um desempenho ruim no ToolRet. Essa baixa qualidade de recuperação degrada a taxa de sucesso das tarefas dos LLMs que utilizam ferramentas. Como um passo adicional, contribuímos com um conjunto de dados de treinamento em larga escala com mais de 200 mil instâncias, que otimiza substancialmente a capacidade de recuperação de ferramentas dos modelos IR.
Os recentes avanços na manipulação robótica têm sido impulsionados por conjuntos de dados em grande escala coletados em diversos ambientes. Tradicionalmente, o treinamento de políticas de manipulação robótica nesses conjuntos de dados é realizado de maneira centralizada, levantando preocupações em relação à escalabilidade, adaptabilidade e privacidade dos dados. Embora o aprendizado federado permita o treinamento descentralizado e preservador da privacidade, sua aplicação na manipulação robótica permanece amplamente inexplorada. Apresentamos o FLAME (Federated Learning Across Manipulation Environments), o primeiro benchmark projetado para aprendizado federado em manipulação robótica. O FLAME consiste em: (i) um conjunto de grandes bases de dados com mais de 160.000 demonstrações especializadas de múltiplas tarefas de manipulação, coletadas em uma ampla variedade de ambientes simulados; (ii) uma estrutura de treinamento e avaliação para o aprendizado de políticas robóticas em um cenário federado. Avaliamos algoritmos padrão de aprendizado federado no FLAME, demonstrando seu potencial para o aprendizado distribuído de políticas e destacando desafios fundamentais. Nosso benchmark estabelece uma base para o aprendizado robótico escalável, adaptativo e consciente da privacidade.
Os recentes avanços na IA generativa levaram à ampla adoção de modelos de linguagem de grande escala (LLMs) na engenharia de software, abordando diversos desafios de longa data. No entanto, um estudo abrangente que examine as capacidades dos LLMs na detecção de vulnerabilidades de software (SVD), um aspecto crucial da segurança de software, ainda é inexistente. As pesquisas existentes concentram-se principalmente na avaliação de LLMs utilizando conjuntos de dados em C/C++. Geralmente, exploram apenas uma ou duas estratégias entre engenharia de prompts, ajuste de instruções e ajuste fino de classificação de sequência para LLMs de código aberto. Consequentemente, há uma lacuna significativa de conhecimento sobre a eficácia de diversos LLMs na detecção de vulnerabilidades em várias linguagens de programação. Para abordar essa lacuna, apresentamos um estudo empírico abrangente que avalia o desempenho de LLMs na tarefa de SVD. Compilamos um conjunto de dados abrangente, incluindo 8.260 funções vulneráveis em Python, 7.505 em Java e 28.983 em JavaScript. Avaliamos cinco LLMs de código aberto utilizando múltiplas abordagens, incluindo engenharia de prompts, ajuste de instruções e ajuste fino de classificação de sequência. Esses LLMs são comparados com cinco modelos de linguagem pequenos ajustados e duas ferramentas de teste de segurança de aplicações estáticas de código aberto. Além disso, exploramos duas vias para melhorar o desempenho dos LLMs em SVD: a) Perspectiva de dados: Re-treinamento de modelos utilizando conjuntos de dados balanceados com subamostragem. b) Perspectiva de modelo: Investigação de métodos de aprendizado ensemble que combinam previsões de múltiplos LLMs. Nossos experimentos abrangentes demonstram que a SVD continua sendo uma tarefa desafiadora para LLMs. Este estudo fornece uma compreensão detalhada do papel dos LLMs na SVD e oferece insights práticos para futuros avanços no aproveitamento da IA generativa para aprimorar práticas de segurança de software.
Este artigo apresenta o CognitiveDrone, um modelo inovador de Visão-Linguagem-Ação (VLA) projetado para tarefas complexas de Veículos Aéreos Não Tripulados (VANTs) que exigem habilidades cognitivas avançadas. Treinado em um conjunto de dados composto por mais de 8.000 trajetórias de voo simuladas em três categorias principais - Reconhecimento Humano, Compreensão de Símbolos e Raciocínio - o modelo gera comandos de ação 4D em tempo real com base em entradas visuais em primeira pessoa e instruções textuais. Para aprimorar ainda mais o desempenho em cenários complexos, propomos o CognitiveDrone-R1, que integra um módulo adicional de raciocínio de Modelo de Visão-Linguagem (VLM) para simplificar as diretrizes das tarefas antes do controle de alta frequência. Avaliações experimentais utilizando nosso benchmark de código aberto, CognitiveDroneBench, revelam que, enquanto um modelo voltado para corridas (RaceVLA) alcança uma taxa de sucesso geral de 31,3%, o modelo base CognitiveDrone atinge 59,6%, e o CognitiveDrone-R1 alcança uma taxa de sucesso de 77,2%. Esses resultados demonstram melhorias de até 30% em tarefas cognitivas críticas, destacando a eficácia da incorporação de capacidades avançadas de raciocínio em sistemas de controle de VANTs. Nossas contribuições incluem o desenvolvimento de um modelo VLA de ponta para controle de VANTs e a introdução do primeiro benchmark dedicado à avaliação de tarefas cognitivas em operações de drones. O repositório completo está disponível em cognitivedrone.github.io.
A coordenação multiagente é crucial para uma navegação confiável de múltiplos robôs em espaços compartilhados, como armazéns automatizados. Em regiões com tráfego intenso de robôs, métodos de coordenação local podem falhar em encontrar uma solução livre de impasses. Nesses cenários, é apropriado que uma unidade central gere um cronograma global que determine a ordem de passagem dos robôs. No entanto, o tempo de execução desses métodos de coordenação centralizada aumenta significativamente com a escala do problema. Neste artigo, propomos utilizar Graph Neural Network Variational Autoencoders (GNN-VAE) para resolver o problema de coordenação multiagente em escala de forma mais rápida do que através da otimização centralizada. Formulamos o problema de coordenação como um problema de grafos e coletamos dados de referência utilizando um solver de Programação Linear Inteira Mista (MILP). Durante o treinamento, nosso framework de aprendizado codifica soluções de alta qualidade do problema de grafos em um espaço latente. No momento da inferência, amostras de soluções são decodificadas a partir das variáveis latentes amostradas, e a amostra de menor custo é selecionada para coordenação. Por fim, a proposta viável com o maior índice de desempenho é selecionada para implantação. Por construção, nosso framework GNN-VAE retorna soluções que sempre respeitam as restrições do problema de coordenação considerado. Resultados numéricos mostram que nossa abordagem, treinada em problemas de pequena escala, pode alcançar soluções de alta qualidade mesmo para problemas de grande escala com 250 robôs, sendo muito mais rápida do que outras abordagens de referência. Página do projeto: https://mengyuest.github.io/gnn-vae-coord
A geração de simulações realistas é crucial para aplicações de sistemas autônomos, como direção autônoma e interações humano-robô. No entanto, os simuladores de direção atuais ainda têm dificuldade em gerar comportamentos controláveis, diversos e em conformidade com as regras para os participantes da via: modelos baseados em regras não conseguem produzir comportamentos diversos e exigem ajustes cuidadosos, enquanto métodos baseados em aprendizado imitam a política a partir de dados, mas não são projetados para seguir as regras explicitamente. Além disso, os conjuntos de dados do mundo real são, por natureza, de "único resultado", o que dificulta a geração de comportamentos diversos pelos métodos de aprendizado. Neste artigo, utilizamos Lógica Temporal de Sinais (STL) e Modelos de Difusão para aprender uma política controlável, diversa e consciente das regras. Primeiro, calibramos a STL nos dados do mundo real, depois geramos dados sintéticos diversos usando otimização de trajetória e, finalmente, aprendemos a política de difusão retificada no conjunto de dados aumentado. Testamos no conjunto de dados NuScenes e nossa abordagem consegue alcançar as trajetórias mais diversas e em conformidade com as regras em comparação com outras abordagens de referência, com um tempo de execução 1/17X em relação à segunda melhor abordagem. Nos testes de loop fechado, nossa abordagem atinge a maior diversidade, taxa de satisfação das regras e a menor taxa de colisão. Nosso método pode gerar características variadas condicionadas a diferentes parâmetros de STL nos testes. Um estudo de caso em cenários de encontro humano-robô mostra que nossa abordagem pode gerar trajetórias diversas e próximas às ideais. A ferramenta de anotação, o conjunto de dados aumentado e o código estão disponíveis em https://github.com/mengyuest/pSTL-diffusion-policy.
Na Suíça, a tradução jurídica é particularmente importante devido aos quatro idiomas oficiais do país e às exigências de documentação legal multilíngue. No entanto, esse processo tradicionalmente depende de profissionais que devem ser tanto especialistas em direito quanto tradutores habilidosos — o que cria gargalos e impacta o acesso efetivo à justiça. Para enfrentar esse desafio, apresentamos o SwiLTra-Bench, um benchmark multilíngue abrangente de mais de 180 mil pares de traduções jurídicas suíças alinhadas, incluindo leis, ementas e comunicados de imprensa em todos os idiomas suíços, além do inglês, projetado para avaliar sistemas de tradução baseados em LLMs (Modelos de Linguagem de Grande Escala). Nossa avaliação sistemática revela que os modelos de ponta alcançam desempenho superior em traduções em todos os tipos de documentos, enquanto sistemas de tradução especializados se destacam especificamente em leis, mas têm desempenho inferior em ementas. Por meio de testes rigorosos e validação de especialistas humanos, demonstramos que, embora o ajuste fino de SLMs (Modelos de Linguagem Especializados) abertos melhore significativamente a qualidade de suas traduções, eles ainda ficam aquém dos melhores modelos de ponta com prompt zero-shot, como o Claude-3.5-Sonnet. Além disso, apresentamos o SwiLTra-Judge, um sistema de avaliação especializado baseado em LLM que melhor se alinha com as avaliações de especialistas humanos.
Veículos Autônomos (AVs) entraram na fase de comercialização, mas sua capacidade limitada de interagir e expressar intenções ainda representa desafios nas interações com Veículos Dirigidos por Humanos (HVs). Avanços recentes em modelos de linguagem de grande escala (LLMs) permitem a comunicação bidirecional entre humanos e máquinas, mas o conflito entre a velocidade lenta de inferência e a necessidade de tomada de decisão em tempo real desafia a implantação prática. Para abordar essas questões, este artigo introduz uma estrutura paralela de Ator-Raciocinador projetada para permitir interações bidirecionais explícitas entre AVs e HVs em múltiplos cenários. Primeiro, ao facilitar interações entre o Raciocinador baseado em LLM e HVs heterogêneos simulados durante o treinamento, um banco de dados de memória de interação, denominado Ator, é estabelecido. Em seguida, ao introduzir o módulo de partição de memória e o módulo de recuperação de memória de duas camadas, a capacidade do Ator de lidar com HVs heterogêneos é significativamente aprimorada. Estudos de ablação e comparações com outros métodos de tomada de decisão demonstram que a estrutura proposta de Ator-Raciocinador melhora significativamente a segurança e a eficiência. Por fim, com a combinação das informações da Interface Homem-Máquina Externa (eHMI) derivadas do raciocínio do Raciocinador e das soluções de ação viáveis recuperadas do Ator, a eficácia do Ator-Raciocinador proposto é confirmada em interações de campo em múltiplos cenários. Nosso código está disponível em https://github.com/FanGShiYuu/Actor-Reasoner.