HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

21 papers found

Babel: Modelos de Linguagem Multilíngues de Grande Escala que Atendem a Mais de 90% dos Falantes Globais
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Mar 2

ByYiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang

Os grandes modelos de linguagem (LLMs) revolucionaram o processamento de linguagem natural (PLN), mas os LLMs multilíngues de código aberto ainda são escassos, com os modelos existentes frequentemente limitados em cobertura de idiomas. Esses modelos geralmente priorizam idiomas bem documentados, enquanto idiomas amplamente falados, mas com menos recursos, são frequentemente negligenciados. Para abordar essa disparidade, apresentamos o Babel, um LLM multilíngue de código aberto que cobre os 25 idiomas mais falados, suporta mais de 90% da população global e inclui muitos idiomas negligenciados por outros LLMs multilíngues de código aberto. Diferente das abordagens tradicionais de pré-treinamento contínuo, o Babel expande sua contagem de parâmetros por meio de uma técnica de extensão de camadas que eleva o limite de desempenho do modelo. Introduzimos duas variantes: o Babel-9B, projetado para inferência e ajuste fino eficientes, e o Babel-83B, que estabelece um novo padrão para LLMs multilíngues de código aberto. Avaliações extensas em tarefas multilíngues demonstram seu desempenho superior em comparação com LLMs de código aberto de tamanho similar. Além disso, utilizando conjuntos de dados de ajuste fino supervisionado de código aberto, o Babel alcança um desempenho notável, com o Babel-9B-Chat liderando entre LLMs de 10 bilhões de parâmetros e o Babel-83B-Chat estabelecendo um novo padrão para tarefas multilíngues, atingindo o mesmo nível de modelos comerciais.

HoT: Cadeia de Pensamento Destacada para Referenciar Fatos de Apoio a partir de Entradas
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

Mar 3

ByTin Nguyen, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

Um ponto fraco dos Modelos de Linguagem de Grande Escala (LLMs) é sua tendência a alucinar declarações não factuais. Uma resposta que mistura afirmações factuais e não factuais representa um desafio para os humanos verificarem e basearem suas decisões com precisão. Para combater esse problema, propomos o Highlighted Chain-of-Thought Prompting (HoT), uma técnica para solicitar que LLMs gerem respostas com tags XML que fundamentam os fatos naqueles fornecidos na consulta. Ou seja, dada uma pergunta de entrada, os LLMs primeiro reformatariam a questão para adicionar tags XML destacando os fatos-chave e, em seguida, gerariam uma resposta com destaques sobre os fatos referenciados na entrada. Curiosamente, em configurações de poucos exemplos (few-shot), o HoT supera o prompting de cadeia de pensamento tradicional (CoT) em uma ampla gama de 17 tarefas, desde aritmética e compreensão de leitura até raciocínio lógico. Ao pedir que humanos verifiquem as respostas dos LLMs, os destaques ajudam participantes com tempo limitado a reconhecer com mais precisão e eficiência quando os LLMs estão corretos. No entanto, surpreendentemente, quando os LLMs estão errados, o HoT tende a fazer os usuários acreditarem que a resposta está correta.

Modelos de Linguagem de Autorrecompensa Baseados em Processo
Process-based Self-Rewarding Language Models

Mar 5

ByShimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado desempenho excepcional em diversas tarefas subsequentes e têm sido amplamente aplicados em múltiplos cenários. Dados de preferência anotados por humanos são utilizados para treinamento, a fim de aprimorar ainda mais o desempenho dos LLMs, o que é limitado pelo limite superior do desempenho humano. Portanto, o método de Autorecompensa foi proposto, no qual os LLMs geram dados de treinamento recompensando suas próprias saídas. No entanto, o paradigma existente de autorecompensa não é eficaz em cenários de raciocínio matemático e pode até levar a uma queda no desempenho. Neste trabalho, propomos o pipeline de Autorecompensa Baseada em Processos para modelos de linguagem, que introduz raciocínio de longo pensamento, avaliação passo a passo por LLM como juiz e otimização de preferência passo a passo dentro do paradigma de autorecompensa. Nosso novo paradigma melhora com sucesso o desempenho dos LLMs em múltiplos benchmarks de raciocínio matemático por meio da Autorecompensa Baseada em Processos iterativa, demonstrando o imenso potencial da autorecompensa para alcançar um raciocínio em LLMs que pode superar as capacidades humanas.

KodCode: Um Conjunto de Dados Sintético Diverso, Desafiador e Verificável para Codificação
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

Mar 4

ByZhangchen Xu, Yang Liu, Yueqin Yin, Mingyuan Zhou, Radha Poovendran

Apresentamos o KodCode, um conjunto de dados sintético que aborda o desafio persistente de adquirir dados de treinamento de alta qualidade e verificáveis em diversas dificuldades e domínios para o treinamento de Modelos de Linguagem de Grande Escala (LLMs) voltados para codificação. Os recursos existentes focados em código geralmente falham em garantir tanto a amplitude de cobertura (por exemplo, abrangendo tarefas simples de codificação até problemas algorítmicos avançados) quanto a correção verificável (por exemplo, testes unitários). Em contraste, o KodCode consiste em triplas pergunta-solução-teste que são sistematicamente validadas por meio de um procedimento de autoverificação. Nosso pipeline começa sintetizando uma ampla gama de questões de codificação, em seguida gera soluções e casos de teste com tentativas adicionais alocadas para problemas desafiadores. Por fim, a síntese de dados pós-treinamento é realizada reescrevendo as questões em diversos formatos e gerando respostas sob um procedimento de rejeição baseado em testes a partir de um modelo de raciocínio (DeepSeek R1). Esse pipeline produz um conjunto de dados de codificação em grande escala, robusto e diversificado. O KodCode é adequado para ajuste fino supervisionado, e os testes unitários emparelhados também oferecem grande potencial para ajuste por reforço (RL). Experimentos de ajuste fino em benchmarks de codificação (HumanEval(+), MBPP(+), BigCodeBench e LiveCodeBench) demonstram que os modelos ajustados com KodCode alcançam desempenho de ponta, superando modelos como Qwen2.5-Coder-32B-Instruct e DeepSeek-R1-Distill-Llama-70B.

GEN3C: Geração de Vídeo Consistente com o Mundo 3D e Controle Preciso de Câmera
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Mar 5

ByXuanchi Ren, Tianchang Shen, Jiahui Huang, Huan Ling, Yifan Lu, Merlin Nimier-David, Thomas Müller, Alexander Keller, Sanja Fidler, Jun Gao

Apresentamos o GEN3C, um modelo generativo de vídeo com Controle Preciso de Câmera e Consistência Temporal 3D. Modelos de vídeo anteriores já geram vídeos realistas, mas tendem a utilizar pouca informação 3D, resultando em inconsistências, como objetos que aparecem e desaparecem subitamente. O controle de câmera, quando implementado, é impreciso, pois os parâmetros da câmera são meras entradas para a rede neural, que deve então inferir como o vídeo depende da câmera. Em contraste, o GEN3C é guiado por um cache 3D: nuvens de pontos obtidas pela previsão da profundidade pixel a pixel de imagens iniciais ou quadros previamente gerados. Ao gerar os quadros seguintes, o GEN3C é condicionado pelas renderizações 2D do cache 3D com a nova trajetória da câmera fornecida pelo usuário. Crucialmente, isso significa que o GEN3C não precisa se lembrar do que gerou anteriormente nem inferir a estrutura da imagem a partir da pose da câmera. Em vez disso, o modelo pode concentrar todo o seu poder generativo em regiões previamente não observadas, bem como avançar o estado da cena para o próximo quadro. Nossos resultados demonstram um controle de câmera mais preciso do que trabalhos anteriores, além de resultados de última geração na síntese de novas vistas a partir de vistas esparsas, mesmo em cenários desafiadores, como cenas de direção e vídeo dinâmico monocular. Os resultados são melhor visualizados em vídeos. Confira nossa página! https://research.nvidia.com/labs/toronto-ai/GEN3C/

ABC: Alcançando Melhor Controle de Embeddings Multimodais com VLMs
ABC: Achieving Better Control of Multimodal Embeddings using VLMs

Mar 1

ByBenjamin Schneider, Florian Kerschbaum, Wenhu Chen

Modelos de embedding visual se destacam em tarefas zero-shot como recuperação visual e classificação. No entanto, esses modelos não podem ser usados para tarefas que contenham ambiguidade ou exijam instruções do usuário. Essas tarefas exigem um modelo de embedding multimodal, que produz embeddings que combinam entrada visual e linguagem natural. As abordagens existentes baseadas em CLIP incorporam imagens e texto de forma independente e fundem o resultado. Descobrimos que isso resulta em interações fracas entre as modalidades e em um controle limitado do usuário sobre a representação. Apresentamos o ABC, um modelo de embedding multimodal de código aberto que utiliza um backbone de modelo visão-linguagem para integrar profundamente características de imagem com instruções em linguagem natural. O ABC alcança o melhor desempenho para seu tamanho na recuperação de texto a partir de imagens no MSCOCO e é o modelo com melhor desempenho em tarefas de classificação e VQA no Massive Multimodal Embedding Benchmark. Com uma representação visão-linguagem fortemente unificada, o ABC pode usar linguagem natural para resolver problemas sutis e potencialmente ambíguos de recuperação visual. Para avaliar essa capacidade, projetamos o CtrlBench, um benchmark que requer a intercalação de instruções textuais com o conteúdo da imagem para uma recuperação correta. O ABC avança o estado da arte em embeddings multimodais ao oferecer representações de alta qualidade e controle flexível por meio de linguagem natural. Nosso modelo e conjuntos de dados estão disponíveis em nossa página do projeto.

CrowdSelect: Seleção de Dados de Instrução Sintética com a Sabedoria de Múltiplos LLMs
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

Mar 3

ByYisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen

A destilação das capacidades de seguimento de instruções de modelos avançados de linguagem de grande escala (LLMs) em modelos menores, utilizando um subconjunto selecionado, tornou-se uma abordagem predominante no treinamento de modelos. Embora as estratégias existentes de seleção de dados sintéticos de instrução dependam principalmente de sinais unidimensionais (ou seja, pontuações de recompensa, perplexidade do modelo), elas falham em capturar a complexidade do seguimento de instruções em diversos campos. Portanto, investigamos sinais mais diversos para capturar características abrangentes de pares instrução-resposta e propomos três métricas fundamentais que aproveitam a sabedoria de Multi-LLM, informadas por (1) respostas diversas de LLMs e (2) avaliação de modelos de recompensa. Com base nessas métricas, propomos o CrowdSelect, uma métrica integrada que incorpora uma abordagem baseada em clustering para manter a diversidade de respostas. Nossos experimentos abrangentes demonstram que nossas métricas fundamentais melhoram consistentemente o desempenho em 4 modelos base no MT-bench e Arena-Hard. O CrowdSelect, incorporando eficientemente todas as métricas, alcança desempenho de ponta tanto no ajuste fino completo quanto no LoRA, mostrando melhorias de 4,81% no Arena-Hard e 11,1% no MT-bench com o Llama-3.2-3b-instruct. Esperamos que nossas descobertas tragam insights valiosos para pesquisas futuras nessa direção. O código está disponível em https://github.com/listentm/crowdselect.

Aprimorando a Detecção de Anomalias em Modelos de Linguagem Visual com Descrições de Conhecimento
Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

Mar 5

ByJun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel

Os Modelos de Linguagem Visual (VLMs) têm demonstrado capacidades impressionantes em tarefas de ancoragem visual. No entanto, sua eficácia no domínio médico, particularmente para detecção e localização de anormalidades em imagens médicas, permanece pouco explorada. Um grande desafio é a natureza complexa e abstrata da terminologia médica, o que dificulta a associação direta de termos de anomalias patológicas com suas características visuais correspondentes. Neste trabalho, introduzimos uma abordagem inovadora para aprimorar o desempenho de VLMs na detecção e localização de anormalidades médicas, aproveitando o conhecimento médico decomposto. Em vez de solicitar diretamente que os modelos reconheçam anormalidades específicas, focamos em decompor conceitos médicos em atributos fundamentais e padrões visuais comuns. Essa estratégia promove um alinhamento mais forte entre descrições textuais e características visuais, melhorando tanto o reconhecimento quanto a localização de anormalidades em imagens médicas. Avaliamos nosso método no modelo base Florence-2 de 0,23B e demonstramos que ele alcança desempenho comparável na ancoragem de anormalidades a VLMs médicos baseados em LLaVA de 7B significativamente maiores, apesar de ser treinado com apenas 1,5% dos dados utilizados para tais modelos. Os resultados experimentais também demonstram a eficácia de nossa abordagem tanto em anormalidades conhecidas quanto em anormalidades previamente não vistas, sugerindo suas fortes capacidades de generalização.

Ajuste Fino de Pequenos Modelos de Linguagem para IA Específica de Domínio: Uma Perspectiva de IA na Borda
Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Mar 3

ByRakshit Aralimatti, Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

A implantação de modelos de linguagem em grande escala em dispositivos de borda enfrenta desafios inerentes, como altas demandas computacionais, consumo de energia e potenciais riscos à privacidade dos dados. Este artigo apresenta os Shakti Small Language Models (SLMs) Shakti-100M, Shakti-250M e Shakti-500M, que abordam diretamente essas restrições. Ao combinar arquiteturas eficientes, técnicas de quantização e princípios de IA responsável, a série Shakti possibilita inteligência local em smartphones, eletrodomésticos inteligentes, sistemas IoT e além. Fornecemos insights abrangentes sobre sua filosofia de design, pipelines de treinamento e desempenho em benchmarks tanto em tarefas gerais (por exemplo, MMLU, Hellaswag) quanto em domínios especializados (saúde, finanças e jurídico). Nossos resultados demonstram que modelos compactos, quando cuidadosamente projetados e ajustados, podem atender e frequentemente superar expectativas em cenários reais de IA de borda.

Reaplicando Máscaras em Modelos de Difusão Discreta com Escalonamento no Tempo de Inferência
Remasking Discrete Diffusion Models with Inference-Time Scaling

Mar 1

ByGuanghan Wang, Yair Schiff, Subham Sekhar Sahoo, Volodymyr Kuleshov

Parte do sucesso dos modelos de difusão decorre de sua capacidade de realizar refinamento iterativo, ou seja, corrigir repetidamente as saídas durante a geração. No entanto, a difusão discreta mascarada moderna carece dessa capacidade: quando um token é gerado, ele não pode ser atualizado novamente, mesmo que introduza um erro. Aqui, abordamos essa limitação ao introduzir o amostrador ReMDM (Remasking Diffusion Model), um método que pode ser aplicado a modelos de difusão mascarada pré-treinados de forma fundamentada e que é derivado de um modelo de difusão discreta com um processo de retropropagação de remascaramento personalizado. Mais interessante ainda, o ReMDM confere à difusão discreta uma forma de escalonamento de computação no tempo de inferência. Ao aumentar o número de etapas de amostragem, o ReMDM gera saídas de linguagem natural que se aproximam da qualidade dos modelos autoregressivos, enquanto, quando o orçamento de computação é limitado, o ReMDM mantém melhor a qualidade. O ReMDM também melhora a qualidade das amostras de modelos de difusão mascarada para imagens discretizadas e, em domínios científicos, como o design de moléculas, o ReMDM facilita a orientação por difusão e empurra a fronteira de Pareto da controlabilidade em relação ao mascaramento clássico e à difusão de ruído uniforme. Disponibilizamos o código junto com um post no blog na página do projeto: https://remdm.github.io.

Mistura de Recuperação Estrutural e Textual sobre Bases de Conhecimento de Grafos Ricos em Texto
Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases

Feb 27

ByYongjia Lei, Haoyu Han, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka, Mahantesh M Halappanavar, Jiliang Tang, Yu Wang

Bases de Conhecimento de Grafos Ricos em Texto (TG-KBs, na sigla em inglês) tornaram-se cada vez mais cruciais para responder a consultas, fornecendo conhecimento textual e estrutural. No entanto, os métodos atuais de recuperação frequentemente obtêm esses dois tipos de conhecimento de forma isolada, sem considerar sua mútua reforçabilidade, e alguns métodos híbridos até mesmo ignoram completamente a recuperação estrutural após a agregação de vizinhança. Para preencher essa lacuna, propomos uma Mistura de Recuperação Estrutural e Textual (MoR, na sigla em inglês) para recuperar esses dois tipos de conhecimento por meio de um framework de Planejamento-Raciocínio-Organização. Na etapa de Planejamento, o MoR gera grafos de planejamento textual que delineiam a lógica para responder às consultas. Seguindo os grafos de planejamento, na etapa de Raciocínio, o MoR entrelaça a travessia estrutural e a correspondência textual para obter candidatos das TG-KBs. Na etapa de Organização, o MoR reclassifica ainda mais os candidatos recuperados com base em sua trajetória estrutural. Experimentos extensivos demonstram a superioridade do MoR em harmonizar a recuperação estrutural e textual, com insights que incluem o desempenho desigual de recuperação em diferentes lógicas de consulta e os benefícios da integração de trajetórias estruturais para a reclassificação de candidatos. Nosso código está disponível em https://github.com/Yoega/MoR.

QE4PE: Estimativa de Qualidade em Nível de Palavra para Pós-Edição Humana
QE4PE: Word-level Quality Estimation for Human Post-Editing

Mar 4

ByGabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza

A estimativa de qualidade em nível de palavra (QE, do inglês Quality Estimation) detecta trechos errôneos em traduções automáticas, o que pode orientar e facilitar a pós-edição humana. Embora a precisão dos sistemas de QE em nível de palavra tenha sido amplamente avaliada, sua usabilidade e influência subsequente na velocidade, qualidade e escolhas de edição durante a pós-edição humana permanecem pouco estudadas. Nosso estudo QE4PE investiga o impacto da QE em nível de palavra na pós-edição de tradução automática (MT, do inglês Machine Translation) em um cenário realista, envolvendo 42 pós-editores profissionais em duas direções de tradução. Comparamos quatro modalidades de destaque de trechos de erro, incluindo métodos de QE em nível de palavra supervisionados e baseados em incerteza, para identificar possíveis erros nas saídas de um modelo de MT neural de última geração. O esforço e a produtividade da pós-edição são estimados por meio de registros comportamentais, enquanto as melhorias de qualidade são avaliadas por anotações humanas em nível de palavra e de segmento. Descobrimos que o domínio, o idioma e a velocidade dos editores são fatores críticos para determinar a eficácia dos destaques, com diferenças modestas entre destaques de QE feitos por humanos e automatizados, destacando uma lacuna entre precisão e usabilidade em fluxos de trabalho profissionais.

Explorando Abordagens de Reescrevimento para Diferentes Tarefas Conversacionais
Exploring Rewriting Approaches for Different Conversational Tasks

Feb 26

ByMd Mehrab Tanjim, Ryan A. Rossi, Mike Rimer, Xiang Chen, Sungchul Kim, Vaishnavi Muppala, Tong Yu, Zhengmian Hu, Ritwik Sinha, Wei Zhang, Iftikhar Ahamath Burhanuddin, Franck Dernoncourt

Assistentes conversacionais frequentemente exigem um algoritmo de reescrita de perguntas que utilize um subconjunto de interações passadas para fornecer uma resposta mais significativa (precisa) à pergunta ou solicitação do usuário. No entanto, a abordagem exata de reescrita pode muitas vezes depender do caso de uso e das tarefas específicas da aplicação suportadas pelo assistente conversacional, entre outras restrições. Neste artigo, investigamos sistematicamente duas abordagens diferentes, denominadas reescrita e fusão, em duas tarefas de geração fundamentalmente distintas, incluindo uma tarefa de geração texto-para-texto e uma tarefa generativa multimodal que recebe como entrada um texto e gera uma visualização ou tabela de dados que responde à pergunta do usuário. Nossos resultados indicam que a abordagem específica de reescrita ou fusão depende fortemente do caso de uso subjacente e da tarefa generativa. Em particular, descobrimos que, para um assistente de resposta a perguntas conversacionais, a abordagem de reescrita de consultas tem o melhor desempenho, enquanto para um assistente de análise de dados que gera visualizações e tabelas de dados com base na conversa do usuário com o assistente, a abordagem de fusão funciona melhor. Notavelmente, exploramos dois conjuntos de dados para o caso de uso do assistente de análise de dados, para conversas curtas e longas, e descobrimos que a fusão de consultas sempre tem um desempenho superior, enquanto para a resposta a perguntas baseadas em texto conversacional, a abordagem de reescrita de consultas tem o melhor desempenho.

CognitiveDrone: Um Modelo VLA e Benchmark de Avaliação para Resolução e Raciocínio de Tarefas Cognitivas em Tempo Real em UAVs
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs

Mar 3

ByArtem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou

Este artigo apresenta o CognitiveDrone, um modelo inovador de Visão-Linguagem-Ação (VLA) projetado para tarefas complexas de Veículos Aéreos Não Tripulados (VANTs) que exigem habilidades cognitivas avançadas. Treinado em um conjunto de dados composto por mais de 8.000 trajetórias de voo simuladas em três categorias principais - Reconhecimento Humano, Compreensão de Símbolos e Raciocínio - o modelo gera comandos de ação 4D em tempo real com base em entradas visuais em primeira pessoa e instruções textuais. Para aprimorar ainda mais o desempenho em cenários complexos, propomos o CognitiveDrone-R1, que integra um módulo adicional de raciocínio de Modelo de Visão-Linguagem (VLM) para simplificar as diretrizes das tarefas antes do controle de alta frequência. Avaliações experimentais utilizando nosso benchmark de código aberto, CognitiveDroneBench, revelam que, enquanto um modelo voltado para corridas (RaceVLA) alcança uma taxa de sucesso geral de 31,3%, o modelo base CognitiveDrone atinge 59,6%, e o CognitiveDrone-R1 alcança uma taxa de sucesso de 77,2%. Esses resultados demonstram melhorias de até 30% em tarefas cognitivas críticas, destacando a eficácia da incorporação de capacidades avançadas de raciocínio em sistemas de controle de VANTs. Nossas contribuições incluem o desenvolvimento de um modelo VLA de ponta para controle de VANTs e a introdução do primeiro benchmark dedicado à avaliação de tarefas cognitivas em operações de drones. O repositório completo está disponível em cognitivedrone.github.io.

FLAME: Um Benchmark de Aprendizado Federado para Manipulação Robótica
FLAME: A Federated Learning Benchmark for Robotic Manipulation

Mar 3

BySantiago Bou Betran, Alberta Longhini, Miguel Vasco, Yuchong Zhang, Danica Kragic

Os recentes avanços na manipulação robótica têm sido impulsionados por conjuntos de dados em grande escala coletados em diversos ambientes. Tradicionalmente, o treinamento de políticas de manipulação robótica nesses conjuntos de dados é realizado de maneira centralizada, levantando preocupações em relação à escalabilidade, adaptabilidade e privacidade dos dados. Embora o aprendizado federado permita o treinamento descentralizado e preservador da privacidade, sua aplicação na manipulação robótica permanece amplamente inexplorada. Apresentamos o FLAME (Federated Learning Across Manipulation Environments), o primeiro benchmark projetado para aprendizado federado em manipulação robótica. O FLAME consiste em: (i) um conjunto de grandes bases de dados com mais de 160.000 demonstrações especializadas de múltiplas tarefas de manipulação, coletadas em uma ampla variedade de ambientes simulados; (ii) uma estrutura de treinamento e avaliação para o aprendizado de políticas robóticas em um cenário federado. Avaliamos algoritmos padrão de aprendizado federado no FLAME, demonstrando seu potencial para o aprendizado distribuído de políticas e destacando desafios fundamentais. Nosso benchmark estabelece uma base para o aprendizado robótico escalável, adaptativo e consciente da privacidade.

Coordenação Confiável e Eficiente de Multiagentes por meio de Redes Neurais em Grafos e Autoencoders Variacionais
Reliable and Efficient Multi-Agent Coordination via Graph Neural Network Variational Autoencoders

Mar 4

ByYue Meng, Nathalie Majcherczyk, Wenliang Liu, Scott Kiesel, Chuchu Fan, Federico Pecora

A coordenação multiagente é crucial para uma navegação confiável de múltiplos robôs em espaços compartilhados, como armazéns automatizados. Em regiões com tráfego intenso de robôs, métodos de coordenação local podem falhar em encontrar uma solução livre de impasses. Nesses cenários, é apropriado que uma unidade central gere um cronograma global que determine a ordem de passagem dos robôs. No entanto, o tempo de execução desses métodos de coordenação centralizada aumenta significativamente com a escala do problema. Neste artigo, propomos utilizar Graph Neural Network Variational Autoencoders (GNN-VAE) para resolver o problema de coordenação multiagente em escala de forma mais rápida do que através da otimização centralizada. Formulamos o problema de coordenação como um problema de grafos e coletamos dados de referência utilizando um solver de Programação Linear Inteira Mista (MILP). Durante o treinamento, nosso framework de aprendizado codifica soluções de alta qualidade do problema de grafos em um espaço latente. No momento da inferência, amostras de soluções são decodificadas a partir das variáveis latentes amostradas, e a amostra de menor custo é selecionada para coordenação. Por fim, a proposta viável com o maior índice de desempenho é selecionada para implantação. Por construção, nosso framework GNN-VAE retorna soluções que sempre respeitam as restrições do problema de coordenação considerado. Resultados numéricos mostram que nossa abordagem, treinada em problemas de pequena escala, pode alcançar soluções de alta qualidade mesmo para problemas de grande escala com 250 robôs, sendo muito mais rápida do que outras abordagens de referência. Página do projeto: https://mengyuest.github.io/gnn-vae-coord

Modelos de Recuperação Não São Hábeis com Ferramentas: Avaliando a Recuperação de Ferramentas para Modelos de Linguagem de Grande Escala
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

Mar 3

ByZhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren

O aprendizado de ferramentas visa aprimorar grandes modelos de linguagem (LLMs) com diversas ferramentas, permitindo que atuem como agentes para resolver tarefas práticas. Devido ao comprimento limitado do contexto dos LLMs que utilizam ferramentas, a adoção de modelos de recuperação de informação (IR) para selecionar ferramentas úteis de grandes conjuntos de ferramentas é uma etapa inicial crítica. No entanto, o desempenho dos modelos IR em tarefas de recuperação de ferramentas permanece pouco explorado e incerto. A maioria dos benchmarks de uso de ferramentas simplifica essa etapa ao pré-anotar manualmente um pequeno conjunto de ferramentas relevantes para cada tarefa, o que está longe dos cenários do mundo real. Neste artigo, propomos o ToolRet, um benchmark heterogêneo de recuperação de ferramentas composto por 7,6 mil tarefas de recuperação diversas e um corpus de 43 mil ferramentas, coletados de conjuntos de dados existentes. Avaliamos seis tipos de modelos no ToolRet. Surpreendentemente, mesmo os modelos com forte desempenho em benchmarks convencionais de IR exibem um desempenho ruim no ToolRet. Essa baixa qualidade de recuperação degrada a taxa de sucesso das tarefas dos LLMs que utilizam ferramentas. Como um passo adicional, contribuímos com um conjunto de dados de treinamento em larga escala com mais de 200 mil instâncias, que otimiza substancialmente a capacidade de recuperação de ferramentas dos modelos IR.

Avaliação de Modelos de Linguagem de Grande Escala para Detecção de Vulnerabilidades em Software Multilíngue
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo

Os recentes avanços na IA generativa levaram à ampla adoção de modelos de linguagem de grande escala (LLMs) na engenharia de software, abordando diversos desafios de longa data. No entanto, um estudo abrangente que examine as capacidades dos LLMs na detecção de vulnerabilidades de software (SVD), um aspecto crucial da segurança de software, ainda é inexistente. As pesquisas existentes concentram-se principalmente na avaliação de LLMs utilizando conjuntos de dados em C/C++. Geralmente, exploram apenas uma ou duas estratégias entre engenharia de prompts, ajuste de instruções e ajuste fino de classificação de sequência para LLMs de código aberto. Consequentemente, há uma lacuna significativa de conhecimento sobre a eficácia de diversos LLMs na detecção de vulnerabilidades em várias linguagens de programação. Para abordar essa lacuna, apresentamos um estudo empírico abrangente que avalia o desempenho de LLMs na tarefa de SVD. Compilamos um conjunto de dados abrangente, incluindo 8.260 funções vulneráveis em Python, 7.505 em Java e 28.983 em JavaScript. Avaliamos cinco LLMs de código aberto utilizando múltiplas abordagens, incluindo engenharia de prompts, ajuste de instruções e ajuste fino de classificação de sequência. Esses LLMs são comparados com cinco modelos de linguagem pequenos ajustados e duas ferramentas de teste de segurança de aplicações estáticas de código aberto. Além disso, exploramos duas vias para melhorar o desempenho dos LLMs em SVD: a) Perspectiva de dados: Re-treinamento de modelos utilizando conjuntos de dados balanceados com subamostragem. b) Perspectiva de modelo: Investigação de métodos de aprendizado ensemble que combinam previsões de múltiplos LLMs. Nossos experimentos abrangentes demonstram que a SVD continua sendo uma tarefa desafiadora para LLMs. Este estudo fornece uma compreensão detalhada do papel dos LLMs na SVD e oferece insights práticos para futuros avanços no aproveitamento da IA generativa para aprimorar práticas de segurança de software.

Política de Difusão Controlável Diversa com Lógica Temporal de Sinais
Diverse Controllable Diffusion Policy with Signal Temporal Logic

Mar 4

ByYue Meng, Chuchu fan

A geração de simulações realistas é crucial para aplicações de sistemas autônomos, como direção autônoma e interações humano-robô. No entanto, os simuladores de direção atuais ainda têm dificuldade em gerar comportamentos controláveis, diversos e em conformidade com as regras para os participantes da via: modelos baseados em regras não conseguem produzir comportamentos diversos e exigem ajustes cuidadosos, enquanto métodos baseados em aprendizado imitam a política a partir de dados, mas não são projetados para seguir as regras explicitamente. Além disso, os conjuntos de dados do mundo real são, por natureza, de "único resultado", o que dificulta a geração de comportamentos diversos pelos métodos de aprendizado. Neste artigo, utilizamos Lógica Temporal de Sinais (STL) e Modelos de Difusão para aprender uma política controlável, diversa e consciente das regras. Primeiro, calibramos a STL nos dados do mundo real, depois geramos dados sintéticos diversos usando otimização de trajetória e, finalmente, aprendemos a política de difusão retificada no conjunto de dados aumentado. Testamos no conjunto de dados NuScenes e nossa abordagem consegue alcançar as trajetórias mais diversas e em conformidade com as regras em comparação com outras abordagens de referência, com um tempo de execução 1/17X em relação à segunda melhor abordagem. Nos testes de loop fechado, nossa abordagem atinge a maior diversidade, taxa de satisfação das regras e a menor taxa de colisão. Nosso método pode gerar características variadas condicionadas a diferentes parâmetros de STL nos testes. Um estudo de caso em cenários de encontro humano-robô mostra que nossa abordagem pode gerar trajetórias diversas e próximas às ideais. A ferramenta de anotação, o conjunto de dados aumentado e o código estão disponíveis em https://github.com/mengyuest/pSTL-diffusion-policy.

SwiLTra-Bench: O Benchmark de Tradução Jurídica Suíça
SwiLTra-Bench: The Swiss Legal Translation Benchmark

Mar 3

ByJoel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen

Na Suíça, a tradução jurídica é particularmente importante devido aos quatro idiomas oficiais do país e às exigências de documentação legal multilíngue. No entanto, esse processo tradicionalmente depende de profissionais que devem ser tanto especialistas em direito quanto tradutores habilidosos — o que cria gargalos e impacta o acesso efetivo à justiça. Para enfrentar esse desafio, apresentamos o SwiLTra-Bench, um benchmark multilíngue abrangente de mais de 180 mil pares de traduções jurídicas suíças alinhadas, incluindo leis, ementas e comunicados de imprensa em todos os idiomas suíços, além do inglês, projetado para avaliar sistemas de tradução baseados em LLMs (Modelos de Linguagem de Grande Escala). Nossa avaliação sistemática revela que os modelos de ponta alcançam desempenho superior em traduções em todos os tipos de documentos, enquanto sistemas de tradução especializados se destacam especificamente em leis, mas têm desempenho inferior em ementas. Por meio de testes rigorosos e validação de especialistas humanos, demonstramos que, embora o ajuste fino de SLMs (Modelos de Linguagem Especializados) abertos melhore significativamente a qualidade de suas traduções, eles ainda ficam aquém dos melhores modelos de ponta com prompt zero-shot, como o Claude-3.5-Sonnet. Além disso, apresentamos o SwiLTra-Judge, um sistema de avaliação especializado baseado em LLM que melhor se alinha com as avaliações de especialistas humanos.

Interagir, Instruir para Melhorar: Um Framework Paralelo Ator-Raciocinador Baseado em LLM para Aprimorar Interações de Veículos Autônomos
Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions

Mar 1

ByShiyu Fang, Jiaqi Liu, Chengkai Xu, Chen Lv, Peng Hang, Jian Sun

Veículos Autônomos (AVs) entraram na fase de comercialização, mas sua capacidade limitada de interagir e expressar intenções ainda representa desafios nas interações com Veículos Dirigidos por Humanos (HVs). Avanços recentes em modelos de linguagem de grande escala (LLMs) permitem a comunicação bidirecional entre humanos e máquinas, mas o conflito entre a velocidade lenta de inferência e a necessidade de tomada de decisão em tempo real desafia a implantação prática. Para abordar essas questões, este artigo introduz uma estrutura paralela de Ator-Raciocinador projetada para permitir interações bidirecionais explícitas entre AVs e HVs em múltiplos cenários. Primeiro, ao facilitar interações entre o Raciocinador baseado em LLM e HVs heterogêneos simulados durante o treinamento, um banco de dados de memória de interação, denominado Ator, é estabelecido. Em seguida, ao introduzir o módulo de partição de memória e o módulo de recuperação de memória de duas camadas, a capacidade do Ator de lidar com HVs heterogêneos é significativamente aprimorada. Estudos de ablação e comparações com outros métodos de tomada de decisão demonstram que a estrutura proposta de Ator-Raciocinador melhora significativamente a segurança e a eficiência. Por fim, com a combinação das informações da Interface Homem-Máquina Externa (eHMI) derivadas do raciocínio do Raciocinador e das soluções de ação viáveis recuperadas do Ator, a eficácia do Ator-Raciocinador proposto é confirmada em interações de campo em múltiplos cenários. Nosso código está disponível em https://github.com/FanGShiYuu/Actor-Reasoner.

Avaliação de Modelos de Linguagem de Grande Escala para Detecção de Vulnerabilidades em Software Multilíngue
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo