Artigos de pesquisa em IA selecionados diariamente com traduções
O prompting Chain-of-Thought (CoT) tem demonstrado melhorar o desempenho de Modelos de Linguagem de Grande Escala (LLMs) em diversas tarefas. Com essa abordagem, os LLMs parecem produzir etapas de raciocínio semelhantes às humanas antes de fornecer respostas (conhecido como raciocínio CoT), o que frequentemente leva à percepção de que eles se engajam em processos inferenciais deliberados. No entanto, alguns achados iniciais sugerem que o raciocínio CoT pode ser mais superficial do que parece, motivando-nos a explorar mais a fundo. Neste artigo, estudamos o raciocínio CoT através de uma lente de distribuição de dados e investigamos se o raciocínio CoT reflete um viés indutivo estruturado aprendido a partir de dados dentro da distribuição, permitindo que o modelo gere condicionalmente caminhos de raciocínio que se aproximam daqueles vistos durante o treinamento. Assim, sua eficácia é fundamentalmente limitada pelo grau de discrepância de distribuição entre os dados de treinamento e as consultas de teste. Com essa lente, dissecamos o raciocínio CoT em três dimensões: tarefa, comprimento e formato. Para investigar cada dimensão, projetamos o DataAlchemy, um ambiente isolado e controlado para treinar LLMs do zero e sondá-los sistematicamente sob várias condições de distribuição. Nossos resultados revelam que o raciocínio CoT é uma miragem frágil que desaparece quando é empurrado além das distribuições de treinamento. Este trabalho oferece uma compreensão mais profunda de por que e quando o raciocínio CoT falha, enfatizando o desafio contínuo de alcançar um raciocínio genuíno e generalizável.
Estudos recentes têm se aprofundado na construção de agentes autônomos capazes de realizar tarefas complexas em computadores baseadas em Interfaces Gráficas de Usuário (GUI), com o potencial de revolucionar a interação humano-computador. Apesar de resultados encorajadores, os esforços existentes concentram-se principalmente em interações de curto prazo e dependem de verificação apenas de resultados, limitando assim sua escalabilidade em aplicações de GUI do mundo real que exigem decomposição e execução de tarefas de longo horizonte. Neste trabalho, apresentamos o VeriGUI, um novo conjunto de dados de GUI de cadeia longa verificável, projetado para facilitar o desenvolvimento e avaliação de agentes generalistas de GUI que operam em ambientes computacionais realistas. Nosso conjunto de dados enfatiza duas dimensões críticas: (1) complexidade de cadeia longa, com tarefas decompostas em uma sequência de subtarefas interdependentes abrangendo centenas de etapas, explicitamente projetadas para permitir que qualquer subtarefa sirva como ponto de partida válido; e (2) verificabilidade em nível de subtarefa, que permite estratégias de exploração diversas dentro de cada subtarefa, garantindo que o objetivo de cada subtarefa permaneça verificável e consistente. O conjunto de dados consiste em trajetórias de tarefas de GUI em ambientes de desktop e web, anotadas por especialistas humanos. Experimentos extensivos no VeriGUI utilizando diversos agentes com diferentes modelos de base revelam lacunas significativas de desempenho no tratamento de tarefas de longo horizonte, destacando a necessidade de capacidades mais robustas de planejamento e tomada de decisão em agentes de GUI.
As capacidades notáveis dos agentes impulsionados por Modelos de Linguagem de Grande Escala (LLMs) permitiram que sistemas sofisticados abordassem tarefas complexas e de múltiplas etapas, mas seus custos crescentes ameaçam a escalabilidade e a acessibilidade. Este trabalho apresenta o primeiro estudo sistemático da relação entre eficiência e eficácia em sistemas de agentes modernos, abordando a necessidade crítica de designs econômicos sem sacrificar o desempenho. Investigamos três questões principais: (1) Quanta complexidade as tarefas agentes exigem intrinsecamente? (2) Quando módulos adicionais geram retornos decrescentes? (3) Quanta eficiência pode ser obtida por meio do design de frameworks de agentes eficientes? Por meio de uma análise empírica no benchmark GAIA, avaliamos o impacto da seleção do backbone de LLM, dos designs de frameworks de agentes e das estratégias de escalonamento em tempo de teste. Utilizando a métrica de custo por passagem, quantificamos a relação entre eficiência e desempenho nessas dimensões. Nossas descobertas informam o desenvolvimento dos Agentes Eficientes, um novo framework de agentes que possui uma complexidade ideal para os requisitos das tarefas. Os Agentes Eficientes retêm 96,7% do desempenho do OWL, um dos principais frameworks de agentes de código aberto, enquanto reduzem os custos operacionais de 0,398 para 0,228, resultando em uma melhoria de 28,4% no custo por passagem. Nosso trabalho fornece insights acionáveis para projetar sistemas de agentes eficientes e de alto desempenho, avançando a acessibilidade e a sustentabilidade de soluções impulsionadas por IA.
Apresentamos o Agent Lightning, um framework flexível e extensível que possibilita o treinamento de Modelos de Linguagem de Grande Escala (LLMs) baseado em Aprendizado por Reforço (RL) para qualquer agente de IA. Diferente de métodos existentes que acoplam rigidamente o treinamento de RL ao agente ou dependem de concatenação de sequências com máscaras, o Agent Lightning alcança uma completa dissociação entre a execução e o treinamento do agente, permitindo uma integração perfeita com agentes existentes desenvolvidos de diversas maneiras (por exemplo, utilizando frameworks como LangChain, OpenAI Agents SDK, AutoGen, ou construídos do zero) com quase ZERO modificações de código. Ao formular a execução do agente como um processo de decisão de Markov, definimos uma interface de dados unificada e propomos um algoritmo hierárquico de RL, o LightningRL, que contém um módulo de atribuição de crédito, permitindo-nos decompor trajetórias geradas por QUALQUER agente em transições de treinamento. Isso permite que o RL lide com lógicas de interação complexas, como cenários multiagentes e fluxos de trabalho dinâmicos. Para o design do sistema, introduzimos uma arquitetura de Desagregação Treinamento-Agente e incorporamos frameworks de observabilidade de agentes no tempo de execução do agente, fornecendo uma interface padronizada de ajuste fino de agentes. Experimentos em tarefas de texto para SQL, geração aumentada por recuperação e uso de ferramentas matemáticas demonstram melhorias estáveis e contínuas, destacando o potencial do framework para o treinamento e implantação de agentes no mundo real.
A pesquisa sobre aplicações de Aprendizado por Reforço (RL) em Modelos de Linguagem de Grande Escala (LLMs) tem se concentrado principalmente em problemas de turno único, como raciocínio matemático ou geração de código em uma única etapa. Embora esses problemas possam ser vistos como MDPs de múltiplos turnos no nível de token, essa visão corresponde a um caso degenerado de interação de múltiplos turnos em que o ambiente não fornece feedback. Isso contrasta com muitos domínios do mundo real, como engenharia de software (SWE), que exigem interações ricas de múltiplos turnos com um ambiente com estado que responde a cada ação com uma observação não trivial. Para preencher essa lacuna, demonstramos a aplicação bem-sucedida de RL a esse regime geral. Usando uma versão modificada do algoritmo Decoupled Advantage Policy Optimization (DAPO), treinamos um agente baseado no Qwen2.5-72B-Instruct para resolver tarefas reais de engenharia de software. Nossa abordagem aumenta a taxa de sucesso do agente no benchmark SWE-bench Verified de uma linha de base ajustada por rejeição de 20% para 39%, sem depender de nenhum modelo professor. No SWE-rebench, nosso agente iguala ou supera modelos de peso aberto líderes, como DeepSeek-V3-0324 e Qwen3-235B-A22B, usando um suporte idêntico, oferecendo um caminho viável para a construção de agentes autônomos mais capazes para problemas complexos do mundo real com base em modelos abertos.
A reutilização de grandes modelos de visão e linguagem (LVLMs) como agentes de uso de computador (CUAs) tem levado a avanços significativos, impulsionados principalmente por dados rotulados por humanos. No entanto, esses modelos frequentemente enfrentam dificuldades com softwares novos e especializados, especialmente em cenários que carecem de anotações humanas. Para enfrentar esse desafio, propomos o SEAgent, uma estrutura agentica de auto-evolução que permite que CUAs evoluam autonomamente por meio de interações com softwares desconhecidos. Especificamente, o SEAgent capacita agentes de uso de computador a dominar autonomamente novos ambientes de software por meio de aprendizado experiencial, onde os agentes exploram novos softwares, aprendem através de tentativa e erro iterativa e abordam progressivamente tarefas auto-geradas organizadas do simples ao complexo. Para atingir esse objetivo, projetamos um Modelo de Estado do Mundo para avaliação passo a passo de trajetórias, juntamente com um Gerador de Currículo que gera tarefas cada vez mais diversas e desafiadoras. A política do agente é atualizada por meio de aprendizado experiencial, composto por imitação adversária de ações de falha e Otimização de Política Relativa de Grupo (GRPO) nas ações bem-sucedidas. Além disso, introduzimos uma estratégia de treinamento de especialista para generalista que integra insights experienciais individuais de agentes especialistas, facilitando o desenvolvimento de um CUA generalista mais forte, capaz de evolução autônoma contínua. Esse agente unificado acaba por alcançar um desempenho que supera conjuntos de agentes especialistas individuais em seus softwares especializados. Validamos a eficácia do SEAgent em cinco novos ambientes de software dentro do OS-World. Nossa abordagem alcança uma melhoria significativa de 23,2% na taxa de sucesso, de 11,3% para 34,5%, em relação a um CUA de código aberto competitivo, o UI-TARS.
Agentes multimodais interativos devem converter observações visuais brutas em sequências coerentes de ações condicionadas por linguagem — uma capacidade que os modelos visão-linguagem (VLMs) atuais ainda não possuem. Esforços anteriores de aprendizado por reforço (RL), em princípio, poderiam dotar os VLMs com tais habilidades, mas raramente testaram se os comportamentos aprendidos generalizam além de seus simuladores de treinamento, e dependem de ajustes hiperparamétricos frágeis ou de ambientes com recompensas densas e baixa variabilidade de estado. Introduzimos o Vision-Language Decoupled Actor-Critic (VL-DAC), um algoritmo de RL leve e livre de hiperparâmetros. O VL-DAC aplica atualizações PPO aos tokens de ação enquanto aprende valor apenas no nível do passo do ambiente: um arranjo, até onde sabemos, não explorado anteriormente para grandes VLMs ou LLMs. Essa simples dissociação remove termos de ponderação instáveis e resulta em convergência mais rápida e confiável. Treinar um único VLM com VL-DAC em um simulador de baixo custo de cada vez (MiniWorld, Gym-Cards, ALFWorld ou WebShop) já produz políticas que generalizam amplamente: +50\% relativo no BALROG (controle agente centrado em jogos), +5\% relativo na parte mais difícil do VSI-Bench (planejamento espacial) e +2\% no VisualWebBench (navegação na web), tudo sem degradar a precisão geral de compreensão de imagens. Esses resultados fornecem a primeira evidência de que um algoritmo de RL simples pode treinar VLMs inteiramente em mundos sintéticos baratos enquanto entrega ganhos mensuráveis em benchmarks de controle agente, raciocínio espacial e navegação na web com imagens reais.
A conversão de designs de páginas da web em código (design-to-code) desempenha um papel vital no desenvolvimento de Interface do Usuário (UI) para desenvolvedores front-end, servindo como ponte entre o design visual e a implementação funcional. Embora os recentes Modelos de Linguagem Multimodal de Grande Escala (MLLMs) tenham mostrado um potencial significativo em tarefas de design-to-code, eles frequentemente falham em preservar com precisão o layout durante a geração de código. Para isso, inspiramo-nos no raciocínio Chain-of-Thought (CoT) da cognição humana e propomos o LaTCoder, uma abordagem inovadora que melhora a preservação do layout no design de páginas da web durante a geração de código com o Layout-as-Thought (LaT). Especificamente, primeiro introduzimos um algoritmo simples, porém eficiente, para dividir o design da página da web em blocos de imagem. Em seguida, solicitamos aos MLLMs, usando uma abordagem baseada em CoT, que gerem código para cada bloco. Por fim, aplicamos duas estratégias de montagem—posicionamento absoluto e um método baseado em MLLM—seguidas por uma seleção dinâmica para determinar a saída ideal. Avaliamos a eficácia do LaTCoder usando múltiplos MLLMs de base (ou seja, DeepSeek-VL2, Gemini e GPT-4o) tanto em um benchmark público quanto em um novo e mais desafiador benchmark (CC-HARD) que apresenta layouts complexos. Os resultados experimentais em métricas automáticas demonstram melhorias significativas. Especificamente, os escores TreeBLEU aumentaram em 66,67% e o MAE diminuiu 38% ao usar o DeepSeek-VL2, em comparação com a solicitação direta. Além disso, os resultados da avaliação de preferência humana indicam que os anotadores preferem as páginas da web geradas pelo LaTCoder em mais de 60% dos casos, fornecendo evidências robustas da eficácia do nosso método.
A inteligência social tornou-se uma capacidade crítica para grandes modelos de linguagem (LLMs), permitindo que eles se envolvam efetivamente em tarefas sociais do mundo real, como acomodação, persuasão, colaboração e negociação. O aprendizado por reforço (RL) é uma abordagem natural para treinar agentes socialmente inteligentes, pois permite que os modelos aprendam estratégias sofisticadas diretamente por meio de interações sociais. No entanto, as interações sociais têm duas características principais que impõem barreiras ao treinamento de RL: (1) observabilidade parcial, onde as declarações têm efeitos indiretos e atrasados que complicam a atribuição de crédito, e (2) multidimensionalidade, onde comportamentos como a construção de rapport ou a busca por conhecimento contribuem indiretamente para o alcance de objetivos. Essas características tornam o RL baseado em processos de decisão de Markov (MDP) com recompensas unidimensionais em nível de episódio ineficiente e instável. Para enfrentar esses desafios, propomos o Sotopia-RL, uma estrutura inovadora que refina o feedback grosseiro em nível de episódio em recompensas multidimensionais em nível de declaração. A atribuição de crédito em nível de declaração mitiga a observabilidade parcial ao atribuir resultados a declarações individuais, enquanto as recompensas multidimensionais capturam toda a riqueza das interações sociais e reduzem a manipulação de recompensas. Experimentos no Sotopia, um ambiente de aprendizado social aberto, demonstram que o Sotopia-RL alcança pontuações de conclusão de metas sociais de última geração (7,17 no Sotopia-hard e 8,31 no Sotopia-full), superando significativamente as abordagens existentes. Estudos de ablação confirmam a necessidade tanto da atribuição de crédito em nível de declaração quanto do design de recompensas multidimensionais para o treinamento de RL. Nossa implementação está publicamente disponível em: https://github.com/sotopia-lab/sotopia-rl.
A toxicidade de medicamentos continua sendo um grande desafio no desenvolvimento farmacêutico. Modelos recentes de aprendizado de máquina têm aprimorado a predição de toxicidade in silico, mas sua dependência de dados anotados e a falta de interpretabilidade limitam sua aplicabilidade. Isso restringe sua capacidade de capturar toxicidades específicas de órgãos, impulsionadas por mecanismos biológicos complexos. Modelos de linguagem de grande escala (LLMs) oferecem uma alternativa promissora por meio de raciocínio passo a passo e integração de dados textuais, embora abordagens anteriores careçam de contexto biológico e justificativa transparente. Para resolver esse problema, propomos o CoTox, uma estrutura inovadora que integra LLM com raciocínio em cadeia de pensamento (CoT) para predição de múltiplas toxicidades. O CoTox combina dados de estrutura química, vias biológicas e termos de ontologia gênica (GO) para gerar predições de toxicidade interpretáveis por meio de raciocínio passo a passo. Usando o GPT-4o, demonstramos que o CoTox supera tanto modelos tradicionais de aprendizado de máquina quanto de aprendizado profundo. Além disso, examinamos seu desempenho em vários LLMs para identificar onde o CoTox é mais eficaz. Adicionalmente, descobrimos que representar estruturas químicas com nomes IUPAC, que são mais fáceis para LLMs entenderem do que SMILES, melhora a capacidade de raciocínio do modelo e aumenta o desempenho preditivo. Para demonstrar sua utilidade prática no desenvolvimento de medicamentos, simulamos o tratamento de tipos celulares relevantes com drogas e incorporamos o contexto biológico resultante na estrutura do CoTox. Essa abordagem permite que o CoTox gere predições de toxicidade alinhadas com respostas fisiológicas, conforme mostrado em um estudo de caso. Esse resultado destaca o potencial de estruturas baseadas em LLM para melhorar a interpretabilidade e apoiar a avaliação de segurança de medicamentos em estágios iniciais. O código e os prompts utilizados neste trabalho estão disponíveis em https://github.com/dmis-lab/CoTox.
Modelos multimodais em grande escala avançaram significativamente o desenvolvimento de agentes web, permitindo a percepção e interação com ambientes digitais de forma semelhante à cognição humana. Neste artigo, argumentamos que os agentes web devem primeiro adquirir conhecimento suficiente para se engajar efetivamente em raciocínio cognitivo. Portanto, decompomos as capacidades de um agente web em dois estágios essenciais: aprendizado de conteúdo de conhecimento e processos cognitivos. Para formalizar isso, propomos o Framework Web-CogKnowledge, categorizando o conhecimento como Fático, Conceitual e Procedimental. Neste framework, o aprendizado de conteúdo de conhecimento corresponde aos processos de Memorização e Compreensão do agente, que dependem dos dois primeiros tipos de conhecimento, representando o "o quê" do aprendizado. Por outro lado, os processos cognitivos correspondem à Exploração, fundamentada no conhecimento Procedimental, definindo o "como" do raciocínio e da ação. Para facilitar a aquisição de conhecimento, construímos o Web-CogDataset, um recurso estruturado curado a partir de 14 sites do mundo real, projetado para instilar sistematicamente o conhecimento central necessário para um agente web. Este conjunto de dados serve como base conceitual do agente — os "substantivos" sobre os quais a compreensão é construída — bem como a base para aprender a raciocinar e agir. Com base nessa fundação, operacionalizamos esses processos por meio de um novo framework de raciocínio Chain-of-Thought (CoT) orientado por conhecimento, desenvolvendo e treinando nosso agente proposto, o Web-CogReasoner. Experimentos extensivos revelam sua superioridade significativa sobre os modelos existentes, especialmente na generalização para tarefas não vistas, onde o conhecimento estruturado é decisivo. Para permitir uma avaliação rigorosa, introduzimos o Web-CogBench, um conjunto abrangente de avaliação projetado para avaliar e comparar o desempenho do agente nos domínios de conhecimento e capacidades cognitivas delineados. Nosso código e dados estão disponíveis em https://github.com/Gnonymous/Web-CogReasoner.
A avaliação de modelos de geração de texto para imagem requer alinhamento com a percepção humana, porém as métricas centradas no humano existentes são limitadas por cobertura de dados insuficiente, extração de características subótima e funções de perda ineficientes. Para enfrentar esses desafios, apresentamos o Human Preference Score v3 (HPSv3). (1) Lançamos o HPDv3, o primeiro conjunto de dados de preferência humana de amplo espectro, integrando 1,08 milhões de pares texto-imagem e 1,17 milhões de comparações pareadas anotadas, provenientes de modelos generativos de última geração e de imagens reais de baixa a alta qualidade. (2) Introduzimos um modelo de preferência baseado em VLM (Vision-Language Model) treinado com uma função de perda de classificação consciente da incerteza para uma classificação refinada. Além disso, propomos o Chain-of-Human-Preference (CoHP), um método iterativo de refinamento de imagem que melhora a qualidade sem dados adicionais, utilizando o HPSv3 para selecionar a melhor imagem em cada etapa. Experimentos extensivos demonstram que o HPSv3 serve como uma métrica robusta para avaliação de imagens de amplo espectro, e o CoHP oferece uma abordagem eficiente e alinhada com o humano para melhorar a qualidade da geração de imagens. O código e o conjunto de dados estão disponíveis na Página Inicial do HPSv3.
Neste artigo, apresentamos uma nova estrutura para geração de vídeo-para-4D que cria conteúdo 3D dinâmico de alta qualidade a partir de entradas de vídeo único. A modelagem direta de difusão 4D é extremamente desafiadora devido ao custo elevado de construção de dados e à natureza de alta dimensionalidade da representação conjunta de forma 3D, aparência e movimento. Abordamos esses desafios introduzindo um VAE de Campo de Variação Direct 4DMesh-to-GS que codifica diretamente Gaussian Splats (GS) canônicos e suas variações temporais a partir de dados de animação 3D, sem ajuste por instância, e comprime animações de alta dimensionalidade em um espaço latente compacto. Com base nessa representação eficiente, treinamos um modelo de difusão de Campo de Variação Gaussiana com Transformer de Difusão temporalmente consciente, condicionado a vídeos de entrada e GS canônicos. Treinado em objetos 3D animáveis cuidadosamente selecionados do conjunto de dados Objaverse, nosso modelo demonstra qualidade de geração superior em comparação com métodos existentes. Ele também exibe uma generalização notável para entradas de vídeo do mundo real, apesar de ter sido treinado exclusivamente em dados sintéticos, abrindo caminho para a geração de conteúdo 3D animado de alta qualidade. Página do projeto: https://gvfdiffusion.github.io/.
Modelos de Linguagem de Grande Escala (LLMs) sofrem uma degradação significativa de desempenho ao processar contextos longos devido à interferência proativa, onde informações irrelevantes em partes anteriores do contexto prejudicam o raciocínio e a recuperação da memória. Enquanto a maioria das pesquisas se concentra em sistemas de memória externa para ampliar as capacidades dos LLMs, propomos uma abordagem complementar: capacitar os LLMs com ferramentas de Gerenciamento Ativo de Contexto (ACM) para esculpir ativamente sua memória de trabalho interna. Apresentamos o Sculptor, um framework que equipa os LLMs com três categorias de ferramentas: (1) fragmentação de contexto, (2) resumo, ocultação e restauração, e (3) busca inteligente. Nossa abordagem permite que os LLMs gerenciem proativamente sua atenção e memória de trabalho, de forma análoga à maneira como os humanos se concentram seletivamente em informações relevantes enquanto filtram distrações. A avaliação experimental em benchmarks com pouca informação—PI-LLM (interferência proativa) e NeedleBench Multi-Needle Reasoning—demonstra que o Sculptor melhora significativamente o desempenho mesmo sem treinamento específico, aproveitando as capacidades inerentes de generalização de chamada de ferramentas dos LLMs. Ao habilitar o Gerenciamento Ativo de Contexto, o Sculptor não apenas mitiga a interferência proativa, mas também fornece uma base cognitiva para um raciocínio mais confiável em diversas tarefas de contexto longo—destacando que estratégias explícitas de controle de contexto, em vez de meramente janelas de tokens maiores, são essenciais para a robustez em escala.
A tecnologia de experimentação virtual em vídeo (VVT) tem despertado um considerável interesse acadêmico devido às suas aplicações promissoras em publicidade de e-commerce e entretenimento. No entanto, a maioria dos métodos end-to-end existentes depende fortemente de conjuntos de dados escassos e centrados em peças de vestuário, falhando em aproveitar efetivamente os conhecimentos prévios de modelos visuais avançados e entradas em tempo de teste, o que torna desafiador preservar com precisão detalhes refinados das peças e manter a consistência temporal em cenários não restritos. Para enfrentar esses desafios, propomos o DreamVVT, uma estrutura de duas etapas cuidadosamente projetada, baseada em Transformers de Difusão (DiTs), que é intrinsecamente capaz de aproveitar diversos dados não pareados centrados em humanos para melhorar a adaptabilidade em cenários do mundo real. Para aproveitar ainda mais o conhecimento prévio de modelos pré-treinados e entradas em tempo de teste, na primeira etapa, amostramos quadros representativos do vídeo de entrada e utilizamos um modelo de experimentação multi-quadro integrado a um modelo de visão e linguagem (VLM), para sintetizar imagens de experimentação de quadros-chave de alta fidelidade e semanticamente consistentes. Essas imagens servem como orientação complementar de aparência para a subsequente geração de vídeo. Na segunda etapa, mapas de esqueleto juntamente com descrições refinadas de movimento e aparência são extraídos do conteúdo de entrada, e esses, juntamente com as imagens de experimentação de quadros-chave, são então alimentados em um modelo de geração de vídeo pré-treinado aprimorado com adaptadores LoRA. Isso garante coerência temporal de longo prazo para regiões não vistas e permite movimentos dinâmicos altamente plausíveis. Experimentos quantitativos e qualitativos extensivos demonstram que o DreamVVT supera os métodos existentes na preservação de conteúdo detalhado das peças e na estabilidade temporal em cenários do mundo real. Nossa página do projeto está disponível em https://virtu-lab.github.io/.
As conferências de Inteligência Artificial (IA) são essenciais para o avanço da pesquisa, o compartilhamento de conhecimento e o fortalecimento da comunidade acadêmica. No entanto, sua rápida expansão tornou o modelo centralizado de conferências cada vez mais insustentável. Este artigo oferece um diagnóstico baseado em dados de uma crise estrutural que ameaça os objetivos fundamentais de disseminação científica, equidade e bem-estar da comunidade. Identificamos quatro áreas-chave de tensão: (1) cientificamente, com as taxas de publicação por autor mais do que dobrando na última década, ultrapassando 4,5 artigos anualmente; (2) ambientalmente, com a pegada de carbono de uma única conferência excedendo as emissões diárias da cidade sede; (3) psicologicamente, com 71% do discurso online da comunidade refletindo sentimentos negativos e 35% mencionando preocupações com saúde mental; e (4) logisticamente, com a participação em conferências de destaque, como a NeurIPS 2024, começando a superar a capacidade dos locais. Essas pressões apontam para um sistema desalinhado com sua missão central. Em resposta, propomos o modelo de Conferência Federada pela Comunidade (CFC), que separa a revisão por pares, as apresentações e o networking em componentes globalmente coordenados, mas organizados localmente, oferecendo um caminho mais sustentável, inclusivo e resiliente para a pesquisa em IA.
Modelos de linguagem de grande escala (LLMs) permitem tarefas de contexto longo, mas enfrentam desafios de eficiência devido ao crescimento do cache de chave-valor (KV). Propomos o LeanK, um método baseado em aprendizado que poda canais de cache de chave (K) irrelevantes, aproveitando a esparsidade estática de canais. Com um processo de treinamento em duas etapas inovador, o LeanK aprende uma máscara estática por canal que pode satisfazer uma taxa de esparsidade específica e requisitos de alinhamento de hardware. O LeanK reduz a memória da GPU e acelera a decodificação sem sacrificar a precisão. Experimentos demonstram uma redução de até 70% no cache K e de 16%-18% no cache V. Um kernel de decodificação personalizado permite uma aceleração de 1,3x no cálculo de atenção. Também fornecemos insights sobre os canais do modelo e cabeças de atenção durante a inferência de contexto longo, analisando a distribuição de importância aprendida. Nosso código está disponível em https://aka.ms/LeanK.
A autoformalização visa traduzir declarações matemáticas em linguagem natural para uma linguagem formal. Embora os LLMs tenham acelerado o progresso nessa área, os métodos existentes ainda sofrem com baixa precisão. Identificamos duas habilidades essenciais para uma autoformalização eficaz: domínio abrangente do conhecimento do domínio da linguagem formal e capacidade de raciocínio para compreensão de problemas em linguagem natural e alinhamento informal-formal. Sem a primeira, um modelo não consegue identificar os objetos formais corretos; sem a segunda, ele tem dificuldade em interpretar contextos do mundo real e mapeá-los com precisão em expressões formais. Para abordar essas lacunas, introduzimos o ThinkingF, um pipeline de síntese de dados e treinamento que melhora ambas as habilidades. Primeiro, construímos dois conjuntos de dados: um por destilação e seleção de exemplos em larga escala ricos em conhecimento formal, e outro pela geração de trajetórias de raciocínio informal-formal guiadas por modelos projetados por especialistas. Em seguida, aplicamos SFT e RLVR com esses conjuntos de dados para fundir e refinar ainda mais as duas habilidades. Os modelos resultantes de 7B e 32B exibem tanto conhecimento formal abrangente quanto forte raciocínio informal-formal. Notavelmente, o StepFun-Formalizer-32B alcança pontuações SOTA BEq@1 de 40,5% no FormalMATH-Lite e 26,7% no ProverBench, superando todos os modelos de propósito geral e especializados anteriores.
O reconhecimento de entidades nomeadas (NER) é fundamental para extrair informações estruturadas dos mais de 80% dos dados de saúde que residem em notas clínicas não estruturadas e na literatura biomédica. Apesar dos avanços recentes com modelos de linguagem de grande escala, alcançar desempenho de ponta em diversos tipos de entidades, mantendo a eficiência computacional, continua sendo um desafio significativo. Apresentamos o OpenMed NER, um conjunto de modelos de transformadores de código aberto adaptados ao domínio que combinam pré-treinamento leve adaptado ao domínio (DAPT) com a adaptação de baixo custo de parâmetros Low-Rank Adaptation (LoRA). Nossa abordagem realiza DAPT de custo eficiente em um corpus de 350 mil passagens compilado a partir de repositórios de pesquisa publicamente disponíveis e de origem ética, além de notas clínicas anonimizadas (PubMed, arXiv e MIMIC-III), utilizando arquiteturas como DeBERTa-v3, PubMedBERT e BioELECTRA. Isso é seguido por ajuste fino específico para a tarefa com LoRA, que atualiza menos de 1,5% dos parâmetros do modelo. Avaliamos nossos modelos em 12 benchmarks estabelecidos de NER biomédico, abrangendo químicos, doenças, genes e espécies. O OpenMed NER alcança novos recordes de pontuação micro-F1 em 10 desses 12 conjuntos de dados, com ganhos substanciais em diversos tipos de entidades. Nossos modelos avançam o estado da arte em benchmarks fundamentais de doenças e químicos (por exemplo, BC5CDR-Disease, +2,70 pp), enquanto entregam melhorias ainda maiores de mais de 5,3 e 9,7 pontos percentuais em corpora mais especializados de genes e linhagens celulares clínicas. Este trabalho demonstra que modelos de código aberto estrategicamente adaptados podem superar soluções de código fechado. Esse desempenho é alcançado com eficiência notável: o treinamento é concluído em menos de 12 horas em uma única GPU, com uma pegada de carbono baixa (< 1,2 kg CO2e), produzindo checkpoints de código aberto licenciados de forma permissiva, projetados para ajudar profissionais a facilitar a conformidade com regulamentações emergentes de proteção de dados e IA, como o Ato de IA da UE.
Modelos de linguagem de grande escala permitem que agentes realizem tarefas de forma autônoma em ambientes web abertos. No entanto, à medida que as ameaças ocultas na web evoluem, os agentes web enfrentam o desafio de equilibrar o desempenho das tarefas com os riscos emergentes durante operações de longa sequência. Embora esse desafio seja crítico, as pesquisas atuais permanecem limitadas à otimização de objetivo único ou cenários de turno único, carecendo da capacidade de otimização colaborativa tanto da segurança quanto da utilidade em ambientes web. Para abordar essa lacuna, propomos o HarmonyGuard, uma estrutura colaborativa de multiagentes que aproveita o aprimoramento de políticas e a otimização de objetivos para melhorar conjuntamente a utilidade e a segurança. O HarmonyGuard apresenta uma arquitetura de multiagentes caracterizada por duas capacidades fundamentais: (1) Aprimoramento Adaptativo de Políticas: Introduzimos o Agente de Políticas dentro do HarmonyGuard, que extrai e mantém automaticamente políticas de segurança estruturadas a partir de documentos externos não estruturados, enquanto atualiza continuamente as políticas em resposta a ameaças em evolução. (2) Otimização de Duplo Objetivo: Com base nos objetivos duplos de segurança e utilidade, o Agente de Utilidade integrado ao HarmonyGuard realiza o raciocínio em tempo real markoviano para avaliar os objetivos e utiliza capacidades metacognitivas para sua otimização. Avaliações extensas em múltiplos benchmarks mostram que o HarmonyGuard melhora a conformidade com as políticas em até 38% e a conclusão de tarefas em até 20% em relação às linhas de base existentes, enquanto alcança mais de 90% de conformidade com as políticas em todas as tarefas. Nosso projeto está disponível aqui: https://github.com/YurunChen/HarmonyGuard.
As abordagens atuais para grandes modelos de linguagem de áudio (LALMs) frequentemente dependem de fontes de dados fechadas ou modelos proprietários, limitando sua generalização e acessibilidade. Este artigo apresenta o MiDashengLM, um novo modelo aberto de linguagem de áudio projetado para uma compreensão eficiente e abrangente de áudio por meio do uso de legendas de áudio gerais, utilizando nosso novo conjunto de dados de treinamento ACAVCaps. O MiDashengLM depende exclusivamente de conjuntos de dados de pré-treinamento e ajuste fino supervisionado (SFT) publicamente disponíveis, garantindo total transparência e reprodutibilidade. Em seu núcleo, o MiDashengLM integra o Dasheng, um codificador de áudio de código aberto, especificamente projetado para processar informações auditivas diversas de forma eficaz. Diferente de trabalhos anteriores focados principalmente no alinhamento áudio-texto baseado em Reconhecimento Automático de Fala (ASR), nossa estratégia se concentra em legendas de áudio gerais, fundindo informações de fala, som e música em uma única representação textual, permitindo uma representação textual holística de cenas de áudio complexas. Por fim, o MiDashengLM oferece uma aceleração de até 4x em termos de tempo para o primeiro token (TTFT) e uma taxa de transferência até 20x maior do que modelos comparáveis. Os checkpoints estão disponíveis online em https://huggingface.co/mispeech/midashenglm-7b e https://github.com/xiaomi-research/dasheng-lm.
A segmentação de instâncias é crucial em imagens biomédicas para distinguir com precisão objetos individuais, como células, que frequentemente se sobrepõem e variam em tamanho. Métodos recentes baseados em consultas, onde consultas de objetos orientam a segmentação, têm demonstrado um desempenho robusto. Embora a U-Net tenha sido uma arquitetura amplamente utilizada na segmentação de imagens médicas, seu potencial em abordagens baseadas em consultas permanece em grande parte inexplorado. Neste trabalho, apresentamos a IAUNet, uma nova arquitetura U-Net baseada em consultas. O design central apresenta uma arquitetura U-Net completa, aprimorada por um novo decodificador de pixels convolucional leve, tornando o modelo mais eficiente e reduzindo o número de parâmetros. Além disso, propomos um decodificador Transformer que refina características específicas de objetos em múltiplas escalas. Por fim, introduzimos o Conjunto de Dados de Segmentação Completa de Células Revvity 2025, um recurso único com anotações detalhadas do citoplasma de células sobrepostas em imagens de campo claro, estabelecendo um novo padrão para a segmentação de instâncias biomédicas. Experimentos em múltiplos conjuntos de dados públicos e em nosso próprio mostram que a IAUNet supera a maioria dos modelos totalmente convolucionais, baseados em transformers e em consultas, bem como modelos específicos para segmentação de células, estabelecendo uma forte referência para tarefas de segmentação de instâncias de células. O código está disponível em https://github.com/SlavkoPrytula/IAUNet.
As garantias de segurança em tempo de compilação do Rust tornam-no ideal para sistemas críticos de segurança, criando uma demanda pela tradução de bases de código C legadas para Rust. Embora diversas abordagens tenham surgido para essa tarefa, elas enfrentam trade-offs inerentes: soluções baseadas em regras têm dificuldades em atender aos requisitos de segurança e idiomaticidade do código, enquanto soluções baseadas em LLMs (Large Language Models) frequentemente falham em gerar código Rust semanticamente equivalente, devido às pesadas dependências de módulos em toda a base de código. Estudos recentes revelaram que ambas as soluções são limitadas a programas de pequena escala. Neste artigo, propomos o EvoC2Rust, um framework automatizado para converter projetos inteiros em C para equivalentes em Rust. O EvoC2Rust emprega uma estratégia de tradução guiada por esqueleto para tradução em nível de projeto. O pipeline consiste em três estágios evolutivos: 1) primeiro, ele decompõe o projeto C em módulos funcionais, utiliza um LLM aprimorado por mapeamento de características para transformar definições e macros, e gera esboços de funções verificados por tipo, que formam um esqueleto Rust compilável; 2) em seguida, ele traduz incrementalmente a função, substituindo o espaço reservado correspondente no esboço; 3) finalmente, ele corrige erros de compilação integrando LLM e análise estática. Por meio de aumento evolutivo, o EvoC2Rust combina as vantagens das soluções baseadas em regras e em LLMs. Nossa avaliação em benchmarks de código aberto e seis projetos industriais demonstra o desempenho superior do EvoC2Rust na tradução de projetos C para Rust. Em média, ele alcança melhorias de 17,24% e 14,32% em precisão sintática e semântica em relação às abordagens baseadas em LLMs, juntamente com uma taxa de segurança de código 96,79% maior do que as ferramentas baseadas em regras. No nível de módulo, o EvoC2Rust atinge taxas de compilação de 92,25% e de aprovação em testes de 89,53% em projetos industriais, mesmo para bases de código complexas e funções longas.
Apresentamos o DPoser-X, um modelo baseado em difusão para priorização de poses humanas 3D de corpo inteiro. Construir um prior versátil e robusto para poses humanas de corpo inteiro continua sendo um desafio devido à complexidade inerente das poses articuladas humanas e à escassez de conjuntos de dados de alta qualidade para poses de corpo inteiro. Para abordar essas limitações, introduzimos um modelo de Difusão como prior de pose corporal (DPoser) e o estendemos para o DPoser-X, visando a modelagem expressiva de poses humanas de corpo inteiro. Nossa abordagem unifica várias tarefas centradas em pose como problemas inversos, resolvendo-os por meio de amostragem de difusão variacional. Para melhorar o desempenho em aplicações subsequentes, introduzimos um novo método de agendamento de passos de tempo truncado, especificamente projetado para as características dos dados de pose. Também propomos um mecanismo de treinamento mascarado que combina efetivamente conjuntos de dados de corpo inteiro e específicos de partes do corpo, permitindo que nosso modelo capture interdependências entre partes do corpo enquanto evita o sobreajuste a ações específicas. Experimentos extensivos demonstram a robustez e versatilidade do DPoser-X em vários benchmarks para modelagem de poses corporais, de mãos, de rosto e de corpo inteiro. Nosso modelo supera consistentemente as alternativas state-of-the-art, estabelecendo um novo padrão para a modelagem de prior de poses humanas de corpo inteiro.
O Aprendizado por Reforço com Recompensa Verificável (RLVR) avançou significativamente as habilidades de raciocínio complexo dos Modelos de Linguagem de Grande Escala (LLMs). No entanto, ele enfrenta dificuldades para superar os limites inerentes de capacidade do LLM base, devido à sua estratégia essencialmente on-policy combinada com o espaço de ação imenso e a recompensa esparsa dos LLMs. De forma crítica, o RLVR pode levar ao colapso da fronteira de capacidade, reduzindo o escopo de resolução de problemas do LLM. Para abordar esse problema, propomos o RL-PLUS, uma nova abordagem de otimização de política híbrida para LLMs que sinergiza a exploração interna com dados externos para alcançar capacidades de raciocínio mais robustas e superar os limites dos modelos base. O RL-PLUS integra dois componentes principais: a Amostragem de Importância Múltipla, para lidar com o desajuste distribucional dos dados externos, e a Função de Vantagem Baseada em Exploração, para guiar o modelo em direção a caminhos de raciocínio de alto valor e inexplorados. Fornecemos tanto análise teórica quanto experimentos extensivos para demonstrar a superioridade e generalizabilidade de nossa abordagem. Em comparação com os métodos RLVR existentes, o RL-PLUS alcança: 1) desempenho de ponta em seis benchmarks de raciocínio matemático; 2) desempenho superior em seis tarefas de raciocínio fora da distribuição; 3) ganhos consistentes e significativos em diversas famílias de modelos, com melhorias relativas médias de até 69,2%. Além disso, a análise das curvas Pass@k indica que o RL-PLUS resolve efetivamente o problema do colapso da fronteira de capacidade.
Embora os avanços nas habilidades de raciocínio dos LLMs tenham melhorado significativamente seu desempenho na resolução de problemas matemáticos, tarefas de codificação e quebra-cabeças gerais, sua eficácia em aderir com precisão a instruções permanece inconsistente, especialmente com diretrizes mais complexas. Nossa investigação identifica o raciocínio preguiçoso durante a etapa de pensamento como o principal fator que contribui para a má adesão às instruções. Para mitigar esse problema, propomos um framework abrangente projetado para permitir processos de raciocínio rigorosos que envolvem pré-visualização e auto-verificação, essenciais para satisfazer restrições de instruções rigorosas. Especificamente, primeiro geramos instruções com restrições complexas e aplicamos um processo de filtragem para obter prompts válidos, resultando em três conjuntos de dados de prompts distintos categorizados como difíceis, fáceis e de aprovação. Em seguida, empregamos amostragem por rejeição nos prompts de aprovação para criar um conjunto de dados pequeno, porém de alta qualidade, permitindo uma inicialização a frio do modelo e facilitando sua adaptação a padrões de raciocínio eficazes. Posteriormente, empregamos uma estratégia de ajuste fino supervisionado que preserva a entropia (Entropy-SFT) combinada com aprendizado por reforço adaptativo à entropia por token (TEA-RL), guiado por recompensas densas baseadas em regras. Essa abordagem incentiva o modelo a transformar seu mecanismo de raciocínio, promovendo, por fim, habilidades de raciocínio generalizáveis que abrangem pré-visualização e auto-verificação. Experimentos extensivos realizados em benchmarks de seguimento de instruções demonstram melhorias notáveis de desempenho em várias escalas de modelos. Notavelmente, nosso modelo Light-IF-32B supera tanto modelos de código aberto maiores, como o DeepSeek-R1, quanto modelos de código fechado, como o Doubao-1.6.
A fundamentação visual visa identificar objetos ou regiões em uma cena com base em descrições em linguagem natural, sendo essencial para a percepção espacialmente consciente na condução autônoma. No entanto, as tarefas existentes de fundamentação visual geralmente dependem de caixas delimitadoras que frequentemente falham em capturar detalhes refinados. Nem todos os voxels dentro de uma caixa delimitadora estão ocupados, resultando em representações imprecisas de objetos. Para resolver isso, introduzimos um benchmark para fundamentação de ocupação 3D em cenas externas desafiadoras. Construído sobre o conjunto de dados nuScenes, ele integra linguagem natural com anotações de ocupação em nível de voxel, oferecendo uma percepção de objetos mais precisa em comparação com a tarefa tradicional de fundamentação. Além disso, propomos o GroundingOcc, um modelo end-to-end projetado para fundamentação de ocupação 3D por meio de aprendizado multimodal. Ele combina características visuais, textuais e de nuvem de pontos para prever a localização e informações de ocupação de objetos de forma grossa a refinada. Especificamente, o GroundingOcc compreende um codificador multimodal para extração de características, um cabeçalho de ocupação para previsões voxel a voxel e um cabeçalho de fundamentação para refinar a localização. Adicionalmente, um módulo de fundamentação 2D e um módulo de estimativa de profundidade aprimoram o entendimento geométrico, aumentando assim o desempenho do modelo. Experimentos extensivos no benchmark demonstram que nosso método supera as linhas de base existentes na fundamentação de ocupação 3D. O conjunto de dados está disponível em https://github.com/RONINGOD/GroundingOcc.
A avaliação de factualidade em textos longos mede a capacidade dos modelos de gerar respostas precisas e abrangentes para prompts curtos. Os benchmarks existentes frequentemente carecem de verificação humana, o que pode levar a problemas de qualidade. Para superar essa limitação, apresentamos o FACTORY, um conjunto de prompts em larga escala verificado por humanos. Desenvolvido usando uma abordagem de modelo-em-loop e refinado por humanos, o FACTORY inclui prompts desafiadores que buscam fatos, são respondíveis e inequívocos. Realizamos avaliações humanas em 6 modelos de linguagem state-of-the-art utilizando o FACTORY e conjuntos de dados existentes. Nossos resultados mostram que o FACTORY é um benchmark desafiador: aproximadamente 40% das afirmações feitas nas respostas dos modelos SOTA não são factuais, em comparação com apenas 10% em outros conjuntos de dados. Nossa análise destaca as vantagens do FACTORY sobre benchmarks anteriores, enfatizando sua confiabilidade e a necessidade de os modelos raciocinarem sobre fatos de cauda longa.
A Análise de Causa Raiz (RCA, do inglês Root Cause Analysis) em redes móveis continua sendo uma tarefa desafiadora devido à necessidade de interpretabilidade, expertise de domínio e raciocínio causal. Neste trabalho, propomos um framework leve que aproveita Modelos de Linguagem de Grande Escala (LLMs, do inglês Large Language Models) para RCA. Para isso, introduzimos o TeleLogs, um conjunto de dados curado de problemas de solução de problemas anotados, projetado para avaliar as capacidades de RCA. Nossa avaliação revela que os LLMs de raciocínio de código aberto existentes têm dificuldades com esses problemas, destacando a necessidade de adaptação específica ao domínio. Para abordar essa questão, propomos uma metodologia de treinamento em duas etapas que combina ajuste fino supervisionado com aprendizado por reforço para melhorar a precisão e a qualidade do raciocínio dos LLMs. A abordagem proposta ajusta uma série de modelos de RCA para integrar conhecimento de domínio e gerar explicações diagnósticas estruturadas e de múltiplos passos, melhorando tanto a interpretabilidade quanto a eficácia. Experimentos extensivos em vários tamanhos de LLMs mostram ganhos significativos de desempenho em relação aos modelos de raciocínio e não raciocínio state-of-the-art, incluindo uma forte generalização para variantes de teste randomizadas. Esses resultados demonstram o potencial dos LLMs adaptados ao domínio e aprimorados para raciocínio em RCA prática e explicável na operação e gestão de redes.
A condução autônoma requer uma compreensão precisa da cena, incluindo a geometria da via, os agentes de tráfego e suas relações semânticas. Em cenários de geração de mapas HD online, as representações baseadas em raster são bem adequadas para modelos de visão, mas carecem de precisão geométrica, enquanto as representações baseadas em grafos retêm detalhes estruturais, mas tornam-se instáveis sem mapas precisos. Para aproveitar os pontos fortes complementares de ambas, propomos o DiffSemanticFusion — um framework de fusão para previsão e planejamento de trajetórias multimodais. Nossa abordagem raciocina sobre um espaço BEV fundido com raster semântico, aprimorado por um módulo de difusão de mapas que melhora tanto a estabilidade quanto a expressividade das representações de mapas HD online. Validamos nosso framework em duas tarefas subsequentes: previsão de trajetória e condução autônoma de ponta a ponta orientada para planejamento. Experimentos em benchmarks de condução autônoma do mundo real, nuScenes e NAVSIM, demonstram um desempenho superior em relação a vários métodos state-of-the-art. Para a tarefa de previsão no nuScenes, integramos o DiffSemanticFusion com o QCNet informado pelo mapa HD online, alcançando uma melhoria de desempenho de 5,1%. Para a condução autônoma de ponta a ponta no NAVSIM, o DiffSemanticFusion alcança resultados state-of-the-art, com um ganho de desempenho de 15% em cenários NavHard. Além disso, extensos estudos de ablação e sensibilidade mostram que nosso módulo de difusão de mapas pode ser integrado de forma contínua em outras abordagens baseadas em vetores para melhorar o desempenho. Todos os artefatos estão disponíveis em https://github.com/SunZhigang7/DiffSemanticFusion.
A geração de Texto-para-3D (T23D) revolucionou a criação de conteúdo digital, mas ainda enfrenta gargalos devido a processos de prompt por tentativa e erro que produzem resultados imprevisíveis. Embora a engenharia de prompts visuais tenha avançado no domínio de texto-para-imagem, sua aplicação na geração 3D apresenta desafios únicos que exigem avaliação de consistência multi-visual e compreensão espacial. Apresentamos o Sel3DCraft, um sistema de engenharia de prompts visuais para T23D que transforma a exploração não estruturada em um processo visual guiado. Nossa abordagem introduz três inovações principais: uma estrutura de duplo ramo que combina recuperação e geração para exploração diversificada de candidatos; uma abordagem de pontuação híbrida multi-visual que utiliza MLLMs com métricas inovadoras de alto nível para avaliar modelos 3D com consistência de especialistas humanos; e um conjunto de análises visuais orientadas por prompts que permite a identificação e refinamento intuitivos de defeitos. Testes extensivos e estudos com usuários demonstram que o Sel3DCraft supera outros sistemas T23D no suporte à criatividade de designers.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) melhora as capacidades de seguimento de instruções de modelos de linguagem de grande escala (LLMs), mas sofre com ineficiência de treinamento devido à avaliação inadequada da dificuldade. Além disso, o RLVR é propenso à superotimização, onde os LLMs exploram atalhos de verificação sem se alinhar à intenção real das instruções do usuário. Introduzimos o Decorador de Seguimento de Instruções (IFDecorator), uma estrutura que integra o treinamento RLVR em um pipeline robusto e eficiente em termos de amostras. Ele consiste em três componentes: (1) um ciclo de dados cooperativo-adversarial que coevolui instruções e verificações híbridas, gerando pares de instrução-verificação progressivamente mais desafiadores; (2) o IntentCheck, um módulo de desvio que reforça o alinhamento da intenção; e (3) trip wires, um mecanismo de diagnóstico que detecta a manipulação de recompensas por meio de instruções armadilha, que acionam e capturam comportamentos de exploração de atalhos. Nosso Qwen2.5-32B-Instruct-IFDecorator alcança 87,43% de precisão no IFEval, superando modelos proprietários maiores, como o GPT-4o. Além disso, demonstramos melhorias substanciais no FollowBench, mantendo as capacidades gerais. Nossos trip wires mostram reduções significativas nas taxas de manipulação de recompensas. Liberaremos modelos, código e dados para pesquisas futuras.
A Detecção de Anomalias 3D (AD) tem demonstrado grande potencial na identificação de anomalias ou defeitos em produtos industriais de alta precisão. No entanto, os métodos existentes são tipicamente treinados de forma específica para cada classe e também carecem da capacidade de aprender com classes emergentes. Neste estudo, propomos uma estrutura de aprendizado contínuo denominada Continual 3D Anomaly Detection (C3D-AD), que não apenas aprende representações generalizadas para nuvens de pontos multiclasse, mas também lida com novas classes que surgem ao longo do tempo. Especificamente, no módulo de extração de características, para extrair eficientemente características locais generalizadas de diversos tipos de produtos em diferentes tarefas, é introduzida a Camada de Atenção com Kernel e Características Aleatórias (KAL), que normaliza o espaço de características. Em seguida, para reconstruir os dados correta e continuamente, é proposto um mecanismo eficiente de Atenção com Kernel e Assessor Aprendível (KAA), que aprende as informações de novas categorias enquanto descarta informações antigas redundantes, tanto no codificador quanto no decodificador. Por fim, para manter a consistência da representação ao longo das tarefas, é proposto um módulo de Reconstrução com Perturbação de Parâmetros (RPP), projetando uma função de perda de ensaio de representação, que garante que o modelo se lembre das informações de categorias anteriores e retorne uma representação adaptativa à categoria. Experimentos extensivos em três conjuntos de dados públicos demonstram a eficácia do método proposto, alcançando um desempenho médio de 66,4%, 83,1% e 63,4% AUROC nos conjuntos Real3D-AD, Anomaly-ShapeNet e MulSen-AD, respectivamente.
Neste artigo, abordamos métodos para governar, avaliar e quantificar sistematicamente o viés ao longo de todo o ciclo de vida dos modelos de aprendizado de máquina, desde o desenvolvimento e validação iniciais até o monitoramento contínuo em produção e a implementação de salvaguardas. Com base em nosso trabalho fundamental sobre o Conjunto de Testes de Avaliação e Análise de Viés (BEATS) para Modelos de Linguagem de Grande Escala (LLMs), os autores compartilham lacunas prevalentes relacionadas a viés e justiça em LLMs e discutem um framework de governança de dados e IA para abordar Viés, Ética, Justiça e Factualidade dentro desses modelos. A abordagem de governança de dados e IA discutida neste artigo é adequada para aplicações práticas do mundo real, permitindo um benchmarking rigoroso de LLMs antes da implantação em produção, facilitando a avaliação contínua em tempo real e governando proativamente as respostas geradas por LLMs. Ao implementar a governança de dados e IA ao longo do ciclo de vida do desenvolvimento de IA, as organizações podem aprimorar significativamente a segurança e a responsabilidade de seus sistemas de GenAI, mitigando efetivamente os riscos de discriminação e protegendo contra possíveis danos reputacionais ou relacionados à marca. Por fim, por meio deste artigo, visamos contribuir para o avanço da criação e implantação de aplicações impulsionadas por inteligência artificial generativa socialmente responsável e alinhada eticamente.
Gravações musicais frequentemente apresentam problemas de qualidade de áudio, como reverberação excessiva, distorção, clipping, desequilíbrios tonais e uma imagem estéreo reduzida, especialmente quando criadas em ambientes não profissionais sem equipamentos especializados ou expertise. Esses problemas são tipicamente corrigidos usando ferramentas especializadas separadas e ajustes manuais. Neste artigo, apresentamos o SonicMaster, o primeiro modelo generativo unificado para restauração e masterização de música que aborda um amplo espectro de artefatos de áudio com controle baseado em texto. O SonicMaster é condicionado por instruções em linguagem natural para aplicar melhorias direcionadas ou pode operar em um modo automático para restauração geral. Para treinar este modelo, construímos o conjunto de dados SonicMaster, um grande conjunto de dados de faixas degradadas e de alta qualidade emparelhadas, simulando tipos comuns de degradação com dezenove funções de degradação pertencentes a cinco grupos de aprimoramento: equalização, dinâmica, reverberação, amplitude e estéreo. Nossa abordagem utiliza um paradigma de treinamento generativo de correspondência de fluxo para aprender uma transformação de áudio que mapeia entradas degradadas para suas versões limpas e masterizadas, guiadas por prompts de texto. Métricas objetivas de qualidade de áudio demonstram que o SonicMaster melhora significativamente a qualidade do som em todas as categorias de artefatos. Além disso, testes de escuta subjetivos confirmam que os ouvintes preferem as saídas aprimoradas do SonicMaster em relação ao áudio degradado original, destacando a eficácia de nossa abordagem unificada.
Modelos de difusão de texto para imagem demonstraram capacidades notáveis na geração de conteúdo artístico ao aprenderem com bilhões de imagens, incluindo obras de arte populares. No entanto, a questão fundamental de como esses modelos representam internamente conceitos, como conteúdo e estilo em pinturas, permanece inexplorada. A visão computacional tradicional assume que conteúdo e estilo são ortogonais, mas os modelos de difusão não recebem orientação explícita sobre essa distinção durante o treinamento. Neste trabalho, investigamos como modelos de difusão de texto para imagem baseados em transformers codificam conceitos de conteúdo e estilo ao gerar obras de arte. Utilizamos mapas de calor de atenção cruzada para atribuir pixels em imagens geradas a tokens específicos do prompt, permitindo-nos isolar regiões da imagem influenciadas por tokens que descrevem conteúdo versus tokens que descrevem estilo. Nossas descobertas revelam que os modelos de difusão demonstram graus variados de separação entre conteúdo e estilo, dependendo do prompt artístico específico e do estilo solicitado. Em muitos casos, os tokens de conteúdo influenciam principalmente regiões relacionadas a objetos, enquanto os tokens de estilo afetam áreas de fundo e textura, sugerindo um entendimento emergente da distinção entre conteúdo e estilo. Esses insights contribuem para nossa compreensão de como modelos generativos em larga escala representam internamente conceitos artísticos complexos sem supervisão explícita. Compartilhamos o código e o conjunto de dados, juntamente com uma ferramenta exploratória para visualizar mapas de atenção em https://github.com/umilISLab/artistic-prompt-interpretation.