Artigos de pesquisa em IA selecionados diariamente com traduções
Avanços recentes em modelos de raciocínio de grande escala (LRMs) demonstram que comportamentos sofisticados, como raciocínio em múltiplas etapas e autorreflexão, podem emergir por meio de aprendizado por reforço (RL) com recompensas baseadas em regras simples. No entanto, as abordagens existentes de zero-RL são inerentemente "on-policy", limitando o aprendizado às próprias saídas do modelo e falhando em adquirir habilidades de raciocínio além de suas capacidades iniciais. Apresentamos o LUFFY (Learning to Reason Under oFF-policY Guidance), um framework que amplia o zero-RL com traços de raciocínio off-policy. O LUFFY equilibra dinamicamente imitação e exploração ao combinar demonstrações off-policy com rollouts on-policy durante o treinamento. Notavelmente, propomos o ajuste de políticas por meio de amostragem de importância regularizada para evitar imitação superficial e rígida durante o treinamento de políticas mistas. De forma impressionante, o LUFFY alcança um ganho médio de +7,0 em seis benchmarks matemáticos e uma vantagem de mais de +6,2 pontos em tarefas fora da distribuição. Ele também supera substancialmente o ajuste fino supervisionado baseado em imitação (SFT), particularmente na generalização. A análise mostra que o LUFFY não apenas imita de forma eficaz, mas também explora além das demonstrações, oferecendo um caminho escalável para treinar modelos de raciocínio generalizáveis com orientação off-policy.
Apresentamos o Eagle 2.5, uma família de modelos de fronteira de linguagem-visual (VLMs) para aprendizado multimodal de contexto longo. Nosso trabalho aborda os desafios na compreensão de vídeos longos e no entendimento de imagens de alta resolução, introduzindo uma estrutura generalista para ambas as tarefas. O framework de treinamento proposto incorpora Amostragem Automática de Degradação e Preservação de Área de Imagem, duas técnicas que preservam a integridade contextual e os detalhes visuais. O framework também inclui diversas otimizações de eficiência no pipeline para o treinamento de dados de contexto longo. Por fim, propomos o Eagle-Video-110K, um novo conjunto de dados que integra anotações tanto em nível de história quanto em nível de clipe, facilitando o entendimento de vídeos longos. O Eagle 2.5 demonstra melhorias substanciais em benchmarks multimodais de contexto longo, oferecendo uma solução robusta para as limitações dos VLMs existentes. Notavelmente, nosso melhor modelo, o Eagle 2.5-8B, alcança 72,4% no Video-MME com 512 quadros de entrada, equiparando-se aos resultados de modelos comerciais de ponta, como o GPT-4o, e modelos de código aberto em grande escala, como o Qwen2.5-VL-72B e o InternVL2.5-78B.
Os atuais Modelos de Linguagem de Grande Escala (LLMs) frequentemente passam por ajuste fino supervisionado (SFT) para adquirir capacidades de uso de ferramentas. No entanto, o SFT enfrenta dificuldades para generalizar em cenários de uso de ferramentas desconhecidos ou complexos. Avanços recentes em aprendizado por reforço (RL), particularmente com modelos do tipo R1, demonstraram habilidades promissoras de raciocínio e generalização. No entanto, o design de recompensas para o uso de ferramentas apresenta desafios únicos: múltiplas ferramentas podem ser invocadas com parâmetros diversos, e sinais de recompensa de baixa granularidade, como correspondência de respostas, falham em fornecer o feedback refinado necessário para um aprendizado eficaz. Neste trabalho, apresentamos o primeiro estudo abrangente sobre o design de recompensas para tarefas de seleção e aplicação de ferramentas dentro do paradigma de RL. Exploramos sistematicamente uma ampla gama de estratégias de recompensa, analisando seus tipos, escalas, granularidade e dinâmicas temporais. Com base nessas análises, propomos um design de recompensas fundamentado para tarefas de uso de ferramentas e o aplicamos para treinar LLMs usando a Otimização de Política Relativa em Grupo (GRPO). Avaliações empíricas em diversos benchmarks demonstram que nossa abordagem resulta em treinamento robusto, escalável e estável, alcançando uma melhoria de 17% sobre os modelos base e um ganho de 15% sobre os modelos SFT. Esses resultados destacam o papel crucial de um design de recompensas bem pensado para aprimorar as capacidades de uso de ferramentas e o desempenho de generalização dos LLMs. Todos os códigos são disponibilizados para facilitar pesquisas futuras.
Este artigo propõe um meta-agente em nível de consulta chamado FlowReasoner para automatizar o design de sistemas multiagente em nível de consulta, ou seja, um sistema por consulta de usuário. Nossa ideia central é incentivar um meta-agente baseado em raciocínio por meio de feedback de execução externo. Concretamente, ao destilar o DeepSeek R1, primeiro dotamos o FlowReasoner com a capacidade básica de raciocínio em relação à geração de sistemas multiagente. Em seguida, aprimoramos ainda mais essa capacidade por meio de aprendizado por reforço (RL) com feedback de execução externo. Uma recompensa multifuncional foi projetada para orientar o treinamento de RL em termos de desempenho, complexidade e eficiência. Dessa forma, o FlowReasoner é capaz de gerar um sistema multiagente personalizado para cada consulta de usuário por meio de raciocínio deliberativo. Experimentos em benchmarks de código de engenharia e competição demonstram a superioridade do FlowReasoner. Notavelmente, ele supera o o1-mini em 10,52% de precisão em três benchmarks. O código está disponível em https://github.com/sail-sg/FlowReasoner.
O raciocínio integrado a ferramentas (TIR) amplia os modelos de linguagem de grande escala (LLMs) com a capacidade de invocar ferramentas externas, como motores de busca e interpretadores de código, para resolver tarefas que vão além das capacidades do raciocínio baseado apenas em linguagem. Embora o aprendizado por reforço (RL) tenha mostrado potencial para melhorar o TIR ao otimizar a precisão das respostas finais, as abordagens existentes frequentemente negligenciam a eficiência e o custo associados ao uso de ferramentas. Isso pode levar a comportamentos subótimos, incluindo chamadas excessivas a ferramentas que aumentam o custo computacional e financeiro, ou uso insuficiente de ferramentas que comprometem a qualidade das respostas. Neste trabalho, propomos o Optimal Tool Call-controlled Policy Optimization (OTC-PO), uma estrutura simples, porém eficaz, baseada em RL que incentiva os modelos a produzir respostas precisas com o mínimo de chamadas a ferramentas. Nosso método introduz uma recompensa integrada a ferramentas que considera conjuntamente a precisão e a eficiência no uso de ferramentas, promovendo alta produtividade. Instanciamos essa estrutura tanto no Proximal Policy Optimization (PPO) quanto no Group Relative Preference Optimization (GRPO), resultando no OTC-PPO e no OTC-GRPO. Experimentos com Qwen-2.5 e Qwen-Math em vários benchmarks de QA mostram que nossa abordagem reduz as chamadas a ferramentas em até 73,1% e melhora a produtividade no uso de ferramentas em até 229,4%, mantendo uma precisão de respostas comparável. Até onde sabemos, esta é a primeira estrutura baseada em RL que otimiza explicitamente a eficiência no uso de ferramentas no TIR.
Interações multi-turn com modelos de linguagem (LMs) apresentam riscos críticos de segurança, pois intenções maliciosas podem ser estrategicamente distribuídas ao longo das trocas. No entanto, a grande maioria dos trabalhos anteriores focou na segurança em turnos únicos, enquanto a adaptabilidade e a diversidade permanecem entre os principais desafios do red-teaming multi-turn. Para abordar esses desafios, apresentamos o X-Teaming, um framework escalável que explora sistematicamente como interações aparentemente inofensivas escalam para resultados prejudiciais e gera cenários de ataque correspondentes. O X-Teaming emprega agentes colaborativos para planejamento, otimização de ataques e verificação, alcançando eficácia e diversidade de jailbreak multi-turn de última geração, com taxas de sucesso de até 98,1% em modelos líderes representativos de código aberto e proprietários. Em particular, o X-Teaming alcança uma taxa de sucesso de ataque de 96,2% contra o mais recente modelo Claude 3.7 Sonnet, que era considerado quase imune a ataques de turno único. Com base no X-Teaming, introduzimos o XGuard-Train, um conjunto de dados de treinamento de segurança multi-turn de código aberto que é 20 vezes maior que o melhor recurso anterior, composto por 30K jailbreaks interativos, projetado para permitir um alinhamento robusto de segurança multi-turn para LMs. Nosso trabalho oferece ferramentas e insights essenciais para mitigar ataques conversacionais sofisticados, avançando a segurança multi-turn dos LMs.
Agentes de Uso de Computador (CUAs) recentes, impulsionados por modelos de linguagem multimodal de grande escala (LLMs), oferecem uma direção promissora para a automação de fluxos de trabalho complexos em desktops por meio de linguagem natural. No entanto, a maioria dos CUAs existentes permanece como protótipos conceituais, limitados por integração superficial com o sistema operacional, interação frágil baseada em capturas de tela e execução disruptiva. Apresentamos o UFO2, um AgentOS multiagente para desktops Windows que eleva os CUAs para a automação prática em nível de sistema. O UFO2 apresenta um HostAgent centralizado para decomposição e coordenação de tarefas, juntamente com uma coleção de AppAgents especializados em aplicativos, equipados com APIs nativas, conhecimento específico de domínio e uma camada unificada de ação GUI--API. Essa arquitetura permite execução robusta de tarefas enquanto preserva modularidade e extensibilidade. Um pipeline híbrido de detecção de controle combina a Automação de Interface de Usuário do Windows (UIA) com análise baseada em visão para suportar diversos estilos de interface. A eficiência em tempo de execução é ainda mais aprimorada por meio de planejamento especulativo de múltiplas ações, reduzindo a sobrecarga por etapa do LLM. Por fim, uma interface Picture-in-Picture (PiP) permite automação dentro de um desktop virtual isolado, permitindo que agentes e usuários operem simultaneamente sem interferência. Avaliamos o UFO2 em mais de 20 aplicativos Windows do mundo real, demonstrando melhorias substanciais em robustez e precisão de execução em comparação com CUAs anteriores. Nossos resultados mostram que a integração profunda com o sistema operacional desbloqueia um caminho escalável para automação de desktop confiável e alinhada com o usuário.
A crescente demanda por aplicações de AR/VR destacou a necessidade de conteúdo panorâmico de 360 graus de alta qualidade. No entanto, a geração de imagens e vídeos panorâmicos de 360 graus de alta qualidade permanece uma tarefa desafiadora devido às severas distorções introduzidas pela projeção equirretangular (ERP). As abordagens existentes ou ajustam modelos de difusão pré-treinados em conjuntos de dados ERP limitados ou tentam métodos sem ajuste que ainda dependem de representações latentes ERP, resultando em descontinuidades próximas aos polos. Neste artigo, apresentamos o SphereDiff, uma abordagem inovadora para a geração contínua de imagens e vídeos panorâmicos de 360 graus utilizando modelos de difusão state-of-the-art sem ajustes adicionais. Definimos uma representação latente esférica que garante uma distribuição uniforme em todas as perspectivas, mitigando as distorções inerentes ao ERP. Estendemos o MultiDiffusion para o espaço latente esférico e propomos um método de amostragem latente esférica para permitir o uso direto de modelos de difusão pré-treinados. Além disso, introduzimos uma média ponderada consciente das distorções para melhorar ainda mais a qualidade da geração no processo de projeção. Nosso método supera as abordagens existentes na geração de conteúdo panorâmico de 360 graus, mantendo alta fidelidade, tornando-o uma solução robusta para aplicações imersivas de AR/VR. O código está disponível aqui: https://github.com/pmh9960/SphereDiff.
Modelos de raciocínio têm demonstrado desempenho impressionante em tarefas difíceis nas quais os modelos de linguagem tradicionais lutam. No entanto, muitos são afetados pelo problema de "overthinking" - gerando grandes quantidades de tokens desnecessários que não melhoram a precisão em uma questão. Introduzimos medidas aproximadas de dificuldade no nível do problema e demonstramos que existe uma relação clara entre a dificuldade do problema e o gasto ideal de tokens, além de avaliar quão bem calibrados estão uma variedade de modelos de raciocínio em termos de alocação eficiente do número ideal de tokens. Descobrimos que, em geral, os modelos de raciocínio estão mal calibrados, especialmente em problemas fáceis. Para avaliar a calibração em questões fáceis, introduzimos o DUMB500, um conjunto de dados de problemas extremamente simples de matemática, raciocínio, código e tarefas, e avaliamos conjuntamente os modelos de raciocínio nesses exemplos simples e em exemplos extremamente difíceis de benchmarks de fronteira existentes no mesmo domínio de tarefa. Por fim, introduzimos o THOUGHTTERMINATOR, uma técnica de decodificação de caixa preta sem treinamento que melhora significativamente a calibração dos modelos de raciocínio.
Neste artigo, apresentamos o EasyEdit2, um framework projetado para permitir ajustabilidade plug-and-play no controle de comportamentos de Modelos de Linguagem de Grande Escala (LLMs). O EasyEdit2 suporta uma ampla gama de intervenções em tempo de teste, incluindo segurança, sentimento, personalidade, padrões de raciocínio, factualidade e características de linguagem. Diferente de seu predecessor, o EasyEdit2 apresenta uma nova arquitetura especificamente projetada para direcionamento contínuo e suave do modelo. Ele compreende módulos-chave, como o gerador de vetores de direcionamento e o aplicador de vetores de direcionamento, que permitem a geração e aplicação automática de vetores de direcionamento para influenciar o comportamento do modelo sem modificar seus parâmetros. Uma das principais vantagens do EasyEdit2 é sua facilidade de uso — os usuários não precisam de conhecimento técnico extensivo. Com apenas um único exemplo, eles podem guiar e ajustar efetivamente as respostas do modelo, tornando o controle preciso acessível e eficiente. Empiricamente, relatamos o desempenho de direcionamento do modelo em diferentes LLMs, demonstrando a eficácia dessas técnicas. Disponibilizamos o código-fonte no GitHub em https://github.com/zjunlp/EasyEdit, juntamente com um notebook de demonstração. Além disso, fornecemos um vídeo de demonstração em https://zjunlp.github.io/project/EasyEdit2/video para uma introdução rápida.
A compreensão multi-visão, a capacidade de reconciliar informações visuais a partir de diversas perspectivas para navegação eficaz, manipulação e compreensão de cenas 3D, é um desafio fundamental em Modelos de Linguagem de Grande Escala Multimodais (MLLMs) destinados a serem usados como agentes incorporados. Embora os MLLMs recentes tenham mostrado avanços impressionantes em raciocínio e planejamento de alto nível, eles frequentemente falham quando confrontados com consistência geométrica multi-visão e correspondência entre visões. Para avaliar de forma abrangente os desafios dos MLLMs no raciocínio de cenas multi-visão, propomos o All-Angles Bench, um benchmark com mais de 2.100 pares de perguntas e respostas multi-visão cuidadosamente anotados por humanos em 90 cenas reais diversas. Nossas seis tarefas (contagem, identificação de atributos, distância relativa, direção relativa, manipulação de objetos e estimativa de pose da câmera) testam especificamente a correspondência geométrica do modelo e a capacidade de alinhar informações de forma consistente entre as visões. Nossos extensos experimentos, que avaliam 27 MLLMs representativos, incluindo Gemini-2.0-Flash, Claude-3.7-Sonnet e GPT-4o, em comparação com avaliadores humanos, revelam uma lacuna substancial de desempenho, indicando que os MLLMs atuais ainda estão longe da proficiência em nível humano. Através de uma análise detalhada, mostramos que os MLLMs estão particularmente aquém em dois aspectos: (1) correspondência entre visões para visões parcialmente ocluídas e (2) estabelecimento de poses grosseiras da câmera. Essas descobertas destacam a necessidade de refinamentos ou módulos específicos de domínio que incorporem uma maior consciência multi-visão. Acreditamos que o All-Angles Bench oferece insights valiosos e contribui para reduzir a lacuna entre os MLLMs e a compreensão multi-visão em nível humano. O projeto e o benchmark estão publicamente disponíveis em https://danielchyeh.github.io/All-Angles-Bench/.
O 3D Gaussian Splatting (3DGS) se destaca na reconstrução fotorrealista de cenas, mas enfrenta dificuldades em cenários estilizados (por exemplo, desenhos animados, jogos) devido a texturas fragmentadas, desalinhamento semântico e adaptabilidade limitada a estéticas abstratas. Propomos o StyleMe3D, um framework holístico para transferência de estilo em 3D GS que integra condicionamento de estilo multimodal, alinhamento semântico multinível e aprimoramento de qualidade perceptiva. Nossas principais percepções incluem: (1) otimizar apenas atributos RGB preserva a integridade geométrica durante a estilização; (2) desacoplar semânticas de baixo, médio e alto nível é crucial para uma transferência de estilo coerente; (3) escalabilidade em objetos isolados e cenas complexas é essencial para implantação prática. O StyleMe3D introduz quatro componentes novos: Dynamic Style Score Distillation (DSSD), que aproveita o espaço latente do Stable Diffusion para alinhamento semântico; Contrastive Style Descriptor (CSD) para transferência de textura localizada e consciente do conteúdo; Simultaneously Optimized Scale (SOS) para desacoplar detalhes de estilo e coerência estrutural; e 3D Gaussian Quality Assessment (3DG-QA), um prior estético diferenciável treinado em dados avaliados por humanos para suprimir artefatos e aprimorar a harmonia visual. Avaliado no conjunto de dados sintéticos NeRF (objetos) e tandt db (cenas), o StyleMe3D supera métodos state-of-the-art na preservação de detalhes geométricos (por exemplo, entalhes em esculturas) e na garantia de consistência estilística em cenas (por exemplo, iluminação coerente em paisagens), mantendo a renderização em tempo real. Este trabalho conecta o 3D GS fotorrealista e a estilização artística, abrindo caminho para aplicações em jogos, mundos virtuais e arte digital.
Apresentamos o LeetCodeDataset, um benchmark de alta qualidade para avaliação e treinamento de modelos de geração de código, abordando dois desafios fundamentais na pesquisa de LLMs: a escassez de benchmarks de codificação focados em raciocínio e ambientes de treinamento autossuficientes. Ao curar problemas de Python do LeetCode com metadados ricos, ampla cobertura, mais de 100 casos de teste por problema e divisões temporais (antes/depois de julho de 2024), nosso conjunto de dados permite avaliação livre de contaminação e ajuste fino supervisionado (SFT) eficiente. Experimentos mostram que modelos de raciocínio superam significativamente suas contrapartes não orientadas a raciocínio, enquanto o SFT com apenas 2,6 mil soluções geradas pelo modelo alcança desempenho comparável a contrapartes com 110 mil amostras. O conjunto de dados e o framework de avaliação estão disponíveis no Hugging Face e no Github.
Os controles de movimento de câmera e humano têm sido amplamente estudados para geração de vídeo, mas as abordagens existentes geralmente os tratam separadamente, sofrendo com dados limitados e anotações de alta qualidade para ambos os aspectos. Para superar isso, apresentamos o Uni3C, uma estrutura unificada aprimorada em 3D para controle preciso tanto do movimento da câmera quanto do humano na geração de vídeo. O Uni3C inclui duas contribuições principais. Primeiro, propomos um módulo de controle plug-and-play treinado com um backbone gerador de vídeo congelado, o PCDController, que utiliza nuvens de pontos não projetadas a partir de profundidade monocular para alcançar controle preciso da câmera. Ao aproveitar os fortes priors 3D das nuvens de pontos e as capacidades poderosas dos modelos fundamentais de vídeo, o PCDController demonstra uma generalização impressionante, desempenhando-se bem independentemente de o backbone de inferência estar congelado ou ajustado. Essa flexibilidade permite que diferentes módulos do Uni3C sejam treinados em domínios específicos, ou seja, controle de câmera ou controle de movimento humano, reduzindo a dependência de dados anotados conjuntamente. Segundo, propomos uma orientação de mundo 3D alinhada conjuntamente para a fase de inferência que integra perfeitamente tanto nuvens de pontos cênicas quanto personagens SMPL-X para unificar os sinais de controle para câmera e movimento humano, respectivamente. Experimentos extensos confirmam que o PCDController possui forte robustez ao dirigir o movimento da câmera para backbones ajustados de geração de vídeo. O Uni3C supera substancialmente os concorrentes tanto na controlabilidade da câmera quanto na qualidade do movimento humano. Além disso, coletamos conjuntos de validação personalizados com movimentos desafiadores de câmera e ações humanas para validar a eficácia do nosso método.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm impulsionado Agentes de Interface Gráfica do Usuário (GUI), mostrando potencial na automação de tarefas em dispositivos computacionais. Trabalhos recentes começaram a explorar o raciocínio em tarefas de GUI com resultados encorajadores. No entanto, muitas abordagens atuais dependem de modelos de raciocínio projetados manualmente, o que pode resultar em um raciocínio insuficientemente robusto e adaptativo para ambientes de GUI complexos. Enquanto isso, alguns agentes existentes continuam a operar como Atores Reativos, dependendo principalmente de raciocínio implícito que pode carecer de profundidade suficiente para tarefas de GUI que exigem planejamento e recuperação de erros. Argumentamos que o avanço desses agentes requer uma mudança de atuação reativa para atuação baseada em raciocínio deliberativo. Para facilitar essa transformação, introduzimos o InfiGUI-R1, um agente de GUI baseado em MLLM desenvolvido por meio de nosso framework Actor2Reasoner, uma abordagem de treinamento em duas etapas centrada no raciocínio, projetada para evoluir progressivamente os agentes de Atores Reativos para Raciocinadores Deliberativos. A primeira etapa, Injeção de Raciocínio, concentra-se em estabelecer um raciocinador básico. Empregamos a Destilação de Raciocínio Espacial para transferir capacidades de raciocínio espacial multimodal de modelos professores para MLLMs por meio de trajetórias com etapas de raciocínio explícitas, permitindo que os modelos integrem informações visuais-espaciais da GUI com raciocínio lógico antes da geração de ações. A segunda etapa, Aprimoramento da Deliberação, refina o raciocinador básico em um deliberativo usando Aprendizado por Reforço. Esta etapa introduz duas abordagens: Orientação de Sub-objetivos, que recompensa os modelos por gerar sub-objetivos intermediários precisos, e Construção de Cenários de Recuperação de Erros, que cria cenários de treinamento de falha e recuperação a partir de etapas identificadas como propensas a erros. Resultados experimentais mostram que o InfiGUI-R1 alcança um desempenho forte em tarefas de fundamentação de GUI e trajetórias. Recursos disponíveis em https://github.com/Reallm-Labs/InfiGUI-R1.
Apresentamos o Distributional RewArds for Generative OptimizatioN (DRAGON), um framework versátil para ajuste fino de modelos de geração de mídia visando um resultado desejado. Em comparação com métodos tradicionais de aprendizado por reforço com feedback humano (RLHF) ou abordagens de preferência pareada, como a otimização direta de preferência (DPO), o DRAGON é mais flexível. Ele pode otimizar funções de recompensa que avaliam tanto exemplos individuais quanto distribuições deles, tornando-o compatível com uma ampla gama de recompensas baseadas em instâncias, instância-para-distribuição e distribuição-para-distribuição. Aproveitando essa versatilidade, construímos novas funções de recompensa selecionando um codificador e um conjunto de exemplos de referência para criar uma distribuição exemplar. Quando codificadores de modalidade cruzada, como o CLAP, são utilizados, os exemplos de referência podem ser de uma modalidade diferente (por exemplo, texto versus áudio). Em seguida, o DRAGON coleta gerações online e on-policy, pontua-as para construir um conjunto de demonstrações positivas e um conjunto negativo, e utiliza o contraste entre os dois conjuntos para maximizar a recompensa. Para avaliação, ajustamos finamente um modelo de difusão de texto-para-música no domínio de áudio com 20 funções de recompensa diferentes, incluindo um modelo personalizado de estética musical, pontuação CLAP, diversidade Vendi e distância de áudio Fréchet (FAD). Além disso, comparamos configurações de FAD baseadas em instâncias (por música) e em todo o conjunto de dados, enquanto realizamos ablações em múltiplos codificadores FAD e conjuntos de referência. Em todas as 20 recompensas-alvo, o DRAGON alcança uma taxa média de vitória de 81,45%. Além disso, funções de recompensa baseadas em conjuntos exemplares de fato melhoram as gerações e são comparáveis a recompensas baseadas em modelos. Com um conjunto exemplar apropriado, o DRAGON alcança uma taxa de vitória de 60,95% na qualidade musical votada por humanos, sem treinamento em anotações de preferência humana. Assim, o DRAGON apresenta uma nova abordagem para projetar e otimizar funções de recompensa visando melhorar a qualidade percebida por humanos. Exemplos de áudio estão disponíveis em https://ml-dragon.github.io/web.
Agentes de interface gráfica móvel mostram potencial na automação de tarefas, mas enfrentam desafios de generalização em diversos cenários do mundo real. Abordagens tradicionais que utilizam pré-treinamento ou ajuste fino com grandes conjuntos de dados lutam com a diversidade de aplicativos móveis e tarefas específicas do usuário. Propomos aprimorar as capacidades dos agentes de GUI móvel por meio de demonstrações humanas, focando na melhoria do desempenho em cenários não vistos, em vez de buscar uma generalização universal através de conjuntos de dados maiores. Para concretizar esse paradigma, introduzimos o LearnGUI, o primeiro conjunto de dados abrangente projetado especificamente para estudar o aprendizado baseado em demonstrações em agentes de GUI móvel, composto por 2.252 tarefas offline e 101 tarefas online com demonstrações humanas de alta qualidade. Desenvolvemos ainda o LearnAct, um sofisticado framework multiagente que extrai automaticamente conhecimento das demonstrações para melhorar a conclusão de tarefas. Esse framework integra três agentes especializados: DemoParser para extração de conhecimento, KnowSeeker para recuperação de conhecimento relevante e ActExecutor para execução de tarefas aprimoradas por demonstrações. Nossos resultados experimentais mostram ganhos significativos de desempenho tanto em avaliações offline quanto online. Nas avaliações offline, uma única demonstração melhora o desempenho do modelo, aumentando a precisão do Gemini-1.5-Pro de 19,3% para 51,7%. Nas avaliações online, nosso framework aumenta a taxa de sucesso de tarefas do UI-TARS-7B-SFT de 18,1% para 32,8%. O framework LearnAct e o benchmark LearnGUI estabelecem o aprendizado baseado em demonstrações como uma direção promissora para agentes de GUI móvel mais adaptáveis, personalizados e implantáveis.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado fortes capacidades de raciocínio, especialmente quando aprimorados por meio de Aprendizado por Reforço (RL). Embora trabalhos anteriores tenham aplicado com sucesso RL ao raciocínio matemático -- onde as regras e a correção são bem definidas -- generalizar esses métodos para domínios mais amplos de raciocínio continua desafiador devido à limitação de dados, à falta de estruturas de recompensa verificáveis e à diversidade de requisitos das tarefas. Neste trabalho, propomos o NEMOTRON-CROSSTHINK, um framework que incorpora sistematicamente corpora de múltiplos domínios, incluindo pares de perguntas e respostas sintéticas e do mundo real, no treinamento de RL para melhorar a generalização em diversas tarefas de raciocínio. O NEMOTRON-CROSSTHINK aborda desafios-chave ao (1) incorporar dados de fontes variadas que abrangem STEM, humanidades, ciências sociais, etc.; (2) aplicar modelos estruturados (por exemplo, múltipla escolha e respostas abertas) para controlar a complexidade do espaço de respostas; (3) filtrar respostas verificáveis; e (4) otimizar estratégias de combinação de dados que utilizam efetivamente dados de múltiplas fontes. Nossa abordagem permite a modelagem escalável e verificável de recompensas além da matemática e demonstra melhorias de precisão tanto em benchmarks de raciocínio matemático (MATH-500: +30,1%, AMC23: +27,5%) quanto em benchmarks de raciocínio não matemático (MMLU-PRO: +12,8%, GPQA-DIAMOND: +11,3%, AGIEVAL: +15,1%, SUPERGPQA: +3,8%). Além disso, o NEMOTRON-CROSSTHINK exibe uma eficiência de resposta significativamente melhorada -- usando 28% menos tokens para respostas corretas -- destacando um raciocínio mais focado e eficaz. Por meio do NEMOTRON-CROSSTHINK, demonstramos que a integração de dados de múltiplos domínios e formatos no RL resulta em LLMs mais precisos, eficientes e generalizáveis.
Modelos Multimodais de Grande Escala (LMMs) percebem uniformemente os quadros de vídeo, criando ineficiência computacional para vídeos com densidade de informação temporal inerentemente variável. Este artigo apresenta o Quicksviewer, um LMM com um novo paradigma de percepção que particiona um vídeo de densidade não uniforme em cubos variáveis usando Gumbel Softmax, seguido por uma reamostragem unificada para cada cubo, a fim de alcançar uma compreensão eficiente de vídeo. Essa abordagem simples e intuitiva comprime dinamicamente o vídeo online com base em sua densidade temporal, reduzindo significativamente a redundância espaço-temporal (taxa de compressão geral de 45 vezes), ao mesmo tempo em que permite um treinamento eficiente com um grande campo receptivo. Treinamos o modelo a partir de uma base linguística por meio de três estágios progressivos, cada um incorporando vídeos longos com média de 420s/1fps, graças à eficiência de percepção. Com apenas 0,8M de amostras vídeo-texto totais para treinamento, nosso modelo supera a linha de base direta que emprega uma estratégia de particionamento fixo em até 8,72 em precisão, demonstrando a eficácia no desempenho. No Video-MME, o Quicksviewer alcança o estado da arte (SOTA) sob comprimentos de sequência modestos, usando apenas até 5% dos tokens por quadro exigidos pelas linhas de base. Com esse paradigma, a ampliação do número de quadros de entrada revela uma clara lei de potência das capacidades do modelo. Também foi empiricamente verificado que os segmentos gerados pela rede de cubagem podem auxiliar na análise de eventos contínuos em vídeos.
Apresentamos o TAPIP3D, uma abordagem inovadora para o rastreamento de longo prazo de pontos 3D em vídeos monoculares RGB e RGB-D. O TAPIP3D representa vídeos como nuvens espaço-temporais de características estabilizadas em relação à câmera, utilizando informações de profundidade e movimento da câmera para elevar características 2D do vídeo para um espaço 3D onde o movimento da câmera é efetivamente cancelado. O TAPIP3D refina iterativamente as estimativas de movimento 3D multiframe dentro dessa representação estabilizada, permitindo um rastreamento robusto por períodos prolongados. Para lidar com as irregularidades inerentes das distribuições de pontos 3D, propomos um mecanismo de Atenção de Pares Locais. Essa estratégia de contextualização 3D explora efetivamente as relações espaciais em 3D, formando vizinhanças de características informativas para uma estimativa precisa de trajetórias 3D. Nossa abordagem centrada em 3D supera significativamente os métodos existentes de rastreamento de pontos 3D e até melhora a precisão do rastreamento 2D em comparação com rastreadores de pixels 2D convencionais quando a profundidade é precisa. Ela suporta inferência tanto em coordenadas da câmera (ou seja, não estabilizadas) quanto em coordenadas do mundo, e nossos resultados demonstram que a compensação do movimento da câmera melhora o desempenho do rastreamento. Nossa abordagem substitui as vizinhanças de correlação quadrada 2D convencionais usadas em rastreadores 2D e 3D anteriores, resultando em resultados mais robustos e precisos em vários benchmarks de rastreamento de pontos 3D. Página do Projeto: https://tapip3d.github.io
Este estudo realiza uma comparação detalhada entre o modelo base de detecção de objetos RF-DETR e as configurações do modelo de detecção de objetos YOLOv12 para a detecção de frutos verdes em um ambiente complexo de pomar, caracterizado por ambiguidade de rótulos, oclusões e mistura com o fundo. Um conjunto de dados personalizado foi desenvolvido, contendo anotações tanto de classe única (fruto verde) quanto de múltiplas classes (frutos verdes ocluídos e não ocluídos), para avaliar o desempenho dos modelos em condições dinâmicas do mundo real. O modelo de detecção de objetos RF-DETR, que utiliza uma arquitetura DINOv2 e atenção deformável, destacou-se na modelagem de contexto global, identificando efetivamente frutos verdes parcialmente ocluídos ou ambíguos. Em contraste, o YOLOv12 aproveitou a atenção baseada em CNN para uma extração aprimorada de características locais, otimizando-o para eficiência computacional e implantação em dispositivos de borda. O RF-DETR alcançou a maior Precisão Média (mAP50) de 0,9464 na detecção de classe única, comprovando sua superioridade na localização de frutos verdes em cenas complexas. Embora o YOLOv12N tenha registrado o maior mAP@50:95 de 0,7620, o RF-DETR consistentemente superou em cenários espaciais complexos. Para a detecção de múltiplas classes, o RF-DETR liderou com um mAP@50 de 0,8298, mostrando sua capacidade de diferenciar entre frutos ocluídos e não ocluídos, enquanto o YOLOv12L obteve o maior mAP@50:95 com 0,6622, indicando uma melhor classificação em contextos detalhados de oclusão. A análise da dinâmica de treinamento destacou a rápida convergência do RF-DETR, especialmente em configurações de classe única, onde atingiu um platô em 10 épocas, demonstrando a eficiência das arquiteturas baseadas em transformadores na adaptação a dados visuais dinâmicos. Esses resultados validam a eficácia do RF-DETR para aplicações de agricultura de precisão, enquanto o YOLOv12 é mais adequado para cenários que exigem resposta rápida. >Termos de Indexação: Detecção de objetos RF-DETR, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Transformers de Detecção, CNNs.
Anamorfose refere-se a uma categoria de imagens que são intencionalmente distorcidas, tornando-as irreconhecíveis quando vistas diretamente. Sua verdadeira forma só se revela quando observada de um ponto de vista específico, que pode ser através de algum dispositivo catadióptrico, como um espelho ou uma lente. Embora a construção desses dispositivos matemáticos possa ser rastreada até o século XVII, eles só são interpretáveis quando vistos de um ângulo específico e tendem a perder o significado quando observados normalmente. Neste artigo, revisitamos essas famosas ilusões de ótica com uma abordagem generativa. Com a ajuda de modelos de fluxo retificado latente, propomos um método para criar imagens anamórficas que ainda mantêm uma interpretação válida quando vistas diretamente. Para isso, introduzimos o Laplacian Pyramid Warping, uma técnica de deformação de imagem consciente da frequência, essencial para gerar visuais de alta qualidade. Nosso trabalho estende os Anagramas Visuais (arXiv:2311.17919) para modelos de espaço latente e para uma gama mais ampla de transformações espaciais, permitindo a criação de novas ilusões perceptivas generativas.
Modelos de base de visão (VFMs), como DINOv2 e CLIP, alcançaram resultados impressionantes em diversas tarefas subsequentes, mas sua resolução limitada de características prejudica o desempenho em aplicações que exigem compreensão em nível de pixel. A interpolação de características oferece uma direção promissora para abordar esse desafio. Neste trabalho, identificamos dois fatores críticos para aprimorar a interpolação de características: a arquitetura do interpolador e o objetivo de treinamento. Para a arquitetura do interpolador, introduzimos um transformador de atenção cruzada baseado em coordenadas que integra imagens de alta resolução com coordenadas e características de baixa resolução do VFM para gerar características nítidas e de alta qualidade. Para o objetivo de treinamento, propomos a construção de características pseudo-ground truth de alta resolução, aproveitando máscaras agnósticas de classe e auto-distilação. Nossa abordagem captura efetivamente detalhes refinados e se adapta de forma flexível a várias resoluções de entrada e de características. Por meio de experimentos, demonstramos que nossa abordagem supera significativamente as técnicas existentes de interpolação de características em diversas tarefas subsequentes. Nosso código está disponível em https://github.com/andrehuang/loftup.
Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades impressionantes, mas são suscetíveis a prompts adversariais que exploram vulnerabilidades para produzir saídas inseguras ou tendenciosas. Os métodos existentes de red-teaming frequentemente enfrentam desafios de escalabilidade, requisitos intensivos de recursos ou diversidade limitada nas estratégias de ataque. Propomos o RainbowPlus, uma nova estrutura de red-teaming baseada em computação evolutiva, que aprimora a geração de prompts adversariais por meio de uma busca adaptativa de qualidade-diversidade (QD) que estende algoritmos evolutivos clássicos como o MAP-Elites com inovações específicas para modelos de linguagem. Ao empregar um arquivo de múltiplos elementos para armazenar prompts diversos e de alta qualidade e uma função de aptidão abrangente para avaliar múltiplos prompts simultaneamente, o RainbowPlus supera as limitações de arquivos de prompt único e comparações pareadas em métodos QD anteriores, como o Rainbow Teaming. Experimentos comparando o RainbowPlus a métodos QD em seis conjuntos de dados de referência e quatro LLMs de código aberto demonstram uma taxa de sucesso de ataque (ASR) superior e diversidade (Diverse-Score aprox. 0,84), gerando até 100 vezes mais prompts únicos (por exemplo, 10.418 vs. 100 para o Ministral-8B-Instruct-2410). Contra nove métodos state-of-the-art no conjunto de dados HarmBench com doze LLMs (dez de código aberto, dois de código fechado), o RainbowPlus alcança uma ASR média de 81,1%, superando o AutoDAN-Turbo em 3,9% e sendo 9 vezes mais rápido (1,45 vs. 13,50 horas). Nossa implementação de código aberto promove avanços na segurança de LLMs, oferecendo uma ferramenta escalável para avaliação de vulnerabilidades. Código e recursos estão publicamente disponíveis em https://github.com/knoveleng/rainbowplus, apoiando a reprodutibilidade e pesquisas futuras em red-teaming de LLMs.
Projetamos um conjunto de tarefas algorítmicas mínimas que são uma abstração flexível de tarefas do mundo real de natureza aberta. Isso nos permite quantificar de forma clara e controlável os limites criativos dos modelos de linguagem atuais. Assim como tarefas do mundo real que exigem um salto criativo e visionário de pensamento, nossas tarefas requerem uma etapa implícita e aberta de planejamento estocástico que (a) descobre novas conexões em um grafo de conhecimento abstrato (como em jogos de palavras, analogias ou pesquisa) ou (b) constrói novos padrões (como na criação de problemas matemáticos ou novas proteínas). Nessas tarefas, argumentamos empiricamente e conceitualmente como o aprendizado de próximo token é míope e memoriza excessivamente; em comparação, abordagens de múltiplos tokens, especificamente treinamento sem supervisão e modelos de difusão, se destacam na produção de saídas diversas e originais. Em segundo lugar, em nossas tarefas, descobrimos que, para eliciar aleatoriedade do Transformer sem prejudicar a coerência, é melhor injetar ruído diretamente na camada de entrada (por meio de um método que chamamos de condicionamento por hash) em vez de depender da amostragem por temperatura na camada de saída. Assim, nosso trabalho oferece um ambiente de teste mínimo e fundamentado para analisar habilidades criativas de natureza aberta e apresenta novos argumentos para ir além do aprendizado de próximo token e da amostragem baseada em softmax. Disponibilizamos parte do código em https://github.com/chenwu98/algorithmic-creativity.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais implantados em pipelines especializados de processamento de dados de produção em diversos domínios — como finanças, marketing e comércio eletrônico. No entanto, ao executá-los em produção com muitas entradas, eles frequentemente falham em seguir instruções ou atender às expectativas dos desenvolvedores. Para melhorar a confiabilidade nessas aplicações, é essencial criar asserções ou guardrails para as saídas dos LLMs que funcionem em conjunto com os pipelines. No entanto, determinar o conjunto correto de asserções que capturam os requisitos dos desenvolvedores para uma tarefa é desafiador. Neste artigo, apresentamos o PROMPTEVALS, um conjunto de dados com 2087 prompts de pipelines de LLMs e 12623 critérios de asserção correspondentes, obtidos de desenvolvedores que utilizam nossas ferramentas de pipeline de LLMs de código aberto. Esse conjunto de dados é 5 vezes maior do que coleções anteriores. Usando uma divisão de teste reservada do PROMPTEVALS como benchmark, avaliamos modelos de código fechado e aberto na geração de asserções relevantes. Notavelmente, nossos modelos Mistral e Llama 3 ajustados superam o GPT-4o em média 20,93%, oferecendo tanto latência reduzida quanto desempenho aprimorado. Acreditamos que nosso conjunto de dados pode impulsionar mais pesquisas em confiabilidade, alinhamento e engenharia de prompts para LLMs.
Apresentamos uma abordagem para detectar e rastrear poses 3D detalhadas de múltiplas pessoas a partir de um único fluxo de câmera monocular. Nosso sistema mantém previsões temporalmente coerentes em cenas lotadas com poses difíceis e oclusões. Nosso modelo realiza tanto uma detecção robusta por quadro quanto uma atualização de pose aprendida para rastrear pessoas de quadro a quadro. Em vez de corresponder detecções ao longo do tempo, as poses são atualizadas diretamente a partir de uma nova imagem de entrada, o que permite o rastreamento online mesmo durante oclusões. Treinamos em diversos conjuntos de dados de imagens e vídeos, aproveitando anotações pseudo-rotuladas para produzir um modelo que iguala sistemas de última geração em precisão de estimativa de pose 3D, ao mesmo tempo em que é mais rápido e preciso no rastreamento de múltiplas pessoas ao longo do tempo. O código e os pesos estão disponíveis em https://github.com/apple/ml-comotion.
Modelos de Linguagem Visual Médica têm demonstrado grande potencial em diversas aplicações de saúde, incluindo legendagem de imagens médicas e assistência diagnóstica. No entanto, a maioria dos modelos existentes depende de instruções baseadas em texto, limitando sua usabilidade em ambientes clínicos do mundo real, especialmente em cenários como cirurgias, onde a interação baseada em texto muitas vezes é impraticável para os médicos. Além disso, os atuais modelos de análise de imagens médicas geralmente carecem de um raciocínio abrangente por trás de suas previsões, o que reduz sua confiabilidade para a tomada de decisões clínicas. Dado que erros de diagnóstico médico podem ter consequências que mudam vidas, há uma necessidade crítica de assistência médica interpretável e racional. Para enfrentar esses desafios, introduzimos um Modelo de Linguagem Visual Médica (VLM) orientado por fala de ponta a ponta, o SilVar-Med, um assistente de imagens médicas multimodal que integra interação por fala com VLMs, pioneiro na tarefa de comunicação baseada em voz para análise de imagens médicas. Além disso, focamos na interpretação do raciocínio por trás de cada previsão de anormalidades médicas com um conjunto de dados de raciocínio proposto. Por meio de extensos experimentos, demonstramos um estudo de prova de conceito para interpretação de imagens médicas orientada por raciocínio com interação por fala de ponta a ponta. Acreditamos que este trabalho avançará o campo da IA médica ao promover sistemas de suporte diagnóstico mais transparentes, interativos e clinicamente viáveis. Nosso código e conjunto de dados estão publicamente disponíveis no SiVar-Med.