Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Relatório Técnico do BitNet b1.58 2B4T
BitNet b1.58 2B4T Technical Report

Apr 16

ByShuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

Apresentamos o BitNet b1.58 2B4T, o primeiro modelo de linguagem de grande escala (LLM) nativo de 1 bit e de código aberto na escala de 2 bilhões de parâmetros. Treinado em um corpus de 4 trilhões de tokens, o modelo foi rigorosamente avaliado em benchmarks que abrangem compreensão de linguagem, raciocínio matemático, proficiência em codificação e habilidade conversacional. Nossos resultados demonstram que o BitNet b1.58 2B4T alcança desempenho equivalente aos principais LLMs de precisão completa e pesos abertos de tamanho similar, ao mesmo tempo que oferece vantagens significativas em eficiência computacional, incluindo uma pegada de memória substancialmente reduzida, menor consumo de energia e latência de decodificação. Para facilitar pesquisas futuras e adoção, os pesos do modelo são disponibilizados via Hugging Face, juntamente com implementações de inferência de código aberto para arquiteturas de GPU e CPU.

ReTool: Aprendizado por Reforço para Uso Estratégico de Ferramentas em LLMs
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Apr 15

ByJiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong

Embora modelos de raciocínio (por exemplo, DeepSeek R1) treinados com aprendizado por reforço (RL) se destaquem no raciocínio textual, eles enfrentam dificuldades em cenários que exigem resolução estruturada de problemas, como raciocínio geométrico, computação concisa ou resolução de equações complexas — áreas onde ferramentas computacionais como interpretadores de código (CI) demonstram vantagens distintas. Para preencher essa lacuna, propomos o ReTool, que aprimora o raciocínio de longo formato com aprendizado integrado a ferramentas, incluindo duas características principais: (1) intercalação dinâmica de execução de código em tempo real dentro de processos de raciocínio em linguagem natural, e (2) um paradigma de RL automatizado que permite execuções de políticas com execução de código em tempo real em múltiplas etapas e ensina o modelo a aprender quando e como invocar ferramentas com base no feedback dos resultados. O ReTool emprega um framework de treinamento sistemático, começando com a geração de dados sintéticos de inicialização a frio para produzir traços de raciocínio de longo formato aumentados com código para ajuste fino de modelos base. O treinamento subsequente de RL aproveita os resultados das tarefas como recompensas para refinar iterativamente a estratégia de uso de ferramentas do modelo, permitindo a descoberta autônoma de padrões ótimos de invocação de ferramentas sem prévios humanos. Experimentos no desafiador benchmark MATH Olympiad AIME demonstram a superioridade do ReTool: Nosso modelo de 32B alcança 67% de precisão com 400 etapas de treinamento, superando a linha de base de RL baseada em texto (40% de precisão, 1080 etapas) em eficiência e desempenho. Notavelmente, o ReTool-32B atinge 72,5% de precisão em configurações estendidas, superando o o1-preview da OpenAI em 27,9%. Análises adicionais revelam comportamentos emergentes, como autocorreção de código, sinalizando um "momento de insight" no qual o modelo domina autonomamente o uso adaptativo de ferramentas. Esses achados destacam o potencial da integração de ferramentas orientada por resultados para avançar o raciocínio matemático complexo e oferecem novas perspectivas sobre sistemas híbridos neuro-simbólicos.

ColorBench: Os Modelos de Linguagem Visual Podem Ver e Compreender o Mundo Colorido? Um Benchmark Abrangente para Percepção de Cores, Raciocínio e Robustez
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

Apr 10

ByYijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou

A cor desempenha um papel importante na percepção humana e geralmente fornece pistas críticas no raciocínio visual. No entanto, não está claro se e como os modelos visão-linguagem (VLMs) podem perceber, compreender e utilizar a cor como os humanos. Este artigo apresenta o ColorBench, um benchmark inovador meticulosamente elaborado para avaliar as capacidades dos VLMs na compreensão da cor, incluindo percepção, raciocínio e robustez. Ao criar um conjunto diversificado de cenários de teste, com base em aplicações reais, o ColorBench avalia como esses modelos percebem as cores, inferem significados a partir de pistas baseadas em cores e mantêm um desempenho consistente sob diversas transformações de cores. Por meio de uma avaliação extensiva de 32 VLMs com diferentes modelos de linguagem e codificadores visuais, nosso artigo revela algumas descobertas inéditas: (i) A lei de escalonamento (modelos maiores são melhores) ainda se mantém no ColorBench, embora o modelo de linguagem desempenhe um papel mais importante do que o codificador visual. (ii) No entanto, as diferenças de desempenho entre os modelos são relativamente pequenas, indicando que a compreensão da cor tem sido amplamente negligenciada pelos VLMs existentes. (iii) O raciocínio CoT melhora a precisão e a robustez na compreensão da cor, embora sejam tarefas centradas na visão. (iv) As pistas de cor são de fato utilizadas pelos VLMs no ColorBench, mas também podem enganar os modelos em algumas tarefas. Essas descobertas destacam as limitações críticas dos VLMs atuais e ressaltam a necessidade de aprimorar a compreensão da cor. Nosso ColorBench pode servir como uma ferramenta fundamental para avançar o estudo da compreensão da cor em nível humano em IA multimodal.

SFT ou RL? Uma Investigação Preliminar sobre o Treinamento de Modelos de Grande Porte de Linguagem e Visão com Raciocínio Semelhante ao R1
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

Apr 10

ByHardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie

Este trabalho revisita o paradigma dominante de ajuste fino supervisionado (SFT) seguido de aprendizado por reforço (RL) para o treinamento de Grandes Modelos de Visão e Linguagem (LVLMs), e revela uma descoberta crucial: o SFT pode comprometer significativamente o RL subsequente ao induzir "caminhos de raciocínio pseudo" imitados de modelos especialistas. Embora esses caminhos possam se assemelhar aos caminhos de raciocínio nativos dos modelos de RL, eles frequentemente envolvem etapas prolongadas, hesitantes, menos informativas e com raciocínio incorreto. Para estudar sistematicamente esse efeito, introduzimos o VLAA-Thinking, um novo conjunto de dados multimodal projetado para apoiar o raciocínio em LVLMs. Construído por meio de um pipeline de seis etapas que inclui legendagem, destilação de raciocínio, reescrita de respostas e verificação, o VLAA-Thinking compreende traços de raciocínio visual passo a passo de alta qualidade para SFT, juntamente com uma divisão mais desafiadora de RL da mesma fonte de dados. Utilizando esse conjunto de dados, realizamos extensos experimentos comparando SFT, RL e suas combinações. Os resultados mostram que, embora o SFT ajude os modelos a aprender formatos de raciocínio, ele frequentemente bloqueia modelos alinhados em modos de raciocínio imitativos e rígidos que impedem o aprendizado adicional. Em contraste, ao construir sobre a Otimização de Política Relativa de Grupo (GRPO) com um novo módulo de recompensa mista que integra sinais de percepção e cognição, nossa abordagem de RL promove um comportamento de raciocínio mais genuíno e adaptativo. Notavelmente, nosso modelo VLAA-Thinker, baseado no Qwen2.5VL 3B, alcança o desempenho top-1 no Open LMM Reasoning Leaderboard (https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard) entre LVLMs de escala 4B, superando o estado da arte anterior em 1,8%. Esperamos que nossas descobertas forneçam insights valiosos para o desenvolvimento de LVLMs capazes de raciocínio e possam informar pesquisas futuras nessa área.

Cobra: Colorização Eficiente de Arte Linear com Referências Mais Amplas
Cobra: Efficient Line Art COlorization with BRoAder References

Apr 16

ByJunhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan

A indústria de produção de quadrinhos exige colorização de arte-final baseada em referências com alta precisão, eficiência, consistência contextual e controle flexível. Uma página de quadrinhos frequentemente envolve diversos personagens, objetos e cenários, o que complica o processo de colorização. Apesar dos avanços nos modelos de difusão para geração de imagens, sua aplicação na colorização de arte-final ainda é limitada, enfrentando desafios relacionados ao tratamento de extensas imagens de referência, inferência demorada e controle flexível. Investigamos a necessidade de orientação contextual extensa de imagens na qualidade da colorização de arte-final. Para abordar esses desafios, introduzimos o Cobra, um método eficiente e versátil que suporta dicas de cores e utiliza mais de 200 imagens de referência, mantendo baixa latência. O cerne do Cobra é uma arquitetura Causal Sparse DiT, que aproveita codificações posicionais especialmente projetadas, atenção esparsa causal e Cache de Chave-Valor para gerenciar efetivamente referências de contexto longo e garantir consistência na identidade das cores. Os resultados demonstram que o Cobra alcança colorização precisa de arte-final por meio de referência contextual extensa, aumentando significativamente a velocidade de inferência e a interatividade, atendendo assim às demandas críticas da indústria. Disponibilizamos nossos códigos e modelos na página do projeto: https://zhuang2002.github.io/Cobra/.

AlayaDB: A Base de Dados para Inferência Eficiente e Eficaz de LLMs de Contexto Longo
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

Apr 14

ByYangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang

O AlayaDB é um sistema de banco de dados vetorial de ponta, projetado nativamente para inferência eficiente e eficaz de contexto longo em Modelos de Linguagem de Grande Escala (LLMs) na AlayaDB AI. Especificamente, ele desacopla o cache KV e o cálculo de atenção dos sistemas de inferência de LLMs, encapsulando-os em um sistema de banco de dados vetorial inovador. Para provedores de Modelo como Serviço (MaaS), o AlayaDB consome menos recursos de hardware e oferece maior qualidade de geração para diversas cargas de trabalho com diferentes tipos de Objetivos de Nível de Serviço (SLOs), em comparação com soluções alternativas existentes (por exemplo, desagregação de cache KV, atenção esparsa baseada em recuperação). A essência do AlayaDB reside no fato de que ele abstrai o cálculo de atenção e o gerenciamento de cache para inferência de LLMs em um procedimento de processamento de consultas, otimizando o desempenho por meio de um otimizador de consultas nativo. Neste trabalho, demonstramos a eficácia do AlayaDB por meio de (i) três casos de uso de nossos parceiros da indústria e (ii) resultados experimentais extensivos em benchmarks de inferência de LLMs.

REPA-E: Desbloqueando VAEs para Ajuste Fim a Fim com Difusão Latente em Transformers
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

Apr 14

ByXingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng

Neste artigo, abordamos uma questão fundamental: "Podemos treinar modelos de difusão latente juntamente com o tokenizador de autoencoder variacional (VAE) de maneira end-to-end?" A sabedoria tradicional do aprendizado profundo sugere que o treinamento end-to-end é frequentemente preferível quando possível. No entanto, para transformadores de difusão latente, observa-se que o treinamento end-to-end tanto do VAE quanto do modelo de difusão usando a perda de difusão padrão é ineficaz, chegando a causar uma degradação no desempenho final. Mostramos que, embora a perda de difusão seja ineficaz, o treinamento end-to-end pode ser habilitado por meio da perda de alinhamento de representação (REPA) — permitindo que tanto o VAE quanto o modelo de difusão sejam ajustados conjuntamente durante o processo de treinamento. Apesar de sua simplicidade, a receita de treinamento proposta (REPA-E) apresenta um desempenho notável; acelerando o treinamento do modelo de difusão em mais de 17x e 45x em comparação com as receitas de treinamento REPA e convencional, respectivamente. Curiosamente, observamos que o ajuste end-to-end com REPA-E também melhora o próprio VAE; resultando em uma estrutura de espaço latente aprimorada e em um melhor desempenho de geração downstream. Em termos de desempenho final, nossa abordagem estabelece um novo estado da arte; alcançando FID de 1,26 e 1,83 com e sem orientação livre de classificador no ImageNet 256 x 256. O código está disponível em https://end2end-diffusion.github.io.

MLRC-Bench: Agentes de Linguagem Podem Resolver Desafios de Pesquisa em Aprendizado de Máquina?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

Apr 13

ByYunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang

A avaliação existente de agentes de modelos de linguagem de grande escala (LLM) na descoberta científica carece de bases de comparação objetivas e métricas para avaliar a viabilidade dos métodos propostos. Para resolver essa questão, introduzimos o MLRC-Bench, um benchmark projetado para quantificar quão efetivamente agentes de linguagem podem enfrentar desafios competitivos em Pesquisa de Aprendizado de Máquina (ML). Nosso benchmark destaca problemas de pesquisa abertos que exigem metodologias inovadoras, em contraste com benchmarks recentes como o MLE-Bench da OpenAI (Chan et al., 2024) e o RE-Bench da METR (Wijk et al., 2024), que se concentram em tarefas de pesquisa bem estabelecidas e amplamente solucionáveis com esforço de engenharia suficiente. Diferente de trabalhos anteriores, como o AI Scientist (Lu et al., 2024b), que avalia o pipeline agentivo de ponta a ponta usando LLM como juiz, o MLRC-Bench mede as etapas-chave de proposição e implementação de métodos de pesquisa inovadores e os avalia com um protocolo rigoroso e métricas objetivas recém-propostas. Nossa suíte curada de 7 tarefas competitivas revela desafios significativos para agentes LLM. Mesmo o agente de melhor desempenho testado (gemini-exp-1206 sob MLAB (Huang et al., 2024a)) fecha apenas 9,3% da lacuna entre a linha de base e as pontuações dos melhores participantes humanos. Além disso, nossa análise revela uma desalinhamento entre a inovação julgada por LLMs e seu desempenho real em problemas de pesquisa de ML de ponta. O MLRC-Bench é um benchmark dinâmico, projetado para crescer continuamente com novas competições de ML, incentivando avaliações rigorosas e objetivas das capacidades de pesquisa da IA.

SIFT-50M: Um Grande Conjunto de Dados Multilíngue para Ajuste Fino de Instruções de Fala
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

Apr 12

ByPrabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz

Apresentamos o SIFT (Speech Instruction Fine-Tuning), um conjunto de dados com 50 milhões de exemplos projetado para o ajuste fino de instruções e pré-treinamento de modelos de linguagem de grande escala (LLMs) que integram fala e texto. O SIFT-50M foi construído a partir de corpora de fala disponíveis publicamente, que contêm coletivamente 14 mil horas de áudio, e utiliza LLMs juntamente com modelos especializados prontos para uso. O conjunto de dados abrange cinco idiomas, englobando uma ampla gama de tarefas de compreensão de fala, bem como instruções de geração de fala controlável. Utilizando o SIFT-50M, treinamos o SIFT-LLM, que supera os LLMs existentes que integram fala e texto em benchmarks de seguimento de instruções, ao mesmo tempo que alcança desempenho competitivo em tarefas fundamentais de processamento de fala. Para apoiar pesquisas futuras, também introduzimos o EvalSIFT, um conjunto de dados de benchmark projetado especificamente para avaliar as capacidades de seguimento de instruções de LLMs que integram fala e texto.

Detecção Robusta e de Alta Precisão de Textos Gerados por IA
Robust and Fine-Grained Detection of AI Generated Texts

Apr 16

ByRam Mohan Rao Kadiyala, Siddartha Pullakhandam, Kanwal Mehreen, Drishti Sharma, Siddhant Gupta, Jebish Purbey, Ashay Srivastava, Subhasya TippaReddy, Arvind Reddy Bobbili, Suraj Telugara Chandrashekhar, Modabbir Adeeb, Srinadh Vura, Hamza Farooq

Um sistema ideal de detecção para conteúdo gerado por máquina deve funcionar bem em qualquer gerador, à medida que modelos de linguagem (LLMs) cada vez mais avançados surgem diariamente. Os sistemas existentes frequentemente enfrentam dificuldades em identificar com precisão o conteúdo gerado por IA em textos mais curtos. Além disso, nem todos os textos podem ser inteiramente escritos por um humano ou por um LLM, portanto, focamos mais em casos parciais, ou seja, textos coautoriais entre humanos e LLMs. Nosso artigo introduz um conjunto de modelos construídos para a tarefa de classificação de tokens, que foram treinados em uma extensa coleção de textos coautoriais entre humanos e máquinas, os quais apresentaram bom desempenho em textos de domínios não vistos, geradores não vistos, textos de falantes não nativos e aqueles com entradas adversariais. Também introduzimos um novo conjunto de dados com mais de 2,4 milhões de textos, em sua maioria coautoriais por vários LLMs proprietários populares em 23 idiomas. Apresentamos ainda os resultados do desempenho de nossos modelos em textos de cada domínio e gerador. Outros achados incluem a comparação do desempenho contra cada método adversarial, o comprimento dos textos de entrada e as características dos textos gerados em comparação com os textos originais escritos por humanos.

Sizigia dos Pensamentos: Melhorando o CoT de LLMs com a Resolução Livre Mínima
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution

Apr 13

ByChenghao Li, Chaoning Zhang, Yi Lu, Jiaquan Zhang, Qigan Sun, Xudong Wang, Jiwei Wei, Guoqing Wang, Yang Yang, Heng Tao Shen

O prompting Chain-of-Thought (CoT) aprimora o raciocínio de grandes modelos de linguagem (LLMs) ao decompor problemas em etapas sequenciais, imitando a lógica humana e reduzindo erros. No entanto, tarefas complexas com vastos espaços de solução e restrições vagas frequentemente excedem a capacidade de uma única cadeia de raciocínio. Inspirados pela Resolução Livre Mínima (MFR) em álgebra comutativa e geometria algébrica, propomos o Syzygy of Thoughts (SoT) — um novo framework que estende o CoT ao introduzir caminhos de raciocínio auxiliares e inter-relacionados. O SoT captura dependências lógicas mais profundas, permitindo uma resolução de problemas mais robusta e estruturada. A MFR decompõe um módulo em uma sequência de módulos livres com posto mínimo, fornecendo uma abordagem analítica estruturada para sistemas complexos. Esse método introduz os conceitos de "Módulo", "Números de Betti", "Liberdade", "Mapeamento", "Exatidão" e "Minimalidade", permitindo a decomposição sistemática do problema complexo original em subproblemas mínimos logicamente completos, preservando características-chave do problema e reduzindo o comprimento do raciocínio. Testamos o SoT em diversos conjuntos de dados (por exemplo, GSM8K, MATH) e modelos (por exemplo, GPT-4o-mini, Qwen2.5), alcançando precisão de inferência que iguala ou supera os padrões principais de CoTs. Além disso, ao alinhar o processo de amostragem com restrições algébricas, nossa abordagem melhora a escalabilidade do tempo de inferência em LLMs, garantindo tanto raciocínio transparente quanto alto desempenho. Nosso código estará publicamente disponível em https://github.com/dlMARiA/Syzygy-of-thoughts.

Vivid4D: Aprimorando a Reconstrução 4D a partir de Vídeo Monocular por meio de Inpaint de Vídeo
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

Apr 15

ByJiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao

Reconstruir cenas dinâmicas 4D a partir de vídeos monoculares capturados casualmente é valioso, mas altamente desafiador, pois cada instante de tempo é observado a partir de um único ponto de vista. Apresentamos o Vivid4D, uma abordagem inovadora que aprimora a síntese de vídeos monoculares 4D ao aumentar as vistas de observação - sintetizando vídeos multivista a partir de uma entrada monocular. Diferente dos métodos existentes que utilizam apenas priors geométricos para supervisão ou empregam priors generativos enquanto negligenciam a geometria, nós integramos ambos. Isso reformula o aumento de vistas como uma tarefa de inpainting de vídeo, onde as vistas observadas são deformadas em novos pontos de vista com base em priors de profundidade monocular. Para alcançar isso, treinamos um modelo de inpainting de vídeo em vídeos da web sem pose, com máscaras geradas sinteticamente que imitam oclusões de deformação, garantindo a conclusão espacial e temporalmente consistente de regiões ausentes. Para mitigar ainda mais as imprecisões nos priors de profundidade monocular, introduzimos uma estratégia iterativa de aumento de vistas e uma função de reconstrução robusta. Experimentos demonstram que nosso método melhora efetivamente a reconstrução e conclusão de cenas monoculares 4D.

Em Direção à Aprendizagem para Completar Qualquer Coisa em Lidar
Towards Learning to Complete Anything in Lidar

Apr 16

ByAyca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep

Propomos o CAL (Complete Anything in Lidar) para a conclusão de formas baseada em Lidar em ambientes reais. Isso está intimamente relacionado à conclusão semântica/panóptica de cenas baseada em Lidar. No entanto, os métodos contemporâneos só conseguem completar e reconhecer objetos a partir de um vocabulário fechado rotulado em conjuntos de dados Lidar existentes. Diferentemente disso, nossa abordagem zero-shot aproveita o contexto temporal de sequências de sensores multimodais para extrair formas de objetos e características semânticas dos objetos observados. Esses dados são então destilados em um modelo de conclusão e reconhecimento em nível de instância que utiliza apenas Lidar. Embora extraiamos apenas conclusões parciais de formas, descobrimos que nosso modelo destilado aprende a inferir formas completas de objetos a partir de múltiplas observações parciais ao longo do conjunto de dados. Demonstramos que nosso modelo pode ser aplicado em benchmarks padrão para Conclusão Semântica e Panóptica de Cenas, localizar objetos como caixas delimitadoras 3D (amodais) e reconhecer objetos além de vocabulários de classes fixos. Nossa página do projeto está disponível em https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar.

FreshStack: Construindo Benchmarks Realistas para Avaliação de Recuperação em Documentos Técnicos
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Apr 17

ByNandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov

Apresentamos o FreshStack, um framework reutilizável para a construção automática de benchmarks de avaliação de recuperação de informação (IR) a partir de perguntas e respostas da comunidade. O FreshStack realiza os seguintes passos: (1) coleta automática de corpus a partir de código e documentação técnica, (2) geração de "nuggets" (informações essenciais) a partir de perguntas e respostas da comunidade, e (3) suporte em nível de "nugget", recuperando documentos usando uma fusão de técnicas de recuperação e arquiteturas híbridas. Utilizamos o FreshStack para construir cinco conjuntos de dados sobre tópicos recentes, em rápido crescimento e de nicho, garantindo que as tarefas sejam suficientemente desafiadoras. No FreshStack, modelos de recuperação existentes, quando aplicados diretamente, apresentam desempenho significativamente inferior às abordagens oráculo em todos os cinco tópicos, indicando amplo espaço para melhorar a qualidade da IR. Além disso, identificamos casos em que os rerankers não melhoram claramente a precisão da recuperação na primeira etapa (dois dos cinco tópicos). Esperamos que o FreshStack facilite trabalhos futuros na construção de benchmarks de avaliação de IR e RAG realistas, escaláveis e não contaminados. Os conjuntos de dados do FreshStack estão disponíveis em: https://fresh-stack.github.io.

BlockGaussian: Síntese Eficiente de Novas Visões em Cenas de Grande Escala via Splatting Gaussiano Baseado em Blocos Adaptativos
BlockGaussian: Efficient Large-Scale Scene Novel View Synthesis via Adaptive Block-Based Gaussian Splatting

Apr 12

ByYongchang Wu, Zipeng Qi, Zhenwei Shi, Zhengxia Zou

Os recentes avanços na técnica de Splatting Gaussiano 3D (3DGS) demonstraram um potencial notável em tarefas de síntese de novas visões. O paradigma de dividir para conquistar permitiu a reconstrução de cenas em grande escala, mas desafios significativos permanecem nos processos de particionamento de cena, otimização e fusão. Este artigo apresenta o BlockGaussian, um novo framework que incorpora uma estratégia de particionamento de cena consciente do conteúdo e uma otimização de blocos consciente da visibilidade para alcançar uma reconstrução eficiente e de alta qualidade em cenas de grande escala. Especificamente, nossa abordagem considera a variação da complexidade do conteúdo em diferentes regiões e equilibra a carga computacional durante o particionamento da cena, permitindo uma reconstrução eficiente. Para abordar o problema de incompatibilidade de supervisão durante a otimização independente dos blocos, introduzimos pontos auxiliares durante a otimização individual dos blocos para alinhar a supervisão com a verdade fundamental, o que melhora a qualidade da reconstrução. Além disso, propomos uma restrição de geometria de pseudo-visão que mitiga efetivamente a degradação da renderização causada por flutuadores no espaço aéreo durante a fusão dos blocos. Experimentos extensivos em cenas de grande escala demonstram que nossa abordagem alcança desempenho de ponta tanto em eficiência de reconstrução quanto em qualidade de renderização, com uma aceleração de 5x na otimização e uma melhoria média de 1,21 dB no PSNR em múltiplos benchmarks. Notavelmente, o BlockGaussian reduz significativamente os requisitos computacionais, permitindo a reconstrução de cenas de grande escala em um único dispositivo com 24GB de VRAM. A página do projeto está disponível em https://github.com/SunshineWYC/BlockGaussian.

"Não é uma representação de mim": Examinando o Viés de Sotaque e a Exclusão Digital em Serviços de Voz Sintética com IA
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services

Apr 12

ByShira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh

Os recentes avanços na geração de fala por inteligência artificial (IA) e nas tecnologias de clonagem de voz têm produzido fala naturalista e replicação precisa de voz, mas sua influência nos sistemas sociotécnicos em diversos sotaques e traços linguísticos ainda não é totalmente compreendida. Este estudo avalia dois serviços de voz sintética por IA (Speechify e ElevenLabs) por meio de uma abordagem de métodos mistos, utilizando pesquisas e entrevistas para avaliar o desempenho técnico e explorar como as experiências vividas pelos usuários influenciam suas percepções sobre variações de sotaque nessas tecnologias de fala. Nossos resultados revelam disparidades de desempenho técnico em cinco sotaques regionais da língua inglesa e demonstram como as atuais tecnologias de geração de fala podem inadvertidamente reforçar privilégios linguísticos e discriminação baseada em sotaque, potencialmente criando novas formas de exclusão digital. No geral, nosso estudo destaca a necessidade de design inclusivo e regulamentação, fornecendo insights acionáveis para desenvolvedores, formuladores de políticas e organizações, a fim de garantir tecnologias de fala por IA equitativas e socialmente responsáveis.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Relatório Técnico do BitNet b1.58 2B4T
BitNet b1.58 2B4T Technical Report

Apr 16

ByShuming Ma, Hongyu Wang, Shaohan Huang, Xingxing Zhang, Ying Hu, Ting Song, Yan Xia, Furu Wei

ReTool: Aprendizado por Reforço para Uso Estratégico de Ferramentas em LLMs
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs

Apr 15

ByJiazhan Feng, Shijue Huang, Xingwei Qu, Ge Zhang, Yujia Qin, Baoquan Zhong, Chengquan Jiang, Jinxin Chi, Wanjun Zhong

ColorBench: Os Modelos de Linguagem Visual Podem Ver e Compreender o Mundo Colorido? Um Benchmark Abrangente para Percepção de Cores, Raciocínio e Robustez
ColorBench: Can VLMs See and Understand the Colorful World? A Comprehensive Benchmark for Color Perception, Reasoning, and Robustness

Apr 10

ByYijun Liang, Ming Li, Chenrui Fan, Ziyue Li, Dang Nguyen, Kwesi Cobbina, Shweta Bhardwaj, Jiuhai Chen, Fuxiao Liu, Tianyi Zhou

SFT ou RL? Uma Investigação Preliminar sobre o Treinamento de Modelos de Grande Porte de Linguagem e Visão com Raciocínio Semelhante ao R1
SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

Apr 10

ByHardy Chen, Haoqin Tu, Fali Wang, Hui Liu, Xianfeng Tang, Xinya Du, Yuyin Zhou, Cihang Xie

Cobra: Colorização Eficiente de Arte Linear com Referências Mais Amplas
Cobra: Efficient Line Art COlorization with BRoAder References

Apr 16

ByJunhao Zhuang, Lingen Li, Xuan Ju, Zhaoyang Zhang, Chun Yuan, Ying Shan

AlayaDB: A Base de Dados para Inferência Eficiente e Eficaz de LLMs de Contexto Longo
AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

Apr 14

REPA-E: Desbloqueando VAEs para Ajuste Fim a Fim com Difusão Latente em Transformers
REPA-E: Unlocking VAE for End-to-End Tuning with Latent Diffusion Transformers

Apr 14

ByXingjian Leng, Jaskirat Singh, Yunzhong Hou, Zhenchang Xing, Saining Xie, Liang Zheng

MLRC-Bench: Agentes de Linguagem Podem Resolver Desafios de Pesquisa em Aprendizado de Máquina?
MLRC-Bench: Can Language Agents Solve Machine Learning Research Challenges?

Apr 13

ByYunxiang Zhang, Muhammad Khalifa, Shitanshu Bhushan, Grant D Murphy, Lajanugen Logeswaran, Jaekyeom Kim, Moontae Lee, Honglak Lee, Lu Wang

SIFT-50M: Um Grande Conjunto de Dados Multilíngue para Ajuste Fino de Instruções de Fala
SIFT-50M: A Large-Scale Multilingual Dataset for Speech Instruction Fine-Tuning

Apr 12

ByPrabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz

Detecção Robusta e de Alta Precisão de Textos Gerados por IA
Robust and Fine-Grained Detection of AI Generated Texts

Apr 16

Sizigia dos Pensamentos: Melhorando o CoT de LLMs com a Resolução Livre Mínima
Syzygy of Thoughts: Improving LLM CoT with the Minimal Free Resolution

Apr 13

ByChenghao Li, Chaoning Zhang, Yi Lu, Jiaquan Zhang, Qigan Sun, Xudong Wang, Jiwei Wei, Guoqing Wang, Yang Yang, Heng Tao Shen

Vivid4D: Aprimorando a Reconstrução 4D a partir de Vídeo Monocular por meio de Inpaint de Vídeo
Vivid4D: Improving 4D Reconstruction from Monocular Video by Video Inpainting

Apr 15

ByJiaxin Huang, Sheng Miao, BangBnag Yang, Yuewen Ma, Yiyi Liao

Em Direção à Aprendizagem para Completar Qualquer Coisa em Lidar
Towards Learning to Complete Anything in Lidar

Apr 16

ByAyca Takmaz, Cristiano Saltori, Neehar Peri, Tim Meinhardt, Riccardo de Lutio, Laura Leal-Taixé, Aljoša Ošep

FreshStack: Construindo Benchmarks Realistas para Avaliação de Recuperação em Documentos Técnicos
FreshStack: Building Realistic Benchmarks for Evaluating Retrieval on Technical Documents

Apr 17

ByNandan Thakur, Jimmy Lin, Sam Havens, Michael Carbin, Omar Khattab, Andrew Drozdov

BlockGaussian: Síntese Eficiente de Novas Visões em Cenas de Grande Escala via Splatting Gaussiano Baseado em Blocos Adaptativos
BlockGaussian: Efficient Large-Scale Scene Novel View Synthesis via Adaptive Block-Based Gaussian Splatting

Apr 12

ByYongchang Wu, Zipeng Qi, Zhenwei Shi, Zhengxia Zou

"Não é uma representação de mim": Examinando o Viés de Sotaque e a Exclusão Digital em Serviços de Voz Sintética com IA
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services

Apr 12

ByShira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh