英伟达推出了Llama 3.2 NeMo Retriever多模态嵌入模型,通过整合视觉和文本数据处理,提升了检索增强生成管道的效率和准确性。
NVIDIA发布了Llama 3.2 NeMo Retriever Multimodal Embedding Model,这是在检索增强生成(RAG)管道中的重大进展,增强了视觉和文本数据处理的整合。根据NVIDIA的博客,该模型旨在解决多模态数据的复杂性,多模态数据包括图像、视频、音频以及文本之外的其他格式。
视觉语言模型的进展
视觉语言模型(VLMs)在弥合视觉和文本信息之间的差距方面起到了关键作用。这些模型通过处理文本和图像,促进了视觉问答和多模态搜索等应用。最近在VLMs方面的进展导致了像Gemma 3、PaliGemma和LLaVA-1.5这样的模型的开发,这些模型能够更高效地处理复杂的视觉数据。
传统RAG管道中的挑战
传统的RAG管道主要关注文本数据,需要从文档中提取复杂的文本过程。VLMs的引入简化了这些过程,尽管它们仍然容易受到不准确性的影响,即产生幻觉。为了解决这个问题,NVIDIA强调了多模态嵌入模型所促进的精确检索步骤的重要性。
Llama 3.2 NeMo 检索器的特点
Llama 3.2 NeMo Retriever 多模态嵌入模型,拥有16亿参数,旨在将图像和文本映射到一个共享特征空间,从而提升跨模态检索任务的效率。该模型特别适用于产品搜索引擎或内容推荐系统等应用,其中快速和准确的检索是至关重要的。
文档检索的效率
该模型通过绕过传统的基于文本的文档嵌入所需的多步骤工作流程,简化了文档检索过程。它直接嵌入原始页面图像,同时保留视觉信息并捕获文本语义,从而简化了检索管道。
性能基准
在ViDoRe V1、DigitalCorpora和Earnings等数据集上的性能评估表明,该模型在使用Recall@5衡量的检索精度上优于其他视觉嵌入模型。这些基准测试强调了其在检索相关文档图像和有效回答用户查询方面的能力。
英伟达推出的NeMo Retriever微服务在开发强大的多模态RAG管道方面迈出了重要一步,为企业提供了高准确性和数据隐私的实时商业洞察增强工具。