Google 微软 Apple 无人驾驶 Java 人工智能 大数据 阿里巴巴 特斯拉 Facebook VR/AR 安全 手机 亚马逊 机器人 云计算

Facebook发布用于集群大数据的新开源库FAISS

FAISS是由Facebook发布的用于有效的相似性搜索和密集向量聚类的开源库。这个库在复杂的数据集中找到应用程序,如图像和视频,但无法一次适合所有的RAM。

随着高度成功的机器学习方法的出现,跨越不同领域的大数据集已经越来越多。使用这些巨大的数据集,硬件成为了瓶颈。处理这些数据集需要高内存带宽和处理器能力。此外,索引数据点,聚类和搜索也变得更加苛刻。

Facebook AI Research(FAIR)的研究人员最近发表了一篇研究论文,描述了聚类和相似性搜索的有效设计。它们的新算法结构比先前的现有技术算法执行快得多,并且利用GPU来获得更高的存储器带宽和计算吞吐量。

根据他们的研究,他们创建了一个名为FAISS的开源库。尽管用于聚类和相似性搜索的算法是公开的,但是该库优化了那些算法以在GPU上有效地执行。在库中实现的一些算法包括:

  • 最快的KNN算法(k-nearest neighbors)

  • 快速选择算法(QuickSelect)

  • Warpselect

  • K平均聚类(k-means clustering)

作为库如何执行的测试,在下图中,给出第一个和最后一个图像,并且算法从9500万个图像的集合计算中间过渡图像。

图:FAISS相似性搜索

FAISS开源库的主要特点:

  • 用C++编写完整的Python包装器

  • 支持单/多GPU

  • 高度可扩展,通常支持多达100个维度

  • 构建在BLAS和CUDA库上

  • 性能是当前最先进的库的8.5倍

点赞 0 打赏

我要评论