软件 simhash和海明距离-解决海量数据相似度计算 一种应对于海量数据场景的去重方案,经过研究发现有种叫 local sensitive hash 局部敏感哈希 的东西,据说这玩意可以把文档降维到hash数字,数字两两计算运算量要小很多。查找很多文档后... 09月06日 发表评论 阅读全文