华为公司近日宣布将利用自家FusionStorage产品与Alluxio开源软件实现大数据分析加速;此举相信能够为令人昏昏欲睡的缓慢数据分析流程带来一股新风。
Alluxio此前曾名为Tachyon Nexus,是一家由Andreessen Horowitz资助的初创企业。
FusionStorage 则属于华为公司旗下的分布式软件定义存储系统。其最新FusionStorage 6.0支持分布式块、文件与对象存储,同时可对数据进行分类、加密与重复数据删除。
Alluxio公司的软件产品是一套以内存为中心的虚拟分布式存储系统。其功能相当于为HDFS节点集合等远程存储系统提供一套本地缓存。其基于本地节点集群运行,而各本地节点则供运行有大数据分析与查询任务的计算节点进行访问。
该软件提供:
- 配合自动数据放置的分层式存储机制(包括内存、闪存与磁盘)。
- 配合透明化命名机制的单一命名空间。
- 可集成原生S3、谷歌Cloud Storage、OpenStack Swift、阿里巴巴OSS、微软Azure Blob等存储方案。
- Fuse Connector,采用键-值接口。
- 一条命令即可完成集群部署。
- 具备指标报告功能。
Alluxio支持多种不同底层(远程)存储系统,具体包括HDFS、Gluster、S3、OpenStack、GCS、NFS、OrangeFS、IBm Spectrum Scake、Ceph、Isilon等等。
百度公司在Alluxio的帮助下将Spark查询速度提升了30倍。原本需要15分钟才能完成的批量查询如今不到30秒即可搞定,而且一套1000用户Alluxio集群能够提供超过50 TB内存空间。
巴克莱银行亦在运行查询的计算节点与Teradata数据存储库之间采用Alluxio软件,从而将原本需要数小时的Spark任务加速至仅需要数秒。
听起来确实很有搞头。我们认为华为公司及其物联网/云战略确实能够与Alluxio实现良好配合。感兴趣的朋友亦可点击此处与此处分别查看Alluxio项目及其演示材料。