智玩网 智能科技

简述spark计算原理

spark原理 

Spark是一个基于内存计算的大数据并行计算框架,它提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。Spark的核心是弹性分布式数据集(RDD),它支持粗粒度写操作和精确到每条记录的读取操作,使得RDD可以用来作为分布式索引。Spark的执行模型抽象为通用的有向无环图执行计划(DAG),这可以将多Stage的任务串联或者并行执行,而无须将Stage中间结果输出到HDFS中。Spark的优势包括中间结果输出、数据格式和内存布局以及执行策略等方面。相对于MapReduce,Spark可以带来上百倍的性能提升。

版权说明:文章均为账号作者发布,不代表本网站观点与立场,如有侵权请联系我们删除

热门