““双十一销售节”流量大考怎么过关 流计算功不可没”
如何支撑流量的“洪峰”,是每年“双十一销售节”的技术大考试。 随着流量激增,这个大考试一定越来越难了。
“双11销售节”刚过,各大电商纷纷公布了当天的战绩。 从目前公布的数据可以明显看出,今年“双十一艺术节”订单成交量高峰创下新高,单日数据解决量纪录再次刷新。
“双十一销售节”的数据量不仅大,而且会实时变化。 各个购物数据是个性化的、动态的,可以说为了解决这些业务,需要强大的计算能力。
“今年的数据解决事业除了批量解决(批量解决数据)之外,还有流解决,也就是实时解决数据。 巨大的交易数据每分每秒都在变化,不是从数据库中统计出来的,而是系统自动聚集在一楼。 ”。 阿里巴巴集团首席技术官张建锋表示。 他嘴里的“流解决”是流计算,即实时计算。 担负着“双十一销售节”的流量“洪峰”,其功不可没。
那么,什么是流计算? 如何抵制“双十一销售节”的流量“洪峰”呢? 对此,科技日报记者采访了业内专家。
使用内存代替硬盘实现快速解决
北京理工大学计算机学院副院长、教授刘驰在接受《科技日报》记者采访时表示,所谓的流媒体计算,是指一个数据解决后,很快被串行传输到内存,通过互联网传输到下一个节点,在下一个节点继续 “该流媒体技术使用内存代替硬盘快速解决数据,从而帮助流媒体计算有效解决数据的根本原因。 ”他说
刘凯表示,流量计算具有高性能、大批量公式、实时性、分布式、易用性、可靠性等诸多特征,首要应用方向是快速计算和分析金融和科学计算中的数据。 快速解决和反馈社交网站、电子邮件、视频、电话记录、电子传感器中存在的数字新闻流等。
“流解决方案可以用于两个不同的计算场景:事件的流程和持续计算。 ”刘凯介绍说,在事件的走向场景中,系统持续生成大量数据,这类数据最先出现在银行和股票交易行业,也出现在网络监控、无线通信等行业。 这些行业的相关业务需要流媒体计算技术以几乎实时的方式对数据流进行大量的分解。
“在大型网站等连续计算场景中,流媒体技术动态实时更新客户访问数据,展示网站实时流量的变化,分析每天各时间的流量和客户分布, 需要实时解析数据的场景也可以应用于流式计算技术,如实时解析基于客户行为生成的日志文件,或向客户实时推荐商品等。 ”。 刘凯介绍了。
实时收集、实时计算、实时查询
刘凯向记者介绍说,流媒体解决过程通常包括数据实时采集、数据实时计算和实时查询服务三个阶段。
首先,后台员工使用实时数据整合工具将数据实时传输到流媒体数据存储系统。 具体来说,系统将长期积累的大量数据平均化到各个计算时间节点,数据不断进行少量的实时传输。 此时,数据将陆续写入流数据存储系统,不需要预加载的过程。 另外,在这个过程中数据持续流动,计算完成后马上被废弃。
然后,批量计算不是在数据集成完成后再开始计算作业,而是流式作业是驻留计算服务,一旦启动,始终等待触发事件。 也就是说,少量数据进入流式数据存储系统后,流式计算系统会立即计算并得出结果。 另外,一些EC平台的流量计算团队采用增量计算模型,批量增量计算大量数据,进一步减少一次运算规模,比较有效地降低整体运算延迟。 ”。 刘凯说。
最后,在将数据批量传输到在线系统之前,必须使用数据批处理解决方案等待数据计算结果出来。 流式传输解决方案可以在每次小批量的数据计算工作完成后,将计算结果写入在线系统。 “这样,无需等待所有数据计算业务的完成,即可通过流式计算数据查询系统查询在线系统的数据解析结果。 技术人员还可以将实时结果发送到可视化系统,实现计算结果的实时化展示。 ”。 刘凯说。
技术虽强,但还有短板
但刘凯表示,虽然流量计算很强,但也存在技术短板。
“即使系统内存不足,如果满足多个客户的数据请求,每个客户实际分配的内存也会减少。 此时,应用流式技术会增加内存的诉求,因此系统会将原本分配给多个客户的内存资源全部分配给一个客户。 其他需要内存的客户由于内存不可用而陷入等待状态。 在占用内存资源的客户退出之前,其他客户无法使用内存。 ”。 刘凯表示,实时计算环境由于互联网延迟等多种原因,程序到达计算节点的顺序将会发生变化。
“此外,流式计算技术面临着不断涌入的数据,但如果像批处理那样计算数据,则计算完全无法完成,或者需要随着时间的推移保存的数据会增加,存储器会变大 ”刘凯说:“数据层出不穷,需要持续进行计算。 但是,如果计算时间变长,发生问题的概率就会大幅增加。 一旦发生问题,在计算过程中应该如何长久保留缓存的数据,如何恢复就成为了大问题。 ”。 (记者 崔爽)
免责声明:凤凰报业网凤凰分类目录网致力于打造中国专业的网站分类目录平台,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站将予以删除。