10亿级数据,秒级看远数据重极速分析引擎”发布黑色科学技术
浏览:71 时间:2024-7-2

从Excel、报表系统到传统BI,在企业数据分析工具不断进化的同时,其背后的数据承载能力也在以更快的速度上升。

(每个数据分析工具适合携带的数据量)

以连锁零售企业为例,如果有2000家门店,5000个SKU在售,单店单品的库存数据一天就要达到1000万,一周可能超过1亿。

为了让性能跟上企业数据的发展速度,保证用户可以在十亿级和十亿级数据集的基础上做流畅的拖放式数据分析和动态查询,同时不会给it人员带来额外的数据管理和运维压力。2019年,冠源数据开始研究基于海量数据计算和查询的加速组件,并于2020年3月正式上线“极速分析引擎”黑科技功能,真正实现了数十亿数据的二级响应。

“极速分析引擎”是冠源一站式智能数据分析平台中,中嵌入的一套计算查询加速组件,在集群模式下最早可支持超过十亿数据秒的响应速度。适用于零售行业大数据量、宽表、高并发的数据分析,如海量库存数据聚合分析查询、订单分析、商品分析等场景。能够满足业务人员持续探索性自我分析、即席查询、动态分析的需求,保持连贯的分析思路,打造沉浸式分析体验,深挖数据价值,高效理解业务。

“极限分析引擎”有多快?我们在实验室环境中进行了性能测试。被测机器为单节点,16核,128G内存,加速组件没有独立部署(其实加速组件可以独立部署,加速效果更明显)。

演示1:快速查询演示视频演示-/x/page/u09471ficps.html

在中,的上述案例中,我们基于订购商品的详细数据,模拟了零售客户在任何时间间隔的销售量、销售量和成本的聚合分析。

可以看到,左表和右表是基于相同的1亿行订单明细进行聚合和分析的。不同的是左边的表使用的是关-Index数据集,由Spark计算引擎计算。而右边的表使用“高性能查询表”和“极速分析引擎”进行加速查询。不难发现,当日期间隔切换时,右边的表基本可以在2~3秒内返回计算结果,而左边的表需要10秒才能返回,整体性能提升了3~5倍,真正做到了百亿数据的二级响应。

demo 2:1亿行数据的自由拖拽分析-/x/page/a094711g02i.html

基于以上数据,让我们做一个免费的拖放数据分析进行测试。从中的演示中可以看出,基于1亿行订单详细数据的自由拖拽分析,也能达到二级响应,丝滑体验。

这么强大的功能怎么用?

当用户通过SmartETL导入1000万级以上的Guan-Index数据集或生成相同体量的数据集,想要使用“极速分析引擎”进行查询加速时,大致可以分三步操作。

1.配置数据集

我们可以进入数据集详细信息页面的“高级选项”列,将数据集配置为“高性能查询表”。

2.设置分区字段

用户需要设置分区字段——对数据进行分区,以便在存储过程中对数据进行合理切片,减少数据查询过程中的数据扫描。一般建议使用日期字段进行分区,分区方式建议设置为“月”或“日”。使用日期字段作为分区可以有效控制分区数量,以免分区过厚或过薄。如果没有日期字段,可以仔细选择其他字段进行分析。此时,有必要控制分区字段的枚举数。不得选择序列号(如订单编号或数字字段)作为分区字段。

3.确认实施

配置分区字段后,单击“确定”开始模式切换。当数据集中有大量数据时,导入数据需要一定的时间。请耐心等待。根据内部测试,导入3亿行26列的数据集大约需要12分钟。数据集更新也会触发数据重新导入,所以一般建议高性能查询表的更新频率不要超过一天一次。

下面是一个配置了“高性能查询表”的ETL输出数据集。我们可以看到,它似乎与一般的ETL输出数据集没有什么不同。但是,当我们使用它创建卡片时,我们使用“速度查询引擎”来查询数据,这可以提供飞行体验。

极限速度分析引擎适用于哪些场景?

目前“高性能查询表”适用于数据量大于等于1000万行的数据集,可以大大加快卡片端的数据查询效率。特别适用于海量数据下的OLAp查询,适用于大而宽的表上任意维度的数据聚合和切片(过滤),适用于详细数据的查询。与直接使用Spark作为计算引擎相比,这些查询一般可以提高3-5倍的性能。如果硬件资源丰富,将加速组件的独立部署,获得优越的速度体验。