数据探查:让数据分析师羽扇纶巾,谈笑间,樯橹灰飞烟...

数据探查:让数据分析师羽扇纶巾,谈笑间,樯橹灰飞烟...

背景

有数据分析师曾抱怨:80%时间在清洗数据、加工数据和识别数据,仅有20%时间在做数据分析。面临这种困境的原因,大致有三点:

数据质量有待提高,如存在大量空值、单位不一致、数值范围异常、枚举值格式异常等

数据整体概括信息缺乏,度量信息如最大值、最小值、平均值、汇总值、方差、中位数等等不能直接可见,维度信息如枚举值分布等

元数据管理待完善,如表名称备注,字段类型、描述不准确、口径未统一等等元数据管理混乱或缺乏等等

上述这些问题都会浪费数据分析师大量宝贵时间,降低了数据分析洞察的效率。理想状态应该是让数据分析师拿到数据就能"开箱即用",加速数据分析洞察,及时快速响应提高组织决策能力。

解决数据分析师面临这些困境,可引入数据探查,并与数据质量管理、元数据管理等数据治理等等功能模块整合并持续不断迭代优化,让数据洞察分析更高效。

数据探查是对源数据内容的系统分析和诊断。分析和诊断包括以下几个方面:

字段级从维度角度分析诊断:维度正确分布信息,含有枚举值个数、内容、分布情况等,还有枚举值格式、内容和长度异常、空值率多少、编码是否统一等数据质量异常问题诊断。从度量角度分析诊断:最大值、最小值、平均值、汇总值、方差、中位数等分布整体概况,还有单位是否统一,是否存在数值范围异常,数值精度是否损失等异常诊断

表级别从全表或跨表角度分析,记录数等全表整体分布情况,还有是否存在重复,交叉表数据是否异常诊断等等。 总之,数据探查可协助与数据加工人员提高数据清洗和加工效率,提高数据质量,让数据分析开箱即用到高质量数据,让元数据对数据的描述内容更加完善的展示等多应用场景。

数据探查应用

这里从ETL数据加工、数据分析或数据使用角度等角度来应用数据探查。如ETL工程师在ODS层源数据的数据探查、数据分析师做数据分析时的数据探查或全局元数据管理应用。

ETL数据加工

在ETL开发时,对ODS层源数据或据仓中间层的数据探查,有助于ETL工程师在加工处理数据时,查看对不满足数据质量要求进行数据清洗,如空值率、异常长度、数值范围、格式数据分布、重复率和单位、编码、数据类型不一致等等数据异常清洗和数据加工。

数据加工处理完成后,在数据质量监控系统对可能出现质量问题的表或字段配置监控规则,也可根据产出数据优先级别配置强规则或弱规则(是否熔断执行任务规则),对数据质量全链路监控,保证数据质量持续不断迭代。

数据分析

有助于数据分析师识别数据,了解全局数据概况,常用的分析指标如度量有最大值、最小值、平均值、汇总值、方差、中位数;维度有枚举值、枚举值数值或数据分布。

元数据管理

元数据是对潜在信息的信息,是关于数据的更高层次抽象,是对数据的描述。

数据探查结果属于对数据的抽象,了解和数据总体概括。元数据管理模块展示表的每列数据的字段名、维度和度量不同字段类型等探查结果,如下:

字符串类型(string)和日期型(date):展示字段个数、唯一值、有效值、空值率等基本信息和重复值TopN。数字型(integer/float):展示字段个数、唯一值、零值、空值率等基本信息、重复值TopN、统计信息、以及直方图。布尔型(boolean),其中字符型中的true/false、数字型中的0/1会被识别为布尔型:展示字段个数、唯一值、零值、空值率等基本信息、重复值TopN以及饼图分布。混合型:展示字段个数、唯一值、有效值、空值率等基本信息和重复值TopN以及各数据类型占比的饼图。技术实现方案

实现数据探查出结果在元数据管理模块的应用有三种方案:一是数据分析或应用时点击探查按钮即时计算当前表的探查结果展示;二是利用计算集群空闲时大批量计算;三是前面两种方案的结合,展示当前探查结果更新时间戳。前两种方式各有利弊,第三种方案较好既可以充分利用集群的计算资源,又可以保证数据全或大部分探查结果覆盖,还可以数据使用根据需要即时更新数据探查结果。实现思路如下:

首先,数据标准严格执行,字符类型和数据类型的字段数据类型合理准确使用。这样程序才能智能识别哪些维度、哪些是度量。其次,根据上述数据标准字段数据类型,智能生成上述数据探查指标的SQL逻辑片段,通过整合SQL片段片段生成完成的批量优化SQL脚本。

最后,数据质量检测系统集群空闲状态时T+1更新,大批量对数据进行探查。执行程序保存探查结果,数据使用者可根据实际情况即时更新表的探查结果。数据探查与数据质量监控系统的配合即便于数据质量迭代,又便于数据分析或使用者对数据全局概况的了解。高质量数据释放了数据分析清洗、加工数据大部分时间,对数据全局认识,减少识别数据的时间,让数据分析师更专注于数据分析洞察工作,提高产出效率。

总结

本篇文章从数据探查是什么和技术实现方案,其中包括数据探查大致包含哪些探查指标等,还有数据探查与数据质量管理、元数据管理和数据应用或使用等之间整合。

上述是对批数据的数据探查,其在实时数据探查功能同样可以在实时数据仓库和实时标签等实现。数据探查是元数据管理内容的补充,对数据内容的描述更加准确和完善,让数据分析师或数据使用者从容地简单地使用数据。

相关推荐

CAD立面图怎么画?画CAD立面图的步骤详解
best365官网手机版

CAD立面图怎么画?画CAD立面图的步骤详解

📅 06-28 👁️ 1277
移动设备有哪些?
office365无法打开word

移动设备有哪些?

📅 06-29 👁️ 8721
震惊!韩日世界杯假球确定 韩国受益西意受害
office365无法打开word

震惊!韩日世界杯假球确定 韩国受益西意受害

📅 06-30 👁️ 9661
十大好用的写作软件 写小说的软件排行 可以写小说的软件有哪些→MAIGOO生活榜
如何在 iPhone 上打开或关闭“勿扰模式”
365bet体育在线投注

如何在 iPhone 上打开或关闭“勿扰模式”

📅 06-30 👁️ 2416
每个月的王者轮回钥匙能积累到下个月用吗(cf活动结束钥匙没用完)
拿下钱包多久下款
office365无法打开word

拿下钱包多久下款

📅 06-30 👁️ 6355
王者荣耀不退出几分钟离线
best365官网手机版

王者荣耀不退出几分钟离线

📅 06-27 👁️ 4747
王者荣耀干将莫邪皮肤有哪些?干将莫邪哪款皮肤最好?
365bet体育在线投注

王者荣耀干将莫邪皮肤有哪些?干将莫邪哪款皮肤最好?

📅 06-30 👁️ 1568
选个“靶子”练练手:15个漏洞测试网站带你飞
365bet体育在线投注

选个“靶子”练练手:15个漏洞测试网站带你飞

📅 06-28 👁️ 6107
如何在 iPhone 上打开或关闭“勿扰模式”
365bet体育在线投注

如何在 iPhone 上打开或关闭“勿扰模式”

📅 06-30 👁️ 2416
2014巴西世界杯
365bet体育在线投注

2014巴西世界杯

📅 06-27 👁️ 3176