GPT奇点赋能大数据行业，不只是写SQL还有……——以数据全生命周期视角为例

2023年，超级大模型GPT3、GPT4热浪席卷全球，它的出现，为数字化建设领域带来了一次“重生”的契机。当“类人思考”出现后，哪些可以被“加速”、被“绕过”、被“替代”呢？本文作者围绕数据场景下的GPT应用，做了详细的拆解，一起来看一下吧。

1995年，尼古拉斯·尼葛洛庞帝宣布“数字化时代已经到来”，随之而来的是，数字化成为各行业大力投入建设的基础设施。其中，以互联网为代表的天生具有数字化属性的行业，一直是引领技术创新的风向标，这就包括应用人工智能技术（AI）——超级工具为各行各业提高生产效率和效能。数据与AI之间，是互为促进，相辅相成，有机融合的关系。

当时间来到2023年，超级大模型GPT3、GPT4热浪席卷全球（Generative Pre-Trained Transformer，即生成式预训练Transfomer模型，是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型，可以在海量通用数据上进行预先训练，能大幅提升AI的泛化性、通用性、实用性）。

它的出现，为数字化建设领域，带来了一次“重生”的契机，作为从业者的我们尝试应用GPT4等AGI能力，为企业内部的数字化建设做一次“刷新”，当“类人思考”出现后，哪些可以被“加速”、被“绕过”、被“替代”。截止目前，已有GPT的49种应用，其中两项是跟数据场景有关。下面，我们将围绕数据场景下的GPT应用，做更细粒度的拆解。

一、数据的生命周期

1. 用数据时，遇到的问题

业务高速发展带动数据需求高涨，这与数据部门的应接能力之间存在博弈，这是摆在非天生数字化属性的行业的一道难题。理想中，业务需要的数据都有，都能找到，可以支持各种维度的解析和创新。而现实是，能用的数据有限（A），很多已经建设出来的数据，大家不认识，不敢用（B），多个雷同数据存在使得校对该用哪一个耗时耗力。很多沉睡数据，已经过时，占用着存储空间（D），使得数据存储成本连年上涨。缺失重要数据，需要排期开发（C）。

2. 数据生命周期

数据产生于业务各环节中，部分在online的业务系统中，另一部分散落在offline（比如，工厂），要将散落在各处的数据做好采集（人工录入、扫码、RFID），确保必要数据进入业务数据库中。之后，针对想做分析的数据，可以放入大数据平台的数仓中，通过数据集成工具，将结构化、非结构化多源异构数据汇聚到ODS层。根据数据建模方法，数据开发工程师做DWD和DWS层的加工建设，供业务的数据分析师使用（ADS层），做报表、配看板、提数等。

为进一步提高数据消费效率，通过复用数据API的模式打通最后一公里，降低各系统分别对接的成本。针对一次性，或者长期不用的冷僵数据，做归档和删除处理，腾出宝贵的存储空间和计算资源。这套大数据平台，涉及平台管理能力，以及资产管理模块。而数据治理则横跨业务系统到数据平台的全生命周期中。

3. 人、货（数据）、场

大数据环境下的人货场，跟电商场景中的人货场有两点相似，其一，都需要一个存储货物的地方——“仓库”。大数据环境下叫数据仓库。其二，都需要传输，大数据环境下叫“加工”。与实体的货物相比，数据具有两个特殊的属性，使得，它的存储和运输，要比电商场景更为复杂。这两个属性是，“权限等级”、“体积变化”。

数据有等级之分，高敏感的数据，需要做更严格的权限管控，以确保消费安全。体积变化，是指经过一系列的加工（删除delete、drop、修改alter、增加insert、创建create等），数据的整体体积会发生变化（变大or变小）。这使得存储or加工计算都需要具备弹性的能力，能包容、承托住数据的这些变化。货物的流通VS数据的流通，使得我们还要考虑继承的问题，跨系统的继承、权限继承、表/字段血缘继承。这些因素，使得虚拟场景下的“人、数、场”比实体中的“人、货、场”更为复杂。

基于上章节提及的数据生命周期，我们拆解了每个环节中，人是谁，在做什么事儿，继而数据会发生怎样的变化（体积变大变小，定义更迭）。为了更为清晰的展示这些环节中人的角色，我们将他们逐一做了定义，共9个角色，1数据生产方、2数据拥有者（将数据采集到业务数据库中）、3数据消费方（想用数据作分析，接入数仓）、4数据开发工程师、5数据分析师、6终端的小白用户。过程中，在数仓范围内，有7资产管理者，有8大数据平台的开发者和管理员。在整个数据生命周期范围内，有9数据治理专家。每个角色，都有其要执行的动作，均简要绘制在图上，具体不再赘述。

数据方面，图中标注了离线和实时两种数仓结构，具体的数仓介绍，网络上各种专家分享，内容翔实且精彩，不再赘述。

二、GPT介入后数据生命周期发生的变化

【前提】GPT打通大数据平台的数仓（即要添加企业专有知识，才能提升准确度，让GPT在企业内部用起来，提醒，这些信息数据的交换要在安全允许的范围内进行），以获取准确的元数据信息，这样在用户输入自然语言时，GPT能懂，并返回符合企业数据结构特征的结果。其次，GPT还具有coding的能力，所以当它跟企业内部各个系统打通后，还可以扩展能力，代替人，执行某些既定操作。下面，我们以大数据环境中，6个常见环节，GPT是如何辅助人类的逐一做拆解。

1. 数据集成（聚）

GPT协助提效ETL：

Extract-Transform-Load：抽取（extract）转换（transform）加载（load）
目前的ETL工具较成熟（如：Kettle、Datastage、Informatica），数据开发人员可以通过输入和点击关键信息，自动生成调度任务，对于没有ETL工具的公司需要使用GPT。

2. 数据开发&建模（养）

1）GPT代写SQL做数据建模和开发

【前提】将表的元数据信息导给 ElasticSearch，结合 GPT 与 ElasticSearch 服务，提高 SQL 生成结果的准确性。

2）GPT代为配置数据质量监控告警

【前提】GPT跟数据质量模块、调度模块、email、飞书等系统打通。

第一步：输入文字，让GPT找到目标表（支持一次访问多张表）；
第二步：页面呈现目标表（表头、部分数据），确认准确；
第三步：输入文字，针对这些表，计算，比过往12个月自身波动绝对值最大值还高的指标，高亮标识出来，并给出字段名称；
第四步：输入文字，针对这些指标，做日常监控，计算超过比例，针对波动率大于等于5%的指标（基于经验，大于历史1年波动绝对值最大值超过5%的，判定为数据异常），email通知该表开发负责人、下游任务创建者、消费方，某些指标可能出现异常，请关注；

【结论】GPT介入后，可以不做前端质量规则配置平台，并节约配置质量规则的人力投入。

3. 资产管理（治）

GPT代做冷僵数据归档和删除：

【前提】GPT跟调度模块、资产管理模块、email、飞书等系统打通。

第一步：输入文字，找到半年以上冷僵数据（未有动销，读、写、查询过的表）；
第二步：输入文字，确认这些表，是否有配置跑批任务；
第三步：输入文字，让GPT给这些表的创建者发送email邮件or飞书提醒，一周后，将自动删除这些冷僵数据，若需要保留，请尽快跟资产治理管理员取得联系（此为举例，实际工作中，细节落实时，会更复杂些）；
第四步：输入文字，让GPT执行删除冷僵数据的操作；

【结论】GPT介入后，可以不做前端冷僵数据归档和删除平台，可以节约配置冷僵数据定时删除规则的人力投入。

4. 平台管理（管）

GPT代建权限申请流程：

【前提】GPT跟低代码流程中心、大数据权限管理模块打通。

第一步：当人们通过输入文字，问GPT，寻找某张表时，看过元数据信息，确保是目标表，此时，若用户没有权限，可以请GPT帮忙做权限申请；
第二步：GPT根据该表的敏感等级，及审批要求。向申请人的直属老板、表的开发负责人、业务负责人、安全管理员逐层发起申请，过程中，某个环节可随时增加审批节点；
第三步：审批结束后，是通过还是驳回，GPT都会通过飞书oremail，or站内，GPT与人的交互端口，即时向申请者反馈信息；

【结论】GPT介入后，可以不做繁杂的定制化的权限审批流程，可以由安全与业务同学达成一致后，给GPT输入自然语言，形成审批流，以此节约研发人力投入。

5. 数据分析（用）

GPT代做“自助提数”：

【前提】1、与权限（行列权限和加解密），安全审计能力打通。2、打通元数据，确保GPT生成SQL时，对表、字段的描述跟数仓保持一致，可以直接使用。

第一步：输入文字，找目标表（支持一次访问多张表）。“例如我想查询A表，在P条件下的x、y、z字段，可以直接输出SQL语句。当然，经过预训练，或者在数据源仅有一张表的情况下，描述话语甚至可以更加简略。在训练输入了多张表结构后，也可以支持关联分析。”

第二步：尝试在原有SQL的基础上修改一些条件“保留23年第一季度的结果”。

第三步：尝试增删改查表或者对表中数据进行更新“帮我把价格表中的用户单价上调10%”。

第四步：尝试，将SQL翻译为自然语言，以助于帮助了解SQL。

备注：以上是以EverSQL产品举例。

虽然GPT能快速撰写高质量的SQL，但是对于不能接受任何误差的数据场景，准确理解业务需求，并关联到所需的表和字段，需要一定的预训练以提高准确度。快速训练GPT提升特定场景匹配能力，会成为分析师核心竞争力之一。

【结论】GPT介入后，可以不做自助提数的前端平台，特别是拖拉拽的平台，直接用SQL取数能力即可，可以降低写SQL的门槛，可以节约用SQL配置模版的人力投入。针对复用场景，直接将“prompt”保存下来，只要有权限访问，即可复用。

6. BI看板（用）

GPT生成“图表”：

【前提】GTP跟图表生成工具打通。

第一步：同2.1第一步
第二步：同2.1第二步
第三步：输入文字，告知要哪些行、哪些列，生成柱状、饼状、折线图等

【结论】GPT介入后，快速支撑业务的临时性看板需求（自助），可以节约数据分析师配置看板人力投入（只做长期高频BI看板，针对临时性的业务需求，特别是紧急的，无需排队等待，业务小白可以让GPT制作）。

7. 业务应用（用）

GPT支持搜索
元数据查询
数据查找
找图、找表

【结论】GPT介入后，后续甚至是语音输入，即可，无需码字，在移动端调取数据会更加方便，很适合销售门店等offline无PC电脑的场景。

基于以上建设，大数据场景下向数字孪生方向的发展加快了步伐。美国国防部、微软在工业化等数字孪生场景中（模型建设、场景设计），均引入生成式AI。智能问答、语音交互获取数据将会实现。

受作者领域认知深度所限，及技术无时无刻不在更新迭代，业界对GPT、AutoGPT、AGI、即时AI……的衍生应用必定是珠零锦粲。无法在一篇中尽现全貌，未来可能会彻底推翻当下的种种尝试而不得知。能为大家带去一点点新的启发，以深感欣慰。文中难免有纰漏或不准确的地方，欢迎大家批评指正。撰写中参考网络上各位同仁的最新观点，拿来主义为打招呼，还望见谅。若有任何建议或意见，欢迎联系作者探讨。

关键词：Chat GPT、生成式AI、AIGC、LLM、AGI、SQL、大数据、数据开发、数据建模、自助取数

参考资料：

https://baike.baidu.com/item/GPT/62908731?fromModule=lemma_search-box

https://baijiahao.baidu.com/s?id=1761984800865030846&wfr=spider&for=pc

作者：shucay，佳琪，童，alan，伯敖

本文由@shucay 授权发布于知识吧，未经许可，禁止转载。

题图来自Unsplash，基于CC0协议