关于印发中国市场信息调查业协会《数据聚合工作规则》的公告

中国市场信息调查业协会《数据聚合工作规则》已经在2025年2月27日中国市场信息调查业协会第四届理事会第三次会议审议通过,现予公布,自公布之日起施行。


附件:数据聚合工作规则


中国市场信息调查业协会

2025年11月 3

附件

数据聚合工作规则

数据聚合整合分散异构数据,提升数据质量,为精准的市场分析、高效的运营决策筑牢根基,助力企业精准把握市场趋势、优化资源配置。同时,它打破数据孤岛,促进跨领域协作创新,催生出智能推荐、风险预警等新应用,成为推动数字经济蓬勃发展、提升社会数字化治理水平的关键力量。

一、数据聚合的定义

数据聚合(Data Fusion)是指将不同来源、不同格式或不同结构的数据集合到一个模型或数据集中的过程。其目的是通过整合多样化的数据,提高数据的完整性、准确性和可用性,支撑更深入的分析、决策制定或应用开发。

二、数据聚合的类型

按数据来源,数据聚合可分为三类:内部数据聚合,即企业或组织内部各业务系统产生的数据进行聚合;外部数据聚合,即整合来自企业或组织外部的数据,如行业报告、市场调研数据、社交媒体数据等;内外部数据聚合,即结合内部和外部数据进行深度聚合。

按数据处理层次,数据聚合可分为三类:像素级聚合,主要应用于图像、视频等领域,直接对底层的像素数据进行融合处理;特征级聚合,先从原始数据中提取特征,然后对这些特征进行聚合;决策级聚合,根据多个数据源的分析决策结果进行聚合。

三、数据聚合工作的关键环节

数据聚合工作涉及多源异构数据处理的复杂性,且关乎分析决策的准确性与安全性,因此必须严格按照从需求分析与规划、数据收集、清洗、整合、审核验证,到文档记录报告以及数据使用各环节,且全程融入数据安全与隐私保护的规范流程展开,以确保数据聚合的高效、准确、安全,为业务决策提供有力支撑。

(一)需求分析与规划

1.明确业务目标。即与业务部门沟通,理解其需求。

2.制定数据策略。即确定聚合数据的范围、来源、频率。

(二)数据收集

1.来源明确。必须清晰记录数据的原始来源,包括但不限于数据库、文件系统、第三方数据提供商等。注明数据获取的时间、渠道以及授权信息。内部数据源从公司数据库、日志文件收集数据。外部数据源购买第三方数据,或从公开渠道采集。

2.全面性要求。尽可能全面收集与研究主题相关的数据,避免因数据缺失导致分析偏差。在收集过程中,需根据预先设定的数据需求清单进行核对,确保无遗漏。

3.格式规范。在收集数据时,需对数据格式进行初步检查和规范。若数据格式不符合后续处理要求,应及时进行转换或请求数据提供方进行调整。

4.数据合法性。所有用于聚合的数据必须来源合法,确保获取过程遵循相关法律法规及被调研对象的意愿。禁止使用未经授权、非法采集或来路不明的数据。

5.数据质量评估。在数据收集阶段,应对数据质量进行初步评估。包括检查数据的完整性(是否存在缺失值)、准确性(数据是否真实可靠)、一致性(数据格式、编码等是否统一)。对于质量不佳的数据,需及时进行修正或补充,若无法修正,应在数据聚合过程中进行标注说明。

(三)数据清洗

1.重复值处理。采用适当的算法和工具,对收集到的数据进行重复记录识别和删除,确保每条数据的唯一性。

2.异常值处理。通过设定合理的数据范围和统计方法,识别并处理异常值。对于明显错误或不符合逻辑的异常值,应进行修正或删除;对于可能具有特殊意义的异常值,需进行标记并在后续分析中特别关注。

3.缺失值填补。根据数据特点和业务需求,选择合适的方法对缺失值进行填补,如均值填充、中位数填充、回归预测填充等。

4.数据标准化。将不同来源、不同格式的数据进行标准化处理,统一数据格式、编码方式、度量单位等,将不同量表的评分标准统一到相同的尺度范围。对于分类变量,建立统一的编码体系,确保相同含义的类别具有一致的编码。

(四)数据整合

1.统一标准。建立统一的数据标准,包括数据编码、数据格式、数据字典等,确保不同来源的数据能够在同一框架下进行整合。

2.关联匹配。基于唯一标识符或其他关联字段,将不同数据集进行关联匹配,形成完整的数据集。在匹配过程中,需对匹配结果进行验证和核对,确保数据关联的准确性。

3.冲突解决。当不同数据源的数据存在冲突时,应按照预先制定的优先级规则进行处理。

4.数据缘管理。全量的数据变更,包括但不限于数据清洗、加工与整合,均需要记录其数据流,追溯数据在整个组织中移动的可见性,保障数据质量,同时也有助于数据问题的排查和解决。

5.数据专题建设。结合实际业务场景以及现行数据存储现状,分析设计数据模型,以数据模型的基本表为标准,逐一衡量已有数据存储的结构,提高存储效率,建立以主题数据库为主体的高档次数据环境,满足不同应用场景的数据要求。

(五)数据审核与验证

1.内部审核。数据聚合完成后,应由专门的数据审核人员对聚合结果进行审核。审核内容包括数据的准确性(汇总结果是否与预期相符)、一致性(不同维度汇总结果之间是否存在矛盾)、完整性(是否所有数据都已正确聚合)等。审核人员需详细记录审核过程中发现的问题及处理结果。

2.外部验证。对于重要的市场调研项目,可邀请外部专业机构或专家对数据聚合结果进行验证。外部验证机构应具备相关的资质和经验,能够独立、客观地对数据进行评估。根据外部验证的反馈意见,对数据聚合过程和结果进行必要的调整和完善。

(六)文档记录与报告

1.数据聚合文档。在数据聚合过程中,应详细记录每一个步骤的操作方法、参数设置、处理结果等信息,形成数据聚合文档。该文档应包括数据来源说明、数据清洗与标准化的具体规则、数据匹配与整合的逻辑、数据汇总的方式等内容,以便后续查询、审核和重现数据聚合过程。

2.数据报告。根据数据聚合结果,生成详细的数据报告。报告应清晰呈现数据的基本情况、聚合过程中的关键指标和结果、数据分析结论等内容。报告语言应简洁明了,图表应直观易懂,能够为市场调研的决策者提供准确、有用的信息支持。

(七)数据使用

1.权限管理。根据用户的角色和职责,分配相应的数据访问和使用权限,确保数据的使用安全合规。

2.分析规范。在进行数据分析时,应遵循科学的分析方法和流程,确保分析结果的准确性和可靠性。分析过程中需对数据进行合理的解读和可视化展示。

3.成果共享。分析完成后,应及时将数据成果进行共享,推动数据在组织内的流通和应用。同时,对数据成果的使用情况进行跟踪和反馈。

四、严格确保数据安全

数据安全是数据聚合的生命线,它保障数据在聚合各环节不被窃取、篡改或泄露,确保聚合数据的质量和可信度,让数据聚合得以安全有序开展,为基于聚合数据的决策、应用筑牢根基。

(一)数据存储安全

聚合后的数据应存储在安全的服务器或存储设备中,设置严格的访问权限,仅允许授权人员访问。采用加密技术对存储的数据进行加密,防止数据在存储过程中被窃取或篡改。可以使用高级加密标准(AES)算法对数据进行加密存储,即使存储设备丢失或被盗,未授权人员也难以获取数据内容。

(二)数据传输安全

在数据传输过程中,应采用安全的传输协议(如SSL/TLS),确保数据传输的保密性和完整性。对传输的数据进行加密处理,并进行数据完整性校验。利用数字证书来验证数据传输双方的身份,防止中间人攻击,保证数据传输的安全性。

五、遵守数据聚合职业伦理

职业伦理是数据聚合工作的道德基石,它从规范数据获取、使用、共享行为,保障数据安全与隐私,以及促使从业者提升专业素养和保持诚信等方面,确保数据聚合合法合规、公正客观、可持续发展,为数据聚合的全流程提供价值指引与行为约束。

(一)数据来源伦理

1.合法合规获取数据。数据聚合过程中,从业者必须确保所有数据来源合法合规。避免使用未经授权的数据,不参与任何非法的数据交易或采集活动。

2.尊重数据主体权益。数据聚合可能涉及大量个人数据,从业者要尊重数据主体的各项权益。包括数据主体对自身数据的知情权、访问权、更正权和删除权等。在数据聚合过程中,应避免因数据错误或不当使用给数据主体带来不利影响。

(二)数据使用伦理

1.防止数据滥用。数据聚合为数据分析和决策提供了丰富资源,但从业者要防止数据滥用。不能将聚合后的数据用于与最初声明目的不相符的其他用途。在进行数据分析和应用时,应基于正当的业务需求,合理使用聚合数据,确保数据使用的透明度。

2.隐私保护。从业者需采取有效的技术和管理措施,防止数据泄露、篡改和丢失。在数据聚合的各个环节,从数据收集、存储到传输和使用,都要对敏感数据进行加密处理。在与第三方共享数据时,要确保第三方也遵循严格的数据安全和隐私保护标准,签订保密协议,明确双方责任。

(三)从业者自身伦理

1.保持专业诚信。数据聚合从业者应具备专业素养和诚信品质。在数据处理过程中,要保证数据的真实性和可靠性,不篡改数据结果以迎合特定需求。在撰写数据报告或提供数据分析结论时,要基于客观事实,不夸大或隐瞒数据信息。

2.持续学习与能力提升。随着数据聚合技术和相关法规政策的不断发展,从业者有责任持续学习,提升自己的专业能力。及时了解最新的数据聚合技术、伦理规范和法律法规,确保自己的工作始终符合行业标准和职业要求。参加专业培训、学术交流活动,关注行业动态,不断更新知识体系,为数据聚合工作提供更优质的服务 。