加入收藏|设为首页|联系我们

主管:广东省科学技术厅         主办:广东省科技合作研究促进中心

《电脑与电信》

国内刊号:CN 44-1606/TN   国际刊号:ISSN 1008-6609

中国知网数据库(CNKI)全文收录期刊
中国核心期刊(遴选)数据库收录期刊
中国万方数据库全文收录期刊
中国龙源数据库全文收录期刊
投稿邮箱:zzsbjbtg2008@163.com
              

主管单位:广东省科学技术厅

主办单位:广东省科技合作研究促进中心

国内刊号:CN 44-1606/TN

国际刊号:ISSN 1008-6609

创刊时间:1995年

刊物级别:省级、国内外公开发行

主要栏目:全球IT新浪潮、国际合作项目、新闻链接、学术探讨

收录网站:中国核心期刊(遴选)期刊数据库、中国科技期刊数据库(维普)、万方数据知识服务平台(万方)、中文学术期刊源数据库(SDCAJ) 、中国学术期刊综合评价数据库等收录

  • 投稿咨询:
    3112594010/754727519
  • 稿件查询:
    3105360450/3112594010
  • 工作时间:早上9点——下午5点(周日除外)

当前位置:首页 > 学术展示

基于数据表相似度计算的数据血缘构建方法
作者:潘奇1蔡斯博1,2魏芳芳1
机构:[1] 国家开放大学 100039  [2] 数字化学习技术集成与应用教育部工程研究中心 100039 
摘要:大数据时代下,各业务部门基于已有业务数据积累激发数据价值已成为一种共识。由于各业务系统数据标准不统一,导致元数据杂乱无章、数据孤岛、低质数据等问题层出不穷,阻碍数据的有效利用,需进行必要的治理。这其中,数据血缘分析是元数据管理的关键任务之一,对于数据溯源和数据治理具有重要意义。然而,传统的数据血缘构建方法往往面临着计算复杂度高、准确性差、执行成本高等问题。为克服这些问题,提出一种基于数据表相似度计算的数据血缘构建方法:通过对数据表的命名、表结构和数据字段三要素进行文本特征表示,利用TFIDF计算数据表的相似度,并进一步通过改进的Jaro-WinklerDistances算法验证字段重合度、表名相似度的方法构建数据表血缘关系。结果表明,该算法在数据表血缘关系构建方面效果显著,促进了数据治理工作的顺利开展。
来源:《电脑与电信》 • 2024年06期 11-15,共5页
关键词:表相似度; 数据血缘; 数据治理; 元数据
中图分类号:TP3 [计算技术、计算机技术]
学科分类号:0812 [计算机科学与技术]
基金项目:国家开放大学青年科研项目,项目编号:Q23A0024。
杂志协同采编征稿平台· 版权所有:《电脑与电信》杂志社