[万字长文]知识图谱之本体结构与语义解耦——知识建模看它就够了_焦点热闻
时间:2023-06-17 02:16:08来源:阿里开发者

点击链接阅读原文,获取更多技术内容:

本文总结了我们过去参与的知识图谱项目中的一般问题和难点,沉淀为体系化的方法论,并针对不同复杂程度的知识建模问题,进行实操指南。

作者 | 袁琳(徽外)


(相关资料图)

来源 | 阿里开发者公众号

前言

过去两年多的时间,针对蚂蚁域内业务场景和知识体系多样、复杂,知识建模成本高导致图谱项目启动难的问题,我们提出了一种结构与语义解耦的知识建模及schema设计方法,并在商家图谱、事理图谱、保险图谱等多个项目中进行实践。相关简化schema设计及帮助对知识的属性语义化、标准化的能力已经集成到蜘蛛知识平台。本文总结了我们过去所工作,沉淀为体系化的方法论,并针对不同复杂程度的知识建模问题,进行实操指南。

说明

本指南在背景部分对知识建模的发展历程、相关问题、蚂蚁场景下的挑战进行书录说明,如果对这部分已经清楚或不感兴趣可以跳过。

在基础篇、进阶篇、高阶篇,针对不同业务场景的建模需求,由浅及深讲解知识建模的方法和案例,并涉及术语的解释。本文档所提出的建模方案,已经在蜘蛛平台做了对应的能力支持实现(或开发迭代中)。独立于蜘蛛平台,读者也可以按本文的方法论对自己的业务问题简化抽象,实施对领域知识的建模及对已有常识图谱的复用。

如果你对知识图片已有一定了解或实践,可跳过基础篇(基础篇的“属性语义标化”依然值得一读)。 如果你的图谱,涉及对业务类目体系、常识概念(如“行政区划”)的应用,请仔细阅读进阶篇。 如果你的图谱,涉及对带有时空信息的行为事件的表达,或建模场景下的业务规则、专家经验,需要对所定义“概念”的内涵和外延有计算机可处理可计算的逻辑语义解释,高阶篇中有你所需知道的一切。 由于高阶篇的内容有一定的阅读门槛,如果你的场景只需要描述相对静态的事实关联,不包含用户行为、新闻事件的建模,没有语义推理的需求,可以跳过高阶篇,参考基础篇和进阶篇就够用了。

背景

知识建模是解决将真实世界中的海量信息转化为符合计算机处理模式的结构化数据,其中包括对真实世界中事物的属性特征及其关系的共性的抽象,制定表示的规范,同时兼顾对常识或领域概念及概念层级体系的语义理解,即体现了对知识的认知过程。

相关工作

图1 知识建模方法回顾

表1 知识建模方法对比

方法

特点

关系型数据库

用实体及其属性(关系也体现为外键)对数据结构化,不包括语义的建模,容易存在大量的数据冗余,多跳跨表查复杂、效率低。

知识工程

本体表示:将知识表示为辑符号的形式,构建特定领域概念类别及其层级细分关系,并用

一阶谓词逻辑、生产式规则表示领域专家经验,支持知识的符合推理。

框架(frame)表示:强调将所描述的每类事物都抽象为出特定的slot-value的结构化表示(例如目前百科词条就是frame表示)。

弊端:人工构建成本太高,知识获取困难。

语义网

出发点是用文档中的数据关联+逻辑描述,让计算机能认识和理解世界万物。语义网发展过程中先后制定了基于描述逻辑的DAML、RDF、OWL、OWL2等语言,语义完备性的强调,成为逻辑学家的游戏,无法工业化落地。

知识图谱

以基本的SPO三元组,表示实体间的事实关系;但SPO对由多个要素(>2)共同决定的多元关系表示存在缺陷;图谱schema的设计是主观的,不同图谱的异构导致知识难以对齐融合。

事理图谱

将事件以及事件之间的关系抽取并抽象出来,构建描述事件之间演化规律和模式的事理逻辑知识库。事件有frame框架表示、verb+nound表示等流派。

常识概念图谱

围绕常识性概念建立的实体以及实体之间的关系,帮助自然语言文本的理解。涵盖“是什么”的概念Taxonomy体系结构,“什么样”的概念属性关系,“给什么”的概念承接关系。

知识超图

超图(Hypergraph):就是每一个边可以包含两个以上的点所构成的图,解决多元知识的表示。

业务问题

表2 蚂蚁域内常见建模问题

建模问题

现有解决方案及不足

商家资产等实体-关系schema设计

●无论是ER建模、本体、rdf、owl,都只是语法定义,不解决“设计模式”本身的问题。

●schema设计启动难,难以决策属性/关系的设计、实体类型的划分。

●schema的设计是主观的,导致不同图谱间知识的异构性(数据结构不同),阻碍知识的复用。

常识、领域结构化语义理解

●不同业务有各自体现业务语义的类目体系,同时蚂蚁域内的场景也涉及对常识的理解

●传统的本体建模,在同一个分类体系上,既要对schema的扩展建模,又要对语义上的细分类建模,数据结构定义和语义建模的耦合,导致工程实现及维护管理的复杂性,也增加了业务梳理和表示(认知)领域知识的困难。

跨图谱融合场景

●不同业务部门构建图谱时先专注于自身领域的知识建模,但随着业务的开展,需要引入其他领域的知识。

●跨图谱融合,解决提高数据的复用性、提升数据治理能力,减少数据冗余重复及帮助发掘业务价值拓展。

●需要对领域内有共有的实体,如:用户、商家、POI等,提供统一的schema规范,并对域内常识或公用类目,如:行政区划、mcc类目等,沉淀为通用语义资产。

保险、黑产等业务逻辑表达需求

●保险产品运营、保险健告、黑产洞察等场景有着丰富的业务逻辑、业务规则沉淀

●需要支持业务规则、专家经验的形式化表达及推理能力

●一阶谓词、dsl等,对用户有门槛,业务规则较多时,需要有更简洁、快速的对规则建模的方法

用户行为建模场景

多元关系建模问题

●用户行为、金融事件、业务状态流,都可以抽象为多元时空行为事件建模

●spo三元组表达多元关系是有损的

●超图结构的理解,对于非算法用户有学习门槛,难以直接可视化

●行为时间事件之间,本身存在着时序、因果、共现的等关系

事理图谱及事理关系建模

已有的研究或工作,都只解决了事件图谱、事理(概念)图谱或事理常识中特定一类的表示,蚂蚁场景中需要对从实例到概念,从事实到常识的整体架构

●每种事件的实例需要frame表示

●事件概念体系需要本体表示

●事件实例之间的事实关系需要spo表示

●事件概念之间的顺承、因果等需要逻辑表达

方案概述

本体是偏哲学的学术概念,指“特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)”。在知识工程、语义网时代,都用本体建模指代知识建模,利用rdf、owl等规范的语言,核心定义严格完备的逻辑。但这套方法不适合大数据时代知识的多样性、跨领域复杂性,无法满足数据的便捷迭代生产。

我们认为,“本体”在知识图谱建模阶段,存在误用。换言之, 知识图谱建模,不需要“本体”,而应该关注数据结构上的“元数据”的定义,以及知识语义关联的标签概念体系及概念网络。

剩余60%,完整内容请点击下方链接查看:

阿里云开发者社区,千万开发者的选择。百万精品技术内容、千节免费系统课程、丰富的体验场景、活跃的社群活动、行业专家分享交流,尽在:

标签:

最新
  • 双鱼女给人的感觉就是优柔寡断 渣男往往看中的就是她们这种性格?

    NO 1双鱼女双鱼女给人的感觉就是优柔寡断,多愁善感,缺乏理性的思维,某些渣男往往看中的就是她们这种

  • 什么是可转换优先股?可转换优先股的优缺点

    什么是可转换优先股?可转换优先股是指在一定条件下,持有人可以把它转换成普通股的行为,在公司盈利较少

  • win10双显示器怎么切换设置?win7如何进入安全模式启动?

    win10双显示器切换教程1、首先在电脑中,桌面鼠标点击【右键】,点击显示设置。2、然后在打开的设置窗口

  • 冰墩墩的设计者是谁?冰墩墩的确定历程是什么?

    冰墩墩的设计者是谁?冰墩墩的设计者是曹雪。曹雪,教授,1985年毕业于无锡轻工业学院造型美术系(后改名

  • 钢笔的墨囊是如何安装的?钢笔能直接用吗?

    钢笔怎么装墨囊?拧开钢笔找到你的钢笔笔管和笔尖连接的地方,将这个地方给拧开。拿出墨囊确认里面墨囊的

  • 好自为之的出处是哪里?好自为之的近义词和反义词是什么?

    【读音】 hǎo zì wéi zhī【释义】 喜欢自己亲手去做;也意为你自己看着办。多用于

  • 现手是什么意思?现手多好还是少好?

    1 现手指某一股票即时的成交量。对于最近成交的一笔成交量也称现手。2 股市最小交易量是1手,为100股,

  • 我的勇者什么职业好?我的勇者礼包兑换码大全2023

    职业选择:1、战士是永恒的最强职业,而且上手容易,装备容易成型,基本上开局选战士是最好的选择。2、

  • 自己能跟网贷沟通延期还款吗?网贷延期还款有利息吗?

    自己能跟网贷沟通延期还款吗?网贷可以协商延期还款。如果贷款人确实无力还款,可以主动向网贷平台申请延

  • 焗油膏能当护发素用吗?护发素的功效是怎样的?

    焗油膏不能当护发素用。因为护发素是每天都可以使用的护发产品,但焗油膏不能天天用。焗油膏和护发素都

  • 女性常吃哪些浆果对心脏最有益?你知道吗?

    多吃这些美味的浆果,有助预防心血管疾病1 黑莓这些美味的浆果富含多酚,有助预防心血管疾病,甚至癌症

  • 剑桥大学研发水凝胶人造皮肤 能模拟人类触觉感知

    新型水凝胶皮肤在进行损伤检测实验。图片来源:物理学家组织网英国剑桥大学生物启发机器人实验室的研究人员

  • 浙商证券:给予盈趣科技买入评级-百事通

    浙商证券股份有限公司马莉,史凡可,傅嘉成近期对盈趣科技进行研究并发布了研究报告《盈趣科技22年报及23Q1季

  • 新股申购具体怎么操作?新股申购一定能赚钱吗?

    新股申购具体怎么操作?1、查询新股申购额度,申购科创板、创业板等新股需要开通对应的交易权限。2、查询

  • 营养研究继续支持经常食用西瓜对健康有益-头条焦点

    毫无疑问,西瓜既美味又有营养,但新的研究强调了这种营养丰富的水果对整体饮食质量和心脏健康的贡献。最近

  • 【全球独家】“五一”假期超3500万人次赴云南旅游 旅游收入近350亿元

    记者4日从中国旅游研究院昆明分院获悉,2023年“五一”假期(4月29日至5月3日)云南共接待游客3501 3万人次,

  • 旅游
    • 长沙九龙仓有多少层?长沙九龙仓在哪个位置?

    • 跳空高开是什么意思?跳空高开的股票意味着什么?

    • 有前景的创业项目 有前景的创业项目推荐

    • 停息挂账详细的申请流程是什么?十几个网贷逾期两年会怎么样?