knowledgegraph（KnowledgeGraph怎么读）

问答系统介绍

这是我的第一篇技术博客，也是对近期学习的问答系统进行一个小结，方便回顾所学。文章难免有错误之处，欢迎大家批评指正，不胜感激。

下面将从两个方面对问答系统进行小结：

一、常见的问答系统种类及介绍

二、问答系统中的常用技术

1.根据问题所属的知识领域来分类：

（1）开放域闲聊性。举例：微软小冰

（2）面向FAQ和任务型。举例：京东JIMI、苹果Siri

（3）限定域知识型。举例：左手医生（问答模型、信息检索）

2.根据答案生成阶段的技术分类：

（1）检索式（2）生成式

3.依据答案来源分类：

（1）基于知识图谱问答系统

（2）机器阅读理解的问答系统

（3）基于问答对的问答系统

定义：给定自然语言处理问题，通过对问题进行语义理解和解析，进而利用知识库进行查询、推理得出答案。对事实性问答任务而言（如政策问题）这种做法依赖于知识图谱，准确率比较高。要求知识图谱是比较大规模的，因为KB-QA无法给出在知识图谱之外的答案。下面给出常见分类：

（1）基于符号表示的KB-QA（传统的语义解析方法）

（2）基于向量表示的KB-QA（知识表示学习的方法）

评价标准：召回率(Recall)、精确率(Precision)、F1

常用数据集：WebQuestion、SimpleQuestion、NLPCC KBQA数据集（中文）

（1）基于符号表示的KB-QA（传统的语义解析方法）

定义：该方法是一种偏语言学的方法，主体思想是将自然语言转化为一系列形式化的逻辑形式，通过对逻辑形式进行自底向上的解析，得到一种可以表达整个问题语义的逻辑形式，通过相应的查询语句在知识库中进行查询，从而得出答案。

语义解析传统方法：

问题-短语检测-资源映射-语义组合-逻辑表达式

语义解析目前一般做法：

建图-主题词链接-确定核心推导链-增加约束和聚合函数

将语义解析简化为查询图生成，将其表述为具有分阶段状态和动作的搜索问题。

（2）基于向量表示的KB-QA(基于表示学习的方法)

定义：把知识库问答看做一个语义匹配过程。通过表示学习知识库以及用户问题的语义表示，得到低维空间的数值向量，再通过数值计算，直接匹配与用户问句语义最相似的答案。即问答任务就可以看成问句语义向量与知识库中实体、边的语义向量相似度计算的过程。

随着深度学习的发展，基于表示学习的知识库问答取得了较好的效果。

一般做法：

问题和答案映射向量-向量匹配-计算问题-答案score-优化问题-候选答案选择

详细过程：

问题和答案映射向量：

如何学习问题向量：把问题用LSTM进行建模

如何学习答案向量：答案不能简单映射成词向量，一般是利用到答案实体，答案类型，答案路径，答案关系，答案上下文信息。分别和问句向量做相似度计算，最终的相似度为几种相似度之和。代表性的论文 [1]Dong, ACL. Question answering over freebase with multi-column convolutional neural networks.2015提出Multi-column CNN,在答案端加入了更多信息，答案类型、答案路径以及答案周围的实体和关系三种特征向量分别和问句向量做相似度计算，最终的相似度为三种相似度之和。

向量匹配、计算问题-答案score：把这些特征分别映射成不同的向量，作为答案的其中一个向量（而不是直接拼接起来），最后用这些特征向量依次和问题做匹配，把score加起来作为总的score。

优化问题、候选答案选择：一般用Margin Loss，极大化问题对正确答案的score，同时极小化问题对错误答案的score。当模型训练完成后，通过score进行筛选，取最高分的作为最终答案。

早期方法使用记忆网络来做，论文：Bordes, arXiv. Large-scale simple question answering with memory networks.2015.首先通过Input模块来处理问题，加入知识库信息，将三元组通过输入模块变换为一条一条的记忆向量，再通过匹配主语获得候选记忆，进行cos匹配来获取最终记忆，将最终记忆中的宾语输出作为答案。在WebQuestions上得到了42.4的F1-score，在SimpleQuestions上得到了63.9的Accuracy。

接着，又有很多位学者提出了其他基于知识表示学习的方法。其中论文[Xie.2018]提出一种基于深度学习的主题实体抽取模型，结合了问句单词级别和字符级别的嵌入表示来学习问题的序列表示，并利用双向LSTM对单词序列编码，最后使用CNN网络根据单词的上下文信息预测单词是否为主题词。在答案选择部分，文章提出一种基于自注意力机制的深度语义表示模型。使用双向LSTM和CNN网络来构建深度语义模型，并提出一种基于局部和全局上下文的自注意力机制用于计算单词的注意力权重。考虑语义表示学习和实体抽取任务之间的具有相互辅助作用，文章提出深度融合模型，将基于自注意力机制的深度语义表示模型与主题实体抽取模型结合，用多任务学习的方式进行联合训练。在NLPCC-ICCPOL 2016数据集上得到了83.45的F1-score。

今年，Huang, WSDM. Knowledge graph embedding based question answering.2019 提出KEQA模型,不同于以往的直接计算问句和答案语义相似度的方法，本文尝试通过关系和实体学习模型从问句分别重构出实体和关系的知识表示，并进一步重构出三元组的知识表示，最终答案为知识库中与重构三元组最接近的三元组。同时文章也评估了不同的知识表示学习方法TransE,TransH, TransR对KEQA模型精度的影响。

1）基于符号的方法，缺点是需要大量的人工规则，构建难度相对较大。优点是通过规则可以回答更加复杂的问题，有较强的可解释性.

2）基于向量的方法，缺点是目前只能回答简单问题，可解释性差。优点是不需要人工规则，构建难度相对较小。

1）复杂问句，目前End2End的模型只能解决简单问答。

2）多源异构知识库问答。对于开放域问答，单一的知识库不能完全回答所有问题。

3）训练语料，知识库中有实体和关系，除此之外还可能有描述实体的文本信息，或许可以结合结构化知识和非结构化文本。

4）对话中的自然语言形式回复。传统的自动问答都是采用一问一答的形式。然而在很多场景下，需要提问者和系统进行多轮对话交互，实现问答过程。这时，需要系统返回用户的答案不再只是单一实体、概念、关系的形式，而是需要是以自然语言的形式返回答案。这就需要自动生成自然语言的回复。现有方法多利用 sequence-to-sequence 模型进行自然语言生成，在这一过程中，如何与知识库相结合，将知识库问答的答案加入自然语言回复中，仍是亟待解决的问题。

机器阅读理解在 NLP 领域近年来备受关注，自 2016 年 EMNLP 最佳数据集论文 SQuAD 发表后，各大企业院校都加入评测行列。利用机器阅读理解技术进行问答即是对非结构化文章进行阅读理解得到答案，可以分成匹配式QA，抽取式QA和生成式QA，目前绝大部分是抽取式QA。阅读理解花样很多，但是基本框架差异不大。

SQuAD(斯坦福问答数据集)：这是一个阅读理解数据集，由众包人员基于一系列维基百科文章的提问和对应的答案构成，其中每个问题的答案是相关文章中的文本片段或区间。SQuAD 一共有 107,785 个问题，以及配套的 536 篇文章。

（1）匹配式QA

给定文章、问题和一个候选答案集（一般是实体或者单词），从候选答案中选一个score最高的作为答案。这种形式比较像选择题型，已经基本上没人做了。

（2）抽取式 QA

让用户输入若干篇非结构化文本及若干个问题，机器自动在阅读理解的基础上，在文本中自动寻找答案来回答用户的问题。抽取式 QA 的某个问题的答案肯定出现在某篇文章中。抽取式 QA 的经典数据集是 SQuAD。

（3）生成式QA

目前只有MSRA的MS MARCO数据集，针对这个数据集，答案形式是这样的：

1）答案完全在某篇原文

2）答案分别出现在多篇文章中

3）答案一部分出现在原文，一部分出现在问题中

4）答案的一部分出现在原文，另一部分是生成的新词

5）答案完全不在原文出现（Yes / No 类型）

随着互联网技术的成熟和普及, 网络上出现了常问问题(frequent asked questions, FAQ)数据, 特别是在 2005 年末以来大量的社区问答(community based question answering, CQA)数据(例如 Yahoo！Answer)出现在网络上, 即有了大量的问题答案对数据, 问答系统进入了开放领域、基于问题答案对时期。

一般过程：问题分析 -信息检索-答案抽取

问题分析阶段：和基于自由文本的问答系统的问题分析部分基本一样, 不过还多了几个不同的研究点：

（1）问题主客观的判断

（2）问题的紧急性（通常在CQA数据中）

信息检索阶段：该阶段目标是如何根据问题的分析结果去缩小答案可能存在的范围，其中存在两个关键问题：

（1）检索模型（找到和问题类似的问题）

（2）两个问题相似性判断（返回答案或返回相似问题列表）

答案抽取部分：在答案抽取部分, 由于问题答案对已经有了答案, 答案抽取最重要的工作就是判断答案的质量.研究怎么从问题的众多答案中选择一个最好的答案.

下面网址给出了一些论文和近期研究成果：

参考文献：

[1]Berant.EMNLP.Semantic parsing on freebase from question-answer pairs.2013

[2]Yih.ACL.Semantic Parsing via Staged Query Graph Generation:Question Answering with Knowledge Base.2015

[3]Dong, ACL. Question answering over freebase with multi-column convolutional neural networks.2015

[4]Hao, ACL. An end-to-end model for question answering over knowledge base with cross-attention combining global knowledge.

[5]Bordes, arXiv. Large-scale simple question answering with memory networks.2015

[6]Huang, WSDM. Knowledge graph embedding based question answering.2019

[8]Susht.知乎.一份关于问答系统的小结.2018

知识图谱是什么？有哪些应用价值

知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来，它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内，互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比，对处于当今风口浪尖上的行业 - 互联网金融，知识图谱可以有哪方面的应用呢？

1. 什么是知识图谱？

2. 知识图谱的表示

3. 知识图谱的存储

4. 应用

5. 挑战

6. 结语

1. 什么是知识图谱？

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google提出，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候，搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月，家庭情况等等。

另外，对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“，Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。

上面提到的知识图谱都是属于比较宽泛的范畴，在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用，这也是工业界比较关心的话题。

2. 知识图谱的表示

假设我们用知识图谱来描述一个事实（Fact） - “张三是李四的父亲”。这里的实体是张三和李四，关系是“父亲”（is_father_of）。当然，张三和李四也可能会跟其他人存在着某种类型的关系（暂时不考虑）。当我们把电话号码也作为节点加入到知识图谱以后（电话号码也是实体），人和电话之间也可以定义一种关系叫 has_phone，就是说某个电话号码是属于某个人。下面的图就展示了这两种不同的关系。

另外，我们可以把时间作为属性（Property）添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里，还可以加到实体当中，当我们把所有这些信息作为关系或者实体的属性添加后，所得到的图谱称之为属性图（Property Graph）。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式，但二者还是有区别的，这将在后面章节做简单说明。

3. 知识图谱的存储

知识图谱是基于图的数据结构，它的存储方式主要有两种形式：RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别，请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity by 500% within the last 2 years

下面的列表表示的是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位，而且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 DB-Engines Ranking

当然，如果需要设计的知识图谱非常简单，而且查询也不会涉及到1度以上的关联查询，我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络（现实生活中的实体和关系普遍都比较复杂），知识图谱的优点还是非常明显的。首先，在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询，基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次，基于图的存储在设计上会非常灵活，一般只需要局部的改动即可。比如我们有一个新的数据源，我们只需要在已有的图谱上插入就可以。于此相反，关系型存储方式灵活性方面比较差，它所有的Schema都是提前定义好的，如果后续要改变，它的代价是非常高的。最后，把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。

4. 应用

在本文中，我们主要讨论知识图谱在互联网金融行业中的应用。当然，很多应用场景和想法都可以延伸到其他的各行各业。这里提到的应用场景只是冰山一角，在很多其他的应用上，知识图谱仍然可以发挥它潜在的价值，我们在后续的文章中会继续讨论。

反欺诈

反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据（结构化，非结构）整合在一起，并构建反欺诈引擎，从而有效地识别出欺诈案件（比如身份造假，团体欺诈，代办包装等）。而且不少欺诈案件会涉及到复杂的关系网络，这也给欺诈审核带来了新的挑战。知识图谱，作为关系的直接表示方式，可以很好地解决这两个问题。首先，知识图谱提供非常便捷的方式来添加新的数据源，这一点在前面提到过。其次，知识图谱本身就是用来表示关系的，这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。

反欺诈的核心是人，首先需要把与借款人相关的所有的数据源打通，并构建包含多数据源的知识图谱，从而整合成为一台机器可以理解的结构化的知识。在这里，我们不仅可以整合借款人的基本信息（比如申请时填写的信息），还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里，从而进行分析和预测。这里的一个难点是很多的数据都是从网络上获取的非结构化数据，需要利用机器学习、自然语言处理技术把这些数据变成结构化的数据。

不一致性验证

不一致性验证可以用来判断一个借款人的欺诈风险，这个跟交叉验证类似。比如借款人张三和借款人李四填写的是同一个公司电话，但张三填写的公司和李四填写的公司完全不一样，这就成了一个风险点，需要审核人员格外的注意。

再比如，借款人说跟张三是朋友关系，跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候，“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系，从而去验证这个“三角关系”是否正确。很显然，朋友的朋友不是父子关系，所以存在着明显的不一致性。

不一致性验证涉及到知识的推理。通俗地讲，知识的推理可以理解成“链接预测”，也就是从已有的关系图谱里推导出新的关系或链接。比如在上面的例子，假设张三和李四是朋友关系，而且张三和借款人也是朋友关系，那我们可以推理出借款人和李四也是朋友关系。

组团欺诈

相比虚假身份的识别，组团欺诈的挖掘难度更大。这种组织在非常复杂的关系网络里隐藏着，不容易被发现。当我们只有把其中隐含的关系网络梳理清楚，才有可能去分析并发现其中潜在的风险。知识图谱，作为天然的关系网络的分析工具，可以帮助我们更容易地去识别这种潜在的风险。举一个简单的例子，有些组团欺诈的成员会用虚假的身份去申请贷款，但部分信息是共享的。下面的图大概说明了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系，但通过关系网络我们很容易看出这三者之间都共享着某一部分信息，这就让我们马上联想到欺诈风险。虽然组团欺诈的形式众多，但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。

异常分析（Anomaly Detection）

异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简单理解成从给定的数据中找出“异常”点。在我们的应用中，这些”异常“点可能会关联到欺诈。既然知识图谱可以看做是一个图（Graph），知识图谱的异常分析也大都是基于图的结构。由于知识图谱里的实体类型、关系类型不同，异常分析也需要把这些额外的信息考虑进去。大多数基于图的异常分析的计算量比较大，可以选择做离线计算。在我们的应用框架中，可以把异常分析分为两大类：静态分析和动态分析，后面会逐一讲到。

- 静态分析

所谓的静态分析指的是，给定一个图形结构和某个时间点，从中去发现一些异常点（比如有异常的子图）。下图中我们可以很清楚地看到其中五个点的相互紧密度非常强，可能是一个欺诈组织。所以针对这些异常的结构，我们可以做出进一步的分析。

- 动态分析

所谓的动态分析指的是分析其结构随时间变化的趋势。我们的假设是，在短时间内知识图谱结构的变化不会太大，如果它的变化很大，就说明可能存在异常，需要进一步的关注。分析结构随时间的变化会涉及到时序分析技术和图相似性计算技术。有兴趣的读者可以去参考这方面的资料【2】。

失联客户管理

除了贷前的风险控制，知识图谱也可以在贷后发挥其强大的作用。比如在贷后失联客户管理的问题上，知识图谱可以帮助我们挖掘出更多潜在的新的联系人，从而提高催收的成功率。

现实中，不少借款人在借款成功后出现不还款现象，而且玩“捉迷藏”，联系不上本人。即便试图去联系借款人曾经提供过的其他联系人，但还是没有办法联系到本人。这就进入了所谓的“失联”状态，使得催收人员也无从下手。那接下来的问题是，在失联的情况下，我们有没有办法去挖掘跟借款人有关系的新的联系人？而且这部分人群并没有以关联联系人的身份出现在我们的知识图谱里。如果我们能够挖掘出更多潜在的新的联系人，就会大大地提高催收成功率。举个例子，在下面的关系图中，借款人跟李四有直接的关系，但我们却联系不上李四。那有没有可能通过2度关系的分析，预测并判断哪些李四的联系人可能会认识借款人。这就涉及到图谱结构的分析。

智能搜索及可视化展示

基于知识图谱，我们也可以提供智能搜索和数据可视化的服务。智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说，对于每一个搜索的关键词，我们可以通过知识图谱来返回更丰富，更全面的信息。比如搜索一个人的身份证号，我们的智能搜索引擎可以返回与这个人相关的所有历史借款记录、联系人信息、行为特征和每一个实体的标签（比如黑名单，同业等）。另外，可视化的好处不言而喻，通过可视化把复杂的信息以非常直观的方式呈现出来，使得我们对隐藏信息的来龙去脉一目了然。

精准营销

“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research

一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代，营销手段多种多样，但不管有多少种方式，都离不开一个核心 - 分析用户和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系，从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系，去发现一个组织的共同喜好，从而可以有针对性的对某一类人群制定营销策略。只有我们能更好的、更深入的（Deep understanding）理解用户的需求，我们才能更好地去做营销。

5. 挑战

知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展，但很多仍处于调研阶段。主要的原因是很多企业对知识图谱并不了解，或者理解不深。但有一点可以肯定的是，知识图谱在未来几年内必将成为工业界的热门工具，这也是从目前的趋势中很容易预测到的。当然，知识图谱毕竟是一个比较新的工具，所以在实际应用中一定会涉及到或多或少的挑战。

数据的噪声

首先，数据中存在着很多的噪声。即便是已经存在库里的数据，我们也不能保证它有100%的准确性。在这里主要从两个方面说起。第一，目前积累的数据本身有错误，所以这部分错误数据需要纠正。最简单的纠正办法就是做离线的不一致性验证，这点在前面提过。第二，数据的冗余。比如借款人张三填写公司名字为”普惠“，借款人李四填写的名字为”普惠金融“，借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都隶属于一家公司，但由于他们填写的名字不同，计算机则会认为他们三个是来自不同的公司。那接下来的问题是，怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字？这就涉及到自然语言处理中的”消歧分析”技术。

非结构化数据处理能力

在大数据时代，很多数据都是未经处理过的非结构化数据，比如文本、图片、音频、视频等。特别在互联网金融行业里，我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务，这对掌握的机器学习，数据挖掘，自然语言处理能力提出了更高的门槛。

知识推理

推理能力是人类智能的重要特征，使得我们可以从已有的知识中发现隐含的知识，一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”，可以推理出“朋友”关系，“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友，那我们可以推测张三和李四也很有可能是朋友关系。当然，这里会涉及到概率的问题。当信息量特别多的时候，怎么把这些信息（side information）有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑（Logic）的推理和基于分布式表示方法（Distributed Representation）的推理。随着深度学习在人工智能领域的地位变得越来越重要，基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

虽然现在能获取的数据量非常庞大，我们仍然面临着小样本问题，也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统，我们首先需要一些欺诈样本。但实际上，我们能拿到的欺诈样本数量不多，即便有几百万个贷款申请，最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移，我们必然会收集到更多的样本，但样本的增长空间还是有局限的。这有区别于传统的机器学习系统，比如图像识别，不难拿到好几十万甚至几百万的样本。

在这种小样本条件下，构建有效的生态闭环尤其的重要。所谓的生态闭环，指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型，并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统，我们不仅要完善已有的数据流系统，而且要深入到各个业务线，并对相应的流程进行优化。这也是整个反欺诈环节必要的过程，我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

6. 结语

知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用，知识图谱还可以应用在权限管理，人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】刘知远知识图谱——机器大脑中的知识库第二章知识图谱——机器大脑中的知识库

【4】Nickel, M., Murphy, K., Tresp, V., Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

knowledge是否可数及用法

knowledge是不可数名词。knowledge通常用作名词，有学问;了解;知识;认识;知道的意思。

knowledge

英：[ˈnɒlɪdʒ]；美：[ˈnɑːlɪdʒ]

n.知识;学问;学识;知晓;知悉;了解

knowledge用法

knowledge可以用作名词

knowledge可表示“了解,知道”或“知识,认识,学问”等,是不可数名词。有时在knowledge前可直接加上不定冠词a,表示“对…有某种程度的了解或熟悉”。

knowledge后可接of短语作定语或that从句作同位语,表示关于某方面的知识或对某人〔某事物〕的了解或理解,此时knowledge前须加定冠词。

knowledge可用some,much,little,more等词修饰。

短语搭配

explicit knowledge外显知识；显性知识；明确知识；显性学问

Knowledge Graph知识图谱；知识图；常识图谱；知识图表

procedural knowledge程序性知识；[计]过程性知识；程序知识；程序性的知识

knowledge representation知识表示；[计]知识表达；知识表征；知识表现

Local Knowledge地方性知识；[计]局部知识；地方知识；了解球路情况

Knowledge market知识市场；线知识市场

knowledgegraph（KnowledgeGraph怎么读）

Graph Embedding(用户历史行为的特征挖掘)

早期影响力较大的graph embedding方法是2014年提出的DeepWalk，它的主要思想是在由物品组成的图结构上进行随机游走，产生大量物品序列，然后将这些物品序列作为训练样本输入word2vec进行训练，得到物品的embedding。

对于随机选择的点，下一步选择哪里作为落脚点需要计算各边的权重占比。

其中N+(vi)是节点vi所有的出边集合，Mij是节点vi到节点vj边的权重

如果物品相关图是无相无权重图，那么跳转概率将是上面公式的一个特例，即权重Mij将为常数1，且N+(vi)应是节点vi所有“边”的集合，而不是所有“出边”的集合。

通过调整随机游走权重的方法使graph embedding的结果在网络的同质性（homophily）和结构性（structural equivalence）中进行权衡权衡。

网络的“同质性”指的是距离相近节点的embedding应该尽量近似，如图，节点u与其相连的节点s1、s2、s3、s4的embedding表达应该是接近的，这就是“同质性“的体现

“结构性”指的是结构上相似的节点的embedding应该尽量接近，图4中节点u和节点s6都是各自局域网络的中心节点，结构上相似，其embedding的表达也应该近似，这是“结构性”的体现。

BFS反映了结构性（周边结构相似），DFS反应了同质性（周游世界才知道我们相似）

从节点v跳转到下一个节点x的概率为：（是边vx的权重）

其中，指的是节点t到节点x的距离，参数p和q共同控制着随机游走的倾向性。参数p被称为返回参数（return parameter），p越小，随机游走回节点t的可能性越大，node2vec就更注重表达网络的同质性，参数q被称为进出参数（in-out parameter），q越小，则随机游走到远方节点的可能性越大，node2vec更注重表达网络的结构性，反之，当前节点更可能在附近节点游走。

同质性相同的物品很可能是同品类、同属性、或者经常被一同购买的物品。结构性相同的物品则是各品类的爆款、各品类的最佳凑单商品等拥有类似趋势或者结构性属性的物品。

由于node2vec的这种灵活性，以及发掘不同特征的能力，甚至可以把不同node2vec生成的embedding融合共同输入后续深度学习网络，以保留物品的不同特征信息。

基本思想是在DeepWalk生成的graph embedding基础上引入补充信息。

如果单纯使用用户行为生成的物品相关图，固然可以生成物品的embedding，但是如果遇到新加入的物品，或者没有过多互动信息的长尾物品，推荐系统将出现严重的冷启动问题。为了使“冷启动”的商品获得“合理”的初始Embedding，阿里团队通过引入了更多补充信息来丰富Embedding信息的来源，从而使没有历史行为记录的商品获得Embedding。

生成Graph embedding的第一步是生成物品关系图，通过用户行为序列可以生成物品相关图，利用相同属性、相同类别等信息，也可以通过这些相似性建立物品之间的边，从而生成基于内容的knowledge graph。而基于knowledge graph生成的物品向量可以被称为补充信息（side information）embedding向量，当然，根据补充信息类别的不同，可以有多个side information embedding向量。

最简单的方法是在深度神经网络中加入average pooling层将不同embedding平均起来，阿里在此基础上进行了加强，对每个embedding加上了权重，如图7所示，对每类特征对应的Embedding向量，分别赋予了权重a0，a1…an。图中的Hidden Representation层就是对不同Embedding进行加权平均操作的层，得到加权平均后的Embedding向量后，再直接输入softmax层（中间类似skip-gram的后半段），这样通过梯度反向传播，就可以求的每个embedding的权重 ai(i=0…n)

是商品v的n个side info+原商品embedding的融合，是商品u的embedding表达，代表节点u对应的label（skip-gram中的正样本（上下文中存在）1，负样本0）

使用方便求导，而且不用担心变0

使用side embedding的平均值予以填充。

当然在实际使用中，数据肯定存在噪声，需要对做一些处理，来消除噪声：

然而，不可能使用一个用户的整个历史，因为：

因此，我们设置了一个时间窗口，只选择用户在该窗口内的行为。这被称为是基于session的用户行为（session-based）。

因为用户的兴趣爱好和商品的属性基本上变化很少（短时间内），所以embedding不需要太高的频率。甚至可以降到周的级别（可以离线训练），但是上层神经网络为了抓住最新的数据整体趋势信息，往往需要高频训练甚至实时训练。这也是平衡训练开销与精度后的最优方案。