知识图谱好文分享

Google知识图谱--产品逻辑篇

高天蒲
简书作者
2016-01-18 19:26 打开App
2012年5月,Google在其官博上发表了一篇博文:Introducing the Knowledge Graph: things, not strings (需翻墙), 引发国内媒体纷纷转摘,知识图谱概念开始在国内慢慢预热。

在这篇文章中,负责Google搜索引擎的大神Amit Singhal介绍,借助知识图谱,搜索引擎实现了从strings到Things的飞跃,机器会理解关键词所代表的实际含义,并由此提炼出Google知识图谱产品的3个核心逻辑:

1.找到正确的东西
搜索引擎经常会面临一词多义的情况,例如:

金庸小说“笑傲江湖”,被改变成了各种版本的电视剧、电影、甚至是游戏,用户搜索“笑傲江湖”时,是想要找小说、还是电影呢?
“李娜”是一个网球运动员的名字,也是一个歌手的名字;
“文章” 可能是个人名,也可能是article;
“小米”是某个公司的名称、手机品牌,也是一种农作物;
“火箭”是一种承担太空运载的交通工具,也是一个篮球队的名称,等等
在Google的这篇文章中,作者拿“泰姬陵”举例,一个印度的知名景点叫这个,一个音乐专辑也叫这个,一个城市街道名也叫这个。Google会在搜索结果的右侧给出泰姬陵的地图,相关介绍等,在更下面的位置,会给出同名的音乐专辑,城市街道等。

  1. Find the right thing
    借助知识图谱,Google在搜索结果的右侧将这些由同一个关键词所表示的不同事物根据特定的优先级算法罗列出来。用户借助这种信息组织形式就能方便的缩小搜索范围,快速找到真正关心的内容。

2.展示更恰当的摘要
当用户搜索某个事物时,例如,居里夫人,相关的诸如她的简介、出生年代、籍贯,她的丈夫、孩子、主要学术成就等可能都是用户感兴趣的内容。借助知识图谱,Google能够将这些信息更有条理的展示给用户。用户无需再打开网页,就能了解到这个人的基本概要。

  1. Get the best summary
    描述一个人或者一个事物的属性会特别多,不同的人关注的点也有所不同,因此不可能将知识图谱中所有的内容都展示给用户。Google会利用特定的算法计算出哪些才是用户最关心的内容,只把这些用户最感兴趣的内容呈现出来。

3.Go deeper and broader
如果说1和2是用来满足用户的需求,那么,接下来的就是如何激发用户的求知和探索欲望了。通过知识图谱,你可能会了解到之前不知道的东西,以及这些不同东西之间的关联关系。例如,《辛普森一家》是美国流行的动画片,作者拿这个动画片的导演举例,点击链接可以发现,该导演的父亲也是个知名的电影导演;

  1. Go deeper and broader
    知识图谱还可以根据相关度给用户做出推荐,例如,当用户搜索一本书时,知识图谱知道这本书获得哪些奖项,就会把同样获得这些奖项的图书也推荐给用户。当用户搜索某个科学家时,知识图谱会把和他同一个年代、同一个领域的科学家展示给用户。

除了回答用户已提出的问题,还能根据其他人的搜索行为预测当前用户接下来会问什么问题,直接把这些接下来用户可能关心的问题答案摆放在“用户还搜索了”下面。

以上就是Google知识图谱技术在产品应用方面所遵循的三个核心逻辑。从2012年到现在,在这三个核心思路框架下, 知识图谱的产品形态上没有发生太大的变化,Google将更多的精力投放在知识图谱的数据建设上。

下一篇,Google知识图谱--数据建设篇

他写的很惊艳。一篇介绍终端应用逻辑,一篇介绍后边的建设机制。
如果觉得不错,可以去简书关注他。
———
文中多提谷歌,我们不翻墙用不了的谷歌。但是我们有夸克浏览器,夸克的ai引擎似乎有上面提到的终端应用逻辑的形态,信息也比较高效,百度搜狗360必应与它比,感觉是落后一代了。
– 闪闪发光的谷歌。以前谷歌理念是让用户用完就走,现在在ai时代,它的追求是一搜即有,减少不必要的点开一个又一个网页。
———
关于普遍联系。
观察这两行关键词,这里面有实务。
– solid 语义网 知识图谱谷歌 ai
– 数据 数据处理机制 结果优化 SEO
–––
我看这文的收获:
– 如果是纯做SEO业务的,效果只会越来越差。
– 自媒体的,好一点点,但是将不能仰仗信息流推荐,因为信息流覆盖的是低质量用户。
– 节目内容的,有些铺张
– 搜索内容管理的,与ai是契合的。知识图谱就是为了高效信息,做到高效信息,也就已经达成了目的。
– 区别是ai是自动化大规模机器服务,我们做推广业务是专有服务。专有的情况,我们比人工智能智能的多的多,但是,机器是助力。
– 但如果死守SEO,那情况就不一样了。机器淘汰人。
我也感谢你。你不回复,我不总结,就放过去了。

不错的分享,CREATOR , 谢谢。shecma.org 两年前见到过,当时只是理解这个是对搜索引擎友好。没想到语义网这一层。今天看完这篇文章串起来了。 谢谢分享。

Google知识图谱--数据建设篇

高天蒲
简书作者
2016-01-23 05:20 打开App
上一篇,介绍了Google知识图谱应用的三个核心逻辑,在这三个大框架下,产品形态一直没太大变化,Google将更多的精力放在了知识图谱的数据建设上。我们从已知的媒体公开报道中可以总结出以下三条路子:

众包模式
2010年7月,Google宣布收购MetaWeb公司(Deeper understanding with Metaweb ),MetaWeb的开放共享知识库Freebase归入Google旗下。

Freebase
Freebase是一个允许任何人创建、修改、查询的知识库,这就是常说众包模式。维基百科是这类模式的鼻祖,但跟维基百科不同的是,Freebase里面存储的不是大段的文本,而是结构化良好、机器也可读的数据格式。

2015年,Google又宣布将逐步关停Freebase, Freebase原有的数据迁移至WikiData. 而WikiData是Wikipedia基金会的一个知识库开放项目,和Freebase在本质上是一样的,都是利用众包模式维护一个开放的知识库。至于说Google为什么这么做,我就不得而知了,猜测背后会有一些生态、法律的原因要考虑。

Audrey Hepburn在Wikidata中的页面
无论是Freebase还是WikiData, 目前的知识库建设仍然是比较依赖众包模式的。建设这样一个众包平台,就需要考虑诸如数据获取、数据清洗、不同数据源的融合、实体之间建立起关联关系,统一入知识库等问题,这是整个知识图谱建设中最基础的一环,如果一开始这个架构没有搭好,后续会有很多问题。

留个问题在这里:什么样的人或组织会向WikiData贡献数据,动机会是什么?

2.推广语义网标准

如果网站的开发者能够将网页中出现的实体、实体属性、实体关系,按照某种约定的规则做上标记,Google等搜索引擎的爬虫就能很方便的获取到这些有价值的数据,从而可以达到扩充知识图谱数据的目的。所以Google针对站长做了一套专题页,用来介绍和推广这套玩法:
https://developers.google.com/structured-data/ (需翻墙)

推广的标准就是schema.org (需翻墙),由国外几个大的搜索引擎公司参与制定的规范,现在已经提交给W3C,感兴趣的读者可以到该站点做详细了解。

网站开发者为什么要多此一举的加上额外的数据标签,当然是希望能从Google那里获得流量和品牌展示。举例来说,站长可以将自己的企业logo,联系方式、社交网络账号,还有一些诸如电影播放链接、产品描述、本地服务商信息等。

企业logo、电话、社交帐号等在知识图谱上展示
3.机器挖掘
2014年8月,国外网站newscientist报道, Google有一个叫Knowledge Vault的知识库,可以通过机器学习将数据变成可理解的知识。 工作机制、算法原理什么的绝对是个秘密了,只能靠一些零散的报道推测。后续随着基础知识库的扩大,算法的改进,自动获得知识的效率会越来越高、质量也会越来越高。

机器学习,自动挖掘知识是未来一个方向。但是,合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下。咱还是先详细了解下这个众包模式是怎么玩的。

下一篇,WikiData体验报告。