搜索引擎,是人们常用的获取信息的平台,对关键字的搜索情况,间接代表着其关注程度。本文尝试从对数据库产品的搜索,了解各产品在受众中关注度情况。下面示例均以百度搜索提供的百度指数为基础,以最近2~3个月数据为依据进行分析。分析结果仅代表个人意见,不代表官方意见。
百度指数
百度指数是以百度海量网民行为数据为基础的数据分享平台。在这里,你可以研究关键词搜索趋势、洞察网民需求变化、监测媒体舆情趋势、定位数字消费者特征;还可以从行业的角度,分析市场特点。百度指数,不是简单的一个指标,而是从趋势研究、需求图谱、人群画像多维度对搜索行为进行分析。
1. 主流数据库
尝试对主流数据库(以Oracle、MYSQL、SQL Server、PostgreSQL代表)进行百度指数结果分析。
1).趋势研究(搜索+关注+媒体)
[搜索指数]
搜索指数是以网民在百度的搜索量为数据基础,以关键词为统计对象,科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权和。根据使用百度搜索来源的不同,搜索指数分为PC搜索指数和移动搜索指数。
上面是提取近3个月,针对主流数据库的搜索指数情况。从结果来看,跟预期比较相符。从关键词搜索来看mysql>oracle>sqlserver>postgresql。这与通常认知的”mysql是最为流行的开源数据库”、”oracle是大型商业数据库的代表”基本符合。在db-engines的排名中,mysql、oracle、sqlserver也是长期居于前三位的。不同之处在于,国内mysql的关注程度较国外更受到关注;而对sqlserver来说,则情况相反,热度明显不如前两者。此外,对于postgresql的关注度也颇高(其结果对比db-engines的结果明显偏高),这也说明国内对开源数据库产品(特别是以mysql、oracle为代表)关注度比国外更加突出。
[资讯指数]
资讯指数以百度智能分发和推荐内容数据为基础,将网民的阅读、评论、转发、点赞、不喜欢等行为的数量加权求和、指数化处理后得出,全面衡量网民对智能分发和推荐内容的被动关注程度。资讯指数连同搜索指数形成闭环,从被动到主动,从信息触达到主动搜索,用“主动搜索+内容关注”来表达和诠释网民对某一话题的关注程度。
上面提取近3个月的资讯指数,从中发现的差异之大出乎意料。相较于mysql、oracle不同,sqlserver和postgresql的关注度几乎可以忽略不计。而前两者也差异巨大。Oracle在部分时间点有明显的关注高点,这也是与oracle的焦点事件有关,很容易吸引大众的关注。作为老牌的商业数据库的头部企业,oracle也是一直受到人们的关注。
[媒体指数]
媒体指数是以各大互联网媒体报道的新闻中,与关键词相关的,被百度新闻频道收录的数量,采用新闻标题包含关键词的统计标准。媒体值1-4,是指某天内发布的新闻,与下方出现的新闻报道出现的通稿,在媒体指数新闻头条数量值。
上面以近3个月的媒体指数为例进行说明。总体来说,数据库类的话题被百度新闻收录的不多,总数量普遍偏低。作为科技类的话题,在大众媒体中占比还是很少的。从局部来看,还是以oracle、mysql的个别热点居多,最高峰日收录量为9篇。
2).需求图谱(直达网民需求)
每一个用户在百度的检索行为都是主动意愿的展示,每一次的检索行为都可能成为该消费者消费意愿的表达,百度指数的需求图谱基于语义挖掘技术,向用户呈现关键词隐藏的关注焦点、消费欲望。通过需求图谱,能显示用户对该网站的形象认知分布,了解到用户在使用百度搜索过程中经常把哪些词语与该品牌联系起来,对产品分析与营销能提供更为直观的数据基础,具有较大帮助。
[需求图谱]
该数据为您显示:通过用户在搜索该词的前后的搜索行为变化中表现出来的相关检索词需求。其算法是综合计算关键词与相关词的相关程度,以及相关词自身的搜索需求大小得出。相关词距圆心的距离表示相关词与中心检索词的相关性强度;相关词自身大小表示相关词自身搜索指数大小,红色代表搜索指数上升,绿色代表搜索指数下降。需求分布图是针对特定关键词的相关检索词进行聚类分析而得的词云分布。
上面是以搜索”mysql”为关键字得到的需求图谱。从关系强度来看,近的主要是mysql相关使用方法为主,中远的主要是其他数据库产品(oracle、sqlserver、redis)为主。
[相关词热度]
该数据为您显示:通过用户搜索行为,细分搜索中心词的相关需求中,最热门词及上升最快词。
上面相关词热度,直观反映出当前关键词经常和那些词一起使用,其聚类性如何。从mysql来看,还是通常是与其他数据库产品(oracle、redis、sqlserver),语言框架工具(sql、mybatis、navicat、tomcat)及日常使用(安装、下载)为主。
3).人群画像
关键词的人群属性,是根据百度用户搜索数据,采用数据挖掘方法,对关键词的人群属性进行聚类分析,给出性别比例、年龄分布、兴趣分布等社会属性信息。
[地域分布]
“北上广深”四大一线城市,明显IT业更为发达,占据前三名。浙江、江苏,作为经济发达省份,人群也是比较多的。从产品来看,各地区差异性不大,基本符合之前规律(mysql>oracle>sqlserver>pg)
[人群属性]
在人群属性上,显然20~40为主流人群,特别是20+人群明显占优。这也是年轻人在技术快速成长期,有大量学习新知识的诉求有关。但有点小插曲,在30+人群中,关注PG的人员明显占优,即关注PG的人员平均年龄偏大。在性别方面,则是男性一边倒的压倒女性,两边有近4~5倍的差距,看来搞IT的妹妹还是太少。
[兴趣分布]
兴趣方面,则各产品差异不大,都比较平均。
2. 国产数据库
上面对比了主流数据库情况,下面从国内数据库情况分析下。当前国内数据库可谓百花齐放,这里选择了几个代表性产品。PingCAP公司的TiDB、蚂蚁金服的OceanBase、华为的GaussDB、阿里云的PorlaDB和AnalyticDB。顺便说下,很多国内数据库产品并没有被百度收录,看来很多厂商对于运营宣传上需要更加重视。
1).趋势研究
[搜索指数]
从搜索指数来看,TiDB和Oceanbase属于头部,OB通过爆点事情,在短期内可以吸引大量用户关注;而TiDBit则比较稳定,日常关注度较高。GaussDB和PorlaDB居于中部。AnalyticDB品牌较晚,相对关注度较少,还需努力。
[资讯指数]
在资讯上面,OB有非常明显的高点。这与其热点事件有关,可短期内吸引大量用户的关注、转发等。TiDB则细水长流,每日都有较为稳定的持续关注。其余数据库则差距较大。
[媒体指数]
媒体指数,整体都不高,各产品阶段性的新闻会被收录。特拿TiDB近期的几个新闻来看,两条是与生态厂商合作,一条是客户实践方面。这一点还是值得其他产品学习,定期地持续地输出内容,有助于构建数据库自己的生态圈和用户群体。
2).需求图谱
针对需求图谱中的信息,特将近两个月各产品的相关词热度加权累计后,做了热词词云。从中我们可以发现些有趣的现象。
TiDB,是国内一款优秀的分布式数据库产品。从其相关词搜索来看,有以下有意思的现象。一是中间件与数据库的对比,作为分库分表场景下的典型中间件产品,MyCAT在一段时间内颇为流行。这也是TiDB重点去解决的业务场景之一。分库分表与分布式数据库之间,哪个更香?是很多企业面临选择的问题。二是分析场景产品定位,作为一个多面手,TiDB在近期的4.0中重点推出其TiFlash组件,解决数据分析类场景。相关词中的CLICKHOUSE、GreenPlum均属于分析类产品。此外,TiFlash底层也是基于CK,因此其关联搜索较多。三是事务场景产品定位。OceanBase作为国内分布式数据库之一,近些年来也很火热。从搜索来看,对于TiDB和OB如何选择,是很多用户面临的问题。四是其他场景产品,诸如INFLUXDB、HBASE、CEPH等,均在特定领域有所专长。五是技术概念上,OLTP、OLAP、分布式数据库、ACID,这些名词术语此类。比较有趣的是,OLTP和OLAP两者的关注差不多,这也和TiDB的定位比较符合。混合负载场景,是TiDB的定位场景之一。
OceanBase是蚂蚁金服的一款分布式数据库,可以说是历经十年而成。在近两年的TPCC打榜中,表现颇为令人瞩目。在其搜索相关词中,OCEAN、OB应为搜索的同义词,此处可以忽略。在其关联产品上,从占比来看,TiDB(含PingCAP)在OB的关联搜索中占比很高,这也是经常看到将两款产品对比的情况。这两款产品都是国内优秀的分布式产品。PostgreSQL则是另外一种情况,国内很多自研产品均采用PG内核做了二次化研发而成。很多企业在面临传统数据库替换场景下,经常会做两者比较。其他(如人大金仓、DB2)则相对占比不高。从其他相关词来看,分布式数据库、国产数据库,这些正是OB给人的最直观的印象,可以说已经标签化了。而IOE,正是当年研发OB的初衷,这也是OB当前的一个主要场景。
高斯DB,是华为的数据库品牌。近期,刚刚完成品牌整合升级。在其相关词中,PostgreSQL占比很高,这主要是因为一方面GaussDB是基于PG内核研发的产品,再者两款产品也有场景的交叉。其他如OB、TiDB、GP、PorlaDB也经常作为相关产品会被搜索到。
PorlaDB,作为阿里云云原生分布式数据库代表,近期发展也很火爆。作为主要的关联产品,OB、PG、TIDB经常被相关提及。此外,RDS、AURORA、MARIADB也作为关联对比。
AnalyticDB,是阿里云云原生数据库产品,其主要面向AP场景,也兼顾HTAP场景。在近年的TPCH、TPCDS及信通院评测中,表现亮眼。从搜索中可见,ADB和ADS均为AnalyticDB的产品简写。PG和MYSQL,是这一产品的两个不同版本,分别对应于PG生态和MySQL生态。在关联产品方面,则更多为ORACLE、HADOOP、HIVE等。此外,搜索关联词中DTS、OSS、SDN、阿里云等,都是阿里云产品关键词,说明其在阿里云生态内被提及更多。相对而言,对外部用户来说,还需要进一步提高品牌影响力。
3).人群画像
国产数据库的地域分布特点,与前面差不多。比较有趣的是,在浙江、山东OB的量超过了TiDB,在其他二三线区域两者也很接近。而在北上广深一线省市,对TiDB的占优明显。相信这也是IT发达程度造成的差异。TiDB在技术圈内,相对关注度更高。
在关注人群上,年龄因素差异性不明显。在主流数据库中可见,20+关注远超过30+,单在国产数据库中,两者几乎无明显差距。这也说明,国产数据库相对在技术生态上还需提高,吸引更多年轻人关注,特别是在培训、认证、技术分享等方面需要加强。培养自己的生态用户圈。
韩锋频道:
限时特惠:本站每日持续更新海内外内部创业教程,一年会员只需88元,全站资源免费下载点击查看详情。
站长微信:nnxmw123