蚂蜂窝游客对中国景点的评价 How Tourists Rate Chinese Scenic POIs in Mafengwo


1. 数据

蚂蜂窝(http://www.mafengwo.cn/)可能是国内最有参考价值的旅行网站,类似于国外的猫途鹰 (tripadvisor)。作为旅行爱好者,我经常在去某地玩的时候参考蚂蜂窝上的信息,最主要的是其他游客对该地各个景点的评价。因此,我比较好奇在较大的层面,大家对所有景点的评价总体呈现什么样的状况,于是就抓了一下中国全部30000+个景点的相关信息,基本形式如下。

数据表中,url为景点的蚂蜂窝网页,name为景点名称,lng/lat为景点经纬度,positive_comments / medium_comments / negative_comments / total_comments 分别为景点的好评数/中评数/差评数/总评论数,location是蚂蜂窝为景点标注的上层地理位置,province是景点所在的省份(通过经纬度信息定位)。

CSV格式的数据在此:mafengwoPOIs.csv

根据蚂蜂窝的5星打分体系,好评为4~5星,中评为3星,差评为1~2星。更精细的做法是抓取每位游客的具体评分,我嫌麻烦就没直接抓取蚂蜂窝自己汇总的位于评论区头部的好评数/中评数/差评数/总评数,如下图。下面在计算平均分时,好评计5分,中评计3分,差评计1分,虽然有偏差,但应该总体符合趋势。

这30000+个POI的分布如下:

2. 景点概览

首先看一下评论数量最多的景点有哪些,这个数字反映了景点的人气。结果相当地出乎我的意料:外滩、故宫、天安门、西湖、兵马俑、长城、颐和园的入选附合预期,但鼓浪屿排名第1是什么情况?厦门大学能排第8?再看看成都的锦里、北京的南锣鼓巷、厦门的中山路、上海的南京路,以及同在云南西北线的丽江、大理、束河三大古城,我感觉蚂蜂窝非常强调文艺、情调、游+购、集团优势。当然,区位交通和治安条件也是吸引大量游客的前提条件。

下面是好评率的前20名。为了保证结果的稳定性,只挑选了评论数在500个以上的景点。这个结果比较符合我的预期:自然风光有羊湖、梅里雪山、九寨沟、泸沽湖、纳木错、南迦巴瓦峰,人文景观有布达拉宫、莫高窟、扎什伦布寺,绝大多数都位于西部地区,特别是西藏、云南、四川边区,契合“世之奇伟、瑰怪、非常之观,常在险远”之说。

类似地看一下差评率前20名。有些景点的高差评率是自己作死,比如拉市海和茶马古道无数次传出欺诈新闻,而且因为遍地马粪被送外号“拉屎海”,这种已经自己搞臭的景点我都是直接跳过的。还有一些景点应该是身披了太多的光环,给了游客不能被满足的期待,比如乌衣巷、金马碧鸡坊、蝴蝶泉,其实我觉得日本很多地方都是这样的类型,但是人家做的精致、自然,而且绝大多数不收门票。相反,在国内的旅游开发模式下,像蝴蝶泉那种只是一旺小小的泉水,被包装了一个人工养殖的蝴蝶窝后收上60块的门票,很容易令人反感。

最后,让我们建一个平面坐标系,以横坐标代表评论数量,以纵坐标代表平均得分,把全国1000条评论以上的景点落在坐标系上,观察它们的位置,同时,以点(圆圈)的大小表征好评的数量,如下图。如果以图的中心为原点分为4个象限的话,第一象限(右上)是人多、评价好的景点,如外滩、故宫、兵马俑等;第二象限(左上)是人少,但评价很高的景点,如羊湖、扎什伦布寺、呼伦贝尔大草原等,第三象限(左下)是人少、评价也差的景点,如大榕树、蝴蝶泉、黄鹤楼等;第四象限(右下)是人多,但评价很差的景点,然而并没有这样的景点——只要是特别火的景点,评价都不会太差,这是可以理解的,如果一个景点真的很差,那也不可能持续地吸引很多游客了。我原本期待丽江古城会落到第四象限,毕竟最近的一系列负面事件让它成了众矢之的,但是蚂蜂窝的游客们它的总体评价还是可以的。我刚刚去过这里,确实很商业化,也确实不是我的菜,但我也没有很讨厌它,更不会真的担心“彪悍的民风”。亲身观察,12月的丽江古城依然人流密集,大家都很欢乐的样子,所以要是以为它快要完蛋了,那就幼稚了。此外,可以注意到第二象限的点是最密集的,这些“人少景更美”的地方在我看来最值得去。

3. 地理分布

这一节把景点的评价信息与空间位置对应起来。最开始是想直接在景点层面上分析,如下图,圈的大小代表评论数多少,颜色从红到绿代表平均分由低到高。然而信息太乱,没有太明显的规律。虽然这肯定不是一个均质的分布,但地区与地区之间也没有表现出非常大的不同之处。

于是下面索性将信息汇总在省级单位上。

首先,各个省的景点数量是不同的,前面的POI点分布也体现了这一点。江苏、浙江、四川、广东、台湾五省是最多的,如果考虑行政区面积计算密度的话,北京和上海也非常高。作为长期居住于上海的人,我还没有体会到江浙沪有那么多可玩之处。

总评论数与景点数的分布很相似,主要差别是北京和云南的景点数量处于第二集团,但评论数处于第一集团,那就是单个景点的人气更旺啦。这两张总量分布给我的最大感受是:中国最能玩的人是江浙人、四川人、北京人,这与我自己在旅行途中听其他游客口音的判断完全一致。考虑到江浙和北京的高收入情况,我特别佩服一下四川人(主要是年轻川妹子)喜欢出去玩的个性。

虽然东南沿海的景点多,游客多,但我坚持的观点是:中国最顶级的自然和人文风光都在西部,下面这张好评率分布率支撑这一观点。可以看到,西藏是好评率最高的省级单位,没有之一,其次是新疆和台湾——尽管新疆有各种传说中的不安定因素。从西向东,好评率分为明显的三个阶梯,我大安徽竟然还能在东部的好评率洼地中一枝独秀。

差评率方面,西藏、台湾最低,河北“鹤立鸡群”,内蒙古、河南、重庆、贵州、广西也很高。注意到差评率与好评率的分布并没有完全互补,东南沿海诸省的好评率虽低,但差评率也不高,我的理解是自然条件有限,但设施服务好,人口素质高;而内蒙古、云南的好评率不低,但差评率也不低,我的理解是这两个省在景点本身的质量上相当过硬,可惜的是被在旅游管理和服务上有很多坑,如果打开方式正确就会自然地送出好评,如果被坑就会怒送差评。

最后是综合了好评、中评、差评的平均分,整体还是从西向东递减的基本格局。西藏、新疆、台湾得分最高,其次是甘肃、青海、四川、云南,以及偏东两块飞地——山西和大安徽,最低的是河北,没有之一。

4. 各省景点

本节把第2节中最后景点坐标图从全国分解到各省,看看每个省的景点从知名度、美誉度两个维度上看处于什么位置。横坐标依然是评论数量,纵坐标是平均得分,点的大小是好评数量。每个省均只考虑300条评论以上的景点。

安徽

福建

甘肃

广东

广西

贵州

海南

河北

黑龙江

湖北

湖南

吉林

江苏

江西

辽宁

内蒙古

宁夏

青海

山东

山西

陕西

四川

台湾

西藏

新疆

云南

浙江

5. 偏好差异:我的评分

在上面的分析中已经可以看到,我的个人偏好与蚂蜂窝上的平均偏好是有区别的。旅行审美虽然会有很强的“共鸣”,但也显然是众口难调的事情。于是,我就从我去过的地方中随机挑了一些出来,自己打个分,再跟蚂蜂窝上的平均得分进行对比,看看二者的重叠程度有多少。我的打分方式是:首先以1~5分给各景点做一个初评,然后对于初评分相同的景点,通过比较以后,再在小数点后一位上再以0~9复评,如果复评也一样,再在小数点后两位上再复评,以保证各景点上我的打分是有充分的变异的。最后,对于我的评分和蚂蜂窝的平均得分都进行了归一化处理,以便于比较。

下图同样采用二维散点图的方式,只是纵轴是我的打分,横轴是蚂蜂窝平均分,点的大小是蚂蜂窝评论人数,以蓝色/黄色区分自然/人文景点。

 

可以看到,我的打分与蚂蜂窝平均分整体还能保持正相关性,相关系数0.55(p<0.01),但是也存在许多明显的偏离。例如,我对玉门关、晋祠、侵华日军731部队遗址等历史(特别是与战争相关的历史)性人文景观的评分明显高于蚂蜂窝平均分;同时,对于玉龙雪山、张家界、小七孔等纯粹的视觉系自然景观的评分也较高,所谓的视觉系是指不掺入文化(如西湖)、游乐(如太阳岛)、名人(如橘子洲)、生态保育(如东滩湿地)等附加值,单纯以风景取胜的景观。另一方面,我对解放碑、西街、田子坊的评分明显低于蚂蜂窝平均分,表明我不太喜欢喧闹的景区商业街;同样地,像曾厝安、平遥古城、丽江古城、周庄古镇这样的古城古镇也不是我的菜,它们可是蚂蜂窝里的大杀器。

发表评论

Close Menu