蚂蜂窝游客对中国景点的评价 How Tourists Rate Chinese Scenic POIs in Mafengwo


1. 数据

蚂蜂窝(http://www.mafengwo.cn/)可能是国内最有参考价值的旅行网站,类似于国外的猫途鹰 (tripadvisor)。作为旅行爱好者,我经常在去某地玩的时候参考蚂蜂窝上的信息,最主要的是其他游客对该地各个景点的评价。因此,我比较好奇在较大的层面,大家对所有景点的评价总体呈现什么样的状况,于是就抓了一下中国全部30000+个景点的相关信息,基本形式如下。

数据表中,url为景点的蚂蜂窝网页,name为景点名称,lng/lat为景点经纬度,positive_comments / medium_comments / negative_comments / total_comments 分别为景点的好评数/中评数/差评数/总评论数,location是蚂蜂窝为景点标注的上层地理位置,province是景点所在的省份(通过经纬度信息定位)。

CSV格式的数据在此:mafengwoPOIs.csv

根据蚂蜂窝的5星打分体系,好评为4~5星,中评为3星,差评为1~2星。更精细的做法是抓取每位游客的具体评分,我嫌麻烦就没直接抓取蚂蜂窝自己汇总的位于评论区头部的好评数/中评数/差评数/总评数,如下图。下面在计算平均分时,好评计5分,中评计3分,差评计1分,虽然有偏差,但应该总体符合趋势。

这30000+个POI的分布如下:

2. 景点概览

首先看一下评论数量最多的景点有哪些,这个数字反映了景点的人气。结果相当地出乎我的意料:外滩、故宫、天安门、西湖、兵马俑、长城、颐和园的入选附合预期,但鼓浪屿排名第1是什么情况?厦门大学能排第8?再看看成都的锦里、北京的南锣鼓巷、厦门的中山路、上海的南京路,以及同在云南西北线的丽江、大理、束河三大古城,我感觉蚂蜂窝非常强调文艺、情调、游+购、集团优势。当然,区位交通和治安条件也是吸引大量游客的前提条件。

下面是好评率的前20名。为了保证结果的稳定性,只挑选了评论数在500个以上的景点。这个结果比较符合我的预期:自然风光有羊湖、梅里雪山、九寨沟、泸沽湖、纳木错、南迦巴瓦峰,人文景观有布达拉宫、莫高窟、扎什伦布寺,绝大多数都位于西部地区,特别是西藏、云南、四川边区,契合“世之奇伟、瑰怪、非常之观,常在险远”之说。

类似地看一下差评率前20名。有些景点的高差评率是自己作死,比如拉市海和茶马古道无数次传出欺诈新闻,而且因为遍地马粪被送外号“拉屎海”,这种已经自己搞臭的景点我都是直接跳过的。还有一些景点应该是身披了太多的光环,给了游客不能被满足的期待,比如乌衣巷、金马碧鸡坊、蝴蝶泉,其实我觉得日本很多地方都是这样的类型,但是人家做的精致、自然,而且绝大多数不收门票。相反,在国内的旅游开发模式下,像蝴蝶泉那种只是一旺小小的泉水,被包装了一个人工养殖的蝴蝶窝后收上60块的门票,很容易令人反感。

最后,让我们建一个平面坐标系,以横坐标代表评论数量,以纵坐标代表平均得分,把全国1000条评论以上的景点落在坐标系上,观察它们的位置,同时,以点(圆圈)的大小表征好评的数量,如下图。如果以图的中心为原点分为4个象限的话,第一象限(右上)是人多、评价好的景点,如外滩、故宫、兵马俑等;第二象限(左上)是人少,但评价很高的景点,如羊湖、扎什伦布寺、呼伦贝尔大草原等,第三象限(左下)是人少、评价也差的景点,如大榕树、蝴蝶泉、黄鹤楼等;第四象限(右下)是人多,但评价很差的景点,然而并没有这样的景点——只要是特别火的景点,评价都不会太差,这是可以理解的,如果一个景点真的很差,那也不可能持续地吸引很多游客了。我原本期待丽江古城会落到第四象限,毕竟最近的一系列负面事件让它成了众矢之的,但是蚂蜂窝的游客们它的总体评价还是可以的。我刚刚去过这里,确实很商业化,也确实不是我的菜,但我也没有很讨厌它,更不会真的担心“彪悍的民风”。亲身观察,12月的丽江古城依然人流密集,大家都很欢乐的样子,所以要是以为它快要完蛋了,那就幼稚了。此外,可以注意到第二象限的点是最密集的,这些“人少景更美”的地方在我看来最值得去。

3. 地理分布

这一节把景点的评价信息与空间位置对应起来。最开始是想直接在景点层面上分析,如下图,圈的大小代表评论数多少,颜色从红到绿代表平均分由低到高。然而信息太乱,没有太明显的规律。虽然这肯定不是一个均质的分布,但地区与地区之间也没有表现出非常大的不同之处。

于是下面索性将信息汇总在省级单位上。

首先,各个省的景点数量是不同的,前面的POI点分布也体现了这一点。江苏、浙江、四川、广东、台湾五省是最多的,如果考虑行政区面积计算密度的话,北京和上海也非常高。作为长期居住于上海的人,我还没有体会到江浙沪有那么多可玩之处。

总评论数与景点数的分布很相似,主要差别是北京和云南的景点数量处于第二集团,但评论数处于第一集团,那就是单个景点的人气更旺啦。这两张总量分布给我的最大感受是:中国最能玩的人是江浙人、四川人、北京人,这与我自己在旅行途中听其他游客口音的判断完全一致。考虑到江浙和北京的高收入情况,我特别佩服一下四川人(主要是年轻川妹子)喜欢出去玩的个性。

虽然东南沿海的景点多,游客多,但我坚持的观点是:中国最顶级的自然和人文风光都在西部,下面这张好评率分布率支撑这一观点。可以看到,西藏是好评率最高的省级单位,没有之一,其次是新疆和台湾——尽管新疆有各种传说中的不安定因素。从西向东,好评率分为明显的三个阶梯,我大安徽竟然还能在东部的好评率洼地中一枝独秀。

差评率方面,西藏、台湾最低,河北“鹤立鸡群”,内蒙古、河南、重庆、贵州、广西也很高。注意到差评率与好评率的分布并没有完全互补,东南沿海诸省的好评率虽低,但差评率也不高,我的理解是自然条件有限,但设施服务好,人口素质高;而内蒙古、云南的好评率不低,但差评率也不低,我的理解是这两个省在景点本身的质量上相当过硬,可惜的是被在旅游管理和服务上有很多坑,如果打开方式正确就会自然地送出好评,如果被坑就会怒送差评。

最后是综合了好评、中评、差评的平均分,整体还是从西向东递减的基本格局。西藏、新疆、台湾得分最高,其次是甘肃、青海、四川、云南,以及偏东两块飞地——山西和大安徽,最低的是河北,没有之一。

4. 各省景点

本节把第2节中最后景点坐标图从全国分解到各省,看看每个省的景点从知名度、美誉度两个维度上看处于什么位置。横坐标依然是评论数量,纵坐标是平均得分,点的大小是好评数量。每个省均只考虑300条评论以上的景点。

[collapse2_abs title=安徽]黄山是当之无愧的头牌,其次是宏村。天柱山是最值得探索的相对小众景点,逍遥津是个小坑,不过毕竟有三国加成,我觉得这个坑还行。 [/collapse2_abs]

[collapse2_abs title=福建]从这张图上来看,福建省可以叫厦门省了,2000条评论以上全在厦门,鼓浪屿又是其中的大头,我相当不理解为什么厦门大学在游客中的地位那么高,毕竟只是个大学啊。此外,没有想到武夷山的地位这么低。  [/collapse2_abs]

[collapse2_abs title=甘肃]莫高窟、七彩丹霞、鸣沙山/月牙泉、雅丹等都在右上角,人气旺+评价高,确实都是良心景点。左下角的敦煌古城确实是神坑,一定不要去的那种。 [/collapse2_abs]

[collapse2_abs title=广东]排第一的大三巴牌坊是澳门的标志,广州塔排第二出乎意料,其他大部分景点也不太了解。   [/collapse2_abs]

[collapse2_abs title=广西]想不到西街能够在评论数上压过漓江和遇龙河,当然在评分上肯定是拼不过的。左上角中如预期地发现了德天跨国大瀑布,另外,龙脊和金坑梯田也有不错的名声。   [/collapse2_abs]

[collapse2_abs title=贵州]贵州最有人气的竟然是西江千户苗寨,而不是黄果树瀑布,相当的出乎意料。镇远古镇也排在第3,这真是蚂蜂窝的风格啦。后面的小七孔我也觉得不错,左上角的织金洞、万峰林、马岭河等都符合预期,但我心中贵州最值得去的地方——宰荡+大利侗寨并不在其中,确实太冷门啦。   [/collapse2_abs]

[collapse2_abs title=海南]毫无意外,海南旅游就是三亚的天下,蜈支州岛与亚龙湾符合预期,天涯海角评分较低,海誓山盟评分很高。  [/collapse2_abs]

[collapse2_abs title=河北]河北的好评率最低、差评率最高,但从这张图里也看不出是谁的锅。避暑山庄扛把子附合预期。左上角看到了正定隆兴寺,这个确实很好,正定还有4座塔也不错。   [/collapse2_abs]

[collapse2_abs title=黑龙江]圣索菲亚教堂排第一虽有些意外,但也觉得挺妥。中央大街算是国内诸多商业街中最有认同感的之一,冰雪大世界也是服气的。我重点想看看雪乡,最近被怼成狗的雪乡在这里的评价可不低,算是“人少景更美”的景点呢,可能当时的服务还没那么不堪吧。   [/collapse2_abs]

[collapse2_abs title=湖北]湖北罕见地出现了位于第四象限的景点——人气旺但评价低的黄鹤楼,我去的时候就听过各种差评,纯粹是为了情怀过去被宰了80RMB。武大看上去俨然已是高人气高质量的景点。我印象中的湖北代表性景点——神农架、武当山、恩施大峡谷都在左上角,评价高但相对小众。  [/collapse2_abs]

[collapse2_abs title=湖南]我的认识中,张家界是湖南最具代表性景点,没有之一。然而,张家界却被凤凰古城完爆,我去湖南玩的时候可是主动跳过凤凰古城的……   [/collapse2_abs]

[collapse2_abs title=吉林]吉林的情况十分神奇,长白山天池是最标准的第四象限景点,人气最高,评价最差。但有意思的是,左上角的优质小众景点又有很多长白山元素,那我推测可能原因是观赏天池受天气的影响太大了,经常把一大票人骗过来然后又看不到的原因了。    [/collapse2_abs]

[collapse2_abs title=江苏]前面的分析中,江苏是景点最密集的省份之一。从图上看,以苏州园林、南京民国遗迹、金陵古迹、江南水乡为主,扛把子的很多,但大都不是我的菜。    [/collapse2_abs]

[collapse2_abs title=江西]和湖北一样,江西也出现了第四象限的景点,滕王阁的情况就类似于黄鹤楼,李坑主要是被婺源的联票绑上了,自身又没那么多干货。我的认识中,江西的代表性景点是庐山,其次是三清山,婺源都算后起之秀,结果婺源的精华——江岭已经压在前面了。   [/collapse2_abs]

[collapse2_abs title=辽宁] 星海广场的人气和滨海路的评分都高得出乎意料,可能是我的打开方式不对。我心目中的代表性景点是沈阳故宫。    [/collapse2_abs]

[collapse2_abs title=内蒙古]内蒙古是国内还没有涉足的最大的省了。扛把子是呼伦贝尔草原,完全附合预期。宝鹿家的克什克腾由于人少未出现在图中。  [/collapse2_abs]

[collapse2_abs title=宁夏]宁夏的景点不多,只能降低标准,取了100条评论以上的景点。我认识中唯一的代表性景点是沙坡头,没想到西部影视城跳了出来。宁夏也是目前还没涉足的省级行政单位。 [/collapse2_abs]

[collapse2_abs title=青海]青海湖、茶卡盐湖、塔尔寺是最具代表性的三个景点,符合预期。 [/collapse2_abs]

[collapse2_abs title=山东]在这张图中,青岛俨然是山东旅游地的代言人,右半边除了济南的大明湖/趵突泉,全都是青岛的。我想像的代表性景点是泰山和孔庙,评价都挺高,但人气远不如青岛。    [/collapse2_abs]

[collapse2_abs title=山西]我眼中的最具代表性景点是晋祠,但在人气和评价上都不如平遥古城。云冈石窟和悬空寺的位置符合预期,但五台山没想到人气那么低。   [/collapse2_abs]

[collapse2_abs title=陕西]兵马俑人气最高,评价也是最高的之一,历史博物馆、西安城墙、大雁塔也都符合预期,华山的人气比想像中的低,蚂蜂窝上自然景观的评论数普遍偏少。  [/collapse2_abs]

[collapse2_abs title=四川]看着左上角密集的点就知道,四川也是汇集了一大票“人少景更美”景点的地方,九寨沟、贡嘎雪山、四姑娘山、若尔盖等等。人气最高的两条街道型景观——宽窄巷子和锦里反而评价没那高。  [/collapse2_abs]

[collapse2_abs title=台湾]还没去过台湾,不太了解。台北故宫最显眼可以理解,但没想到作为现代高层的101大楼能排第二了。前面分析中,台湾的好评率、平均分非常高,看了这些景点,我有点怀疑有情怀加分。     [/collapse2_abs]

[collapse2_abs title=西藏]西藏是评分最高的省。布达拉宫是优质中的优质,其后的纳木错、大昭寺、羊湖、扎什伦布寺、林芝、南迦巴瓦峰、玛旁雍错、冈仁波齐、珠峰、林芝……好地方不计其数。  [/collapse2_abs]

[collapse2_abs title=新疆]新疆也是评分非常高的省份。评论最多的是乌鲁木齐的二道桥大巴扎,作为商业区评分一般。评分高的有喀纳斯、赛里木湖、巴音布鲁克、白哈巴、喀什噶尔等。我个人觉得,新疆好玩的地方还有很多,像库车大峡谷、卡拉库里湖、克孜尔千佛洞、阿曼尼莎汗王陵等等,只是新疆太远,坊传的治安情况又不好(特别是南疆),导致来的人不多。 [/collapse2_abs]

[collapse2_abs title=云南]云南的景点还真是密集。前三位是丽江、大理、束河三个古城,其后才是洱海、泸沽湖、玉龙雪山这样的自然景观。左上角的一批相对小众的高品质景点在香格里拉、腾冲、西双版纳等更偏的地方。 [/collapse2_abs]

[collapse2_abs title=浙江]杭州西湖在浙江是一枝独秀的存在,但在我眼中,单调自然风光还是难以与西部地区相比。天脊龙门和药王山都是评价极高的景点,在全国都排在前列的,可惜都没去过。  [/collapse2_abs]

5. 偏好差异:我的评分

在上面的分析中已经可以看到,我的个人偏好与蚂蜂窝上的平均偏好是有区别的。旅行审美虽然会有很强的“共鸣”,但也显然是众口难调的事情。于是,我就从我去过的地方中随机挑了一些出来,自己打个分,再跟蚂蜂窝上的平均得分进行对比,看看二者的重叠程度有多少。我的打分方式是:首先以1~5分给各景点做一个初评,然后对于初评分相同的景点,通过比较以后,再在小数点后一位上再以0~9复评,如果复评也一样,再在小数点后两位上再复评,以保证各景点上我的打分是有充分的变异的。最后,对于我的评分和蚂蜂窝的平均得分都进行了归一化处理,以便于比较。

下图同样采用二维散点图的方式,只是纵轴是我的打分,横轴是蚂蜂窝平均分,点的大小是蚂蜂窝评论人数,以蓝色/黄色区分自然/人文景点。

 

可以看到,我的打分与蚂蜂窝平均分整体还能保持正相关性,相关系数0.55(p<0.01),但是也存在许多明显的偏离。例如,我对玉门关、晋祠、侵华日军731部队遗址等历史(特别是与战争相关的历史)性人文景观的评分明显高于蚂蜂窝平均分;同时,对于玉龙雪山、张家界、小七孔等纯粹的视觉系自然景观的评分也较高,所谓的视觉系是指不掺入文化(如西湖)、游乐(如太阳岛)、名人(如橘子洲)、生态保育(如东滩湿地)等附加值,单纯以风景取胜的景观。另一方面,我对解放碑、西街、田子坊的评分明显低于蚂蜂窝平均分,表明我不太喜欢喧闹的景区商业街;同样地,像曾厝安、平遥古城、丽江古城、周庄古镇这样的古城古镇也不是我的菜,它们可是蚂蜂窝里的大杀器。

发表回复