戴斌 |《旅游大数据理论、技术与应用》前言
    2023-02-26 18:08:41     字号:[    ]
    由中国旅游研究院院长戴斌、副院长唐晓云联合主编的新文科教材《旅游大数据理论、技术与应用》,近日由高等教育出版社出版发行。戴斌院长为本书撰写了前言序论,全文如下:





01 缘起与目标
 2008年6月,中央编办批复原国家旅游局成立中国旅游研究院,其核心任务是旅游经济的运行监测与分析。2015年12月,在加挂原国家旅游局数据中心、组建旅游经济重点实验室以后,数据建设进入快车道。2018年3月文化和旅游部组建后,中国旅游研究院和原国家旅游局数据中心随之转隶改名为中国旅游研究院(文化和旅游部数据中心),将需求侧的文化数据也纳入了工作目标。过去十几年,通过国家统计局、国家移民局、中国银联、中国电信等政府机构和通信企业交换的数据,加上旅行服务商联合实验室共同生产的数据以及游客满意度调查等项目自采的数据,我们初步建成了国内一流、国际知名的旅游数据中心。在旅游学科建设和智库成果产出中坚持“万语千言,不如数据一组”,并身体力行之。

 回过头来看,尽管在平台建设、团队建设、标准和流程建设,以及在理论研究、文献收集和数据积累方面取得了一定的成绩,节假日旅游数据和季度分析也成了系统、行业和社会关注的热点,但是当我们试图以哈耶克意义上的“知识扩展秩序”去构建旅游大数据共同体时,却发现哪怕是旅游统计研究、教学和一线工作的同志都会在基本概念、基础理论和基本方法上难以达成一致。摆在我们面前的现实问题是,从事一线旅游统计和大数据分析工作的基层同志不具备理论建构的可行条件,而负责知识生产和人才培养的高校教师多数又缺乏问题意识和一线体验。在这一背景下,中国旅游研究院(文化和旅游部数据中心)主动承担起这项基础性工作,并组织统计调查所、数据分析所、旅游经济文化和旅游部重点实验室和博士后工作站的专业团队,联合有关高校的教学研究人员,组建编写组编写一本兼顾理论研究、人才培养和实践工作所需要的教材。

 相比追求逻辑自洽和边际创新的期刊论文、理论著作,将分散在不同场景却为学术共同体认可的知识进行体系化教材编写,是一件难度更大的学术产出。令人遗憾的是,在现有的高校和科研院所的评价体系中,包括教材、译著、讲稿和科普作品的重要性被极大地低估。原创的知识发现、科技发明和理论建构很难,在横涯无际的知识海洋中将那些最有价值的珍珠筛选出来,不是件轻而易举的事情。“折戟沉沙铁未销,自将磨洗认前朝”,哪里有那么容易啊。如果还要将这些知识点镶嵌到历史的星空,让学习者生出“东风不与周郞便,铜雀春深锁二乔”的联想来,便是通连过去与未来、个体与世界的立交桥了。既然是立交桥,就必须将概念、原理、工具、方法的基础打得牢而又牢,而不是建在沙滩上。

以大数据这个核心概念来说,似乎其内涵、外延和特征都是不言自明的。可是真要有人问起“什么是大数据”,我们怎么回答?嗯,就是 Big Data、Mega Data,与互联网、物联网、机器学习、5G 相关,具有 4V 特征,即规模性(Volume),高速性(Velocity),多样性(Variety),价值性(Value)特征。结果呢?很可能是计算机专业的觉得浅,非计算机专业者听得似懂非懂、一头雾水。为此,本书编写组必须对科技成果和理论知识进行创造性转述,并使之体系化。我们看到的大数据首先是巨量的信息和数据矿产,但是信息太多了会增加使用者对事物本质的把握难度,矿产太多了就需要我们学会使用分布式存储、分布计算、非线性决策等技术,更进一步地理解大数据,它更新了人们认识的视角和观念,影响人际交往和社会治理方法与行为。在编写组的前期研讨中,除了全书的逻辑框架和基础模块,大家讨论最多的是对基本概念、基本原理和基本方法的理解,以及解决什么问题的设问。

    02 因为困惑,所以设问

    1. 这个世界是随机的吗,数据可以让我们更好地理解旅游业吗?


改革开放初期,为适应市场化导向的入境旅游发展,旅游研究的主流是应用研究,旅游教育的主流则是职业教育,或者说旅游理论与实践是合而为一的。从 20 世纪中后期开始,旅游学术共同体意识开始萌芽,科学开始成为旅游理论建设的价值取向,一些高校的旅游系更名为旅游学系、旅游科学学院,并组建了一些旅游研究院、研究所和研究中心。近代科学的发展离不开数学、实验和统计,而旅游行政部门通过传统抽样统计体系定期发布的旅游统计年鉴,无论其频率还是精细程度都无法满足科学研究、人才培养和市场分析的需要。互联网、物联网、5G通信、机器学习等科技的进步让旅游统计进入了大数据的时代,政府机构、科研院所、高校和企业,纷纷以智慧旅游的名义建立大数据中心。那么,大数据比传统的统计方法,甚至经验判断更有助于我们理解这个世界吗?从历史进程来看,以牛顿力学为代表的科学自19世纪以来越来越广泛地应用于现实世界,并在工业革命、经济增长、国家富强和人类文明演化中取得了巨大成就,也让“决定论”的世界观深入人心,我们可以依靠概念、命题、模型、数学公式描述现实和预测未来。受此影响,旅游学术研究开始从丰富多彩的产业实践中独立出来,借助统计、实验和数据分析工具,沿着逻辑自洽和学科独立的方向越走越远。问题是,这条路本身是对的吗?或者说是科学的吗?统计思想的开创者,卡尔·皮尔逊认为,世界并不是决定论的,而是随机的,随机是有规律的,可以用概率分布或者说准确的数学分式加以描述的。用更为学术的语言说,被观测量本身就是随机的,科学实验所观测到的其实是一个“分布”,所谓“误差”不过是被观测量随机本质的反映。这就不可避免地产生了二律背反,即数据看上去越精确,越多维和具体,距离本质和真实越远。现代数理统计的奠基者罗纳德·费希尔(Ronald Fisher)在没有重复实验的情况下就指出了孟德尔豌豆实验的数据作假了:“它们的精确程度如此之高,以至于没有表现出应当具有的随机性,所以不可能为真实”。多么天才的论断!倒让我想起“事出反常必为妖”这句老话来。由此出发,我们在言说大数据之前,有必要对统计工作规律和统计学理论进行系统了解。


 2. 现代统计学的假设——检验和因果推断能够回答“休谟诘问”吗?


 借助概念和数据尽可能准确地描述事物的外在特征,只是科学研究的起步,而探求现象的本质,以及事物的演化规律及其影响因素,才是科学家的好奇心和永恒的精神动能。长期以来,人们一方面好奇地追问原因和结果的关系,另一方面又苦于所使用概念的模糊性。被称为“维多利亚的天才”的弗朗西斯·高尔顿在前统计学时代就发现了“均值回归”现象:如果父亲非常高,孩子往往比父亲矮;如果父亲非常矮,孩子往往比父亲高。似乎有种神秘力量让人类的身高远离极端,朝着所有人的平均靠拢。均值回归现象不仅适用于研究人类身高问题,几乎所有观测都面临均值回归的困扰。这个困扰如此折磨人类“心智的荣耀”,以至于苏格兰哲学家大卫·休谟(David Hume)坚持认为人类仅仅凭借经验,只能认识事物之间恒定的前后相继关系,而不能认识任何因果关系。得益于现代统计学的发展,特别是随机组对照实验(Randomized Controlled Trial,RCT),因果推断成为回答休谟诘问的可行路径。号称统计学“四大天王”之一的内曼对自己在统计假设检验方面的奠基性工作如此自豪,以至于将之称为统计学发展史上的“哥白尼式的革命”。这一革命不仅仅在自然和工程科学领域取得了相应的成果,而且在研究复杂社会问题的因果关系方面取得令人欣慰的进展。2019 年,麻省理工学院的三位经济学家Abhijit Banerjee、Esther Duflo和Michael Kremer由于用实验的方法研究发展经济学而获得了诺贝尔经济学奖。在旅游大数据的研究和教学过程中,我们不能忘记探索旅游本质的初心,必须牢记促进旅游业高质量发展的使命,而不是炫耀计算工具和数学方法,更不能沉迷于大数据本身。


 3. 因果性存在“对”的数学模型吗?


 大数据产生后,统计学家会使用相应的数学模型对自变量和因变量之间的复杂关系进行验证和解释,统计工作者需要在此基础上对特定时空条件下数据是否脱离正常轨道进行判断,并提出逆周期调控或者相机抉择的政策建议。然而,存在一个绝对正确的数学模型和恒等式吗?物理学、化学、生物学、统计学、经济学的诸多模型,从产生的那一天起,就注定了被否定和超越的命运,如地心说、日心说、万有引力、狭义相对论、广义相对论、量子力学、奇点、大爆炸、引力波等所经历的那样。拉卡托斯把要证伪性作为科学的要件之一,便是这个道理吧。事实上,数据模型往往不存在“对”“错”之别,但是非常讲究“好”“坏”之分,比如是否具有一致性、无偏性和有效性等。在科学哲学的意义上,意味着一种谦卑的、开放的世界观。在旅游统计学科建设和大数据分析工作中,我们可能永远无法发现“终极真理”,但是在追求更好的模型过程中,还是可以借助统计实证和思想实验去无限接近它。


03 样本、实验与知识的生产


 1. 大数据必须是大样本甚至全样本吗?


 在旅游经济运行监测与分析,特别是假日旅游等专项统计任务执行的过程中,我们经常会遇到样本够不够大的问题。事实上,除了定期开展的全国人口和经济普查,几乎所有的统计都是建立在抽样基础上的。抽样是科学,需要对样本的代表性进行系统设计、试调查、稳定性验证和相应比例的定期替换。抽样也是实践,需要组建采集、汇总、清洗和质量控制诸环节的专业团队,需要依据《中华人民共和国统计法》《全国文化文物和旅游统计调查制度》等法律法规执行具体的样本库建设、线上和线下调查以及合规性审查。当然,维护样本、建设平台和采集数据还需要相应的财务预算。所谓“兵马未动,粮草先行”,说的就是这个道理。很多从事旅游统计和大数据分析的工作者倾向于样本越大越好,最好是全样本,却忽视了这样做既缺乏方法论的科学性,也不具有人力、财力上的可行性。无论在思想认识、理论准备,还是在具体的旅游统计和数据生产的实践中,大数据与基于抽样的统计都不是非此即彼的对立关系,而是相互补充、相互印证和相互促进的关系。

 2. 大数据需要实验,也是培育旅游领域实验室经济的全新动能。


 旅游大数据的理论建设和科学研究必须从问题出发,直面国民经济和社会发展的宏观调控,旅游行政主管部门的微观监管,以及市场主体的投资、研发、创新、运营、转型、升级等商业活动的实践需求。长期以来,旅游统计工作的纵向不可加、横向不可比、上下不贯通、结构性数据供给不足等问题,一直为业界所诟病。大数据的研究和应用是为了解决而不是增加“旅游统计乱象”的,但是从过去十年的智慧旅游和大数据应用效果来看,旅游大数据建设、应用和发布同样存在不可忽视的乱象。统计需要设计,大数据也需要科学普及、理念共识、平台支撑、组织建设和模型验证。旅游大数据在统计中的应用越来越广,囿于技术方法缺乏统一规范,旅游大数据统计逻辑混乱,错多对少。在理论研究和教学改革的同时,应尽快制定旅游统计与大数据应用的标准体系,将位置、消费、订单、爬虫等大数据的量级要求、处理规则、核心算法等技术标准经由专家论证和主管部门审定后予以公开。对难以标准化的数据指标,要制定算法指引,保证关键规则统一可比,避免造成新一轮旅游统计乱象。在本书编写和具体教学过程中,对上述问题给予了积极的正面回应。


 3. 大数据著作或者教材要让专业学习者看得懂,更要让实际工作者用得上。


 罗纳德·费希尔在 1925 年出版的名作《研究工作者的统计方法》中有实例介绍图表制作的方法、分析数据的方法、解释结果,有列举公式甚至详细介绍这些公式在机械计算机上的使用方法。但是,所有的公式都没有数学的推导和证明。对于某一学科的研究人员而言,只要这些公式和方法是目前“最好的”模型就足够了,就如同应用经济学者只需要知道如果没有确定的、可交易的和受保护的产权,就没有经济的繁荣与增长就足够了。至于科斯定理的数学证明还是留给数学功底扎实的理论经济学家去做吧,正如杨小凯教授所做的贡献那样。相对于统计学理论和计算机科学,旅游大数据的应用色彩更加深厚,哪怕其理论建构也是如此。在前期研讨和写作展开的过程中,我反复商请唐晓云博士、马仪亮博士、谢仲文博士,他们都是受过管理工程、统计学、计算机等学科系统学术训练者,从所学专业的应用层面出发,让科学之光照进旅游业的现实,让更多一线工作者也能感兴趣、看得懂、学得会,并在旅游统计和大数据分析的实践中加以应用。事实上,包括大数据在内的科学、理论和知识都不应仅用于膜拜,更不应让人敬而远之,而是让人亲而近之,得而用之。


04致谢

    在前言的写作过程中,部分观点来自微信公众号“招摇山人”的漫谈现代统计“四大天王”卡尔·皮尔逊、费希尔、埃贡·皮尔逊、内曼的系列文章;丁鹏教授发表在微信公众号“计量经济学”上的“因果推断 | 现代统计的思想飞跃”,以及一些统计学和经济学教科书。本前言作为主编思想阐释和本书导读,没有按照严格的学术规范一一列出参考文献并做出具体的引文注释。在此,我和全体参编人员谨向所有统计学、计算机和大数据领域的开拓者致敬。


    感谢唐晓云博士、马仪亮博士、何琼峰博士、谢仲文博士、乔向杰博士、黎巎博士、曾甜博士,还有周围、王峰、汪早荣、刘雪峰,以及王良举、王娟、柳钦云、钱天宇、李慧芸、丁昭涵、毛伟、杨素珍、戴慧慧、郭可心、胡宁婷、吴羽涵、路国平、刘宇、高兆庆、戴吉秋、韩晋芳、胡咏君、张佳仪、陈晓华、沈淙波、张玉蓉、郑涛、林志生、樊信友等旅游统计和大数据专业人员,他们共同组成国内旅游统计和大数据领域豪华的研究与教学阵容。曾甜博士作为本书编写工作的联络人,在人员联系和书稿编写中做了大量工作,感谢她的辛勤付出。没有大家的理解、认同与努力,本书难以如此快与读者见面。相对于编写组诸多成员的学科背景和专业能力,我亦是一名旅游大数据的学习者。相对于她们 / 他们在研究和写作过程中的亲力亲为,与其说我是主编,倒不如说是一名制片人和导演。


    感谢高等教育出版社编辑的辛苦工作,还要感谢所有选择本书的教师、学生和旅游统计工作者,因为你们的努力,中国的旅游统计研究和大数据应用才能沿着科学的道路稳步向前,旅游工作也有了显而易见的专业属性。


相关新闻

联系我们 | 网站地图

版权所有:中国旅游研究院(文化和旅游部数据中心) 网站管理:文化和旅游部信息中心 京ICP备2021001490号-1