中国古典文学研究的几种可视化途径——以汤显祖研究为例
徐永明
浙江大学 人文学院, 浙江 杭州 310028

[作者简介] 徐永明(http://orcid.org/0000-0002-3929-4101),男,浙江大学人文学院教授,博士生导师,文学博士,主要从事元明清文学研究。

摘要

当代西方教学和科研中常用的可视化工具主要有ArcGIS、QGIS、CHGIS、CartoDB、Worldmap、CBDB、GEPHI等数据库和软件。其中“中国历史地理信息系统”和“中国历代人物传记数据库”是由哈佛大学包弼德教授主持的项目,与中国的文史研究直接相关。利用上述数据库和软件,以汤显祖为例,可展示汤显祖行迹和活动地点、社会关系地理分布、社会关系点线表达等多种可视化效果图,给人以直观明了、耳目一新之感。这些数据库和可视化呈现方法对中国古典文学的研究和教学将起到极好的辅助作用。

关键词: 中国古典文学; 地理信息; 汤显祖; 可视化; 哈佛大学; CBDB; CHGIS
Some Visualization Approaches to the Study of Classical Chinese Literature: A Case Study on Tang Xianzu
Xu Yongming
School of Humanities, Zhejiang University, Hangzhou 310028, China
Abstract

The most commonly-used Western visualization database and software in the study of Chinese culture and history include ArcGIS, QGIS, CHGIS, CartoDB, Worldmap, CBDB, GEPHI, etc, among which ArcGIS and QGIS are cartographical systems working for the analysis of spatial and geographic information. The high cost of the ArcGIS system prohibits its widespread use in China. On the contrary, QGIS is an open-source system suitable for the researchers of culture and history all over the world. CartoDB is a cloud-computing database, a GIS platform that provides geographical information for display in a web browser. Chaired by Professor Peter K.Bol of the Department of East Asian Languages and Civilization in Harvard University, CHGIS (China Historical Geographical Information System) and CBDB (China Biographical Database) are two database projects directly related to the study of Chinese culture and history. Working in collaboration with Fudan University, CHGIS has established a database of populated places and historical administrative units in pre-modern China. In the form of a digitalized database of places and administrative units, any sort of geographically specific data related to China can be easily displayed at CHGIS. Working closely with the History Department of Peking University and ″Academia Sinica″ in Taiwan, CBDB is currently the largest database with biographical information about historical figures in China. It not only displays data on individuals, but also provides data on kin relations, social association, official career, as well as ranks and positions a person held, etc. Launched by the Center for Geographic Analysis at Harvard University, Worldmap is an online platform for visualizing and sharing spatial data around the globe. GEPHI is an interactive visualization and exploration software for all kinds of networks, complex systems, and dynamic and hierarchical graphs. Researchers of culture and history can use this platform to explore an individual’s social network, represented by innumerous nodes and edges in the graph visualization. Taking advantage of the software and database above, one can have access to the geographical references in graph data. For example, locations of a writer’s life activities, social network, as well as different types of social associations, all of which can be seen in a visualized spatial distribution and refreshes user’s experience. Taking Tang Xianzu as an example, this essay demonstrates how the itinerary, social network and social association of this great dramatist of Ming Dynasty are illustrated in graph visualization. The approach of visualization in literary study would need support not only from the database but also from suitable software. The study of pre-modern Chinese literature requires data on personal names, place names, objects, vessels, clothing, animals, plants, etc., all of which can be visualized by the visualization software and database mentioned above. However, how to take advantage of the software and database in the study of pre-modern Chinese literature should be further explored. We also hope software developers in China and elsewhere develop more visualization software suitable for the researchers in this field in the future.

Keyword: classical Chinese literature; geographic information; Tang Xianzu; visualization; Harvard University; CBDB; CHGIS

历经几千年的中国古代文学, 无论是原典作品还是研究成果, 在“ 大数据” 时代的数据库专家眼里, 都是可以通过程序处理的大数据, 这些大数据可按照人们的需要建成大大小小的各种类型的数据库, 并可将其中的一些数据进行可视化展示。笔者并非计算机专业的数据库专家, 但因在西方高校访学, 常见到国外学者和研究生利用相关软件和数据库将研究对象进行可视化呈现, 颇有直观明了、耳目一新之感。经过了解和学习, 笔者认为这些数据库和可视化呈现方式若运用到中国古典文学的研究和教学中, 则不啻为一种良好的辅助手段。故不揣浅陋, 以明代戏曲家汤显祖研究为例, 将相关的数据库和软件及操作步骤做一介绍演示, 希望对读者有所帮助。

一、 利用ArcGIS、QGIS 、CHGIS、CartoDB、Worldmap等地理信息系统软件和网站将作家的行迹和活动地点可视化

ArcGIS是由美国Esri公司开发的功能强大的分析性制图软件, 可广泛用于一切与地理和空间有关的研究。从20世纪80年代初开发的第一代的ARC/INFO 1.0, 到现在最新的ArcGIS 10.3版本, 已有三十多年的历史。根据功能和产品类型的不同, ArcGIS不同款项的售价由几千美元到数万美元不等。美国哈佛大学购买了ArcGIS的使用权, 在校师生可在自己的电脑上安装和使用该软件。但是, 我国高校和科研机构很少有大规模集体购买供师生使用的, 因此, 该软件在中国的使用受到了很大限制。

QGIS 是“ Quantum GIS” 的简称, 是由QGIS发展团队开发的开源性地理信息系统软件, 使用者可以免费到其网站(http://www.qgis.org)下载最新版本的QGIS软件。QGIS项目始于2002年5月, 发展至今已有13年的历史。与ArcGIS一样, QGIS也是与地理和空间有关的分析性制图软件。

CHGIS是“ 中国历史地理信息系统” (China Historical Geographic Information System)的简称, 是由哈佛大学东亚语言与文明系包弼德(Peter K.Bol)教授主持的项目, 项目经理为贝明远(Lex Berman)。它是一个开源性质的中国地理信息系统网站, 网址为:http://www.fas.harvard.edu/~chgis/。该项目与复旦大学史地所合作, 将中国历史地名和历史地图矢量化, 并且以关系型数据库的方式记录地名的层级及沿革信息, 由此, 凡涉及中国古代历史地名的, 都可通过数字化的中国历史地理信息系统得以可视化的展示。网站提供了中国历史地名的经纬度, 但可下载的矢量历史地图只有清代的, 明代和明代以前的只能查到部分地名的经纬度, 没有矢量化的行政区域图。

CartoDB是一个云上的地理空间数据库, 使用者可以将已获得的经纬度数据批量导入CartoDB网站, 从而快速创建基于地图的可视化效果, 创建的地图可以在网上存储或公开发布, 这也是一个开源性的网站。

图1 汤显祖行迹和活动地点图

Worldmap是哈佛大学地理分析中心(the center for geographic analysis)开发的一个全球地理信息研究成果发布和共享平台。其中中国部分, 包括了人口统计、宗教、交通、城市研究、少数民族和语言、能源、环境、教育、气候、公共健康、经济、历史等诸多领域的地理信息和地图。譬如, 与文学有关的, 有宋元明清的科举考试分布图、明清驿站路线图等。

下面以汤显祖为例, 利用QGIS在地图上展示汤显祖行迹和活动地点。制作出来后的效果如图1所示(由于地图出版规定, 此处不展示底图, 只给出相对位置图)。那么, 这张图是如何制作出来的呢?其步骤和方法如下:

(1)安装QGIS软件。

(2)查出汤显祖行迹和活动地点(根据徐朔方先生撰写的《汤显祖年谱》)[1]

(3)查出汤显祖行迹和活动地点的经纬度。这一步要利用CHGIS, 即“ 中国历史地理信息系统” 网站, 读者可以直接到该网站上查出历史地名的经纬度, 也可以利用包弼德CBDB项目团队成员王宏甦先生开发的搜索界面去查找, 海外的搜索界面网址为http://oopus.info/chgis/name, 国内的搜索界面网址为http://oopus.info/chgis/cn。还可以用项目经理贝明远开发的搜索界面查找, 其搜索界面网址为http://maps.cga.harvard.edu/tgaz/。获得经纬度数据后, 拷入excel表中, 字段分别合命名为:name, X, Y。这里要注意的是, 由于汤显祖是明朝人, 故要查的地名一定是明朝行政区域下的地名, 因为有些地名在不同历史时期的地理位置是有变化的。笔者查得的汤显祖行迹和活动地点的经纬度如表1所示。

(4)将excel表存为CSV格式文件, 并上传到QGIS系统中。注意, 上传入口在打开的QGIS左侧一大逗号 处。点击确定后, 在filter栏里输入Xian 1980, 双击下方的Xian 1980。

(5)到CHGIS网站下载v4_citas90_cnty_pgn_utf_stats文件包。其下载路径为:DATA— China Historica GIS— Version 4 Datasets(with descriptions)— CITAS-1990-Counties(polygons)— Data Archive— 1990 CITAS Counties(With Stats, UTF-8)— Dataset。

表1 汤显祖行迹和活动地点经纬度

6)将下载的v4_citas90_cnty_pgn_utf_stats文件包解压, 然后回到GGIS界面, 点击左侧的 图标, 上传刚解压的v4_citas90_cnty_pgn_utf_stats文件夹中后缀为.shp文件。将CSVs拖至.shp文件之上, 且置于上方。

(7)点击CSV文件的属性, 在labels 状态下勾选label this layer with, 选择下拉的name, 然后在下方设置颜色和字体大小。

(8)在QGIS菜单上方的地图链接中导入Google或Bing地图。路径为:plugins— manage and install plugins— open layers — Web-openlays plugin— googlemap— googlephysics。

如果底图使用卫星地图, 则其可视化呈现将又会是另一种效果, 图略。

除了QGIS外, 制图者还可以免费利用CartoDB网站制作作家的行迹和活动地点图。其步骤和方法如下。

(1)在https://cartodb.com/上注册。

(2)登录后, 点击右侧的红灯 , 选择your dashboard, 然后选择new map。

(3)点击connect dataset, 上传带有name、X、Y三个字段的excel数据表。

(4)在dataview中点击the_geom GEO, 选择经纬度XY栏, 然后就可以MapView(预览)了。右边选项框可以设置参数。

(5)将制作好的地图在网上保存或发布, 也可以另存到本地电脑。

二、 利用CBDB及上述地理信息系统软件将作家的社会关系地理分布可视化

CBDB 是“ China Biographical Database Project” 的简称, 中文名称为“ 中国历代人物传记数据库” (网址为:http://isites.harvard.edu/icb/icb.do?keyword=k16229)。该项目也是由哈佛大学包弼德教授主持, 合作单位有北京大学中国古代史研究中心和我国台湾地区“ 中央研究院” 历史语言研究所。“ 中国历代人物传记数据库” 是目前世界上最大的中国历史人物传记资料分析数据库, 迄今上线的中国历代人物已有36万人之多, 此外, 中国地方志等其他数据源中近50万人的数据还在源源不断地添加中。该数据库不仅能查找人物的生卒年、字号别名、籍贯、科举仕进等最基本的传记资料信息, 而且还可以查找人物的亲属关系、社会关系等, 其籍贯等历史地名均有经纬度的数据。该数据库目前也是免费开放的, 使用者可以在线查询或将数据库(access)下载到本地电脑查询。

譬如, 我们要了解汤显祖的亲属关系和社会关系, 即可通过CBDB的亲属关系和社会关系查找功能获得相关数据。图2即为CBDB的线下查询界面。

一个人的社会关系网络包括了各种类型的社会类别, 如其中的“ 学术” 关系, 就包括了师生关系、学术交往、主题相近、学术成员、学术襄助、文学艺术交往、学术攻讦等; “ 政治” 关系, 则包括了官场平等关系、官场下属关系、官场上司关系、官场奥援、荐举保任、政治对抗等关系。这些关系是计算机按事先设定的关系的关键词从海量的文本里抓取出来的, 故可能有人的眼力所不及的有价值的数据, 但也有的数据并不能反映一个人实际的社会交往。譬如, A的集子流传到B地, B地的C看到了A的集子, 有可能会在文章里发表对A的集子的阅读感受, 于是A和C 的关系自然被计算机捕捉到了。当然, A和C存在一定关系, 但A和C在实际生活中并没有交往。所以, CBDB里搜索出来的社会关系不全是实际的社会关系, 这需要使用者对搜索结果进行鉴别。最好的办法就是结合作家的年谱, 筛选出较亲密、较重要且有实际交往的社会关系人员。图3是CBDB的社会关系网络查询界面。

图2 CBDB线下查询界面

图3 CBDB线下社会关系网络查询界面

表2就是笔者结合CBDB查询和徐朔方先生的《汤显祖年谱》制作的汤显祖社会关系经纬度表。其中经度X 和纬度Y的数据有的是CBDB自动生成的, 有的是根据“ 中国历史地理信息系统” 查寻补入的。

表2 汤显祖社会关系经纬度

有了带经纬度的数据后, 就可以利用ArcGIS、QGIS及CartoDB等软件或网站制作人物社会关系的地理分布图了。其制作方法与人物的行迹和活动地点图制作方法类似, 这里不再罗列操作步骤, 用ArcGIS制作出来的效果如图4所示(由于地图出版规定, 此处不展示底图, 只给出相对位置图)。

图4 汤显祖社会关系地理分布图

三、 利用CBDB、GEPHI等数据库和软件将人物的社会关系以点线的方式可视化

有了从CBDB获得的社会关系数据, 经过编辑加工后, 就可以利用GEPHI将人物的社会关系可视化。Gephi是一款用于各种图表和网络的可视化探测软件, 是开源和免费的(https://gephi.org/)。文史工作者可以用来分析人物的社会关系, 将结果以点线的方式可视化呈现。不过, 该软件需要JAVA 1.7语言的工作环境, 电脑里需事先安装JAVA控件。

用 GEPHI来展示人物的社会关系需要两张表, 一张是节点表(nodes), 一张是边表(edges)。节点表包含ID(序号)和Label(即人物姓名)两个字段, 边表则包含Source(源)和Target(目标)两个字段, 边表主要显示人物的对应关系, 是一对多的关系。在表中, 主要是用ID来表示对应关系。以汤显祖为例, 其节点表和边表分别如表3表4所示。

表3 Nodes表
表4 Edges表

这两个表导入到 GEPHI里后, 就会产生汤显祖由点线关联的社会关系图, 其效果如图5:

图5 汤显祖社会关系点线表达图

GEPHI不仅能产生一个人物的点线社会关系图, 而且还可以产生两个到多个人物群落的点线关系图。图6是汤显祖和明代另一个戏曲家屠隆的人物群落的点线关系图。图7是汤显祖、屠隆和汪道昆三人的社会关系群网络。

图6 汤显祖与屠隆社会关系网络点线表达图

图7 汤显祖、屠隆和汪道昆三人的社会关系网络图

通过点线的方式展示作家的社会关系网络, 则作家自身的社会关系网、彼此间共同的相识者就一目了然了。

用点线表示数据间彼此关系的软件还有UCINET、Nodexl、Pajek等, 因篇幅所限, 这里不再介绍。

四、 结语

通过上面与可视化有关的数据库和软件的介绍, 可以知道文学研究的可视化一是需要数据库的支撑, 二则需要较好的软件。文史数据库的建设需要有前瞻的眼光, 需要有精通计算机的专业人才以及长期不断的资金投入。哈佛大学包弼德教授建立的“ 中国历史地理信息系统” 和“ 中国历代人物传记数据库” , 经过十多年的建设, 现在功能越来越强大, 应用前景也越来越广泛, 由于是开源的数据库, 我们乐观其做大做强。譬如, 关于明以前的矢量化的中国历史地图, 我们就希望能早日出现, 这样, 如果制作某一朝代的作家活动地点图, 有当朝的地图作为底图, 就更显得真实可靠。另一方面, 我们希望国内的学术界在文史数据库建设方面也要有所作为, 呼吁有关部门加大中国文史数据库建设的资金投入, 不要等到哪一天来开发祖宗留下的“ 大数据” 时, 发现有价值的数据库都已被打上了异邦的标签。中国古代文学作品涉及大量的人名、地名、物品、器皿、服饰、动植物等可以可视化的对象, 如何将这些事物可视化地呈现, 值得我们去研究。在软件方面, 上述软件都是西方人开发的, 在使用的时候, 我们也发现会受到许多限制。譬如, 就字体来说, 上述软件可供选择的字体就非常有限。就QGIS链接的地图来说, 可选择的当代地图只有必应和谷歌地图, 而没有百度地图。因此, 我们也希望中国的软件开发商能够开发出适合中国人使用的可视化软件。

(本文英文全文请参见《浙江大学学报(人文社会科学版网络版)》, http://www.zjujournals.com/soc/CN/article/downloadArticleFile.do?attachType=PDF& id=11330)

The authors have declared that no competing interests exist.

参考文献
[1] 徐朔方: 《汤显祖年谱》, 见《晚明曲家年谱》, 杭州: 浙江古籍出版社, 1993年.
[Xu Shuofang, The Chronicle of Tang Xianzu, in The Chronicles of Dramatists in Late Ming Dynasty, Hangzhou: Zhejiang Classics Publishing House, 1993. ] [本文引用:1]