开放获取 (Open Access, OA) 运动的发展, 使得越来越多的学术资源可以免费获取。随着开放资源类型的多样化和数量的快速增长, 开放资源的学术价值也逐渐提高, 已经成为图书馆内除商业资源采购以外的重要馆藏资源[1]。开放资源获取的主要途径有“开放获取期刊”和“自我存档”, 其中“自我存档”即开放获取仓储 (Open Access Repositories, OAR) , 是对数字信息资源的免费存储文档库, 其不仅内容免费, 而且对使用者没有任何限制, 在过去十多年, 大部分学研机构、研究中心、政府机构、数据中心或图书馆建立了OAR。OAR收集大量不同类型开放学术信息资源, 包括期刊论文、学位论文、图书、会议论文等[2]。学科知识库专门收集特定学科主题的研究资源, 较具有代表性的OAR有高能物理领域的ar Xiv.org、医学领域的Pub Med Central、地球科学领域的Earth-Prints Repository等[3]。学者们通过对OAR的相关研究, 不同程度地揭示了科研人员进行自存档的态度和行为[4]、机构知识库引起的图书馆员角色转变[5]、机构知识库的基础理论以及机构知识库的建设策略[6]等。
开放获取仓储目录 (Directory of Open Access Repositories, Open DOA R) 由英国诺丁汉大学和瑞典伦德大学图书馆于2005年12月联合建立, 是全球范围内首家对OAR进行搜集、描述和组织的电子目录, 登记数量由建立初期的128个[7], 发展为3 408个 (截至2017年8月) , 该目录具有一定的重要性和权威性。Pinfield等基于2005—2012年的Open DOAR数据, 揭示了世界范围内OAR的快速增长, 并概括了OAR的总体特征:以机构知识库为主, 多数是跨学科领域, 网站登记资源多以英语为主, 存在少量OAR登记大量资源和大量OAR登记少量资源现象[7]。此外, 还有学者研究OAR的数量增长、发展趋势及关键特征, 分析OAR在促进学术交流中的潜在作用, 探讨了机构知识库发展和建设中存在的问题和挑战。一部分学者以地域为基础集中分析OA R的特征, 如加拿大[8]、印度[9]和中国[10]等;还有一部分学者重点从学科角度集中分析OAR, 如从医学领域[11]、计算机科学领域[12]等。
目前还没有学者对资源环境领域OAR展开相关研究, 本文将面向资源环境领域开放学术资源的组织利用, 从基本情况和资源特征两方面对在Open DOAR中登记的OAR进行分析。
资源环境领域学科范围广, 有多学科交叉性质, 涉及生态学、环境科学、地球化学与地球物理学、水资源学等[13]。在资源环境学科信息门户研究与建设中学科范围以资源与环境科学、地球科学为核心[14], 由此, 本文选取Open DOAR中与资源环境领域密切相关的地球和行星科学 (共88个OAR) 以及生态和环境学科 (共150个OAR) 分类下的OAR, 去重后得到195个资源环境领域相关的OAR作为分析样本, 样本的元数据信息获取时间为2017年5月1—31日。本文从国家分布、类型分布、语言分布以及使用软件四个方面揭示该领域OAR的基本情况。
经统计, Open DOAR资源环境领域195个OAR分布于55个国家, 其中美国、英国、法国等17个发达国家的OAR数量共99个, 占总量的一半略强, 因此, 从总体来看, 发达国家和发展中国家OAR的数量相对均衡。Pinf ield等研究也表明, OAR发展初期, 发达国家数量增长较快, 而2010年以后, 东亚、南美洲、东欧等地, 尤其是巴西、波兰等国的OAR数量开始呈现较快的增长速度[7]。
本文将资源环境领域OAR的类型分为机构知识库、学科知识库、集成仓储和政府仓储四种, 其中机构知识库收集、存放由某个机构或多个学术机构的研究人员产生的学术成果, 学科知识库专门收集某一特定学科或主题的研究资源, 政府仓储由政府或政府资助机构管理, 集成仓储从其他来源收集资源。此外, Nicholas等还补充了OAR的一种类型, 即包含特定类型文件的格式存储库, 如学位论文、电子期刊、数据集或学习对象[15]。总体来看, 以机构知识库 (共151个) 和学科知识库 (共32个) 为主, 占比93.8%;集成仓储和政府仓储各有6个, 这两种占该领域所有OAR数量的6.2%, 这与OAR总体特征[7]相符。调查表明, 全球出版物产出较多的机构, 大部分都建立了机构知识库, 用以收集、保存和传播自身机构的学术产出[16]。
在机构知识库方面, 国外资源环境领域具有代表性的机构知识库有佐治亚大学机构知识库[17]、匹兹堡大学机构知识库[18]、爱尔兰海洋研究所机构知识库[19]、海洋生物实验室和伍兹霍尔海洋学研究所机构知识库[20]等。国内该领域建设机构知识库的相关机构主要集中在中国科学院, 包括中国科学院所属的成都生物研究所、地球环境研究所、地理科学与资源研究所、生态环境研究中心、南海海洋研究所、新疆生态与地理研究所、烟台海岸带研究所等;此外, 北京大学机构知识库也存储了资源环境领域开放学术资源。在学科知识库方面, Dryad[21]、CEDA Repository[22]、PANGAEA[23]等以存储科学数据为主, 其中PANGAEA专门保存、发布和分发来自地球研究系统的地理参考数据;此外, e ERL[24]、OMA[25]及Earth-prints Repository[26]等学科知识库都登记和存储了资源环境领域相关的开放学术资源。
资源环境领域的OAR存储了24种语言的开放资源, 以多种语言建立OAR, 满足不同国家、不同用户的语言需求。总体来看, 以英语存储学术资源的OAR有159个, 占比81.5%, 数量最多, 这与Pinfield等的结论相符;其次是西班牙语、法语和中文;登记芬兰语、僧伽罗语等9种语言开放资源的OAR分别有1个。Open DOAR中, 2008年以来登记非英语语种开放资源的OAR比例增加[7], 在资源环境领域, 登记除英语外其他语种开放资源的OAR占18.5%。
软件是OAR建设的重要组成部分, 资源环境领域OA R建设过程中使用的开源或商业软件共有27种 (见表1) , 其中前11种软件有不少于2个OAR使用, 而使用Socionet、pan FMP等其他16种软件的OA R分别各有1个, 另外还有19个OAR所使用的软件在Open DOAR元数据中记录为“Not specified”, 故未统计在上述软件之列。90个OAR使用最流行的DSpace软件, 31个OAR使用EPrints软件, 使用这两种开源软件的OAR数量超过一半 (占比62.1%) 。其他OAR使用的软件如d Libra、OPUS等由于语言限制, 仅适用特定国家, d Libra仅波兰的OAR使用, OPUS仅德国的OAR使用。
总体来说, 资源环境领域OAR, 美国数量最多, 发达国家和其他国家的资源数量相对均衡, 以机构知识库和学科知识库为主, 登记的资源有多种语言但主要以英语为主, 大部分仓储使用较为通用的DSpace和EPrints软件。分析表明, 资源环境领域大多数国家的科研机构都积极建设OAR, 在语言和软件上均体现出明显的多样化特征。我国在该领域建设OAR的机构多数集中在中国科学院的相关院所, 且都是机构知识库, 我国没有建设专门的资源环境领域学科知识库, 相比之下资源环境领域建设OAR最多的美国在该领域有6个相关的学科知识库。
表1 资源环境领域OAR使用软件 下载原表
本文统计分析的195个资源环境领域OAR共登记约490万条开放资源, 包括期刊论文、学位论文、图书、会议论文等各种类型的学术资源, 分析OAR登记的学术资源的数量、类型、互操作性以及更新情况, 对资源环境领域OAR的开放资源再利用具有实践指导意义。
资源环境领域OA R的资源数量范围分布情况如下:登记资源数量小于0.1万的OAR有30个, 占比15.4%;登记资源量在0.1万—0.5万的OAR有70个, 占比35.9%;登记资源量在0.5万—1万以及1万—5万的OAR均有37个, 各占19.0%;登记资源数量大于5万的OAR有17个, 占比8.7%;另外, 有4个OAR的Open DOAR元数据信息中资源数量为空白, 因此没有统计在上述资源数量范围之列。对比Loan对Open DOAR中医学领域OAR的分析[14], 医学领域登记资源量大于5万的OAR有11个, 占该领域OAR (共254个) 的4.3%, 对比发现, 资源环境领域登记大量资源的OAR相对较多。
资源环境领域OAR登记的资源类型分布如表2所示, 共有11种类型的开放资源, 包括常规开放资源 (期刊论文和会议论文等) 和领域特色资源 (数据集和地图等) 。其中, 收集期刊论文的OAR最多 (占比77.4%) , 其次是未发表的资源、学位论文、会议论文、专著、多媒体资源、参考资料、专门资源、学习对象资源、专利、数据集。其中专门资源包含地图、公告、灰色文献、新闻、科技报告等。根据统计发现, 资源环境领域大多数OA R都存储了多种类型的开放资源, 仅收录一种资源的OAR相对较少, 这与近年来开放获取范畴逐渐扩大的趋势相同, OAR登记的开放资源类型多样, 相对较全面。登记的资源类型中, 期刊论文、会议论文、学位论文、图书可以较直接反应学术成果的资源相对较多, 登记在OAR中的多媒体资源、专门资源、学习对象资源、数据集等资源比例相对较少。
表2 资源环境领域OAR的资源类型 下载原表
数据集资源以及专门资源中包含的地图充分体现了资源环境领域的特色。登记数据集资源的OAR有14个, 其中8个是学科知识库、7个是机构知识库, Dryad、PANGAEA、CEDA Repository、Earth-prints Repository[27]等重要学科知识库都收集和存储了数据集资源, 尤其是亚利桑那大学地球科学系的学科知识库RRUFF Project[28]只登记数据集这一类资源。
大部分OAR遵循OAI-PMH协议, 能够被专业搜索引擎收录, 拓宽了资源的检索途径[29]。OAI-PMH协议支持OAR资源的元数据共享和互操作, 增强了系统的互操作性。Open DOAR中资源环境领域有133个 (占比68.2%) OA R提供OA I-PMH接口的链接地址, 支持用户通过OAI-PMH协议获取仓储中资源的元数据内容;而31.8%的OAR不提供OAI-PMH接口的链接地址, 其登记的开放资源的使用和获取权利在具体每个OAR的服务平台中都有相应的政策和说明。
OAR登记资源的持续更新, 能保证系统的持久性, 推动仓储的积极增长和发展。Open DOAR中OAR的元数据中资源量字段的信息2—4周更新一次[7]。从对2012—2017年发生数据更新的OAR数量来看, 2017年有153个资源环境领域OAR登记的学术资源进行了数据更新, 2015—2017年有91.8%的OAR对登记数据进行了更新, 有4个 (占比2.1%) OAR没有提供数据更新年份。通过对数据更新情况的分析, 认为资源环境领域OAR对机构新增的开放学术资源进行持续收集和存储, 是开放学术资源建设比较可靠的数据源。
总体来看, 资源环境领域OAR登记期刊论文、学位论文、数据集等多种类型资源, 在数量上已有一定规模并且持续更新, 大部分仓储通过提供OAI-PMH接口支持用户对开放资源元数据信息的获取。
目前, 国内缺乏对资源环境领域开放学术资源的系统化发现、组织和利用实践, 本文对Open DOAR中资源环境领域OAR的分析研究发现, 该领域开放学术资源分布在195个OAR中, 除期刊论文外, 还有许多其他类型资源, 开放资源在数量上也具有一定规模, 虽然可以免费使用, 但因存储分散, 使得科研人员没有时间和精力去查找和利用。因此, 面对上述问题, 结合学科领域特色, 有针对性地进行开放学术资源建设, 对不同来源开放学术资源进行系统化集成, 能够提升开放学术资源的利用价值, 为科研人员提供资源保障和服务。本文结合分析结果, 针对资源环境领域开放学术资源的建设提出相关建议。
经过长期发展, 开放获取的范畴得到延伸, 开放学术资源包括期刊论文、图书、科技报告、科学数据、学位论文等各种类型。资源环境领域的开放学术资源建设有必要对OAR中登记的各种类型开放学术资源进行整合, 另外, 资源环境领域在科研过程的观测和实验中产生大量的科学数据资源, 而本文研究的Open DOAR中有14个OAR在不同程度上登记了科学数据资源, 因而在资源建设中应突出开放科学数据资源的集成和保障。OAR中登记的开放资源毕竟有限, 为保障该领域开放学术资源的建设的全面性, 可从OAR登记的资源类型出发, 按类型调研和补充其他来源的开放资源。
资源环境领域有195个OAR, 在该领域开放资源建设工作中如何遴选和收集所有来源的开放资源非常关键。从本文分析的OAR基本情况和资源特征看, 可从国家分布、语言分布、OAR类型、资源数量、资源类型、更新频率、互操作性等特征出发, 确立遴选OAR的标准和优先顺序。本文对OAR中开放资源遴选的方法提出两种建议:一是优先收集和整合以英语语言存储开放资源、登记资源数量较多、更新频率快、提供OAI-PMH接口的OAR中的开放资源;二是可仅从资源类型出发, 优先对OAR中某一类型资源实施全部收集和保障, 如优先收集该领域中存储期刊论文的151个OAR中的期刊论文资源, 再依次收集和保障其他类型的资源。