职称论文检测报告的技术修正

发布时间:2021-08-02 来源:易Go考试网
职称论文检测报告的技术修正

  小编为你整理了职称论文检测报告的技术修正,希望能帮到你。

  一、职称论文检测系统的检测原理

  将待评审的职称论文进行学术不端检测是cnki学术不端检测系统的一大新应用,其检测原理是和未发论文检测系统的原理相同,只是检测手段稍有不同。

  (一)检测原理———“文字比对”20世纪90年代后,随着互联网技术的发展,信息内容迅速增多,复制粘贴变得越来越容易与普遍。文本复制(抄袭)是学术不端文献的重要特征。随着内容管理与版权保护的需要,文本复制的检测研究也得到进一步发展,陆续提出数字指纹、vsm等检测方法。[3]笔者通过对检测原理的深入研究发现,目前国内外的学术不端检测系统都是以“文字比对”———提供文字复制比率为基本原理,也就是说出现了初级的文本复制类型的抄袭,系统可以轻易地识别。以这种“文字比对”为识别基础的学术不端检测系统采用的是“外形”对比以及针对文字、字母与数字的排列组合进行形式上的比对,如果被比对的两段文字的句式、用词、排列顺序相同,就可以被检测出来。但如果是意义抄袭就比较隐蔽,系统基本无法检测出来。

  (二)检测手段的改进将一篇待检测的职称论文放在未发论文检测系统中会发现全篇皆红,系统会提示这篇论文和该作者的已发表的论文重复率为100%,也就是说未发论文检测系统是没有办法对已经发表的论文进行检测的,主要是因为该系统缺少一个时间模块判定功能,即自动删除该文章发表时间以及以后的“相似”论文。基于此,已发论文检测系统特别设置了论文发表时间功能,并要求委托人提供论文的发表时间。据此时间,去除了发表时间在所测论文发表时间之后(含发表时间在同一天)的“相似”论文,最终获得由系统自动生成的“文字复制比”结论。这个结论虽然不包含所测论文发表时间之后(含发表时间在同一天)的抄袭结果判定报告,但是对该文章发表之前,它是否存在抄袭的现象是可以检测的,这部分的功能和未发论文检测系统是一致的,所以我们可以适当借用未发论文检测系统部分适用的研究成果来探讨对检测结果的判断。

  二、抄袭判断的量化指标

  三、影响职称论文检测结果的因素

  (一)提供的待检测文档的类型及出处cnki期刊学术不端文献检测系统目前以“中国学术期刊网络出版总库”为全文比对数据库,当前,可对doc、 txt、caj、kdh、nh、pdf等多种格式的文件进行比对,从词、句子到段落等方面,可检测抄袭、伪造、一稿多投、篡改、不正当署名、一个成果多篇发表等多种学术不端行为。[6]同时,职称评审文件中规定:优先从图书馆“中国知网cnki数据库”中下载caj或pdf格式电子版论文(专著、译著、教材及外文刊物上发表的论文除外)。如未在该数据库中检索到提交论文,可以从图书馆其他数据库中继续查找并下载pdf格式电子版论文,如仍然没有,方可提供 word文档。提交论文原件和完整论文的电子版(须pdf格式,著作、教材除外)。[7]经过笔者的了解,在实际操作中,也是按照这个文件的规定做的,待检测文献的电子文档,并没有一定要求使用pdf格式,只要提供的电子文档能够正常地从中复制出文本来,pdf、doc、caj(及其系列文档类型)、 rtf及docx都可以。首先是从cnki学术网络中下载,可是受技术水平的限制,很多早期的文章是以pdf照片———图片的形式存在的,不能复制文本,还有部分编辑部提供的原稿采用了密码或版权保护也不能复制,另外一种情况是由于编辑部新发论文上网需要一定周期,新发论文也没有原始文档,只能向送检人索要编辑部的修改文档,当然,非cnki下载所得的文档,所有的文档类型要在检测汇总表中予以说明。由以上的复杂情况来看,不同类型、不同情况下提供的电子文档,在检测中会出现检测比例的不同。如一位研究者反映,他在《航空学报》个人比对库中的一篇文章(.doc格式,为作者提交的录用定稿)已经在中国期刊网上发布(具体采用的比对文件格式未知),新提交的一篇稿件被检测出与这2篇文章有文字重合的问题,但检测结果中该稿与个人对比库中的稿件间的文字复制比为46%,而与同一篇文章在中国期刊网中的版本的文字复制比为26%,不同的格式竟然造成检测结果间20个百分点的差别。[8]可见不同的文档形式会对检测结果产生较大的影响,这种现象需被重视。

  (二)第三方检测模式毋庸置疑,检测系统在程序上是非常容易操作的,但任何一种程序设计都会存在一些设计没有考虑周全的部分和现有的技术水平和使用条件无法达到的要求。检测方式是图书馆的第三方检测,由于学科的限制,检测者对文章水平没有直观感受只能信赖软件,以系统检测结果出一份报告。一般来说,检测者不会对检测结果的百分比多少做一个结论,只是提交结果,评价者是由职称管理部门和专家来确定的。当然学术不端检测系统是一个初步的检测,后期还有专家评议一个环节来判断文章的优劣。但是对于一些处于临界值的稿件,如果只是看到其检测结果超标就进行清退对被检测者是不公平的,因为它已经没有资格进入下一道环节了。第三方检测者只是在出具汇总报告时添加的一个说明文字,提示一些具体情况,笔者认为可以使用一些可以共通的原则,对检测结果要出具更具体的修正报告,包括剔除系统误判的部分和系统未发现问题的部分,为参评者提供公正的服务。

  四、对职称论文检测报告的修正

  要制定可以通用再研判的标准,首先要搞清楚“文字复制比”与“文字抄袭率”的关系,我们通常看到的学术不端检测系统提供的是“文字复制比”,但它绝对不等于“文字抄袭率”。“文字复制比”是系统提供的有抄袭嫌疑的地方,“文字抄袭率”是我们已经定性的抄袭的文章的比例,两者性质是截然不同的。[9] 基于此,笔者认为真正的文章抄袭率应该如下修正:文章抄袭率=文字复制比—系统误判+系统漏判这里,“文字复制比”是系统提供的百分比,“系统误判”是指虽然被系统检测出来有抄袭的嫌疑,但并不能算作抄袭的部分,“系统漏判”是指虽然系统没有检测出来,但是存在隐性抄袭的部分。

  (一)减掉系统误判的抄袭率

  2.作者误引了抄袭文字,必要时通知作者申诉。对这点,职称检测政策中规定了“论文中有明确注明为引自其他论文中的内容,不计入”。虽然注意到了这种情况,但统统减掉还会有漏网之鱼的嫌疑,在后面会具体讨论。

  毕业论文中相似的,不计入。博士、硕士论文虽然被收录到了cnki文献库中,但是并不属于印刷及公开发表的文章,对这个原因导致的相似比应剔除。(3)与本人论文发表后,他人引用本人论文中的内容,不计入。(4)论文中有明确注明为引自其他论文中的内容,不计入。(5)送检论文中的同一段文字内容,和其他多篇文章相似的,则该段文字造成的相似比,按一次计入,不重复累加。以上几种条款起到了保驾护航的作用都应该在检测报告中适当删减,但也有一些情况虽然没有被系统检测出,但一旦被查到是要严厉指出的。

  (二)增补系统漏判的抄袭率:设定各种抄袭情况的权重系数有的文章虽然检测的抄袭率很低,但是文章若存在以下一些状况,应适当建议增补权重系数一项,具体为:

  1.有对句义、观点、主题抄袭现象,无个人观点,及对外文文献套改翻译抄袭等。这种抄袭手段隐蔽,比较难发现,性质也比较恶劣,对此,可以增加公示环节,以增强被检测者间互相监督,更有利于发现比较隐蔽的抄袭,一旦发现并查实,在所出具的报告中应明确指出:对检测结果乘以适度的权重系数,以增加其抄袭率。

  3.论文中有明确注明为引自其他论文中的内容,不计入,在实际的检测过程中会发现有的作者明明没有引用,也乱标参考文献引用以显示所看论文数量较多,对这种情况,发现了一定要在检测报告中明确指出。