top of page

查重,也是门技术活儿!


你不一定要点蓝字关注我的

查重,也是门技术活儿!

临近final,各种due也是蜂拥而至,相信现在在国外读书的小伙伴们最为熟悉不过的莫过于所谓的Turnitin,这个论文的查重大师到底为何方神圣,且听小编一一道来。

开 篇

简单说下Turnitin的检测原理

Turnitin 检测原理是基于互联网技术的一款强大的学术不端工具,用户通过浏览器7*24小时都可访问此软件系统,其原理是通过用户上传文稿与Turnitin海量的云端数据库和网页进行相似性的比对,并可以快速得到一个相似性评分同时在‘原创性报告’上面生成段落和句字相似性评分,并注明抄袭来源供评审者参考。

Turnitin 检测原理之原创性报告生成原理

软件上有一个总相似性指标计算公式:相似文字总数/文本字数。各个句子,段落也会有相似性指标用彩色高亮标注,蓝带 (0%),绿带(1-24%),黄带(25-49%),橘带 (50-74%) ,红带 (75-100%)。

Turnitin 检测原理经验

根据使经验推测连续5个词就会被高亮标注彩色,并且系统可以初步判断句子结构是否抄袭(变换顺序无效),它也会检测到段落结果是抄袭(会计算段落抄袭比例)。

话不多说,下面直接举例具体说明。

-❶-

举例说明,一点一点分析检测原理

上截图前小编和大家先确定一下分析的方法:首先分成两大类即citation(引用)和quotation(引证),因为citation有些复杂所以先说quotation,再一点点的测试citation。以举例的论文里的一处quotation为例,并结合Turnitin的分析:

查重,也是门技术活儿!

这段quotation已经被Turnitin检测到,然后是Turnitin给出的理由:

查重,也是门技术活儿!

我们可以发现Turnitin是有理有据的,然后Turnitin提供了与这段类似的其它essay。

并且附上Turnitin的检测度:

查重,也是门技术活儿!

查重,也是门技术活儿!

顺便说一句

Turnitin检测的是相似度不是抄袭度,

所以我们还是应该以一个平常心去面对。

于是我们做个实验,

将刚才的quotation改成citation:

首先我们改变句子的语序和主被动,看看能否被检测出来:

查重,也是门技术活儿!

这段话中我们改变了整体句子的语序,可见如果只是简单的换下先后位置是没有用的,依然能检测出来,但当我们改变句子语义并变换动词后‘lead’后就会发现Turnitin不会把它当做相似内容,即使使用了相同的名词“alliances and circumstances”,甚至名词位置顺序不变都不会再被计入相似度内。我们再来看另一种,如果我将原先是一段的句子拆分成两个分别放在不同段落会怎样呢

查重,也是门技术活儿!

可见Turnitin也不傻,句子依然会被检测到,而且还会被归为同一类

然后我们再来看看它所提供的检测度:

查重,也是门技术活儿!

查重,也是门技术活儿!

再然后是Turnitin给的有相似段落文章的地址:

查重,也是门技术活儿!

为了检测动词是不是至关重要的被检测相似度的依据我们来换个词代替“flow”,并将此句子变成被动:

查重,也是门技术活儿!

可见动词并不是关键词,关键的应该还是英文的逻辑,假如我们改变其中名词的顺序会发生什么呢?让我们测试一下:

查重,也是门技术活儿!

我们可以发现在改变了单词顺序的情况下Turnitin已经不再把这段话算作相似段落了。至此我相信大家应该都明白了些什么了吧。

总结一下就是:

Turnitin检测相似度的原理显然不同于所谓的中文字数的重复检测原理,Turnitin检测的是句子在语法上的逻辑,这与单词是否重复是没有关系的,只要你使用了不同的逻辑来表达相同的话就算你重复的单词再多也是不会被检测出来的。

查重,也是门技术活儿!

-❷-

与英国导师对话,更了解Turnitin

Q

是否论文里抄袭的任何一点内容都会被Turnitin检测出?

是的,任何形式的想要抄,多抄少抄基本你都逃不过TurnitIn的检索。我们阅卷的时候,是可以看到你这句话里面那几个单词是抄自于哪一个文章中的哪几个单词。这个时候只要点击被TurnitIn标记出来的抄袭部分,就会出现一个文字筐,我们就可以看到原文。因此你就算是换了一半的文字以及打乱顺序,我们阅卷只要一看就知道。(很重要的一点,你读的文献你导师大部分都读过很多次了,你想懵哪有那么容易。)

如下图,只要我们点击一下红色,原文就会显示出来。

查重,也是门技术活儿!

查重,也是门技术活儿!