隨便輸數(shù)字 就可“寫宋詞”
一位學習統(tǒng)計學的網(wǎng)友,利用所學將《全宋詞》中出現(xiàn)的99個“高頻詞匯”統(tǒng)計出來,發(fā)在博客上。沒想到,這篇博文很快就被大量轉(zhuǎn)載,并有網(wǎng)友利用這些高頻詞匯重新“寫詞”。圓周率、生日、身份證號碼都可以組成一首形式上的“宋詞”。
在江漢大學剛剛舉辦的“詩詞吟誦暨詩歌大賽頒獎會”上,不少學生討論這個話題。真的存在網(wǎng)友說的“自動寫詞機”嗎?
《全宋詞》中的99個高頻詞匯
話題的“始作俑者”是一位學習統(tǒng)計學的研究生,網(wǎng)名“yixuan”,他在博客上發(fā)表一篇文章:“突然想看看宋詞里面什么樣的意象是比較常見的,比如可以做個頻率分析什么的。當然文本挖掘需要分詞,我沒法在其中花太多時間,于是想出了一個土辦法。”
宋詞的句子都很短,比較常見的詞語一般是兩三個字,這樣可能的組合就更少了。比如“猶解嫁東風”這句話,可能的二字組合是“猶解”“解嫁”“嫁東”“東風”,三字組合是“猶解嫁”“解嫁東”“嫁東風”,詞的字數(shù)越多,可能的組合就越少。
“yixuan ”統(tǒng)計出99個《全宋詞》中的高頻詞匯。排在前面的依次為“東風(1382次)、何處(1230次)、人間(1202次)、風流(857次) 、歸去(812次、)春風(802次)、西風(779次)、歸來(771次)、江南(765次)。
“yixuan ”的這篇博文一發(fā)出來,很快就被另外一家網(wǎng)站轉(zhuǎn)載,大量網(wǎng)友被這個有趣的話題吸引,紛紛發(fā)帖評論。
高頻詞匯被演繹成“自動寫詞機”
在大量評論后面,一位名叫“達芬奇的雞蛋”發(fā)現(xiàn),利用這些“高頻詞匯”的代碼,可以隨意拼湊出一首首宋詞來。比如用“圓周率”的數(shù)字排序,結(jié)果就是:回首明月(一看就是抒情詩)
悠悠心事空
西湖何事寂寞中
風吹斜陽匆匆
芳草平生斜陽
風吹寂寞今日
一枝富貴年年
斷腸長安不知
一時間,眾多網(wǎng)友用自己的身份證號碼、各種數(shù)字組合來“寫宋詞”。如網(wǎng)友“葉綠彘”的“作品”是:“東風何處?人間風流。歸去春風,西風歸來。江南相思,梅花千里;厥酌髟,多少如今?闌干年年萬里,一笑黃昏當年……”
記者用多位同事的身份證號碼、生日號碼等,套用這些代碼,果然也能產(chǎn)生出一首首有模有樣的“宋詞”。
原意不是為了“寫詞”
看到帖子被大量轉(zhuǎn)發(fā),“yixuan ”在自己的博客上又寫了一篇解釋,他說,“自動寫詞機”并不是我的創(chuàng)意,也不是我的初衷。
“yixuan ”說:“我學的專業(yè)是統(tǒng)計和精算,平時會和各種類型的數(shù)據(jù)打交道,之前寫那篇博文也是出于興趣,想利用學到的專業(yè)知識來對一些實際問題進行分析。”
他說,很多人肯定都會提到“自動寫詞機”,就比如拿生日、QQ、物理常數(shù)等套用里面的排序來“寫詞”。但我想說的是,這其實不是我的創(chuàng)意,也不是我寫那篇博文的初衷。如果大家看過那篇轉(zhuǎn)帖,就會發(fā)現(xiàn)大家開始“狂歡”是因為“達芬奇的雞蛋”的創(chuàng)意,而詞頻統(tǒng)計本身并沒有任何特殊之處。
事實上,大家可能聽說過“文本挖掘”這個名詞,它就是對文本數(shù)據(jù)進行分析,來得到有用的結(jié)論。文本挖掘是個很復雜的過程,牽涉到分詞、詞頻統(tǒng)計、特征選擇、聚類等等,如果大家對這一塊內(nèi)容有所了解的話,就會知道詞頻統(tǒng)計是一個很平凡的過程。
“yixuan”說:可能有些朋友覺得我得到宋詞的詞頻是一件技術(shù)含量很高的活兒,但從技術(shù)層面上來講,我做的那些東西也并無任何高級之處(當然需要有一些編程經(jīng)驗)。
只是一個文字游戲
這99個“高頻”詞匯真的有那么神奇?昨天,武漢大學文學院博導王兆鵬教授看了后評論說:“這只是一個文字游戲”。
王兆鵬說,漢語語言中,詩詞的語序不需要確定性,同時漢語語言具有多義性。很多詞語組合起來,都可以說得通。比如我們說“吃飯”大家能聽懂,但說“飯吃”,也能理解是怎么回事。
從嚴格意義上說,通過這99個編碼做成的“詞”,平仄完全不符合要求,也不符合詞牌的要求。但形式上挑不出什么毛病,也有一點詞的味道。
王兆鵬說,宋詞是一種文學藝術(shù),講究獨創(chuàng)性和意境,讀者通過讀詩詞能夠看到里面的意境,這是藝術(shù)。“如果寫詞這么容易,那誰都可以寫詞了。”
不過,王兆鵬也認為“yixuan ”的做法很有創(chuàng)意,“能從這么多詞中總結(jié)出99個高頻詞匯,是需要花功夫的,也說明這個學生很努力,這是一個比較高級的文字游戲,雖然談不上有什么文學意義。”
中南財經(jīng)政法大學統(tǒng)計與數(shù)學學院博導李占風教授說,利用統(tǒng)計學原理確實可以在詩詞等文學作品中,做一些研究工作,這位學生學以致用,值得表揚。
特別聲明:①凡本網(wǎng)注明稿件來源為"原創(chuàng)"的,轉(zhuǎn)載必須注明"稿件來源:育路網(wǎng)",違者將依法追究責任;
②部分稿件來源于網(wǎng)絡,如有侵權(quán),請聯(lián)系我們溝通解決。
25人覺得有用