Tainan.py 年會(咦) x MOSUT 聚會

活動網址: https://www.facebook.com/groups/mosut/permalink/1952510014851730/


Tainan.py 年會(咦) x MOSUT 聚會來了!

這次怒請卓騰語言科技的 Peter 與 Pinkoi 的 Mosky 帶來絕對精采的分享!

歡迎各位朋友也投稿分享近期覺得好玩(ㄌㄟˊ)的事物!


時間:7/28 (日)14:30~17:30

地點:成大電機一樓靄雲廳(自強校區)


主題一:「天網上線的那一天,人類終於想起了中文斷詞搞爛掉的恐怖…」! (Speaker: Pita Woof)

主題二:Hypothesis Testing With Python (Speaker: Mosky)

主題三:自由投稿

(等強者你朋友來報名!)


本次聚會不收費,感謝協辦單位 TWISC@NCKU 與成大電機系!

========================

以下為主題一的演講內容介紹:

「天網上線的那一天,人類終於想起了中文斷詞搞爛掉的恐怖…」

PeterWolf (卓騰語言科技 - 執行長工)

由於文字系統的天然差異,大家都知道斷詞處理是中文資訊處理的基礎。從底層的搜尋簡索、文本分析、自動摘要,直到高階的機器翻譯、問答系統甚至是語音辨識…等工作,若沒有先做好中文斷詞,都會像盲人摸象一樣無法推及全貌。而且錯誤率會不斷累積發散到每個後續應用裡,到時候就很~難~改~善。

各家中文斷詞引擎往往在前言時說明:『詞是最小的意義單位,斷詞是讓電腦把字串分割成以「意義」為單位的詞彙。』。但在這段說明以後,接著做下來的事,都和意義無關了。為了解決這個問題,我們基於中文句法結構而非資料模型或統計方法,從頭打造了全新的 Articut 中文斷詞暨語意詞性標記引擎。本次分享將提及其原理、應用的演算法,擅長和不足之處,並且有 live demo 實際操作的範例。

內容將專注在兩個重點:

1. 中研院 CKIP、Jieba 結巴斷詞以及 Articut 中文斷詞大亂鬥!(a.k.a. 來互相傷害啊!)

2. 次世代的中文斷詞可以做什麼?

引戰聲明:

分享中的全文有其前後語境,若簡報中看起來好像在和統計方法、機器學習乃至深度學習…等方法的中文斷詞方案形成論戰,雖然不是我的本意,但由於我個人就方法論上與當前主流的方法就有許多不同,因此我提出的疑問是針對「方法論」,而不是針對任何一套斷詞引擎。當前的任何斷詞引擎都是在中文斷詞這個問題上提出解法以及實作的前輩,我在此一併提出感謝及表示敬意。若有造成誤會或是不和諧的氣氛,後果由我個人承擔。