推薦序
運用語言科技來補破網 強勢語文霸佔語言市場,壓制弱勢語文,定定造成弱勢語言無地出聲,bē當hông看著身影,甚至造成語言流失。語言流失就ná親像漁網仔破空仝款,拄開始只是裂一細縫,若無要無緊,漁網仔會愈破愈大空,到尾仔想欲挽救mā袂赴。欲補破網著愛揣家私。語言科技(languagetechnology)是真適合當做語言復興ê家私。世界上,有愈來愈濟ê語言復振,運用語言科技展開語言ê研究、記錄kah教學。
弱勢語言需要建立語言資源ê基礎建設,譬如講:多模式ê語料庫、電腦自動分析工具、文字化kah數位編碼、語音合成等等。Án-ne咱就會當kā語言資料做記錄、註解、統計kah查詢。允言兄這本冊研究台語文ê語料處理kah線頂資源,提供咱修補語言破空ê重要工具,對咱人話ê保存kah發展有真大ê貢獻。伊m̄-nā處理台語文字化ê議題,koh對變調、台語詞性標記、雙文字轉換系統提出具體ê處理方法。台語已經有袂少ê線頂資源,m̄-koh一直欠缺有系統ê整理,這本冊整理ê線頂資源,對台語文ê研究、教學kah學習攏有真大ê幫助。
允言兄長期投入台語文運動,真早就建立台語文數位化ê語料庫,免費提供社會大眾kah研究者tī線頂查詢。M̄-koh,一般人kan-ta使用,可能m̄知影背後語言科技ê技術kah原理。想欲瞭解台語文有啥物線頂資源kah語言科技通用ê讀者,這本冊真值得參考。
語言學ê研究者有一个定著愛處理ê倫理問題:咱提著語言研究ê語料,chiaê語料beh按怎進一步為語言保存kah復興有所貢獻?Tī這方面,允言兄有真好ê示範。伊kā語言科技kah語言文獻做結合,用「傳遞成果」ê角度,將收集來ê文獻轉化做線頂ê資源,對語言學習、語言記錄kah保存攏有幫贊。
這本冊記錄台語文語料處理ê方法,koh有提供台語文線頂資源予咱參考。語料庫kah線頂資源是台語文現代化ê基礎工程。咱除了需要kā台語文數位化,koh需要有實際ê讀寫實踐,台語才會行出數位博物館,變做有性命ê語言。
國立台東大學華語文學系教授張學謙
導讀
kah說明 這本冊分做七章,第一章導論是台語文相關ê背景介紹,包括台灣多元ê語言現況,針對台語ê部分,kohùi世界ê角度來看咱人話(閩南語)使用ê地理分佈,然後討論台語ê名稱問題,並且說明台語ê處境、轉機kah危機。紲落來介紹台語文書寫ê文字系統,包括羅馬字kah漢字兩大系統,羅馬字會以白話字為主,白話字kah漢字是咱beh處理ê文字。Koh來針對台語文語料處理,tībeh做進前,提出對這項工課ê基本了解、心理準備kah建議。
第二章討論白話字按怎處理,因為Unicodeê編碼政策會使kā兩、三个符號鬥做一个符號,所以有ê白話字符號êUnicode編碼會使有兩款表示方式,可比“á”,有可能是單一ê符號,mā有可能是“a”kah“́”兩个符號鬥起來ê,仝一个符號若用無仝ê表示方式,會造成查詢ê困擾,所以阮提出用純文字ê白話字表示法成做內部表示法,這个表示法ê另外一个好處是排等([pâi-téng],sort)ê時,會照咱愛ê聲調順序來排。紲落來討論白話字搜揣ê方式,用一般ê字串比對並m̄是好ê做法,因為可能會揣著真濟無需要ê資料,阮提出兩階段ê搜揣策略,先用一般ê字串比對,揣著ê資料koh經過篩選才呈現予使用者。另外,根據實際台語羅馬字教學ê經驗,有一寡學習者聲調ê分別khah有困難,有ê學習者對入聲(-p/-t/-k/-h)khah無法度掌握,所以阮提出無聲調、入聲kah韻母ê查詢擴展ê方法,mākāchiaê技術應用tī台語線頂字典kah台華線頂辭典ê搜揣。Koh來是白話字顯示,因為內部純文字表示法kah正式ê白話字無仝款,所以提出內部純文字表示法kah正式白話字互相轉換ê方法,純文字表示法kā代表數字ê聲調khǹgtī一个音節ê上後壁(可比“tiau5”),正式白話字ê聲調符號是tī韻母ê一个字母頂頭(可比“tiâu”),需要判斷khǹgê位;顯示ê另外一个做法是kā白話字轉做圖形才顯示。
第三章介紹台語文處理ê一寡家私,包括白話字拼字檢查,白話字文本ê音節、語詞、語句統計,漢羅合用文本音節統計,kah漢羅合用文本斷詞,有ê是台文界有需求,有ê是執行計畫需要抑是研究需要ê家私。白話字拼字檢查是kā一个白話字音節切做聲母、韻母、聲調三部分,一个合法ê台語音節會使無聲母(可比“ūi”是合法ê台語音節),m̄-koh袂使無韻母(可比“kh”m̄是合法ê台語音節),所以愛ùi後壁(聲調)檢查到頭前(聲母)khah簡單,比一个例,“m7”kah“ma7”第一字母攏是“m”,第一个“m”是韻母,第二个“m”是聲母,若ùi頭前開始檢查,就加誠費氣。白話字音節、語詞、語句統計,主要是判斷分界ê符號(delimeter),若是漢羅文本,漢字本身mā是音節ê分界。斷詞是台語文語料beh處理ê時真基本ê家私,阮利用查辭典kah倒頭上大比對演算法來做,m̄-koh因為台語文書寫khah無一致,若是使用者ê用字kah辭典無仝,斷詞結果會錯誤,為著減少錯誤,阮提供使用者會當加添使用者詞庫ê功能來解決這个問題。
第四章teh討論beh按怎做台語文轉做聲音ê線頂系統。Kah華語比起來,台語有複雜ê連讀變調,問題相對困難。文字(輸入)ê部分,因為漢字寫法khah無一致,而且一个漢字可能有幾lō个讀音,koh愛處理斷詞,為著kā文轉音ê問題單純化,阮用白話字做文字輸入。白話字是標本調,所以需要提出變調演算法,阮先整理台語ê七種變調(規則變調、隨前變調、輕聲、再變調、á前變調、三連音變調kah升調),訂出變調ê內部表示法,了後根據討論台語變調ê著作所整理ê規則來揣變調分界組,m̄-kohchiaê規則無夠齊全[chiâu-chn̂g],所以阮掠一寡文本來看,設法ùi內底揣出變調分界組ê線索,訂出20條變調規則,包括音節、語詞、詞性kah語句四个無仝層次ê規則。詞性ê部分,因為無符合阮需要ê帶詞性標記ê台語辭典,阮利用中央研究院資訊所詞庫小組針對華語ê46个詞性標記做基礎,kā簡化做對判斷變調有幫贊ê12个詞性,對每一个台語語詞,透過台華辭典kā對應去華語,去查這个華語ê詞性。這个規則式ê台語變調演算法,正確率有89%。阮另外請人kā所有台語音節錄音起來,一个音節切做一个聲音檔,使用者輸入ê白話字台文,透過查辭典揣著詞性,koh經過台語變調演算法算出佗一个音節愛讀啥物聲調,了後kā對應ê聲音鬥起來做一个檔案,即時傳轉去予使用者。阮mā討論錯誤ê一寡原因,做未來改進ê參考。
因為台語變調處理ê時,詞性並無做確認(disambiguity),一个語詞可能對應m̄-nā一个詞性。第五章討論台語文ê詞性標記,目標就是beh確認每一个語詞ê詞性。因為資源有限,無法度利用人工來做大量ê詞性標記(成做訓練語料)。阮提出透過kā每一个語詞對應去華語(有khah豐富ê資源),利用華語現有ê詞性標記家私來做台語文ê詞性標記。語料來源是國立台灣文學館台語文數位典藏資料庫ê台語文本,伊是有白話字kah漢羅合用兩種文字一段落一段落對齊ê語料,(舉例:“Tâi-ôantē-itkôanêGio̍k-sanêhū-kūnkhahkēêsó͘-chāi...”對應“台灣第一懸ê玉山ê附近較低ê所在...”),先kā轉做語詞對齊(“台灣/Tâi-ôan第一/tē-it懸/kôanê/ê玉山/Gio̍k-sanê/ê附近/hū-kūn較/khah低/kēê/ê所在/só͘-chāi…”),查台華辭典揣出對應ê華語詞(“台灣{台灣}第一{第一;絕頂}懸{高}ê{的}玉山{玉山}ê{的}附近{附近}較{較}低{低}ê{的}所在{去處;地方;角頭;所在;處所;場所;間量}…”),了後利用HiddenMarkovModel統計模型,提詞庫小組千萬字ê華文語料庫做訓練語料,ùichiaê華語候選詞內底揀出系統認為上適當ê華語對應詞(“台灣[台灣]第一[第一]懸[高]ê[的]玉山[玉山]ê[的]附近[附近]較[較]低[低]ê[的]所在[地方]…”),一个華語詞可能有m̄-nā一个詞性,最後利用MaximalEntropyMarkovModel統計模型決定詞性,對應轉來台語詞(“台灣/Tâi-ôan(Nc)第一/tē-it(Neu)懸/kôan(VH)ê/ê(DE)玉山/Gio̍k-san(Nc)ê/ê(DE)附近/hū-kūn(Nc)較/khah(Dfa)低/kē(VH)ê/ê(DE)所在/só͘-chāi(Na)…”)。根據這个方法,阮得著ê詞性標記正確率是91.6%。了後討論錯誤ê原因,做未來改進ê參考。
第四章ê台語變調處理,實作出白話字轉語音ê線頂系統,總是因為輸入是白話字,對一寡使用者有困難,若是會當直接輸入漢羅台文,系統負責kā轉做白話字,就會使koh-khah發揮系統ê效益。第六章提出利用台語辭典詞條,加上根據台語文語料(包括白話字kah漢羅合用文本兩部分)算出來ê台語音節互訊息kah相關度ê統計資料,來實作出漢羅文本kah羅馬字文本(白話字抑是台羅攏會使)互轉系統。轉換ê正確率,比進前台語信望愛提供ê互轉家私有真大ê提升。互轉系統完成了後,連結第四章所提起ê白話字台語文轉音系統,實作出khah完整ê台語文轉音系統,包括會使輸入漢字抑是羅馬字,羅馬字用白話字抑是台羅mā攏會使。
第二章到第六章所介紹ê系統攏是阮有實際參與開發ê。第七章針對目前線頂會當揣著ê台語文相關資源,分類來做介紹,無限定tī阮做ê系統,有ê系統mā會提出一寡阮ê看法。分做字型、字辭典、語料、電子冊、輸入法、斷詞、雙文字轉換系統、發音系統kah華台翻譯系統九个部分來介紹,主要beh整理現有ê資源,知影資源tī佗位,對beh參與台語文事工抑是相關研究,會當大大提升效率,mā會當感受著,看起來真冷門、弱勢ê這个領域,其實已經累積真濟有心ê人拍拚ê心血。希望後來加入ê友志,會當以這个基礎繼續向前行。
沒有留言:
張貼留言