2011/11/06 多語詞彙學工作組會議


國家型計畫團隊2011116日至11日赴美國洛杉磯參與Getty Research Institute(蓋提研究中心,以下簡稱Getty)舉辦的「多語詞彙學工作組會議」(Multilingual Terminology Working Group Meeting),此次會議為期四天,聚集了同在參與AAT多語化的成員國家之研究機構與學者,包括美國(英文)、台灣(中文)、荷蘭(荷蘭文)、智利(西班牙文)、德國(德文)以及紐西蘭、義大利、巴西。今年度會議是「多語化詞彙工作組」成立後的第二次跨國多邊會議,主要目的是進行多邊國際學術科技與實務經驗交流,共同討論多語化的方法、問題與技術,包括討論如何改善應用程式介面(Application Programming Interface, API)並提出解決方法,使AAT資料能在多語化的情況下與各國同步更新索引典系統的內容。
(上圖 :多語詞彙學工作組會議實況)

Getty詞彙現況與更新

Getty Vocabulary Program的執行編輯Patricia Harpring發表,針對Getty所研發的四套詞彙:Art & Architecture Thesaurus (AAT)Union List of Artist Names (ULAN)Getty Thesaurus of Geographic Names (TGN)以及Cultural Objects Name Authority (CONA),進行目前現況的概略報告。

AAT目前總共包含約50,007筆記錄,247,885個詞彙,自20109月起共有32,627筆的更新記錄,目前已有的多語化成果為西班牙文(已完成)、中文(進行中)、德文(進行中)、荷蘭文(30,868個詞彙)、義大利文(12,188個詞彙)與法文(2,556個詞彙)各國貢獻詞彙以荷蘭語與西班牙語為最大宗,而每個語言都有自己的偏好詞未來可能加入的葡萄牙語版AAT,亦可能令AAT-Taiwan的國際能見度由現有的英語、西語、荷蘭語、德語地區再度提升至葡萄牙語地區。

AAT更新部分,Getty在原本七大層面中,新增「品牌名稱層面」(Brand Name Facet),該層面尚在初步建構階段,目前僅有新增一詞彙;另外,考量科技媒材在藝術領域的日益更新,在關聯概念層面中增加「電影類型」(motion picture genres)和相關詞彙,持續增加新媒體藝術領域的相關詞彙;在詞彙更新部分,Getty增加有關非西方藝術、當代藝術、裝飾藝術與其他藝術風格、作品類型和質材的相關詞彙。此外在涉及神話色彩的動物詞彙,比如中國文化概念下「龍」(dragon),由於具有神話色彩的動物詞彙並非是屬於真正的動物,因此不能直接放在「動物界」(Animalia),「動物界」並非完全是科學分類術語,Getty特別在動物界下新增「神話或傳奇性動物」先導詞,來容納「龍」該詞彙,正式將該詞彙收錄於AAT,而這將會使未來本計畫團隊貢獻具有神話色彩的動物詞彙更為順利。GettyAAT的部份詞彙新增圖片,同時不會將有版權的圖片放上AAT,而新增圖片確實可以幫助提升AAT使用者的使用經驗。此外,GCIGetty Conservation Institute)結合AAT,做為控制詞彙,利用AAT的多語化詞彙幫助使用者可搜尋到各國的專業用語,協助搜尋到更多資料,且對照AAT的層級架構,可以瞭解該物件的屬性與上下關係,並且可以參看AAT範圍註瞭解該詞彙意義。當使用者不是很明確知道物件名稱,可以透過層級架構找到適當語彙,以「paper」為例,原本搜尋共有500多筆,但透過層級架構找到確切語彙「Japanese paper」與其非偏好詞,協助使用者可以尋找到相關資料。
ULAN旨在收集藝術家與藝術家有關資訊的名稱,係專門收集藝術家個人與機構名稱的詞彙庫,總共有249,240筆記錄,636,676個名字。ULAN共分為組織團體(Corporate Bodies)、非藝術家(Non-Artists)、藝術家(Persons, Artists)、不知名藝術家(Unknown Artists)四大層面。在「組織團體」層面中,有關博物館與建築的詞彙共約有10,000筆,當ULANAAT的機構層級有重疊時,AAT特別增加建築類型(building type)以及使用修飾語(qualifier)進行詞彙分別。其中提及「無名氏」( Anonymous Artists)與「不知名藝術家」Unknown Artists的差別,前者可由一些特定的特色加以識別,可以推測該藝術家的生平,但是無從得知其名字,後者則是指在用來分類某一文化下的藝術家,而非指特定藝術家,可做為控制語彙。在貢獻過程時,貢獻者需填入namedateroleevent等欄位。Getty特別提到許多使用者仍不知道ULAN包含博物館、藝術品業者等名稱,因此Getty特別在F&Q網頁上特別解釋,同時受到荷蘭的啟發,考慮設計手冊來進行宣傳該資料庫。TGN著重於對藝術與建築之研究有相當重要性的地點,共有約1,348,067筆記錄,1,887,748個名稱、地點種類、座標與描述註(descriptive notes)TGN資料同時與ULAN有互通關係。
   今年Getty 正式開發出新的一套Getty VocabularyCONA,總共有143筆紀錄,255個詞彙,目前尚無太多data,處於初期建構階段,但是已有全新的功能與編輯系統。此套詞彙係收集文化性作品的權威記錄(authority records),包括建築與可移動的藝術作品(繪畫、雕塑、照片、陶瓷器、紡織品、家具等),其他視覺媒體如壁畫、表演藝術、考古文物等,以及物質文化領域的各種功能性物件,共包含文化性作品名稱、目前位址與其他核心資料。CONA的詞彙分別與AATULAN有所連結,而CONA的物件類型(object/work type)是由AAT控制,從中可知道該藝術品的層級與屬性關係;CONAULAN有時會共用同個詞彙,但是在ULAN乃是指機構名稱,在CONA則是指建築物和元素,以National Gallery為例,在ULAN中,使用者會知道國家藝廊位於美國華盛頓,在CONA則會知道該建築物的建成材料和建築師CONA貢獻方式,目前Getty僅提供CONA的貢獻欄位,尚無schema,因此貢獻之前,須先寄幾個樣本作為測試。
(上圖 : Getty詞彙小組報告情況)
Technical issues探討

AAT推動以後,GettyAAT內容的修正與新增從未間斷,因此如何與Getty保持資料同步,對AAT-Taiwan團隊,以及其他國家成員而言,均為一相當重大的課題。Getty方面目前提供授權各國兩種更新方式,其一是透過開發API使用Getty AAT所提供之Web Services,自動比對Getty提供的XML更新文件和自有資料庫內容的差異,進行雙週一次的同步更新,其二是藉由每年的系統資料匯出(XMLrelational tablesMARC)更新。AAT-Taiwan技術團隊於2011年已針對同步更新API進行架構之開發設計,然而在運用AAT所提供之Web Services開發之過程中遭遇技術問題。AAT-Taiwan技術團隊藉由這次會議,與Getty AAT技術團隊、各國AAT團隊進行面對面的技術交流與討論。

關於我方技術團隊提出對於數個Web Services功能與用途不清之疑問,Getty AAT技術團隊除為將尚未開發完成的測試用Web Services放上頁面以致誤導之事致歉,亦向與會人員介紹最近期Web Services的功能更新。我方技術團隊除釐清對於Getty AAT所提供之Web Services功能的疑問,並與AAT技術團隊討論數種API架構設計的可行性。
各國並就Web Services之議題進行相關討論。荷蘭Dutch AAT反映使用Web Services內的Get Revision History希望得到2009-1-112011-1-11之間的新增資料,卻得到一不可能產生的極大數值,Getty AAT技術團隊澄清是由於之前Getty AAT將為候選狀態(Candidate)的詞彙正式納入AAT,因此造成大量的新記錄所致。德國German AAT採用xTree tool顯示AAT的層級架構,導致目前遭遇困難:更新AAT的內容時,無法同時保留系統中由該國團隊新增的德文詞彙。正考慮藉由Web Services更新之可行性。於討論之尾聲,AAT技術團隊表示非常樂見各國技術團隊測試Web Services功能及回饋意見,他們亦將全力回應各國AAT技術團隊提出的需求,請我方技術團隊將需求釐清並製作成scenario,以便Getty AAT技術團隊針對我方所需的功能開發新Web Services或產出報告。釐清現階段的技術問題並得到Getty AAT提供技術配合之承諾,AAT-Taiwan技術團隊將繼續進行API程式之開發,以便更有效率地進行資料庫的更新,而此程式在開發後亦保留供其他AAT團隊使用的可能。
   Getty所研發的四套詞彙中,尚未完工的Cultural Objects Name Authority (CONA),亦於今年ITWG會議時向各國AAT團隊展示其最新成果,CONA的定位從原本特別為保存建立的獨立類語辭典,轉為一套資料庫與Getty所研發的另三套詞彙:AATUnion List of Artist Names (ULAN)Getty Thesaurus of Geographic Names (TGN)相連通的文化作品權威記錄(authority records),未來貢獻給COAN的詞彙,若該詞彙同時歸屬於AATULANTGN,可藉由CONA的字彙整理系統(Vocabulary Coordination System, VCS)同時貢獻至AATULAN以及TGNAATULANTGN亦可透過CONA取得圖片連結。而以往AAT系統端在處理非英語詞彙時,須為詞彙添加「$」符號以區辨各種特殊字元,如:Provençal 在系統內會顯示為Proven$05cal“$05” 即代表讀音符號,CONA展示的一大變革為不再需要使用$」符號區辨特殊字元。總體而言,CONA的未來發展將與拓展AAT的可用性息息相關。
(上圖 : Getty討論系統開發議題)
各國AAT多語化實行現況


TAA為西班牙文版AAT,由CDBP(Centro de Documentación de Bienes Patrimoniales/Center for Documentation of Cultural Heritage)推動,動機為替DIBAM (Dirección de Bibliotecas, Archivos y Museos/Directorate of Libraries, Archives and. Museums)整合典藏,除了發展SUR記錄系統,亦評估國際上可用的工具,決定採用AAT來標準化他們的詞彙。1997年開始與Getty作翻譯AAT,自2003TAA開始上線運作,至今已完成了約54,000筆詞彙翻譯,是第一部線上西班牙文索引典,廣受博物館、研究機構、數位圖書館與西方藝術與建築的專家學者使用。
TAA的特色之一為:重視同一概念在不同西班牙語系國家(如智利、西班牙、古巴、阿根廷等)中所聯結到的不同詞彙,將其一併收錄並設置複數非偏好詞彙。在翻譯相關議題上,TAA提出增加修飾語(Qualifier)之需求與AAT-Taiwan本年度提出的「消歧義(Disambiguation)」功能模組有異曲同工之妙,二者都意在解決翻譯AAT詞彙後產生的一詞多義問題。TAA團隊於本年度的會議亦反映AAT缺乏有關前哥倫比亞時代、美國殖民時代與宗教物件的泛用詞彙,導致TAA使用度受限等問題。在資料展示方面,TAA團隊開始為TAA資料內容加入取自DIBAM館藏品的小型圖片,加深使用者的印象。
未來TAA團隊將會繼續線上標準化工具(online standardization instruments)的維持作業,增補新詞,修訂舊詞。也將與SUR系統連結(object-term-TAA-TRP),透過SURTAA可與公共博物館的資料庫連結,但未來仍希望能推廣至更多的場合如:學術研討會、機構訓練課程、出版物等,拓展TAA的使用度,亦透過為DIBAM數位工具如Programa SURArtistas plásticos chilenosMemoria Chilena等的使用者設計訓練課程,提高TAA的利用率。未來,TAA也預計將其翻譯方法應用於協助將以加泰隆尼亞語、葡萄牙語翻譯AAT的機構或團隊。


荷蘭AAT團隊的更新情況為他們已經彙整出未來將匯入AAT新資料,包含4000筆候選詞彙與2010筆詞彙,同時今年已即將準備貢獻5個荷蘭詞彙與其範圍註翻譯;原本預定今年貢獻的2010筆詞彙,因為技術因素無法成功上傳。此外今年荷蘭AAT與其他計畫進行合作,其中一件為與荷蘭芒語(Flemish)計畫整合,未來除了貢獻荷蘭詞彙,可以貢獻更多荷蘭芒語彙。
荷蘭AAT團隊利用PR與行銷推廣AAT,主要使用者群設定為圖書館、博物館、檔案館和蒐藏機構從業人員,特別聘用專業設計師來設計宣傳手冊,係以索引典「標記」(tag)的概念出發設計出箭頭樣式的手冊,透過此手冊形式和內容讓使用者群更加認識AAT,使更多蒐藏機構採用AAT做為著錄工作,此概念與設計形式引起與會人士廣大的迴響。本國家型計畫與中研院院內向來以研究為主力,在行銷領域較少著墨,使得中研院與外界連結性較弱,一般民眾無法有效利用中研院資源,未來本計畫團隊可以特別著重以各類推廣形式來宣傳AAT資料庫。
在技術層面上,針對外部使用者,荷蘭AAT團隊研發新的編輯介面,增加詞彙與範圍註的貢獻欄格,開放外部使用者編輯權限,讓使用者可以進來介面修改和編輯資料,協助將英文翻譯為荷蘭文,藉由使用者幫助改善荷蘭AAT。但是許多使用者可以閱讀英文,卻無法確實翻譯,同時沒有太多使用者參與此項工作,因此這項功能並未完全發揮,另一方面,荷蘭AAT團隊也增加使用者評論的欄格,讓使用者可以留言,目前已經約有150個評論。Getty表示過去曾經訓練外部使用者進行貢獻,但是最後大多貢獻者往往選擇中止此項任務。荷蘭AAT團隊思考可以嘗試透過為每個詞彙進行圖片加值,讓使用者可以對照詞彙,協助其貢獻翻譯詞彙。未來AAT-Taiwan永續經營計畫上,規劃開放外部學者進行編輯與審訂工作,荷蘭團隊的介面設計與經驗將可成為最佳參考借鏡。
至於荷蘭AAT翻譯上的問題主要有二:1)AAT中有許多loan terms,但是我們無法確定這是翻譯後的loan terms,還是非翻譯的?不確定的情況下,荷蘭需要進行標記嗎? Getty回應:如果你們知道這是loan terms,不論是何種語言,都要進行標記。3)是否可以修改AAT層面名稱? Getty回應:層面名稱須固定,不能更改。


AAT in German
State Museums of Berlin/Institute for Museum Research推動,延續2010年所累積的成果——311個德文詞彙,110個翻譯的範圍註,以及由詞彙上下位關係而衍生的24個新概念等,本年度之工作重點聚焦於索引典的資料模式與交換格式vocnet,以及用於詞彙管理的軟體工具xTree,以vocnetxTree進行的工作內容遵循ISO 25964-1(已公開發表)與ISO 25964-2(即將公開)規則。vocnet為一延伸自museumvok格式,並為因應索引典格式之需求,增設概念分組、詞彙間的關聯、增加詞彙屬性、範圍註種類、為修飾語設立分類條目、專精於聯想關係等museumvok所無之功能。用於詞彙管理的xTree為一使用瀏覽器操作的web-based工具,毋須安裝於個人電腦上,因此適於分散式作業,基礎為概念式(concept-based)並有唯一的URIUniform Resource Identifier),具可為展示用途特製的偏好與非偏好標籤,其一致性則(consistency)透過雙重控制(doublet control)與拒絕環狀關係(refuse of circles)等方式查核,其web service運用vocnet交換格式,並相容於SKOSSimple Knowledge Organization System)與BS8723-5 modelxTree由於改編與開發容易,目前也同時為數個詞彙工作組所選用。具德、英文二種介面的xTree可處理多語詞彙,目前AAT in German內的資料主要為德文詞彙,包含少量的英文詞彙,德文AAT亦提供圖檔,可在左欄的list中選擇圖片瀏覽,或利用詞彙搜尋相關圖片。
德文AAT目前由"museumsvokabular.de"所公開收錄及使用,這是一個由2005年德國博物館組織文件資料工作坊(Working Group on Documentation within the German Museums Association)衍生而來的線上平台,目的為籌備、編輯與改寫博物館詞彙。透過"museumsvokabular.de"提供非商業性博物館使用,未來德文AATAAT的能見度應能有所提升。德文AAT除了於博物館組織之間推廣,亦致力於AAT收錄概念與德國博物館藏品詞彙的對應,目前Jewish Museum BerlinLandschaftsverband Rheinland(regional authority “Rhineland”)已完成超過1000筆的對應。


2008年正式啟動AAT中文化工程,執行期間遇到多語化議題,AAT-Taiwan發展中文化的方法論,共分為翻譯、校訂、消歧義、專家審訂、加值應用和貢獻六大模組。鑒於翻譯最大問題在於詞彙,今年度將校訂模組分為範圍註和詞彙校訂,特別針對詞彙進行再查證工作,為每個詞彙尋找文獻來源,確立詞彙的準確性。AAT-Taiwan目前已翻譯31,933筆詞彙,其中範圍註校訂完成17,612筆,詞彙校訂2,788筆,學者專家審訂1,013筆,而與聯合目錄連結的圖片則有1,115張。AAT-Taiwan團隊預計在今年11月底完成200筆詞彙貢獻測試,年底完成5,000筆貢獻,其中包括詞彙、範圍註和拼音。
AAT中文化標準作業流程中,主要分為翻譯、範圍註校訂、詞彙校訂和專家審訂四項流程,其最大的特色在每項流程之間皆具有其彈性,以及回饋作用。首先是翻譯完成,然後送給校訂者進行範圍註校訂,校訂者會針對翻譯內容進行評分與給予建議,管理者將彙整理回覆給譯者;當校訂遇到專有名詞的問題時,將會送到詞彙校訂階段,為每個詞彙進行文獻來源,確定詞彙的權威性和偏好詞,在校訂這一個模組仍無法解決一些專業上的問題,將會統整送至專家進行審定,而專家的回應也會回饋給校訂者和翻譯者,使品質管理流程不只是制式限於特定模組,可以有所回饋與彈性,促進彼此的成長,問題不會再次重複出現。
以詞彙查證標準作業流程來說,主要分為翻譯詞彙、專書、一般資料庫等三個面向,第一步為譯者為每個翻譯詞彙尋找線上文獻,避免譯者自行翻譯的情況,第二階段,管理者大量蒐集各領域的專書,請工讀生為每個詞彙一一查找權威性的文獻來源,第三階段則是從AAT的方向查找,直接由一般辭典和資料庫進行詞彙校訂。若是最後仍無法查找到文獻,考慮該詞彙也許是在非常特定領域,管理者將會另外搜尋相關專書,如圖錄或教科書,另外也會利用GOOGLE廣泛蒐尋;另一個方式,即是找國語字典,核對在我們的國語字典是否真有該詞彙,如有。核對範圍註相符即可著錄,最後一個方式即是送到專家審定,然後再著錄到AAT-Taiwan
而進行AAT中文化所遇到的問題,共分為詞彙查證、層級分類和專家審訂問題。詞彙查證問題如下:1)中文形容詞是否可以成為非偏好詞?回應:編輯指引裡面有列出每層面的詞性準則,只要符合該準則即可。2)如果非偏好中文詞彙為最常使用者,是否可列為偏好詞?回應:可以。3)由於中文與英文分屬於不同語系與文化,因此導致英文一詞多義以及英文多詞中文僅有一詞的情況,是否可以利用消歧義的方式解決該問題?回應:在AAT中的修飾語即是用來解決該問題,但是在不影響層級的情況下,單就詞彙,AAT-Taiwan仍是可以利用消歧義的方式進行。
層級問題則如下:1) 賑濟院(almonries)僅提供救助,並未引導被收容人進入職場工作或企圖矯治其行為,和「懲教機構」的功能並不相同。由新加入的詞彙可知,索引典更新內容中將「建築物」和「機構」兩種概念加以區分,在物件層級和組織層級下分別列出「賑濟院」和「賑濟院(機構)」;而物件層面的「賑濟院」是歸類在「福利事業建築」之下,若以此類推,則「賑濟院(機構)」應歸類在「<保健福利機構>」()之下,而非「懲教機構(機構)」〔:索引典中已將原「<保健福利設施>」()改為「<保健福利機構建築物>」(),並在組織層級下新加入「<保健福利機構>」(。回應:需要再重新審定。2)考古學(Archaeology)下有包含不同類別的考古學,其中植物考古學(Archaeobotany)和動物考古學(Archaeometallurgy)有兩個父節點,即使兩詞彙具有相同的範圍註描述,但是兩個主父節點卻是不同,請問分類的準則為何?回應:需要再重新審定。
至於專家審訂問題為:1)AAT色彩分類依據ISCC色彩分類方法,依據ISCC-NSB Color System Designation,色彩共分為Hue, Value and Chroma,而AAT範圍註顯示為Hue, Tone, Intensity,請問這兩者是否等同意思?回應:需要再重新審定。2) 依據專家審定說法,黃色並非加色法,而是減色法。是否須修改為減色法?回應:需要再重新審定。

(上圖 :TELDAP小組報告情況)
授權議題探討

本年度由於RKDAAT-Taiwan均面臨授權相關問題,Getty AAT團隊特別邀請Getty法務部門總顧問Maureen Whalen女士於工作會議期間進行法律與智慧財產權的議題討論,並回覆與會成員之提問。Whalen女士首先簡介歐盟與美國地區相關的智慧財產保護法與適用方式,並針對與AAT最相關的資料庫與詞彙相關法律進行解說。歐盟對資料庫提供較佳的法律保障Database Directive 96/9/EC,但效力僅限於歐盟國家。Getty資料庫與詞彙如:AATTGN以及ULAN均為彙編作品(compilation works),受美國著作權法之保護。這些根據事實所編纂的資料庫,其中收錄的「事實」由於非屬著作者之原創故不受保護,而資料之間的關係定義行為由於牽涉到創造力,方為受著作權保護的部分。但目前著作權法的保護亦有模糊地帶存在,例如:他人可藉由一次取得不連續或少量的資料來規避著作權法,然而,取用「多少」資料將觸犯著作權法,目前仍未有清楚共識。
接著因應各國AAT團隊未來均可能產生授權予第三方之需求,Whalen女士也對於可能產生授權的狀況與相關內容進行簡要分析,例如資料庫授權於第三方時,權利應包含:(1)授權者可以如何使用資料庫,(2)授權者得以使用資料庫的時間長度,(3)以及使用資料庫應付的授權費用。相較於受到著作權法保護的開放原始碼(Open Source),各國的AAT均屬於開放資料(Open Data),此方式由於取用資料不須經過製作者之許可,極難受到法律保障,亦即雖然能達成廣泛的傳播運用,相對的也更容易被濫用,製作者必須能夠權衡其利弊。而時常由跨組織合作建立的資料庫,訂定合作協議時不只需要注意協同工作規劃,像是共同所有權如何牽涉成果的使用、如何協議合作對象與第三方對成果的存取規則等議題,也都是各國AAT團隊不可輕忽的面向。最後,Whalen女士並鄭重呼籲未來合作製作者們應在合作計畫初期即對法律與智慧財產權相關議題妥善成協議,以避免日後爭議。
(上圖 : 討論授權議題會談情況)

0 意見:

Post a Comment

 
Copyright © 2009-Present Academia Sinica Center for Digital Cultures (ASCDC). All rights reserved. Best viewed in IE7+ or Mozilla 2.0+ with 1024*768 resolution . Designed by DayInFlying Group.