近年來,無論是在語言信息處理領(lǐng)域還是語言學(xué)研究領(lǐng)域,語料庫的重要作用均已經(jīng)得到充分的認(rèn)可,國(guó)際國(guó)內(nèi)在語料庫的建設(shè)和研究方面均做了大量的工作。下面是幾個(gè)雙語語料庫幾個(gè)設(shè)計(jì)原則。
1 語料庫的加工深度
語料庫不是任意文本的任意堆積,為了發(fā)揮語料庫的作用,通常都需要對(duì)語料庫進(jìn)行一定的加工,進(jìn)行何種加工和加工深度如何通常和應(yīng)用目標(biāo)有關(guān)。對(duì)于漢英雙語語料庫而言,基本的加工包括對(duì)語料進(jìn)行各級(jí)對(duì)齊工作,其中最為重要的是句子一級(jí)的對(duì)齊,這是各種應(yīng)用對(duì)雙語語料庫的一個(gè)最基本的需求。其他的加工包括:對(duì)漢語部分進(jìn)行切詞、詞性標(biāo)注以及注音;對(duì)英語部分進(jìn)行斷詞、形態(tài)還原和詞性標(biāo)注;漢英雙語語料在詞匯一級(jí)和短語一級(jí)對(duì)齊。對(duì)雙語語料庫的加工越多,雙語語料庫可以提供的信息也就越多,但同時(shí)也意味著工作量的劇增。
根據(jù)工作的需要,目前我們主要進(jìn)行句子一級(jí)的對(duì)齊工作,但在制定規(guī)范時(shí)也充分考慮了進(jìn)行其他可能的加工。
2 語料庫編碼
雙語語料庫收錄的文本通常不只一個(gè)來源,對(duì)漢英雙語語料庫而言更是如此,相關(guān)可用的電子文本遠(yuǎn)遠(yuǎn)不如單語文本多。要建立一個(gè)相對(duì)大規(guī)模的雙語語料庫,多渠道搜集語料就是唯一的選擇。這同時(shí)帶來一個(gè)問題就是語料文本格式各異,難以統(tǒng)一處理和管理。同時(shí),作為一個(gè)基礎(chǔ)資源,經(jīng)過加工處理的語料庫也需要以一種和應(yīng)用以及平臺(tái)無關(guān)的形式存在而支持相對(duì)廣泛的應(yīng)用。為此需要對(duì)雙語語料庫進(jìn)行統(tǒng)一編碼,從而方便雙語語料庫的管理、統(tǒng)一處理、共享和交換。
目前在信息處理界普遍使用的XML 語言作為編碼的元語言,由于XML 語言的普及和業(yè)界的廣泛支持,基于XML 語言的編碼體系將容易獲得廣泛的軟件支持。
3 語料庫文本收錄原則
對(duì)于語料庫文本收錄,通常首先要考慮的問題是語料的平衡性,理想的情況是收入語料庫的文本在題材、語體、時(shí)間跨度等方面有一個(gè)合理的平衡,使得語料庫具有所謂的平衡性,但平衡原則往往難以保證,一方面語料的平衡與否缺乏可以操作的評(píng)價(jià)辦法;另一方面語料庫的建設(shè)通常都有潛在應(yīng)用目標(biāo),單純追求平衡的原則也并無必要;
在建設(shè)漢英雙語語料庫時(shí),由于涉及兩種語言,高質(zhì)量的雙語語料遠(yuǎn)遠(yuǎn)不如高質(zhì)量的單語語料那樣容易收集,平衡性則更難保證,因而我們的原則首要強(qiáng)調(diào)語料的質(zhì)量,要收入語料庫的文本,其文字質(zhì)量和譯文質(zhì)量需要得到認(rèn)可,在此前提下,再進(jìn)一步考慮語料的代表性。
4 語料庫的描述內(nèi)容
在雙語語料庫描述何種信息將直接關(guān)系到語料庫的使用問題,為了有效支持漢英雙語語料庫在機(jī)器翻譯研究中的應(yīng)用以及兼顧其他應(yīng)用,目前漢英雙語語料庫中主要標(biāo)記了下面的信息:
(a)文本屬性信息,描述了收入語料庫中的漢英文本標(biāo)題、作者、文體、語體、領(lǐng)域和創(chuàng)作時(shí)代方面的屬性信息。
(b)文本結(jié)構(gòu)信息,標(biāo)記了收入語料庫中漢英文本的標(biāo)題、子標(biāo)題、段落、句子的邊界信息。
(c)雙語對(duì)齊信息,標(biāo)記了收入語料庫中漢英文本在句子一級(jí)的對(duì)齊互譯關(guān)系。
翻譯知識(shí)相關(guān)問答
問:如果翻譯的稿件只有幾百字,如何收費(fèi)?
答:對(duì)于不足一千字的稿件,目前有兩種收費(fèi)標(biāo)準(zhǔn): 1)不足一千字按一千字計(jì)算。 2)對(duì)于身份證、戶口本、駕駛證、營(yíng)業(yè)執(zhí)照、公證材料等特殊稿件按頁計(jì)費(fèi)。
問:請(qǐng)問貴司的筆譯范圍?
答:筆譯翻譯又稱人工筆頭翻譯, 既通過文字形式的翻譯轉(zhuǎn)換, 把源語言翻譯成目標(biāo)語言, 是當(dāng)今全球經(jīng)濟(jì)發(fā)展, 政治文化交流的主要方式, 筆譯通過文字展現(xiàn)方式, 使全世界上千種語言能夠互通有無, 每天都有數(shù)以億計(jì)的文字被翻譯或轉(zhuǎn)譯, 筆譯肩負(fù)著世界各國(guó)經(jīng)濟(jì)文化發(fā)展的重任, 是各國(guó)各民族的文化大使, 我們的筆譯領(lǐng)域涉及十大類專業(yè)領(lǐng)域和五百多種不同的分領(lǐng)域。
問:是否可以請(qǐng)高校教師、學(xué)者或?qū)W生翻譯?
答:絕對(duì)不能,風(fēng)險(xiǎn)自負(fù)。許多公司在尋找譯者時(shí),首先想到的是當(dāng)?shù)貙W(xué)?;虼髮W(xué)的外語院系。有時(shí),這種做法對(duì)于供內(nèi)部使用的翻譯可能有效,即,您只想了解文件大意,但對(duì)于正式的公司宣傳材料、手冊(cè)或者合同文檔而言,這樣做卻風(fēng)險(xiǎn)極大。外語教學(xué)需要有特殊的技能,但這些技能卻與翻譯一篇流利、優(yōu)美的文章所需的技能完全不同。讓學(xué)生來做翻譯看起來經(jīng)濟(jì)實(shí)惠,但風(fēng)險(xiǎn)更高,因?yàn)樗麄兒翢o實(shí)戰(zhàn)經(jīng)驗(yàn),翻譯出來的文件基本無法使用。
問:翻譯交稿時(shí)間周期為多長(zhǎng)?
答:翻譯交稿時(shí)間與您的文件大小以及復(fù)雜程度有關(guān)。每個(gè)專業(yè)譯者的正常翻譯速度為3000-4000中文字/天,對(duì)于加急的大型項(xiàng)目,我們將安排多名譯員進(jìn)行翻譯,由項(xiàng)目經(jīng)理將文件拆分成若干文件,分配給不同的譯員進(jìn)行翻譯,翻譯后由項(xiàng)目經(jīng)理進(jìn)行文件的合并,并經(jīng)統(tǒng)一術(shù)語、審校、質(zhì)控、排版等翻譯流程,最終交付給客戶。
問:提供一個(gè)網(wǎng)站的網(wǎng)址,能夠給出翻譯報(bào)價(jià)嗎?
答:對(duì)于網(wǎng)站翻譯,如果您能提供網(wǎng)站的FTP,或您從后臺(tái)將整個(gè)網(wǎng)站下載打包給我們,我們可在10分鐘內(nèi)給出精確報(bào)價(jià)。同時(shí),只要您提供原始網(wǎng)頁文件,我們會(huì)提供給您格式與原網(wǎng)頁完全一致的目標(biāo)語言版本,可以直接上線使用,省卻您的改版時(shí)間。
問:為什么標(biāo)點(diǎn)符號(hào)也要算翻譯字?jǐn)?shù)?
答:①根據(jù)中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T 19363.1-2003 對(duì)翻譯行業(yè)服務(wù)規(guī)范的要求,中文字?jǐn)?shù)統(tǒng)計(jì)是以不計(jì)空格字符數(shù)為計(jì)算單位的。標(biāo)點(diǎn)符號(hào)算翻譯字?jǐn)?shù)是統(tǒng)一的行業(yè)標(biāo)準(zhǔn)。
②標(biāo)點(diǎn)符號(hào)在不同的語種中,有不同的表達(dá)方式,例如中文的標(biāo)點(diǎn)符號(hào)大多是全角的,英文的無特殊設(shè)置都是半角的,而且如果一句話或一段內(nèi)容夾雜兩種不同的語言,標(biāo)點(diǎn)符號(hào)的規(guī)則就相對(duì)復(fù)雜,對(duì)于翻譯文件來說,標(biāo)點(diǎn)符號(hào)的部分也是很費(fèi)時(shí)。
③另外,標(biāo)點(diǎn)符號(hào)在句子中對(duì)句子語境等的限制因素,使得標(biāo)點(diǎn)對(duì)句子、對(duì)譯員翻譯判斷等起到一定的要求。所以,該部分也要計(jì)算在內(nèi)。
④可能我們平時(shí)不是很注重標(biāo)點(diǎn)符號(hào),其實(shí)在文字表達(dá)中,標(biāo)點(diǎn)符號(hào)的重要不亞于單字單詞,一個(gè)標(biāo)點(diǎn)符號(hào)可以改變?nèi)湓挼囊馑迹覀兊墓ぷ饕彩亲龅搅诉@一點(diǎn),保證每個(gè)標(biāo)點(diǎn)符號(hào)的準(zhǔn)確,保證譯文表達(dá)的意思和原文一樣。
問:需要與你們公司什么人接洽翻譯業(yè)務(wù)呢?
答:我們公司采取專屬客服服務(wù)模式。為企業(yè)客戶配備專屬客服,一對(duì)一溝通具體翻譯需求,組建專屬譯員團(tuán)隊(duì)。
問:為何每家翻譯公司的報(bào)價(jià)不一樣?
答:大家都知道一分價(jià)格一分貨,在翻譯行業(yè)里更為突出,譯員的水平是劃分等級(jí)的。新開的翻譯公司或不具備翻譯資質(zhì)的公司為了搶占市場(chǎng),惡意攪亂,以次充好,低價(jià)吸引客戶。
問:為什么數(shù)字、字母也要算翻譯字?jǐn)?shù)?
答:根據(jù)中華人民共和國(guó)國(guó)家標(biāo)準(zhǔn)GB/T 19363.1-2003 對(duì)翻譯行業(yè)服務(wù)規(guī)范的要求,中文字?jǐn)?shù)統(tǒng)計(jì)是以不計(jì)空格字符數(shù)為計(jì)算單位的。而數(shù)字、字母也是包含在其中。而對(duì)翻譯公司來說,數(shù)字和字母也要算翻譯字?jǐn)?shù)的原因還包括以下兩個(gè)方面:
首先,我們的收費(fèi)都是根據(jù)國(guó)家頒布的翻譯服務(wù)規(guī)范來收取翻譯費(fèi)用,對(duì)待收費(fèi)我們都是統(tǒng)一對(duì)待的,其次,數(shù)字和字母也是文章中的一部分,特別是在一些商務(wù)文件中,數(shù)字就是文件的主題,所以也是一樣要收費(fèi)的。
另外,純數(shù)字字母需要核對(duì)、錄入,比翻譯一個(gè)詞語更麻煩,翻譯是大腦里面概念形成的,而純數(shù)字字母是要嚴(yán)謹(jǐn)?shù)暮藢?duì)、錄入才能實(shí)現(xiàn)的,這將會(huì)花費(fèi)更多的時(shí)間,所以我們會(huì)把數(shù)字和字母也算成字?jǐn)?shù)。
但是有一種情況除外,如審計(jì)報(bào)告里面那種數(shù)據(jù)很多而且又不需要我們翻譯可以直接保留的,這部分我們可以不計(jì)算在內(nèi)。
問:請(qǐng)問貴司每天的翻譯量是多少?
答:我們公司最高翻譯記錄為一天翻譯50萬字。原則上我們會(huì)在約定的時(shí)間內(nèi)完成,但是時(shí)間和質(zhì)量是成正比的,慢工才能出細(xì)活,我們建議在時(shí)間允許的情況下,盡量給譯員充足的翻譯時(shí)間,以便交付優(yōu)質(zhì)的譯文。