世界诸语言之源起与演进
最近一些朋友的贴子谈及语言问题——这的确是个有趣的话题:
·“台湾话”与“大陆话”究竟是一种语言还是两种?
·朝鲜语或日语和汉语有什么关系?
·印度人按“种族三分法”与欧洲人有某种亲缘关系,那么他们的语言之间是
否也有亲缘关系?
·伊朗和伊拉克“五百年前是一家”吗?
总的来说,语言学能够指出两种语言有多么相似,但是认定是否同种语言的问
题,更多地是依赖于国家、民族、政治、历史等多种因素。比如克罗地亚语
(Croatian)和塞尔维亚语(Serbian)其实完全是一种语言
(统称塞尔维亚-克罗地亚语,Serbo-Croatian),只是前者
采用了罗马字母,而后者采用的是西里尔字母(Cyrillic,就是俄语
所用的字母),这与两个民族的历史文化有关。与此类似,捷克语和斯洛伐克
语之间可以毫不费力地听懂对方,就象两种方言一样,但是人们传统上还是把
它们看作两种不同的语言。
一种语言可以由两种书写符号(字母)表示,同样地两种语言也可以共用一套
书写符号。如藏语,就是由于公元七世纪一个西藏喇嘛到克什米尔进修后引入
了梵语字母(Sanskrit,即印地语的前身)这使它们看上去有些相似,
然而这两种语言之间毫无联系:藏语属于汉藏语系而印地语属于印欧语系。
我们熟悉的汉语、日语和朝鲜语,由于后两者在中世纪时大量借用了汉字,人
们一直怀疑它们之间有某种联系,然而至今为止尚未发现任何令人信服的证据
证明它们之间有联系,实际上日语和朝鲜语与当今世界上任何已知的语言,无
论是“活着的”还是“死了的”语言,都没有发现任何肯定的联系。
<Part2>
在研究了世界上一些主要语言以后,语言学家也象生物学家那样,把世界上的
语言按相似程度分为语系、语族、语支和语种。世界上主要的大语系有:
语系 代表语种 占世界总人口比例(约)
印-欧 英语、法语、俄语、印地语、波斯语 48%
汉-藏 汉语、藏语、泰语、缅甸语 24%
尼日尔-刚果 斯瓦希里语 6%
亚-非 阿拉伯语、希伯来语 5%
马来亚-玻利尼西亚 印度尼西亚语、马来西亚语 5%
德拉维达 泰米尔语 3%
阿尔泰 土尔其语、蒙古语、哈萨克语 2%
除了上面这些“可以归类的”语言以外,还有几种所谓的“独立语言”:
日语(2%),朝鲜语(1%)和越南语(1%)。这些独立语言与所有现存
的语言没有明显的联系,这当然也和它们研究得不够有一定关系。比如日语与
朝鲜语可能有一些关系。具有讽刺意味的是,尽管它们都不同程度地采用了汉
字作为书写语言的一部分,它们与汉语都没有联系。
当然谈到“世界的语言”,还应当包括几种“人造语言”,如世界语——
Esperanto。尽管还没有人以它们作母语。
印欧语系是世界上最大的语系,覆盖了几乎所有的欧洲、美洲,和亚洲、澳洲
的很大一部分。它包括两种伟大的古典语言:古希腊语和拉丁语;包括象英语
德语,菏兰语(在比利时也叫佛兰芒语,Flemish)和瑞典语一类的日
耳曼语族;包括象法语,意大利语和西班牙语一类的罗曼语族;包括象俄语,
波兰语,捷克语和塞尔维亚-克罗地亚语一类的斯拉夫语族;包括象威尔士语
和盖尔语(Gaelic,在苏格兰和爱尔兰)这样的塞尔特(Celtic)
语族;包括巴尔的(Baltic)诸语言;包括伊朗的国语波斯语;包括诸
如印地语、孟加拉语一类的印地语言;等等。
接下来我们可能会问:原始的印欧人生活在什么年代?是从何处“发迹”的?
现在找不到原始印欧人留下的任何“书面材料”,因为人类使用语言的历史远
比使用文字的历史久远。所以,最好的办法就是分析他们的语言。我们可以假
定如果一个词在大多数印欧语言中都很相似,那就是一个他们已有的概念;反
之就可以认为那是一个后来才知道的概念:这就是语言学重现“化石语言”所
用的方法。
通过重建古代印欧人的语言,我们大约可以了解到:原始的印欧人生活在寒冷
的北方森林中一个不靠近水的地方,他们饲养的家畜有马,牛,羊和狗,他们
知道的野生动物有狼和熊,他们知道的金属可能只有铜。许多人认为马和战车
使他们在征战中能取得很大优势从而扩展到后来的辽阔地域。(玩过
civilization的朋友们知道horse和chariot在古代
战争中的作用:-)
一般认为原始印欧文明起自于公元前三千年,也就是五千年以前的东欧某地,
大约在公元前二千五百年它分裂了,人们离开故乡分好几路向四面八方迁移。
其中一路到了希腊,另一路到了意大利(这两路分别是古希腊和古罗马文化的
起源)。另一路穿过中欧一直到达不列颠诸岛(他们是苏格兰人,爱尔兰人和
威尔士人的祖先)。还有一路北上到了俄国,同时又有一路跨过伊朗,阿富汗
最终到了印度。他们每到一处,就征服或同化当地的土著,把自己的语言传播
到那里。应该说他们是一个出色的民族。
<Part3>
许多语言可能是从一个祖先那儿演变出来的,这想法最早是在1786年提出
来的,尽管早在十六世纪有人就注意到了梵语和意大利语之间的相似性。到了
1818年,有五十多种语言归到了印欧语系中,然后在1854年,人们把
独特的阿尔巴尼亚语也归了进来,1875年又加上了亚美尼亚语。如今在欧
洲,只有芬兰语、匈牙利语、土耳其语、巴斯克语(在西班牙和法国交界处)
和前苏联境内的几种语言不属于印欧语系。
在亚洲,印欧语言出现在伊朗、阿富汗、巴基斯坦、印度和孟加拉等国家。值
得注意的是,虽然在印度,印地语(Hindi)是最大的语言,但是操非印
地语的当地原住民势力也很强大。印度有一百五十多种语言,但讲任何一种语
言的人都不超过百分之三十。所以它在1947年独立时不得不同时采用印地
语和英语作为官方语言——一半以上的印度人根本就不懂印地语嘛。在大约公
元前一千年印欧人入侵以前,当地原住民所操的德拉维达语系(如泰米尔语)
和蒙达语系,如今在印度中、南部人口中仍占很大的比例。在巴基斯坦和孟加
拉国大部分人讲印欧语言。他们都能在一定程度上听懂印地语,但互相之间却
很难听懂。一个学法律的孟加拉朋友告诉我,他认为二十年前巴、孟分裂成两
国,除了地理上的隔阂外,语言上的隔阂也是一个重要因素。
印欧语言之间究竟有多象?印欧语言与非印欧语言的差别有多大?看看几个
“基本词汇”之间的比较:
英语 month mother new nose three
威尔士语 mis mam newydd nos tri
德语 Monat Mutter neu Nase drei
瑞典语 ma^nad moder ny na"sa tre
法语 mois me`re nouveau nez trois
西班牙语 mes madre nuevo nariz tres
意大利语 mese madre nuovo notte tre
俄语 mesyats mat' novy nos tri
希腊语 men meter neos rhis treis
_ _
波斯语 mah madar nau bini se
_ _
梵语 mas matar nava nas trayas
芬兰语 kuukausi a"iti uusi nena" kolme
匈牙利语 ho'nap anya u'j orr ha'rom
土耳其语 ay anne yeni burun u"c,
(记得去年网上有不少人与锺先生争论说世界语(Esperanto)不是
世界语而仅仅是欧洲语言的代表,我们也可以看看它与印欧语言的联系究竟有
多强。:-))
<Part4>
英语,作为当今世界事实上的国际社交语言,它取得的成功是史无前例的。从
使用它的人口来说,以英语为母语的人数仅次于汉语而居世界第二位,大约有
四亿多人。然而以英语作为第二语言、或者在一定程度上使用英语的人数,要
远比这多得多,可以说分布在世界的各个角落、各个民族,在这一点上汉语是
望尘莫及的。它是怎样发展起来的?
英伦三岛的第一批印欧居民是塞尔特人。原先岛上可能还有更早的居民,但是
人烟稀少,所以没有留下多少遗迹。前文提到,塞尔特人是古印欧人的一支,
大约在四千五百年前离开他们在东欧的故乡向西迁移,在公元前一千年时(相
当于我国商朝末年、西周初年),他们成了德国南部、阿尔卑斯山北麓的一个
强大民族。在公元前五百年左右(相当于我国春秋时期),他们开始向西迁移,
后来到了英伦诸岛。这就是印欧人的第一次“入侵”。
印欧人的第二次入侵是在公元五世纪中叶,当时生活在现在的德国和丹麦交界
处有两个部落,一个是石勒苏益格(Schleswig)的盎格鲁
(Angles),另一个是霍尔施坦因(Holstein)的萨克森
(Saxon)。石勒苏益格/霍尔施坦因现在是德国最北面的两个州,是第
一次世界大战时德国从丹麦那里“取得”的。这两个部落从那里跨过北海,占
据了英格兰,原来的塞尔特人很快地后退到威尔士、爱尔兰和苏格兰高地。
English一词就出自Angles,原意为“角落”,意即他们来自欧
洲大陆的一角。在古英语中Angle写作Engle,他们的语言叫做
Englisc(在古英语中“sc”读如“sh”,如“sceap”——
“sheep”)。顺便说一句,“塞尔特”(Celt)中的c可以读如s
或k,所以也叫“凯尔特”,美国人中有许多来自苏格兰和爱尔兰,所谓的
“美国腔”可能是凯尔特口音。波士顿不是有个著名的球队叫“凯尔特人队”
嘛。
古英语一直发展到公元1066年法国的诺曼人入侵。在此以前,由于受北欧
人和罗马人的影响,许多斯堪地那维亚词汇和拉丁词汇溶了进来。前者如
egg,cake,skin,leg,window,husband,
sky,fellow,skill,anger,flat,ugly,
odd,get,give,take,raise,call,die,
they,their,them;后者如street,kitchen,
kettle,cup,cheese,wine。塞尔特语的遗迹大多留在
地名中,如Thames,Kent,Dover。
诺曼人的入侵为英语带来了大量的法语词汇,这使得现代英语中存现大量的同
义/近义词:shut/close,answer/reply,smell
/odor,yearly/annual,ask/demand,
room/chamber,wish/desire,might/powe
r(英语词/法语词)。有一个有趣的现象是产肉的动物多是英语词,如ox,
cow,calf,sheep,swine,deer,而它们的肉则是法
语词,如beef,veal,mutton,pork,bacon,
venison。大概持法语的多为贵族统治者,只注意他们餐桌上的肉,并
不在意牲畜们叫什么。
另外在已有的英语/斯堪地那维亚语同义词基础上,如英语的wrath和斯
堪地那维亚语的anger之外,法语又加了个ire。连我们汉语也贡献了
几个词:kowtow(叩头),typhoon(台风),sampan
(舢板),kaolin(高岭土),tea(闽方言),shanghai
(不是地名:-))。
这些外来语使英语成为一个表达力丰富的语言。尽管溶入了如此众多的“外来
语”,古英语仍然构成了它的核心——不到五千的古英语单词一直保持到了今
天。在此期间英语逐渐向高层发展,1399年继承王位的亨利四世是第一个
以英语为母语的英国国王。在十四世纪快要结束的时候,乔叟(Chaucer
)完成了『坎特伯雷的传说』(Canterbury Tales),以伦敦
方言为代表的现代英语终于开始出现:一个来自当年“角落”的语言。
<Part5>
在结束讨论印欧语言时,再顺便举个例子说明语言学研究对于其它学科的帮助,
如史学和民族学。欧洲有个民族叫吉卜赛,他们是什么人?从哪儿来?这问题
长期没有答案,好象他们自己也说不清楚,因为直到不久前他们中的大多数还
是文盲,没有文字记载的历史。以前有人根据英语“吉卜赛”(Gypsy)
一词认为他们来自埃及(Egypt)。后来通过对他们语言的仔细研究发现
他们来自印度——从他们的语言(叫做Romany)与梵语及后来的印地语
的共同特征中得不出任何别的结论。吉卜赛人从公元(后)一千年左右开始向
西迁移,途经的波斯、亚美尼亚和希腊都在他们的语言中留下了不同时期的痕
迹。现在听到一些老美爱说“pal”,这词就来自吉卜赛语phral,意
为“兄弟”。
好,终于轮到汉-藏语系的故事了。汉藏语系里有一个“大家伙”,不用猜就
知道。它占汉藏语系总人口的85%以上。不过,对于非印欧语言的语言学研
究都不如印欧语系那样深入,它的起源、发展、演变等都有许多问题有待解决。
有一个笑话说,从前有个人认字只看个大概,一次有个不识字的问他路边一家
铺子叫什么字号,那店铺上书:“天义斋”(用大五码看)。他看了一眼说:
“叫‘大盖齐’”。咱现在也只能来他个“大概齐”了……。
汉藏语系分四个语族:汉语自成一家;藏-缅语族,包括藏语和缅甸语这两大
语种,以及彝、傈僳、纳西、拉祜、景颇、京等上百个小语种;泰-老语族,
包括泰语和老挝语这两个国语,以及壮、布依、侗等几个小语种(壮语不应算
小语种!有一千多万人讲壮语,比一些小的语系还大,他们不是还有自己的自
治区嘛);还有一个苗-瑶语族,由苗语和瑶语组成。另外,不少人认为越南
语与汉语有远亲关系,事实上越南语有一半的词来源于汉语,但是它们的关系
仍有待进一步研究。
讲汉藏语言的人除了在中国以外,还分布在缅甸、印度、尼泊尔、泰国、老挝
等国,以及在东南亚和世界各地的华人中。总之,持汉藏语言的各民族中,汉
族生活在最北面。
<Part6>
汉语是论人口世界上最大的语言,有十多亿人以汉语为母语:这包括在
台湾的二千万、马来西亚的五百万、泰国的五百万、香港的五百万、新加坡的
二百万、印度尼西亚的一百万、越南的一百万等。汉语是联合国1945年成
立时的五种工作语言之一(1974年又加上了阿拉伯语)。
汉语有七种主要的方言:北方方言约占总人口的四分之三,所覆盖的地域包括
中国的东北、华北、西北、山东、河南、湖北和安徽、江苏的长江以北部分、
四川、云南和贵州的汉族人聚居区,在另外还有一些北方方言的“孤岛”在福
建、广西和海南;吴方言,通行于江苏的长江以南部分、浙江和上海市,人口
有七千万,是第二大方言;粤方言,主要流行于广东、广西和海外华人中间,
约有六千万人;闽方言,通行于福建、台湾和东南亚诸国,约有六千万人,其
中情形十分复杂,到了互不通行的程度,可能是汉人在秦汉时代南侵时与当地
的语言交互的结果;湘方言通行于湖南;赣方言通行于江西,这两种方言的特
征不太突出,受周围方言的影响较大;还有客家话,主要分布于广东、广西、
福建和台湾。这些“方言”之间差别常常是很大——比如北京人听广州人讲话,
决不比英国人听法国人讲话轻松,台湾人去听陕西话,也会听得一头雾水。是
什么理由语言学仍把这些方言统统归为一种语言?除了长期以来的统一民族、
统一文化和统一国家这些因素以外,还有一个重要的原因是文字——汉字。
从商朝的甲古文开始,汉字有三千多年的连续历史,三千多年来汉字的字形、
字义的变化都是连续的。与大多数其它语言不同的是,汉字的发展经历了一条
象形—表意—形声的途径。这条道路产生了两个主要效应:第一,随着文明的
不断发展,语言所要表达的概念不断增加,使得汉字拥有了一个数量庞大的字
符集(虽然现代汉语已经不用增加字符来表达新的概念,而是创造新词,这在
一定程度上减少了使用的字数)。汉字的庞大的字符集使它显得非常复杂:难
学、难记、难用;第二,历史上的汉字作为表意文字(ideograph),
文字与语音没有直接关系,无论用哪种语言或方言去读,意义没有变化。这是
几千年来各种口语分化交熔变迁,而汉字一直作为一种统一的文字被所有人认
同的原因。这一优势甚至体现在当它被别的语言借用的时候:哪怕不懂日语的
人也能读懂一半意思吧。汉字使操不同口语的人互相交流成为可能,而隔膜是
统一的主要障碍。
后来,随着汉字的演变,汉字已不再是纯粹的表意文字,许慎『说文解字』中
的9353字里面,“形声字”占了80%以上,“会意字”不到20%,而
甲骨文中形声字仅占20%多。特别是近年来多音词的比例急剧上升,汉字已
向表音文字方向发展。(关于“形声字”、“会意字”,后面还要提到。)
现代汉语的文字仍有几万字之多,但是使用频率极不平衡。据北京语言学院
1985年的统计结果,最常出现的前十个字及其出现频率为:
的 4.16% (你每说二十五个字就要说一个!)
一 1.84%
了 1.71%
是 1.52%
不 1.37%
我 1.28%
在 1.08%
有 0.98%
人 0.97%
这 0.93%
累计 15.85%
前100字的累计字频已达47.34%,500字到了79.76%,
2000字覆盖了98.07%,如果你认识4000字(就象我一样),你
读一万个字只有四个不认得(当然读我写的东西再多你也不会有不认得的字,
因为我认的字和你一样多)。
语言学院还统计了词:共计出31159个不同的词,其中单音节词(一个字
的)占12.2%,双音节词73.6%,三音节词7.6%,四音节词6.4
%五以上的占0.2%,平均词长2.09。前100词的累计频率为41.7%
,2000词为82.2%,9000词为95.85%。不同汉字的构词能力
(与别的字组成新词的能力)也不一样,最多的是“子”字,构词668个。
<Part7>
汉字是怎样起源、怎样演变的?据汉代纬书『春秋元命苞』:“仓颉生而能书,
及受河图录字,于是穷天地之变,仰视奎星圜曲之势,俯察鱼文鸟语,山川指
掌,而创文字。”文字虽美,实无所据。传说仓颉为黄帝的史官,而黄帝的生
存年代及其事迹都属传说史的范围,具体内容多不可究,“仓颉造字”实在太
玄了。又『易经』云:“上古结绳而治,后世圣卜易之以书契。”,意思是说
从前的人结绳记事,后来有“圣人”把这改造成了文字。绳结与文字差距甚大,
不以为然也。
后世的汉文字学家一般持两种看法:起源于原始氏族社会晚期的陶器符号,或
起源于原始图画。得到考古支持的商代甲骨文最早出现在三千三百年前,这比
古埃及的文字及两河流域的苏美尔文字都要晚近二千年,汉字学家因而不服,
他们认为最早的甲骨文被发现时已有了一定程度的会意和形声成分,所以文字
的出现应当比那时早得多(范文澜:『中国通史』,人民出版社1954),
因而推断说例如山东龙山文化中的陶器符号可能是原始的文字(龙山文化据今
四至五千年)。这些目前仍缺少考古证据和足够的研究。顺便提一句,至今共
发现了五千个以上的甲骨文单字,其中可以认识的约有一千七百字。
总之不管从哪儿来、来了多久,从“帝盘庚迁殷”(约在公元前1312年)
时开始,汉字开始了它的长达三千多年的连续发展史,中华文明史也开始了连
续至今的文字记载。可以想象,一开始的象形文字(hieroglyphs)
工作得不错。可是随着汉语的不断丰富,有些语言不能用形象表达了,怎么办?
古埃及人和苏美尔人开始创造一些仅代表发音的符号来记录这些语言;玛雅人
(美洲印第安人)开始借用那些画得出来的同音字来表达它们(例如,借用画
得出来的“eye”来表示画不出来的“I”,汉语中叫“通假字”);而中
国人则想出了一种叫做“形声字”的“中庸之道”:用两部分拼成一个字,一
半表示发音一半表示意思(属性),象“中-盅-忠-钟-种-肿,羊-洋-
痒-样”之类。这真是一个好办法:既能表达大量的新概念又与旧的文字体系
“兼容”,于是大喜,到秦篆时形声字大增,汉字总数已数万,每当出现一种
新概念我就发明一个新字来对付你,一字一意,文章简短,节约用纸。汉字的
表达能力大大增加,形成了一个完备的文字体系。春秋战国时期的文化大发展
与此不无关系。
原来我们从小学习表意文字,觉得从象形文字演变到现在的汉字非常自然,觉
得从象形文字演变到拼音文字很不可思议:现在看来后者比前者好象更自然一
点。拼音文字的演变想在讨论中、近东语言的时候再提。
作为语言发展历史的一部分,会意字、表音字和通假字也不同程度地存在于汉
语中。会意字如“日+月=明,女+子=好”,这类字是在原始象形文字基础
上意义的扩展,但是因为表达能力仍受限制,所以它们占的比例也不太大。通
假字在古汉语中出现得比现代汉语多得多(如“说-悦”),说明当时人们也
想从这方面想办法,后来认识到这不现实。试想,如果所有的抽象概念都用同
音异字表示,那文章读起来大概是太累了,而且多半读不懂。事实上没有一种
文字能纯粹用这办法解决问题,最多是部分地采用这技术,多了就不灵了。汉
字也有少量的表音字,如“阿”,没有任何意义,只表示一个音节。自春秋时
期开始形声字得到了极大的发展,具有了很强的表达能力,这可能反而抑制了
向表音文字的进一步发展──表音文字在汉语中至今仍处于初级阶段。
<Part8>
在结束汉-藏语言的讨论前,再看一眼我们的邻居们。在中国境内的语言是多
种多样的,北方的语言多属阿尔泰语系,有属阿尔泰语系突厥语族的维吾尔语、
哈萨克语、乌孜别克语、柯尔克孜语、塔塔尔语(鞑靼语)、撒拉语(青海境
内的撒拉族);阿尔泰语系通古斯语族的满语、锡伯语、鄂温克语和鄂伦春语;
阿尔泰语系蒙古语族的蒙古语、达斡尔语、东乡语和土语(青海土族的语言);
还有印欧语系的俄语和伊朗语族的塔吉克语等等。南方的语言多属汉藏语系,
除了上文提到的汉-藏语系诸语言外,尚有属南亚语系孟-高棉语族的佤语和
德昂语、布朗语,以及属南亚语系印度尼西亚语族的高山语(台湾高山族)。
中国境内文字的种类同样多种多样。除了使用(或部分使用)汉字的语言以外,
还有许多使用罗马拼音文字,如壮文。这其中又有不少是原本没有文字的,
“新中国成立后,当地人民政府依照本民族人民的意愿,为他们创造了以拼音
字母为基础的文字。”还有使用梵语字母的如藏文,使用阿拉伯语字母的如维
吾尔文,使用“十三世纪维吾尔文”的蒙文、满文、锡伯文(维吾尔人后来丢
了自己的文字用了阿拉伯文,呜乎),有些民族使用自己的表意文字,如彝文。
还有用象形文字的纳西文(可能现在已经不用了)。至今没有自己文字的民族
都借用了就近的大语种文字。
朝鲜族用的朝鲜文是维一东方自己发明的“纯粹”拼音字母。说它是“纯粹”,
因为它有表达元音和辅音的完整音素集合。音素(phone)是人能分辨的
最小语音单位。与此相对的是日语的假名,虽然也是拼音文字,但是每个假名
表达的是整个音节(syllable)而不是音素。朝鲜语在语法结构上最
象日语,但是它们的词汇并不相似,所以它们的关系仍有待于进一步研究。另
一方面,朝鲜语又从汉语借走好多词汇,但在语法结构上又非常不一样。有人
认为朝鲜最早的居民是一万年以前从北方移入的通古斯人一部。朝鲜文字母发
明于十五世纪中叶(相当我国明朝前期),共有二十五个字母——字母在哪儿?
你要是仔细看就可以看出,虽然它们看上去象一个个的“方块字”,但每个
“方块字”其实是由一些更小的“小零件”组成,这每个“小零件”就是一
个字母,它们的种类是有限的,对吗?他们的字母不象其它拼音文字那样排成
一条线,而是上下左右错落有致地拼在一个方块内,非常别致。象“眼泪”这
个词,它们读作nunmul(nun意为“眼睛”,mul意为“水”),
写成从左到右两个“方块字”:
n m
u u
n l
在亚洲的东南部,不是还有菲律宾、马来西亚、印度尼西亚等国吗,他们的语
言是什么样子的?
他们的语言属于马来亚-玻利尼西亚语系,又有人把这语系与孟-高棉语系
(主要是柬埔寨的高棉语)和印度南部的蒙达语系合称“南亚语系”。这一系
语言横跨了半个地球:东起夏威夷诸岛,西达非洲东南的大岛“马达加斯加”
(Madagascar),包括了几乎所有的印度洋和太平洋岛屿(包括密
克罗尼西亚、美拉尼西亚和玻利尼西亚诸岛,但不包括巴布亚新几内亚和澳洲)
。它包括四种国语:马来西亚语、印度尼西亚语、他加禄语(菲律宾语)和马拉
加斯语(马达加斯加),总人数有二亿多。关于他们的祖先,有人类学家认为
是生活在中国大陆东南沿海地区,在公元前二千纪至一千纪之间汉族人开始南
侵的同时,他们的航海技术也发展到了一定的水平,开始向海外移居(不知是
不是受到了汉族的压力),台湾高山人可能就是他们的后裔。在其后的二千年
间,他们遍布了如此众多的海岛,占据了如此辽阔的海域,这应当算一大奇迹
——尽管他们自己可能倒没意识到。有人说,是航海、贸易与殖民造就了今日
的资本主义,那他们的航海要比西方的“厉害”得多,也早得多,为什么一点
儿也没有“发达”的意思?
<Part9>
澳大利亚和巴布亚新几内亚的语言和上面讲到的马来亚-玻利尼西亚语言又有
很大不同。
所谓澳大利亚语言,当然是指生活在那儿的土著居民,白种人们自然是讲英语。
今天在澳大利亚的土著人只剩下数万人,可是他们仍在讲数百种语言!对这些
语言的研究进行得很不充分,连它们是否属于一个单一的语系也没搞清楚。由
于澳大利亚自人类出现时就已经成为一块独立的陆地,所以,所谓的“当地土
著”,肯定也是什么时候从其它地方迁来的。澳大利亚本地的哺乳动物都是非
常原始的有袋类,离进化到人类还差十万八千里。现代许多人类学家认为当地
人是新石器时代某个时候从马来亚——印度尼西亚渡海而来,可这还没有找到
足够的语言学方面的证据支持(其它方面可能有证据,我不清楚)。今天,许
多当地的语言都面临绝灭,可怜它们作为历史的遗迹只在英语中留下了象
kangaroo,koala等少数几个词汇。
在巴布亚新几内亚的情况与此相似:三百多万人说着五、六百种语言,从这不
难想到,有些语言肯定只有很少的人使用,有的可能只有一个村子,甚至一个
家庭。邻村的人可能互相都听不懂,许多人尚生活在石器时代。所有这些给独
立后的政府提出了很大的难题:不可能找到一种(甚至几种)当地语言作为官
方语言来发号施令。所幸的是,在几百年的殖民统治以后,当地土著居民发明
了一种叫“洋泾浜英语”的交流工具,它取得了官方语言的地位。
“洋泾浜”是俗称,正式的称呼是皮钦英语(Pidgin English)
。“洋泾浜”一词来自上海原来的一条河,就是现在的延安路。当时在上海英租
界也有自己的“洋泾浜英语”,“假洋鬼子”们常说“let me see
see”(让我看看)或“no can do”(不能做)这样不伦不类的
话。所谓皮钦语言就是指一种外来语言被当地人大大地简化了语法和词汇以后
用作交流工具,这种现象在不少殖民地都有。巴布亚新几内亚的皮钦英语约有
1500个词和非常简单的语法,这使它很容易学会。而且许多词汇还是由一
些更基本的词汇组成的复合词,如“house cook”意为“厨房”,
“house sick”意为“医院”,“house paper”意为
“办公室”等等。另外“belong”变成了一个常用词,仅表示“of”
的意思,如“glass belong look-look”意为“镜子”
,“smoke belong ground”意为“灰尘”,“light
belong cloud”意为“闪电”,“man belong
long-way place”意为“外国人”……。但是,你可不要以为
凭自己的英语可以去那儿独闯天下——他们不会听懂你的英语,你也读不懂他
们的“英语”,因为毕竟语法和词汇都有许多变化。
亚洲的语言还有一个极重要的成员尚未提到,这就是所谓的“亚-非语系”,
传统上叫做“闪米特-含米特语系”,简称“闪-含语系”。这名字取自圣经
中诺亚的两个儿子,一个叫Shem,一个叫Ham。亚-非语言分布于北非、
东北非、近东、中东和中亚的广阔地域,包括有二亿多人口和几十个国家。
然而,亚-非语言之所以重要,原因还不仅限于此。那里不仅是世界上最古老
文明的发源地,起源于那里的拼音文字,更是当今世界上大多数主要文字的鼻
祖。
<Part10>
就象汉-藏语系中的汉语一样,亚-非语言中的阿拉伯语人口也占了将近四分
之三。其它较重要的语种还有:以色列的国语希伯来语、索马里语、西非/尼
日利亚的主要语言豪萨语,以及非洲北部的一些其它语言。
阿拉伯语是将近二十个国家的国语,另外全世界的穆斯林都多少懂几句阿拉伯
语,这使它在1974年成了联合国的第六种工作语言。它的字母系统更是被
许多其它语系的语言所采用。它的文字保留了几个古代拼音文字的特点:从右
到左的书写,以及只有辅音字母没有元音字母。还有一个现象是一个字母在词
中的位置不同,写法也不一样。如果你在用X窗口的电脑,可以试试看把编辑
器的字体设置成阿拉伯文的字母,再看看把同一个字母放在词中间与放在词尾,
形状是否一样。你不需要懂得阿拉伯语就能看得出来。
阿拉伯文共有二十八个字母,都表示辅音。由于它们都写成草体连书,所以看
上去一串串的,好象看不出一个个独立的字母。那元音呢?你可能还注意到在
这些弯弯曲曲的连续曲线的上下还有不少小点点和短线条什么的,那就是元音!
不幸的是,他们阿拉伯人在书写一般文字时,是省略掉这些元音的,只有在小
学课本和给外国人看的读物上才注上元音。举个例子,要写“solid”这
个词,他们大概会写作“dls”(别忘了是从右往左写),那你就很难猜这
是个什么词了……
阿拉伯文的古老特点是与近、中东文字的起源、演变相联系的。古埃及和“两
河流域”是世界上最先出现文字的地方,也是拼音字母的发源地。
大约在五千五百年以前,埃及就出现了文字和书写的纸草。约公元前3100
年上下埃及统一,统一后的埃及开始有文字记录可考(这比我国开始有文字记
载早了一千七百年)。最早的文字是图形文字,后来有些文字逐渐变成音节符
号和指意符号,其后又有了一音一符的字母,共二十四个。所有字母都只标辅
音不标元音。各种符号组成词组,共有六百多个词组。经历这些发展的古埃及
文字,是用字母、音符和词组组成的一种复合文字。到第八王朝(大约在公元
前2200)时期出现了一种草书体,到中王朝(公元前2000-1700
年)时草书体已广泛流行,只有正式文体和铭刻才用象形体。
所谓纸草是下埃及产的一种植物,将其茎干剖为长条后,彼此排齐连成片,然
后压平晒干成纸。这种纸草后来成为古代地中海地区一种通用的纸,希腊人、
罗马人以及往后的阿拉伯人都曾用它书写。(不过,这还不能算是“正式的纸”
,因为“正式的纸”必须等到三千年后由中国发明。:-))
早在五千五百年前差不多与埃及人同时,生活在幼发拉底河与底格里斯河(希
腊人称为Mesopotamia——美索不达米亚,意即“两河之间的地方”
)的苏美尔人(Sumerian)也有了自己的文字。他们最早的文字也是图
形符号,一符一义。以后发展为表音符号和指意符号,一起组成词组。自从有
了表音和指义符号,字符孳乳增繁的倾向减少,到了约四千三百年前,字符减
少到了六百以下,其中约有一百个是表示音节的符号,但是没有单独表示辅音
的符号。这种文字用削尖的芦杆、骨棒等刻写在泥版上,晒干或烘干后成为可
以长期保存的文书,有一些保存到了现在,并被释读成功。芦杆刻成的笔划,
起划粗而深,收划细而浅,形如楔形,因而得名“楔形文字”。
楔形文字后来成为近东各国外交的通用文字,一直到先进的腓尼基拼音文字的
“传人”阿拉美文(Aramaic)流行以后才逐渐弃而不用。阿拉美文在
近东各国的通行到了公元七世纪阿拉伯的伊斯兰文化兴盛时,又让位于阿拉伯
文,直到今日。
腓尼基拼音文字是怎样发明的?腓尼基人在公元前1500年时居住在现在的
以色列、黎巴嫩一带。当时埃及和两河流域的文字早就有一部分发展为音节符
号,埃及文字还由此出现标示辅音的二十四个字母。但是两种文字中都有好几
百个字符,埃及文字还保持象形体,结构复杂,使用不便。地处使用这两种文
字的人之间的腓尼基人受到它们的共同影响,取埃及文的辅音符号而摈弃其象
形体,发明出了二十二个辅音字母。从此文字不再为祭司所垄断,从而避免了
玛雅文化那样的命运。
与此同时的希腊人,正彷徨于早期从埃及学来的象形-表音混合文字中,到了
公元前一千年时,腓尼基文字传入希腊,他们马上放弃了原有的文字,并且又
在此基础上进一步发明了元音字母,世界上第一套完整的拼音文字终于诞生了。
腓尼基人的字母系统,是对人类文明的重大贡献。
<Part11>
拼音文字的优点在于它的普及性。一般来讲,学会二三十个字母,就能见字读
音。文字越复杂,掌握的人就越少,这对于社会文明的进步非常不利。就文字
的复杂程度而言,以象形文字为最,其次为表意文字,形声字又次之,拼音文
字最简单。到了现在信息时代,拼音文字因其一维的表达方式又有了一个新的
优势(至少目前如此,以后的变化未可知也)。
但同时,拼音文字也有一个大问题,就是许多拼音文字,由于千百年来口语的
不断变化,它的书面文字与读音往往相去甚远。拿法语来说,它的书面语言表
达的还是四、五百年以前的发音,不发音的元音彼彼皆是,象hommes读
为um,aiment读为em。这就是为什么上文说“一般来讲”。
顺便说一句,昨天锺先生和今天“老杨”的贴子里都讲,文字改革,至少大方
向是对的,我有同样的看法。在『世界的语言(10)』里曾提到古埃及复杂
的象形文字只被少数祭司所掌握,这局面后来被新拼音文字的出现所打破。事
实上埃及也不可能一直封闭,因为周围有许多差不多发达的国家,一旦落后就
会被征服。而地处中美洲的印地安人就没那样幸运,下面我们就来看看。
现在一般都认定印地安人来自亚洲。大约在二万五千年前有一些亚洲人就开始
跨过冰封的白令海峡,逐渐向美洲内地迁移。这似乎不是有目的的移居,所以
这过程缓慢得在一代人中间都看不出来。但是到了十六世纪西班牙人到达美洲
时,他们已经布满了整个美洲大陆,从阿拉斯加到智利南端的合恩角。据估计
那时的人口在一千四百万到四千万之间,操一千七百多种语言,所处的社会形
态从狩猎和采集的石器时代到具有高度文明的阿兹台克(Aztec)、玛雅
(Maya)和印加(Inca)国家都有。
由于人们认定印地安人来自亚洲,所以自然地把他们的语言和各种亚洲语言作
比较。比较的结果,不仅没有找到确定的联系,而且他们内部也不是完全彼此
相象的。这说明,第一,二万多年的漫长时光对于语言的变化来说是太长了,
我们现在已知的这些语言之间的联系都仅限于数千年的分离;第二,印地安人
不是在同一时刻一起来到美洲的,互相之间可能分属不同的民族。
在印地安人中,玛雅人的文字系统是最发达的,玛雅人在公元最初的几个世纪
中就发明了文字,符号与解释符号的图形并列,包括很多图形,也有音标和音
节符号。这些图形文字看上去极其复杂,好象是一幅幅精致繁复的装饰图案。
西班牙人征服玛雅后,大部分文字记录都被销毁,只有极少数保存到了今天。
这给释读造成很大困难。不过释读研究已在近年取得进展,只可惜文字资料太
少,我们对于当时社会情形不能了解很多了。
在玛雅,只有祭司才识字(所以当他们被消灭干净以后就没人能懂玛雅文了!)
,因此祭司们拥有极大的权力,这导致了玛雅人登峰造极的拜神狂热:修建巨大
的神殿和祭坛,频繁而繁缛的祭奠仪式,征用大量的人力物力,甚至把最健壮
的人用作牺牲。结果,社会生产力遭到很大破坏,加上当时加勒比地区风暴频
繁,到西班牙人来到时,各城市已经荒凉破败了……
<Part12>
关于非洲的语言我知之甚少,好在有差不多三十个非洲国家以英语或法语作官
方语言,会这两种语言去非洲也就对付了。
这里我们所说的“非洲”,指的是撒哈拉以南的“黑非洲”,北非和东北非我
们已经在讨论亚-非语系时提到过了,他们的语言即便不是阿拉伯语的话,也
是它的近亲。
非洲有好几百种语言,除了亚-非语系以外,还有尼日尔-刚果语系
(Niger-Congo)、乍得-尼罗语系(Chari-Nile)、
科依散(Khoisan)和另外两个小语系。其中最大的一个语系要数尼日
尔-刚果语系,有二亿多人口,接近非洲人口的一半,覆盖了撒哈拉以南的广
大地区。尼日尔-刚果语系的一个最重要分支是班图语(支),人口占了全语
系人口的一半以上。从西非的喀麦隆到东非的肯尼亚,可划一条“班图线”,
班图语就分布在在这条线以南,同时这条线以南的非洲只有一小部分彼此孤立
的地区讲其它语言。
语言学研究的结果表明,持班图语言的民族最开始是发源于二千多年前的喀麦
隆,也就是班图语言区的最西北角。可能是因为他们从近东地区学会了种植某
种农作物后,由于这种作物的适应性,他们随之逐渐朝东、南迁移,最终布满
了由此往南的整个非洲大陆。
班图语言中最重要的语种是斯瓦西里语(Swahili),它现在已成为东
非最通行的语言,坦桑尼亚和肯尼亚更以它作为官方语言。
在南非(共和国),白人讲的语言叫“阿非利肯斯语”(Afrikaans)
,这是十七世纪的荷兰殖民者带来的,由于好几个世纪的分离,它已经和荷兰语
有了不小的差别,所以现在把它们看作两种不同的语言;黑人讲的语言主要是
祖鲁语(Zulu)和科萨语(Xhosa),科萨语受附近的一个小语系影
响,有一种非常难发的“倒吸气”音:一边吸气一边把舌头上下颤动——你要
能象这样发出声音我就服你。“xh”表示的就是这种音。
在现代非洲,和世界上的其它地方一样,较少数人讲的小语言逐渐让位于少数
几种大语言。因为对每个人来说,放弃自己的不通用的母语而讲邻近的多数人
讲的主要语种,自然对生活会更有用些。
<Conclusion>
我们终于走完了世界的各个主要部分。在当今的世界上至少有二十个语系、数
千种语言,我们只能谈及极小一部分;但这“极小的一部分”已包括了很大一
部分人口:单是汉语就占了20%的人口,加上英语、西班牙语、印地语和俄
语就达到了45%;再加上阿拉伯语、日语、孟加拉语、葡萄牙语、德语、意
大利语和法语能达到60%;再加十来种语言就增加到75%……可以想象,
最后5%的人口一定讲着上千种语言:美洲的印地安人中有一千多种语言,非
洲有近一千种语言,巴布亚新几内亚这一个岛上就有七百多种,印度有一百五
十多种,(前)苏联境内有一百三,中国境内有好几十……
本文的主要目的是希望能对世界上的语言以及互相之间的联系、区别作一个鸟
瞰,同时多少探讨一下一些我们比较关心的语言的发源、发展演变过程。其中
着重讨论了英语的变迁、汉语的特性,以及拼音文字在中/近东的产生。
在文章中包含了几个主要观点,归结一下看朋友们有什么高见:
·语言学和人类学、历史学紧密相联,互为影响、借鉴;
·语言和文字有联系,但是相对独立。同种语言可用不同文字,反之亦然;
·英语是当今世界上最普及的语言;
·汉语文字的表意特性包持了语言(乃至民族)的统一性;
·汉语形声字的引入使它走向拼音文字以外的另一条道路,这有利有弊;
·现代汉语已经不再增字而是增词表意,这是汉语向拼音文字转化的一个早期
迹象;
·文字的简化有利于它的普及,从而促进文明的进步;
·拼音文字是最易于普及的文字,但其通行性受到读音的牵制;
·语言的发展趋势总是小语种让位于大语种,大语种的广泛分布又逐渐形成新
的语种。