第五卷 急行軍
第11章 普查電腦培訓班
「四角號碼查字法,是由王雲五先生髮明的檢字方法,用最多5個阿拉伯數字,就可以對漢字進行歸類。我們現在每個人手裡都有一本王雲五著寫的《號碼檢字法》。」
中央局全稱是「中-共中央地方局」,1952年決定撤銷前全國有六個地方局:東北局、華北局、華東局、中南局、西南局、西北局。
第一位「5」字開頭是西南局;
這些卡片記錄的信息拿回去,才是開始忙的時候。
「四角號碼查字法中,有橫、豎、撇、捺這些基本筆畫,並稱之為單筆,這是很好理解的。同時王雲五還增加了一些稱之為復筆的構字單位,它們是多個基本筆畫的組合,如兩筆交叉的「乂」、「十」等,這樣的復筆稱為「叉」;一撇一捺構成的『八』、『人』,這樣的復筆稱為「八」,這些復筆在漢字中也是常見的。」
五筆輸入……那還得先發明五筆規則。
現在,除了和北京重疊的華北局之外,唐華覺得可以在全國設5個政務數據中心,其實就是5個計算機房。現在主要存儲全國「一普」的人口數據,「一普」結束以後會不斷擴展數據量和數據種類,最後變成行政管理、國企管理、紀律監督、經濟管理、財政管理等等全都能幹的綜合數據伺服器。
王守珏和計算機所的兩名「助教」面對台下幾十名「學生」。這些學生是國家統計局和各省省委負責一普的幹部。
背規則是要背的,實操也是要練的。
1954年9月,一普的數據要基本完成整理和分析,到時候54年10月1日的國慶節,應該要由總理向全國以及社會主義陣營公布。
但是電報碼輸入法需要極大的記憶工作量,六千多個漢字和對應的四位數字之間沒有任何聯繫,必須死記硬背。
信息交流不暢,各地的情況延安是沒法詳細掌握的,許多具體的決定就只能給地方黨組織來做。此時又是戰爭年代,地和圖書方組織做的決定有時候又非常重要,因此必須賦予地方組織相當於黨中央的處置權,地方局這種機構就從20年代一直延續到了建國初期。
就算45年二戰結束后蘇聯政府很忙,國民經濟尚未恢復,沒有財力和人力做全國人口普查,但到了50年代也該普查一次了吧。沒有基本的人口數據,蘇聯的國民經濟計劃、發展計劃甚至國防計劃都不好做。
一普在普通老百姓眼裡,不見得有什麼特別稀奇的事情,無非是有兩個幹部上門來查戶口了,掏出幾張卡片讓每個人填自己的名字年齡性別。
普查標準日是1953年7月1日,全國主要省份在1953年10月1日前完成走訪調查,偏遠地區在1953年12月31日前完成調查或估算。
唐華已經讓華為開始開發拼音輸入法了,但現在未開發完畢,按計劃它也不是現在就投入使用的軟體,而是要等主流硬碟容量再加倍之後。
這種標準樣式的普查卡,名字和籍貫需用筆填寫漢字。年齡(出生年月日)之類的數據,就用在卡片上打孔的方式來填寫。這樣可用打孔卡讀取機來錄入這一部分的數據,不用太多人力。
相比于其他國家現在要用2~3年才能完成數據整理分析,連走訪調查在內總周期1年零三個月,而且人口普查獲取的數據信息還比其他國家的普查更多。這就是活生生的廣告。
培訓班現場變成了魯迅當年的私塾或者小學課堂,年輕如20歲左右的小夥子,年長如三四十的老幹部,都在教室背口訣、背手冊,朗朗讀書聲整個省委大院都聽得見。
「對了。」
沒輪到上機的學員,當然也不閑著。
唐華:「都已經14年過去了。蘇聯就沒有打算再做一次人口普查嗎?」
唐華翻開全國一普的資料文件。
這就很好解決了啊!
王守珏:「這種情況雖然少見,但也不是完全沒有。https://m.hetubook.com.com所以我們也會制定這一方面的代字規則。」
「7,4,2,0,嗯……9。」
另外,因為自己風騷的名字被用了代字而有意見的人也不用著急,一普的數據錄入計算機之後,普查填報的卡片還是會保留的。
四角號碼輸入法只輸入數字,因此全用右手敲打小鍵盤來工作。
二戰結束后,蘇聯人口發生了巨大的變動,然而這段時間蘇聯的人口普查竟然中斷了,兩次全國人口普查時間間隔高達20年。
「不對,是40105。這個簡體左字,中間是直接一豎,不是打了彎折的寫法。尉,上尉的尉。」
那就只能一次3人,分組上機實踐了。
「王所,學員才兩三周的培訓,輸入速度就老快了,」助手對王守珏說,「從競賽成績看,42人的平均輸入速度有每分鐘51個字,最高記錄67個。比我們所自己測試的時候成績還高出一截。」
工作時如果有一個字沒背下來,就得拿起手邊的冊子查找,輸入速度驟然降到最低。
王守珏:「因為這是他們的工作。我們只是開發了這個工具的人。」
列別傑夫:「好像還真是這樣,那麼答案就找到了。二戰結束后,很快鐵幕落下冷戰開始,IBM的機器應該是被歸類為敏感的重要的高技術精密機械,禁止向蘇聯出口了。」
蘇聯十月革命以後,共進行過7次全蘇人口普查,分別是1926、1937、1939、1959、1970、1979和1989年。
拼音輸入法的另一個問題,是佔用硬碟比較厲害。即便是未加聯想和詞庫,一個字一個字單獨輸入,大約也要4M的硬碟空間。
三名學員端坐在計算機前,像站在起跑線上的運動員。有的選手摩拳擦掌,有的則在活動右手手指頭。
關鍵是四角號碼輸入法的五位數字,和這個漢字不是完全無聯繫的,只要掌握了基本規則和圖書,輸入人員即便沒背下來這個字的輸入碼,也可以瞅著漢字細想出它的輸入碼,而不用丟下計算機到旁邊查手冊。
……
唐華:「於是蘇聯很長時間不進行人口普查,原因僅僅是……無法進口好用的機器?」
培訓班漢字輸入課的結業,是以學院輸入速度比賽的方式結業的。
「衣,衣服的衣。」「00736。」
現在這年代,傳輸速率最高的方式,就是讓各地統計局把十幾個裝滿數據磁帶的木箱搬上火車,直接運到北京。
……
「是很奇怪,但確實沒有做人口普查。如果做了全國人口普查,我會收到郵寄的表格,讓我填寫然後回寄。」
不過,僅僅是向蘇聯推銷一套人口普查用的計算機和網路解決方案嗎?
第一位是「2」開頭的是中-共中央東北局;
有漢字系統就肯定要有輸入法。
第一位是「3」字開頭說明你那兒以前是華東局;
一名學員問同桌的學員,同桌馬上給出了回答。他低頭看了看手冊,「對了。」
然後用12個月的時間,完成人口數據的計算機錄入、匯總、整理、分析。
不過有一點小問題,只有3台計算機可供培訓班的學員實操。而學員有42人。
拼音輸入法加選字當然好用,幾乎不需要輸入人員記憶什麼。
「所以我們在人口普查的時候,會不可避免地遇到一些人,他們的姓名裡頭帶一些生僻字,生僻到我們的計算機內置字型檔找不到的程度。這個時候,我們就需要果斷用代用漢字來將他的生僻字代替掉,然後輸入計算機。」
等計算機存儲容量增加,兩三萬漢字的全字型檔出來,再風騷的名字也能錄入進去了。
——這是學員們在苦背四角號碼的數字與筆畫的對應方式,以及編碼規則。
一普的人口數據,用有線電報當網線,五個分局的數據集中在政務數據中心那裡,然後寫入一兩百到幾百卷磁帶,然後——火車運到北京。
然https://www.hetubook.com.com而蘇聯在戰後這十幾年,還真是用抽樣調查和估算的人口數字,估算的人口年齡結構分佈,來做國家政策參考的……
「七角八八九是小,點下有橫變零頭」
……
至於為什麼會出現地方局這種設置,原因很簡單:在革命年代,全國各地黨組織之間的交通聯絡不暢、通信不暢。
列別傑夫:「這太久遠了,我記得是十幾年前……啊,對,1939年。」
這些叫「地方局」不叫「地方分局」,它不是中央的下一級機構,而是中央在地方的分身。地方局做出的決定就相當於黨中央做出的決定。
……
比賽裁判把三張紙條分別卡在三人的顯示器下方,還沒喊「開始」時不能動鍵盤,但有心急的選手開始看紙條默背上面的文章的四角號碼了。
或者再等10年,1963年的全國二普,肯定能用上全字型檔。
上海計算機所。
「簡化字裡頭還有幾個異體字歸併成一個字形的,其實能管差不多一萬字。」
……
「我們這次人口普查登記的公民姓名,都要錄入計算機,而計算機內置的字型檔是6425個漢字,這當然是不能包括所有漢字的。」
很多生僻字其實只是某個漢字的別體,先歸於正體、然後再歸替換這個正體的簡化字即可。不是別體純粹是太生僻的字,代字的基本規則是同音、字形相近,如果這兩個辦法都不好找代字,那麼就看這個生僻字的寓意,找個意義相似的字作為代字。
「在四角號碼中單筆和復筆共定義了十個,分別用0~9十個數字表示。四角號碼查字法根據漢字所含的單筆或復筆對漢字編號,它是不依書寫筆順的,而是取漢字左上角、右上角、左下角、右下角四個角的單筆或復筆的筆形,這樣共有四碼,一個漢字用四個數字表示。這種編碼方法可直接用於小鍵盤輸入。」
「老列,蘇聯上次進行人口普查是什麼時候?」
除了讓學員練輸入
和圖書
速度,培訓班要教的東西還很多。第一位「4」字開頭是中南局;
「左,左右的左。」「嗯……40106。」
唐華:「我記得蘇聯以前做人口普查,是使用從美國進口的IBM自動普查統計機。」
不,應該說,上海計算機所在這些標準人口卡片開印時就開始忙碌了。
六個地方局雖然在50年代初撤銷,但它的影響其實一直持續到21世紀。今天你拿出自己的身份證,看18位數字的頭一位便知道。第一位是「1」開頭的,說明你出生的地方以前隸屬於華北局;
現在馬上可以用的是電報碼輸入法,六千多個常用漢字用四位阿拉伯數字搞定。
但是,現在(新)漢語拼音尚未推廣開來。所以輸入人員實際上還是要先學習漢語拼音。
相比之下,四角號碼輸入法算是電報碼輸入法的改進版。它用的是5+1位數字,比電報碼輸入法多1(2)位,但熟練工也可以達到40~60字每分鐘的輸入速度。
第一位「6」字開頭的是西北局。
唐華拿過一張人口普查卡的樣卡(沒有編碼序列號)。
……
武漢,第一次全國人口普查中南計算機培訓班。
比如抗戰時期,延安和全國各地的人員交流是極其困難的,中央想派個幹部到地方,得穿過炮樓封鎖線,而且還不止一次。那時候大約有10%的縣委書記、區委書記級幹部犧牲在穿過封鎖線的時候。無線電通信也不可靠,經常一整片地區和延安失聯幾個月。
「但是,我們的四角號碼輸入法,每個漢字是有5位數字。除了四個角的四個數字之外,第五個數字是這個字的筆畫數。」
「水左邊,上取1,下取9」「橫一垂二三點捺,叉四插五方塊六」
學員:「我覺得六千多個字都找不出來他的名字用的字,這種現象太罕見了。」
不過,最有效的推銷方式,是中國一普。中國第一次人口普查如果能給蘇聯提供一個樣板,那不愁蘇聯人找上門來。