中文马克思主义文库

文库录入标准(征求意见稿)


Ø 文库对志愿者的提醒
Ø “文库录入标准(征求意见稿)”原稿


文库对志愿者的提醒


  (一)文库的资料整理工作包括:翻译;录入;校对;扫描;制作电子书;等等。
  (二)志愿者可以根据自己的兴趣和专长,选择自己参与整理的资料;可以参考“待整理文献一览表”;也可以提出自己认为值得整理上传的文献;但请事先告知文库编辑,并及时沟通,以避免重复劳动,或无效劳动(例如重复翻译或录入某文献)。
  (三)《马克思恩格斯全集》《列宁全集》《中共中央文件选集》(1921年—1949年9月)等,都已有文字版,马库也在陆续整理中。某些中共领导人的文献已有文字版的《文选》或《文集》PDF的。这些文献,也存在少量错字及排版、图表问题,但不需录入,只要一定的整理、校对、制作 图片、表格和网页的工作。
  在上列文件中,志愿者可提出较为重要、应整理上传的篇目,告知马库。马库认为值得的,即可提前整理上传。如果有义工懂得网页制作,能按标准格式制作上传网页的话,也可以申请参与分工合作,以加快整理上传的进度。
  (四)已有PDF电子文件者,首先选择通过OCR将之转化为文字版。志愿者如不熟悉,可提请文库帮忙。
  OCR出来的文本,特别是原文件为繁体版者,很可能存在大量同样的错误(例如“马克思”被OCR成“焉克思”,“资本”被OCR成“资木”或“查本”)。可以统一进行“查找”、“替换”,也就是把“焉克思”统一替换成“马克思”,等等 ,以提高效率,不必逐个手动更改。
  (五)如果发现文献中有很容易确定的错字,可以直接改掉(如‘白由’可直接改成‘自由’)。如果是疑似的错字,或不通顺之处,可加上‘录入者注’来说明,不应擅自更动。
  (六)志愿者提交的文本,大多数是使用word文件直接录入,并设定标题、小标题、粗体、下划线等格式。兹请注意如下几点:

  1)脚注编号问题。实体书中脚注的编号如果使用的是带圈数字①②③,录入或校对时,如无特殊原因,请统一使用数字中括号(如“[1][2][3]”。不要使用小括号“(1)”,否则,将会无谓地大大增加网页制作者的工作量。其次,也可采用word本身提供的脚注功能(即“插入(O)”→“引用(N)”→脚注和尾注(G))。如果脚注编号使用的是*,**,***字符,可原样保留。书中其它用到中括号之处,请使用全角字符([ ])。
正文中的脚注——

在那些使资产阶级、贵族和可怜的倒退预言家惊慌失措的现象当中,我们认出了我们的好朋友、好人儿罗宾[1] ,这个会迅速刨土的老田鼠、光荣的工兵——革命。

脚注——

[1] 好人儿罗宾是英国民间故事中庇护人们和为人们帮忙的幻想人物,是莎士比亚的喜剧“仲夏夜之梦”中的主要人物之一。——第4页。
  文献中成段引用的文字,前后加上<quote></quote>。例如以下例子中第二段是“引文”:
  于是他为了替“全人类保留”这个“不可让渡的公共财产”就接受了民族改良派的计划:“每一个农民,不管来自哪一个国家,都分给他160英亩的美国土地供其维持生活。”在该报第14号上所载的“答孔策”一文中,这个计划是这样说明的:

  <quote>“任何人均不得从这一尚未动用的国民财产中领取160英亩以上的土地,而且领取这160英亩也只能限于自耕。”</quote>

  2)制作表格时,注意各列之间“用Tab制表键对齐文本”,不要使用空格键来隔开。
  对于繁复的、难以制作的表格,可以直接以截图代替。

  少数志愿者希望“最大限度地保存原版本的面貌”,例如把“共产党宣言”录入为“言宣黨產共”。我们的建议是:保存原貌的最好方式就是图片,或扫描成PDF。既然制作成文字版,这种“保存原貌”就只能增加阅读障碍。如果原件很有价值,可考虑同时上传文字版和PDF电子书。


文库录入标准(征求意见稿)

(原稿)



设立标准的目的是为了提高文库编辑工作的劳动生产率,避免劳动的无谓浪费。因为文章、书籍的样式多样,所以这里只规定了大部分常见样式的标准,没有规定复杂表格、数学公式等部分的样式标准。如果录入者遇到这种情况,请与文库版主沟通协调。

文库优先接受HTML网页文件,所以如果会编辑制作网页,请直接制成网页。当牵扯到一本书多个网页文件时,请和文库协商文件命名命题。

如果制作网页有困难,文库也接受纯文本结构化文件。但请注意以下几点:

 录入者需把文件以纯文本格式保存,不要使用如微软Office办公软件WORD的doc格式。在Windows操作系统下,使用“记事本”程序即可创建、编辑纯文本格式文件(后缀为.txt)。保存纯文本文件时,请使用utf-8编码保存,如下图:(详情可参阅“记事本”的帮助文档。需要说明的是,创建、编辑纯文本文件的软件不只有“记事本”,这只是最简易的一种。)

使用UTF-8编码保存


如果是一本书,那么请把各章按照前后顺序保存在一份文件中,不要一章保存成一份文件。各章之间,请用一行连续的英文等于号================================= 来标示一章的结束和下一章的开始。

注意:这里=是英文状态下的符号,请录入者注意输入法状态,不要输入中文等于号=。


每两个自然段之间请保留一个空行,以作为分段标记。在这个前提下,既可以一段自成一行(即输入完一个自然段后才敲两次回车键),也可以几个连续的行组成一个自然段(一般OCR扫描实体书是这种情况)。

如果选择几个连续的行组成一个自然段,那么必须确保两个自然段之间留有一个空行

第一种情况,一段自成一行


一只好骑的马实比一个奴隶贵重得多,因为它在亚理斯多芬时代的价格约为12敏拿,差不多等于250元。

供给廉价奴隶的各种战争同时又摧残了许多的农民,因为当时的农民士兵实是军队的中坚分子。当农民打着仗的时候,他的农场因为欠缺工人的缘故日渐衰荒。被摧残的农民除了化为土匪之外别无生路,除非他们有机会走入附近的城市中变成手艺匠或“流氓无产者”[2]之一部分借以苟延残喘。这就是许多种罪犯行为和许多罪犯之所以产生于初期社会中的缘故了。这些罪犯如被捕则又复变成新的奴隶,因为当时还没有监狱的存在,监狱是资本主义的生产方式的产品。一般罪犯不被钉死的,便接受强制劳动的处罚。

第二种情况,几个连续的行组成一个自然段,段落之间以空行分割


一只好骑的马实比一个奴隶贵重得多,因为它在亚理斯多
芬时代的价格约为12敏拿,差不多等于250元。

供给廉价奴隶的各种战争同时又摧残了许多的农民,因为
当时的农民士兵实是军队的中坚分子。当农民打着仗的时
候,他的农场因为欠缺工人的缘故日渐衰荒。被摧残的农
民除了化为土匪之外别无生路,除非他们有机会走入附近
的城市中变成手艺匠或“流氓无产者”[2]之一部分借以苟
延残喘。这就是许多种罪犯行为和许多罪犯之所以产生于
初期社会中的缘故了。这些罪犯如被捕则又复变成新的奴
隶,因为当时还没有监狱的存在,监狱是资本主义的生产
方式的产品。一般罪犯不被钉死的,便接受强制劳动的处
罚。
  
  

书籍都是有结构的,就是说一本书有章节题目、正文内容、强调加黑显示的文字、脚注或尾注、在正文中成段的引用其他人的作品、图片、表格等等。

在纯文本中必须对这些结构用标签进行标记,使之成为一个结构化文本。

标签就是由一对英文尖括号<>括起来结构名。标签一般都成对出现,一个开始标签和一个结束标签。在开始标签和结束标签之间是结构的内容。

举例:每章题目这个结构,命名为h1。开始标签就是<h1>,结束标签为</h1>。结束标签比开始标签只多了一个英文斜杠/.

比如上图中的文章题目是“播种季节”。要加上标签,使之成为
<h1>播种季节</h1>
对于一章中每小节的标题,这个结构命名为h2。那么开始标签就是<h2>,结束标签就是</h2>。

对于文章中粗体加黑的文字部分,开始标签就是<b>,结束标签就是</b>。

范例:
原始码呈现结果
<h1>标题一</h1>

标题一

<h2>标题二</h2>

标题二

<b>粗体</b>

粗体

文中如果有信件、电文或新闻,其标题的标签是 <headline> </headline>

脚注的处理。脚注的位置不必拘泥于实体书中的位置,以便于阅读、对照为原则。

脚注的标签是<footnote> </footnote>

如果一个自然段中的文字有脚注,那么脚注就紧跟在这个自然段后(不能打断正文),<footnote>表 示脚注开始,然后把脚注录入,最后是一个</footnote>表示脚注结束。然后录入下一自然段。

举个例子:考茨基的《基督教之基础》实体书第56页的倒数第一段和第三段都有脚注,但是脚注的内容却出现在第57页。





录入者应该加工成如下样子:


据鲍克(Böckh)说,雅典的一个奴隶的普通价格为一百至二百特拉克马——20至40元(指美金,以下仿此)。色诺芬(Xenophon)说,奴隶的价格起跌于五十至一千特拉克马之间。阿皮阿尼斯(Appianus)说,在本都(Potus)中,有一个时候俘虏的价格曾跌到每个四特拉克马(比七角五分稍多)。当约瑟的兄弟把约瑟卖给埃及的时候,他只收到20色克尔(四元半)[1] 

<footnote>
[1] 赫芝佛特(Hertdeld):《古代犹太贸易》,1894年版,第193页。
</footnote>

一只好骑的马实比一个奴隶贵重得多,因为它在亚理斯多芬时代的价格约为12敏拿,差不多等于250元。

供给廉价奴隶的各种战争同时又摧残了许多的农民,因为当时的农民士兵实是军队的中坚分子。当农民打着仗的时候,他的农场因为欠缺工人的缘故日渐衰荒。被摧残的农民除了化为土匪之外别无生路,除非他们有机会走入附近的城市中变成手艺匠或“流氓无产者”[2]之一部分借以苟延残喘。这就是许多种罪犯行为和许多罪犯之所以产生于初期社会中的缘故了。这些罪犯如被捕则又复变成新的奴隶,因为当时还没有监狱的存在,监狱是资本主义的生产方式的产品。一般罪犯不被钉死的,便接受强制劳动的处罚。

<footnote>
[2] LumPenProletariat这个德国字是指无产者中一个特别部分而言,这一部分的无产者的收入虽然是好像和普通的无产者那么多,却不是实际劳动的结果,而只是因为慈善事业和勒索行动而得的东西。——英译者
</footnote>

所以,有些时候,奴隶的价格异常低廉,这些奴隶的处境异常恶劣。在古代中生产能力特著的西班牙银矿就是一个绝好的例证。带奥多鲁斯(Diodorus)论及这些银矿说,其始,普通的私人从事于开采事业,他们因此而致巨富,因为银苗并不深藏而又非常丰富。其后,当罗马人成为埃比利亚(西班牙)的主人时,有许多意大利人都为这些矿业所引诱而从事于这种工作,他们因为他们的贪婪性而获大利,因为他们买了许多奴隶,把他们交给矿场的监工。… …要在这些矿场中工作的奴隶使他们的主人得有出乎人意之外的金钱;可是其中有许多深入地底工作,日夜努力于矿道中的奴隶却过劳而死了。因为他们并没有休息或停工时间,他们为他们的监工所鞭笞着,忍受着最不舒服的情形,一直工作至死为止。可以捱得起这种待遇的只有少许赋有充分的魄力和忍耐性的奴隶,然而这只是延长他们的痛苦——厉害到使他们愿死不愿活的痛苦—罢了。[3]

<footnote>
[3]带奥多鲁斯息科鲁斯(Didorus Siculus):《历史丛书》,第三十六卷,第三十八章。参着同书,第三卷,第三八章关于埃及金矿的话。马克思在《资本论》第一卷第八章第二节注四十三中曾引过这段话。
</footnote>

家长治下的家庭奴隶制也许就是最轻微的剥削制度,但服务于贪得事业中的奴隶却显然是最苦的奴隶了。当时的采矿的技术方法非常粗劣,因此,矿主们为进行大规模的生产起见,不能不雇用大批的奴隶。及后,在别的工业中雇用奴隶以作大规模的商品生产的需求也渐次出现了。有些团体,其军事势力是远超于附近的团体之上的,战争对于这些团体异常有利,因此它们永没有厌恶战争的日子。
 
注意:实体书中脚注的编号使用的是带圈数字①②③。录入的时候,如无特殊原因,建议使用[1][2][3]这种外带中括号的数字编号。如果脚注编号使用的是*,**,***字符,可以原样保留。书中其它用到中括号之处,请使用全角字符([ ])。

上面三个脚注都出现在同一页上,但是标注脚注的位置在不同的自然段,为了脚注和正文之间互相照应,所以把脚注放在紧跟在自然段之后。如果同一个自然段中出现两个或两个以上脚注,这两个脚注放在同一个<foonote>< /footnote>之中。也就是说,先输入开始标签<footnote>,然后输入第一个脚注,然后空一行,输入第二个脚注……,最后输入结束标签</footnote>.也就是如下:

<footnote>
[1] 这是脚注1的内容。

[2] 这是脚注2的内容。
</footnote>

尾注的标签是 <endnote></endnote>  一章中最多只能有一个尾注结构,而且要在全章结束的末尾。

尾注一般是引文出处这些内容,和文章正文内容联系不是很紧密,所以可以全部放在正文结束以后,而不插在正文中间。

如果同时有脚注和尾注两种结构,那么注释的编号请区别开。一般是脚注使用*,**,***字符,尾注使用[1][2][3]…。也可以一个使用方括号[1],一个使用圆括号(1)。

有的录入者死板地按照实体书的‘本来模样’录入和排版。比如,

某个自然段横跨两页纸(假设是第1页和第2页),脚注则在第1页的底端。我们在阅读实体书的时候,不会因此有任何不便,但如果录入者也按这个顺序——自然段在第1页的部分+脚注+该自然段在第2页的部分——来录入,那么在网页上,我们猛一看会摸不着头脑,不得不自己动手,逐一调整过来。”

举例如下: 多依彻的《流亡的先知》正文第7、8两页如下:

能不能加工整理成如下的样子呢?

……托洛茨基在抵达君士坦丁堡3天之后便收到了阿尔弗雷德·罗斯默、玛格丽塔·罗斯默夫妇二人的回信,[1]他们写道:“我们无须对您说,您完全可以指望我们。忠于您、热爱您的罗斯默。”在第一次世界大战期间,罗斯默夫妇就与托洛茨基一家人成了朋友,他们都参加了齐美尔瓦尔德运动。20年代初,罗斯默曾任法共驻莫斯科共产国际执委会代表,后因与托洛茨基观点一致而被法共开除。罗斯默夫妇信中的“忠于您的罗斯默”之语,并非泛泛之谈。在托洛茨基的流亡岁月中,他们始终是他最亲密的朋友,尽管后来在他们之间也一度有过分歧和争论。鲍里斯·苏瓦林是法国共产党理论报刊的前主编,1924年5月,在所有驻莫斯科的外国共产党代表中他是唯一一个为托洛茨基辩护的人,现在,他也给托洛茨基回信,表示愿意帮助他、与他合作。[2]其他同情者还有莫里斯·帕兹(Maurice Paz)夫妇,丈夫是法学家,妻子是记者,他们二人都被法共开除,后来,他们成了著名的社会党议员。他们在信中称他为“伟大的朋友”,并对他在土耳其的复杂处境深感不安,他们千方

<div class="footnote">
[1]罗斯默夫妇与托洛茨基通信,存于托洛茨基档案保密部分。

[2]苏瓦林致托洛茨基,1929年2月15日;同上。

</div>

百计为他争取其他国家的入境签证,并答应马上前往君士坦丁堡。[1]

通过罗斯默夫妇和帕兹夫妇,托洛茨基与西方报界建立起联系。2月下半月,当时他还住在领事馆,他的系列文章就已在《纽约时报》、《每日快报》和其他报纸上发表。该系列文章是首次公开发表的托洛茨基有关近年来及近几个月来党内斗争的论述。论述简洁有力,充满进攻精神。托洛茨基对其新老敌人和对手毫不留情,其中首当其冲的就是斯大林,现在他像以前在政治局那样在世人面前指责后者,称其为“革命的掘墓人”。[2]在这些文章问世之前,领事馆的头头们找托洛茨基的麻烦,逼他离开领事馆的办公用房,搬到领事馆工作人员居住的地区,在那里他仍将处于格别乌的“保护”之下。托洛茨基拒绝搬出,这一问题就一直悬而未决,直到文章发表。此事引起了冲突。现在,斯大林有了公开宣布将托洛茨基驱逐出国的必要借口。苏联报刊纷纷指责托洛茨基“投靠国际资产阶级、策划反苏阴谋”。苏联漫画家们丑化、嘲讽他为“托洛茨基先生”,画他抱着一个内装25000美元的口袋。格别乌宣布,不再负责他的安全,并准备把他赶出领事馆。[3]

娜塔利娅和廖瓦连续几天在格别乌工作人员的严密监视下四处奔走,以便在君士坦丁堡郊区找一处较为安全的单独住宅。最后,他们终于找到了一栋房子,但不是在城内,也不是在郊区,而是在位于马尔马拉海中的王子群岛上。客轮从君士坦丁堡驶到这里要用一个半小时。匆忙中恰恰在这里选定住宅带有几分可笑的色彩,因为王子群岛当年曾是拜占庭皇帝流放有皇族血统的竞争对

<div class="footnote">
[1]莫里斯·帕兹致托洛茨基,1929年2月18日,存于托洛茨基档案保密部分。

[2]原文所标日期为1929年2月25日,存于托洛茨基档案。

[3]托洛茨基与格别乌驻君士坦丁堡代表之间的通信,3月5日和8日;同上。

</div>
请特别注意其中第7页结尾和第8页开头的部分
……他们在信中称他为“伟大的朋友”,并对他在土耳其的复杂处境深感不安,他们千方

<div class="footnote">
[1]罗斯默夫妇与托洛茨基通信,存于托洛茨基档案保密部分。

[2]苏瓦林致托洛茨基,1929年2月15日;同上。

</div>
百计为他争取其他国家的入境签证,并答应马上前往君士坦丁堡。[1]

正确的处理办法是要调整脚注的位置及编号,保证阅读的连贯性,如下:

……他们在信中称他为“伟大的朋友”,并对他在土耳其的复杂处境深感不安,他们千方百计为他争取其他国家的入境签证,并答应马上前往君士坦丁堡。[3]

<div class="footnote">
[1]罗斯默夫妇与托洛茨基通信,存于托洛茨基档案保密部分。

[2]苏瓦林致托洛茨基,1929年2月15日;同上。

[3]莫里斯·帕兹致托洛茨基,1929年2月18日,存于托洛茨基档案保密部分。

</div>

请注意“托洛茨基住在苏联领事馆这一微妙的局面也不会长久,斯大林只等一有借口就将它结束。这种状况对托洛茨基来说也是无法忍受的。在格别乌的“保护”下,托洛茨基实际上仍是囚犯,他不知道应该更怕谁:……他们千方百计为他争取其他国家的入境签证,并答应马上前往君士坦丁堡。”这一长段在实体书上横跨3页(第6、7、8页),3个脚注分布在两页(第7、8页)。整理的原则就是,一个自然段不能被脚注打断,脚注要尽量紧跟在该自然段后面,必要时调整编号(如上面把该段的最后一个脚注编号改为[3])。

**************

在正文中成段引用的标签是 <quote></quote> 。注意:这个标签只用于引用的部分单独成为一个或几个段落这种情况。

图片的标签是 <img src=""> 其中双引号内要写入图片的名称,要包含扩展名

如果文中含有表格的话:

对于简单的表格,如果用Tab制表键对齐文本,就能展示清楚,可以不画表格线,直接录入。标签是<pre> </pre>

举个例子:

<pre>
姓名	年龄	性别	电话
张三	20	男	123456789
李四	21	男	456789123
王五	22	男	789456123
</pre>

需要注意:上面栏与栏之间不是用空格键分割的,而是用Tab制表键。只有用Tab制表键,才能对齐文本。

对于复杂的表格,请在表格的位置处输入标签 <table id="">,表示这里有一个表格,并在双引号里编号。可以输入表格所在页码,也可输入顺序数字1、2、3、4……,总之要能区分不同的表格。然后制作一个html网页文件,把全部表格按照编号录入,一并送给文库。

现在总结一下我们的标签:

<h1> </h1>                    一章的题目,必有。
<h2> </h2>                    一章下面的一小节的题目,可能有。
<b> </b>                      加粗强调的文字,可能有。
<quote> </quote>              成段引用,可能有。
<headline> </headline>        信件、电文、新闻的标题,可能有。
<footnote> </footnote>        脚注,可能有。
<endnote> </endnote>          尾注,可能有,且最多有一个。
<img src="">                  图片,可能有。
<pre> 
</pre>                        简单表格,可能有。要用制表键Tab分割。   
<table id="">                 复杂表格,可能有。
======================        每章之间的分割符。

这里有一个汤普森《英国工人阶级的形成》前言和第一章的例子(如果是乱码,请先下载再打开,或者调整浏览器的编码为utf-8),请和转换后的网页对照。

编辑器的选择与使用。理论上任何可以将文件存为纯文本文件的字处理软件都可以完成上面的工作,但是如果你使用类似Word这种办公软件,可能会有意外的麻烦。当然如果你酷爱Word,并且知道如何解决从Word转换到纯文本过程中可能出现的问题,那也可以。

另外,如果手工录入,用标签标记结构的时候,有两个常犯错误。一个是拼错单词,一个是忘记匹配结束标签。这两个都将导致严重错误。

所以最好选择有自动完成、宏录制、缩写等类似功能的编辑器进行工作。这样一是可以避免出错,二是减少击键次数,节省体力。

EditPlus、UltraEdit-32都有这些功能,甚至Word的宏也可以。gedit的片段插件(snippets plugin)也可完成类似工作。这些编辑器如何使用,请查阅它们的帮助文档,或者网上搜索一下。

最糟糕的一种情况是你现在还没看明白第五节在说什么。如果是这样,建议您使用Vim这款编辑器。这里有一个简短的用法介绍

其他未尽事宜或不清楚之处请与文库沟通协调。