半自动加工了一本电子书
本文探讨半自动方式从多个网页生成一本电子书的流程,使用了多种工具如git bash shell, total commander, grep, sed,涉及正则表达式、CSS、HTML等技术。书的具体内容不重要,本文聚焦于加工过程和技术实现。
设想重读多年前所读的令人热血沸腾的现代故事小说,但手头的纸质版已难以寻觅。决定自行制作电子版以备未来翻阅。首先,搜索网络找到电子书版本,由于zlib和jiumodiary未提供,找到学校图书馆的纸质版,通过搜索引擎找到一个切分为79小节的网站并下载。
使用SingleFile工具将79个链接保存为HTML文件,预览结果类似包含多节链接的页面。接着,借助Total Commander批量修改文件名,通过正则表达式实现,将文件重命名为按序号排序的格式。
接下来,计划用shell脚本调用sed和grep对HTML内容进行批量修改,首先在命令行测试脚本参数,确保正则表达式正确。生成的脚本调用sed和grep针对所有79个HTML文件进行处理,每行对应一个文件,确保每个文件内容仅包含一节的文字内容。
使用calibre编辑电子书功能将修改后的HTML文件整合为电子书。在微信读书APP中检查格式,发现需要对格式进行微调,包括段落间距、首行缩进等。通过cat、sed、管道、重定向、CSS、HTML等技术应用实例逐步优化格式。
为电子书添加目录,利用calibre编辑功能中的相应选项。在微信读书中发现标题显示问题,通过在标题前添加4个空格解决,确保显示效果完美。
整个加工过程耗时约2小时45分钟,撰写博客时又花了1小时。何时能有时间重读这部精彩小说,等待着未来的某个时刻。这个加工过程不仅实现了电子书的制作,也是一次技术实践的探索。
多重随机标签