转载: 布热津斯基谈中华帝国一可怕特征

布热津斯基还特别指出,中国有很大的和居于统治地位的种族核心,这就使中国有可能每过一段时间间就能恢复其帝国。在这方面中国与别的帝国大为不同。其他帝国中人口数量少但受霸权主义驱使的民族,能够在一个时期内对人数比之多得多的异族居民强行统治并维系这种统治。可是,这类核心小的帝国的通知一旦被推翻,再要恢复帝国就不可能了。

Spark and Hadoop 比较

袁满很早(2012年?)就跟我介绍过spark的威力,以及中科院计算机所有人在利用spark进行空间并行计算。相比hadoop强于多节点的树形工作,Spark强于迭代性的空间邻域运算。从空间思维的角度来说,hadoop来做大数据的空间索引更优秀,而spark在进行邻域计算,比方说插值、kernal density等运算会更好。下面转载了一篇spark和hadoop对比的文章,学习。

对了两者都可以用python来wrapped up, 故编程会更加容易上手。
———

Spark的中间数据放到内存中,对于迭代运算效率比较高。

Spark aims to extend MapReduce for iterative algorithms, and interactive low latency data mining. One major difference between MapReduce and Sparkis that MapReduce is acyclic. That is, data flows in from a stable source, isprocessed, and flows out to a stable filesystem. Spark allows iterative computation on the same data, which would form a cycle if jobs were visualized. (旨在延长MapReduce的迭代算法,和互动低延迟数据挖掘的。 MapReduce和Sparkis的一个主要区别,MapReduce是非周期性。也就是说,数据流从一个稳定的来源,加工,流出到一个稳定的文件系统。“Spark允许相同的数据,这将形成一个周期,如果工作是可视化的迭代计算。)

Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面,有RDD的概念。

Resilient Distributed Dataset (RDD) serves as an abstraction to rawdata, and some data is kept in memory and cached for later use. This last pointis very important; Spark allows data to be committed in RAM for an approximate20x speedup over MapReduce based on disks. RDDs are immutable and created through parallel transformations such as map, filter, groupBy and reduce. (弹性分布式数据集(RDD)作为原始数据的抽象,和一些数据保存在内存中缓存供以后使用。最后这点很重要;星火允许在RAM致力于为近似20X基于加速了MapReduce的磁盘上的数据。RDDs是不可改变的,并通过并行转换,如地图,过滤器,GroupBy和减少创建的。)

RDD可以cache到内存中,那么每次对RDD数据集的操作之后的结果,都可以存放到内存中,下一个操作可以直接从内存中输入,省去了MapReduce大量的磁盘IO操作。这对于迭代运算比较常见的机器学习算法来说,效率提升比较大。但是由于Spark目前只是在UC Berkeley的一个研究项目,目前看到的最大规模也就200台机器,没有像Hadoop那样的部署规模,所以,在大规模使用的时候还是要慎重考虑的。

Spark比Hadoop更通用

Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,他们把这些操作称为Transformations。同时还提供Count, collect, reduce, lookup, save等多种actions。

这些多种多样的数据集操作类型,给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的分区等。可以说编程模型比Hadoop更灵活。

不过论文中也提到,Spark不适用那种异步细粒度更新状态的应用,例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型,当然不适合把大量数据拿到内存中了。增量改动完了,也就不用了,不需要迭代了。

容错性

从Spark的论文《Resilient Distributed Datasets: AFault-Tolerant Abstraction for In-Memory Cluster Computing》中没看出容错性做的有多好。倒是提到了分布式数据集计算,做checkpoint的两种方式,一个是checkpoint data,一个是logging the updates。貌似Spark采用了后者。但是文中后来又提到,虽然后者看似节省存储空间。但是由于数据处理模型是类似DAG的操作过程,由于图中的某个节点出错,由于lineage chains的依赖复杂性,可能会引起全部计算节点的重新计算,这样成本也不低。他们后来说,是存数据,还是存更新日志,做checkpoint还是由用户说了算吧。相当于什么都没说,又把这个皮球踢给了用户。所以我看就是由用户根据业务类型,衡量是存储数据IO和磁盘空间的代价和重新计算的代价,选择代价较小的一种策略。

关于Spark和Hadoop的融合

不知道Apache基金会的人怎么想的,我看Spark还是应该融入到Hadoop生态系统中。从Hadoop 0.23把MapReduce做成了库,看出Hadoop的目标是要支持包括MapReduce在内的更多的并行计算模型,比如MPI,Spark等。毕竟现在Hadoop的单节点CPU利用率并不高,那么假如这种迭代密集型运算是和现有平台的互补。同时,这对资源调度系统就提出了更高的要求。有关资源调度方面,UC Berkeley貌似也在做一个Mesos的东西,还用了Linux container,统一调度Hadoop和其他应用模型。

转载自:http://tech.it168.com/a2012/0401/1333/000001333287.shtml
同时,推荐:
http://tech.it168.com/d/2008-01-18/200801180027277.shtml (列举了hadoop相关构架的模型)

全球十六条战略水道

冷战结束后,世界各国海军日益壮大,美国实施“全面制海”战略已十分困难。于是,自20世纪80年代开始,美军寻求“海上控制”,以图掌握全球16条海上要道,确保战时能封锁他国海上航运和海军力量,维护美军的航道,进而挤压、威胁敌国。 美国对海洋的控制,是通过庞大的军事基地网实现的。目前,美军在太平洋区域有完整的三线基地网,在大西洋区域建有完备的二线基地网。美军的意图是,战时通过控制全球16条海上要道,赢得对各大洋的控制权。

全球十六条战略要道:

在全球16条海上咽喉要道中,大西洋有7条:加勒比海和北美的航道、佛罗里达海峡、斯卡格拉克海峡、卡特加特海峡、好望角航线、巴拿马运河、格陵兰—冰岛—联合王国海峡;地中海有两条:直布罗陀海峡和苏伊士运河;印度洋有两条:霍尔木兹海峡和曼德海峡。

位于挪威与丹麦之间的斯卡格拉克海峡和位于瑞典与丹麦之间的卡特加特海峡是波罗的海通往北海和大西洋的门户,也是俄罗斯波罗的海舰队出入大西洋的惟一通道。一旦控制了这两个海峡,也就等于掐住了俄波罗的海舰队的命脉,迫使其成为一支内海防御型舰队。格陵兰—冰岛—联合王国海峡包括丹麦海峡和冰岛与英伦三岛之间的水道,是俄罗斯实力最为强大的北方舰队进入大西洋的必经之地。美军在它附近建有多个大型海、空军基地,战时可以有效地封锁俄北方舰队,使其很难进入大西洋。 继续阅读全球十六条战略水道

保罗•肯尼迪:给奥巴马上一堂历史课

统治就是选择。

这是17、18世纪法国外交官留下的具有讽刺意味的名言。在他们看来,在一个混乱无序的国际社会里,选择重点相当不易。各国的统治者们——即使他们看似强大且处于优势地位——常常发现,自己不得不做出艰难选择。因此,及早考虑自己能够承受多大的重担,或许是更为聪明的做法。一位即将上任的亲王,或者一位议会制政府的新任首脑,或许会得到这样的建议:不宜一边全力追击国外恶势力,一边又在国内实施太多改革计划。决定取消——或者至少显著淡化——自己继承的某项政策,其实可能起到强化领导力的作用,因为它为推行其它雄心勃勃的计划留出了空间和精力。选择你的战斗和战场吧。

战线不宜太长

换句话说,不宜把战线铺得太开。在奥巴马任期的第一年,我常想到这条具有普遍意义的审慎原则。奥巴马难道真的认为,他可以在医疗、教育、气候变化、国家财政和税收领域推行重大改革,同时赢得伊拉克和阿富汗战争的胜利?如果由于华盛顿分散精力,导致了一无所长、各方面都很薄弱——或者大打折扣,或者目标仅实现了一半,甚或遭到失败——的惨淡结局,那该如何是好呢? 继续阅读保罗•肯尼迪:给奥巴马上一堂历史课

忽视地理学是中国近代悲剧的深层原因

近代,欧洲人追逐航海贸易走遍了全世界,并且大大深化了开放融合的意识,这些都与重视地理知识有密切关联。17世纪欧洲地理学家不断收集更新的知识,纳入地图里面,他们积极投入这个不断循环往复的回馈修正过程。而同时代的中国,却不屑于收集类似的知识,当时的中国文人就算写牵涉海外的历史书籍,地理书籍,也不是为了我们出去做贸易的人使用,这成为中国跟当年的欧洲最大的分别。这种分别也许就构成了后来悲剧性的交叉和撞击的深层的理由。 继续阅读忽视地理学是中国近代悲剧的深层原因

重走长征路之四 陕甘边与习氏父子

这次重走长征路,我考察了位于陕甘边的南梁乡和梁家河村。习氏父子分别在这两个地方工作过。习仲勋等老一辈革命家曾领导创建了以甘肃省华池县南梁乡为中心的陕甘边革命根据地,并由他担任苏维埃政府主席;习近平副主席也曾在梁家河大队知青五载有余。

毛主席曾评价习仲勋是一位活的马克思主义者,是从群众中走出来的群众领袖,并为他题词“党的利益在第一位”。

习近平副主席曾这样评价自己在陕北知青那段经历,“从陕北出来,我已经是一个经过一些历练的共产党员了。过去讲信仰,好像是一种很虚的东西。我觉得我们当时那一代青年成长履历就是红卫兵时代跟着激动,那是一种情绪,那是一种氛围;到了文化革命理想破灭,最后变得甚至是一种虚无。最后在那种年龄段,以及在那种时代变成是一种叛逆性,或者说是一种批判主义色彩,最后看书呢,都是批判地看,看那个社会都是批判地看,其实自己呢,钻进去再走出来,最后感到只有社会主义才能救中国,共产主义理想是伟大的,要做一个优秀的共产党员,这个理念是从这么一个过程建立的,不是一个很一帆风顺的一个理想的成长的过程,它是一个坎坷的成长过程。但是我觉得从被动到主动,但这个时候是扎扎实实的,真正是自己的,不会受别人的影响,在关键时刻是经得住考验的。” 继续阅读重走长征路之四 陕甘边与习氏父子

重走长征路之三 随记

7月18日

其实每天都像在长征一样,人活着就要像一个队伍。 @陕西省西安市

7月19日

每次听“十送红军”,心情就会很沉重。

红军走过的那道坡,那个雕龙画凤的望红台。一幕幕生动的故事不停的在眼前跳跃。@渭南市临渭区310国道

7月20日

说道长征就不得不提蒋介石对苏区的围剿,在正式围剿苏区之前,自1933年9月国民党军相继破坏了红军在鄂豫皖和湘鄂西革命根据地起,已经实施了四次围剿。这时,我中央苏区彻底暴露在敌军面前。@江西省南昌市

三下南昌 @南昌市阳明路64号

南昌人为了纪念明代大儒王夫之(船山先生)而名此路为船山路。 @南昌市船山路

南昌八一起义纪念馆

饭后就出发 @南昌市八一广场

我决定再也不走夜路了,一辆康明思在我身后爆胎,朝我急滑而来。。。 @南昌县文卫路263号 继续阅读重走长征路之三 随记

Horrible facts

可见,中国作为世界工厂,为全球经济的发展做出了巨大的环境牺牲。中国的GDP每提高一个基点要比发达国家消费高好几倍的能源。所以我们真的要以经济发展为纲,一切为了经济发展让路,韬光养晦搞经济吗?

转载自阮一峰的博客,PM2.5是空气污染的一个指标,就是悬浮颗粒的数量。直径小于2.5微米的颗粒,对人体危害最大,因为它可以直接进入肺泡。科学家用PM2.5表示每立方米空气中这种颗粒的含量,这个值越高,就代表空气污染越严重。昨天,美国太空总署公布全球PM2.5数值图(2001-2006)。如图所示:

全球PM2.5数值图

从图上可以看到,全球PM2.5最高的地区就在中国,华北、华东、华中全部在内。世界卫生组织认为,PM2.5小于10是安全值,我国的这些地区全部高于80,比非洲的撒哈拉沙漠还要高。这说明,沙漠里的空气都比这里干净。

唐晓峰的新书 ——《从混沌到秩序:中国上古地理思想史述论》

从混沌到秩序中华书局近期出版了社科院唐晓峰先生所著的《从混沌到秩序:中国上古地理思想史述论》一书。虽然还没机会从市面上购买,但北大李零老师的一篇读书笔记《“地理”也有“思想史”》甚是吸引我。

所谓“上古”,一般是指文字记载出现以前的历史时代。对世界各地上古时代的定义也因此不同。在中国上古时代一般指夏以前的时代。在两河流域和埃及一般指公元前5000年以前的历史时代。因为上古时代没有当时直接的文字记载,那个时候发生的事件或人物一般无法直接考证。这些事件和人物也往往带有神话色彩。在我国历史分期上多指夏商周秦汉这个时期。有时亦兼指史前时代。中国上古时代传说的帝王有:炎帝,黄帝,少昊,颛顼,帝喾,帝挚,尧和舜。之所以是上古地理学思想论述,唐晓峰先生就并不随惯例,又禹贡讲起,而是直接延伸至远古的神话时期,盘古开天和女娲补天。在思想史方面,唐先生还甚有见解的对道家与儒家的地理观进行了对比。

继续阅读唐晓峰的新书 ——《从混沌到秩序:中国上古地理思想史述论》

小小的思辨

一直想把www.yenching.org 买下来,毕竟自己活在燕京,吃在燕京,又学在燕京。所以一直在whois.net上面tracking 域名的到期时间。幸运的是发现2010年2月5号到期,盼星星盼月亮到了2月5号,没想到这厮又续交了一年管理费 👿 。说起来也挺牛的,到了最后一天才续费,真给我泼了盆凉水。

记得那天讲到人地关系,后来又思考了很多,其实地理学的研究主要就是围绕着人地关系展开的。而历史学又是在研究什么呢?司马迁在《太史公序》里有一句话,即“究天人之际,通古今之变,成一家之言”, 其中”究天人之际”也就是研究自然现象和人类社会之间的关系。很大的程度上,我们可以认为地理学和历史学有极为相似的研究目标。粗略地讲,地理学和历史学都是在研究人和自然之间的关系,并试图探索其中的规律。只不过说,地理学更注重空间层面,而历史学更注重时间层面。其次,任何概念都有一个限度,关于地理学,按照钱学森先生的说法,其研究范围是自大气层到地表以下五十公里的人类活动的空间范围。而历史学的研究范围是自有人类文明以来的时间范围。

如此看来,地理学和历史学研究的目的是相同的,只不过是从不同的角度出发罢了。所以——

1)单纯从地理,或者单纯从历史的角度去思考问题,是不是就能最好的诠释人和自然之间的关系?辩证的看,如果缺乏历史学视角来研究地理现象,那么地理学将缺乏纵深,而如果没有地理背景去诠释历史问题,那么历史学将显得单薄。

2)历史地理和地理历史。更多的我们把历史地理做为地理学的一个子学科,该学科强调如何从历史的角度去解释有关自然地理、人文地理方面的问题。而关于地理历史,没有这个概念。倒是可以找到地理史这个概念,而地理史,可以理解为一种专门史。


几本书和杂念

books and my bed
books and my bed

自把床拉倒写字台旁边,就似乎回到了在南大20舍时的床上学习生活。。。

张载(1020-1077)字子厚,号横渠,世称横渠先生,北宋时期著名的哲学家、教育家、思想家,“关学”创始人.
张载(1020-1077)字子厚,号横渠,世称横渠先生,北宋时期著名的哲学家、教育家、思想家,“关学”创始人.

最近对关学比较感兴趣,又读了张载,也初识了冯从吾和刘古愚以及一批关学精英人物。字面上讲,关学就是指关中学术,但该此自出现起,就被赋予了特定的含义,并不是最为宽泛的关中学术。狭义上讲,关学就是指张载的个人学术,张载思想主要有两个特点:1)以气为本,注重自然科学的研究,2)注重实践。其门派发展极盛时,和洛学不相上下。(“关学之盛,不下洛学。” —— 《宋元学案.序录》),但是可惜的是,自张载谢世后,其学生很多转投二程门下,即使获得张载正传的李复也因长期在外做官,使关学没能像洛学、闽学那样形成一个传承的谱系,《宋元学案》也叹息说“再传何其寥寥”。(PS:我个人觉得,关学未能形成完整的谱系的另一个原因,很大程度上也是由于关中地区处于边疆地区,战乱纷至,没法像洛学和闽学那样有一个稳定的社会环境来培育和吸引一批知识精英。);而广义上讲,正如张载之学称为“关学”是后世学者所加,关学在一定程度上也泛指自张载以来,活跃在关中地区的儒学们所秉持的学术观念。关学的发起是由明达大儒冯从吾,他搜罗关中学者编纂成《关学编》一书,将关中理学成为关学,并得到了后世学者的认可。同时,广义上的关学也有着重视自然科学研究,注重实践的特点。关学和关中人的性情是分不开的,而性情又和人所处的自然环境和人文环境不无关系。

地理环境对关学的形成和发展有着什么样的影响呢?有学者认为气候变化造成了契丹、女真、党项,以及蒙古等多个民族入侵中原地区,从而使两宋时期多个国家并立,特别是在北宋地处的边疆的关中地区,为什么又能产生关学?(如果从气候入手,可参考竺可桢先生的《中国近五千年来气候变迁的初步研究》一文以及史念海先生撰写的一系列关于黄土高原以及黄河流域的论文。)

读《人文地理学概说》之三 (西方人文地理学发展的历史回溯)

或然论是对决定论和二元论的一种批判的继承,我很欣赏J.白吕纳 (J. Brunnes, 1869-1930) 在《人地学原理》中《地学精神》一章中关于心理因素和地理关系的诠释。他说:“心理因素是随不同社会和时代而变迁的;人们可以按心理的动力在同一自然环境内不断创造出不同的人生事实来”。,他认为:“自然是固定的,人文是无定的,两者之间的关系常随着时代而变化。”

人文地理学做为一门学科,是近代从西方引进的。从古希腊到罗马,甚至伊斯兰文明,如埃拉托色尼 (Eratoshenes, 273 BC – 192 BC)、斯特拉波 (Strabo, 63BC – 19 AD) 以及伊德列西 (Idrisi, 1099 – 1164)等不少人论述过人地关系。但自“进入中世纪黑暗时代后,神学代替了一切”,直到19世纪后期,地理学科才开始形成地文、人文以及区域三大分支。近代科学地理学的奠基人,德国人A.洪堡 (A. Humboldt, 1769-1859) 和 C. 李特尔 (Carl Ritter, 1779 – 1859)(李旭旦先生称其为K.李特尔,在Encyclopedia中,名称为 Karl Ritter,但更多的称其为Carl Ritter)都为地文和人文地理的研究开创了早期理论。

A.洪堡 (A. Humboldt, 1769-1859) C. 李特尔 (Carl Ritter, 1779 - 1859)

基于人地关系的人文地理学理论,按照出现的先后顺序,依次有 环境决定论、二元论、或然论、适应论、人类生态、文化景观论以及和谐论。其实西方人文地理学从哲学、社会学等人文社会科学中批判地汲取相关理论,包括存在主义现象学、人文主义、激进马克思主义、结构主义、结构化理论、现实主义、后结构主义、后现代主义、女权主义、计量革命,逃避主义以及地方性研究。

继续阅读读《人文地理学概说》之三 (西方人文地理学发展的历史回溯)

读《人文地理学概说》之二 (中国人文地理学发展的历史回溯)

关于中国人文地理学的发展历史,李旭旦先生从战国时期的《尚书. 禹贡》谈起,由于禹贡记载了古代九洲的地理环境以及方域、土壤、物产田赋、交通等情况,李先生认为这是一部具有方志雏形的地理著作。《周易》提出了“视乎天文,以察时变;视乎人文,以化成天下”以及“仰以观天文,俯以察地理”等论点。

先秦著作《礼记.王制》指出:“广谷大川异制,民生其间者易俗”,这其实就带有了环境决定论的思想;孟轲在《孟子.公孙丑下》中则主张:“天时不如地利,地利不如人和”的人定胜天的思想。荀况进一步提出了天人相关论,他主张人类应“制天命而用之”。在他的《天论》篇中发表了“天有其时,地有其财,人有其治,夫是之谓能参”。管仲在《地员》篇认为:“地者政之本也,辨于土而民可富”,已具有因地制宜的思想。东汉王充的《论衡.明雩》篇中说:“夫人不能以行感天,天亦不能随行而应人”,主张人和地各有规律,反对人地关系的绝对化。

北魏贾思勰在《齐民要术.种谷第三》(约533-544年)中提出“顺天时,量地利,则用力少而成功多。任情反道,劳而无获”的说法,已具有人类对自然应该合理利用的思想。“因地制宜”这个四个字虽然是《随书.经籍志》656年才提出,但是这种思想很早就被重视。唐代刘禹锡(772-842年)主张人地相关论,认为:“天与人相交胜”,“还相用”。

明末清初顾炎武(1613-1682年)的《天下郡国利病书》和顾祖禹(1631—1692年)的《读史方舆纪要》都讨论了各地区和人地关联问题。《读史方舆纪要》虽然讲关山险隘,却一再强调人定胜天的思想。清朝刘继庄(1648-1695年)认为治学要解决实际问题及“天地之故”,即要求以人地关系来研究好分析学术问题。最后,李旭旦先生又指出,中国古代并没有系统的人文地理学著作,人文地理作为一门学科是近代从西方引进的。 继续阅读读《人文地理学概说》之二 (中国人文地理学发展的历史回溯)