基于词频的背单词方案
2022-08-29 / modified at 2024-03-31 / 3.9k words / 13 mins

本文将提出一个可复制、可跟踪与度量的背单词方案,能够在2.5个月( 70 工时)内将单词量从4000稳定地提升到7000。

在管理理论中,我们接触了泰勒式的管理方法,本文是将类似管理方法加到背单词中。

快速结论

  • 英语至少要有7000被动单词量才能摸到B2水平(雅思6),而9000的单词量可以基本满足C1(英文流利面试,雅思7),10000的单词能较快速度看专栏杂志。
  • 明确验收标准,信心最重要,用负债表的形式看待不足,时刻估算工时并预测完成时间
  • 通过数字化技术,将“精读”/“改错”等耗脑流程优化为机械的背单词流程。
  • 本文仅能支撑从零到7k的路线,工作够用,留学不行

背景

单词量的要求

如下只具有统计相关性,非因果关系。下面的仅仅是“阅读看懂”的要求,不要求全部精通使用。

  • 考试中的要求:
    • 四六级:大学生平均水平为4500,相当于雅思4.5
    • 英语培训:需要7000以上,否则课本都看不懂。
    • 托福雅思:雅思均分7以上一般需要8400个,建议9000。留学一般需要6.5。托福90分一般需要9000个
    • 商务托业:对托业《托业听力全真模拟1000题 》《托业听力专项突破》《新托业全真新题型》三本合并后,接近满分的单词量仅仅为7200个单词(去掉时态重复后为6200个)。
    • TOP50的同事多年不用英文后,百词斩测试中,普通档是7000左右的水平,学神档是9000单词。
  • 《经济学人/NewScientists》:前95%的高频单词有10000个,难点在于太杂,不太适合刚过6级的新手。这类非论文的科普文章流畅阅读至少需要9000单词,雅思阅读8~9分。
  • COCA 语料库统计:这个方案经过分析,统计并不聚焦,还不如先背考试的核心单词。
  • 母语水平:20000以上

在考试的听力场景中,一般需要精通5000个常用听读单词的能力才能达到80%的分数

在考试的阅读场景中,至少需要认识90%单词量才能确保速度。日常查资料或者新闻至少需要70%单词量,并在借助翻译的情况下可以吃力完成。

综上,一般来说7000个单词是踏入英语门槛的分水岭,才能用上英文教材进行更深入学习。

背单词的现状分析

通过纸质书本/APP进行背单词,或者通过听力电影等方式背单词,有如下问题

  • 背单词总是从“Abandon”开始背,还没背到B列就放弃了;或者反复被生词打断在查字典上
  • 看电影等视频方式无法度量学习成果,只能验收成果
  • 刷阅读听力题会消耗大量时间进行错题整理分类,浪费真题模拟价值
  • 读《经济学人》句句卡顿
  • 听Podcast瞬间走神
  • 工作中接触不到英文,难以自然增长
  • 背的单词又纠结发音不对

这些问题的原因是

  • 没有进行“标准工时统计”,分析可以自动化改进的地方,比如“自动整理错题”,“背单词的遍历顺序”与“进展分析”。这些改进可以通过数字化方案进行改造。
  • 投入了时间,但是没有可度量的范围,过于贪多,也没有里程碑。

个人认为,背单词核心问题是信心与坚持,可以借助外部辅助提高效率。

标准定义

为了解决工作量的度量问题,如下背单词的‘认识“的标准定义。

总体标准

任意7000的单词要求如下

初中级B1(5.5~6)高级C1(6.5~7)
看懂70009000
听懂50007000
听写NA2000
输出NA5000
举一反三NA2000

初中级标准(B1)

如果你的定位不是语言考试,那么背单词是允许债务积压的。不要把标准定的那么高后再躺平。

定义如下

  • 阅读要求:7000,认识至少一个中文翻译即可,尽可能掌握例句,发音可以先欠着。
  • 听力要求:5000,需要能听懂发音,至少一个例句,最好知道多种含义,不要求语境与Hedging。
  • 口语要求:不要求stress/syllable等押韵,中式口音无所谓,但是舌头要大致放对,比如th/sh的区别。
  • 写作要求:不要求背完后就能造句,但求单句的语法不要写错。

在考试中,阅读单项验收标准

  • 雅思的听力阅读均分是为5.5-6,即B1-B2这个分数。这个分数基本代表着看不懂也听不懂。
  • 商务考试的托业LR为850左右,同样要B1。阅读题勉强看懂但做不完的水平。

标准定义的重点就是不要贪多,比如这些损失

  • 背了忘:听不出,读不准,拼不对
  • 假英语:仍无法理解文章/不会造句(比如表达情感/描述物体)与短语

宁可接受债务,也不要发散探索,因为总时间是固定的,如果发散压缩了其它时间,那么单词记忆速度就会降低。拉长战线会导致一无是处。可预测带来信心,信心带来持续的动力。

高级标准(C1)

定义:考试基本是较高水平

  • 阅读单词量测试为9000,要能听写出来
  • 雅思听力阅读为6.5~7分
  • 能够举一反三,找出单词概念上的同义词、外延和内涵。
    • 按照场景分类(比如人文/科技/教育等)
    • 按照精通分类(比如读/拼/说/写)
    • 按照考试分类(比如听力/阅读/写作)

方案实施

单词的原始积累阶段没有捷径,但是投入就有产出。根据与多位英语老师或机构的交流,大部分学员“又懒又蠢”却又想要干货。你只要迈出了死记硬背的第一步就远远甩开了大部分人。

初中级(B1)阶段

主要方法:

  • 死记硬背,通过背单词软件直接背被“高频精选”的考试单词来进行原始积累,这些无法再被细分为精选中的精选了,在生活中也广泛使用,要求必需能听懂。
  • 任何方案都忌讳先错再改,网上很多“精读/精听/改错”等先练后改的方案明显是题海战术,它无法准确控制改错的时间消耗,你的信心也会在频繁地查字典中消耗殆尽。

优先背如下单词

  • 百词斩《雅思核心》3200个,都是日常的高频单词,即使不考雅思也必须背
  • 百词斩《托业高频》1500个,主要为比较正式的商业词汇,工作人士即使不考托业也必须背
  • 去掉重复后共需要背诵 (3200+1500-600)= 4100个,结合以前的四六级基础,加起来就能达7000了
  • 人名与地名:日常积累,否则听力与阅读总是卡卡的

测试如下,时间均基于Screen Time来统计的,而不是拍脑袋算的,每个人需要自己具体统计估算

  • 见过生单词(含第二天的复习单词)约一小时200个,总共需要约 20工时
  • 复习需要5~6轮,5*4100/600 = 34 工时,第一轮错误率为1/8。不要纠结“三天忘”,背6次肯定没那么快。
  • 收藏夹错词复习,按照比例20%,约 8 工时,不要欠太多

总计 62 工时,加上效率损失,粗略看作 70 工时(前提还是高度坚持,高效时间)。注意

  • 新单词需要高强度每天200以上,旧单词建议800以上,后面还有多轮复习。不要每天40个单词磨洋工
  • 不要追求速度,30秒彻底掌握一个陌生单词是不现实的。
  • 最好分批学习,因为一天集中2小时很容易丢失耐心
  • (可选)背新单词尽可能阅读例句,否则例句可能永远错过,后续没有造句能力。

个人高估了自己的耐心,预计每周14小时,实际统计每周实际时间为7.5小时,共耗费9周(2.5个月)完成,每天一小时开始有压力,后续形成习惯就好了。

高级(C1))阶段

当单词背完后,考虑如下

  • 报纯英文的语言授课班,让语法达到B2与C1的水平,并在中间穿插背单词。需要有专业和强度。
    • 语法难以在短期形成体系,基本需要准备半年的业余时间。
    • 不要报雅思班(以讲真题与技巧为主),需要去报语言班(以语法/对话/逻辑/写作为主)。
    • 培训班最好基于熟人推荐(深圳上海可推荐)或者点评看看差评,不要去X红书找,也不需要找洋人教你发音技巧。
  • 可以开始练习听力,基于原文去巩固单词
  • 考试场景:使用现成的提纲,底层是通过题目词频统计的。
    • 《王路807》听力:约2300个,8分需要100%写对且听懂。需要一个一个去听说读写的枚举测试。
    • 张红岩《词以类记》:总共约3800单词,难度较高,个人在7k单词量时测试为只懂40%
    • 百词斩《雅思全集》7000单词
  • 自学场景:需要先背单词后进行阅读。通过Python代码分析试卷(听力)/原版书的高频词汇,并过滤已认识的单词,详见下文。

可选的

  • 百词斩《经济学人》高频单词1300个(约三周),背完后差不多能8000单词量,达到85%的识字率
  • 练习《English Vocabulary in Use Upper-Intermediate》,提高constructive能力
  • 暂时放弃以学习的名义去阅读文学作品(基本上都是C2级别)与各种影视作品

工具:基于已认识的单词持续改进

(此方法需要有7000单词量再考虑使用,同时不支持分析Phrase短语)

首先需要准备并积累两份名单,一份为白名单标记认识的单词,一份为黑名单标记不认识的单词。这个是体力活,确保总单词量是精确可枚举的,仅需要几小时不要觉得麻烦。

然后需要获取考试或者书籍的电子书,并用pandoc/calibre转为txt格式,执行如下分析命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
## 脚本地址: https://github.com/miao1007/mieru
➜ python calc.py toeic.txt
-----------------------------------------------
======== All vocabulary list for now =========
-----------------------------------------------
status discrete redundant
-----------------------------------------------
white 6518 7314
black 4687 4971
-----------------------------------------------
book text count: 51430
-----------------------------------------------
======= Book vocabulary list for now ========
-----------------------------------------------
status count distict weighted
-----------------------------------------------
unexplored 0 0.00% 0.00%
black 1589 28.17% 9.56%
white 4052 71.83% 90.44%
-----------------------------------------------

上述表示我已经人工标记了6500个认识的单词,4600个没背过的单词。在toeic.txt这本书中,我认识了71%的单词。拥有白名单后,意味着你可以秒级分析任意一本书(网页/字幕),统计其中生单词的个数,进而选择适合自己的书籍。通过上述方法,可以精确定义“适合自己的书”,或者先背单词再看书。

理论上加权与不加权的比例应该是接近的,这样才能表明你进行了合理的优先级分配。这种挑核心单词背诵的方案类似健身时专注于某块肌肉,能快速见效,是ROI最高的方案。

上述会自动生成单词的词频,可以导入到Eudic/Quitz等平台中。

附录

工时分享

如下为百词斩的单词量测试结果,仅供参考

  • 初始单词量:4200,刚刚飘过六级,除了IT科技类外都看不懂
  • 《托业核心》初完成:5000
  • 《托业+雅思核心》初完成:5500
  • 《托业+雅思核心》第一轮复习完成:6000
  • 《托业》5轮,《雅思》3轮:7100。这个感觉到不准,因为枚举统计为6500个。
  • 《托业》5轮,《雅思》5轮:7800。感觉越来越不准了。

Q&A

Q:网上说死背单词的都是“假英语”

A:死记硬背到7000单词即使复习5轮,也只需要70小时,成本低到不值得讨论“真假”。


Q:单词量估算网站准确吗?

A:估算本质上是通过贝叶斯等统计算法反推的预测,假如你去专门背高频词汇,那么单词量会被稀释而被高估,因此最准确的还是积累全量的标记测试。

个人某次实际枚举测试是5200左右,然而在百词斩的测试是6000,在扇贝是8600,在preply是5150。个人经验是百词斩减去800才是真实水平。

词汇量测试:https://preply.com/en/learn/english/test-your-vocab


Q:到底是否需要代入语境去背单词?
A:这本质上是一个深度还是广度的问题。低单词量(低于7000)下暂时没必要,因为低单词量下首要任务是见过单词,而代入语境意味着“一词多背/举一反三”,导致时间难以被准确估算(按照记忆曲线标准时间至少要乘以8),信心被打压。


Q:看电视剧/电影/游戏/VOA/BBC/Ted Talk有利于考试学习?

A:可以直接通过AI工具分析字幕/单词,然后先按照频率背单词,再进行听力与口语训练。不喜欢看就不要逼自己看。


Q:是否建议阅读《经济学人》?

A:如果以考试为目的不推荐阅读杂志,背高频单词加刷题效率最高。如果以兴趣为目的,建议9000单词量加学好语法再读。


Q:推荐哪款背单词软件?

A:单词作为散乱数据的记忆场景,一般是通过艾宾浩斯曲线作为指导,其实就是算法辅助下的死记硬背,没有捷径。使用了如下几款

完全投喂方案

  • 百词斩等软件:拥有海量报错反馈,适合初学者,但是不支持导入导出,适合从零积累至7-8K的单词使用。如果后续不考试可以接着用,如果考试就需要转欧陆词典了。

中等定制方案

  • 欧陆词典:支持导入导出,工具属性很专业,我认识的专业老师也使用。系统会自动合并动词变形等冗余数据,推荐7000+后使用。

其它方案(不推荐)

  • Anki/Quitz:英语作为最大语种没必要上这种重型工具。主要问题是能否可以拿到权威数据源。

另外还有在线单词评级网站:一款支持给单词难度打分的AI工具(含AFF)。


Q:词根 (word root dictionary)有用吗?

A:暂时没有用,因为在7000量级下特例(irregular)太多,猜中概率太低。但是发音中有用。参考字典


Q:你还踩了哪些坑?

A:网上的经验分享,都说B站/小红书里的资料很好,但是这些玩意用起来上瘾反而忘了主业。本方案完全是借助统计与逻辑形成的证明,没有借鉴任何国内外博主的分享。