Hacking Chinese

A better way of learning Mandarin

What important words are missing from TOCFL?

I recently published an article where I analysed the HSK vocabulary lists with the goal of finding words that aren’t on the official lists, but that are actually very common. I also identified words that are on the lists, but are introduced much later than would be expected by looking at their frequency rank.

This week, I have done something similar for TOCFL (Test of Chinese as a Foreign Language), which is the standard proficiency test in Taiwan (read more on the official website). The goal and methodology is the same as for the previous article, so I will only repeat the most important bits here.

I’ve recorded an audio version of this if you prefer listening instead of reading:

If you’re focusing on HSK yourself or want to read more about the background to this project, you can read the HSK article here: What important words are missing from HSK?

This article is about TOCFL, though, so if you’re interested in finding out words you might be missing if you’re studying the word lists for this test, you’ve come to the right place!

What important words are missing or delayed in TOCFL?

To answer this question, it’s necessary to first define what “missing” means. I wrote about this at great length in the previous article, but to put it very briefly, I checked all high-frequency words to see if they were also included on the TOCFL vocabulary lists, and if they were, I checked when they were introduced.

To make sure that I only found words that are more common than those on the test, I looked for words that were ranked twice as high on a frequency list as they were on TOCFL.

For example, I checked the most frequent 2500 words to see which were actually on TOCFL level 4, which covers 5000 words. You should not use word lists to expand your vocabulary, but they are useful for plugging holes!

Mapping the terra incognita of Chinese vocabulary

What does “common” mean, anyway?

There are many frequency lists available. For the article about missing and delayed words in HSK, I used a corpus based on movie and TV subtitles, but I don’t think there is such a corpus for traditional Chinese, and converting from/to simplified Chinese is fraught with problems.

Instead, I chose to use the Academia Sinica Balanced Corpus of Modern Chinese. This list is more formal than the one I used for HSK, and we should expect that many of the words that are delayed in TOCFL are words that are common in writing, but are introduced later to foreigners studying Chinese as a second language.

Trimming the list of missing words

Just like for the HSK article, I manually went through all missing words and discarded many of them. The principles I used when deciding what to keep were deliberately kept the same as for HSK. I will not repeat the details here, so please refer to the other article for more information.

In short, I discarded items that aren’t words, are combinations of obvious parts, logical extensions of existing words, negated forms, phrases and so on. The goal was to only include words that a student might indeed want to learn, so even if 很多 and 畫畫 were on the raw list, these were deleted (the first is obviously not a word, the second is a regular reduplication of a word that is already on the list).

Types of words left out of the TOCFL word lists

The main finding is that most words on the frequency list are on the TOCFL lists as well, but many of them have been delayed, probably because of the formal/spoken divide I mentioned earlier. There are actually very few high-frequency words that are not on the exam at all; only 44 for the first three levels.

Here are some categories of words that I took note of while going through the list:

  • Names of places and people are missing – These are highly relevant for students, but are largely left out of TOCFL. Most textbooks have them, but if you focus solely on TOCFL, you will miss important names like 英國 and 法國. Famous people are also missing, such as 孔子. This also includes common surnames like 王, 陳 and 林.
  • Business, technology and politics are underrepresented – There seem to be many words in these areas that are very common, but for some reason don’t appear at all on the TOCFL lists. Examples from each category respectively include: 購物, 行銷; 界面, 平台; 立委, 立法院.
  • Abbreviations are often left out – This is not very strange, but since it’s sometimes not obvious what these stand for, I have included them anyway.

Lists of missing and delayed words in all levels of TOCFL

Below, I have shared the complete lists, including the raw list of missing words before my manual culling for those who want to have a go themselves.

For most students, though, simply check any TOCFL level at or below your current level, and see what words you might have missed.

You will probably find that you know many of these, but you can safely assume that those that you don’t know would be good to know, with the caveat that they will lean more towards written Chinese.

Please note that this sorting was done manually and probably contains some inconsistencies. My goal was to include words that students at this level might want to know and that there is a fair chance that you’d miss if you only focus on TOCFL. I have also created a deck with all these words in Skritter for your convenience!

If you have any questions or suggestions for how to use this material, please leave a comment below!

References and further reading

Academia Sinica Balanced Corpus of Modern Chinese

Words missing from TOCFL level 1 (1)

Words delayed in TOCFL level 1 (259)

 

自己
表示
如果
社會
因此
但是
使
使用
這些
由於
這樣
認為
時間
系統
政府
許多
已經
研究
活動
世界
方式
環境
必須
文化
沒有
不同
網路
中心
雖然
進行
關係
提供
應該
指出
經濟
其他
發展
教育
成為
便
方面
然後
發現
而且
不過
無法
企業
服務
空間
如何
國內
對於
以及
之後
人員
產品
資訊
資料
比較
除了
大陸
需要
地區
技術
特別
其實
國際
發生
其中
包括
造成


Words missing from TOCFL level 2 (4)

業者
我國

Words delayed in TOCFL level 2 (252)

單位
是否
處理
只要
甚至
情況
主要
增加
提出
利用
設計
之間
成長
能夠
時代
完成
相當
能力
生命
會議
開發
民眾
事實
有關
組織
建立
相關
產生
解決
完全
的話
接受
推動
過程
功能
要求
小朋友
教授
內容
結果
調查
成立
選擇
經營
然而
人類
至於
尤其
配合
進入
例如
作品
情形
資源
原因
觀念
軟體
品質
如此
精神
參與
於是
部分
另外
透過
訓練
研究
具有
共同
所謂
行為
合作
合作
目標
考慮
意見
廠商
受到
一切
中央
女性
教學
獲得
真的
國小
部份
工程
舉行
只是
根據
現象
人民
土地
面對
繼續
政策
變成
強調
人士
存在
制度
意義
代表
課程
需求
人生
產業
負責
民間
直接
幾乎
實際
團體
價值
使得
形成
科技

Words missing from TOCFL level 3 (29)

中共
北京
國民黨
蘇聯
伊拉克
英國
新竹
美元
新加坡
兩岸
中華
台大
高雄
整合
理念
尚未
資料庫
行政院
河川
民進黨
運作
中華民國
法國
訊息

Words delayed in TOCFL level 3 (227)

本身
應用
或者
自我
即使
執行
針對
此外
並且
事件
研究所
學術
達到
結構
支持
學者
階段
申請
申請
壓力
規定
作為
機構
而是
鼓勵
狀況
專家
不僅
分別
顯示
屬於
實施
主義
不再
電子
因素
推出
大量
逐漸
運用
規劃
業務
報導
感到
從事
人才
行政
媒體
社區
結合
通常
缺乏
委員
控制
原則
來自
形式
規劃
前往
製作
取得
國中
雙方
程式
婦女
彼此
成本
而已
整體
根本
歐洲
加以
充滿
系列
隨著
分析
意識
大眾
官員
改革
適合
居民
感情
獨立
面臨
選手
內部
競爭
專利
現場
客戶
印象
保持
時期
保持
實驗
類似
方案
原本
措施
社團
展開
道路
項目
原住民
策略
平均
亞洲
採取
大型
持續
製造
醫療
保存
評估
唯一
的確
用戶
快速
設施
複雜
作用
調整
動作
模式
推廣
具體
立場
因而
少年
輔導
爭取
輔導
尊重
危機
完整
完整
上述
呈現
比例
難以
機關
情緒
勞工
一旦
多媒體
享受
趨勢
設立
另外
統一
統一
人力
立即
適當
醫師
就是說
公開
銷售
銷售
維護
投入
有限
預算
計算
效率
位於
股市
召開
觀光
來源
理由
看看
合理
生物
給予
答案
規定
金融
農民
法令
民主
無論
遊戲
形象
導致

Words missing from TOCFL level 4 (130)

院士
族群
特性
影像
建築師
校方
國人
德國
政大
經由
建築物
上海
專案
孔子
其它
提昇
同仁
即可
人文
電信
焦點
胡適
行銷
因應
紀錄
縣市
男子
內心
女子
人性
研發
大幅
保育
立委
認同
股票
教育局
情感
紐約
創意
台中
網際
視訊
中東
購物
共識
法規
特質
民意
野生
份子
藝術家
市府
諮詢
授權
澳洲
特定
縣長
縣府
資產
董事長
競爭力
毛澤東
層次
反彈
尋求
手法
立法院
組合
層面
韓國
徹底
營運
境界
奧會
財務
清華
龐大
巴黎
理事長
嗯哼
安非他命
年度
設定
漢人
彷彿
東京
知名
查詢
校務
幼稚園
大師
北市
課題
契約
訂定
科威特
透露
品牌
會長
核心
座談會
全民
賺錢
鳥類
高雄市
家族
身心
個案
大專
南非
藉著
視覺
實驗室
病患
螢幕
輔大
設計師

 

Words delayed in TOCFL level 4 (146)

生態
權力
成員
提升
提升
譬如
視為
興建
興建
治療
國民
至今
考量
考量
特徵
治療
集團
心態
畫面
型態
架構
體系
協調
協調
衝突
懷疑
懷疑
互動
互動
連線
連線
景觀
他人
總經理
宇宙
關懷
關懷
攻擊
攻擊
引進
引進
證券
某些
聯盟
不得
事務
權益
予以
文明
金錢
累積
展現
類型
不妨
彈性
硬體
規範
得以
極為
期待
期待
主力
衝擊
基地
有意
主導
足夠
主導
困擾
議員
所在
優勢
流程
階級
之所以
進而
將軍
分享
遺址
造型
分享
不禁
草案
身為
性能
反省
反省
預防
預防
困境
呼籲
呼籲
必然
著手
數據
條例
指標
下列
人際
爭議
實質
水庫
候選人
內涵
患者
依照
指數
動態
部落
與會
飛行
飛行
理性
本質
捷運
拍攝
拍攝
以致
獎勵
質疑
質疑
形態
步驟
收費
收費
促使
階層
期望
日益
檢討
檢討
繪畫
納入


Words missing from TOCFL level 5 (205)

巴西
生涯
義工
業主
決策
故宮
唱片
效益
華航
更新
蒐集
觀賞
情勢
推展
師大
波斯灣
房地產
重複
業界
現況
公頃
主機
分類
泰國
倫敦
部屬
問卷
肝炎
新台幣
東南亞
印表機
風貌
奧運
殘障
台幣
筆者
專題
案例
經銷商
將近
印度
不已
中油
公主
黃金
單元
工程師
遠距
保護區
版本
事項
宜蘭
瓷器
荷蘭
花蓮
推行
回應
講師
李登輝
合作社
印尼
錄影帶
團隊
主體
對手
建構
書記
太平洋
轉換
立法
涵蓋
完工
用地
認知
音樂會
預期
模擬
輔助
組長
專長
後者
澎湖
加拿大
以色列
參賽
塑造
社會主義
時空
嬉皮
行情
先導
聯考
和尚
義大利
評鑑
搜尋
情境
評鑑
社長
身份
司法
東吳
物件
違規
瑞士
擴充
對應
主委
單一
歷經
加州
依法
大躍進
城鎮
研擬
科系
編列
慾望
籌備
追蹤
安打
列印
宣導
城堡
資策會
績效
鏡頭
氣質
訴求
台南
記憶體
定位
基隆
效應
舊金山
屏東
得知
專輯
核酸
山西
聯邦
台電
錦標賽
童年
申報
費率
股價
歌聲
桃園
溫馨
中興
有待
前者
價位
腫瘤
古人
陽明
高階
維修
廿
說道
台商
公營
園區
停車
馬來西亞
注音
含有
售價
違法
回饋
寧靜
分組
晚間
美金
平台
豪華
心力
取向
兩性
專用
介面
大戰
偵辦
區分
同步
壓抑
預料

Words delayed in TOCFL level 5 (0)

There are by definition no words delayed in TOCFL level 5. Level 6 shared the same word list, so there is no higher-level word list to delay words to.




Tips and tricks for how to learn Chinese directly in your inbox

I've been learning and teaching Chinese for more than 15 years. My goal is to help you avoid making the mistakes I made and those I have seen other students make. Sign up for my weekly newsletter and get a 7-day crash course on how to learn Chinese!

Please wait...

Please check your inbox and confirm your email address!

5 comments

  1. bankingallinfo says:

    Nice post

  2. Asane says:

    Can you provide the TOCFL and Missing words together in order of Frequency? I’ve been using an extensive T1 sentence audio deck from a combination of sources, and then ordered them with Morphman. However I haven’t found a good traditional character word frequency to sort by. This would make a great learning order list.

    1. Olle Linge says:

      I think they already are in order of frequency! Or at least as close to it as to make no difference.

      1. Asane says:

        I haven’t seen TOCFL lists in order of frequency. Usually it’s in some kind of phonetic or character order. But with 1.5K+ words per level beyond novice, that’s a lot of vagueness when learning for comprehension and not a test. I’ve also heard the TOCFL often includes a lot of words from the next higher level, so learning the most frequent ones for the test may be beneficial.

        1. Olle Linge says:

          Ah, I thought you meant the missing words in particular, not the whole list. I’m usually quite good at saving data from old projects, but in this case, I don’t seem to have saved earlier stages, so the best I can offer is the raw word frequency list I used. I think (reasonably sure) this is from Academia Sinica as mentioned, but I can’t actually find the original anymore. If it’s for your own use, then it probably works, but otherwise you probably need to find something better. Here’s a pure text file. Hope this helps!

Leave a comment

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.