日本語対話コーパス一覧

これは日本語を対象とした、対話システムの構築に利用できる言語資源のリストです。

本リストは、理化学研究所吉野幸一郎さん発案のもと、C4A研究所中野幹生さん、東北大学赤間怜奈さん、大阪大学駒谷和範さん、JAIST 吉川禎洋さん、リクルート林部祐太さん、京都大学児玉貴志さん、愛知工業大学徳久良子さん、名古屋大学山下紗苗さんにご協力をいただき、水上雅博が作成いたしました（所属はリスト作成または更新時のものです）。

もしこのリストに載っていないものや、リストのまちがいに気づかれた場合、新たにコーパスをリリースした際には是非、issueやメールで教えてください。

対話コーパス

主に人同士または人とシステム間（2名以上の場合を含む）で、対話（模擬対話等を含む）を行ったコーパスです。

名前	データ量	形式	研究利用	商用利用	概要
名大会話コーパス	129会話，合計100時間	音声及び書き起こし	CC BY-NC-ND 4.0	同左	日本語母語話者同士の雑談を文字化したコーパス。現在は国立国語研究所で公開。
CABank Japanese Sakura Corpus	18会話，合計7.5時間	動画及び書き起こし	TalkBank規約に従う	同左	4話者1グループで行われた対話を文字化したコーパス。最初は対話のトピックを参加者に与えて対話を開始する。
CABank Japanese CallHome Corpus	120会話，合計18.5時間	音声及び書き起こし	TalkBank規約に従う	同左	北米在住の日本語母語話者による日本国内の家族や友人への国際通話。録音を了承したうえでの雑談。会話内容に制限なし。
CABank Japanese CallFriend Corpus	60会話	音声及び書き起こし	LDC User Agreement for Non-Members	同左	言語同定用のコーパス。北米在住の日本語が母国語の話者の通話を録音。対話あたり5~30分程度。話者の性別、年齢、学歴、通話相手などの情報も付与。
BTSJ日本語自然会話コーパス	446会話、合計112.5時間	書き起こし（一部音声あり）	無償（要申し込み）	記載なし	いくつかの場面に分けて雑談を収録。「発話の重なり」や「沈黙」など語用論的分析に有益な情報を付与。
日本語話題別会話コーパス (J-TOCC)	15話題×120会話、合計150時間	書き起こし	無償（要申し込み）	記載なし	話題ごと、話者ごとに同じ時間数の対話を収録。話者ごとに話題にどれだけ詳しいかという「話題精通度」情報を付与。
日本語共感的音声対話コーパス (STUDIES)	長い対話150＋短い対話720、合計8時間	音声	無償（要申し込み）	記載なし	声優3名（講師役の女性1名と生徒役の男女各1名）による模擬対話音声を収録。対話は台本に従い、指定された感情で対話相手に共感するように発話。
大音泉 The Corpus of Dialogue Speech in Japanese (CDSJ)	500対話以上、1対話15~30分	音声および書き起こし	音声のみ1対話5000円、書き起こしあり1対話20000円	同左	私的又は公的ないくつかの場面を自然に再現した二者間自由発話対話音声データ。
Capex雑談対話コーパス	約15,000対話	テキストのみ	無償	不可	雑談対話アプリの対話ログからシステムとユーザの対話（5ターン）を収集。システムの最終発話には対話破綻ラベルが付与されている。
日本語日常会話コーパス Corpus of Everyday Japanese Conversation (CEJC)	461対話、合計200時間	動画及び書き起こし	無償・要申請または有償・要契約	可	各年代の男女、各4名による日常生活の対話を収録。一部に談話行為、韻律、話者のメタ情報などが付与されている。
高齢者情報案内・傾聴対話コーパス	60対話、合計20時間	音声及び書き起こし	CC BY-NC-ND 4.0	不可	国家資格を持った臨床心理士・介護士、学生（比較用）と高齢者との情報案内・傾聴対話を収録。対話内容はポジティブ・ネガティブなニュースの話題で構成される。
大阪大学マルチモーダル対話コーパス (Hazumi)	214対話、約54時間	音声・動画・Kinect情報・書き起こしほか	無償・要申請	不可	対話エージェント（別室にて人が操作するWoZ形式）と人との対話の様子を収録。一部に姿勢や生体信号、対話行為のデータも収録。
京都観光案内対話データベース	100会話，合計50時間	音声及び書き起こし	ALAGIN会員のみ	同左？	プロの観光ガイド（3名）と、旅行者を模した被験者（100名）による2話者の対面対話を収録。1対話およそ30分程度。
NICT声優対話コーパス	21会話，合計7.5時間	音声及び書き起こし	ALAGIN会員のみ	同左？	声優2名による掛け合いを収録。ただしデータは1名分のみ配布。対話内容は京都観光案内対話データベースから抽出。
GSK2007-A JEITAマルチモーダル対話コーパス	9対話、合計80分	動画、音声及び書き起こし	有償	不可	人同士のタスク対話を収録。タスク内容は「顔課題」と「旅行課題」の二つ。形態素情報や対話構造、韻律に関するタグを付与。
GSK2012-B 電総研道案内対話音声コーパス(1998)	162対話、合計16.5時間以上	音声及び書き起こし	有償	不可	システム（自動推論エンジンを実装した機械）と人間との対話の様子を収録。システムはWOZ形式で操作。発話ターン・うなずき。割り込みなどの分析が可能なよう設計。
GSK2013-A REXコーパス	162対話、合計16.5時間以上	動画、音声及び書き起こしほか	有償	有償・要契約	2名が協力してコンピュータ上で図形パズルを解く過程の対話を収録。音声のみでなく、パズルを解く画面の動画、パズルに対する賛称表現、視線、マウス操作情報などが付与。
日本語Transformer Encoder-decoder対話モデル学習データセット	PC約5k対話、ED約20k対話	テキスト	公開モデルの評価・検証目的でのみ利用可能	不可	Persona-chatおよびEmpathetic Dialogueコーパスの日本語版。どちらもクラウドソーシングを用いて収集。
音声対話データベース - 96年版 (RWCP-SP96)	28対話	音声	無償	不可	人同士のタスク対話を収録。タスク内容は「自動車の購入」と「海外旅行計画」の二つ。顧客（質問者）と専門家（回答者）がペアになり、質問応答形式の自由対話を行う。
音声対話データベース - 97年版 (RWCP-SP97)	13対話	音声	無償	不可	音声対話データベース - 96年版 (RWCP-SP96)と同様の形式で、タスクは「海外旅行計画」のみ。
会議音声データベース (RWCP-SP01)	7対話	音声および動画像	無償	不可	4人以上が参加する模擬会議を収録。模擬会議の内容は参加者の職業に応じた企画・立案に関するテーマを設定。
重点領域研究「音声対話」対話音声コーパス (PASD)	93対話、合計7.5時間	音声	無償	不可	人同士のタスク対話を収録。タスク内容はスケジュール管理、クロスワードパズル、旅行案内、地図課題など様々。
理研ワープロ操作対話音声コーパス (RIKEN-DLG)	約50対話	音声	無償	不可	人同士のタスク対話を収録。タスク内容はワープロ操作に関する内容が主。「文書作成依頼」など一部のタスクでは複数の話者が参加。
千葉大地図課題対話コーパス (MapTask)	128対話、約23時間	音声	無償	不可	地図を用いた課題遂行対話。使用した地図画像も入手可能。
三重大地図課題対話コーパス (MapTask-Mie)	8対話、約2時間	音声	無償	不可	千葉大地図課題対話コーパス (MapTask)と同様の形式。ただし、地図情報から目標物の名称がなく、指示表現が誘発されるように設計。
宇都宮大学パラ言語情報研究向け音声対話データベース (UUDB)	7対話	音声および書き起こし	無償	不可	「4コマ漫画並べ替え課題」を対象とした友人同士の対話を収録。音声言語に付随するパラ言語情報（タメ口など）に主眼を置いて設計・構築。加えて感情・態度・意図などのパラ言語情報ラベルを付与。
千葉大学 3人会話コーパス (Chiba3Party)	12対話	音声および書き起こし	無償	不可	同性3人にからなる友人同士12組の雑談を収録。会話の内容や進行には極力制限を加えない自由対話。加えて形態論情報を付与。
The Business Scene Dialogue corpus (BSD)	325/34/34対話	テキスト	CC BY-NC-SA	同左	ビジネスシーンに応じた日英の対話を収録。対面での対話やミーティング、プレゼンテーションなどを設定。学習・開発・評価用にデータ分割済み。
工学院大学多用途型日本手話言語データベース (KoSign)	10対話、合計83分	動画ほか	無償	記載なし	手話母語者2名による10テーマ10件の対話を収録。動画のほかKinect情報やモーションキャプチャも付与。
Pythonでつくる対話システム配布データ	579対話	テキスト	書籍購入者のみ	書籍購入者のみ	2名の話者によるSkypeを用いたテキストチャットの収録。話者はクラウドソーシングを通して募集。
対話破綻検出チャレンジ雑談対話コーパス	1146対話	テキスト	無償	無償	NTTドコモが一般公開している雑談対話APIを用いた対話システムとユーザの21発話からなる対話を収録。各システム発話に対して，対話破綻（対話を継続することが困難）かどうかのアノテーションを3段階で付与。
対話システムライブコンペティション予選評価対話ログ	シチュエーション約300対話、オープン約250対話	テキスト	MITライセンス	MITライセンス	対話システムライブコンペティション（対話システムの性能を競うコンペ）の予選で人とシステムが対話したログを収録。加えて、対話に対して自然さなどのスコアを付与。シチュエーションとオープン、また、システムごとに性能や傾向、対話数が異なることに注意されたい。
おーぷん2ちゃんねる対話コーパス	約815万対話	テキスト	無償	無償	おーぷん2ちゃんねるの掲示板で行われた対話を収録。加えて、コーパス以外に「応答順位付けタスク用データ」や評価用スクリプトも配布されている。
Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)	210会話＋約10万発話	テキスト	CC BY 4.0	可	宿泊施設を探しているカスタマーとエージェントのテキストによる対話を収録したコーパス。加えて、発話の要件（どのような宿が良いかなど）や対話行為などのアノテーションも付与。
日本語映画推薦対話データセット (JMRD)	5,075対話、約11万発話	テキスト	CC BY-SA 4.0	可	クラウドワーカーが推薦者と被推薦者に分かれて映画推薦対話を収録。全ての推薦者側の発話に対して推薦の参考にした外部知識の情報を付与。
Ojousama Talk Script Dataset	200対話	テキスト対話	MITライセンス	可	一般人とお嬢様の会話を模したおデータセットですわ。
日本語日常対話コーパス（Japanese Daily Dialogue）	5,261対話	テキスト対話	CC BY-NC-ND 4.0	不可	日常生活や学校での対話などの5つのトピックについて，可能な限り規範的な言語表現（語彙、語順）で発話を構成した対話コーパス。
Roseblue ゲームシナリオデータセット	約550万文字	テキスト対話	Apache License 2.0	可	10タイトルのゲームのシナリオから、話者と発話を抜き出したデータセット。成人向けシナリオもあるため、一部にセクシャルな描写を含む。
Character Conversation Dataset	約2万文字	テキスト対話	Apache License 2.0	可	公開終了した同人ノベルゲームのシナリオから、話者と発話を抜き出したデータセット。
megagonlabs/instruction_ja	669対話	テキスト対話	MITライセンス	可	kunishou/hh-rlhf-49k-jaの一部を人手で改変して自然な日本語表現にした日本語指示データ
感想付きニュース雑談対話コーパス	合計1047対話	テキスト対話	MITライセンス	可	ニュース記事と、それに対するツイート、ニュースに関連する雑談対話の三つ組のデータ。雑談対話はWizard-of-Oz方式による人同士の対話。
BPersona-chat	合計1495+250対話	テキスト対話	CC BY-NC 4.0	不可	日本語と英語で収集したペルソナチャットと、それをプロの翻訳者、翻訳モデルにより互いに英語と日本語に翻訳したデータ。ペルソナチャットはクラウドソーシングで収集。
対話応答選択テストセット	1,019対話	テキスト対話	記載なし	同左	雑談対話応答生成システムの評価のためのデータセット。OpenSubtitlesとDailyDialogから発話を抽出して人手評価を付与。
RealPersonaChat	13,583対話	テキスト対話	CC BY-SA 4.0	可	話者本人の（ロールプレイではない）ペルソナと性格特性を持つ雑談対話データセット。ペルソナの個数は233個。
JMultiWOZ: Japanese Multi-Domain Wizard-of-Oz Dataset	4,254対話	テキスト対話	CC BY-SA 4.0	可	マルチドメインタスク指向型対話データセット。日本国内へにおける観光名所、宿泊施設、飲食店、買い物、交通、天気に関するドメインを含んだ旅行を検討する対話をWizard-of-Oz方式で収集。

対話関連コーパス

人同士の対話ではなくとも、質問応答や講演などの１話者による発話の集合、インタビューなどの対話に近い形式のコーパスです。

名前	データ量等	形式	研究利用	商用利用	概要
GSK2018-A 対照群付き高齢者コーパス	インタビュー80件ほか	音声及び書き起こし	GSK会員限定無料配布	不可	高齢者群と非高齢者群に対するインタビューを収録。インタビューの内容は「最近あった楽しい出来事」や、自己のエピソードに関する10個の質問について語る自然文課題など数種類ある。
AI王コンペティション学習用データセット	22,355問ほか	テキスト	CC BY-NC-ND 4.0?	同左	日本語質問応答研究のためのクイズ問題のデータセット。JSON形式にて（正規化された）問題文、回答が格納される。
AI王+Wikiコンテキスト追加データセット	2939+980問ほか	テキスト	CC BY-NC-SA 4.0 DEED	同左	AI王公式配布データセット(JAQKET)へ、Wikipedia のコンテキストを追加したデータセットです。
大声解 The Corpus of Oral Presentations in English (COPE)	合計4時間	音声および書き起こし	無償	不可	『日本語話し言葉コーパス（CSJ）』の模擬講演の一部との対照研究ができるように収録。加えて非流暢性ラベルや節境界ラベルを付与。
JGLUE: Japanese General Language Understanding Evaluation	約7万件	テキスト	CC BY-SA 4.0	同左	日本語言語理解ベンチマークの一部に質問応答タスクを収録。JSQuADとJCommonsenseQAの2種があり、それぞれTrain/Dev/Testに分割済み。
Japanese Visual Genome VQA dataset	約80万件	テキスト	CC 4.0	同左	日本語のVisual Question Answering (VQA)データセット。QA部分のみ配布され、画像は別途Visual Genomeからダウンロードする。
YJ Chat Detection Dataset	約1.5万発話	テキスト	無償?	不可	Intelligent Assystantへの話しかけに対して、雑談かそれ以外かのラベルを振ったデータセット。
Yahoo!知恵袋データ（第3版）	Q約263万、A約670万件	テキスト	無償?	不可	Yahoo!知恵袋に投稿されたQAデータ。質問と回答以外に質問のカテゴリ、投稿および解決の日時、ベストアンサーフラグなども付与。
japanese-contextual-qa-chat	合計10万件程度	テキスト	MITライセンス	可	抽出型QAのデータセットJSQuadとJaQuADの回答を、チャットボットの回答のような形式に変換したデータです。

更新履歴

2024.7.2 BPersona-chatのURLを修正しました
2024.4.2 本ページの説明文を修正しました
2024.3.25 感想付きニュース雑談対話コーパスほか計5件の情報を追加しました
2023.12.13 japanese-contextual-qa-chatほか計1件の情報を追加しました
2023.10.11 Roseblue ゲームシナリオデータセットほか計3件の情報を追加しました
2023.7.6 日本語日常対話コーパス（Japanese Daily Dialogue）の情報を追加しました
2023.3.3 OjousamaTalkScriptDatasetの情報を追加しました
2022.7.21 大阪大学マルチモーダル対話コーパス (Hazumi)の情報を更新しました
2022.7.21 日本語映画推薦対話データセットの情報を追加しました
2022.6.20 CABank Japanese CallFriend Corpusの情報を追加しました
2022.6.18 Accommodation Search Dialog Corpus (宿泊施設探索対話コーパス)の情報を追加しました
2022.6.8 JGLUEの情報を更新しました
2022.6.7 JGLUEほか計4件の情報を追加しました
2022.5.17 協力者情報を更新しました
2022.4.28 対話システムライブコンペティション予選評価対話ログの情報を追加しました
2022.4.28 CABank Japanese CallHome Corpusの情報を追加しました
2022.4.28 大阪大学マルチモーダル対話コーパス (Hazumi)の情報を更新しました
2022.4.28 おーぷん2ちゃんねる対話コーパスの情報を追加しました
2022.4.21 本ページを作成いたしました。