プロジェクト > SIDB - 名古屋大学同時通訳データベース
SIDB - 同時通訳データベース
公開URL
概要
1999 年度から2003 年度までの5 年間にわたり同時通訳コーパスを構築してきた。全体で約182 時間の音声を収録し,音声の文字化,視覚化,および,言語分析を完了している。文字化データのサイズは単語数(形態素数)にして約100 万語に達する世界最大規模の同時通訳コーパスである。日常に関する独話(講演)や旅行における対話などを収録している英語と日本語双方向のコーパスである。
関連論文
1. データベースの構築
- 遠山 仁美, 松原 茂樹: 同時通訳研究のための大規模音声データベースとその利用, 2005年日本通訳学会年次大会 (2005.9) [PDF]
- 遠山 仁美, 松原 茂樹, 笠 浩一朗, 河口 信夫, 稲垣 康善: 同時通訳研究のための対訳コーパスの設計と構築, 言語処理学会第11回年次大会発表論文集, pp.966-969 (2005.3) [PDF]
- Hitomi Toyama, Shigeki Matsubara, Koichiro Ryu, Nobuo Kawaguchi, Yasuyoshi Inagaki: CIAIR Simultaneous Interpretation Corpus, Proceedings of the oriental chapter of the International Committee for the Co-ordination and Standardization of Speech Databases and Assessment Techniques for Speech Input/Output (Oriental COCOSDA 2004) (2004.11) [PDF]
- Koichiro Ryu, Shigeki Matsubara, Nobuo Kawaguchi and Yasuyoshi Inagaki: Bilingual Speech Dialogue Corpus for Simultaneous Machine Interpretation Research, Proceedings of Oriental COCOSDA-2003, pp. 217-224, Sentosa, Singapore, Oct. (2003) PDF File
- Shigeki Matsubara,Akira Takagi, Nobuo Kawaguchi,and Yasuyoshi Inagaki : Bilingual Spoken Language Corpus for Simultaneous Machine Interpretation Research, Proceedings of 3rd International Language Resources and Evaluation Conference, (LREC-2002),Vol. I, pp. 153-159, Canary, Spain, May (2002). PDF File
- 松原 茂樹,相澤 靖之,河口 信夫,外山 勝彦,稲垣 康善: 同時通訳コーパスの設計と構築, 通訳研究,No.1, pp. 85-102, Dec. (2001).
- Yasuyuki Aizawa, Shigeki Matsubara,Nobuo Kawaguchi,Katsuhiko Toyama and Yasuyoshi Inagaki: Spoken Language Corpus for Machine Interpretation Research, Proceedings of the 6th International Conference on Spoken Language Processing (ICSLP-2000), Vol. III, pp. 398-401, Beijing, Oct. (2000). PDF File
2. コーパスの分析
- Takahiro Ono, Hitomi Tohyama, Shigeki Matsubara: Construction and Analysis of Word-level Time-aligned Simultaneous Interpretation Corpus, Proceedings of 6th International Conference on Language Resources and Evaluation (2008.5) [PDF]
- 小野 貴博, 遠山 仁美, 松原 茂樹: 大規模音声コーパスを用いた日英・英日同時通訳における訳出遅延の比較分析, 通訳研究 第7号, pp.49-64 (2007.12) [PDF]
- 小野 貴博, 遠山 仁美, 松原 茂樹: 同時通訳における訳出遅延時間の定量的分析, 電子情報通信学会技術研究報告, Vol. 107, No. 138, pp.7-11 (2007.7) [PDF]
- 小野 貴博, 松原 茂樹: 同時通訳コーパスにおける単語発声時間の自動推定, 電子情報通信学会2007年総合大会講演論文集 (2007.3) [PDF]
- Hitomi Tohyama, Shigeki Matsubara: Influence of Pause Length on Listeners' Impressions in Simultaneous Interpretation, The Ninth International Conference on Spoken Language Processing (Interspeech 2006_ICSLP), pp.893-896 (2006.9) [PDF]
- Hitomi Tohyama, Shigeki Matsubara: Development of Web-based Teaching Material for Simultaneous Interpreting Learners using Bilingual Speech Corpus, World Conference on Educational Multimedia, Hypermedia & Telecommunications, pp.2906-2911 (2006.6) [PDF]
- Hitomi Tohyama, Shigeki Matsubara: Collection of Simultaneous Interpreting Patterns by Using Bilingual Spoken Monologue Corpus, International Conference on Language Resources and Evaluation (LREC2006), pp.2564-2569 (2006.5) [PDF]
- 遠山 仁美, 松原 茂樹: 同時通訳者発話におけるフィラーが聴者の聴きやすさに与える影響, 電子情報通信学会2006年総合大会講演論文集, CD-ROM S-40, S-41 (2006.3) [PDF]
- 遠山 仁美, 松原 茂樹: 同時通訳における聴きやすさとポーズの関係 ―同時通訳コーパスを用いた被験者実験による分析―, 日本通訳学会, 通訳研究, 第5号, pp.137-155 (2005.12) [PDF]
- Zhe Ding, Koichiro Ryu, Shigeki Matsubara, Masatoshi Yoshikawa: Interpreting Unit Segmentation of Conversational Speech in Simultaneous Interpretation Corpus, International Conference on Speech Database and Assessments (Oriental COCOSDA-2005), pp.148-152 (2005.12) [PDF]
- Hitomi Tohyama, Shigeki Matsubara, Nobuo Kawaguchi, Yasuyoshi Inagaki: Construction and Utilization of Bilingual Speech Corpus for Simultaneous Machine Interpretation Research, Proceedings of 9th European Conference on Speech Communication and Technology (Eurospeech-2005), pp.1585-1588 (2005.9) [PDF]
- 丁 喆, 笠 浩一朗, 松原 茂樹, 吉川 正俊: 日本語対話文の節分割に基づく同時的な翻訳単に関する考察, 電気関係学会東海支部連合大会 (2005.9) [PDF]
- 遠山 仁美, 松原 茂樹: 聴きやすい同時通訳 ―ポーズが聴き手に与える影響―, 電子情報通信学会ソサイエティ大会 (2005.9) [PDF]
- 遠山 仁美, 松原 茂樹: 同時通訳コーパスを用いた通訳者の発話速度の分析, 2005年電子情報通信学会総合大会, 予稿集CD-ROM S-87,88 (2005.3) [PDF]
- 大原 誠,松原 茂樹,笠 浩一朗,河口 信夫,稲垣 康善: 同時通訳を介した異言語間対話の時間的特徴--逐次通訳との比較に基づく対訳コーパスの分析, 通訳研究,No.3, pp. 34-52, Dec. (2003).
- 遠山 仁美,松原 茂樹: 同時通訳コーパスを用いた通訳者の訳出パターンの分析, 電子情報通信学会技術報告,Dec. (2003). PDF File
- 笠 浩一朗,松原 茂樹,河口 信夫,稲垣 康善: 同時通訳コーパスを用いた通訳単位の統語的分析, 情報処理学会全国大会,Mar. (2003).
- 大原 誠,松原 茂樹,笠 浩一朗,河口 信夫,稲垣 康善: 対話同時通訳コーパスの構築とその特徴分析, 電子情報通信学会技術報告,TL2002-25, pp. 5-10, Oct. (2002). PDF File
- Akira Takagi, Shigeki Matsubara, Nobuo Kawaguchi and Yasuyoshi Inagaki: A Corpus-based Analysis of Simultaneous Interpretation, Proceedings of International Joint Conference of the 5th Symposium on Natural Language Processing (SNLP-2002),pp. 167-174, Hua Hin, Prachuapkirikahan, Thailand,May (2002). PDF File
- 高木 亮,松原 茂樹,稲垣 康善: 同時通訳コーパスを用いた通訳発声タイミングの分析, 言語処理学会第8回年次大会発表論文集, Mar. (2002). PDF File
- 相澤 靖之,松原 茂樹,河口 信夫,外山 勝彦,稲垣 康善: 日英同時通訳のためのパラレル会話コーパスの分析, 電気関係学会東海支部連合大会,629,Sep. (2000).
3. システムの開発
- Koichiro Ryu, Atsushi Mizuno, Shigeki Matsubara, Yasuyoshi Inagaki: Incremental Japanese Spoken Language Generation in Simultaneous Machine Interpretation, Proceedings of Asian Symposium on Natural Language Processing to Overcome language Barriers, pp. 91-95, Hainan Island, China, Mar. (2004).PDF File
- 大原 誠,松原 茂樹,笠 浩一朗,河口 信夫,稲垣 康善: 同時通訳を介した異言語間対話の時間的特徴 --逐次通訳との比較に基づく対訳コーパスの分析, 通訳研究,No.3, pp. 34-52, Dec. (2003).
- 水野 敦,笠 浩一朗,松原 茂樹,稲垣 康善: 英日同時通訳における倒置を用いた日本語生成手法, 電気関係学会東海支部連合大会講演論文集, p. 269, Oct. (2002).
- 高木 亮,松原 茂樹,稲垣 康善: 同時通訳コーパスの対訳アライメント手法とその評価, 情報処理学会第63回全国大会講演論文集, Mar. (2002). PDF File
- Shigeki Matsubara,Keiichi Iwashima,Nobuo Kawaguchi, Katsuhiko Toyama and Yasuyoshi Inagaki: Simultaneous Japanese-English Interpretation based on Early Prediction of English Verb, Proceedings of the 4th Symposium on Natural Languauge Processing(SNLP-2000) , pp. 268-273, Chiangmai, May. (2000). PDF File
4. コーパスの利用
- 高木亮,松原 茂樹,稲垣 康善: 対訳コーパス自動対応づけ手法の定量的評価法 2003年電子情報通信学会総合大会講演論文集,Mar. (2003).
- 高木 亮,松原 茂樹,稲垣 康善: 同時通訳コーパスにおける発話対応関係の推定, 情報処理学会講演論文集,pp. 249-250, Sep. (2001). PDF File