Backstopプレディクティブコーディングソフトウェア

多言語の複雑で大規模なデータセットに最適なプレディクティブコーディングソリューション

すべてのプレディクティブコーディングソフトウェアが同じように作られているわけではありません。従来のプレディクティブコーディングソフトウェアは、最低限の学習またはシードドキュメントで、人間の仕分けの判断をどれだけ正確に模倣できるかが重要とされていました。しかし、多言語のドキュメントで構成される大規模かつ複雑な案件に使われるプレディクティブコーディングソフトウェアには、これ以上のことが求められます。2007年以来、Backstopはあらゆるタイプと規模の案件に活用されてきました。この幅広い経験のおかげで、Backstopは、Consilioのお客様に共通する複雑なデータセットのニーズに応えることができるソフトウェアへと成長しました。Backstopプレディクティブコーディングの優れた能力を以下にご紹介します。

特徴

  • 日本語、中国語、韓国語をはじめとする、多言語データセットをサポート
  • 少ないドキュメントで、ソフトウェアに正確に「学習」させることが可能
  • 速度を落とさずに大規模案件にも対応

多言語データセットで発揮される真価

Backstopプレディクティブコーディングソフトウェアは、グローバルに展開する企業の収集データに共通して見られるデータセットに対して活用されてきました。データセットの言語は、日本語、中国語、イタリア語、スウェーデン語、ポルトガル語、ドイツ語などさまざまです。さらに、Backstopは、1つのドキュメント集合内に複数の言語が入り混じっている場合にその真価を発揮します。他のプレディクティブコーディングソフトウェアでは、事前に言語ごとにコーパスを分ける作業が必要になりますが、Backstopではこれを行わずに分析することができます。特に、Backstopの特徴分類機能は、非常に正確に言語を特定でき、ドキュメント内の特徴となるコンセプトのモデリングに優れています。また、ドキュメントの集合で見つかった言語に順応する自己最適化アルゴリズムを備えています。Backstopプレディクティブコーディングソフトウェアは世界中のConsilioのデータセンター内に展開されているため、ドキュメントで使われる言語の大半が英語でない地域でも利用できます。これらのすべての特徴を持っているため、多言語が混在するドキュメントコーパスに極めて有効なソフトウェアとなりました。

少ない学習ドキュメントで優れた精度を実現

「コンピューターに学習させるにはどれくらいの量のドキュメントをレビューすればいいの?」これは、プレディクティブコーディングのワークフローをこれから始めようとする弁護士が誰でも疑問に思うことです。Backstopのプレディクティブコーディングソフトウェアが必要とするシードドキュメントの量は比較的少ない、というのが、同一条件の対照比較を複数行った結果得られた答えです。Backstopプレディクティブコーディングにはパラメータ最適化と優れた機能抽出が備わっており、仕分けされたすべての学習ドキュメントを最大限に活用することができます。このため、コンピューターモデルは許容できる誤差の範囲内ですばやく安定します。つまり、Backstopは他のソフトウェアよりも少ない学習ドキュメントで、再現率と適合率の両方において、高精度のモデルに到達します。通常、たった1,000点のドキュメント*をレビューしただけで、このソフトウェアは理想的な再現率目標に到達することができます。このため、訴訟チームは関連性が高いドキュメントをコーパス内から見つけて優先順位を付けることができます。

お客様の案件をサポートするスピードと拡張性

プレディクティブコーディングソフトウェアは、どんなに学習セットの量が膨大でも、予測をすばやくモデル化し、提供する必要があり、分析するコーパスの規模に関係なく、ドキュメント集合のバランスをスコア化します。この間、訴訟チームは結果を待ち、レビューチームは自分の出番を待っています。処理が遅いとこの時間が無駄になってしまいます。Backstopプレディクティブコーディングソフトウェアは、予測を高速に生成するために、大量の並列処理が可能な分散データストアアーキテクチャーに基づいて構築されいます。予測を生成するために必要に応じて追加でプロセッサーコアを占有するよう構築されており、これにかかる時間は、通常1時間未満です。Backstopソフトウェアは、5,000万点ものドキュメントから成る案件でもすばやく機能し、6時間もかからずにドキュメントのスコアを生成することができます。

Resources