ディープラーニングを使用して自動タイトルタグを最適化する方法に関するSemaltアドバイス



SEOランキングをリードする簡単な方法は、タイトルタグに上位のキーワードを含めることです。そして、少し考えてみると、それが確かに賢い解決策であることがわかります。タイトルにそのキーワードが含まれていないキーワードですでにランク付けされているページがある場合は、タイトルにキーワードを含めることの重要性を想像してください。当然、そのキーワードに対してより頻繁にインデックスが作成されます。したがって、あなたはより良いランクになります。

これで、そのキーワードを取得してメタディスクリプションに追加すると、検索結果で強調表示され、より多くの検索エンジンユーザーがクリックする可能性が高くなります。もちろん、これはウェブサイトに利益をもたらします。

Semaltが数百、数千、または数百万のページを持つWebサイトで作業していたと想像してください。これを手動で行う必要がある場合は、時間がかかり、すぐにかなりの費用がかかります。では、どのようにしてそのページを分析し、各タイトルとメタの説明を最適化できるでしょうか。解決策は、マシンを使用することです。各ページで最高ランクのキーワードを見つけるように機械に教えることで、時間とコストを節約できます。マシンを使用すると、データ入力チームよりもパフォーマンスが向上し、高速になる可能性があります。

UberのLudwigとGoogleのT5を再紹介しましょう

UberのLudwigとGoogleのT5を組み合わせることで、非常に強力なシステムを手に入れることができます。

要約すると、Ludwigはオープンソースの自動MLツールであり、ユーザーはコードを記述せずに高度なモデルをトレーニングできます。

一方、Google T5は、SERTスタイルのモデルの優れたバージョンです。 T5は、検索クエリやその他の多くの機能を要約、翻訳、質問への回答、分類することができます。一言で言えば、それは非常に強力なモデルです。

ただし、T5がタイトルタグの最適化のためにトレーニングされていることを示すものはありません。しかし、多分私たちはそれを行うことができます、そしてここに方法があります:
  • 次の例を使用して、トレーニング済みのデータセットを取得します。
    • ターゲットキーワードのない元のタイトルタグ
    • 私たちのターゲットキーワード
    • ターゲットキーワードで最適化されたタイトルタグ
  • 使用するT5チューニングコードとチュートリアル
  • モデルをテストできるように、最適化されていないタイトルのセットを用意します
すでに作成されているデータセットから始め、データセットの作成方法に関するガイドを提供します。

T5の作成者は、T5を微調整するために使用する詳細なGoogleColabノートブックを提供してくれました。それを勉強することに時間を費やした後、私たちは任意の雑学クイズに答えることができました。 Colabノートブックには、新しいタスクのためにT5を微調整する方法に関するガイドラインもあります。ただし、コードの変更と必要なデータの準備を見ると、多くの作業が必要であり、私たちのアイデアは完璧かもしれないことがわかります。

しかし、もっと簡単にできるとしたらどうでしょうか。数か月前にリリースされたUberLudwigバージョン3のおかげで、いくつかの非常に便利な機能が組み合わされています。 Ludwigの3.0バージョンには次のものが付属しています。
  • モデルから追加のパフォーマンスを引き出すハイパーパラメータ最適化メカニズム。
  • HuggingFaceのTransformersリポジトリとのコードフリー統合。これにより、ユーザーは、GPT-2、T5、DistilBERT、Electraなどの更新されたモデルにアクセスして自然言語処理タスクを実行できます。このようなタスクには、分類感情分析、名前付きエンティティの認識、質問応答などが含まれます。
  • これは、より新しく、より高速で、モジュール式であり、TensorFlow2に依存するより拡張可能なバックエンドを備えています。
  • Apache Parquet、TSV、JSONなどの多くの新しいデータ形式のサポートを提供します。
  • すぐに使用できるk分割交差検証が有効になっています。
  • ウェイトとバイアスと統合すると、複数のモデルトレーニングプロセスの管理と監視に使用できます。
  • ノイズの多いラベルをサポートする新しいベクトルデータ型があります。これは、弱い監督を扱っている場合に役立ちます。
いくつかの新機能がありますが、最も便利な機能の1つとしてHuggingFaceのトランスフォーマーへの統合が見つかりました。ハグフェイスパイプラインを使用すると、タイトルとメタディスクリプションの生成に関するSEOの取り組みを大幅に改善できます。

パイプラインの使用は、すでにトレーニングされており、モデルバブですでに利用可能なモデルで予測を実行するのに最適です。ただし、現在、必要な処理を実行できるモデルはないため、LudwigとPipelineを組み合わせて、Webサイトのすべてのページに手ごわい自動タイトルとメタディスクリプションを作成します。

Ludwigを使用してT5を微調整するにはどうすればよいですか?

これは重要な質問です。クライアントのウェブサイトの背景で何が起こっているのかを正確に示すようにしています。このあたりには、「T5のトレーニングにルートヴィヒを使用するのはとても簡単なので、違法にすることを検討する必要がある」という決まり文句があります。真実は、同等のことを行うためにAIエンジニアを雇わなければならなかったとしたら、クライアントにはるかに高い料金を請求していたでしょう。

ここでは、T5を微調整する方法を説明します。
  • ステップ1:新しいGoogleColabノートブックを開きます。その後、GPUを使用するようにランタイムを変更します。
  • すでにまとめられているHootsuiteデータセットをダウンロードします。
  • 次に、Ludwigをインストールします。
  • インストール後、トレーニングデータセットをパンダデータフレームにロードし、それがどのように見えるかを確認します。
  • 次に、適切な構成ファイルを作成するという最も重要なハードルに直面します。
完璧なシステムを構築するには、T5のドキュメントと、正しくなるまで試行錯誤を繰り返す必要があります。 (ここで生成するPythonコードを見つけることができれば、大いに役立ちます。)

入力機能と出力機能の辞書を確認し、設定が正しく選択されていることを確認してください。正しく行われると、Ludwigは実行中のモデルとして「t5-small」の使用を開始します。より大きなT5モデルの場合、モデルハブでの変更が容易であり、その生成が改善される可能性があります。

モデルを数時間トレーニングした後、印象的な検証精度が得られ始めます。

Ludwigは、他の重要なテキスト生成測定値、主にパープレキシティと編集距離を自動選択することに注意することが重要です。これらは両方とも、私たちに適切に適合する低い数値です。

トレーニング済みモデルを使用してタイトルを最適化する方法

モデルをテストすることは、本当に興味深い部分です。

まず、トレーニング中にモデルから見えないままになっている、最適化されていないHootsuiteタイトルを含むテストデータセットをダウンロードします。次のコマンドを使用して、データセットをプレビューできます。

!頭

Hootsuite_titles_to_optimize.csv

LudwigとT5が小さなトレーニングセットで多くのことを実行でき、高度なハイパーパラメータ調整を必要としないことは非常に印象的です。適切なテストは、ターゲットキーワードとどのように相互作用するかにかかっています。それはどれくらいうまくブレンドしますか?

Streamlightを使用したタイトルタグ最適化アプリの構築

コンテンツ作成者は、このアプリケーションが最も役立つと感じています。技術的な知識をあまり必要としない、使いやすいアプリがあれば素晴らしいと思いませんか?そうですね、それこそがStreamlightの目的です。

そのインストールと使用は非常に簡単です。次を使用してインストールできます。

!pipインストールの合理化

このモデルを活用したアプリを作成しました。必要に応じて、モデルをトレーニングするのと同じ場所から実行することも、すでにトレーニング済みのモデルをスクリプトの実行を計画している場所にダウンロードすることもできます。また、最適化したいタイトルとキーワードを含むCSVファイルを用意しました。

次に、アプリを起動します。モデルを実行するには、最適化するタイトルとキーワードを含むCSVファイルへのパスを指定する必要があります。 Ludwigのトレーニング中は、CSV列名が名前と一致する必要があります。モデルがすべてのタイトルを最適化していない場合でも、慌てる必要はありません。まともな数を正しく取得することも大きな前進です。

Pythonの専門家として、これを使用すると非常に興奮します。これは通常、血液を送り出すためです。

トレーニングするカスタムデータセットを作成する方法

Hootsuiteのタイトルを使用すると、クライアントにとってはうまく機能するが、競合他社にとってはデフォルトになる可能性のあるモデルをトレーニングできます。そのため、独自のデータセットを確実に作成します。その方法は次のとおりです。
  • Google SearchConsoleまたはBingWebmasterToolsからの独自のデータを活用します。
  • 別の方法として、SEMrush、Moz、Ahrefsなどからクライアントの競合データを取得することもできます。
  • 次に、タイトルタグのスクリプトを作成し、ターゲットキーワードがあるタイトルとないタイトルを分割します。
  • キーワードを使用して最適化されたタイトルを取得し、キーワードを同義語に置き換えるか、タイトルが「最適化解除」されるように他の方法を使用します。

結論

セマルト タイトルタグとメタディスクリプションを自動的に最適化するためにここにあります。そうすることで、SERPを先取りすることができます。ウェブサイトの分析は決して簡単な作業ではありません。そのため、これを支援するためにマシンをトレーニングすると、コストが節約されるだけでなく、時間も節約されます。

Semaltには、データセット、Ludwig、T5を設定して、常に勝ち続けることができる専門家がいます。

今日お電話ください。

mass gmail