NotebookLMで社内情報を一元化！Google Workspace環境でのファイル取り込み

NotebookLM

Python

アドベントカレンダー2025

兼子大地

2025年12月12日

この記事は「BEMA Lab Advent Calendar 2025」の7日目の記事です。
※本アドベントカレンダーの7日目の投稿となります。

こんにちは、株式会社メンバーズデブオプスリードカンパニーの兼子です。
以前NotebookLMを利用して、社長の思考をAIで分析しました。（前回の記事はこちら）
今回は、採用チームと一緒に取り組んでいる、NotebookLMを活用した社内情報整理プロジェクトについてご紹介します。
Google Workspaceを利用している企業で、情報が散らばって困っている方、NotebookLMで効率的にナレッジを統合したい方に向けて、実践的なノウハウをお届けします。

はじめに：散らばる情報、困る採用チーム

採用活動は、多岐にわたる情報を扱います。会社概要、制度説明資料、過去の面接記録、評価基準、FAQなど。これらの情報はGoogle Workspace上のさまざまな場所に分散しています。

「あの資料、どこにあったっけ？」

採用チームのメンバーから、こんな声をよく聞きました。Google Document、Spreadsheet、PDF、そしてGoogle Sitesに散らばった情報を探すだけで、貴重な時間が失われていました。

そこで、NotebookLMを使って、これらの情報を一元化するプロジェクトをスタートさせました。目標は、「どこに何があるか探す時間をゼロにして、採用活動の質を上げること」です。

取り組みの全体像：ファイルタイプ別の戦略

まず直面した課題

プロジェクトを始めてすぐに気づいたのは、社内ファイルの多様性でした。Google Workspace環境では、以下のような複数のファイルタイプが混在しています。

Google Document
PDF
Google Sheets
Google Sites

そして、これらのファイルタイプごとに、NotebookLMへの取り込み方法が異なることが判明しました。

ファイルタイプ別の分類と優先順位付け

まず、各ファイルタイプの特性を整理し、取り込みの難易度を評価しました。(2025/7月時点)

ファイルタイプ	取り込み難易度（当初）
Google Document	低
PDF	高
Google Sheets	高
Google Sites	最高

この分類により、まずはGoogle Documentから着手し、段階的に他のファイルタイプへ展開していく戦略を立てました。

技術的な課題と解決策：ファイルタイプごとの攻略法

それでは、各ファイルタイプをどのように攻略したのか、具体的に見ていきましょう。

Google Document

課題：なし

解決策：NotebookLMはGoogle Documentをネイティブサポートしているため、共有リンクをそのまま貼り付けるだけで読み込めます。

これは最も簡単なパターンで、採用チームの議事録や制度説明資料をスムーズに取り込むことができました。

PDF

当初の課題： PDFファイルは、一度ローカルにダウンロードしてから、NotebookLMに手動でアップロードする必要がありました。ファイル数が多いと、この作業だけで膨大な時間がかかります。

解決策： 2025年11月、Googleが発表したNotebookLMの大型アップデートにより、Google Drive上のPDFファイルのURLを直接読み込めるようになりました。

実装方法：

Google Drive上のPDFファイルを右クリック
「リンクを取得」を選択
URLをコピーして、NotebookLMのソース追加画面に貼り付け

このアップデートにより、PDFファイルをダウンロードせずに即座に取り込めるようになりました。作業効率が劇的に向上した瞬間です。

PDFのソースがダウンロードして追加したものなのか、URL共有で追加したものなのかは、ソースの部分にリンクがあるかどうかで判断することができます。URL共有で追加したものについては、ドライブのリンクが付与されているので、それで確認することができます。

Google スプレッドシート

当初の課題：スプレッドシートは、スプレッドシートの内容を一度Google Documentに添付する必要がありました。

解決策： 2025年11月、Googleが発表したNotebookLMの大型アップデートにより、直接読み込めるようになりました！

これらのデータをNotebookLMに取り込むことで、データの中身の質問に対しても、AIが答えられるようになりました。

Google Sites

課題：Google SitesはNotebookLMのネイティブサポート対象外です。しかし、社内の重要な情報がSitesにまとまっているケースも多くあります。

解決策：Pythonのスクレイピング技術を使って、サイトのテキスト情報を抽出しました。

技術詳細：

動作環境については、Python3.9.6を利用しました。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time

# Chromeをヘッドレスモードで起動
chrome_options = Options()
chrome_options.add_argument("--headless")
driver = webdriver.Chrome(options=chrome_options)

# Google Sitesのページを開く
url = "https://sites.google.com/example.com/your-site"
driver.get(url)
time.sleep(3)  # ページの読み込みを待つ

# ページのHTMLを取得
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')

# テキストコンテンツを抽出
text_content = soup.get_text()

# Markdownファイルとして保存
with open('site_content.md', 'w', encoding='utf-8') as f:
    f.write(text_content)

driver.quit()

このスクリプトで抽出したMarkdownのテキストファイルを、NotebookLMにアップロードすることで、Google Sitesの情報も統合できました。

残る課題：画像内のテキスト情報（例：図表内の説明文）は、このままでは取得できません。

今後の展望：同じく11月のアップデートで、NotebookLMは画像認識機能も追加されました。この機能と組み合わせることで、画像内のテキストも読み取れるようになるため、より完全な情報取得が可能になると期待しています。そのため、スクレイピングのほかにスクリーンショットを取得してその取得したスクリーンショットをソースに追加したいです。