2025/12/29(月)2025-12-29
おめざめ
0800 まったりおめざめ。
コーディング
年末年始、趣味のコーディングを進める。今年はLLMを活用した何かが出来ないかなーと考えている。
アイデア決め
今一番困ってて、かつ解決したいこと、という事で名刺管理の問題を解決するツールを作ることにした。名刺をスキャンしてテキスト化するのは簡単だけど、その後の管理が面倒。そこで、LLMを使って名刺情報を自動で整理・分類し、検索しやすくするツールを作ることにした。
実装
まずは名刺の画像をアップロードしてテキスト化する部分を実装。次に、LLMを使ってテキスト化された情報を解析し、名前、会社名、役職、連絡先などのフィールドに分ける処理を追加。テキスト化する部分はOCRライブラリを使うべきなのだろうけれど、個人で簡単に使えるOCRライブラリって何だろうね?っていう感じでOCR部分についてもVLMを活用することにした。
テスト
名刺画像をいくつか用意して、ツールにアップロード。LLMが正しく情報を抽出・分類できているかを確認。いくつかのケースでうまく動作しない部分もあったので、LLMへのプロンプトを調整したり、前処理・後処理のロジックを改善したりして精度を向上させた。何よりも用いるVLM対応のモデルにより全然精度が変わるので、いい勉強になった。
ラーメン納め
例年通り、年末のラーメン納め。今年も地元の行きつけ(?)のラーメン屋さんで。やっぱりここのラーメンは最高においしい。