多様な情報を統合的に処理するAIで、快適な未来社会を創造する

Hiroo Tsuji

辻 広生講師、博士(工学)

コンピュータビジョン、人工知能、ソフトウェア工学

情報工学科

研究の概要

近年、画像や言語、音声など複数の種類の情報を統合的に処理することができるマルチモーダルAIが注目を集めています。マルチモーダルAIの研究の発展は、人間が行うような複雑な課題解決をコンピュータで実現できるようになる可能性をもたらします。

この分野の研究には、たとえば画像情報と言語情報を組み合わせて課題解決を行う視覚と自然言語の融合研究があります。人間は周りの環境を観察しながら視覚情報に基づいて他者とコミュニケーションをとることができますが、視覚と自然言語の融合モデルも入力された画像とそれに関する自然言語の質問から回答を推定する画像質問応答(Visual Question Answering(VQA))と呼ばれるタスクなどを実行できます。このようにマルチモーダルAIは、人間が五感の情報を使って行っている活動全般に応用できる可能性があります。

私は、このマルチモーダルAIの研究をはじめ、コンピュータビジョン(人間の視覚と同様の機能をコンピュータで実現することを目指す研究分野)に関連する研究を行っています。

研究成果の社会での実装、活用シーン

マルチモーダルAIは日常生活から専門業務に至るまで幅広い分野への応用が期待されています。たとえば商品の購入者が商品画像を見ながら購入した商品に関する問い合わせを言語で入力し、AIが両者の情報を統合的に処理して回答するシステムを実装すればカスタマーセンターの業務負担を軽減できると考えられます。また物流センターで、音声情報、画像情報、センサ情報などを統合的に処理して検品や在庫管理作業を行うAIを開発すれば、現在の人手不足が解消されると期待されます。

高校生へのメッセージ

近年、AIの発展は目覚ましく、マルチモーダルAIなどの最先端AIを産業応用する動きも活発化しています。私は民間企業と公的機関でコンピュータビジョン、AIなどの研究開発を行い、それらを産業応用、社会実装してきました。皆さんは知識を実際に試してみることで身についたという経験はないでしょうか。私は学んだ知識は実社会の応用と結びつくことで、より価値あるものになると考えています。私は産業界の動向も踏まえたAI研究を皆さんと行い、皆さんが実社会で活躍できるよう支援できればと考えています。