コンテンツにスキップ

Gemini

提供: カノウィキ
Gemini
GoogleによるマルチモーダルAIモデル
開発者(チーム)Google, Google DeepMind
初期リリース日2023年12月6日
最新バージョンGemini 3.0 Pro
OSクロスプラットフォーム
種類大規模言語モデル、マルチモーダルAI
ライセンスプロプライエタリ
ホームページgemini.google.com


Gemini(ジェミニ)は、Google DeepMindが開発したマルチモーダルAIモデルのファミリーである。テキスト、画像、音声、動画など、さまざまな種類の情報をネイティブに統合して処理する能力を持つ。

概要

Geminiは、Googleの最も高性能なAIモデル群であり、当初からマルチモーダルに対応するよう設計されている。最新版の「Gemini 3.0」ファミリーは、前世代の2.5を凌駕する推論能力と効率性を備えている。

  • Gemini 3.0 Pro: ファミリーで最も高性能なモデル。複雑な推論、コーディング、創造的なタスクにおいて最高レベルの性能を発揮する。
  • Gemini 3.0 Deep Think: 高度な推論能力に特化したモデル。難解な数学や科学の問題に対し、思考プロセスを詳細に展開して解答する。
  • Gemini 2.5 Flash: 速度と効率性を重視した軽量モデル。大規模なアプリケーションでの高速応答に引き続き広く利用されている。

歴史

  • 2023年12月6日: Gemini 1.0(Ultra, Pro, Nano)が発表される。
  • 2025年3月25日: 実験的な思考モードを備えたGemini 2.5 Proの実験版がリリースされる。
  • 2025年6月17日: Gemini 2.5 ProとGemini 2.5 Flashの正式版(Stable version)が一般提供開始となる。
  • 2025年11月18日: 最新世代となる「Gemini 3.0 Pro」および「Gemini 3.0 Deep Think」が正式にリリースされる。

主な特徴

マルチモーダル性能

テキストだけでなく、画像、音声、動画といった複数のモダリティ(情報の種類)をネイティブに理解し、それらを組み合わせた複雑な質問にも対応できる。

Deep Think (3.0)

Gemini 3.0で正式に導入された強化推論機能(旧Adaptive Thinkingの進化版)。問題の複雑さに応じて計算リソースを動的に配分し、解決までのステップを論理的に分解(Chain of Thought)して処理することで、難問に対して高い正答率を実現する。

長大なコンテキストウィンドウ

一度に大量の情報を処理できる能力。最大200万トークン以上のコンテキストに対応し、長文のドキュメントや書籍、長時間の動画の内容を一度に読み込んで分析することが可能。

生成機能の強化

  • Imagen 4: テキスト指示から高品質な画像を生成する最新モデル。
  • Veo 3: テキストや画像の指示に基づき、効果音や対話を含んだ1080p解像度の動画を生成できる。
  • ネイティブ音声出力: より人間らしく、自然で感情豊かな音声対話を実現する。

参考サイト