Gemini 是 Google 推出的 多模態大型語言模型(Multimodal Large Language Model, MLLM),支援處理與理解「文字、圖像、音訊、影片與程式碼」等多種形式的輸入資料。現行版本(如 Gemini 1.5)在許多自然語言任務和 AI 對話能力上已超越 Bard 舊版,並整合至 Google 產品,如 Google 搜尋、Gmail、Docs、YouTube 和 Android 裝置中。
功能 | 說明 |
---|---|
🧠 多模態處理 | 可同時理解文字、圖片、影片截圖、PDF 檔、表格等,適合教學與內容分析。 |
📖 長文本處理能力強 | Gemini 1.5 支援超過 100 萬個 token 的上下文長度,能分析長篇文章、技術手冊或書籍。 |
💬 對話生成與問答能力 | 能回答複雜問題、協助寫作、摘要、改寫、翻譯等任務。 |
🧑💻 程式碼生成與除錯 | 支援多種程式語言,具備程式碼撰寫、解釋與修正功能。 |
📷 圖像與文件分析 | 能分析圖片內容、辨識圖表資訊,甚至解釋 PDF 中的視覺結構。 |
🌐 多語言理解與翻譯 | 精通中、英、日、韓等多語系翻譯與語意理解。 |
🧩 與 Google 產品深度整合 | 已整合至 Gmail、Google Docs、Sheets、Slides、Google 搜尋、Android 裝置(如 Pixel)中。 |