AILIBERALMEDIA
NVIDIA、ドキュメント・音声・動画対応のマルチモーダルAI「Nemotron 3 Nano Omni」発表
← 一覧に戻る
Nvidia生成AI音声AI

NVIDIA、ドキュメント・音声・動画対応のマルチモーダルAI「Nemotron 3 Nano Omni」発表

速 報2026.04.29 03:31

NVIDIAが新しいオムニモーダル理解モデル「Nemotron 3 Nano Omni」を発表。ドキュメント分析、画像推論、音声認識、長尺動画理解に対応し、複数のベンチマークで最高精度を達成。従来型と比べスループットが最大9倍、推論速度が2.9倍向上。

NVIDIA Nemotron 3 Nano Omniは、実世界のドキュメント分析、複数画像の推論、自動音声認識、長尺音声動画理解、エージェント型コンピュータ使用、および一般的な推論のために構築された新しいオムニモーダル理解モデルです。

このモデルは、Nemotronマルチモーダルラインを強力なビジョン言語システムからテキスト、画像、動画、音声に対応したより広範なモデルへと拡張しています。

Nemotron 3 Nano Omniは、MMlongbench-DocやOCRBenchV2などの複雑なドキュメントインテリジェンスベンチマークにおいて最高レベルの精度を提供し、WorldSenseやDailyOmniといった動画・音声ベンチマークでも首位を争っています。音声理解ではVoiceBenchで最高精度を達成し、MediaPerfではコスト効率に優れたオープンソース動画理解モデルとして上位にランクされています。

内部的には、Nemotron 3ハイブリッドMamba-TransformerMixture-of-Experts(混合専門家)バックボーンとC-RADIOv4-H視覚エンコーダ、Parakeet-TDT-0.6B-v2音声エンコーダを組み合わせています。アーキテクチャは高密度画像、ドキュメント、動画、マルチモーダル推論向けに設計されています。トレーニング手法は段階的マルチモーダルアライメントとコンテキスト拡張を採用しています。

Nemotron 3 Nano Omniは、マルチモーダルユースケースにおいて他のソリューションと比較して最大9倍高いスループットと2.9倍の単一ストリーム推論速度を実現します。

HuggingFaceではBF16、FP8、NVFP4チェックポイントがダウンロード可能です。

モデルアーキテクチャ、トレーニング手法、データパイプライン、ベンチマークについての詳細情報は、完全なNemotron 3 Nano Omniレポートで確認できます。

Nemotron Nano V2 VLを基盤として開発されたNemotron 3 Nano Omniは、視覚的な大幅な改善を実現し、完全に新しい音声機能と動画・音声機能を追加する一方で、他のオープンウェイトのオムニモデルであるQwen3-Omniを多くの領域で上回る性能を発揮しています。

PR / 広告

すべてのWebサイトに AIアシスタントをつけよう。

  • YouTubeの要約やウェブサイトの分析など、使い方は無限大
  • 最新AIモデルを1つに統合しコストを削減
  • 500万人以上が利用する信頼のブランド
無料で始める
クーポンコードMERLIN20で20%オフ

関連記事

MistralがLe ChatをVibeに改名——メール・コード・レポートをこなす全機能型ワークエージェントへ
LLM生成AIビジネス

MistralがLe ChatをVibeに改名——メール・コード・レポートをこなす全機能型ワークエージェントへ

2026.05.28 13:33
iPhoneユーザーが語る:車内アシスタントはAndroid AutoのGeminiがSiriより断然優れている理由
Google生成AI音声AI

iPhoneユーザーが語る:車内アシスタントはAndroid AutoのGeminiがSiriより断然優れている理由

2026.05.28 13:33
AIコンピュート競争が生んだ次世代チップメーカー——General ComputeとSambaNova連合の挑戦
ビジネスLLMNvidia

AIコンピュート競争が生んだ次世代チップメーカー——General ComputeとSambaNova連合の挑戦

2026.05.28 13:32