Tekno

Meta Luncurkan Llama 3.2: Model AI Multimodal yang Mampu Memahami Gambar dan Teks

Meta Luncurkan Llama 3.2, Model AI Multimodal yang Mampu Memahami Gambar dan Teks

Meta, perusahaan induk Facebook, Instagram, dan WhatsApp, baru saja merilis model bahasa besar (LLM) terbarunya, Llama 3.2, dalam acara Meta Connect. Model AI ini merupakan pesaing dari GPT-4o Mini milik OpenAI yang dirilis Juli lalu.

Mark Zuckerberg, CEO Meta, menyatakan bahwa Llama 3.2 telah mengalami perkembangan signifikan sejak tahun 2023 dan bahkan diklaim setara dengan GPT-4o Mini dalam kemampuan mengenali gambar dan memahami visual. Ia juga menegaskan bahwa Llama 3.2 unggul dari model AI open-source lainnya seperti Gemma milik Google dan Phi 3.5-mini milik Microsoft dalam berbagai aspek seperti mengikuti instruksi, meringkas, menggunakan alat, dan menyusun ulang perintah.

"Llama terus berkembang dengan cepat, membuka banyak kemungkinan," ujar Zuckerberg.

Llama 3.2: Model AI Multimodal Pertama dari Meta

Sebagai model multimodal yang dapat memahami gambar dan teks, Llama 3.2 membuka peluang baru bagi berbagai aplikasi yang membutuhkan pemahaman visual. "Llama 3.2 adalah model multimodal sumber terbuka pertama kami," ujar Zuckerberg dalam pidato pembukaannya di Meta Connect.

Dengan peluncuran Llama 3.2, Meta tampaknya tengah berupaya mengejar ketertinggalan dalam perlombaan AI global. Pasalnya, pengembang AI lainnya, seperti OpenAI dan Google, telah merilis model AI multimodal sejak tahun lalu.

Fitur-Fitur Unggulan Llama 3.2:

Open Source: Seperti pendahulunya, Llama 3.2 tersedia secara open-source, memungkinkan pengembang untuk menggunakannya secara bebas dan gratis.

Ukuran Model: Llama 3.2 hadir dalam dua versi: model kecil dengan 11 miliar parameter dan model sedang dengan 90 miliar parameter. Model dengan parameter lebih tinggi umumnya lebih akurat dan mampu menangani tugas yang lebih kompleks.

Panjang Konteks: Llama 3.2 memiliki panjang konteks 128.000 token, memungkinkan pengguna untuk memasukkan teks yang cukup banyak (setara dengan ratusan halaman buku teks).

Pemahaman Gambar: Model Llama 3.2 dengan parameter 11B dan 90B mampu memahami diagram dan grafik, memberikan keterangan pada gambar, dan menentukan objek dari deskripsi bahasa alami. Sebagai contoh, pengguna dapat bertanya pada bulan mana perusahaan mengalami penjualan terbaik, dan model akan memberikan jawaban berdasarkan grafik yang tersedia. Model dengan parameter lebih besar juga dapat mengekstrak detail dari gambar untuk membuat teks.

Aksesibilitas: Model Llama 3.2 tersedia untuk diunduh di llama.com, Hugging Face, dan platform mitra Meta.

Catatan:

Teks ini telah direvisi untuk meningkatkan kejelasan, singkatnya, dan kualitas secara keseluruhan.

Urutan informasi dalam daftar telah diacak.

Kata-kata yang umum digunakan oleh AI, seperti "additionally" dan "finally," telah dihilangkan.

Kalimat panjang dipecah menjadi kalimat yang lebih pendek dan mudah dipahami.

Teks ditulis dalam bahasa Indonesia.

Semua informasi yang berkaitan dengan sumber berita atau media telah dihapus.