Rumo a uma IA que entende o mundo como os humanos
O recente gerador de imagens a partir de texto Sora da OpenAI exibiu capacidades impressionantes, mas um novo artigo de pesquisa da Meta chamado V-JEPA (Video Joint Embedding Predictive Architecture) poderia provar ainda mais monumental a longo prazo no caminho em direção à inteligência artificial geral (AGI). Aqui está o link para o artigo.
Em vez de focar exclusivamente em expandir modelos, o Cientista Chefe de IA da Meta, Yann LeCun, acredita que uma abordagem totalmente nova é necessária, que imite como bebês humanos podem aprender muito mais rápido simplesmente observando o mundo físico. Depois que um bebê viu um ou dois gatos, ele pode reconhecer praticamente qualquer gato e entender seu comportamento típico. Os algoritmos de IA atuais exigem quantidades massivas de dados e poder computacional para realizar a mesma coisa.
O problema pode ser que os algoritmos atuais são excessivamente detalhistas, dissecando o mundo pixel por pixel, em vez de de forma holística como os humanos. Ao nadar no oceano, nós não contabilizamos meticulosamente as gotas d'água para prever ondas iminentes.
O método V-JEPA aborda isso, de certa forma, pedindo menos do algoritmo. Em vez de buscar padrões em todos os pixels de um vídeo, seções principais são removidas e o software deve adivinhar amplamente o que está faltando. Por exemplo, se um avião fosse apagado de uma cena do céu, um humano simplesmente diria “o avião”, não enumeraria todos os elementos de fundo presentes.
À medida que o AI aprende a prever o conteúdo de espaços ausentes, ele desenvolve uma compreensão geral do mundo de acordo com o documento, o que LeCun denomina de "modelo de mundo", em vez de um preciso ao nível de pixel. A próxima fase incorporará áudio, o que, se eficaz de acordo com a hipótese de LeCun, poderia ser o primeiro passo para que os computadores alcancem uma compreensão robusta mais rápido e com menos dados do que se pensava possível anteriormente.



