Fluência não é pedagogia
Modelos de fundação de uso geral são notavelmente fluentes. Pergunte a um sobre o ciclo de Krebs e ele produzirá uma resposta coerente e bem estruturada. O que ele não fará de forma confiável é explicar o ciclo de Krebs de maneira diferente para um aluno que acabou de confundi-lo com a glicólise do que para outro que entende os insumos mas não o rendimento energético. Fluência é uma propriedade da linguagem. Pedagogia é relacional — depende de um modelo do aluno, não apenas de um modelo do assunto. O ajuste de instrução padrão otimiza para ser útil e inofensivo a um usuário anônimo. Ele não otimiza para acompanhar a compreensão em evolução de uma pessoa específica ao longo de uma sessão, uma semana ou um curso. Essa lacuna é o que o nosso pipeline de treinamento existe para fechar.
O que falta a um modelo de fundação
- Estado do aluno — o que essa pessoa específica entende agora e onde está a lacuna
- Dificuldade calibrada — ajustar a complexidade da explicação à prontidão demonstrada, sem adivinhar
- Falha produtiva — saber quando reter a resposta e fazer uma pergunta orientadora em vez disso
- Reparo de concepções errôneas — reconhecer um modelo mental errado, não apenas uma resposta errada
- Contenção — parar na profundidade certa em vez de despejar tudo o que o modelo sabe
O problema dos dados vem primeiro
Toda decisão de treinamento downstream é limitada pelos dados disponíveis para aprender. Texto genérico da web ensina um modelo a parecer uma explicação. Não ensina um modelo o que acontece depois da explicação — se o aluno entendeu, o que perguntou a seguir, onde travou. Construímos nossos corpora de treinamento em torno de traços de interação: diálogos reais de tutoria, anotados conforme onde a confusão do aluno surgiu e qual resposta realmente a resolveu, além de diálogos sintéticos gerados para cobrir lacunas que os dados reais não alcançam. A camada de anotação é a parte cara. Uma transcrição sem um rótulo para "essa explicação funcionou" ou "essa precisou de uma segunda tentativa" é só texto. O rótulo é o que a transforma em um sinal de treinamento para pedagogia, e não para prosa.
Uma transcrição sem um rótulo do que funcionou é só texto. O rótulo é o que a transforma em um sinal de treinamento para pedagogia, e não para prosa.
O pipeline de treinamento, em ordem
- Continuação de pré-treinamento de domínio — pré-treinamento adicional em texto educacional e de tutoria curado, não apenas dados de instrução
- Ajuste fino supervisionado em transcrições de tutoria anotadas — explicações pareadas com resultados de aprendizagem rotulados
- Ajuste fino direcionado a concepções errôneas — um dataset dedicado de padrões de erro conhecidos e as correções que os resolvem
- Otimização de preferência — sinal de recompensa construído a partir de qual das duas explicações produziu melhor compreensão demonstrada, não qual um avaliador preferiu ler
- Ajuste fino de calibração — penalizando respostas erradas confiantes com mais peso do que a incerteza honesta
Por que dados de preferência não podem ser só "qual resposta é melhor"
A maior parte da otimização de preferência na indústria pergunta a avaliadores humanos qual de duas saídas do modelo eles prefeririam ler. Esse sinal recompensa explicações que parecem satisfatórias — abrangentes, confiantes, bem organizadas. Não recompensa explicações que realmente ensinam. As duas frequentemente divergem: a resposta que resolve uma concepção errônea às vezes é mais curta, menos completa, e mais propensa a fazer uma pergunta ao aluno do que a entregar tudo de uma vez. Substituímos a preferência do avaliador por um resultado medido sempre que possível — se o aluno respondeu corretamente uma pergunta de recuperação subsequente após essa explicação, em comparação com a alternativa. Onde esse sinal é muito lento ou esparso para treinar diretamente, usamos um modelo de recompensa treinado especificamente para prevê-lo, em vez de um modelo de recompensa treinado em preferência humana geral.
A coisa mais difícil de treinar em um modelo não é conhecimento. É a disciplina de não dizer tudo o que sabe no momento em que é perguntado.
A avaliação precisa parecer tutoria, não benchmark
Benchmarks padrão de modelos de linguagem medem se um modelo produz uma resposta final correta. Isso é quase irrelevante para um modelo de tutoria, que é julgado pelo caminho até a resposta do aluno, não pela sua própria. Nosso framework de avaliação roda o modelo contra alunos simulados com concepções errôneas específicas e realistas, e o avalia conforme se o estado de crença simulado do aluno se move em direção ao correto ao longo de uma conversa — e quantos turnos isso leva. Um modelo que dá a explicação perfeita de livro no primeiro turno mas deixa a concepção errônea intocada pontua pior do que um que faz uma pergunta esclarecedora primeiro e a resolve até o terceiro turno. Esse é o modelo que termina dentro do Talos e alcança um aluno através do Gripho: não o mais fluente, o que mais confiavelmente muda o que um aluno entende.